このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240820となっている論文です。

PDF登録状況(公開日: 20240820)

TitleAuthorsAbstract論文公表日・翻訳日
# OpenCapマーカーレスモーションキャプチャーによるサイクリングにおける下肢運動学とダイナミックスの推定

OpenCap markerless motion capture estimation of lower extremity kinematics and dynamics in cycling ( http://arxiv.org/abs/2409.03766v1 )

ライセンス: Link先を確認
Reza Kakavand, Reza Ahmadi, Atousa Parsaei, W. Brent Edwards, Amin Komeili, (参考訳) マーカーレスモーションキャプチャは、物理的マーカーの必要性を排除することで、従来のマーカーベースのシステムよりもいくつかの利点を提供する。 コンピュータビジョンとディープラーニングアルゴリズムを利用することで、マーカーレスシステムは人間の身体のランドマークを直接検出し、マーカー配置に関連する手作業の処理とエラーを減らすことができる。 これらのシステムは適応可能であり、ユーザ定義の機能を追跡することができ、スマートフォンカメラのようなコンシューマグレードのデバイスを使用して現実世界のアプリケーションに実用的である。 本研究では,マーカーレスモーションキャプチャシステムであるOpenCapと,サイクリングバイオメカニクス評価における従来のマーカーベースシステムとの比較を行った。 健常成人10名を対象に, 両法を用いて, 矢状股関節, 膝, 足首運動学, 運動学の計測実験を行った。 OpenCapはスマートフォンのビデオと統合コンピュータビジョンと筋骨格シミュレーションを使って3Dキネマティクスを推定した。 その結果, 両システム間には高い一致性を示し, 股関節, 膝, 足首の運動学的, 運動学的測定に有意差は認められなかった。 相関係数は0.98を超え、非常に強い一貫性を示した。 誤差は最小限であり, 運動誤差は4度以下, 運動誤差は5Nm以下であった。 本研究は、OpenCapがマーカーベースのモーションキャプチャーの代替として有効であり、股関節(屈曲/伸展)、膝(屈曲/伸展)、足関節(背屈/足関節屈曲)の広範囲なセットアップを伴わない精度を提供する。 今後,足関節計測の精度を高め,解析を3次元運動学・運動学に拡張し,総合的な生体力学的評価を行う。

Markerless motion capture offers several benefits over traditional marker-based systems by eliminating the need for physical markers, which are prone to misplacement and artifacts. Utilizing computer vision and deep learning algorithms, markerless systems can directly detect human body landmarks, reducing manual processing and errors associated with marker placement. These systems are adaptable, able to track user-defined features, and practical for real-world applications using consumer-grade devices such as smartphone cameras. This study compares the performance of OpenCap, a markerless motion capture system, with traditional marker-based systems in assessing cycling biomechanics. Ten healthy adults participated in experiments to capture sagittal hip, knee, and ankle kinematics and dynamics using both methods. OpenCap used videos from smartphones and integrated computer vision and musculoskeletal simulations to estimate 3D kinematics. Results showed high agreement between the two systems, with no significant differences in kinematic and kinetic measurements for the hip, knee, and ankle. The correlation coefficients exceeded 0.98, indicating very strong consistency. Errors were minimal, with kinematic errors under 4 degrees and kinetic errors below 5 Nm. This study concludes that OpenCap is a viable alternative to marker-based motion capture, offering comparable precision without extensive setup for hip (flexion/extension), knee (flexion/extension), and ankle (dorsiflexion/plantarflexion) joints. Future work should aim to enhance the accuracy of ankle joint measurements and extend analyses to 3D kinematics and kinetics for comprehensive biomechanical assessments.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-20
# マイクロサービスにおけるアーキテクチャソフトウェアパフォーマンス設計パターンの実験的評価

Experimental evaluation of architectural software performance design patterns in microservices ( http://arxiv.org/abs/2409.03792v1 )

ライセンス: Link先を確認
Willem Meijer, Catia Trubiani, Aldeida Aleti, (参考訳) マイクロサービスアーキテクチャとデザインパターンは、柔軟性を促進することによって、大規模アプリケーションの開発を促進する。 産業実践者は、アーキテクチャパターンを適用することの重要性を認識しますが、システム品質の要求に対する影響を定量化するのに苦労しています。 我々の研究は、設計パターンがシステムパフォーマンス指標、例えばサービス遅延やリソース利用に与える影響を定量化することを目的としています。 当社はクラウドインフラストラクチャを構築して、テストベッドを表す確立したベンチマークシステムをホストし、ゲートウェイアグリゲーション、ゲートウェイオフロード、パイプ、フィルタという3つのデザインパターンの実装を補完しました。 実性能測定は、過去の研究の一環として得られたモデルに基づく予測と比較し、これらのパターンの実際の影響をさらに強化する。 その結果,ベンチマークシステムのパラメータ化が困難であるにもかかわらず,モデルに基づく予測は実実験と一致していることがわかった。 まとめると、マイクロサービスベースのアーキテクチャパターンのパフォーマンス挙動を実験的に示すのは、これが初めてである。 その結果、設計パターンの性能を評価する複雑さを強調し、経験的データで理論モデルを補完する必要性を強調した。

Microservice architectures and design patterns enhance the development of large-scale applications by promoting flexibility. Industrial practitioners perceive the importance of applying architectural patterns but they struggle to quantify their impact on system quality requirements. Our research aims to quantify the effect of design patterns on system performance metrics, e.g., service latency and resource utilization, even more so when the patterns operate in real-world environments subject to heterogeneous workloads. We built a cloud infrastructure to host a well-established benchmark system that represents our test bed, complemented by the implementation of three design patterns: Gateway Aggregation, Gateway Offloading, Pipe and Filters. Real performance measurements are collected and compared with model-based predictions that we derived as part of our previous research, thus further consolidating the actual impact of these patterns. Our results demonstrate that, despite the difficulty to parameterize our benchmark system, model-based predictions are in line with real experimentation, since the performance behaviors of patterns, e.g., bottleneck switches, are mostly preserved. In summary, this is the first work that experimentally demonstrates the performance behavior of microservices-based architectural patterns. Results highlight the complexity of evaluating the performance of design patterns and emphasize the need for complementing theoretical models with empirical data.
翻訳日:2024-09-15 05:31:27 公開日:2024-08-20
# カルフ挙動分類のための加速度計に基づく多変量時系列データセット

Accelerometer-Based Multivariate Time-Series Dataset for Calf Behavior Classification ( http://arxiv.org/abs/2409.00053v1 )

ライセンス: Link先を確認
Oshana Dissanayake, Sarah E. McPherson, Joseph Allyndree, Emer Kennedy, Padraig Cunningham, Lucile Riaboff, (参考訳) 日常的な課題(輸送、集団移転など)や病気(呼吸器疾患、下気道など)に対する先天的なふくらはぎの行動適応に関する新たな洞察を得ることは、乳園におけるふくらはぎの福祉を改善するための有望な方法である。 行動を自動的に監視するための古典的なアプローチは、首首に加速度計を取り付け、加速度計の時系列から機械学習モデルを開発することである。 しかし、モデル開発に使用するには、データはラベルを組み込まなければならない。 これらのラベルを取得するには、直接の観察やビデオからのアノテート行動、時間を要する労働集約的なプロセスが必要です。 この課題に対処するため,ActBeCalf (Accelerometer Time-Series for Calf Behaviour Classification) データセットを提案する。30頭の乳牛(ホルシュタイン・フリーズとジャージー)に3D加速度センサを装着し,生後1週間から13週間にわたってネックカラーに装着した。 子牛は同時に、それぞれのペンにカメラで撮影されました。 実験の最後には、3人の観察者による行動観察研究インタラクティブソフトウェア(BORIS)を用いて、23人の行動のエトグラムを用いて動画から手動でアノテートした。 ActBeCalfには27.4時間の加速度計データがあり、ふくらはぎの振る舞いと適切に一致している。 データセットには、嘘、立ち上がり、歩き、走りといった主な行動と、嗅ぎ、社会的相互作用、グルーミングといった目立たない行動が含まれている。 最後に、ActBeCalfは機械学習モデルによる行動分類に使われた。 (i)行動の2つのクラス、[アクティブかつ非アクティブ;モデル1]および (二)行動の4つのクラス(走り、横たわり、牛乳を飲む、その他の」クラス;モデル2)がその信頼性を示す。 バランスの取れた精度は92%[モデル1]と84%[モデル2]でした。 ActBeCalfは、アクセラレーション時系列から既成のふくらはぎの振る舞いを分類するための、包括的で使用可能なデータセットである。

Getting new insights on pre-weaned calf behavioral adaptation to routine challenges (transport, group relocation, etc.) and diseases (respiratory diseases, diarrhea, etc.) is a promising way to improve calf welfare in dairy farms. A classic approach to automatically monitoring behavior is to equip animals with accelerometers attached to neck collars and to develop machine learning models from accelerometer time-series. However, to be used for model development, data must be equipped with labels. Obtaining these labels requires annotating behaviors from direct observation or videos, a time-consuming and labor-intensive process. To address this challenge, we propose the ActBeCalf (Accelerometer Time-Series for Calf Behaviour classification) dataset: 30 pre-weaned dairy calves (Holstein Friesian and Jersey) were equipped with a 3D-accelerometer sensor attached to a neck-collar from one week of birth for 13 weeks. The calves were simultaneously filmed with a camera in each pen. At the end of the trial, behaviors were manually annotated from the videos using the Behavioral Observation Research Interactive Software (BORIS) by 3 observers using an ethogram with 23 behaviors. ActBeCalf contains 27.4 hours of accelerometer data aligned adequately with calf behaviors. The dataset includes the main behaviors, like lying, standing, walking, and running, and less prominent behaviors, such as sniffing, social interaction, and grooming. Finally, ActBeCalf was used for behavior classification with machine learning models: (i)two classes of behaviors, [active and inactive; model 1] and (ii)four classes of behaviors [running, lying, drinking milk, and 'other' class; model 2] to demonstrate its reliability. We got a balanced accuracy of 92% [model1] and 84% [model2]. ActBeCalf is a comprehensive and ready-to-use dataset for classifying pre-weaned calf behaviour from the acceleration time series.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-20
# LLMによる科学文献からの知識発見の自動化:進行性オントロジープロンプティングによる2段階的アプローチ

Automating Knowledge Discovery from Scientific Literature via LLMs: A Dual-Agent Approach with Progressive Ontology Prompting ( http://arxiv.org/abs/2409.00054v1 )

ライセンス: Link先を確認
Yuting Hu, Dancheng Liu, Qingyun Wang, Charles Yu, Heng Ji, Jinjun Xiong, (参考訳) 本稿では,大規模言語モデル(LLM)に基づく新しいフレームワークを提案する。このフレームワークは,POPアルゴリズムとLLM-Duoという2元エージェントシステムを組み合わせて,学術論文からの知識抽出の自動化を促進する。 POPアルゴリズムは、事前定義されたオントロジーをまたいだ優先順位付き幅優先探索(BFS)を用いて、構造化されたプロンプトテンプレートとアクションオーダを生成する。 さらに, LLM-Duoには, エクスプローラーと評価器という, 特殊なLSMエージェントが2つ採用されている。 これら2つのエージェントは、発見およびアノテーションプロセスの信頼性を高めるために、協調的かつ逆向きに働く。 実験により、我々のメソッドは高度なベースラインよりも優れており、より正確で完全なアノテーションを可能にします。 実世界のシナリオにおける本手法の有効性を検証するため,言語介入発見の事例研究に本手法を適用した。 言語治療領域における64,177論文からの2,421件の介入を同定した。 本研究は,これらの知見を,言語療法コミュニティの利益に寄与する大きな可能性を秘めた,広くアクセス可能な介入知識基盤にキュレートする。

To address the challenge of automating knowledge discovery from a vast volume of literature, in this paper, we introduce a novel framework based on large language models (LLMs) that combines a progressive ontology prompting (POP) algorithm with a dual-agent system, named LLM-Duo, designed to enhance the automation of knowledge extraction from scientific articles. The POP algorithm utilizes a prioritized breadth-first search (BFS) across a predefined ontology to generate structured prompt templates and action orders, thereby guiding LLMs to discover knowledge in an automatic manner. Additionally, our LLM-Duo employs two specialized LLM agents: an explorer and an evaluator. These two agents work collaboratively and adversarially to enhance the reliability of the discovery and annotation processes. Experiments demonstrate that our method outperforms advanced baselines, enabling more accurate and complete annotations. To validate the effectiveness of our method in real-world scenarios, we employ our method in a case study of speech-language intervention discovery. Our method identifies 2,421 interventions from 64,177 research articles in the speech-language therapy domain. We curate these findings into a publicly accessible intervention knowledge base that holds significant potential to benefit the speech-language therapy community.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-20
# カオスからの信号抽出:力学系のベイジアン解析のためのMAGIの進歩

Extracting Signal out of Chaos: Advancements on MAGI for Bayesian Analysis of Dynamical Systems ( http://arxiv.org/abs/2409.01293v1 )

ライセンス: Link先を確認
Skyler Wu, (参考訳) この研究は、主にスパースおよびノイズの多いデータ条件に焦点をあて、ベイズパラメータ推論とODEベースの力学系の軌道再構成のための多様体制約付きガウス過程推論(MAGI)法を構築した。 まず, 数値安定性, パラメータ推定, 軌道再構成を著しく改善したMaGI法に対する新しい手法であるPilot MAGI(pMAGI)を導入する。 第2に、我々の知る限り、MAGIに基づく手法と力学系理論を組み合わせ、系が安定であるかカオスであるかを確率論的に分類する方法を初めて示す。 第3に、より計算に精通した過パラメータ化手法に対して、多くの設定でpMAGIが好適に機能することを示す。 第4に, pMAGIをベースとした新しい手法であるパイロットMAGIシーケンス予測(PMSP)を導入する。 PMSPはカオス力学系においても正確な将来予測を出力でき、PINN法よりもかなり優れていることを示す。 全体として、ベイズ的かつ不確実性に富むニューラルネットワークの競合として機能する2つの新しい手法であるpMAGIとPMSPに寄与する。

This work builds off the manifold-constrained Gaussian process inference (MAGI) method for Bayesian parameter inference and trajectory reconstruction of ODE-based dynamical systems, focusing primarily on sparse and noisy data conditions. First, we introduce Pilot MAGI (pMAGI), a novel methodological upgrade on the base MAGI method that confers significantly-improved numerical stability, parameter inference, and trajectory reconstruction. Second, we demonstrate, for the first time to our knowledge, how one can combine MAGI-based methods with dynamical systems theory to provide probabilistic classifications of whether a system is stable or chaotic. Third, we demonstrate how pMAGI performs favorably in many settings against much more computationally-expensive and overparameterized methods. Fourth, we introduce Pilot MAGI Sequential Prediction (PMSP), a novel method building upon pMAGI that allows one to predict the trajectory of ODE-based dynamical systems multiple time steps into the future, given only sparse and noisy observations. We show that PMSP can output accurate future predictions even on chaotic dynamical systems and significantly outperform PINN-based methods. Overall, we contribute to the literature two novel methods, pMAGI and PMSP, that serve as Bayesian, uncertainty-quantified competitors to the Physics-Informed Neural Network.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-20
# NeR-VCP:暗黙のニューラル表現に基づくビデオコンテンツ保護手法

NeR-VCP: A Video Content Protection Method Based on Implicit Neural Representation ( http://arxiv.org/abs/2408.15281v1 )

ライセンス: Link先を確認
Yangping Lin, Yan Ke, Ke Niu, Jia Liu, Xiaoyuan Yang, (参考訳) ビデオアプリケーションの人気により、ビデオコンテンツのセキュリティは、緊急の注意を喚起するプレス問題として浮上している。 ほとんどのビデオコンテンツ保護方法は、主に暗号化技術に依存しており、手動で設計や実装を経験ベースで行う必要がある。 この問題に対処するために,暗黙的ニューラル表現に基づくビデオコンテンツ保護のための自動暗号化手法を提案する。 我々は、暗号化と復号化の鍵となるキー制御可能なモジュールを設計する。 NeR-VCPはまず、送信者によって訓練されたキー制御可能なモジュールを受信者に事前配布し、次にインプリシットニューラルネットワーク(INR)と(予め配布された)キー制御可能なモジュールを使用して、プレーンビデオを暗黙のニューラルネットワークとして暗号化し、法定受信者は、この暗号ニューラルネットワーク(対応する暗黙のニューラルネットワーク)を復号するために、予め配布されたキー制御可能なモジュールを使用する。 キー制御可能な設計の指導のもと、ビデオコンテンツのセキュリティを改善し、新しいビデオ暗号化方式を提供する。 さらに、モデル圧縮技術を用いることで、転送される暗号化データの量を効果的に軽減しつつ、映像コンテンツ保護を実現することができる。 我々は,視覚的表現,不正ユーザに対する非受容性,暗号的観点からのセキュリティにおいて,優れた性能を有することを実験的に見出した。

With the popularity of video applications, the security of video content has emerged as a pressing issue that demands urgent attention. Most video content protection methods mainly rely on encryption technology, which needs to be manually designed or implemented in an experience-based manner. To address this problem, we propose an automatic encryption technique for video content protection based on implicit neural representation. We design a key-controllable module, which serves as a key for encryption and decryption. NeR-VCP first pre-distributes the key-controllable module trained by the sender to the recipients, and then uses Implicit Neural Representation (INR) with a (pre-distributed) key-controllable module to encrypt plain video as an implicit neural network, and the legal recipients uses a pre-distributed key-controllable module to decrypt this cipher neural network (the corresponding implicit neural network). Under the guidance of the key-controllable design, our method can improve the security of video content and provide a novel video encryption scheme. Moreover, using model compression techniques, this method can achieve video content protection while effectively mitigating the amount of encrypted data transferred. We experimentally find that it has superior performance in terms of visual representation, imperceptibility to illegal users, and security from a cryptographic viewpoint.
翻訳日:2024-09-01 16:32:17 公開日:2024-08-20
# 量子技術とAI - Tommaso Calarco氏に聞く

Quantum Technologies and AI -- Interview with Tommaso Calarco ( http://arxiv.org/abs/2408.16014v1 )

ライセンス: Link先を確認
Matthias Klusch, Jörg Lässig, Frank K. Wilhelm, (参考訳) 研究センターJ\"ulich(ドイツ)のTommaso Calarco教授への、量子技術とAIに関するインタビュー。

Interview with prof. Tommaso Calarco from the Research Center J\"ulich (Germany) on Quantum Technologies and AI.
翻訳日:2024-09-01 16:32:17 公開日:2024-08-20
# ロバスト画像分類:FGSMとPGD攻撃に対する防御戦略

Robust Image Classification: Defensive Strategies against FGSM and PGD Adversarial Attacks ( http://arxiv.org/abs/2408.13274v1 )

ライセンス: Link先を確認
Hetvi Waghela, Jaydip Sen, Sneha Rakshit, (参考訳) 特にFGSM(Fast Gradient Sign Method)やPGD(Projected Gradient Descent)は、画像分類におけるディープラーニングモデルの堅牢性に重大な脅威をもたらす。 本稿では,ニューラルネットワークのレジリエンスを高めるために,これらの攻撃に対する防御機構を探索し,洗練する。 我々は,敵の摂動の影響を軽減するために,敵の訓練と革新的前処理技術を組み合わせている。 我々の手法は、分類の前に入力データを修正し、異なるモデルアーキテクチャとトレーニング戦略を調査することである。 ベンチマークデータセットの厳密な評価を通じて、FGSMおよびPGD攻撃に対する防御における我々のアプローチの有効性を実証する。 本研究は, モデルロバスト性をベースライン法と比較して大幅に向上させ, 実世界の応用における防衛戦略の可能性を強調した。 本研究は、安全で信頼性の高い機械学習システム開発への継続的な取り組みに寄与し、実用的な洞察を提供し、敵防衛における今後の研究の道を開く。 理論的進歩と実践的実装をブリッジすることで、安全クリティカルな領域におけるAIアプリケーションの信頼性を高めることを目指している。

Adversarial attacks, particularly the Fast Gradient Sign Method (FGSM) and Projected Gradient Descent (PGD) pose significant threats to the robustness of deep learning models in image classification. This paper explores and refines defense mechanisms against these attacks to enhance the resilience of neural networks. We employ a combination of adversarial training and innovative preprocessing techniques, aiming to mitigate the impact of adversarial perturbations. Our methodology involves modifying input data before classification and investigating different model architectures and training strategies. Through rigorous evaluation of benchmark datasets, we demonstrate the effectiveness of our approach in defending against FGSM and PGD attacks. Our results show substantial improvements in model robustness compared to baseline methods, highlighting the potential of our defense strategies in real-world applications. This study contributes to the ongoing efforts to develop secure and reliable machine learning systems, offering practical insights and paving the way for future research in adversarial defense. By bridging theoretical advancements and practical implementation, we aim to enhance the trustworthiness of AI applications in safety-critical domains.
翻訳日:2024-08-27 20:20:40 公開日:2024-08-20
# 一般化理論への情報理論的アプローチ

An Information-Theoretic Approach to Generalization Theory ( http://arxiv.org/abs/2408.13275v1 )

ライセンス: Link先を確認
Borja Rodríguez-Gálvez, Ragnar Thobaben, Mikael Skoglund, (参考訳) 機械学習アルゴリズムの分布内一般化について検討する。 我々は,学習アルゴリズムと学習データ間の依存度を定量化する情報理論境界を解析することによって,従来の複雑性に基づくアプローチから逸脱する。 1)予測における保証:これらの境界は平均的な場合のパフォーマンスを測定する。 ここでは、アルゴリズムとデータ間の依存は、しばしば情報測度によって捉えられる。 これらの測度は直観的な解釈を提供するが、アルゴリズムの仮説クラスの幾何学を見落としている。 本稿では、ワッサーシュタイン距離を用いて幾何学を組み込む境界と、アルゴリズムと個々のダタム、およびトレーニングデータのアルゴリズムとサブセット間の依存を捉えた境界を導出する構造化された体系的手法を紹介する。 2) PAC-ベイジアン保証: これらの境界は高い確率で性能レベルを測定する。 ここでは、アルゴリズムとデータの依存度は、しばしば相対エントロピーによって測定される。 我々はシーガー=ラングフォードとカトニの境界の間の接続を確立し、前者はギブスの後部によって最適化されていることを明らかにした。 様々な種類の損失関数に対して,新しい,より厳密な境界を導入する。 そこで本研究では,確率的文のパラメータを最適化する新しい手法を提案する。 これらの手法の限界を研究するために,従来の手法ではそうでなくても,情報理論的境界の大部分が失敗する反例を示す。 最後に、プライバシと一般化の関係について検討する。 有界な最大リークを持つアルゴリズムが一般化されることを示す。 離散データに対しては,従来の文献のバウンダリとは対照的に,プライバシーパラメータが一定であっても一般化を保証する,微分プライベートアルゴリズムの新たなバウンダリを導出する。

We investigate the in-distribution generalization of machine learning algorithms. We depart from traditional complexity-based approaches by analyzing information-theoretic bounds that quantify the dependence between a learning algorithm and the training data. We consider two categories of generalization guarantees: 1) Guarantees in expectation: These bounds measure performance in the average case. Here, the dependence between the algorithm and the data is often captured by information measures. While these measures offer an intuitive interpretation, they overlook the geometry of the algorithm's hypothesis class. Here, we introduce bounds using the Wasserstein distance to incorporate geometry, and a structured, systematic method to derive bounds capturing the dependence between the algorithm and an individual datum, and between the algorithm and subsets of the training data. 2) PAC-Bayesian guarantees: These bounds measure the performance level with high probability. Here, the dependence between the algorithm and the data is often measured by the relative entropy. We establish connections between the Seeger--Langford and Catoni's bounds, revealing that the former is optimized by the Gibbs posterior. We introduce novel, tighter bounds for various types of loss functions. To achieve this, we introduce a new technique to optimize parameters in probabilistic statements. To study the limitations of these approaches, we present a counter-example where most of the information-theoretic bounds fail while traditional approaches do not. Finally, we explore the relationship between privacy and generalization. We show that algorithms with a bounded maximal leakage generalize. For discrete data, we derive new bounds for differentially private algorithms that guarantee generalization even with a constant privacy parameter, which is in contrast to previous bounds in the literature.
翻訳日:2024-08-27 20:20:40 公開日:2024-08-20
# 非凸マトリクスセンシング:サンプル複雑度における2次階乗障壁を破る

Non-convex matrix sensing: Breaking the quadratic rank barrier in the sample complexity ( http://arxiv.org/abs/2408.13276v1 )

ライセンス: Link先を確認
Dominik Stöger, Yizhe Zhu, (参考訳) 少数の線形測定から低ランク行列を再構成する問題に対して、核ノルム最小化に基づく凸法と分解勾配勾配を用いた非凸法という2種類のアルゴリズムが文献で広く研究されている。 特定の統計モデルでは、核ノルムの最小化は、サンプルの数が基底真実の自由度数とともに線形にスケールするとすぐに基底真実を回復することが知られている。 対照的に、非凸アプローチは計算コストが低いが、既存のリカバリ保証では、サンプルの数は少なくとも2次スケールで、基底トラス行列の階数$r$と仮定している。 本稿では,非凸法が試料の複雑さの観点から核ノルム最小化に匹敵する効率を示すことにより,このギャップを埋める。 すなわち、いくつかのガウス測度から正の半定値行列を再構成する問題を考察する。 スペクトル初期化による分解勾配勾配は、サンプルの数が$Omega (rd\kappa^2)$でスケールするとすぐに基底真理に収束し、$d$は次元、$\kappa$は基底真理行列の条件数であることを示す。 これにより、以前の階数依存性は2次から線形に改善される。 我々の証明は確率的疎結合論に依拠し、勾配降下反復が測定行列の個々のエントリに弱依存していることを示す。 我々は、我々の証明手法が他の非凸問題に対して独立した関心を持つことを期待している。

For the problem of reconstructing a low-rank matrix from a few linear measurements, two classes of algorithms have been widely studied in the literature: convex approaches based on nuclear norm minimization, and non-convex approaches that use factorized gradient descent. Under certain statistical model assumptions, it is known that nuclear norm minimization recovers the ground truth as soon as the number of samples scales linearly with the number of degrees of freedom of the ground-truth. In contrast, while non-convex approaches are computationally less expensive, existing recovery guarantees assume that the number of samples scales at least quadratically with the rank $r$ of the ground-truth matrix. In this paper, we close this gap by showing that the non-convex approaches can be as efficient as nuclear norm minimization in terms of sample complexity. Namely, we consider the problem of reconstructing a positive semidefinite matrix from a few Gaussian measurements. We show that factorized gradient descent with spectral initialization converges to the ground truth with a linear rate as soon as the number of samples scales with $ \Omega (rd\kappa^2)$, where $d$ is the dimension, and $\kappa$ is the condition number of the ground truth matrix. This improves the previous rank-dependence from quadratic to linear. Our proof relies on a probabilistic decoupling argument, where we show that the gradient descent iterates are only weakly dependent on the individual entries of the measurement matrices. We expect that our proof technique is of independent interest for other non-convex problems.
翻訳日:2024-08-27 20:20:40 公開日:2024-08-20
# 高次元における不調整ランゲヴィンの収束:バイアスの非局在化

Convergence of Unadjusted Langevin in High Dimensions: Delocalization of Bias ( http://arxiv.org/abs/2408.13115v1 )

ライセンス: Link先を確認
Yifan Chen, Xiaoou Cheng, Jonathan Niles-Weed, Jonathan Weare, (参考訳) 調整されていないランゲヴィンアルゴリズムは、非常に高次元の設定における確率分布のサンプリングに一般的に用いられる。 しかし、強い対数分布に対するアルゴリズムの既存の分析は、問題の次元$d$が増加するにつれて、$W_2$メートル法スケールにおいて所望の誤差内で収束を保証するために必要なイテレーションの数が$d$または$\sqrt{d}$に比例することを示している。 この論文では、変数の完全集合に対する$W_2$エラーのスケーリングが貧弱であるにもかかわらず、少数の変数に対する振る舞いは、はるかに良くなる:$K$に比例する多くの反復は、$d$の対数項まで、しばしばアルゴリズムが所望の$K$-marginalsに対して$W_2$エラーに収束するのに十分である。 この効果を偏見の非局在化と呼ぶ。 局所化効果は普遍的に保たないことを示すとともに,ガウス分布と強い対数圏分布に対する有効性を示す。 我々の分析は収束を測定するための新しい$W_{2,\ell^\infty}$メトリックに依存している。 私たちが取り組んだ重要な技術的課題は、この計量に一段階の収縮特性が欠如していることである。 最後に、漸近的議論を用いて、ガウス的およびスパース的相互作用設定を超えた非局在化効果の潜在的な一般化を探索する。

The unadjusted Langevin algorithm is commonly used to sample probability distributions in extremely high-dimensional settings. However, existing analyses of the algorithm for strongly log-concave distributions suggest that, as the dimension $d$ of the problem increases, the number of iterations required to ensure convergence within a desired error in the $W_2$ metric scales in proportion to $d$ or $\sqrt{d}$. In this paper, we argue that, despite this poor scaling of the $W_2$ error for the full set of variables, the behavior for a small number of variables can be significantly better: a number of iterations proportional to $K$, up to logarithmic terms in $d$, often suffices for the algorithm to converge to within a desired $W_2$ error for all $K$-marginals. We refer to this effect as delocalization of bias. We show that the delocalization effect does not hold universally and prove its validity for Gaussian distributions and strongly log-concave distributions with certain sparse interactions. Our analysis relies on a novel $W_{2,\ell^\infty}$ metric to measure convergence. A key technical challenge we address is the lack of a one-step contraction property in this metric. Finally, we use asymptotic arguments to explore potential generalizations of the delocalization effect beyond the Gaussian and sparse interactions setting.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-20
# 階層型検索拡張生成モデルとマルチホップ質問応答の再考

Hierarchical Retrieval-Augmented Generation Model with Rethink for Multi-hop Question Answering ( http://arxiv.org/abs/2408.11875v1 )

ライセンス: Link先を確認
Xiaoming Zhang, Ming Wang, Xiaocui Yang, Daling Wang, Shi Feng, Yifei Zhang, (参考訳) マルチホップ質問回答 (Multi-hop Question Answering, QA) は、複雑な質問を解決するために複数の情報を統合することで複雑な推論を必要とする。 しかし、既存のQAシステムは、時代遅れの情報、コンテキストウィンドウの長さ制限、精度-量トレードオフといった課題に直面している。 これらの課題に対処するために,Decomposer, Definer, Retriever, Filter, Summarizerの5つの鍵モジュールからなる階層型検索拡張生成モデル(HiRAG)を提案する。 文書レベルでのスパース検索とチャンクレベルでの密集検索の両方を組み込んだ新しい階層的検索戦略を導入し,その強みを効果的に統合する。 さらに,複数候補検索の限界を緩和する単一候補検索手法を提案する。 また、古い知識と不十分な知識の問題に対処するため、Indexed WikicorpusとProfile Wikicorpusという2つの新しいコーパスを構築した。 4つのデータセットに対する実験結果から、HiRAGはほとんどの指標で最先端のモデルよりも優れており、Indexed Wikicorpusは有効であることがわかった。 HiRAGのコードはhttps://github.com/2282588541a/HiRAGで公開されている。

Multi-hop Question Answering (QA) necessitates complex reasoning by integrating multiple pieces of information to resolve intricate questions. However, existing QA systems encounter challenges such as outdated information, context window length limitations, and an accuracy-quantity trade-off. To address these issues, we propose a novel framework, the Hierarchical Retrieval-Augmented Generation Model with Rethink (HiRAG), comprising Decomposer, Definer, Retriever, Filter, and Summarizer five key modules. We introduce a new hierarchical retrieval strategy that incorporates both sparse retrieval at the document level and dense retrieval at the chunk level, effectively integrating their strengths. Additionally, we propose a single-candidate retrieval method to mitigate the limitations of multi-candidate retrieval. We also construct two new corpora, Indexed Wikicorpus and Profile Wikicorpus, to address the issues of outdated and insufficient knowledge. Our experimental results on four datasets demonstrate that HiRAG outperforms state-of-the-art models across most metrics, and our Indexed Wikicorpus is effective. The code for HiRAG is available at https://github.com/2282588541a/HiRAG
翻訳日:2024-08-23 18:26:17 公開日:2024-08-20
# グルコースパターンから健康結果へ:連続グルコースモニターデータ解析のための一般化可能な基礎モデル

From Glucose Patterns to Health Outcomes: A Generalizable Foundation Model for Continuous Glucose Monitor Data Analysis ( http://arxiv.org/abs/2408.11876v1 )

ライセンス: Link先を確認
Guy Lutsker, Gal Sapir, Anastasia Godneva, Smadar Shilo, Jerry R Greenfield, Dorit Samocha-Bonet, Shie Mannor, Eli Meirom, Gal Chechik, Hagai Rossman, Eran Segal, (参考訳) 近年の自己教師型学習は、様々なバイオメディカルデータから健康を特徴づける大きな可能性を秘めているファンデーションモデル(FM)として知られる新しい医療AIモデルを可能にした。 連続グルコースモニタリング(CGM)は、血糖パターンに関する豊富な時間的データを提供するが、より広範な健康結果を予測するための大きな可能性はまだ未利用である。 本稿では,トランスフォーマーアーキテクチャに基づく生医学的時間的データ生成基盤モデルであるGluFormerについて紹介し,非糖尿病者10,812名を対象に1000万CGM以上の測定を行った。 我々はCGMのトレーニングデータをトークン化し、GluFormerを生成的・自己回帰的に次のトークン予測を用いて訓練した。 GluFormerは、5つの異なる地理的領域の4936人、6つの異なるCGMデバイスを含む15の異なる外部データセットに効果的に一般化し、また、正常血糖症、糖尿病、糖尿病、および妊娠糖尿病、肥満を含むいくつかの代謝障害を含むいくつかのメタボリック障害を含む。 GluFormerは、従来のCGM分析ツールよりも優れた埋め込みを生成し、HbA1c、肝関連パラメータ、血液脂質、睡眠関連指標などの臨床パラメータを予測する上で、ピアソン相関を高く達成している。 とくに、GluFormerは、今後4年間も、将来の健康結果の発症を予測できる。 また, ランダム化臨床試験(RCT)におけるCGMの埋込みは, 一次および二次的な結果を予測する他の方法よりも優れていた。 GluFormerに食事データを統合することで、食事摂取データのみに基づいてCGMデータを正確に生成し、食事介入の結果をシミュレートし、特定の食品に対する個々の反応を予測することができることを示す。 以上の結果から,GluFormerは異なる集団の代謝状態にまたがる健康影響を正確に予測できることがわかった。

Recent advances in self-supervised learning enabled novel medical AI models, known as foundation models (FMs) that offer great potential for characterizing health from diverse biomedical data. Continuous glucose monitoring (CGM) provides rich, temporal data on glycemic patterns, but its full potential for predicting broader health outcomes remains underutilized. Here, we present GluFormer, a generative foundation model on biomedical temporal data based on a transformer architecture, and trained on over 10 million CGM measurements from 10,812 non-diabetic individuals. We tokenized the CGM training data and trained GluFormer using next token prediction in a generative, autoregressive manner. We demonstrate that GluFormer generalizes effectively to 15 different external datasets, including 4936 individuals across 5 different geographical regions, 6 different CGM devices, and several metabolic disorders, including normoglycemic, prediabetic, and diabetic populations, as well as those with gestational diabetes and obesity. GluFormer produces embeddings which outperform traditional CGM analysis tools, and achieves high Pearson correlations in predicting clinical parameters such as HbA1c, liver-related parameters, blood lipids, and sleep-related indices. Notably, GluFormer can also predict onset of future health outcomes even 4 years in advance. We also show that CGM embeddings from pre-intervention periods in Randomized Clinical Trials (RCTs) outperform other methods in predicting primary and secondary outcomes. When integrating dietary data into GluFormer, we show that the enhanced model can accurately generate CGM data based only on dietary intake data, simulate outcomes of dietary interventions, and predict individual responses to specific foods. Overall, we show that GluFormer accurately predicts health outcomes which generalize across different populations metabolic conditions.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-20
# Open-FinLLMs:金融アプリケーションのためのオープンマルチモーダル大規模言語モデル

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications ( http://arxiv.org/abs/2408.11878v1 )

ライセンス: Link先を確認
Qianqian Xie, Dong Li, Mengxi Xiao, Zihao Jiang, Ruoyu Xiang, Xiao Zhang, Zhengyu Chen, Yueru He, Weiguang Han, Yuzhe Yang, Shunian Chen, Yifei Zhang, Lihang Shen, Daniel Kim, Zhiwei Liu, Zheheng Luo, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Zhiyuan Yao, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Yilun Zhao, Yitao Long, Guojun Xiong, Kaleb Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jianyun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Jimin Huang, Sophia Ananiadou, (参考訳) 大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 これらの制約に対処するため、金融LLMのシリーズであるtextit{Open-FinLLMs}を紹介する。 我々はFinLLaMAから始め、52億トークンの金融コーパスを事前訓練し、テキスト、テーブル、時系列データを組み込んで、包括的な金融知識を埋め込む。 FinLLaMAは573Kの財務命令で微調整され、結果としてFinLLaMA命令が実行され、タスク性能が向上する。 最後に、FinLLaVAについて述べる。FinLLaVAは、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMである。 LLaMA3-8B、LLaMA3.1-8B、BloombergGPTよりも、19データセットと4データセットにわたるゼロショットと少数ショットの両方で、FinLLaMAの優れた性能を示している。 FinLLaMA-instructは15のデータセットでGPT-4や他の金融LLMより優れている。 FinLLaVAは4つのマルチモーダルタスクにおけるテーブルとチャートの理解に優れています。 さらにFinLLaMAは、トレーディングシミュレーションにおいて、シャープ比(Sharpe Ratios)という印象的な成果を上げ、その堅牢な金融アプリケーション機能を強調している。 我々は、学術と産業における継続的なイノベーションをサポートするために、モデルとベンチマークを継続的に維持および改善します。

Large language models (LLMs) have advanced financial applications, yet they often lack sufficient financial knowledge and struggle with tasks involving multi-modal inputs like tables and time series data. To address these limitations, we introduce \textit{Open-FinLLMs}, a series of Financial LLMs. We begin with FinLLaMA, pre-trained on a 52 billion token financial corpus, incorporating text, tables, and time-series data to embed comprehensive financial knowledge. FinLLaMA is then instruction fine-tuned with 573K financial instructions, resulting in FinLLaMA-instruct, which enhances task performance. Finally, we present FinLLaVA, a multimodal LLM trained with 1.43M image-text instructions to handle complex financial data types. Extensive evaluations demonstrate FinLLaMA's superior performance over LLaMA3-8B, LLaMA3.1-8B, and BloombergGPT in both zero-shot and few-shot settings across 19 and 4 datasets, respectively. FinLLaMA-instruct outperforms GPT-4 and other Financial LLMs on 15 datasets. FinLLaVA excels in understanding tables and charts across 4 multimodal tasks. Additionally, FinLLaMA achieves impressive Sharpe Ratios in trading simulations, highlighting its robust financial application capabilities. We will continually maintain and improve our models and benchmarks to support ongoing innovation in academia and industry.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-20
# Beyond Labels: ヒューマンライクな推論による大規模言語モデルのアラインメント

Beyond Labels: Aligning Large Language Models with Human-like Reasoning ( http://arxiv.org/abs/2408.11879v1 )

ライセンス: Link先を確認
Muhammad Rafsan Kabir, Rafeed Mohammad Sultan, Ihsanul Haque Asif, Jawad Ibn Ahad, Fuad Rahman, Mohammad Ruhul Amin, Nabeel Mohammed, Shafin Rahman, (参考訳) 人間の推論アプローチで大きな言語モデル(LLM)を調整することで、LLMが道徳的に正しい人間的な決定を下すことが保証される。 倫理的懸念は、現在のモデルは偽陽性を発生させ、悪意のある応答を提供する傾向があるためである。 この問題に貢献するため,我々は,言語モデルの整合化を支援するために,Dataset for Aligning Reasons (DFAR)という倫理データセットをキュレートした。 データセットには倫理的非倫理的なラベルとそれに対応する理由が記載されている。 本研究では,倫理ラベルとそれに対応する理由(L+R)を,ラベルのみを用いる既存の微調整アプローチとは対照的に,独特で斬新な微調整アプローチを採用した。 従来の学習済み版,既存の微調整版,提案した微調整版を倫理的非倫理的分類タスクと理生成タスクで評価した。 提案手法は,2つのタスクにおいて他のタスクよりも優れており,分類タスクにおける精度が著しく向上し,理由生成タスクにおけるミスアライメント率も低下する。 分類精度の上昇と誤調整率の低下は、L+R微調整モデルが人間の倫理とより一致していることを示している。 そこで本研究では,LSMのアライメントが大幅に向上し,人間的な反応がより多くなったことを示す。 DFARデータセットと対応するコードは、https://github.com/apurba-nsu-rnd-lab/DFARで公開しています。

Aligning large language models (LLMs) with a human reasoning approach ensures that LLMs produce morally correct and human-like decisions. Ethical concerns are raised because current models are prone to generating false positives and providing malicious responses. To contribute to this issue, we have curated an ethics dataset named Dataset for Aligning Reasons (DFAR), designed to aid in aligning language models to generate human-like reasons. The dataset comprises statements with ethical-unethical labels and their corresponding reasons. In this study, we employed a unique and novel fine-tuning approach that utilizes ethics labels and their corresponding reasons (L+R), in contrast to the existing fine-tuning approach that only uses labels (L). The original pre-trained versions, the existing fine-tuned versions, and our proposed fine-tuned versions of LLMs were then evaluated on an ethical-unethical classification task and a reason-generation task. Our proposed fine-tuning strategy notably outperforms the others in both tasks, achieving significantly higher accuracy scores in the classification task and lower misalignment rates in the reason-generation task. The increase in classification accuracies and decrease in misalignment rates indicate that the L+R fine-tuned models align more with human ethics. Hence, this study illustrates that injecting reasons has substantially improved the alignment of LLMs, resulting in more human-like responses. We have made the DFAR dataset and corresponding codes publicly available at https://github.com/apurba-nsu-rnd-lab/DFAR.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-20
# トレーニングされていないニューラルネットワークによるメイクアップガイドによる顔のプライバシー保護

Makeup-Guided Facial Privacy Protection via Untrained Neural Network Priors ( http://arxiv.org/abs/2408.12387v1 )

ライセンス: Link先を確認
Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar, (参考訳) ディープラーニングベースの顔認識(FR)システムは、ユーザの同意なしにユーザを追跡することにより、重大なプライバシーリスクを生じさせる。 敵の攻撃はプライバシーを保護できるが、ユーザー体験を損なう目に見える成果物をしばしば生み出す。 この問題を軽減するために、最近の顔のプライバシー保護アプローチは、自然な化粧スタイルに敵対的ノイズを埋め込むことを提唱している。 しかし、これらの方法は、必ずしも容易に利用できない大規模なメイクアップデータセットのトレーニングを必要とする。 さらに、これらのアプローチはデータセットバイアスにも悩まされる。 例えば、主に女性の顔を含む化粧データのトレーニングは、男性の顔に対する保護効果を損なう可能性がある。 これらの問題に対処するために、トレーニングされていないニューラルネットワークを単純に最適化して、ソース画像への参照から逆向きにメイクスタイルを転送するテストタイム最適化手法を提案する。 本稿では,遅延空間における参照画像とソース画像の領域をアライメントする対応モジュールと,条件付きメイクレイヤを持つデコーダの2つの重要なモジュールを紹介する。 トレーニングされていないデコーダは、慎重に設計された構造と構成の整合性を損なうことで最適化され、ソースに似た保護されたイメージを生成するが、FRモデルを騙すために敵のメイクを組み込む。 当社のアプローチはメイクフェイスデータセットによるトレーニングに頼らないため、効果的な保護を提供しながら、潜在的な男性/女性データセットバイアスを回避することができる。 我々は、時間的相関を利用して、提案した動画へのアプローチをさらに拡張する。 ベンチマークデータセットの実験は、顔認証および識別タスクにおいて優れた性能を示し、商用FRシステムに対する有効性を示す。 私たちのコードとモデルはhttps://github.com/fahadshamshad/deep-face-privacy-priorで公開されます。

Deep learning-based face recognition (FR) systems pose significant privacy risks by tracking users without their consent. While adversarial attacks can protect privacy, they often produce visible artifacts compromising user experience. To mitigate this issue, recent facial privacy protection approaches advocate embedding adversarial noise into the natural looking makeup styles. However, these methods require training on large-scale makeup datasets that are not always readily available. In addition, these approaches also suffer from dataset bias. For instance, training on makeup data that predominantly contains female faces could compromise protection efficacy for male faces. To handle these issues, we propose a test-time optimization approach that solely optimizes an untrained neural network to transfer makeup style from a reference to a source image in an adversarial manner. We introduce two key modules: a correspondence module that aligns regions between reference and source images in latent space, and a decoder with conditional makeup layers. The untrained decoder, optimized via carefully designed structural and makeup consistency losses, generates a protected image that resembles the source but incorporates adversarial makeup to deceive FR models. As our approach does not rely on training with makeup face datasets, it avoids potential male/female dataset biases while providing effective protection. We further extend the proposed approach to videos by leveraging on temporal correlations. Experiments on benchmark datasets demonstrate superior performance in face verification and identification tasks and effectiveness against commercial FR systems. Our code and models will be available at https://github.com/fahadshamshad/deep-facial-privacy-prior
翻訳日:2024-08-23 13:53:43 公開日:2024-08-20
# データ駆動境界値問題に対するFredholm積分方程式ニューラル演算子(FIE-NO)

Fredholm Integral Equations Neural Operator (FIE-NO) for Data-Driven Boundary Value Problems ( http://arxiv.org/abs/2408.12389v1 )

ライセンス: Link先を確認
Haoyang Jiang, Yongzhi Qu, (参考訳) 本稿では,データ駆動境界値問題(BVP)を不規則境界で解くのに適した,新しいFredholm Integral Equation Neural Operator(FIE-NO)法,Random Fourier FeaturesとFredholm Integral Equations(FIE)をディープラーニングフレームワークに統合する。 このような問題の計算強度と複雑性に苦しむ従来の計算手法とは異なり、本手法は、物理にインスパイアされた学習構造の設計を用いて、堅牢で効率的で正確な解法機構を提供する。 本稿では,物理誘導型演算子学習法 (FIE-NO) がBVPに対処する上で優れた性能を発揮することを示す。 特に,1つの境界条件でのみ訓練した後,未知の方程式形式や複雑な境界形状を含む複数のシナリオにまたがって,本手法を一般化することができる。 FIE-NO法は、ダーシー方程式やラプラス方程式やヘルムホルツ方程式のような典型的な偏微分方程式を含むシミュレーション例でよく機能することを示した。 提案手法は, 異なる境界条件にまたがって頑健な性能を示す。 実験結果から,FIE-NOは内部点数が異なる複雑な境界値問題に対処する場合に比べて精度と安定性が向上することが示唆された。

In this paper, we present a novel Fredholm Integral Equation Neural Operator (FIE-NO) method, an integration of Random Fourier Features and Fredholm Integral Equations (FIE) into the deep learning framework, tailored for solving data-driven Boundary Value Problems (BVPs) with irregular boundaries. Unlike traditional computational approaches that struggle with the computational intensity and complexity of such problems, our method offers a robust, efficient, and accurate solution mechanism, using a physics inspired design of the learning structure. We demonstrate that the proposed physics-guided operator learning method (FIE-NO) achieves superior performance in addressing BVPs. Notably, our approach can generalize across multiple scenarios, including those with unknown equation forms and intricate boundary shapes, after being trained only on one boundary condition. Experimental validation demonstrates that the FIE-NO method performs well in simulated examples, including Darcy flow equation and typical partial differential equations such as the Laplace and Helmholtz equations. The proposed method exhibits robust performance across different boundary conditions. Experimental results indicate that FIE-NO achieves higher accuracy and stability compared to other methods when addressing complex boundary value problems with varying numbers of interior points.
翻訳日:2024-08-23 13:43:10 公開日:2024-08-20
# Conformal e‐prediction

Conformal e-prediction ( http://arxiv.org/abs/2001.05989v3 )

ライセンス: Link先を確認
Vladimir Vovk, (参考訳) 本稿では,e-valuesの共形予測である"conformal e-prediction"について論じる。 コンフォーマルな電子予測は概念的には単純であり、1990年代に共形予測の前駆体として開発された。 コンフォメーション予測がp値に置き換えた結果として現れると、明らかな欠点を伴わないコンフォメーション予測よりも重要なアドバンテージがあると思われた。 本稿では, 共形予測と共形予測の関係を現代的観点から体系的に再検討する。 コンフォーマルなe予測は、条件付きコンフォーマルなe予測器を設計することの容易さや、クロスコンフォーマルなe予測器の保証された妥当性など、独自の利点がある(ただし、クロスコンフォーマルな予測器の妥当性は経験的な事実に過ぎず、過度なランダム化によって破壊される可能性がある)。 共形予測が明確な利点を持つ場合でも、共形予測はしばしばこれらの利点を多かれ少なかれうまくエミュレートすることができる。 結果の"コンフォーマルなe-テスト"は、非常に異なるように見えるが、コンフォーマルなテストの強みを継承する。

This paper discusses a counterpart of conformal prediction for e-values, "conformal e-prediction". Conformal e-prediction is conceptually simpler and had been developed in the 1990s as precursor of conformal prediction. When conformal prediction emerged as result of replacing e-values by p-values, it seemed to have important advantages over conformal e-prediction without obvious disadvantages. This paper re-examines relations between conformal prediction and conformal e-prediction systematically from a modern perspective. Conformal e-prediction has advantages of its own, such as the ease of designing conditional conformal e-predictors and the guaranteed validity of cross-conformal e-predictors (whereas for cross-conformal predictors validity is only an empirical fact and can be broken with excessive randomization). Even where conformal prediction has clear advantages, conformal e-prediction can often emulate those advantages, more or less successfully. Conformal e-prediction can also serve as basis for testing; the resulting "conformal e-testing" looks very different from but inherits some strengths of conformal testing.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-20
# 多要素変分オートエンコーダを用いたロバスト位相最適化

Robust Topology Optimization Using Multi-Fidelity Variational Autoencoders ( http://arxiv.org/abs/2107.10661v2 )

ライセンス: Link先を確認
Rini Jasmine Gladstone, Mohammad Amin Nabian, Vahid Keshavarzzadeh, Hadi Meidani, (参考訳) 位相最適化問題のクラスであるロバスト位相最適化(RTO)は、入力の不確実性に対する応答感度を低減しつつ、最高の平均性能を持つ設計を識別する。 RTOの解法は、異なる候補設計と異なるランダム入力のサンプルに対して繰り返し有限要素解を必要とするため、計算的に困難である。 この課題に対処するために,(1) ランダム入力の異なる実現に対応する決定論的最適設計を用いてパラメータ化された低次元探索空間を構築し,探索し,(2) 各設計候補に対する確率的性能指標をニューラルネットワークサロゲートにより予測する,計算効率を提供するニューラルネットワーク手法を提案する。 この方法は、標準RTOアプローチで必要とされる多くの有限要素応答評価を回避し、最小限のトレーニングで、トレーニングセットで観測されたものよりも優れた性能測定で最適な設計を作成できる。 さらに,提案手法にマルチ忠実度フレームワークを導入し,計算効率を向上する。 本手法の数値解析は,Lブラケット構造のロバスト設計における単一点負荷と複数点負荷について述べる。

Robust topology optimization (RTO), as a class of topology optimization problems, identifies a design with the best average performance while reducing the response sensitivity to input uncertainties, e.g. load uncertainty. Solving RTO is computationally challenging as it requires repetitive finite element solutions for different candidate designs and different samples of random inputs. To address this challenge, a neural network method is proposed that offers computational efficiency because (1) it builds and explores a low dimensional search space which is parameterized using deterministically optimal designs corresponding to different realizations of random inputs, and (2) the probabilistic performance measure for each design candidate is predicted by a neural network surrogate. This method bypasses the numerous finite element response evaluations that are needed in the standard RTO approaches and with minimal training can produce optimal designs with better performance measures compared to those observed in the training set. Moreover, a multi-fidelity framework is incorporated to the proposed approach to further improve the computational efficiency. Numerical application of the method is shown on the robust design of L-bracket structure with single point load as well as multiple point loads.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-20
# 最も一般的な(基礎的な)数学としての有限数学

Finite mathematics as the most general (fundamental) mathematics ( http://arxiv.org/abs/2203.09482v2 )

ライセンス: Link先を確認
Felix M Lev, (参考訳) 本論文の目的は、標数$p$の有限環に基づく有限数学が標準数学よりも一般的(基礎的)である理由を、最も単純なレベルで説明することである。 ほとんどの数学者や物理学者が、標準的な数学は歴史的理由から最も基本的なものであると信じている。 しかし、単純な数学的議論は、標準数学(無限大の概念を含む)が形式的な極限$p\to\infty$における有限数学の退化の場合であることを示している。 標数$p$の有限環に基づく量子理論は、標準量子論よりも一般である、なぜなら後者は形式的な極限$p\to\infty$における前者の退化の場合であるからである。

The purpose of this paper is to explain at the simplest possible level why finite mathematics based on a finite ring of characteristic $p$ is more general (fundamental) than standard mathematics. The belief of most mathematicians and physicists that standard mathematics is the most fundamental arose for historical reasons. However, simple {\it mathematical} arguments show that standard mathematics (involving the concept of infinities) is a degenerate case of finite mathematics in the formal limit $p\to\infty$: standard mathematics arises from finite mathematics in the degenerate case when operations modulo a number are discarded. Quantum theory based on a finite ring of characteristic $p$ is more general than standard quantum theory because the latter is a degenerate case of the former in the formal limit $p\to\infty$.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-20
# フェルミオン埋め込みによる量子最適化の到達範囲の拡大

Expanding the reach of quantum optimization with fermionic embeddings ( http://arxiv.org/abs/2301.01778v3 )

ライセンス: Link先を確認
Andrew Zhao, Nicholas C. Rubin, (参考訳) 直交行列上の二次計画法は、効率的な量子表現を持たない幅広い最適化問題を包含する。 そのような問題は、連続な非可換変数への二項二次プログラムの一般化である小さな非可換グロタンディーク問題 (LNCG) の例である。 本研究は, フェルミオンハミルトニアンへのLNCG問題の自然な埋め込みを確立し, 量子情報のツールを用いた古典的問題の研究を可能にする。 この埋め込みは、直交行列をフェルミオン量子状態として表現することで達成され、直交群のよく知られた二重被覆によって達成される。 それに対応して、埋め込み LNCG ハミルトニアン (LNCG Hamiltonian) は2体フェルミオンモデルである。 このハミルトン状態の決定は、古典半定値緩和の量子アナログである元の問題に対する外近似を与える。 特に、 \emph{special} 直交群を最適化するとき、量子緩和は回転行列の凸包に基づくより強力な制約に従う。 この凸-ハル表現の古典的な大きさは行列次元において指数関数的であるが、我々の量子表現は線形数の量子ビットしか必要としない。 最後に、緩和された解を実現可能な空間に投影するために、量子状態の適切な測定から直交行列を返す丸めの手順を提案する。 数値実験を通じて、この丸い量子緩和が高品質な近似を生み出すことを示す。

Quadratic programming over orthogonal matrices encompasses a broad class of hard optimization problems that do not have an efficient quantum representation. Such problems are instances of the little noncommutative Grothendieck problem (LNCG), a generalization of binary quadratic programs to continuous, noncommutative variables. In this work, we establish a natural embedding for this class of LNCG problems onto a fermionic Hamiltonian, thereby enabling the study of this classical problem with the tools of quantum information. This embedding is accomplished by a new representation of orthogonal matrices as fermionic quantum states, which we achieve through the well-known double covering of the orthogonal group. Correspondingly, the embedded LNCG Hamiltonian is a two-body fermion model. Determining extremal states of this Hamiltonian provides an outer approximation to the original problem, a quantum analogue to classical semidefinite relaxations. In particular, when optimizing over the \emph{special} orthogonal group our quantum relaxation obeys additional, powerful constraints based on the convex hull of rotation matrices. The classical size of this convex-hull representation is exponential in matrix dimension, whereas our quantum representation requires only a linear number of qubits. Finally, to project the relaxed solution back into the feasible space, we propose rounding procedures which return orthogonal matrices from appropriate measurements of the quantum state. Through numerical experiments we provide evidence that this rounded quantum relaxation can produce high-quality approximations.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-20
# 雨天・霧天における自律走行のための領域適応に基づく物体検出

Domain Adaptation based Object Detection for Autonomous Driving in Foggy and Rainy Weather ( http://arxiv.org/abs/2307.09676v4 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Xinyu Liu, Jin Ma, Baolu Li, Qin Zou, Jiaqi Ma, Hongkai Yu, (参考訳) 典型的には、教師付き学習に依存する自律運転のための物体検出法は、トレーニングデータとテストデータの間に一貫した特徴分布を仮定するが、このような仮定は異なる気象条件で失敗する可能性がある。 ドメインギャップのため、晴れた天候下で訓練された検出モデルは、霧や雨の条件下ではうまく機能しない可能性がある。 霧や雨の天候で検出のボトルネックを克服することは、野生に展開する自動運転車にとって真の課題だ。 霧や雨の天候下での領域ギャップを埋め、オブジェクト検出の性能を向上させるため、ドメイン適応型オブジェクト検出のための新しいフレームワークを提案する。 画像レベルとオブジェクトレベルの両方の適応は、画像スタイルとドメイン間のオブジェクトの外観の違いを最小限に抑えることを目的としている。 さらに, 課題事例に対するモデルの性能向上のために, ドメイン適応に加えて, 困難な事例に対して, 敵地雷を行う新たな逆勾配反転層を導入する。 さらに,新たな領域レベルの計量正規化を実施するために,データ拡張による補助ドメインの生成を提案する。 公的なベンチマークによる実験結果は、霧や雨の運転シナリオに特化して、物体検出の大幅な向上を示している。

Typically, object detection methods for autonomous driving that rely on supervised learning make the assumption of a consistent feature distribution between the training and testing data, this such assumption may fail in different weather conditions. Due to the domain gap, a detection model trained under clear weather may not perform well in foggy and rainy conditions. Overcoming detection bottlenecks in foggy and rainy weather is a real challenge for autonomous vehicles deployed in the wild. To bridge the domain gap and improve the performance of object detection in foggy and rainy weather, this paper presents a novel framework for domain-adaptive object detection. The adaptations at both the image-level and object-level are intended to minimize the differences in image style and object appearance between domains. Furthermore, in order to improve the model's performance on challenging examples, we introduce a novel adversarial gradient reversal layer that conducts adversarial mining on difficult instances in addition to domain adaptation. Additionally, we suggest generating an auxiliary domain through data augmentation to enforce a new domain-level metric regularization. Experimental findings on public benchmark exhibit a substantial enhancement in object detection specifically for foggy and rainy driving scenarios.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-20
# 帰納的リンク予測のための関係関係の完全なトポロジ-アウェア相関の学習

Learning Complete Topology-Aware Correlations Between Relations for Inductive Link Prediction ( http://arxiv.org/abs/2309.11528v3 )

ライセンス: Link先を確認
Jie Wang, Hanzhu Chen, Qitan Lv, Zhihao Shi, Jiajun Chen, Huarui He, Hongtao Xie, Defu Lian, Enhong Chen, Feng Wu, (参考訳) インダクティブリンク予測 -- トレーニング中のエンティティと推論段階が異なる場合 -- は、エンティティに依存しない方法で進化する知識グラフを完了させる大きな可能性を示している。 多くの一般的な手法はグラフレベルの特徴のモデリングに重点を置いているが、エッジレベルの相互作用、特に関係のセマンティックな相関は研究されていない。 しかし、関係間の意味的相関の望ましい性質は、それらが本質的にエッジレベルとエンティティ非依存であることに気付く。 これは、エンティティに依存しない帰納的リンク予測タスクに対する意味的相関の大きな可能性を意味する。 本研究は, グラフ内のトポロジ構造と高い相関関係を持つ関係関係のトポロジ・アウェア・コレーションをモデル化するための, 新たなサブグラフベース手法であるTACOを提案する。 具体的には,2つの関係間の意味的相関を7つのトポロジ的パターンに分類できることを証明し,各パターンの重要性を学習するために関係相関ネットワーク(RCN)を提案する。 RCN のポテンシャルをさらに活用するために,この部分グラフ内の完全なトポロジカルパターンを効果的に保存できる完全コモンニアインダストリアルサブグラフを提案する。 大規模な実験により、TACOはグラフレベル情報とエッジレベル相互作用を効果的に統一し、推論を共同で行うことが示され、帰納的リンク予測タスクの既存の最先端手法よりも優れた性能が得られる。

Inductive link prediction -- where entities during training and inference stages can be different -- has shown great potential for completing evolving knowledge graphs in an entity-independent manner. Many popular methods mainly focus on modeling graph-level features, while the edge-level interactions -- especially the semantic correlations between relations -- have been less explored. However, we notice a desirable property of semantic correlations between relations is that they are inherently edge-level and entity-independent. This implies the great potential of the semantic correlations for the entity-independent inductive link prediction task. Inspired by this observation, we propose a novel subgraph-based method, namely TACO, to model Topology-Aware COrrelations between relations that are highly correlated to their topological structures within subgraphs. Specifically, we prove that semantic correlations between any two relations can be categorized into seven topological patterns, and then proposes Relational Correlation Network (RCN) to learn the importance of each pattern. To further exploit the potential of RCN, we propose Complete Common Neighbor induced subgraph that can effectively preserve complete topological patterns within the subgraph. Extensive experiments demonstrate that TACO effectively unifies the graph-level information and edge-level interactions to jointly perform reasoning, leading to a superior performance over existing state-of-the-art methods for the inductive link prediction task.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-20
# 化学反応における希少可塑性パターンのモデリング

Beyond the Typical: Modeling Rare Plausible Patterns in Chemical Reactions by Leveraging Sequential Mixture-of-Experts ( http://arxiv.org/abs/2310.04674v2 )

ライセンス: Link先を確認
Taicheng Guo, Changsheng Ma, Xiuying Chen, Bozhao Nan, Kehan Guo, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang, (参考訳) 合成化学における重要な課題である反応予測は、与えられた反応物質に基づいて反応の結果を予測することである。 TransformerやVAEのような生成モデルは一般的に反応生成物を予測するために使用される。 しかし、これらの可能性最大化モデルは、反応過程中に電子が原子間で再分配される複数の方法のような化学反応の固有の確率的性質を見落としていた。 類似の反応物質が異なる電子再分配パターンに従う場合、これらのモデルは一般的に最も一般的な結果を予測する。 これらの見過ごされがちなパターンは、合成経路を設計し、合成技術を大幅に進歩させる革新的な方法につながる可能性がある。 従来のアプローチの限界を断ち切るために,反応物と電子再分配パターン間のマッピング空間を分割・分散的に整理する手法を提案する。 反応における電子再分配パターンの捉え方に特化して、複数の専門家モデルを訓練することで、反応問題に対処する。 これらの専門家は、一般的な電子の再分配法と、他の一般的な電子の再分配法の両方を考慮することで予測プロセスを強化する。 推論段階では、各専門家にドロップアウト戦略を適用し、電子再分配の多様性を改善する。 最も有望な製品は、最終的に複数の専門家による予測を統合するために設計されたランキングステージを通じて予測される。 最大反応予測ベンチマークUSPTO-MITの実験結果から,提案手法のベースラインよりも優れた性能を示した。

Reaction prediction, a critical task in synthetic chemistry, is to predict the outcome of a reaction based on given reactants. Generative models like Transformer and VAE have typically been employed to predict the reaction product. However, these likelihood-maximization models overlooked the inherent stochastic nature of chemical reactions, such as the multiple ways electrons can be redistributed among atoms during the reaction process. In scenarios where similar reactants could follow different electron redistribution patterns, these models typically predict the most common outcomes, neglecting less frequent but potentially crucial reaction patterns. These overlooked patterns, though rare, can lead to innovative methods for designing synthetic routes and significantly advance synthesis techniques. To break the limits of previous approaches, we propose organizing the mapping space between reactants and electron redistribution patterns in a divide-and-conquer manner. We address the reaction problem by training multiple expert models, each specializing in capturing a type of electron redistribution pattern in reaction. These experts enhance the prediction process by considering both typical and other less common electron redistribution manners. In the inference stage, a dropout strategy is applied to each expert to improve the electron redistribution diversity. The most plausible products are finally predicted through a ranking stage designed to integrate the predictions from multiple experts. Experimental results on the largest reaction prediction benchmark USPTO-MIT show the superior performance of our proposed method compared to baselines.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-20
# 多層視覚誘導による弱めの3次元物体検出

Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance ( http://arxiv.org/abs/2312.07530v3 )

ライセンス: Link先を確認
Kuan-Chih Huang, Yi-Hsuan Tsai, Ming-Hsuan Yang, (参考訳) 弱教師付き3Dオブジェクト検出は、アノテーションコストの低い3D検出器、例えば2Dラベルを学習することを目的としている。 正確な3Dアノテーションをほとんど依存していない従来の作業とは異なり、我々は3Dラベルを必要とせずに2Dドメインと3Dドメイン間の制約をどのように活用するかを研究するフレームワークを提案する。 具体的には、3つの視点から視覚データを用いて2Dドメインと3Dドメインの接続を確立する。 まず、LiDARと画像の特徴をオブジェクト認識領域に基づいて調整する特徴レベルの制約を設計する。 第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。 最後に、トレーニングレベルの制約を利用して、視覚データと整合した正確で一貫性のある3D擬似ラベルを生成する。 提案した3つの制約の有効性を検証するため,KITTIデータセットの広範な実験を行った。 提案手法は,500フレームの3Dアノテーションを使用する手法と競合し,最先端のアプローチに対して良好な性能を発揮する。 コードはhttps://github.com/kuanchihhuang/VG-W3Dで公開される。

Weakly supervised 3D object detection aims to learn a 3D detector with lower annotation cost, e.g., 2D labels. Unlike prior work which still relies on few accurate 3D annotations, we propose a framework to study how to leverage constraints between 2D and 3D domains without requiring any 3D labels. Specifically, we employ visual data from three perspectives to establish connections between 2D and 3D domains. First, we design a feature-level constraint to align LiDAR and image features based on object-aware regions. Second, the output-level constraint is developed to enforce the overlap between 2D and projected 3D box estimations. Finally, the training-level constraint is utilized by producing accurate and consistent 3D pseudo-labels that align with the visual data. We conduct extensive experiments on the KITTI dataset to validate the effectiveness of the proposed three constraints. Without using any 3D labels, our method achieves favorable performance against state-of-the-art approaches and is competitive with the method that uses 500-frame 3D annotations. Code will be made publicly available at https://github.com/kuanchihhuang/VG-W3D.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-20
# 多変量時系列クラスタリングによる一般化可能なTBI現象の発見

Discovery of Generalizable TBI Phenotypes Using Multivariate Time-Series Clustering ( http://arxiv.org/abs/2401.08002v2 )

ライセンス: Link先を確認
Hamid Ghaderi, Brandon Foreman, Chandan K. Reddy, Vignesh Subbian, (参考訳) 外傷性脳損傷(TBI)は、その特異な不均一性に起因する幅広い臨床所見と結果を示し、様々な回復軌道と様々な治療反応をもたらす。 多くの研究は、異なる患者集団に対してTBI表現型を研究してきたが、様々な設定や集団にわたって一貫して一般化されるTBI表現型を同定することは、重要な研究ギャップである。 本研究は,TBIの動的複雑度を明らかにするために,多変量時系列クラスタリングを用いてこの問題に対処する。 多変量時系列データをSLAC-Timeでクラスタリングするための自己教師あり学習に基づくアプローチを用いて,研究中心のTRACK-TBIと実世界のMIMIC-IVデータセットの両方を解析した。 注目すべきは、SLAC-Timeの最適なハイパーパラメータと理想的なクラスタ数は、これらのデータセット間で一貫しており、異種データセット間のSLAC-Timeの安定性を裏付けている。 総括的TBI表現型は3種類 ({\alpha, \b{eta}, {\gamma}) で, 救急部訪問時の時間的特徴, ICU滞在時の時間的特徴, ICU滞在時の時間的特徴について検討した。 具体的には、表現型 {\alpha は軽度 TBI であり、非常に一貫した臨床像である。 対照的に、表現型 \b{eta} は多彩な臨床症状を持つ重度のTBIを示し、表現型 {\gamma} は重症度と臨床多様性の点で中程度のTBIプロファイルを示す。 年齢はTBIの結果の重要な決定要因であり、高齢のコホートは死亡率が高い。 重要なことに、特定の特徴は年齢によって異なるが、各表現型に関連付けられたTBIのコア特性は、多様な個体群で一貫している。

Traumatic Brain Injury (TBI) presents a broad spectrum of clinical presentations and outcomes due to its inherent heterogeneity, leading to diverse recovery trajectories and varied therapeutic responses. While many studies have delved into TBI phenotyping for distinct patient populations, identifying TBI phenotypes that consistently generalize across various settings and populations remains a critical research gap. Our research addresses this by employing multivariate time-series clustering to unveil TBI's dynamic intricates. Utilizing a self-supervised learning-based approach to clustering multivariate time-Series data with missing values (SLAC-Time), we analyzed both the research-centric TRACK-TBI and the real-world MIMIC-IV datasets. Remarkably, the optimal hyperparameters of SLAC-Time and the ideal number of clusters remained consistent across these datasets, underscoring SLAC-Time's stability across heterogeneous datasets. Our analysis revealed three generalizable TBI phenotypes ({\alpha}, \b{eta}, and {\gamma}), each exhibiting distinct non-temporal features during emergency department visits, and temporal feature profiles throughout ICU stays. Specifically, phenotype {\alpha} represents mild TBI with a remarkably consistent clinical presentation. In contrast, phenotype \b{eta} signifies severe TBI with diverse clinical manifestations, and phenotype {\gamma} represents a moderate TBI profile in terms of severity and clinical diversity. Age is a significant determinant of TBI outcomes, with older cohorts recording higher mortality rates. Importantly, while certain features varied by age, the core characteristics of TBI manifestations tied to each phenotype remain consistent across diverse populations.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-20
# SelectLLM: LLMはアノテーションに重要な命令を選択できるか?

SelectLLM: Can LLMs Select Important Instructions to Annotate? ( http://arxiv.org/abs/2401.16553v6 )

ライセンス: Link先を確認
Ritik Sachin Parkar, Jaehyung Kim, Jong Inn Park, Dongyeop Kang, (参考訳) インストラクションチューニングは、大規模で多様なデータセットから恩恵を受けるが、そのようなデータセットを作成するには、人間のラベル付けのコストが高い。 大規模言語モデル(LLM)によって生成された合成データセットはこの問題を部分的に解決しているが、低品質のデータを含んでいることが多い。 効果的な解決策の1つは、特にラベルなしの命令やテキストを様々なソースから比較的容易に取得できることを考えると、ラベルなしの命令を選択的に注釈付けすることである。 しかし、特にLLMの文脈では、乱れのない命令をどうやって選択するかはよく研究されていない。 そこで本稿では,ラベルなし命令をより効果的に選択するための LLM の機能を活用した代替フレームワークである SelectLLM を紹介する。 具体的には、SelectLLMは2つの重要なステップで構成されている。コアセットベースのクラスタリングで、多様性を拡大するための非ラベリング命令と、各クラスタ内で最も有益な命令を識別するLLMの促進である。 我々は,AlpacaEval2およびMT-Bench上のSelectLLMを評価し,Alpagasusのような最先端手法よりも優れた性能を示す。 さらに、SelectLLMの性能と互換性をChatGPT、LLaMA-3.1-70B、Gemma-2-27bなど様々なLLMと比較する。 SelectLLMの適応性と堅牢性は、人間と合成データセットの両方で高いパフォーマンスを維持する能力によってさらに証明されている。 すべてのコードとデータが公開されている(https://github.com/minnesotanlp/select-llm)。

Instruction tuning benefits from large and diverse datasets; however, creating such datasets involves a high cost of human labeling. While synthetic datasets generated by large language models (LLMs) have partly solved this issue, they often contain low-quality data. One effective solution is selectively annotating unlabelled instructions, especially given the relative ease of acquiring unlabeled instructions or texts from various sources. However, how to select unlabelled instructions is not well-explored, especially in the context of LLMs. Therefore, we introduce SelectLLM, an alternative framework that leverages the capabilities of LLMs to select unlabeled instructions more effectively. Specifically, SelectLLM consists of two key steps: Coreset-based clustering of unlabelled instructions for enlarging diversity and prompting of LLM to identify the most beneficial instructions within each cluster. We evaluate SelectLLM on AlpacaEval2 and MT-Bench, demonstrating its ability to outperform state-of-the-art methods like Alpagasus. In addition, we compare the performance and compatibility of SelectLLM with various LLMs, such as ChatGPT, LLaMA-3.1-70B, and Gemma-2-27b. SelectLLM's adaptability and robustness are further evidenced by its ability to maintain high performance across both human and synthetic datasets. All code and data are publicly available (https://github.com/minnesotanlp/select-llm).
翻訳日:2024-08-22 22:54:42 公開日:2024-08-20
# Clarify: 自然言語補正によるモデルロバストネスの改善

Clarify: Improving Model Robustness With Natural Language Corrections ( http://arxiv.org/abs/2402.03715v2 )

ライセンス: Link先を確認
Yoonho Lee, Michelle S. Lam, Helena Vasconcelos, Michael S. Bernstein, Chelsea Finn, (参考訳) モデルを教える標準的な方法は、大量のデータを提供することです。 しかし、このアプローチはしばしば、データ内の誤解を招く信号を拾い上げるため、モデルに誤ったアイデアを教える。 このような誤解を防ぐためには、トレーニングデータ以外の追加情報を必ず提供しなければなりません。 従来の手法には、誤解を招く特徴のラベルや、偏りのあるデータのためのラベルなど、追加のインスタンスレベルの監視が含まれている。 しかし、そのような戦略は大量のラベル付け作業を必要とする。 既存の教育フレームワークでは利用できない、概念レベルでのテキストフィードバックの提供に長けている、という仮説を立てる。 モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。 Clarifyを通じて、モデルの一貫性のある障害パターンを短いテキストで記述するだけでよい。 そして、完全に自動化された方法で、トレーニングプロセスを改善するためにこのような記述を使用します。 Clarifyは、ユーザーモデル修正のための最初のエンドツーエンドシステムである。 ユーザスタディでは、Clarifyを通じて、非専門家のユーザがモデル誤解をうまく記述できることが示され、2つのデータセットで最悪のパフォーマンスが向上した。 また、Clarify を用いた大規模画像データセット ImageNet のケーススタディを行い、31の新規なハードサブポピュレーションの発見と修正を行う。

The standard way to teach models is by feeding them lots of data. However, this approach often teaches models incorrect ideas because they pick up on misleading signals in the data. To prevent such misconceptions, we must necessarily provide additional information beyond the training data. Prior methods incorporate additional instance-level supervision, such as labels for misleading features or additional labels for debiased data. However, such strategies require a large amount of labeler effort. We hypothesize that people are good at providing textual feedback at the concept level, a capability that existing teaching frameworks do not leverage. We propose Clarify, a novel interface and method for interactively correcting model misconceptions. Through Clarify, users need only provide a short text description of a model's consistent failure patterns. Then, in an entirely automated way, we use such descriptions to improve the training process. Clarify is the first end-to-end system for user model correction. Our user studies show that non-expert users can successfully describe model misconceptions via Clarify, leading to increased worst-case performance in two datasets. We additionally conduct a case study on a large-scale image dataset, ImageNet, using Clarify to find and rectify 31 novel hard subpopulations.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-20
# 多元的アライメントへの道程

A Roadmap to Pluralistic Alignment ( http://arxiv.org/abs/2402.05070v3 )

ライセンス: Link先を確認
Taylor Sorensen, Jared Moore, Jillian Fisher, Mitchell Gordon, Niloofar Mireshghallah, Christopher Michael Rytting, Andre Ye, Liwei Jiang, Ximing Lu, Nouha Dziri, Tim Althoff, Yejin Choi, (参考訳) AIシステムのパワー向上と普及により、AIシステムはあらゆる、すなわちさまざまな価値と視点を持つ人々に役立つように設計されていることがますます重要になる。 しかし、多元的人間の価値を提供するためにモデルを整列させることは、オープンな研究課題である。 本稿では,言語モデルをテストベッドとして用いた多元的アライメントのロードマップを提案する。 AIシステムにおける多元性を定義・運用する3つの可能な方法を特定し,定式化する。 1) 合理的応答のスペクトルを示すオーバートン多元性モデル 2) 一定の視点を反映できる安定多元性モデル,及び 3)分布の集団によく分類された分布多元性モデル。 また、多元性ベンチマークの3つの可能なクラスを形式化し、議論する。 1)多目的ベンチマーク 2 任意のトレードオフを行うためのモデルにインセンティブを与える、トレードオフ可能なベンチマーク 3) 多様な人間格付けを明示的にモデル化した鑑定的ベンチマーク。 この枠組みは、現在のアライメント技術は、基本的には多元的AIに限られていると論じるために用いられるが、実際、我々は、我々の実験と他の研究の両方から、標準アライメント手順はモデルにおける分散多元主義を減らし、多元的アライメントに関するさらなる研究の必要性を動機付けている、経験的な証拠を強調している。

With increased power and prevalence of AI systems, it is ever more critical that AI systems are designed to serve all, i.e., people with diverse values and perspectives. However, aligning models to serve pluralistic human values remains an open research question. In this piece, we propose a roadmap to pluralistic alignment, specifically using language models as a test bed. We identify and formalize three possible ways to define and operationalize pluralism in AI systems: 1) Overton pluralistic models that present a spectrum of reasonable responses; 2) Steerably pluralistic models that can steer to reflect certain perspectives; and 3) Distributionally pluralistic models that are well-calibrated to a given population in distribution. We also formalize and discuss three possible classes of pluralistic benchmarks: 1) Multi-objective benchmarks, 2) Trade-off steerable benchmarks, which incentivize models to steer to arbitrary trade-offs, and 3) Jury-pluralistic benchmarks which explicitly model diverse human ratings. We use this framework to argue that current alignment techniques may be fundamentally limited for pluralistic AI; indeed, we highlight empirical evidence, both from our own experiments and from other work, that standard alignment procedures might reduce distributional pluralism in models, motivating the need for further research on pluralistic alignment.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-20
# マニピュレーション検出におけるサリエンシバイアスの探索

Exploring Saliency Bias in Manipulation Detection ( http://arxiv.org/abs/2402.07338v3 )

ライセンス: Link先を確認
Joshua Krinsky, Alan Bettis, Qiuyu Tang, Daniel Moreira, Aparna Bharati, (参考訳) ソーシャルメディアによるフェイクニュースの爆発と、改ざん画像で裏付けられた誤報は、画像検出のためのモデルとデータセットの開発に発展をもたらした。 しかし、既存の検出手法は、特定の操作が視聴者の知覚に与える影響を考慮せずに、主にメディアオブジェクトを分離して扱う。 法医学的データセットは通常、操作操作と対応するピクセルベースのマスクに基づいて分析されるが、操作の意味論、すなわちシーンの種類、オブジェクト、視聴者のシーンコンテンツへの注意に基づくものではない。 操作の意味論は、操作された画像を通して誤情報を広げる上で重要な役割を果たしている。 視覚的誤情報を理解するための意味認識法医学的アプローチのさらなる発展を促すために,一般的な画像操作データセットにおける視覚的・意味的サリエンシの傾向とその検出への影響を分析する枠組みを提案する。

The social media-fuelled explosion of fake news and misinformation supported by tampered images has led to growth in the development of models and datasets for image manipulation detection. However, existing detection methods mostly treat media objects in isolation, without considering the impact of specific manipulations on viewer perception. Forensic datasets are usually analyzed based on the manipulation operations and corresponding pixel-based masks, but not on the semantics of the manipulation, i.e., type of scene, objects, and viewers' attention to scene content. The semantics of the manipulation play an important role in spreading misinformation through manipulated images. In an attempt to encourage further development of semantic-aware forensic approaches to understand visual misinformation, we propose a framework to analyze the trends of visual and semantic saliency in popular image manipulation datasets and their impact on detection.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-20
# ComTraQ-MPC: 限定アクティブローカライゼーション更新による軌跡追跡のためのメタトレーニングDQN-MPC統合

ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates ( http://arxiv.org/abs/2403.01564v3 )

ライセンス: Link先を確認
Gokul Puthumanaillam, Manav Vora, Melkior Ornik, (参考訳) エージェントがセンサーから真の状態情報を取得するプロセスである、アクティブなローカライゼーション更新の回数が制限された部分的に観測可能な確率的な環境での軌道追跡の最適決定は、重大な課題である。 伝統的な手法は、しばしば資源の保存、正確な状態推定、正確な追跡のバランスをとるのに苦労する。 この問題は、頻繁に正確な状態データを必要とする環境において特に顕著であるが、アクティブなローカライゼーション更新の能力は外部の制限によって制限されている。 本稿では,DQN(Deep Q-Networks)とモデル予測制御(Model Predictive Control,MPC)を組み合わせた新しいフレームワークであるComTraQ-MPCを紹介する。 メタトレーニングされたDQNは適応的なアクティブなローカライゼーションスケジューリングを保証し、MPCは利用可能な状態情報を活用してトラッキングを改善する。 DQNの更新決定は、MPCのコントロール戦略を知らせ、MPCの結果はDQNの学習を洗練させ、結合的で適応的なシステムを作り出す。 ComTraQ-MPCは、複雑な部分的に観測可能な環境での軌道追跡を一般化し、ほぼ最適な解を提供する。

Optimal decision-making for trajectory tracking in partially observable, stochastic environments where the number of active localization updates -- the process by which the agent obtains its true state information from the sensors -- are limited, presents a significant challenge. Traditional methods often struggle to balance resource conservation, accurate state estimation and precise tracking, resulting in suboptimal performance. This problem is particularly pronounced in environments with large action spaces, where the need for frequent, accurate state data is paramount, yet the capacity for active localization updates is restricted by external limitations. This paper introduces ComTraQ-MPC, a novel framework that combines Deep Q-Networks (DQN) and Model Predictive Control (MPC) to optimize trajectory tracking with constrained active localization updates. The meta-trained DQN ensures adaptive active localization scheduling, while the MPC leverages available state information to improve tracking. The central contribution of this work is their reciprocal interaction: DQN's update decisions inform MPC's control strategy, and MPC's outcomes refine DQN's learning, creating a cohesive, adaptive system. Empirical evaluations in simulated and real-world settings demonstrate that ComTraQ-MPC significantly enhances operational efficiency and accuracy, providing a generalizable and approximately optimal solution for trajectory tracking in complex partially observable environments.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-20
# OmniCount:Semantic-Geometric Priorsを用いたマルチラベルオブジェクトカウント

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors ( http://arxiv.org/abs/2403.05435v4 )

ライセンス: Link先を確認
Anindya Mondal, Sauradip Nag, Xiatian Zhu, Anjan Dutta, (参考訳) オブジェクトのカウントはシーンの構成を理解する上で重要である。 以前は、このタスクはクラス固有のメソッドに支配され、徐々に適応性のあるクラスに依存しない戦略へと進化してきた。 しかしながら、これらの戦略には、手動の模範入力の必要性や複数のカテゴリの複数のパスなど、独自の制限があるため、大きな非効率性が生じる。 本稿では,オープン語彙フレームワークを用いた複数のオブジェクトカテゴリの同時カウントを実現するための,より実践的なアプローチを提案する。 我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的洞察(プライヤ)を使用して、ユーザーが指定した複数のカテゴリのオブジェクトを、追加のトレーニングなしでカウントすることで際立っている。 OmniCountは、正確なオブジェクトマスクを生成し、Segment Anything Modelを通じて様々なインタラクティブなプロンプトを活用して、効率的にカウントする。 OmniCount-191ベンチマークは、ポイント、バウンディングボックス、VQAアノテーションを含む、複数ラベルのオブジェクトカウントを備えたファーストオブザイズ型データセットです。 OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの例外的なパフォーマンスを示し、既存のソリューションを大幅に上回っている。

Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a more practical approach enabling simultaneous counting of multiple object categories using an open-vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights (priors) from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging varied interactive prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount's exceptional performance, significantly outpacing existing solutions.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-20
# 内視鏡映像からの単眼深度推定のための近接場照明の活用

Leveraging Near-Field Lighting for Monocular Depth Estimation from Endoscopy Videos ( http://arxiv.org/abs/2403.17915v4 )

ライセンス: Link先を確認
Akshay Paruchuri, Samuel Ehrenstein, Shuxian Wang, Inbar Fried, Stephen M. Pizer, Marc Niethammer, Roni Sengupta, (参考訳) 内視鏡ビデオにおける単眼深度推定は、補助手術やロボット手術によって臓器のより良いカバレッジと様々な健康問題の検出を可能にする。 主流である自然画像深度推定の進歩は期待できるが、強力な幾何学的特徴の欠如と難解な照明効果のため、内視鏡画像では技術が不十分である。 本稿では, 内視鏡から放射される光を表面から反射する光学的手がかりを用いて, 単分子深度推定を改善する。 まず、画素ごとのシェーディング表現を利用した教師付きおよび自己監督型の2つの新しい損失関数を作成する。 次に、同じピクセルごとのシェーディング表現を利用する新しい深度改善ネットワーク(PPSNet)を提案する。 最後に,教師学生の移動学習を導入し,自己監督型と臨床データを用いた合成データから,より深い深度マップを作成する。 我々は,臨床データから高品質な深度マップを推定しながら,C3VDデータセットの最先端結果を得る。 私たちのコード、事前訓練されたモデル、補足的な資料は、プロジェクトのページで確認できます。

Monocular depth estimation in endoscopy videos can enable assistive and robotic surgery to obtain better coverage of the organ and detection of various health issues. Despite promising progress on mainstream, natural image depth estimation, techniques perform poorly on endoscopy images due to a lack of strong geometric features and challenging illumination effects. In this paper, we utilize the photometric cues, i.e., the light emitted from an endoscope and reflected by the surface, to improve monocular depth estimation. We first create two novel loss functions with supervised and self-supervised variants that utilize a per-pixel shading representation. We then propose a novel depth refinement network (PPSNet) that leverages the same per-pixel shading representation. Finally, we introduce teacher-student transfer learning to produce better depth maps from both synthetic data with supervision and clinical data with self-supervision. We achieve state-of-the-art results on the C3VD dataset while estimating high-quality depth maps from clinical data. Our code, pre-trained models, and supplementary materials can be found on our project page: https://ppsnet.github.io/
翻訳日:2024-08-22 22:35:13 公開日:2024-08-20
# InstantSplat:sparse-view SfM-free Gaussian Splatting in Seconds

InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds ( http://arxiv.org/abs/2403.20309v3 )

ライセンス: Link先を確認
Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang, (参考訳) スパース画像からの新規ビュー合成(NVS)は3次元コンピュータビジョンにおいて著しく進歩しているが、Structure-from-Motion (SfM) を用いたカメラパラメータの正確な初期推定に依存している。 例えば、最近開発されたガウススプラッティングは、SfM由来の点とポーズの精度に大きく依存している。 しかし、SfMプロセスは時間がかかり、スパースビューのシナリオでは信頼できないことがしばしばある。 本研究では,スパースビュー画像から堅牢なNVSを向上するための,新規で効率的なフレームワークを提案する。 我々のフレームワークであるInstantSplatは、マルチビューステレオ(MVS)予測とポイントベース表現を統合して、スパースビューデータから大規模シーンの3Dガウスアンを秒単位で構築し、前述のSfMによる性能と効率の問題に対処する。 具体的には、InstantSplatは、すべてのトレーニングビューにまたがって密集した表面点を生成し、ピクセルアライメントを用いて初期カメラパラメータを決定する。 それでも、MVSポイントはグローバルに正確ではなく、全てのビューからのピクセルワイズ予測はガウス数の過大な結果となり、トレーニング速度と精度の両方を損なう過度なパラメータ化されたシーン表現をもたらす。 この問題に対処するために、グリッドベースで信頼性に配慮したFarthest Point Smplingを用いて、代表地点で戦略的にポイントプリミティブを並列に配置する。 次に、自己スーパービジョンからの勾配に基づく共同最適化フレームワークを用いて、ポーズ精度を高め、シーンパラメータをチューニングする。 この単純化されたフレームワークを使用することで、InstantSplatは数時間からほんの数秒までのトレーニング時間を大幅に短縮し、多様なデータセットでさまざまなビューにわたって堅牢なパフォーマンスを示す。

While novel view synthesis (NVS) from a sparse set of images has advanced significantly in 3D computer vision, it relies on precise initial estimation of camera parameters using Structure-from-Motion (SfM). For instance, the recently developed Gaussian Splatting depends heavily on the accuracy of SfM-derived points and poses. However, SfM processes are time-consuming and often prove unreliable in sparse-view scenarios, where matched features are scarce, leading to accumulated errors and limited generalization capability across datasets. In this study, we introduce a novel and efficient framework to enhance robust NVS from sparse-view images. Our framework, InstantSplat, integrates multi-view stereo(MVS) predictions with point-based representations to construct 3D Gaussians of large-scale scenes from sparse-view data within seconds, addressing the aforementioned performance and efficiency issues by SfM. Specifically, InstantSplat generates densely populated surface points across all training views and determines the initial camera parameters using pixel-alignment. Nonetheless, the MVS points are not globally accurate, and the pixel-wise prediction from all views results in an excessive Gaussian number, yielding a overparameterized scene representation that compromises both training speed and accuracy. To address this issue, we employ a grid-based, confidence-aware Farthest Point Sampling to strategically position point primitives at representative locations in parallel. Next, we enhance pose accuracy and tune scene parameters through a gradient-based joint optimization framework from self-supervision. By employing this simplified framework, InstantSplat achieves a substantial reduction in training time, from hours to mere seconds, and demonstrates robust performance across various numbers of views in diverse datasets.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-20
# 大規模言語モデルはどの程度汚染されているか? : 包括的調査と LLM Sanitize Library

How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library ( http://arxiv.org/abs/2404.00699v3 )

ライセンス: Link先を確認
Mathieu Ravaut, Bosheng Ding, Fangkai Jiao, Hailin Chen, Xingxuan Li, Ruochen Zhao, Chengwei Qin, Caiming Xiong, Shafiq Joty, (参考訳) 近年のLarge Language Models(LLMs)の台頭に伴い、多くの新しい機会が生まれつつあり、また汚染が急速に重要になっている新しい課題もある。 ビジネスアプリケーションとAIの資金調達は、人気の高い質問回答ベンチマークで得られた数パーセントのポイントが数十万ドルに変換され、モデルの整合性に高い圧力がかかる規模に達している。 GPT-4やClaude-3のようなクローズドソースモデルでは、トレーニングセットに関する情報を漏らすことは不可能ではないが。 その結果、汚染は大きな問題となる: LLMの性能は、データへの以前の露出による少なくとも部分的には高い性能のため、もはや信頼できないかもしれない。 本稿では, LLM による汚染検出に関する最近の研究をすべて調査し, LLMSanitize というオープンソースの Python ライブラリをリリースすることによって, LLM の汚染レベルを追跡することを支援する。

With the rise of Large Language Models (LLMs) in recent years, abundant new opportunities are emerging, but also new challenges, among which contamination is quickly becoming critical. Business applications and fundraising in AI have reached a scale at which a few percentage points gained on popular question-answering benchmarks could translate into dozens of millions of dollars, placing high pressure on model integrity. At the same time, it is becoming harder and harder to keep track of the data that LLMs have seen; if not impossible with closed-source models like GPT-4 and Claude-3 not divulging any information on the training set. As a result, contamination becomes a major issue: LLMs' performance may not be reliable anymore, as the high performance may be at least partly due to their previous exposure to the data. This limitation jeopardizes the entire progress in the field of NLP, yet, there remains a lack of methods on how to efficiently detect contamination.In this paper, we survey all recent work on contamination detection with LLMs, and help the community track contamination levels of LLMs by releasing an open-source Python library named LLMSanitize implementing major contamination detection algorithms.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-20
# V2Xum-LLM:テンポラルプロンプトインストラクションチューニングによるクロスモーダルビデオ要約

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning ( http://arxiv.org/abs/2404.12353v2 )

ライセンス: Link先を確認
Hang Hua, Yunlong Tang, Chenliang Xu, Jiebo Luo, (参考訳) ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。 様々なビデオ要約データセットが存在するにもかかわらず、顕著な制限は、その限られた量のソースビデオであり、これは高度な大規模視覚言語モデル(VLM)の効果的な訓練を妨げている。 さらに、既存のほとんどのデータセットは、ビデオ間要約のために作成され、現代のマルチモーダルビデオコンテンツ要約の必要性を見越している。 ビデオ・トゥ・ビデオ(V2V)、ビデオ・トゥ・テキスト(V2T)、ビデオ・テキスト・サマリゼーション(V2VT)の3つのサブタスクに分類し、非モーダルからマルチモーダル・ビデオ・サマリゼーションへと拡張する試みが近年行われている。 しかし、過去のマルチモーダルデータセットのテキスト要約は不十分である。 Instruct-V2Xumは、YouTubeからソースされた3万の多様なビデオで構成され、長さは40秒から940秒、平均要約率は16.39%である。 Instruct-V2Xumの各ビデオ要約は、特定のフレームインデックスを参照するテキスト要約と組み合わせられ、アライメントされたビデオとテキスト要約の生成が容易になる。 さらに,V2Xum-LLMというビデオ要約フレームワークを提案する。 V2Xum-LLMは、特にV2Xum-LLaMAにおいて、異なるビデオ要約タスクを1つの大きな言語モデル(LLM)テキストデコーダに統合し、時間的プロンプトとタスク命令でタスク制御可能なビデオ要約を実現するための最初のフレームワークである。 実験により、V2Xum-LLaMAは複数のビデオ要約タスクにおいて強力なベースラインモデルより優れていることが示された。 さらに,V2VとV2VTの要約タスクに対する評価基準の強化を提案する。

Video summarization aims to create short, accurate, and cohesive summaries of longer videos. Despite the existence of various video summarization datasets, a notable limitation is their limited amount of source videos, which hampers the effective training of advanced large vision-language models (VLMs). Additionally, most existing datasets are created for video-to-video summarization, overlooking the contemporary need for multimodal video content summarization. Recent efforts have been made to expand from unimodal to multimodal video summarization, categorizing the task into three sub-tasks based on the summary's modality: video-to-video (V2V), video-to-text (V2T), and a combination of video and text summarization (V2VT). However, the textual summaries in previous multimodal datasets are inadequate. To address these issues, we introduce Instruct-V2Xum, a cross-modal video summarization dataset featuring 30,000 diverse videos sourced from YouTube, with lengths ranging from 40 to 940 seconds and an average summarization ratio of 16.39%. Each video summary in Instruct-V2Xum is paired with a textual summary that references specific frame indexes, facilitating the generation of aligned video and textual summaries. In addition, we propose a new video summarization framework named V2Xum-LLM. V2Xum-LLM, specifically V2Xum-LLaMA in this study, is the first framework that unifies different video summarization tasks into one large language model's (LLM) text decoder and achieves task-controllable video summarization with temporal prompts and task instructions. Experiments show that V2Xum-LLaMA outperforms strong baseline models on multiple video summarization tasks. Furthermore, we propose an enhanced evaluation metric for V2V and V2VT summarization tasks.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-20
# 大規模言語とビジョンモデルにおける創造的問題解決 - 何が必要か?

Creative Problem Solving in Large Language and Vision Models -- What Would it Take? ( http://arxiv.org/abs/2405.01453v2 )

ライセンス: Link先を確認
Lakshmi Nair, Evana Gizzi, Jivko Sinapov, (参考訳) 本稿では,計算創造性(CC)を大規模言語と視覚モデル(LLVM)で研究し,これらのモデルの限界,すなわち創造的問題解決に対処するためのアプローチについて議論する。 本研究は, CCの原理を応用して, 拡張的プロンプトによってこの制限に対処できることを示す予備実験である。 本研究は,LLVMにおける創造的問題解決のためのMLアルゴリズムの文脈において,計算創造性に関する議論を促進することを目的としている。 https://github.com/lnairGT/creative-problem-solving-LLMs

In this paper, we discuss approaches for integrating Computational Creativity (CC) with research in large language and vision models (LLVMs) to address a key limitation of these models, i.e., creative problem solving. We present preliminary experiments showing how CC principles can be applied to address this limitation through augmented prompting. With this work, we hope to foster discussions of Computational Creativity in the context of ML algorithms for creative problem solving in LLVMs. Our code is at: https://github.com/lnairGT/creative-problem-solving-LLMs
翻訳日:2024-08-22 22:25:29 公開日:2024-08-20
# 畳み込みニューラルネットワークにおけるバイアス補正のためのニューロシンボリックフレームワーク

A Neurosymbolic Framework for Bias Correction in Convolutional Neural Networks ( http://arxiv.org/abs/2405.15886v3 )

ライセンス: Link先を確認
Parth Padalkar, Natalia Ślusarz, Ekaterina Komendantskaya, Gopal Gupta, (参考訳) 畳み込みニューラルネットワーク(CNN)の解釈における最近の取り組みは、CNNフィルタの活性化を階層化されたAnswer Set Program(ASP)ルールセットに変換することに焦点を当てている。 CNNフィルタは高レベルのイメージ概念をキャプチャすることで知られており、ルールセットの述語は、対応するフィルタが表現する概念にマッピングされる。 したがって、ルールセットはCNNの意思決定過程を例示し、任意の画像分類タスクで学習する概念を例示する。 これらのルールセットはCNNのバイアスを理解するのに役立つが、バイアスを修正することは依然として困難である。 我々は、訓練されたCNNにおいて、バイアス補正のためのNeSyBiCorと呼ばれるニューロシンボリックフレームワークを導入する。 ASP 制約のように CNN がバイアスのかかるシンボリックな概念を考えると、その概念を対応するベクトル表現に変換する。 そして、CNNは我々の新しいセマンティック類似性損失を使用して再訓練され、フィルタを望まれない概念から遠ざける(あるいは向く)。 再トレーニング後に得られた最後のASPルールセットは、制約を高いレベルまで満たし、CNNの知識の見直しを示す。 我々のNeSyBiCorフレームワークは、最小限の精度を犠牲にして、解釈可能性を改善しながら、 \textit{Places}データセットのクラスのサブセットでトレーニングされたCNNのバイアスをうまく修正することを示した。

Recent efforts in interpreting Convolutional Neural Networks (CNNs) focus on translating the activation of CNN filters into a stratified Answer Set Program (ASP) rule-sets. The CNN filters are known to capture high-level image concepts, thus the predicates in the rule-set are mapped to the concept that their corresponding filter represents. Hence, the rule-set exemplifies the decision-making process of the CNN w.r.t the concepts that it learns for any image classification task. These rule-sets help understand the biases in CNNs, although correcting the biases remains a challenge. We introduce a neurosymbolic framework called NeSyBiCor for bias correction in a trained CNN. Given symbolic concepts, as ASP constraints, that the CNN is biased towards, we convert the concepts to their corresponding vector representations. Then, the CNN is retrained using our novel semantic similarity loss that pushes the filters away from (or towards) learning the desired/undesired concepts. The final ASP rule-set obtained after retraining, satisfies the constraints to a high degree, thus showing the revision in the knowledge of the CNN. We demonstrate that our NeSyBiCor framework successfully corrects the biases of CNNs trained with subsets of classes from the \textit{Places} dataset while sacrificing minimal accuracy and improving interpretability.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-20
# グラフニューラルネットワークの統計的一般化に関する多様体的考察

A Manifold Perspective on the Statistical Generalization of Graph Neural Networks ( http://arxiv.org/abs/2406.05225v2 )

ライセンス: Link先を確認
Zhiyang Wang, Juan Cervino, Alejandro Ribeiro, (参考訳) 畳み込みニューラルネットワークはグラフ上での動作に成功し、グラフニューラルネットワーク(GNN)が誕生した。 GNNはグラフ畳み込みの連続的な応用によって隣接ノードからの情報を結合する。 GNNは様々な学習タスクでうまく実装されているが、その一般化能力に関する理論的理解はまだ進行中である。 本稿では, GNN の統計一般化ギャップを解析するために, 多様体理論を活用する。 ノードレベルとグラフレベルの両方のタスクにおけるGNNの一般化ギャップについて検討する。 学習グラフのノード数によって一般化のギャップが減少し、GNNの多様体上の点への一般化が保証されることを示す。 複数の実世界のデータセットで理論的結果を検証する。

Convolutional neural networks have been successfully extended to operate on graphs, giving rise to Graph Neural Networks (GNNs). GNNs combine information from adjacent nodes by successive applications of graph convolutions. GNNs have been implemented successfully in various learning tasks while the theoretical understanding of their generalization capability is still in progress. In this paper, we leverage manifold theory to analyze the statistical generalization gap of GNNs operating on graphs constructed on sampled points from manifolds. We study the generalization gaps of GNNs on both node-level and graph-level tasks. We show that the generalization gaps decrease with the number of nodes in the training graphs, which guarantees the generalization of GNNs to unseen points over manifolds. We validate our theoretical results in multiple real-world datasets.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-20
# 基礎モデルの有効性評価--ベンチマークの実践による微調整意思決定の促進

Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making ( http://arxiv.org/abs/2407.11006v2 )

ライセンス: Link先を確認
Oluyemi Enoch Amujo, Shanchieh Jay Yang, (参考訳) 近年,大規模言語モデル (LLM) は様々な領域に拡張されている。 しかし、ドメイン固有のダウンストリームタスクを微調整する前にベンチマークするのに役立つかもしれないドメイン固有のクエリに比べ、これらのモデルがどのように機能するかを評価する必要がある。 本研究では,LLM(特にGemma-2BとGemma-7B)を,一般的な知識クエリと比較して,サイバーセキュリティ,医療,ファイナンスなどさまざまな領域にわたって評価する。 本研究は,問題定式化,データ解析,および,その簡潔さに基づいて応答スループットのアウトレーラを自動的に識別する新しいアウトレーラ検出技術であるStraceCutの開発を含む基礎モデルを評価するための総合的な方法論を利用する。 本手法は,提案した評価フレームワークの信頼性を高める。 本研究は, 推定時間, 応答長, スループット, 品質, 資源利用量について検討し, これらの要因間の相関について検討した。 その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。 さらに、様々な種類のクエリを含む一般的なプロンプトは、不規則な間隔で多種多様な一貫性のない応答を生成する。 対照的に、ドメイン固有のプロンプトは、合理的な時間内に簡潔な応答を一貫して生成する。 本研究は、マルチドメインAI研究におけるベンチマーク手順の信頼性を高めるための総合的な評価フレームワークの必要性を強調した。

Recently, large language models (LLMs) have expanded into various domains. However, there remains a need to evaluate how these models perform when prompted with commonplace queries compared to domain-specific queries, which may be useful for benchmarking prior to fine-tuning for domain-specific downstream tasks. This study evaluates LLMs, specifically Gemma-2B and Gemma-7B, across diverse domains, including cybersecurity, medicine, and finance, compared to common knowledge queries. This study utilizes a comprehensive methodology to assess foundational models, which includes problem formulation, data analysis, and the development of ThroughCut, a novel outlier detection technique that automatically identifies response throughput outliers based on their conciseness. This methodological rigor enhances the credibility of the presented evaluation frameworks. This study focused on assessing inference time, response length, throughput, quality, and resource utilization and investigated the correlations between these factors. The results indicate that model size and types of prompts used for inference significantly influenced response length and quality. In addition, common prompts, which include various types of queries, generate diverse and inconsistent responses at irregular intervals. In contrast, domain-specific prompts consistently generate concise responses within a reasonable time. Overall, this study underscores the need for comprehensive evaluation frameworks to enhance the reliability of benchmarking procedures in multidomain AI research.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-20
# スカラデータトポロジ的単純化のための実践的解法

A Practical Solver for Scalar Data Topological Simplification ( http://arxiv.org/abs/2407.12399v3 )

ライセンス: Link先を確認
Mohamed Kissi, Mathieu Pont, Joshua A. Levine, Julien Tierny, (参考訳) 本稿では,スカラーデータの解析と可視化のための中心的な前処理ステップであるトポロジカルスプリフィケーションの最適化のための実践的アプローチを提案する。 入力スカラー場 f と維持する「信号」永続対の集合が与えられた場合、我々のアプローチは f に近い出力場 g を生成し、最適化する。 (i)非符号対のキャンセル (ii)「手形」ペアを保存すること。 既存の単純化アルゴリズムとは対照的に,本手法はエクストリームを含む永続性ペアに限らず,特に3次元スカラーデータにおけるサドルペアよりも大きなトポロジ的特徴に対処することができる。 提案手法は,最近の汎用的な永続性最適化フレームワークを活用し,トポロジカル単純化の問題に特有な調整された加速度で拡張する。 大規模な実験では、これらのフレームワークに対する大幅な加速を報告し、実際のデータセットに対してトポロジ的単純化最適化を実践する。 提案手法により, トポロジ的に単純化されたデータ(例えば, 簡易なトポロジの等曲面)を直接可視化し, 解析することができる。 我々は3次元データにおける顕著なフィラメント構造の抽出に本手法を適用した。 具体的には、データの事前単純化により、フィラメントループを除去するための標準トポロジカル手法よりも実用的な改善がもたらされることを示す。 また,本手法は表面処理における遺伝子欠陥の修復にも有効であることを示す。 最後に、再現性のためのC++実装を提供する。

This paper presents a practical approach for the optimization of topological simplification, a central pre-processing step for the analysis and visualization of scalar data. Given an input scalar field f and a set of "signal" persistence pairs to maintain, our approach produces an output field g that is close to f and which optimizes (i) the cancellation of "non-signal" pairs, while (ii) preserving the "signal" pairs. In contrast to pre-existing simplification algorithms, our approach is not restricted to persistence pairs involving extrema and can thus address a larger class of topological features, in particular saddle pairs in three-dimensional scalar data. Our approach leverages recent generic persistence optimization frameworks and extends them with tailored accelerations specific to the problem of topological simplification. Extensive experiments report substantial accelerations over these frameworks, thereby making topological simplification optimization practical for real-life datasets. Our approach enables a direct visualization and analysis of the topologically simplified data, e.g., via isosurfaces of simplified topology (fewer components and handles). We apply our approach to the extraction of prominent filament structures in three-dimensional data. Specifically, we show that our pre-simplification of the data leads to practical improvements over standard topological techniques for removing filament loops. We also show how our approach can be used to repair genus defects in surface processing. Finally, we provide a C++ implementation for reproducibility purposes.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-20
# 切開開系におけるキブル・ズレーク機構の明らかな遅延

Apparent delay of the Kibble-Zurek mechanism in quenched open systems ( http://arxiv.org/abs/2407.13424v2 )

ライセンス: Link先を確認
Roy D. Jara Jr., Jayson G. Cosme, (参考訳) クエンチ時間における新しい中間状態である$\tau_{q}$を報告し、キブル・ズレーク機構(KZM)の通常の妥当性と有限クエンチプロトコルの下での開系における急激なクエンチの分解を分離する。 これは、ランプが既に終了しており、最後のクエンチ値が一定に保たれているにもかかわらず、システムが断熱状態に入るように見えるので、$\tau_{q}$で遷移時間のゆるいスケーリングに現れる。 遅延KZMとして疑うこの中間状態は、インパルス状態において系が凍結するのを防ぐための散逸によって出現する。 その結果、ほとんどの実験では、システムが位相遷移を行う実際の時間と、順序パラメータのしきい値に基づく基準から推測される時間との間に大きな遅延が生じる。 我々は、オープンディックモデルとその1次元格子バージョンを用いて、この現象が効果的な結合振動子モデルにマッピングできるオープンシステムの一般的な特徴であることを実証する。 また, この現象は臨界付近で顕著になり, 遷移時間測定への影響は, 順序パラメータの大きなしきい値によってさらに高められることを示す。 そこで本稿では,システムの欠陥数などの時空間情報を用いて,遷移時間を特定するしきい値基準の代替手法を提案する。

We report a new intermediate regime in the quench time, $\tau_{q}$, separating the usual validity of the Kibble-Zurek mechanism (KZM) and its breakdown for rapid quenches in open systems under finite quench protocols. It manifests in the power-law scaling of the transition time with $\tau_{q}$ as the system appears to enter the adiabatic regime, even though the ramp is already terminated and the final quench value is held constant. This intermediate regime, which we dub as the delayed KZM, emerges due to the dissipation preventing the system from freezing in the impulse regime. This results in a large delay between the actual time the system undergoes a phase transition and the time inferred from a threshold-based criterion for the order parameter, as done in most experiments. We demonstrate using the open Dicke model and its one-dimensional lattice version that this phenomenon is a generic feature of open systems that can be mapped onto an effective coupled oscillator model. We also show that the phenomenon becomes more prominent near criticality, and its effects on the transition time measurement can be further exacerbated by large threshold values for an order parameter. Due to this, we propose an alternative method for threshold-based criterion which uses the spatio-temporal information, such as the system's defect number, for identifying the transition time.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-20
# 言語モデル検索による検索におけるジェンダー, レース, インターセクションのバイアス

Gender, Race, and Intersectional Bias in Resume Screening via Language Model Retrieval ( http://arxiv.org/abs/2407.20371v2 )

ライセンス: Link先を確認
Kyra Wilson, Aylin Caliskan, (参考訳) 人工知能(AI)の採用ツールは履歴スクリーニングに革命をもたらし、大規模言語モデル(LLM)も同様の可能性を秘めている。 しかし, LLM内に埋め込まれたバイアスを考えると, 保護属性に基づいてグループを改良することなく, このシナリオで使用することができるかどうかは不明である。 本研究では,ジョブ候補選択をシミュレートする文書検索フレームワークを用いて,履歴書のスクリーニング設定においてLLMを使用する可能性を検討する。 このフレームワークを用いて、再試行監査を行い、マステキスト埋め込み(MTE)モデルの選択が履歴スクリーニングシナリオに偏っているかどうかを判定する。 我々は、500以上の公開履歴書と500以上のジョブ記述を使って、これを9つの職業にシミュレートする。 MTEは偏りがあり、85.1\%のケースでは白人関連、わずか11.1\%のケースでは女性関連、統計学的に有意な差がないケースは少数である。 さらに分析したところ、黒人男性は最大100 %のケースで不利であり、雇用環境における実際の偏見パターンを再現し、交叉性の3つの仮説を検証している。 また,履歴書の選択において,文書の長さや名称のコーパス頻度の影響も見いだす。 これらの発見は、雇用、公正、および技術ポリシーを自動化している広く使われているAIツールに影響を及ぼす。

Artificial intelligence (AI) hiring tools have revolutionized resume screening, and large language models (LLMs) have the potential to do the same. However, given the biases which are embedded within LLMs, it is unclear whether they can be used in this scenario without disadvantaging groups based on their protected attributes. In this work, we investigate the possibilities of using LLMs in a resume screening setting via a document retrieval framework that simulates job candidate selection. Using that framework, we then perform a resume audit study to determine whether a selection of Massive Text Embedding (MTE) models are biased in resume screening scenarios. We simulate this for nine occupations, using a collection of over 500 publicly available resumes and 500 job descriptions. We find that the MTEs are biased, significantly favoring White-associated names in 85.1\% of cases and female-associated names in only 11.1\% of cases, with a minority of cases showing no statistically significant differences. Further analyses show that Black males are disadvantaged in up to 100\% of cases, replicating real-world patterns of bias in employment settings, and validate three hypotheses of intersectionality. We also find an impact of document length as well as the corpus frequency of names in the selection of resumes. These findings have implications for widely used AI tools that are automating employment, fairness, and tech policy.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-20
# Cross-View Meets Diffusion: 幾何学とテキストガイダンスによる航空画像合成

Cross-View Meets Diffusion: Aerial Image Synthesis with Geometry and Text Guidance ( http://arxiv.org/abs/2408.04224v2 )

ライセンス: Link先を確認
Ahmad Arrabi, Xiaohan Zhang, Waqas Sultani, Chen Chen, Safwan Wshah, (参考訳) 航空画像解析は多くの研究分野において重要である。 しかし,高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度に高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細 1つの解決策は、G2A技術を用いて、容易に収集可能な地上画像から空中画像を合成することである。 しかし、G2Aは大きな視界の変化、閉塞、視界の範囲など、その課題のために研究されることは稀である。 本稿では,地上画像から現実的な空中画像を生成することのできる,G2A(Geometric Preserving Ground-to-Aerial Image synthesis, GPG2A)モデルを提案する。 GPG2Aは2つの段階からなる。 第1段では、地上画像からバードアイビュー(BEV)セグメンテーション(BEVレイアウトマップ)を予測する。 第2段階は、予測されたBEVレイアウトマップと地上画像のテキスト記述から空中画像を合成する。 VIGORv2は,VIGOR上に構築され,新たに収集した空中画像,地図,テキスト記述が記述される。 GPG2Aは既存のモデルよりも優れたジオメトリー保存型空中画像を生成する。 また,GPG2Aの有効性を検証するため,クロスビュージオローカライズのためのデータ拡張とスケッチベース領域探索の2つのアプリケーションを提案する。 コードとデータは公開されます。

Aerial imagery analysis is critical for many research fields. However, obtaining frequent high-quality aerial images is not always accessible due to its high effort and cost requirements. One solution is to use the Ground-to-Aerial (G2A) technique to synthesize aerial images from easily collectible ground images. However, G2A is rarely studied, because of its challenges, including but not limited to, the drastic view changes, occlusion, and range of visibility. In this paper, we present a novel Geometric Preserving Ground-to-Aerial (G2A) image synthesis (GPG2A) model that can generate realistic aerial images from ground images. GPG2A consists of two stages. The first stage predicts the Bird's Eye View (BEV) segmentation (referred to as the BEV layout map) from the ground image. The second stage synthesizes the aerial image from the predicted BEV layout map and text descriptions of the ground image. To train our model, we present a new multi-modal cross-view dataset, namely VIGORv2 which is built upon VIGOR with newly collected aerial images, maps, and text descriptions. Our extensive experiments illustrate that GPG2A synthesizes better geometry-preserved aerial images than existing models. We also present two applications, data augmentation for cross-view geo-localization and sketch-based region search, to further verify the effectiveness of our GPG2A. The code and data will be publicly available.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-20
# 大規模モデルストラテジック思考と小型モデル効率:大規模言語モデルにおける心の伝達理論

Large Model Strategic Thinking, Small Model Efficiency: Transferring Theory of Mind in Large Language Models ( http://arxiv.org/abs/2408.05241v3 )

ライセンス: Link先を確認
Nunzio Lore, Alireza Sepehr Ilami, Babak Heydari, (参考訳) より大きな、より新しい大規模言語モデルの性能は、戦略的思考理論(ToM)タスクの改善を続けており、これらの最先端モデルの需要は必然的に増加する。 しかし、彼らのデプロイメントは処理能力と時間の両方においてコストがかかる。 本稿では,より小型で高性能な特殊アルゴリズムの実現可能性について,微調整により検討する。 そこで我々はまず,異なる社会的文脈と異なる社会的ジレンマのゲームを組み合わせて,その回答を記録し,同じ家族のより小さなモデルを用いたQ&A微調整に使用する,20種類のシナリオを持つ大規模事前学習モデルを提案する。 我々の焦点は、人間同士の相互作用が起こるのと同じ領域であり、心の理論(またはそのセマンス)と社会的ダイナミクスの理解の両方を必要とする、コンテキスト内ゲーム理論による意思決定である。 したがって、より小さなモデルは、提供された回答だけでなく、より大きなモデルが提供するモチベーションに基づいて訓練され、戦略ジレンマと社会的手がかりの両方をナビゲートするためのアドバイスとガイドラインを含むべきである。 細調整された小さな言語モデルは、より小さな事前学習版とより大きな相対性モデルの間のパフォーマンスのギャップを一貫して橋渡しし、その改善が、全く異なるゲーム構造を含むアウト・オブ・サンプルのシナリオを含むトレーニング例以外の領域や文脈で拡張されていることを発見した。 全ゲームの平均では、微調整により、より小さなモデルでは、より大きなモデルの動作に対するアライメントとして測定された46%の改善が示され、100%は区別不能な動作を表している。 アウトオブサンプルのソーシャルコンテキストとゲームで提示された場合、微調整されたモデルでは、それぞれ18%と28%の改善が達成された。

As the performance of larger, newer Large Language Models continues to improve for strategic Theory of Mind (ToM) tasks, the demand for these state-of-the-art models increases commensurately. However, their deployment is costly both in terms of processing power and time. In this paper, we investigate the feasibility of creating smaller, highly-performing specialized algorithms by way of fine-tuning. To do this, we first present a large pre-trained model with 20 unique scenarios that combine different social contexts with games of varying social dilemmas, record its answers, and use them for Q&A fine-tuning on a smaller model of the same family. Our focus is on in-context game-theoretic decision-making, the same domain within which human interaction occurs and that requires both a theory of mind (or a semblance thereof) and an understanding of social dynamics. The smaller model is therefore trained not just on the answers provided, but also on the motivations provided by the larger model, which should contain advice and guidelines to navigate both strategic dilemmas and social cues. We find that the fine-tuned smaller language model consistently bridged the gap in performance between the smaller pre-trained version of the model and its larger relative and that its improvements extended in areas and contexts beyond the ones provided in the training examples, including on out-of-sample scenarios that include completely different game structures. On average for all games, through fine-tuning, the smaller model showed a 46% improvement measured as alignment towards the behavior of the larger model, with 100% representing indistinguishable behavior. When presented with out-of-sample social contexts and games, the fine-tuned model still displays remarkable levels of alignment, reaching an improvement of 18% and 28% respectively.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-20
# LADDER: 言語駆動スライス発見とエラー修正

LADDER: Language Driven Slice Discovery and Error Rectification ( http://arxiv.org/abs/2408.07832v2 )

ライセンス: Link先を確認
Shantanu Ghosh, Chenyu Wang, Kayhan Batmanghelich, (参考訳) エラースライス発見は構造化パターンとモデルエラーを関連付ける。 既存の方法では、類似したパターンでエラー発生サンプルをクラスタリングしたり、各サンプルに個別属性を割り当てて、ポストホック分析を行う。 これらの手法は、再重み付けや再バランスによる解釈可能性や緩和を容易にすることを目的としているが、不完全な属性や欠落によるエラーパターンの完全な複雑さを捉えることはできない。 既存のアプローチとは対照的に,本稿では,Large Language Model (LLM) の推論機能を用いて,複雑なエラーパターンを分析し,検証可能な仮説を生成する。 本稿では,Language-Driven slice Discovery and Error Rectificationを提案する。 まず最初に、モデルの表現を言語対応の機能空間(\eg CLIP)に投影し、元のモデル機能空間におけるセマンティクスを保存する。 これにより、モデルのエラーをハイライトする文の正確な検索が保証される。 次に、LLMは文を利用し、誤りスライスを発見するために仮説を生成する。 最後に、仮説を用いてグループバランスデータセットを作成することにより、分類ヘッドを微調整することで誤差を軽減する。 私たちのメソッド全体は、明示的にも外部タグ付けモデルを通しても、属性アノテーションを一切必要としません。 画像分類データセットを用いて,本手法の有効性を検証した。 コードは利用可能である。footnote{\url{https://github.com/batmanlab/Ladder}}

Error slice discovery associates structured patterns with model errors. Existing methods discover error slices by clustering the error-prone samples with similar patterns or assigning discrete attributes to each sample for post-hoc analysis. While these methods aim for interpretability and easier mitigation through reweighting or rebalancing, they may not capture the full complexity of error patterns due to incomplete or missing attributes. Contrary to the existing approach, this paper utilizes the reasoning capabilities of the Large Language Model (LLM) to analyze complex error patterns and generate testable hypotheses. This paper proposes LADDER: Language Driven slice Discovery and Error Rectification. It first projects the model's representation into a language-aligned feature space (\eg CLIP) to preserve semantics in the original model feature space. This ensures the accurate retrieval of sentences that highlight the model's errors. Next, the LLM utilizes the sentences and generates hypotheses to discover error slices. Finally, we mitigate the error by fine-tuning the classification head by creating a group-balanced dataset using the hypotheses. Our entire method does not require any attribute annotation, either explicitly or through external tagging models. We validate our method with \textbf{five} image classification datasets. The code is available\footnote{\url{https://github.com/batmanlab/Ladder}}
翻訳日:2024-08-22 21:36:42 公開日:2024-08-20
# ARAP: Androidアプリにおけるアンチランタイム解析コードのデマイズ

ARAP: Demystifying Anti Runtime Analysis Code in Android Apps ( http://arxiv.org/abs/2408.11080v1 )

ライセンス: Link先を確認
Dewen Suo, Lei Xue, Runze Tan, Weihao Huang, Guozi Sun, (参考訳) Androidアプリの利用が継続的に増加し、セキュリティの確保が重要になっている。 セキュリティ対策を回避するために、多くの悪意あるアプリがアンチアナリシス技術を採用している。 反ランタイム分析 (ARA) を考察する研究がいくつかあるが、彼らが系統的に ARA の手法を検討していないことは残念である。 さらに、ARA技術の急速な進化により、この問題が悪化し、分析結果が不正確になる。 Androidアプリを効果的に分析するには、採用されているARA技術を理解する必要がある。 しかし、今のところ体系的な調査は行われていない。 本稿では,2016年から2023年の間に収集された117,171個のAndroidアプリ(悪意と良性の両方を含む)において,ARAの実装に関する最初の体系的研究を行う。 さらに,静的解析と動的解析の両方を活用することで,ARAPという特定の調査ツールを提案する。 評価結果によると、ARAPはAndroidアプリのARA実装を効果的に識別するだけでなく、多くの重要な発見も明らかにしている。 例えば、ほとんどのアプリは少なくとも1つのカテゴリのARAテクノロジーを実装している(良質なアプリでは99.6%、悪意のあるアプリでは97.0%)。

With the continuous growth in the usage of Android apps, ensuring their security has become critically important. An increasing number of malicious apps adopt anti-analysis techniques to evade security measures. Although some research has started to consider anti-runtime analysis (ARA), it is unfortunate that they have not systematically examined ARA techniques. Furthermore, the rapid evolution of ARA technology exacerbates the issue, leading to increasingly inaccurate analysis results. To effectively analyze Android apps, understanding their adopted ARA techniques is necessary. However, no systematic investigation has been conducted thus far. In this paper, we conduct the first systematic study of the ARA implementations in a wide range of 117,171 Android apps (including both malicious and benign ones) collected between 2016 and 2023. Additionally, we propose a specific investigation tool named ARAP to assist this study by leveraging both static and dynamic analysis. According to the evaluation results, ARAP not only effectively identifies the ARA implementations in Android apps but also reveals many important findings. For instance, almost all apps have implemented at least one category of ARA technology (99.6% for benign apps and 97.0% for malicious apps).
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# コード機能等価性に関する大規模言語モデルには何ができるか?

What can Large Language Models Capture about Code Functional Equivalence? ( http://arxiv.org/abs/2408.11081v1 )

ライセンス: Link先を確認
Nickil Maveli, Antonio Vergari, Shay B. Cohen, (参考訳) 大規模なコードコーパスで事前訓練されたLLMであるCode-LLMは、コードの構造と構文の豊かな表現を学習し、コードフラグメントの生成や分類に成功している。 同時に、それらがコードセマンティクスを捉えているため、それができるかどうかを理解することは、まだオープンな質問である。 本稿では,コード-LLMがコード関数同値をどうやって取得できるかを体系的に評価するベンチマークであるSeqCoBenchを導入することで,この問題に対処する。 SeqCoBenchには、Pythonプログラムのセマンティクスを保存または変更する20以上のコード変換が含まれている。 我々は,セックコベンチにおける意味論的に等価なプログラムと異なるプログラムのペアを識別できるかどうかを確認するため,ゼロショットとパラメータ効率のよいLLMのファインタニング手法を含む,異なる設定で広範囲な評価を行う。 これらのLLMと古典的マッチングに基づく検索スコアのパフォーマンスギャップは最小限であり、どちらのアプローチもコード意味論の深みの欠如を示している。

Code-LLMs, LLMs pre-trained on large code corpora, have shown great progress in learning rich representations of the structure and syntax of code, successfully using it to generate or classify code fragments. At the same time, understanding if they are able to do so because they capture code semantics, and how well, is still an open question. In this paper, we tackle this problem by introducing SeqCoBench, a benchmark for systematically assessing how Code-LLMs can capture code functional equivalence. SeqCoBench contains over 20 code transformations that either preserve or alter the semantics of Python programs. We conduct extensive evaluations in different settings, including zero-shot and parameter-efficient finetuning methods on state-of-the-art (Code-)LLMs to see if they can discern semantically equivalent or different pairs of programs in SeqCoBench. We find that the performance gap between these LLMs and classical match-based retrieval scores is minimal, with both approaches showing a concerning lack of depth in understanding code semantics.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# バイアスオラクルを用いた確率最適化のためのマルチレベルモンテカルロ勾配法

Multi-level Monte-Carlo Gradient Methods for Stochastic Optimization with Biased Oracles ( http://arxiv.org/abs/2408.11084v1 )

ライセンス: Link先を確認
Yifan Hu, Jie Wang, Xin Chen, Niao He, (参考訳) 確率的最適化は、目的と勾配の偏りのある確率的オラクルにのみアクセスでき、バイアスの低い確率的勾配を得るには、高いコストがかかる。 この設定は、条件付き確率最適化、分布的に堅牢な最適化、短命リスク最適化、コントラスト学習のような機械学習パラダイムなど、様々な最適化パラダイムを捉えている。 本稿では, 偏差, 分散, オラクルコストの微妙なトレードオフを利用したマルチレベルモンテカルロ勾配法について検討する。 本研究では, 強凸, 凸, 非凸の目的に対して, それらの全試料および計算複雑性を体系的に検討し, 広く使用されている偏りの確率勾配法に対するそれらの優位性を実証する。 SPIDERのような分散還元技術と組み合わせることで、これらのMLMC勾配法は非凸状態の複雑さをさらに減らすことができる。 以上の結果から,従来より難易度が高いと考えられていたバイアス付きオラクルによる確率的最適化問題は,非バイアス付きオラクルによる古典的確率的最適化よりも根本的には難しいことが示唆された。 また、これらの問題がより困難になる境界条件についても述べる。 さらに,MLMC勾配法は,条件付き確率最適化やショートフォールリスク最適化の文献でよく知られた複雑さを著しく改善する。 分散的ロバストな最適化,価格設定,スタッフスケジューリングの問題,および対照的な学習に関する広範な数値実験により,MLMC勾配法の性能が向上したことを示す。

We consider stochastic optimization when one only has access to biased stochastic oracles of the objective and the gradient, and obtaining stochastic gradients with low biases comes at high costs. This setting captures various optimization paradigms, such as conditional stochastic optimization, distributionally robust optimization, shortfall risk optimization, and machine learning paradigms, such as contrastive learning. We examine a family of multi-level Monte Carlo (MLMC) gradient methods that exploit a delicate tradeoff among bias, variance, and oracle cost. We systematically study their total sample and computational complexities for strongly convex, convex, and nonconvex objectives and demonstrate their superiority over the widely used biased stochastic gradient method. When combined with the variance reduction techniques like SPIDER, these MLMC gradient methods can further reduce the complexity in the nonconvex regime. Our results imply that a series of stochastic optimization problems with biased oracles, previously considered to be more challenging, is fundamentally no harder than the classical stochastic optimization with unbiased oracles. We also delineate the boundary conditions under which these problems become more difficult. Moreover, MLMC gradient methods significantly improve the best-known complexities in the literature for conditional stochastic optimization and shortfall risk optimization. Our extensive numerical experiments on distributionally robust optimization, pricing and staffing scheduling problems, and contrastive learning demonstrate the superior performance of MLMC gradient methods.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# GSLOC: 3Dガウススプラッティングによる効率的なカメラポスリファインメント

GSLoc: Efficient Camera Pose Refinement via 3D Gaussian Splatting ( http://arxiv.org/abs/2408.11085v1 )

ライセンス: Link先を確認
Changkun Liu, Shuai Chen, Yash Bhalgat, Siyan Hu, Zirui Wang, Ming Cheng, Victor Adrian Prisacariu, Tristan Braud, (参考訳) シーン表現として3D Gaussian Splatting(3DGS)を活用し,新しいテストタイムカメラポーズ改善フレームワークであるGSLocを提案する。 このフレームワークは、最先端の絶対ポーズ回帰とシーン座標回帰法の局所化精度を高める。 3DGSモデルは高品質な合成画像と深度マップを描画し、2D-3D対応の確立を容易にする。 GSLocは、RGBイメージを直接操作し、正確な2Dマッチングのために3D視覚基盤モデルMASt3Rを活用することで、特徴抽出器や記述器のトレーニングの必要性を回避している。 屋外環境に挑戦する際のモデルの堅牢性を改善するため、3DGSフレームワークに露出適応モジュールを組み込んだ。 これにより、単一のRGBクエリと粗い初期ポーズ推定が与えられた場合、GSLocは効率的なポーズ改善を可能にする。 提案手法は,屋内および屋外の視覚的ローカライゼーションベンチマークにおいて,NeRFに基づく主要な最適化手法を精度と実行時の両方で超越し,2つの屋内データセットに対して最先端の精度を実現する。

We leverage 3D Gaussian Splatting (3DGS) as a scene representation and propose a novel test-time camera pose refinement framework, GSLoc. This framework enhances the localization accuracy of state-of-the-art absolute pose regression and scene coordinate regression methods. The 3DGS model renders high-quality synthetic images and depth maps to facilitate the establishment of 2D-3D correspondences. GSLoc obviates the need for training feature extractors or descriptors by operating directly on RGB images, utilizing the 3D vision foundation model, MASt3R, for precise 2D matching. To improve the robustness of our model in challenging outdoor environments, we incorporate an exposure-adaptive module within the 3DGS framework. Consequently, GSLoc enables efficient pose refinement given a single RGB query and a coarse initial pose estimation. Our proposed approach surpasses leading NeRF-based optimization methods in both accuracy and runtime across indoor and outdoor visual localization benchmarks, achieving state-of-the-art accuracy on two indoor datasets.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# ストロンチウムキャビティ-QED系における散逸誘起超ラジカル転移

A dissipation-induced superradiant transition in a strontium cavity-QED system ( http://arxiv.org/abs/2408.11086v1 )

ライセンス: Link先を確認
Eric Yilun Song, Diego Barberena, Dylan J. Young, Edwin Chaparro, Anjun Chu, Sanaa Agarwal, Zhijing Niu, Jeremy T. Young, Ana Maria Rey, James K. Thompson, (参考訳) キャビティ量子電磁力学(QED)では、エミッタと共振器が結合し、量子光-物質相互作用の精密な研究を可能にする。 過去数十年間、これはより正確な慣性センサー、時計、記憶、制御可能な量子ビット、量子シミュレータなど、様々な量子技術を生み出してきた。 さらに、空洞QEDプラットフォームの本質的な散逸性の性質は、開量子系における駆動散逸性現象、および量子光学における平衡および非平衡相転移を探索するための自然なテストベッドとなる。 そのようなモデルの一つ、いわゆる協調共鳴蛍光(CRF)モデルは、集団散逸(超放射)の存在下でのコヒーレントに駆動されるエミッタの挙動を懸念している。 非常に興味があるにもかかわらず、このモデルはまだクリーンな実験システムでは実現されていない。 ここでは、長寿命光遷移において駆動された高強度光空洞に結合した超低温の$^{88}$Sr原子のアンサンブルを用いて、CRFモデルで予測される連続超放射相転移を観察する。 臨界駆動の下にある原子は、駆動の自己バランスと集団散逸によって決定される定常状態に素早く到達する。 定常状態は、マクロな双極子モーメントを持ち、超ラジカル相に対応する。 臨界駆動強度の上にある原子は、他のデコヒーレンスプロセスが起動するまで、ラビのような持続的な振動を受ける。 実際、このプラットフォームでは、単一粒子自然放出により誘導される2次から1次への相転移を目撃することができ、システムが異なる定常状態に進むことができる。 我々の観測は、量子情報処理や特に量子センシングに利用可能な量子状態を生成するために予測された、駆動散逸系のより細かい制御への第一歩である。

In cavity quantum electrodynamics (QED), emitters and a resonator are coupled together to enable precise studies of quantum light-matter interactions. Over the past few decades, this has led to a variety of quantum technologies such as more precise inertial sensors, clocks, memories, controllable qubits, and quantum simulators. Furthermore, the intrinsically dissipative nature of cavity QED platforms makes them a natural testbed for exploring driven-dissipative phenomena in open quantum systems as well as equilibrium and non-equilibrium phase transitions in quantum optics. One such model, the so-called cooperative resonance fluorescence (CRF) model, concerns the behavior of coherently driven emitters in the presence of collective dissipation (superradiance). Despite tremendous interest, this model has yet to be realized in a clean experimental system. Here we provide an observation of the continuous superradiant phase transition predicted in the CRF model using an ensemble of ultracold $^{88}$Sr atoms coupled to a driven high-finesse optical cavity on a long-lived optical transition. Below a critical drive, atoms quickly reach a steady state determined by the self-balancing of the drive and the collective dissipation. The steady state possesses a macroscopic dipole moment and corresponds to a superradiant phase. Above a critical drive strength, the atoms undergo persistent Rabi-like oscillations until other decoherence processes kick in. In fact, our platform also allows us to witness the change of this phase transition from second to first order induced by single-particle spontaneous emission, which pushes the system towards a different steady state. Our observations are a first step towards finer control of driven-dissipative systems, which have been predicted to generate quantum states that can be harnessed for quantum information processing and in particular quantum sensing.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# 量子コンピュータにおける酵素反応のエネルギー分布の計算

Calculating the energy profile of an enzymatic reaction on a quantum computer ( http://arxiv.org/abs/2408.11091v1 )

ライセンス: Link先を確認
Patrick Ettenhuber, Mads Bøttger Hansen, Irfansha Shaik, Stig Elkjær Rasmussen, Pier Paolo Poier, Niels Kristian Madsen, Marco Majland, Frank Jensen, Lars Olsen, Nikolaj Thomas Zinner, (参考訳) 量子コンピューティング(QC)は、量子化学計算を可能にするための有望な道を提供する。 指数的スピードアップが予測される完全フォールトトレラントアルゴリズムとハードウェアが現在普及していないため、最近の研究は、そのようなマシンの実用性を示すため、ノイズ中間量子(NISQ)デバイスのためのアルゴリズムの開発とスケーリングに向けられている。 化学分野におけるNISQデバイスの有用性を実証するため,提案手法に基づくFAST-VQEアルゴリズムと新しい量子ゲート削減戦略を,炭酸脱水酵素触媒によるCO2水素化反応の速度決定プロトン移動過程のシミュレーションのための標準最適化ツールとともに適用し,酵素反応のシミュレーションに量子コンピューティング装置を初めて適用した。 この目的のために、古典的力場シミュレーションと古典的および量子コンピュータの量子力学的手法をハイブリッド計算手法で組み合わせた。 提案手法はQCに基づく分子モデリングの精度と性能を著しく向上させ、最終的に魅力的で現実的な応用へと押し上げる。 このフレームワークは一般的なもので、計算酵素学以外にも応用できる。

Quantum computing (QC) provides a promising avenue toward enabling quantum chemistry calculations, which are classically impossible due to a computational complexity that increases exponentially with system size. As fully fault-tolerant algorithms and hardware, for which an exponential speedup is predicted, are currently out of reach, recent research efforts are dedicated to developing and scaling algorithms for Noisy Intermediate-Scale Quantum (NISQ) devices to showcase the practical utility of such machines. To demonstrate the utility of NISQ devices in the field of chemistry, we apply our recently developed FAST-VQE algorithm and a novel quantum gate reduction strategy based on propositional satisfiability together with standard optimization tools for the simulation of the rate-determining proton transfer step for CO2 hydration catalysed by carbonic anhydrase resulting in the first application of a quantum computing device for the simulation of an enzymatic reaction. To this end, we have combined classical force field simulations with quantum mechanical methods on classical and quantum computers in a hybrid calculation approach. The presented technique significantly enhances the accuracy and capabilities of QC-based molecular modeling and finally pushes it into compelling and realistic applications. The framework is general and can be applied beyond the case of computational enzymology.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# 弦散乱振幅からの量子カオスと複雑性

Quantum chaos and complexity from string scattering amplitudes ( http://arxiv.org/abs/2408.11096v1 )

ライセンス: Link先を確認
Aranya Bhattacharya, Aneek Jana, (参考訳) 我々は、高励起弦状態(HESS)を研究することにより、ブラックホール散乱の文脈でクリロフ拡散複雑性を導入する。 クリロフ複雑性は、既知のハミルトニアンの下での状態や作用素の拡散を定量化することでカオスを特徴づける。 対照的に、場の量子論はしばしばS-行列に依存し、ハミルトン密度は、クリロフ基底における複雑性の計算を指数関数的に困難に非自明に時間依存的にレンダリングする。 我々は、エクストリームの分布を解析し、熱場二重状態が非自明に進化する架空のハミルトニアンの固有値として扱うことにより、散乱振幅に対するクリロフ拡散複雑性を定義する。 ブラックホール散乱の解析では、2つまたは3つのタキオンに散乱する高励起弦状態を通して、これらの振幅のクリロフの複雑さがカオス的ハミルトン進化の挙動を反映し、カオスを示す事前飽和ピークが示されることを示した。 この形式主義は、散乱と状態進化におけるカオスの概念を橋渡しし、異なる散乱過程を区別する枠組みを提供する。

We introduce Krylov spread complexity in the context of black hole scattering by studying highly excited string states (HESS). Krylov complexity characterizes chaos by quantifying the spread of a state or operator under a known Hamiltonian. In contrast, quantum field theory often relies on S-matrices, where the Hamiltonian density becomes non-trivially time-dependent rendering the computations of complexity in Krylov basis exponentially hard. We define Krylov spread complexity for scattering amplitudes by analyzing the distribution of extrema, treating these as eigenvalues of a fictional Hamiltonian that evolves a thermo-field double state non-trivially. Our analysis of black hole scattering, through highly excited string states scattering into two or three tachyons, reveals that the Krylov complexity of these amplitudes mirrors the behavior of chaotic Hamiltonian evolution, with a pre-saturation peak indicating chaos. This formalism bridges the concepts of chaos in scattering and state evolution, offering a framework to distinguish different scattering processes.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# 光のブラックホールなし [arXiv:2408.06714]

Reply to Comment on "No Black Holes from Light" [arXiv:2408.06714] ( http://arxiv.org/abs/2408.11097v1 )

ライセンス: Link先を確認
Álvaro Álvarez-Domínguez, Luis J. Garay, Eduardo Martín-Martínez, José Polo-Gómez, (参考訳) A. Loeb (arXiv:2408.06714) によるコメントが Phys の結果にどう影響しないかについて論じる。 レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ 133,041401 (2024) [arXiv:2405.02389]

We discuss how the comment by A. Loeb [arXiv:2408.06714] has no bearing on the results of Phys. Rev. Lett. 133, 041401 (2024) [arXiv:2405.02389].
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# ハイゼンベルク制限多体ハミルトン推定のための安定化符号

Stabilizer codes for Heisenberg-limited many-body Hamiltonian estimation ( http://arxiv.org/abs/2408.11101v1 )

ライセンス: Link先を確認
Santanu Bosu Antu, Sisi Zhou, (参考訳) 多体ハミルトニアンを推定することは量子技術に幅広い応用がある。 量子系のコヒーレントな進化と複数のプローブ間の絡み合いを許容することにより、完全に連結された$k$-body相互作用を推定する精度は$(n^kt)^{-1}$までスケールできる。 しかし、最適スケーリングは量子ノイズ下では達成できず、この限界を回復するために量子エラー補正を適用することが重要である。 本研究では,雑音下での多体ハミルトニアン推定における安定化器量子誤り訂正符号の性能について検討する。 単一量子雑音下で完全に接続された$ZZ$相互作用を推定すると、それぞれ$(nt)^{-1}$、$(n^2t)^{-1}$、$(n^3t)^{-1}$のスケーリングを達成し、それぞれ$t$と最適である3種類の安定化器符号(薄面符号、量子リード符号、ショア符号)が示される。 さらに、安定化器構造とスケーリングの関係を$n$で議論し、いくつかのノーゴー定理を同定する。 例えば、一定重量安定器ジェネレータを持つコードは、少なくとも$n^{-1}$スケーリングを達成できるが、最適な$n^{-3}$スケーリングは、コードがShorコードのように繰り返しコードサブ構造を持つ場合に限り達成可能である。

Estimating many-body Hamiltonians has wide applications in quantum technology. By allowing coherent evolution of quantum systems and entanglement across multiple probes, the precision of estimating a fully connected $k$-body interaction can scale up to $(n^kt)^{-1}$, where $n$ is the number of probes and $t$ is the probing time. However, the optimal scaling may no longer be achievable under quantum noise, and it is important to apply quantum error correction in order to recover this limit. In this work, we study the performance of stabilizer quantum error correcting codes in estimating many-body Hamiltonians under noise. When estimating a fully connected $ZZZ$ interaction under single-qubit noise, we showcase three families of stabilizer codes -- thin surface codes, quantum Reed--Muller codes and Shor codes -- that achieve the scalings of $(nt)^{-1}$, $(n^2t)^{-1}$ and $(n^3t)^{-1}$, respectively, all of which are optimal with $t$. We further discuss the relation between stabilizer structure and the scaling with $n$, and identify several no-go theorems. For instance, we find codes with constant-weight stabilizer generators can at most achieve the $n^{-1}$ scaling, while the optimal $n^{-3}$ scaling is achievable if and only if the code bears a repetition code substructure, like in Shor code.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# ConFIG:物理情報ニューラルネットワークの衝突のないトレーニングを目指して

ConFIG: Towards Conflict-free Training of Physics Informed Neural Networks ( http://arxiv.org/abs/2408.11104v1 )

ライセンス: Link先を確認
Qiang Liu, Mengyu Chu, Nils Thuerey, (参考訳) 多くの学習問題の損失関数には、矛盾する更新方向を導出する複数の追加項が含まれている。 物理インフォームドニューラルネットワーク(PINN)の場合、初期/境界条件と物理方程式の損失項は非常に難しいタスクとして確立されているため、特に興味深い。 PINNの課題である多目的タスクの学習を改善するために,最終更新と損失固有勾配の正の点積を確保することで,競合のない更新を提供するConFIG法を提案する。 また、全ての損失項に対する一貫した最適化率を維持し、競合レベルに基づいて勾配の等級を動的に調整する。 また、異なる損失項のバックプロパゲーションを交互に行い、運動量を利用して最適化を加速する。 提案手法は, PINN の難易度の高いシナリオで評価され, ベースライン法と比較して, 性能と実行性能が良好である。 また,提案手法を従来のマルチタスク・ベンチマークで検証し,ConFIG法も有望な性能を示した。 ソースコードは \url{https://tum-pbs.github.io/ConFIG} で入手できる。

The loss functions of many learning problems contain multiple additive terms that can disagree and yield conflicting update directions. For Physics-Informed Neural Networks (PINNs), loss terms on initial/boundary conditions and physics equations are particularly interesting as they are well-established as highly difficult tasks. To improve learning the challenging multi-objective task posed by PINNs, we propose the ConFIG method, which provides conflict-free updates by ensuring a positive dot product between the final update and each loss-specific gradient. It also maintains consistent optimization rates for all loss terms and dynamically adjusts gradient magnitudes based on conflict levels. We additionally leverage momentum to accelerate optimizations by alternating the back-propagation of different loss terms. The proposed method is evaluated across a range of challenging PINN scenarios, consistently showing superior performance and runtime compared to baseline methods. We also test the proposed method in a classic multi-task benchmark, where the ConFIG method likewise exhibits a highly promising performance. Source code is available at \url{https://tum-pbs.github.io/ConFIG}.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# ボソニックおよびフェルミオン動力学のベンチマーク

Benchmarking bosonic and fermionic dynamics ( http://arxiv.org/abs/2408.11105v1 )

ライセンス: Link先を確認
Jadwiga Wilkens, Marios Ioannou, Ellen Derbyshire, Jens Eisert, Dominik Hangleiter, Ingo Roth, Jonas Haferkamp, (参考訳) アナログ量子シミュレーションは、強い相関の量子系の静的および動的特性を高精度に評価することができる。 古典的コンピュータの範囲外でシミュレーションを行うには、予測されるハミルトニアンの正確で信頼性の高い実装が必要である。 これらを実現するためには、キャラクタリゼーションとベンチマークツールが必要である。 デジタル量子デバイスの場合、ランダム化されたベンチマークはゲートセットの実装の平均品質に関するベンチマークを提供することができる。 本研究では,粒子数保存ダイナミクスを実装したボソニックおよびフェルミオン量子デバイスのランダム化アナログベンチマークのための多目的フレームワークを提案する。 このスキームは、アナログシミュレータや他の連続変数系に固有の制限された操作を利用する。 重要なことは、ランダム化されたベンチマークのように、状態の準備と測定エラーに対して堅牢である。 提案手法の効率を議論し,理論的性能保証を導出し,数値的な例でプロトコルを実証する。

Analog quantum simulation allows for assessing static and dynamical properties of strongly correlated quantum systems to high precision. To perform simulations outside the reach of classical computers, accurate and reliable implementations of the anticipated Hamiltonians are required. To achieve those, characterization and benchmarking tools are a necessity. For digital quantum devices, randomized benchmarking can provide a benchmark on the average quality of the implementation of a gate set. In this work, we introduce a versatile framework for randomized analog benchmarking of bosonic and fermionic quantum devices implementing particle number preserving dynamics. The scheme makes use of the restricted operations which are native to analog simulators and other continuous variable systems. Importantly, like randomized benchmarking, it is robust against state preparation and measurement errors. We discuss the scheme's efficiency, derive theoretical performance guarantees and showcase the protocol with numerical examples.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# 量子制御ランドスケープにおける相転移の理論に向けて

Towards a theory of phase transitions in quantum control landscapes ( http://arxiv.org/abs/2408.11110v1 )

ライセンス: Link先を確認
Nicolò Beato, Pranay Patil, Marin Bukov, (参考訳) 制御ランドスケープ相転移(CLPT)は,制御パラメータの変化に伴うコスト関数ランドスケープの急激な変化として発生し,統計的順序パラメータの非解析的点によって明らかにされる。 主な例として量子速度制限(QSL)があり、これはプロトコルの持続時間が増加するにつれて制御可能性の開始を示す。 ここでは、Dyson, Magnus, and cumulant expansions for the cost function that capture the behavior of CLPTs with a control accurate。 線形および二次安定性解析を用いて、CLPTは最適プロトコルの異なる種類の不安定性に関連付けられることを示した。 統計場理論から経路積分法を用いることで、QSLにおける順序パラメータの臨界スケーリングを、連結成分の数や次元など、最適プロトコルの集合の位相的および幾何学的性質に遡ることができる。 我々は,ホモトピー的確率的更新規則を用いて,この最適集合を探索する数値サンプリングアルゴリズムを導入することにより,我々の予測を検証する。 本ツールボックスは,解析的にランドスケープを抽出可能な単一ビットと2ビットの制御問題においてCLPTを明示的に解析し,バンバンと連続プロトコルのランドスケープを比較した。 我々の研究は、CLPTの体系的理論への第一歩を提供し、汎用的な複合制御ランドスケープに統計場理論技術を利用するための道を開く。

Control landscape phase transitions (CLPTs) occur as abrupt changes in the cost function landscape upon varying a control parameter, and can be revealed by non-analytic points in statistical order parameters. A prime example are quantum speed limits (QSL) which mark the onset of controllability as the protocol duration is increased. Here we lay the foundations of an analytical theory for CLPTs by developing Dyson, Magnus, and cumulant expansions for the cost function that capture the behavior of CLPTs with a controlled precision. Using linear and quadratic stability analysis, we reveal that CLPTs can be associated with different types of instabilities of the optimal protocol. This allows us to explicitly relate CLPTs to critical structural rearrangements in the extrema of the control landscape: utilizing path integral methods from statistical field theory, we trace back the critical scaling of the order parameter at the QSL to the topological and geometric properties of the set of optimal protocols, such as the number of connected components and its dimensionality. We verify our predictions by introducing a numerical sampling algorithm designed to explore this optimal set via a homotopic stochastic update rule. We apply this new toolbox explicitly to analyze CLPTs in the single- and two-qubit control problems whose landscapes are analytically tractable, and compare the landscapes for bang-bang and continuous protocols. Our work provides the first steps towards a systematic theory of CLPTs and paves the way for utilizing statistical field theory techniques for generic complex control landscapes.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# 受動変換を用いたボソニックランダム化ベンチマーク

Bosonic randomized benchmarking with passive transformations ( http://arxiv.org/abs/2408.11111v1 )

ライセンス: Link先を確認
Mirko Arienzo, Dmitry Grinko, Martin Kliesch, Markus Heinrich, (参考訳) ランダム化ベンチマーク(RB、Randomized benchmarking)は、量子回路における一元演算の特徴付けに最もよく用いられるプロトコルである。 これまでのところ、このプロトコルは離散系やフェルミオン系に限られているが、基盤となる無限次元ヒルベルト空間から生じる問題のため、ボソニック系への拡張は長い間不明である。 本研究では,このギャップを埋めて,ボソニック受動RBと呼ぶ受動ガウス変換のためのRBプロトコルを開発する。 このプロトコルは、最近開発されたフィルタRBフレームワークに基づいており、ボゾン系に生じる指数関数的崩壊の多さを分離するように設計されている。 実験データの処理後処理に必要な公式とJuliaの実装について述べる。 また, 変動解析式を導出することにより, ボソニック受動RBのサンプリング複雑性を解析した。 彼らはモード数で軽度のスケーリングを示し、ボソニックなパッシブRBが適度なモード数で実験的に実現可能であることを示唆している。 本研究では, フォック状態と粒子数分解測定を含む実験的な設定に焦点をあてるとともに, ガウス的設定についても考察し, ヘテロダイン測定の最初の結果を得た。

Randomized benchmarking (RB) is the most commonly employed protocol for the characterization of unitary operations in quantum circuits due to its reasonable experimental requirements and robustness against state preparation and measurement (SPAM) errors. So far, the protocol has been limited to discrete or fermionic systems, whereas extensions to bosonic systems have been unclear for a long time due to challenges arising from the underlying infinite-dimensional Hilbert spaces. In this work, we close this gap and develop an RB protocol for passive Gaussian transformations, which we call bosonic passive RB. The protocol is based on the recently developed filtered RB framework and is designed to isolate the multitude of exponential decays arising for bosonic systems. We give explicit formulas and a Julia implementation for the necessary post-processing of the experimental data. We also analyze the sampling complexity of bosonic passive RB by deriving analytical expressions for the variance. They show a mild scaling with the number of modes, suggesting that bosonic passive RB is experimentally feasible for a moderate number of modes. We focus on experimental settings involving Fock states and particle number resolving measurements, but also discuss Gaussian settings, deriving first results for heterodyne measurements.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# 機械学習モデルの実験、デプロイ、監視:MLOpsの適用のためのアプローチ

Experimentation, deployment and monitoring Machine Learning models: Approaches for applying MLOps ( http://arxiv.org/abs/2408.11112v1 )

ライセンス: Link先を確認
Diego Nogare, Ismar Frango Silveira, (参考訳) 近年、データサイエンスは産業支援ツールとしてますます重要になってきており、これまで見たことのない方法で意思決定を大幅に強化している。 この文脈では、MLOpsの規律は、実験から生産環境の監視まで、機械学習モデルのライフサイクルを自動化するソリューションとして現れます。 MLOpsは、開発環境と運用環境の統合、本番環境のパブリッシュモデル、エンド・ツー・エンド開発ライフサイクルにおけるモデル監視といった課題とソリューションを備えた、常に進化した規律である、という研究結果が発表された。 本稿では,MLOps技術とその最も多様な応用の理解に寄与する。

In recent years, Data Science has become increasingly relevant as a support tool for industry, significantly enhancing decision-making in a way never seen before. In this context, the MLOps discipline emerges as a solution to automate the life cycle of Machine Learning models, ranging from experimentation to monitoring in productive environments. Research results shows MLOps is a constantly evolving discipline, with challenges and solutions for integrating development and production environments, publishing models in production environments, and monitoring models throughout the end to end development lifecycle. This paper contributes to the understanding of MLOps techniques and their most diverse applications.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-20
# 量子後セキュアなUE-to-UE通信

Post-Quantum Secure UE-to-UE Communications ( http://arxiv.org/abs/2408.11117v1 )

ライセンス: Link先を確認
Sanzida Hoque, Abdullah Aydeger, Engin Zeydan, (参考訳) 量子コンピューティングの急速な発展は、モバイル通信にユーザ機器(UE)で使用されるものなど、現在の暗号システムのセキュリティに重大な脅威をもたらす。 Rivest-Shamir-Adleman (RSA) や Elliptic curve Cryptography (ECC) のような従来の暗号アルゴリズムは量子コンピューティング攻撃に対して脆弱であり、UEによって送信される機密データの機密性、完全性、可用性を損なう可能性がある。 本稿では、量子攻撃のリスクを軽減するために、UE通信のためのTLSにポスト量子暗号(PQC)を統合することを提案する。 使用する各コンポーネントのセットアップと説明を行う。 他の研究者が同じセットアップを複製できるように、デモ全体のワークフローも提供しています。 UE-to-UE通信を確保するため,PQCを5Gネットワーク内に実装することで,量子抵抗型モバイルデバイスの開発方法と,無線通信の将来性を確保することを目的とする。

The rapid development of quantum computing poses a significant threat to the security of current cryptographic systems, including those used in User Equipment (UE) for mobile communications. Conventional cryptographic algorithms such as Rivest-Shamir-Adleman (RSA) and Elliptic curve cryptography (ECC) are vulnerable to quantum computing attacks, which could jeopardize the confidentiality, integrity, and availability of sensitive data transmitted by UEs. This demo paper proposes the integration of Post-Quantum Cryptography (PQC) in TLS for UE Communication to mitigate the risks of quantum attacks. We present our setup and explain each of the components used. We also provide the entire workflow of the demo for other researchers to replicate the same setup. By addressing the implementation of PQC within a 5G network to secure UE-to-UE communication, this research aims to pave the way for developing quantum-resistant mobile devices and securing the future of wireless communications.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# Mistral-SPLADE: LLMs for better Learned Sparse Retrieval

Mistral-SPLADE: LLMs for for better Learned Sparse Retrieval ( http://arxiv.org/abs/2408.11119v1 )

ライセンス: Link先を確認
Meet Doshi, Vishwajeet Kumar, Rudra Murthy, Vignesh P, Jaydeep Sen, (参考訳) 学習されたスパースレトリバー(LSR)は、従来のキーワードベースのスパースレトリバーと埋め込みベースの高密度レトリバーのギャップを埋める効果的な検索戦略へと進化してきた。 学習されたスパース検索者は、クエリやドキュメントから最も重要なセマンティックキーワード拡張を学習し、重複するキーワード拡張によるより良い検索を容易にする。 SPLADEのようなLSRは典型的には、ハードネガティブマイニングや蒸留などの既知の検索性能向上の方法と合わせて、MLM(masked language modeling)スタイルの目的を持つエンコーダのみのモデルを使用してきた。 本研究では,意味的キーワード拡張学習にデコーダのみを用いたモデルを提案する。 提案するデコーダは,データ量が大きくなったモデルのみが,検索改善に必要なキーワード拡張の学習に適している。 我々はMistralをバックボーンとして、SPLADEに似たLearned Sparse Retrieverを開発し、テキスト埋め込みモデルのトレーニングによく使用される文変換データのサブセットでトレーニングする。 実験では,デコーダのみに基づくスパース検索モデル(LLM)が,SPLADEを含む既存のLSRシステムの性能を超えるという仮説を支持した。 LLMベースのモデル(Echo-Mistral-SPLADE)は、BEIRテキスト検索ベンチマークにおいて、現在最先端の学習されたスパース検索モデルとなっている。

Learned Sparse Retrievers (LSR) have evolved into an effective retrieval strategy that can bridge the gap between traditional keyword-based sparse retrievers and embedding-based dense retrievers. At its core, learned sparse retrievers try to learn the most important semantic keyword expansions from a query and/or document which can facilitate better retrieval with overlapping keyword expansions. LSR like SPLADE has typically been using encoder only models with MLM (masked language modeling) style objective in conjunction with known ways of retrieval performance improvement such as hard negative mining, distillation, etc. In this work, we propose to use decoder-only model for learning semantic keyword expansion. We posit, decoder only models that have seen much higher magnitudes of data are better equipped to learn keyword expansions needed for improved retrieval. We use Mistral as the backbone to develop our Learned Sparse Retriever similar to SPLADE and train it on a subset of sentence-transformer data which is often used for training text embedding models. Our experiments support the hypothesis that a sparse retrieval model based on decoder only large language model (LLM) surpasses the performance of existing LSR systems, including SPLADE and all its variants. The LLM based model (Echo-Mistral-SPLADE) now stands as a state-of-the-art learned sparse retrieval model on the BEIR text retrieval benchmark.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# DOMBA:最小境界アグリゲーションによるアクセス制御言語モデルのための二重モデルバランシング

DOMBA: Double Model Balancing for Access-Controlled Language Models via Minimum-Bounded Aggregation ( http://arxiv.org/abs/2408.11121v1 )

ライセンス: Link先を確認
Tom Segal, Asaf Shabtai, Yuval Elovici, (参考訳) 大規模言語モデル(LLM)の有用性は、トレーニングデータの品質と量に大きく依存する。 多くの組織は、特定のニーズに合わせてトレーニングや微調整のLLMに活用できる大規模なデータコーパスを持っている。 しかしながら、これらのデータセットには、ユーザ権限に基づいてアクセス制御機構によって強制されるアクセス制限が伴うことが多い。 このようなデータセット上でのLSMのトレーニングは、無許可のユーザに機密情報を暴露する可能性がある。 このような露出を防ぐための簡単なアプローチは、アクセスレベル毎に別々のモデルをトレーニングすることだ。 しかし、これは、組織内の全コーパスの量と比較して、モデル毎のトレーニングデータ量が限られているため、低ユーティリティモデルをもたらす可能性がある。 もうひとつのアプローチは、許可されていない情報の露出を制限しながら、すべてのデータに対して単一のLSMをトレーニングすることです。 しかし、LLMの現在の露光制限法は、多くのトレーニング例においてセンシティブな情報が頻繁に現れるアクセス制御データには効果がない。 DOMBA - 二重モデルバランシング - LLMのトレーニングとデプロイのためのシンプルなアプローチを提案する。 DOMBAは2つのモデルの確率分布を集約し、それぞれが(潜在的に多くの)異なるアクセスレベルを持つ文書で訓練され、"min-bounded"平均関数(より小さな値、例えば調和平均で有界な関数)を使用する。 詳細な数学的解析と広範囲な評価は、DOMBAが制限された情報を保護し、非セキュアモデルに匹敵するユーティリティを提供することを示している。

The utility of large language models (LLMs) depends heavily on the quality and quantity of their training data. Many organizations possess large data corpora that could be leveraged to train or fine-tune LLMs tailored to their specific needs. However, these datasets often come with access restrictions that are based on user privileges and enforced by access control mechanisms. Training LLMs on such datasets could result in exposure of sensitive information to unauthorized users. A straightforward approach for preventing such exposure is to train a separate model for each access level. This, however, may result in low utility models due to the limited amount of training data per model compared to the amount in the entire organizational corpus. Another approach is to train a single LLM on all the data while limiting the exposure of unauthorized information. However, current exposure-limiting methods for LLMs are ineffective for access-controlled data, where sensitive information appears frequently across many training examples. We propose DOMBA - double model balancing - a simple approach for training and deploying LLMs that provides high utility and access-control functionality with security guarantees. DOMBA aggregates the probability distributions of two models, each trained on documents with (potentially many) different access levels, using a "min-bounded" average function (a function that is bounded by the smaller value, e.g., harmonic mean). A detailed mathematical analysis and extensive evaluation show that DOMBA safeguards restricted information while offering utility comparable to non-secure models.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# 多体量子カオスの可解モデルに関する注記

Notes on solvable models of many-body quantum chaos ( http://arxiv.org/abs/2408.11123v1 )

ライセンス: Link先を確認
Shunyu Yao, (参考訳) ブラウン・サハデフ・イェ・キタエフモデルに関連する多くの身体カオスモデルのクラスについて検討する。 創発対称性は量子力学を古典的確率過程にマッピングする。 したがって、任意のグラフ構造上の有限 N における多くの力学特性を研究できる。 空間的局所性の有無にかかわらず, 演算子の粒径成長に関する総合的研究を行った。 普遍的な振る舞いが大きな N の極限で出現し、それを場の理論法と比較する。 また、多体カオス的な振る舞いを直感的に考える方法として、単純な確率過程を設計する。 エンタングルメント成長を含む他の性質や、この可解モデルの他の変種について論じる。

We study a class of many body chaotic models related to the Brownian Sachdev-Ye-Kitaev model. An emergent symmetry maps the quantum dynamics into a classical stochastic process. Thus we are able to study many dynamical properties at finite N on an arbitrary graph structure. A comprehensive study of operator size growth with or without spatial locality is presented. We will show universal behaviors emerge at large N limit, and compare them with field theory method. We also design simple stochastic processes as an intuitive way of thinking about many-body chaotic behaviors. Other properties including entanglement growth and other variants of this solvable models are discussed.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# 無人航空機交通管理システム(UTMs)を目指して : セキュリティリスクと課題

Towards the Unmanned Aerial Vehicle Traffic Management Systems (UTMs): Security Risks and Challenges ( http://arxiv.org/abs/2408.11125v1 )

ライセンス: Link先を確認
Konstantinos Spalas, (参考訳) 私たちの生活のあらゆる側面は、効果的にコミュニケーションする能力に依存します。 コミュニケーションルーチン、プロトコル、すなわち成長の手段を確立する組織。 航空交通管理システム(Aerial Traffic Management System)は、組織と同様に機能するが、より厳密な方法で機能する。 サードパーティの機関は、その機能のいくつかの側面を保証する。 多くの人々は当然安全を尊重していますが、日々の機能にとって非常に難しい部分です。 したがって、新しい時代の新しいものや習慣を消化することとは別に、我々は同時にそのすべての部分の安全を確保する必要がある。 作成するデータが増えればするほど、作成する情報が増え、合理的な時間で有効にするために導入しなければならない専門性も高くなるのは事実です。 無人航空機システム交通管理(Unmanned Aircraft System Traffic Management, UTM)は、様々なモジュールから構成されるシステムである。 言い換えれば、UTMは高度なサービスと専門化を必要とする最先端のシステムです。

Every aspect of our life depends on the ability to communicate effectively. Organizations that manage to establish communication routines, protocols and means thrive. An Aerial Traffic Management System operates similarly as an organization but certainly in a more strict manner. Third party agencies ensure several aspects of their functionality, the utmost to be consider safety. Many people take safety as granted but it is a pretty difficult part our daily functions. Thus, apart from digesting new things and habits of the new era, simultaneously we have to ensure safety in every part of it. It is true that the more data we produce, the more information we create and the more specialization we must introduce in order to be effective in a reasonable time basis. A Unmanned Aircraft System Traffic Management (UTM) is a system that consists of miscellaneous modules where each of them needs its consideration regarding safety. In other words, a UTM is the state-of-the-art system that demand a high quality of services and specialization, if we need to consider them reliable.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# 両眼モデル:デュアル波長イメージング熱量計を用いたオンラインメルトプール温度解析のための深層学習ソリューション

Binocular Model: A deep learning solution for online melt pool temperature analysis using dual-wavelength Imaging Pyrometry ( http://arxiv.org/abs/2408.11126v1 )

ライセンス: Link先を確認
Javid Akhavan, Chaitanya Krishna Vallabh, Xianyun Zhao, Souran Manoochehri, (参考訳) 金属添加物製造(AM)において, メルトプール(MP)の温度監視は, 部品品質, プロセス安定性, 欠陥防止, プロセス全体の最適化の確保に不可欠である。 従来の手法は収束が遅く、データを実行可能な洞察に変換するために広範囲な手作業が必要であり、リアルタイムの監視と制御には実用的ではない。 この課題に対処するために,手作業によるデータ処理の信頼性の低減と,データから洞察への遷移効率の向上を目的とした人工知能(AI)ベースのソリューションを提案する。 本研究では,2波長リアルタイムプロセス監視データと対応する温度マップからなるデータセットを利用する。 レーザー粉体融合(L-PBF)におけるMP温度の高精度な解析を行うために,双対入力観測を利用した深層学習モデル「双眼鏡モデル」を導入する。 先進的な深層学習技術により、生データを温度マップにシームレスに変換し、プロセスを大幅に合理化し、バッチ処理を1秒あたり750フレームまで、従来の手法の約1000倍の速度で行えるようにした。 我々の両眼モデルでは、0.95R二乗スコアで証明された温度推定の精度が向上し、同時に処理効率を$\sim1000x$倍に向上させる。 このモデルは、リアルタイムMP温度モニタリングの課題に直接対処し、遭遇した制約とディープラーニングベースのアプローチの利点についての洞察を提供する。 本研究は, 効率と精度を組み合わせることにより, L-PBFの温度モニタリングの進展に寄与し, 金属AM分野の進展を推し進める。

In metal Additive Manufacturing (AM), monitoring the temperature of the Melt Pool (MP) is crucial for ensuring part quality, process stability, defect prevention, and overall process optimization. Traditional methods, are slow to converge and require extensive manual effort to translate data into actionable insights, rendering them impractical for real-time monitoring and control. To address this challenge, we propose an Artificial Intelligence (AI)-based solution aimed at reducing manual data processing reliance and improving the efficiency of transitioning from data to insight. In our study, we utilize a dataset comprising dual-wavelength real-time process monitoring data and corresponding temperature maps. We introduce a deep learning model called the "Binocular model," which exploits dual input observations to perform a precise analysis of MP temperature in Laser Powder Bed Fusion (L-PBF). Through advanced deep learning techniques, we seamlessly convert raw data into temperature maps, significantly streamlining the process and enabling batch processing at a rate of up to 750 frames per second, approximately 1000 times faster than conventional methods. Our Binocular model achieves high accuracy in temperature estimation, evidenced by a 0.95 R-squared score, while simultaneously enhancing processing efficiency by a factor of $\sim1000x$ times. This model directly addresses the challenge of real-time MP temperature monitoring and offers insights into the encountered constraints and the benefits of our Deep Learning-based approach. By combining efficiency and precision, our work contributes to the advancement of temperature monitoring in L-PBF, thus driving progress in the field of metal AM.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# 災害時の公衆衛生 : ハリケーン災害時の情緒的健康・生活事故の抽出

Public Health in Disaster: Emotional Health and Life Incidents Extraction during Hurricane Harvey ( http://arxiv.org/abs/2408.11133v1 )

ライセンス: Link先を確認
Thomas Hoang, Quynh Anh Nguyen, Long Nguyen, (参考訳) 無数の災害が気候変動によって引き起こされ、インフラや経済に深刻な被害をもたらした。 これらの災害は社会に重大な影響を及ぼし、影響を受けた何百万人ものメンタルヘルスサービスを必要としている。 このような事態に備え、効果的に対応するためには、災害前後に経験する人々の感情や人生の出来事を理解することが重要である。 このケーススタディでは、嵐に関連する約40万の公開ツイートのデータセットを収集しました。 BERTベースのモデルを用いて、各ツイートに関連する感情を予測した。 これらのトピックを効率的に識別するために、トピックモデリングにLDA(Latent Dirichlet Allocation)技術を使用し、手動によるコンテンツ分析を回避し、データから意味のあるパターンを抽出する。 しかし,従来の方法であるcite{math11244910} のようにトピック識別を停止するのではなく,グラフニューラルネットワーク (GNN) とLarge Language Models (LLM) を統合して解析を改良した。 GNNは埋め込みを生成し、ツイートの類似性グラフを構築するために使われ、クラスタリングの最適化に使用された。 その後、LLMを使用して、各イベントクラスタの記述的名前を自動的に生成し、災害の準備と対応戦略に関する重要な洞察を提供する。

Countless disasters have resulted from climate change, causing severe damage to infrastructure and the economy. These disasters have significant societal impacts, necessitating mental health services for the millions affected. To prepare for and respond effectively to such events, it is important to understand people's emotions and the life incidents they experience before and after a disaster strikes. In this case study, we collected a dataset of approximately 400,000 public tweets related to the storm. Using a BERT-based model, we predicted the emotions associated with each tweet. To efficiently identify these topics, we utilized the Latent Dirichlet Allocation (LDA) technique for topic modeling, which allowed us to bypass manual content analysis and extract meaningful patterns from the data. However, rather than stopping at topic identification like previous methods \cite{math11244910}, we further refined our analysis by integrating Graph Neural Networks (GNN) and Large Language Models (LLM). The GNN was employed to generate embeddings and construct a similarity graph of the tweets, which was then used to optimize clustering. Subsequently, we used an LLM to automatically generate descriptive names for each event cluster, offering critical insights for disaster preparedness and response strategies.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# MS$^3$D:限られたデータを用いたGANトレーニングのためのRGフローベース正規化

MS$^3$D: A RG Flow-Based Regularization for GAN Training with Limited Data ( http://arxiv.org/abs/2408.11135v1 )

ライセンス: Link先を確認
Jian Wang, Xin Lan, Yuxin Tian, Jiancheng Lv, (参考訳) GAN(Generative Adversarial Network)は画像生成において顕著な進歩を遂げてきたが、識別器過適合による劣化を避けるために大規模なトレーニングデータを必要とすることが多い。 そこで本研究では,物理における再正規化グループ(RG)の考え方に基づく新たな正規化手法を提案するとともに,この制約データ設定において,生成元が識別器から取得した勾配パターンが時間とともにより集約化されることを観察する。 RGの文脈では、この集約されたパターンは粗い粒度のバージョンと高い差を示しており、これは高容量で敏感なシステムであり、過度に適合し、崩壊する傾向があることを意味する。 この問題に対処するために、勾配場が異なるスケールで一貫したパターンを持つことを制限し、より冗長でロバストなシステムを育むことを目的とした、 \textbf{m}ulti-\textbf{s}cale \textbf{s}tructural \textbf{s}elf-\textbf{d}issimilarity (MS$^3$D) を導入する。 本手法は, 限られたデータシナリオ下でのGANの性能と安定性を効果的に向上し, 極めて少ないデータで高品質な画像を生成することができることを示す。

Generative adversarial networks (GANs) have made impressive advances in image generation, but they often require large-scale training data to avoid degradation caused by discriminator overfitting. To tackle this issue, we investigate the challenge of training GANs with limited data, and propose a novel regularization method based on the idea of renormalization group (RG) in physics.We observe that in the limited data setting, the gradient pattern that the generator obtains from the discriminator becomes more aggregated over time. In RG context, this aggregated pattern exhibits a high discrepancy from its coarse-grained versions, which implies a high-capacity and sensitive system, prone to overfitting and collapse. To address this problem, we introduce a \textbf{m}ulti-\textbf{s}cale \textbf{s}tructural \textbf{s}elf-\textbf{d}issimilarity (MS$^3$D) regularization, which constrains the gradient field to have a consistent pattern across different scales, thereby fostering a more redundant and robust system. We show that our method can effectively enhance the performance and stability of GANs under limited data scenarios, and even allow them to generate high-quality images with very few data.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# マルチモーダル・ヒューマン・ガイダンスによる目標指向オブジェクト・グラッピング

Target-Oriented Object Grasping via Multimodal Human Guidance ( http://arxiv.org/abs/2408.11138v1 )

ライセンス: Link先を確認
Pengwei Xie, Siang Chen, Dingchang Hu, Yixiang Dai, Kaiqin Yang, Guijin Wang, (参考訳) 人間とロボットの相互作用やコラボレーションのシナリオでは、ロボットの把握は多くの課題に直面している。 従来の把握検出手法は、一般的にシーン全体を解析して把握を予測し、冗長性と非効率性をもたらす。 本研究では,ターゲット参照視点から6-DoFのグリップ検出を再検討し,TOGNet(Target-Oriented Grasp Network)を提案する。 TOGNetは特に、より効率的に把握を予測するために、ローカルでオブジェクトに依存しない領域パッチをターゲットにしている。 言語指示、ポインティングジェスチャ、インタラクティブなクリックなど、マルチモーダルなヒューマンガイダンスとシームレスに統合される。 そこで本システムは,3次元空間内の対象物体を識別する誘導モジュールと,その周辺領域の6-DoFを検知し,その後の動作計画を容易にするTOGNetの2つの主要機能モジュールから構成される。 乱雑な場面における50のターゲットグラスピングシミュレーション実験を通じて,本システムは約13.7%の成功率向上を実現している。 実世界の実験において,本手法は様々な対象指向の把握シナリオに優れることを示した。

In the context of human-robot interaction and collaboration scenarios, robotic grasping still encounters numerous challenges. Traditional grasp detection methods generally analyze the entire scene to predict grasps, leading to redundancy and inefficiency. In this work, we reconsider 6-DoF grasp detection from a target-referenced perspective and propose a Target-Oriented Grasp Network (TOGNet). TOGNet specifically targets local, object-agnostic region patches to predict grasps more efficiently. It integrates seamlessly with multimodal human guidance, including language instructions, pointing gestures, and interactive clicks. Thus our system comprises two primary functional modules: a guidance module that identifies the target object in 3D space and TOGNet, which detects region-focal 6-DoF grasps around the target, facilitating subsequent motion planning. Through 50 target-grasping simulation experiments in cluttered scenes, our system achieves a success rate improvement of about 13.7%. In real-world experiments, we demonstrate that our method excels in various target-oriented grasping scenarios.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# ISLES 2024: (sub-)acute strokeにおける最初の長手マルチモーダルマルチセンタ実世界データセット

ISLES 2024: The first longitudinal multimodal multi-center real-world dataset in (sub-)acute stroke ( http://arxiv.org/abs/2408.11142v1 )

ライセンス: Link先を確認
Evamaria O. Riedel, Ezequiel de la Rosa, The Anh Baran, Moritz Hernandez Petzsche, Hakim Baazaoui, Kaiyuan Yang, David Robben, Joaquin Oscar Seia, Roland Wiest, Mauricio Reyes, Ruisheng Su, Claus Zimmer, Tobias Boeckh-Behrens, Maria Berndt, Bjoern Menze, Benedikt Wiestler, Susanne Wegener, Jan S. Kirschke, (参考訳) ストロークは世界的死亡率と死亡率の主要な原因であり、社会経済的重荷を負っている。 過去10年間で、血管再灌流療法の進歩と、CTおよびMRIによる治療指導が患者の成績を大幅に改善し、現在、臨床実践において標準的なものとなっている。 脳卒中画像(特に病変の同定、脳の健康状態の定量化、予後)から脳機能の有意義で再現可能なモデルを抽出できる機械学習アルゴリズムを開発する。 以前、(サブ)急性ストロークデータを持つ少数のデータセットしか利用できなかったが、いくつかの大規模で高品質なデータセットが最近公開された。 しかし、これらの既存のデータセットはMRIデータのみを含む。 対照的に,我々のデータセットは,血管造影と灌流による急性CT像,2~9日間の経過観察,急性期および慢性期の臨床データなど,脳梗塞の包括的データを初めて提供した。 データセットには、n = 150のトレーニングデータセットと、n = 100スキャンのテストデータセットが含まれている。 トレーニングデータは公開されており、テストデータはモデルの検証にのみ使用される。 Ischemic Stroke Lesion Segmentation (ISLES) Challenge (https://www.isles-challenge.org/)の2024エディションの一部として、このデータセットを利用可能にしています。

Stroke remains a leading cause of global morbidity and mortality, placing a heavy socioeconomic burden. Over the past decade, advances in endovascular reperfusion therapy and the use of CT and MRI imaging for treatment guidance have significantly improved patient outcomes and are now standard in clinical practice. To develop machine learning algorithms that can extract meaningful and reproducible models of brain function for both clinical and research purposes from stroke images - particularly for lesion identification, brain health quantification, and prognosis - large, diverse, and well-annotated public datasets are essential. While only a few datasets with (sub-)acute stroke data were previously available, several large, high-quality datasets have recently been made publicly accessible. However, these existing datasets include only MRI data. In contrast, our dataset is the first to offer comprehensive longitudinal stroke data, including acute CT imaging with angiography and perfusion, follow-up MRI at 2-9 days, as well as acute and longitudinal clinical data up to a three-month outcome. The dataset includes a training dataset of n = 150 and a test dataset of n = 100 scans. Training data is publicly available, while test data will be used exclusively for model validation. We are making this dataset available as part of the 2024 edition of the Ischemic Stroke Lesion Segmentation (ISLES) challenge (https://www.isles-challenge.org/), which continuously aims to establish benchmark methods for acute and sub-acute ischemic stroke lesion segmentation, aiding in creating open stroke imaging datasets and evaluating cutting-edge image processing algorithms.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# 低次深層学習サーロゲートモデルによる逆PDE解の完全不確かさの定量化

Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models ( http://arxiv.org/abs/2408.11145v1 )

ライセンス: Link先を確認
Yuanzhe Wang, Alexandre M. Tartakovsky, (参考訳) 演算子学習モデルを含む機械学習代理モデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。 提案手法は観測およびPDEおよび代理モデルの不確実性を考慮したものである。 まず、サロゲートモデルを用いて、最大アフター逆解(MAP)の縮小空間における最小化問題を定式化する。 次に、MAP対象関数をランダム化し、目的関数の異なる実現を最小化することにより、後続分布のサンプルを得る。 本研究では,非線型拡散方程式と未知空間依存拡散係数の繰り返しアンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。 その他の問題として、この方程式は未解決帯水層における地下水の流れを記述している。 トレーニングデータセットとアンサンブルサイズに応じて、提案手法は、反復アンサンブルスムーズな手法よりも、パラメータや状態の類似またはより記述的な後部を提供する。 ディープアンサンブルは不確実性を過小評価し、他の2つの方法よりも情報的な後部を提供する。

We propose an approximate Bayesian method for quantifying the total uncertainty in inverse PDE solutions obtained with machine learning surrogate models, including operator learning models. The proposed method accounts for uncertainty in the observations and PDE and surrogate models. First, we use the surrogate model to formulate a minimization problem in the reduced space for the maximum a posteriori (MAP) inverse solution. Then, we randomize the MAP objective function and obtain samples of the posterior distribution by minimizing different realizations of the objective function. We test the proposed framework by comparing it with the iterative ensemble smoother and deep ensembling methods for a non-linear diffusion equation with an unknown space-dependent diffusion coefficient. Among other problems, this equation describes groundwater flow in an unconfined aquifer. Depending on the training dataset and ensemble sizes, the proposed method provides similar or more descriptive posteriors of the parameters and states than the iterative ensemble smoother method. Deep ensembling underestimates uncertainty and provides less informative posteriors than the other two methods.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# Swim until You Sink: ゲームの限界を計算する

Swim till You Sink: Computing the Limit of a Game ( http://arxiv.org/abs/2408.11146v1 )

ライセンス: Link先を確認
Rashida Hakim, Jason Milionis, Christos Papadimitriou, Georgios Piliouras, (参考訳) 2023年、ゲーム力学の極限挙動について2つの興味深い結果が証明された。 第2に,ゲームにおけるシンク平衡は,自然ゲーム力学の限界挙動を適切に捉えていることを示した。 これらの2つの結果は、ゲーム力学に基づくゲームの意味の原理的な計算理論を明確にする必要性と機会を生み出している。 正規形式の任意のゲームと事前のプレイ分布が与えられた場合、我々はゲームのシンク平衡上の極限分布としてノイズレプリケータ力学と呼ばれる自然力学のクラスの漸近挙動を計算する問題を研究する。 先行分布が純粋戦略サポートを持つ場合、この分布を最適応答グラフのサイズにほぼ直線的に効率よく計算できることを示す。 例えば、全ての混合戦略プロファイルに対する均一分布であるような分布をサンプリングできる場合、実験を通して、合理的に大きなゲームの極限分布をサンプリングとシミュレーションによって正確に推定できることが示される。

During 2023, two interesting results were proven about the limit behavior of game dynamics: First, it was shown that there is a game for which no dynamics converges to the Nash equilibria. Second, it was shown that the sink equilibria of a game adequately capture the limit behavior of natural game dynamics. These two results have created a need and opportunity to articulate a principled computational theory of the meaning of the game that is based on game dynamics. Given any game in normal form, and any prior distribution of play, we study the problem of computing the asymptotic behavior of a class of natural dynamics called the noisy replicator dynamics as a limit distribution over the sink equilibria of the game. When the prior distribution has pure strategy support, we prove this distribution can be computed efficiently, in near-linear time to the size of the best-response graph. When the distribution can be sampled -- for example, if it is the uniform distribution over all mixed strategy profiles -- we show through experiments that the limit distribution of reasonably large games can be estimated quite accurately through sampling and simulation.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# 形態素スクリプト型解析のための解釈可能な深層学習手法

An Interpretable Deep Learning Approach for Morphological Script Type Analysis ( http://arxiv.org/abs/2408.11150v1 )

ライセンス: Link先を確認
Malamatenia Vlachou-Efstathiou, Ioannis Siglidis, Dominique Stutzmann, Mathieu Aubry, (参考訳) 書体の種類を定義し、中世の筆跡の分類基準を確立することは、パレオグラフィー分析の中心的な側面である。 しかし、既存のタイポロジーは、記述的制限や主観的基準など、方法論的な課題に直面することが多い。 本稿では,定性的な観察と定量的測定のギャップを埋めることに寄与する,系統的および客観的な解析を可能にする,形態学的スクリプト型解析に対する解釈可能な深層学習に基づくアプローチを提案する。 より正確には、文字形態を表す文字のプロトタイプを学習し、比較と分析のための定性的で定量的なツールを提供するために、ディープ・インスタンス・セグメンテーション法を適用する。 我々は、A. Derolez が定式化した Textualis Formata スクリプトタイプとその2つのサブタイプに適用することで、我々のアプローチを実証する。

Defining script types and establishing classification criteria for medieval handwriting is a central aspect of palaeographical analysis. However, existing typologies often encounter methodological challenges, such as descriptive limitations and subjective criteria. We propose an interpretable deep learning-based approach to morphological script type analysis, which enables systematic and objective analysis and contributes to bridging the gap between qualitative observations and quantitative measurements. More precisely, we adapt a deep instance segmentation method to learn comparable character prototypes, representative of letter morphology, and provide qualitative and quantitative tools for their comparison and analysis. We demonstrate our approach by applying it to the Textualis Formata script type and its two subtypes formalized by A. Derolez: Northern and Southern Textualis
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# データセット構築に関する統計的課題:なぜ十分な画像が得られないのか

Statistical Challenges with Dataset Construction: Why You Will Never Have Enough Images ( http://arxiv.org/abs/2408.11160v1 )

ライセンス: Link先を確認
Josh Goldman, John K. Tsotsos, (参考訳) 近年、ディープニューラルネットワークは多くのコンピュータビジョンベンチマークで顕著なパフォーマンスを達成している。 しかし、ベンチマークにおける印象的なパフォーマンスが、現実の環境での強いパフォーマンスに変換されると確信しているだろうか? 現実世界の多くの環境は安全に重要であり、わずかながらのモデル故障でさえ破滅的だ。 そのため、デプロイ前にモデルを厳格にテストすることが重要です。 我々は、統計理論と経験的証拠の両方を通して、モデルをテストするための代表的な画像データセットを選択することは、多くの領域で不可能であると主張している。 さらに、非表現的画像データセットを用いて計算された性能統計は信頼性が低い。 その結果、保持されていないテスト画像でも良好に動作するモデルが実世界でも良好に機能することを保証できない。 より大きなデータセットを作成することは役に立たないし、バイアス対応データセットもこの問題を解決できない。 最終的に、持たないテストセットを使用してモデルを評価するための統計的基盤はほとんどない。 今後の評価手法は、精度などの指標ではなく、モデルの意思決定プロセスを評価することに焦点を当てることを推奨する。

Deep neural networks have achieved impressive performance on many computer vision benchmarks in recent years. However, can we be confident that impressive performance on benchmarks will translate to strong performance in real-world environments? Many environments in the real world are safety critical, and even slight model failures can be catastrophic. Therefore, it is crucial to test models rigorously before deployment. We argue, through both statistical theory and empirical evidence, that selecting representative image datasets for testing a model is likely implausible in many domains. Furthermore, performance statistics calculated with non-representative image datasets are highly unreliable. As a consequence, we cannot guarantee that models which perform well on withheld test images will also perform well in the real world. Creating larger and larger datasets will not help, and bias aware datasets cannot solve this problem either. Ultimately, there is little statistical foundation for evaluating models using withheld test sets. We recommend that future evaluation methodologies focus on assessing a model's decision-making process, rather than metrics such as accuracy.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# エンサンブル・エパネチニコフ混合フィルタ

The Ensemble Epanechnikov Mixture Filter ( http://arxiv.org/abs/2408.11164v1 )

ライセンス: Link先を確認
Andrey A. Popov, Renato Zanetti, (参考訳) 高次元設定では、ガウス混合核密度推定はますます準最適になる。 本研究では,最適多変量エパネチニコフカーネルを用いることが現実的であることを示す。 我々は,エンサンブル・エパネチニコフ混合フィルタ (EnEMF) を用いて,この最適エパネチニコフ混合核密度推定法を逐次フィルタリングシナリオに適用する。 本稿では,エンサンブルガウス混合フィルタに匹敵するコスト効率のよいEnEMFの実用的な実装を提案する。 また,EnEMFは40変量ローレンツ'96系における粒子毎の誤差を著しく低減することを示した。

In the high-dimensional setting, Gaussian mixture kernel density estimates become increasingly suboptimal. In this work we aim to show that it is practical to instead use the optimal multivariate Epanechnikov kernel. We make use of this optimal Epanechnikov mixture kernel density estimate for the sequential filtering scenario through what we term the ensemble Epanechnikov mixture filter (EnEMF). We provide a practical implementation of the EnEMF that is as cost efficient as the comparable ensemble Gaussian mixture filter. We show on a static example that the EnEMF is robust to growth in dimension, and also that the EnEMF has a significant reduction in error per particle on the 40-variable Lorenz '96 system.
翻訳日:2024-08-22 21:16:53 公開日:2024-08-20
# SubgoalXL: 定理証明のためのサブゴールベースエキスパートラーニング

SubgoalXL: Subgoal-based Expert Learning for Theorem Proving ( http://arxiv.org/abs/2408.11172v1 )

ライセンス: Link先を確認
Xueliang Zhao, Lin Zheng, Haige Bo, Changran Hu, Urmish Thakker, Lingpeng Kong, (参考訳) 数学と計算機科学の交差する分野である形式的定理証明は、大きな言語モデル(LLM)の進歩に新たな関心を抱いている。 本稿では,Isabelle 環境での形式的定理証明における LLM の能力を高めるために,サブゴールに基づく証明をエキスパートラーニングと相乗化するための新しいアプローチである SubgoalXL を紹介する。 SubgoalXLは2つの重要な課題に対処する: 特殊数学と定理証明データの不足と、LLMにおける多段階推論能力の改善の必要性。 データの効率を最適化し、サブゴールレベルの監視を採用することで、SubgoalXLは、限られた人間生成証明からよりリッチな情報を抽出する。 このフレームワークは、サブゴール指向の証明戦略をエキスパート学習システムと統合し、形式文、証明、サブゴール生成を反復的に洗練する。 SubgoalXLは、Isabelle環境の利点をサブゴールベースの証明で活用し、標準のminiF2Fデータセット上で56.1\%の最先端パフォーマンスを実現し、4.9\%の絶対的な改善を示している。 特にSubgoalXLは、MiniF2Fから41のAMC12、9のAIME、3のIMO問題を解くことに成功した。 これらの結果は、AI推論能力の継続的な進歩に寄与し、限定データユーティリティの最大化と、フォーマルな定理証明における複雑な推論のための目標ガイダンスの活用の有効性を裏付けるものである。 実装は \url{https://github.com/zhaoxlpku/SubgoalXL} で公開されている。

Formal theorem proving, a field at the intersection of mathematics and computer science, has seen renewed interest with advancements in large language models (LLMs). This paper introduces SubgoalXL, a novel approach that synergizes subgoal-based proofs with expert learning to enhance LLMs' capabilities in formal theorem proving within the Isabelle environment. SubgoalXL addresses two critical challenges: the scarcity of specialized mathematics and theorem-proving data, and the need for improved multi-step reasoning abilities in LLMs. By optimizing data efficiency and employing subgoal-level supervision, SubgoalXL extracts richer information from limited human-generated proofs. The framework integrates subgoal-oriented proof strategies with an expert learning system, iteratively refining formal statement, proof, and subgoal generators. Leveraging the Isabelle environment's advantages in subgoal-based proofs, SubgoalXL achieves a new state-of-the-art performance of 56.1\% in Isabelle on the standard miniF2F dataset, marking an absolute improvement of 4.9\%. Notably, SubgoalXL successfully solves 41 AMC12, 9 AIME, and 3 IMO problems from miniF2F. These results underscore the effectiveness of maximizing limited data utility and employing targeted guidance for complex reasoning in formal theorem proving, contributing to the ongoing advancement of AI reasoning capabilities. The implementation is available at \url{https://github.com/zhaoxlpku/SubgoalXL}.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# 政治ニュース理解のための客観的視点と主観的視点の組み合わせ

Combining Objective and Subjective Perspectives for Political News Understanding ( http://arxiv.org/abs/2408.11174v1 )

ライセンス: Link先を確認
Evan Dufraisse, Adrian Popescu, Julien Tourille, Armelle Brun, Olivier Hamon, (参考訳) 計算政治に関心のある研究者や実践者は、Web上で利用できる大量の政治文書を理解するために、自動コンテンツ分析ツールに依存している。 このようなツールは、様々な粒度レベルで客観的かつ主観的な側面を提供して、分析を実際に有用なものにすべきである。 既存の手法は客観的側面に対して興味深い洞察を与えるが、主観的側面に限られ、しばしば国家的文脈に限られ、説明可能性に制限がある。 本稿では、両視点を統合し、主観的側面のきめ細かい処理を提供するテキスト分析フレームワークを提案する。 情報検索技術と知識ベースは、異なる粒度レベルで結果の柔軟な集約を可能にするために、強力な自然言語処理コンポーネントを補完する。 重要なことは、提案したボトムアップアプローチは、得られた結果の説明可能性を促進することである。 本稿では、ニュースメディア、政治的指向、トピック、個々のエンティティ、人口構成に関する洞察とともに、その機能について説明する。 このアプローチは、フランスのニュースの大規模なコーパスでインスタンス化されているが、他の言語や国でシームレスに動作するように設計されている。

Researchers and practitioners interested in computational politics rely on automatic content analysis tools to make sense of the large amount of political texts available on the Web. Such tools should provide objective and subjective aspects at different granularity levels to make the analyses useful in practice. Existing methods produce interesting insights for objective aspects, but are limited for subjective ones, are often limited to national contexts, and have limited explainability. We introduce a text analysis framework which integrates both perspectives and provides a fine-grained processing of subjective aspects. Information retrieval techniques and knowledge bases complement powerful natural language processing components to allow a flexible aggregation of results at different granularity levels. Importantly, the proposed bottom-up approach facilitates the explainability of the obtained results. We illustrate its functioning with insights on news outlets, political orientations, topics, individual entities, and demographic segments. The approach is instantiated on a large corpus of French news, but is designed to work seamlessly for other languages and countries.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# 潜在共同設立者による因果ベイジアンネットワーク学習のためのDAGスコアに基づく完全アルゴリズム

A Full DAG Score-Based Algorithm for Learning Causal Bayesian Networks with Latent Confounders ( http://arxiv.org/abs/2408.11181v1 )

ライセンス: Link先を確認
Christophe Gonzales, Amir-Hosein Valizadeh, (参考訳) 因果ベイズネットワーク(Causal Bayesian Network, CBN)は、変数間の因果関係を符号化する一般的なグラフィカル確率モデルである。 観測データからグラフィカルな構造を学ぶことは、文献に多くの注目を集めている。 潜在的(観測されていない)共同創設者が存在しない場合、すなわち、観測された変数の観測されていない直接的な共通原因が存在しない場合、学習アルゴリズムは基本的に制約に基づくアプローチとスコアベースのアプローチの2つのクラスに分けられる。 後者は、しばしば前者よりも頑丈で、より良い結果をもたらすと考えられている。 しかし、私たちの知る限りでは、変数が離散的であれば、スコアベースのアルゴリズムは潜在する共同設立者を扱うことができない。 本稿では,DAG(directed acyclic graphs)の空間を探索する完全スコアに基づく構造学習アルゴリズムについて紹介する。 数学的に正当化され、実験はその有効性を強調している。

Causal Bayesian networks (CBN) are popular graphical probabilistic models that encode causal relations among variables. Learning their graphical structure from observational data has received a lot of attention in the literature. When there exists no latent (unobserved) confounder, i.e., no unobserved direct common cause of some observed variables, learning algorithms can be divided essentially into two classes: constraint-based and score-based approaches. The latter are often thought to be more robust than the former and to produce better results. However, to the best of our knowledge, when variables are discrete, no score-based algorithm is capable of dealing with latent confounders. This paper introduces the first fully score-based structure learning algorithm searching the space of DAGs (directed acyclic graphs) that is capable of identifying the presence of some latent confounders. It is justified mathematically and experiments highlight its effectiveness.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# 悪意ある目標を良心的物語に隠す:ニューラルキャリアによる大規模言語モデルのジェイルブレイク

Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles ( http://arxiv.org/abs/2408.11182v1 )

ライセンス: Link先を確認
Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu, (参考訳) 言語モデルモデル(LLM)に対するジェイルブレイク攻撃には、悪意のあるコンテンツを生成するためにモデルを活用することを目的としたクラフトプロンプトが含まれる。 本稿では,禁止クエリをキャリア記事に挿入することで,LDMの注意を移動させる新しいタイプのジェイルブレイク攻撃を提案する。 提案攻撃は知識グラフとLLMを利用して、禁止クエリのトピックと似ているがLLMの保護に違反しないキャリア記事を自動的に生成する。 悪意のあるクエリをキャリア記事に挿入することで、アタックペイロードがJailbreak LLMを成功させることができる。 提案手法の有効性を評価するために,関連研究で採用されている「有害行動」の4つの人気カテゴリを活用し,6つのLLMを攻撃した。 実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。

Jailbreak attacks on Language Model Models (LLMs) entail crafting prompts aimed at exploiting the models to generate malicious content. This paper proposes a new type of jailbreak attacks which shift the attention of the LLM by inserting a prohibited query into a carrier article. The proposed attack leverage the knowledge graph and a composer LLM to automatically generating a carrier article that is similar to the topic of the prohibited query but does not violate LLM's safeguards. By inserting the malicious query to the carrier article, the assembled attack payload can successfully jailbreak LLM. To evaluate the effectiveness of our method, we leverage 4 popular categories of ``harmful behaviors'' adopted by related researches to attack 6 popular LLMs. Our experiment results show that the proposed attacking method can successfully jailbreak all the target LLMs which high success rate, except for Claude-3.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# 量子情報は追加構造を必要とするか?

Does quantum information require additional structure? ( http://arxiv.org/abs/2408.11183v1 )

ライセンス: Link先を確認
Ryszard Horodecki, (参考訳) 我々は、ハイゼンベルクの普遍定数の下での基本的な物理理論モデルの分類の文脈において、量子情報現象を含む物理現実のモデルの解釈的問題を考える。 我々は、'古典'ミンコフスキー時空における相関に先行する直接観測されていない関係の量子空間の仮説を導入し、ライヒェンバッハの共通因数原理と矛盾する。 最後に、Chyli\'nski の量子リレーショナル連続空間のアイデアを紹介し、これは有界状態に対する潜在的に測定可能な効果を予測する。

We consider interpretative problems of models of physical reality including quantum information phenomenon in the context of Heisenberg's classification of the fundamental physical theoretic models under the role universal constants Planck's constant h and speed of light c and correspondence principle. We introduce hypothesis of quantum space of directly unobserved relations, which precede correlations in the 'classical' Minkowski space-time and are compatible with Reichenbach common cause principle. Finally, we present Chyli\'nski's idea of quantum relational continuum space, which predicts potentially measurable effects for the bound states.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# CRACKS:鍵地下断層の分析・分類のためのクラウドソーシング資源

CRACKS: Crowdsourcing Resources for Analysis and Categorization of Key Subsurface faults ( http://arxiv.org/abs/2408.11185v1 )

ライセンス: Link先を確認
Mohit Prabhushankar, Kiran Kokilepersaud, Jorge Quesada, Yavuz Yarici, Chen Zhou, Mohammad Alotaibi, Ghassan AlRegib, Ahmad Mustafa, Yusufjon Kumakov, (参考訳) クラウドソーシングアノテーションは、機械学習のためのラベル付きデータの可用性のパラダイムシフトを生み出した。 大規模データセットの可用性は、ビジュアルデータと言語データを含む共通知識アプリケーションの進歩を加速した。 しかし、専門家のラベルを必要とする特殊なアプリケーションは、データの可用性が遅れている。 そのような応用の1つは、地下イメージングにおける断層セグメンテーションである。 断層の検出、追跡、分析は、流体の流れ、地震を予測し、余剰な大気中のCO$2$を貯蔵する社会的な意味を持つ。 しかし、現在の慣行による断層の描写は、地球物理学者による地下画像データの正確な解析を必要とする労働集約的な活動である。 本稿では,クラウドソースリソースを利用して,地下画像の欠陥を検出し,セグメント化するための$\texttt{CRACKS}$データセットを提案する。 我々は、アマゾン・メカニカル・トルクを利用して、オランダ北海の地下画像から断層線を得る。 (i)地下データに触れず、欠陥を記述し、ラベル付けしたビデオを見せられた26ドルの初心者。 (ii)これまで地下データに関わった経験のある8ドルの実践者。 第三に、この地域で7636ドルの断層を認定する地球物理学者。 すべての初心者、実践者、専門家のセグメントは、初心者と実践者の間で意見の相違がある同じ地下のボリュームに欠陥があることに注意してください。 さらに、各フォールトアノテーションは、アノテータの信頼レベルを備える。 この論文は、初心者および実践者のラベルから専門家ラベルを検出し、セグメンテーションするためのベンチマークを提供する。 データセットのリンクとコードの詳細は、$\href{https://alregib.ece.gatech.edu/cracks-crowdsourcing-resources-for-analysis-and-categorization-of-key -sub surface-faults/}{link}$で確認できる。

Crowdsourcing annotations has created a paradigm shift in the availability of labeled data for machine learning. Availability of large datasets has accelerated progress in common knowledge applications involving visual and language data. However, specialized applications that require expert labels lag in data availability. One such application is fault segmentation in subsurface imaging. Detecting, tracking, and analyzing faults has broad societal implications in predicting fluid flows, earthquakes, and storing excess atmospheric CO$_2$. However, delineating faults with current practices is a labor-intensive activity that requires precise analysis of subsurface imaging data by geophysicists. In this paper, we propose the $\texttt{CRACKS}$ dataset to detect and segment faults in subsurface images by utilizing crowdsourced resources. We leverage Amazon Mechanical Turk to obtain fault delineations from sections of the Netherlands North Sea subsurface images from (i) $26$ novices who have no exposure to subsurface data and were shown a video describing and labeling faults, (ii) $8$ practitioners who have previously interacted and worked on subsurface data, (iii) one geophysicist to label $7636$ faults in the region. Note that all novices, practitioners, and the expert segment faults on the same subsurface volume with disagreements between and among the novices and practitioners. Additionally, each fault annotation is equipped with the confidence level of the annotator. The paper provides benchmarks on detecting and segmenting the expert labels, given the novice and practitioner labels. Additional details along with the dataset links and codes are available at $\href{https://alregib.ece.gatech.edu/cracks-crowdsourcing-resources-for-analysis-and-categorization-of-key -subsurface-faults/}{link}$.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# 比較ベース勾配推定を用いた自律ネゴシエーション

Autonomous Negotiation Using Comparison-Based Gradient Estimation ( http://arxiv.org/abs/2408.11186v1 )

ライセンス: Link先を確認
Surya Murthy, Mustafa O. Karabag, Ufuk Topcu, (参考訳) 交渉はマルチエージェントシステムにおける対立を解決するのに有用である。 2つの利己的な合理的なエージェントが、有限のカテゴリからアイテムを順次取引する環境で、自律的な交渉について検討する。 各エージェントは、各カテゴリに保持するアイテムの量に依存するユーティリティ機能を持つ。 提供エージェントは、応答エージェントのユーティリティ機能を知ることなく、そのユーティリティを改善するための取引オファーを行い、応答エージェントは、そのユーティリティを改善するオファーを受け入れる。 本稿では,情報共有を伴わずに,事前の受理応答や拒否応答を通じてオファーを生成するオファーエージェントの比較に基づくアルゴリズムを提案する。 アルゴリズムは、有理性仮定を利用して応答エージェントの勾配を推定し、潜在的な勾配の空間を立証する提案を拒絶する。 アルゴリズムが有限個の提案を連続的に拒否した後、応答剤は最適に近い状態にあるか、エージェントの嗜好が密接に一致している。 さらに、提案アルゴリズムに組み込むことができる比較として、自然言語フィードバックを表現することにより、人間との交渉を促進する。 提案したアルゴリズムを整数および分数取引シナリオにおけるランダム検索ベースラインと比較し、より少ないオファーで社会的利益を向上させることを示す。

Negotiation is useful for resolving conflicts in multi-agent systems. We explore autonomous negotiation in a setting where two self-interested rational agents sequentially trade items from a finite set of categories. Each agent has a utility function that depends on the amount of items it possesses in each category. The offering agent makes trade offers to improve its utility without knowing the responding agent's utility function, and the responding agent accepts offers that improve its utility. We present a comparison-based algorithm for the offering agent that generates offers through previous acceptance or rejection responses without extensive information sharing. The algorithm estimates the responding agent's gradient by leveraging the rationality assumption and rejected offers to prune the space of potential gradients. After the algorithm makes a finite number of consecutively rejected offers, the responding agent is at a near-optimal state, or the agents' preferences are closely aligned. Additionally, we facilitate negotiations with humans by representing natural language feedback as comparisons that can be integrated into the proposed algorithm. We compare the proposed algorithm against random search baselines in integer and fractional trading scenarios and show that it improves the societal benefit with fewer offers.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# 道路ネットワーク上でのマルチエージェントフライングサイドキックトラベリングセールスマン問題の最適化

Optimization of Multi-Agent Flying Sidekick Traveling Salesman Problem over Road Networks ( http://arxiv.org/abs/2408.11187v1 )

ライセンス: Link先を確認
Ruixiao Yang, Chuchu Fan, (参考訳) トラックとドローンの混合配送システムは、ラストマイルのロジスティクスに注目が集まっているが、現実の複雑さは、単一のエージェントで完全に接続されたグラフモデルから、実際のロードネットワークで動作するマルチエージェントシステムへの移行を要求する。 道路ネットワーク上でのマルチエージェント飛行サイドキック走行セールスマン問題 (MA-FSTSP) を導入し, トラックの規制やフレキシブルなルートを考慮しつつ, 複数のドローンを積載する単一トラックドローンモデルを複数トラックに拡張した。 このNPハード問題に対する混合整数線形計画モデルと効率的な3相ヒューリスティックアルゴリズムを提案する。 提案手法は,MA-FSTSPを1台のトラックと複数のドローンの制御可能なサブプロブレムに分解する。 そして、最終フェーズでドローンとトラックのルートを同時に最適化するためのヒューリスティックとして使用される、サブプロブレムのドローンのないトラックのルートを計算する。 マンハッタンとボストンの道路網における大規模な数値実験により,提案アルゴリズムの有効性と効率が向上し,解の質と計算時間において,カラム生成および可変近傍探索ベースラインを著しく上回った。 特に、当社のアプローチは5分間の時間制限内で300以上の顧客に拡張されており、大規模な実世界のロジスティクスアプリケーションの可能性を示している。

The mixed truck-drone delivery systems have attracted increasing attention for last-mile logistics, but real-world complexities demand a shift from single-agent, fully connected graph models to multi-agent systems operating on actual road networks. We introduce the multi-agent flying sidekick traveling salesman problem (MA-FSTSP) on road networks, extending the single truck-drone model to multiple trucks, each carrying multiple drones while considering full road networks for truck restrictions and flexible drone routes. We propose a mixed-integer linear programming model and an efficient three-phase heuristic algorithm for this NP-hard problem. Our approach decomposes MA-FSTSP into manageable subproblems of one truck with multiple drones. Then, it computes the routes for trucks without drones in subproblems, which are used in the final phase as heuristics to help optimize drone and truck routes simultaneously. Extensive numerical experiments on Manhattan and Boston road networks demonstrate our algorithm's superior effectiveness and efficiency, significantly outperforming both column generation and variable neighborhood search baselines in solution quality and computation time. Notably, our approach scales to more than 300 customers within a 5-minute time limit, showcasing its potential for large-scale, real-world logistics applications.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# Intentで読む

Reading with Intent ( http://arxiv.org/abs/2408.11189v1 )

ライセンス: Link先を確認
Benjamin Reichman, Kartik Talamadupula, Toshish Jawale, Larry Heck, (参考訳) Retrieval augmented generation (RAG) システムは、ウィキペディア、内部文書、科学論文、オープンインターネットなどの外部情報ソースを統合することで、知識言語モデルがどのようになっているかを強化する。 オープンインターネットを知識源として依存するRAGシステムは、人間が生成するコンテンツの複雑さと競合する必要がある。 人間のコミュニケーションは、単にテキストとして表現された単語よりもずっと深い。 インテント、トナリティ、意味はすべて、伝えられている意味を変えることができる。 近年のRAGシステムの実際の展開は、人間のコミュニケーションのこれらのニュアンスを理解するのに困難を呈している。 これらのシステムにとって重要な課題の1つは、サルカズムの処理である。 これらのRAGシステムのバックボーンを構成するLarge Language Models (LLM) は、サルカズムを検出することができるが、現在、テキストの処理にこれらの検出を常に使用するわけではない。 本稿では,これらの問題に対処するため,Nature Questionのウィキペディア検索コーパスから皮肉文を合成的に生成する。 次に、これらのパスがRAGパイプラインのレトリバーおよび読取部の性能に与える影響を検証した。 本研究では,サルカズムの存在下での応答の解釈と生成能力を高めるために設計されたプロンプトシステムを導入し,システム全体の性能を向上する。 最後に,本手法の有効性を検証するためにアブレーション研究を行い,RAGシステムにおけるサーカシックコンテンツ処理の改善を実証した。

Retrieval augmented generation (RAG) systems augment how knowledge language models are by integrating external information sources such as Wikipedia, internal documents, scientific papers, or the open internet. RAG systems that rely on the open internet as their knowledge source have to contend with the complexities of human-generated content. Human communication extends much deeper than just the words rendered as text. Intent, tonality, and connotation can all change the meaning of what is being conveyed. Recent real-world deployments of RAG systems have shown some difficulty in understanding these nuances of human communication. One significant challenge for these systems lies in processing sarcasm. Though the Large Language Models (LLMs) that make up the backbone of these RAG systems are able to detect sarcasm, they currently do not always use these detections for the subsequent processing of text. To address these issues, in this paper, we synthetically generate sarcastic passages from Natural Question's Wikipedia retrieval corpus. We then test the impact of these passages on the performance of both the retriever and reader portion of the RAG pipeline. We introduce a prompting system designed to enhance the model's ability to interpret and generate responses in the presence of sarcasm, thus improving overall system performance. Finally, we conduct ablation studies to validate the effectiveness of our approach, demonstrating improvements in handling sarcastic content within RAG systems.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# タスク特化目的のための分子データの能動的学習

Active Learning of Molecular Data for Task-Specific Objectives ( http://arxiv.org/abs/2408.11191v1 )

ライセンス: Link先を確認
Kunal Ghosh, Milica Todorović, Aki Vehtari, Patrick Rinke, (参考訳) アクティブラーニング(AL)は、特にデータ効率のよい機械学習アプローチであることを約束している。 しかし、その性能はアプリケーションに依存しており、AL実践者がいつ計算の節約を期待できるかは明らかではない。 ここでは,3つの多様な分子データセットと2つの一般的な科学的タスクについて,体系的なAL性能評価を行う。 ALをガウス過程(GP)で実装し,多体テンソルを分子表現として使用した。 最初のタスクでは、さまざまなデータ取得戦略、バッチサイズ、GPノイズ設定をテストしました。 ALは買収バッチサイズに敏感であり,不確実性低減とクラスタリングを併用して多様性を向上する買収戦略において,最も優れたAL性能を示した。 しかし、最適なGPノイズ設定では、ALはデータポイントのランダム化選択よりも優れていなかった。 逆に、ターゲット検索では、ALはランダムサンプリングを上回り、最大64%のデータセーブを達成した。 我々の分析は、目標分布とデータ収集戦略の観点から、このタスク固有の性能差を洞察する。 その結果、ALの性能は、データセット全体の分布と比較してターゲット分子の相対分布に依存し、オーバーラップが最小限である場合の計算コストは最大であることがわかった。

Active learning (AL) has shown promise for being a particularly data-efficient machine learning approach. Yet, its performance depends on the application and it is not clear when AL practitioners can expect computational savings. Here, we carry out a systematic AL performance assessment for three diverse molecular datasets and two common scientific tasks: compiling compact, informative datasets and targeted molecular searches. We implemented AL with Gaussian processes (GP) and used the many-body tensor as molecular representation. For the first task, we tested different data acquisition strategies, batch sizes and GP noise settings. AL was insensitive to the acquisition batch size and we observed the best AL performance for the acquisition strategy that combines uncertainty reduction with clustering to promote diversity. However, for optimal GP noise settings, AL did not outperform randomized selection of data points. Conversely, for targeted searches, AL outperformed random sampling and achieved data savings up to 64%. Our analysis provides insight into this task-specific performance difference in terms of target distributions and data collection strategies. We established that the performance of AL depends on the relative distribution of the target molecules in comparison to the total dataset distribution, with the largest computational savings achieved when their overlap is minimal.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# 条件拡散サンプリングにおける圧縮誘導

Compress Guidance in Conditional Diffusion Sampling ( http://arxiv.org/abs/2408.11194v1 )

ライセンス: Link先を確認
Anh-Dung Dinh, Daochang Liu, Chang Xu, (参考訳) サンプリングプロセス全体を通してガイダンスを強制することは、しばしばモデル適合の問題により、非生産的であることが証明される。 期待される条件を一般化するのではなく、分類器のパラメータにマッチするサンプルが生成される。 この研究は問題を識別し、定量化し、多くのタイミングでガイダンスを減らしたり除いたりすることでこの問題を軽減できることを示した。 プロセスの初期段階においてガイダンスを密に配布することにより、画像の品質と多様性を著しく改善し、必要なガイダンスの時間経過を40%近く削減する。 このアプローチは、生成タスクにガイダンスを効果的に適用する際の大きな課題に対処する。 その結果、提案手法は圧縮誘導と呼ばれ、画像品質のベースラインモデルを超えながら、かなりの数のガイダンスタイムステップを排除できる。 我々は,ラベル条件付きおよびテキスト・トゥ・イメージ生成タスクのベンチマークによるアプローチの検証を行った。

Enforcing guidance throughout the entire sampling process often proves counterproductive due to the model-fitting issue., where samples are generated to match the classifier's parameters rather than generalizing the expected condition. This work identifies and quantifies the problem, demonstrating that reducing or excluding guidance at numerous timesteps can mitigate this issue. By distributing the guidance densely in the early stages of the process, we observe a significant improvement in image quality and diversity while also reducing the required guidance timesteps by nearly 40%. This approach addresses a major challenge in applying guidance effectively to generative tasks. Consequently, our proposed method, termed Compress Guidance, allows for the exclusion of a substantial number of guidance timesteps while still surpassing baseline models in image quality. We validate our approach through benchmarks on label conditional and text-to-image generative tasks across various datasets and models.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# ブラジル電子投票機に適用可能な電子監査システムの提案

Proposal of an Electronic Auditing System Applied to the Brazilian Electronic Voting Machine ( http://arxiv.org/abs/2408.11195v1 )

ライセンス: Link先を確認
Marcelo Ferreira Guimarães, Carlos Antônio Sell, Renato Parenti Turcato, Carlos Henrique Assuiti, Ricardo Custódio, Ricardo Antônio Pralon Santos, (参考訳) SELA-Auditing Electronic Systemと呼ばれる新しいシステムはブラジル電子投票機械に適用するために開発された。 SELAはオープンハードウェアとソフトウェアを使用するように設計されており、社会で広く知られるようになった。 監査プロセスのセキュリティは、フィンガープリントアルゴリズム、ハッシュ関数の適用によって保証される。 このシステムは堅牢で、Electronic Voting Machineへの最小限の変更を必要とする。 本稿では、SELAについて述べ、選挙過程におけるSELAの利用について分析する。 また,SELAとサーマルプリンタを用いた二次投票記録システムの比較を行った。 著者らは、2002年のブラジル大統領選挙に向けてSELAのパイロット実装を推奨している。

A new system, called SELA -- Auditing Electronic System, has been developed to be applied to the Brazilian Electronic Voting Machine. The SELA was designed to use open hardware and software, making it widely known by society. The security of the auditing process is guaranteed by the application of a Fingerprint Algorithm, a Hash Function. This system is robust and requires minimal modifications to the Electronic Voting Machine. In this paper, SELA is described, and its use during the election process is analyzed. A comparison between SELA and the use of thermal printers as a secondary voting record system is also presented. The authors recommend a pilot implementation of SELA for the 2002 Brazilian Elections.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# 自律走行車におけるセンサ誤認識に対するロバストな長距離知覚

Robust Long-Range Perception Against Sensor Misalignment in Autonomous Vehicles ( http://arxiv.org/abs/2408.11196v1 )

ライセンス: Link先を確認
Zi-Xiang Xia, Sudeep Fadadu, Yi Shi, Louis Foucard, (参考訳) センサフュージョンのための機械学習アルゴリズムの進歩により、他の道路利用者の検出と予測が大幅に改善され、安全性が向上した。 しかし、センサーの配置が小さくても、特に長距離での出力が著しく低下する可能性がある。 本稿では,センサの相違を検知するだけでなく,長距離知覚にも頑健な,シンプルで汎用的で効率的なマルチタスク学習手法を実証する。 また,不整合の量とともに,不整合の度合いを予測し,時間とともに不整合の予測値のフィルタリングや拡散に役立てることができる。 さらに,入力センサデータの自己補正には,予測誤認識パラメータが利用可能であり,センサ誤認識時の知覚性能がさらに向上することを示す。

Advances in machine learning algorithms for sensor fusion have significantly improved the detection and prediction of other road users, thereby enhancing safety. However, even a small angular displacement in the sensor's placement can cause significant degradation in output, especially at long range. In this paper, we demonstrate a simple yet generic and efficient multi-task learning approach that not only detects misalignment between different sensor modalities but is also robust against them for long-range perception. Along with the amount of misalignment, our method also predicts calibrated uncertainty, which can be useful for filtering and fusing predicted misalignment values over time. In addition, we show that the predicted misalignment parameters can be used for self-correcting input sensor data, further improving the perception performance under sensor misalignment.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# EPiC:コード生成のためのLCMの費用対効果探索型プロンプトエンジニアリング

EPiC: Cost-effective Search-based Prompt Engineering of LLMs for Code Generation ( http://arxiv.org/abs/2408.11198v1 )

ライセンス: Link先を確認
Hamed Taherkhani, Melika Sepindband, Hung Viet Pham, Song Wang, Hadi Hemmati, (参考訳) 大規模言語モデル(LLM)は、特にコード生成において、様々なソフトウェア開発タスクで利用が増加している。 最も先進的な手法は、コード実行からのフィードバックをプロンプトに組み込むことで、正しいコードを生成するのに役立つ。 効果はあるものの、LSMとの多くの相互作用と広範囲なトークンの使用により、これらの手法はコストと時間を要する可能性がある。 この問題に対処するため、我々は、軽量な進化的アルゴリズムを活用して、LLMとの最小の相互作用で、高品質なコードを生成するため、元のプロンプトを進化させる、Evolutionary Prompt Engineering for Code (EPiC) という代替手法を提案する。 最先端(SOTA)LLMベースのコード生成モデルに対する評価は,コスト効率の観点から,EPiCがすべてのベースラインを上回っていることを示している。

Large Language Models (LLMs) have seen increasing use in various software development tasks, especially in code generation. The most advanced recent methods attempt to incorporate feedback from code execution into prompts to help guide LLMs in generating correct code, in an iterative process. While effective, these methods could be costly and time-consuming due to numerous interactions with the LLM and the extensive token usage. To address this issue, we propose an alternative approach named Evolutionary Prompt Engineering for Code (EPiC), which leverages a lightweight evolutionary algorithm to evolve the original prompts toward better ones that produce high-quality code, with minimal interactions with LLM. Our evaluation against state-of-the-art (SOTA) LLM-based code generation models shows that EPiC outperforms all the baselines in terms of cost-effectiveness.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# UKAN: Unbound Kolmogorov-Arnold Network with Accelerated Library

UKAN: Unbound Kolmogorov-Arnold Network Accompanied with Accelerated Library ( http://arxiv.org/abs/2408.11200v1 )

ライセンス: Link先を確認
Alireza Moradzadeh, Lukasz Wawrzyniak, Miles Macklin, Saee G. Paliwal, (参考訳) 本研究では,Kolmogorov-Arnold Networks(KAN)の基盤となるコンポーネントに対するGPU高速化ライブラリと,kansの有界グリッドを除去するアルゴリズムを提案する。 GPU加速ライブラリは、既存のコードと比較して$\mathcal{O}$(grid size)の係数でBasis Spline(B-spline)評価の計算複雑性を低減し、大規模学習のためのバッチ計算を可能にする。 従来のカンの限界を克服するために,有界格子と定数のB-スプライン係数を不要とするアンバウンドカン(UKAN)を導入する。 そこで我々は,KAパラメータ(B-スプライン係数)を係数生成器(CG)モデルに置き換える。 CGモデルへの入力は、負の無限大から正の無限大まで広がる無限対称格子の概念に基づいて設計される。 B-スプライングリッドインデックスの逐次収集であるグリッド群の位置符号化をCGモデルに入力し、B-スプライン関数の効率的な実装(行列表現)によって係数を消費して出力を生成する。 予測可能な回帰,分類,生成タスクについて,いくつかの実験を行った。 特に、UKANは評価のためにデータ正規化や有界領域を必要としない。 さらに,ベンチマークの結果から,既存のコードと比較して,ライブラリのメモリ効率と計算効率が優れていることが示された。

In this work, we present a GPU-accelerated library for the underlying components of Kolmogorov-Arnold Networks (KANs), along with an algorithm to eliminate bounded grids in KANs. The GPU-accelerated library reduces the computational complexity of Basis Spline (B-spline) evaluation by a factor of $\mathcal{O}$(grid size) compared to existing codes, enabling batch computation for large-scale learning. To overcome the limitations of traditional KANs, we introduce Unbounded KANs (UKANs), which eliminate the need for a bounded grid and a fixed number of B-spline coefficients. To do so, we replace the KAN parameters (B-spline coefficients) with a coefficient generator (CG) model. The inputs to the CG model are designed based on the idea of an infinite symmetric grid extending from negative infinity to positive infinity. The positional encoding of grid group, a sequential collection of B-spline grid indexes, is fed into the CG model, and coefficients are consumed by the efficient implementation (matrix representations) of B-spline functions to generate outputs. We perform several experiments on regression, classification, and generative tasks, which are promising. In particular, UKAN does not require data normalization or a bounded domain for evaluation. Additionally, our benchmarking results indicate the superior memory and computational efficiency of our library compared to existing codes.
翻訳日:2024-08-22 21:06:50 公開日:2024-08-20
# ランダム1次元量子回路の特別なスペクトルギャップ

Exact spectral gaps of random one-dimensional quantum circuits ( http://arxiv.org/abs/2408.11201v1 )

ライセンス: Link先を確認
Andrew E. Deneris, Pablo Bermejo, Paolo Braccia, Lukasz Cincio, M. Cerezo, (参考訳) 局所ランダム量子回路のスペクトルギャップは、回路のユニタリーのモーメントがハール確率分布のモーメントとどの程度近いかを決定する基本的な性質である。 スペクトルギャップを研究する際には、統計力学や量子情報に基づく不等式によってこれらの量に結び付けるのが一般的である。 近傍のゲートが(開かつ閉境界条件で)四重項の集合に作用する1次元ユニタリ回路の第2モーメントに着目して、関連するスペクトルギャップを正確に計算できることを示す。 実際、それらの機能形式にアクセスできることは、閉境界条件のスペクトルギャップがちょうど開境界のギャップの正方形であるという事実や、設計収束を近似する既知境界の改善など、いくつかの重要な結果を証明できる。 最後に、最大70量子ビットのシステムのスペクトルギャップを数値計算し、それらをランダム直交回路とシンプレクティック回路のギャップと比較することにより、理論的結果を検証する。

The spectral gap of local random quantum circuits is a fundamental property that determines how close the moments of the circuit's unitaries match those of a Haar random distribution. When studying spectral gaps, it is common to bound these quantities using tools from statistical mechanics or via quantum information-based inequalities. By focusing on the second moment of one-dimensional unitary circuits where nearest neighboring gates act on sets of qudits (with open and closed boundary conditions), we show that one can exactly compute the associated spectral gaps. Indeed, having access to their functional form allows us to prove several important results, such as the fact that the spectral gap for closed boundary condition is exactly the square of the gap for open boundaries, as well as improve on previously known bounds for approximate design convergence. Finally, we verify our theoretical results by numerically computing the spectral gap for systems of up to 70 qubits, as well as comparing them to gaps of random orthogonal and symplectic circuits.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# コンテキスト・アベレーティブ・バンドにおける効果的なオフ・ポリティ・アセスメントと学習

Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits ( http://arxiv.org/abs/2408.11202v1 )

ライセンス: Link先を確認
Tatsuhiro Shimizu, Koichi Tanaka, Ren Kishimoto, Haruka Kiyohara, Masahiro Nomura, Yuta Saito, (参考訳) 政策が行動空間のサブセットを選択する場合の文脈的組合せ帯域(CCB)におけるオフ・政治評価と学習(OPE/L)について検討する。 例えば、インテリアデザイン販売のために利用可能なアイテム(ベッド、引き出し、椅子など)から家具(ベッドと引き出し)のセットを選択することもある。 この設定はレコメンダシステムや医療といった分野に広く浸透しているが、CCBのOPE/Lは関連文献では未解明のままである。 回帰や重要サンプリングのような典型的なOPE/L法はCCB問題に適用できるが、これらの手法は、利用可能なサブセット数の指数的増加によって悪化する高いバイアスやばらつきのために重大な課題に直面している。 これらの課題に対処するために、各サブセットをバイナリインジケータに分解できるファクタードアクション空間の概念を導入する。 この定式化により、主作用から派生した「主効果」と補足作用から派生した「残留効果」とを区別し、より効果的なOPEを促進することができる。 特に, OPCBと呼ばれる推定器は, 低分散による残留効果に対処するため, 偏りなく主効果を推定するために, 重要サンプリングベースアプローチを利用する。 OPCBは, 従来の重要サンプリング法と比較して, 一定の条件下での回帰法に対するバイアス低減を, 理論的解析で示すように, かなりの分散化を実現している。 実験では、OPCBはOPEとOPLの両方で典型的な方法よりも優れた性能を示している。

We explore off-policy evaluation and learning (OPE/L) in contextual combinatorial bandits (CCB), where a policy selects a subset in the action space. For example, it might choose a set of furniture pieces (a bed and a drawer) from available items (bed, drawer, chair, etc.) for interior design sales. This setting is widespread in fields such as recommender systems and healthcare, yet OPE/L of CCB remains unexplored in the relevant literature. Typical OPE/L methods such as regression and importance sampling can be applied to the CCB problem, however, they face significant challenges due to high bias or variance, exacerbated by the exponential growth in the number of available subsets. To address these challenges, we introduce a concept of factored action space, which allows us to decompose each subset into binary indicators. This formulation allows us to distinguish between the ''main effect'' derived from the main actions, and the ''residual effect'', originating from the supplemental actions, facilitating more effective OPE. Specifically, our estimator, called OPCB, leverages an importance sampling-based approach to unbiasedly estimate the main effect, while employing regression-based approach to deal with the residual effect with low variance. OPCB achieves substantial variance reduction compared to conventional importance sampling methods and bias reduction relative to regression methods under certain conditions, as illustrated in our theoretical analysis. Experiments demonstrate OPCB's superior performance over typical methods in both OPE and OPL.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# 動的フィンガープリントによる量子クラウドプラットフォーム上のフラデュレントサービスの検出

Detecting Fraudulent Services on Quantum Cloud Platforms via Dynamic Fingerprinting ( http://arxiv.org/abs/2408.11203v1 )

ライセンス: Link先を確認
Jindi Wu, Tianjie Hu, Qun Li, (参考訳) Noisy Intermediate-Scale Quantum (NISQ) デバイスは、クラウドプラットフォームを介してアクセス可能であるが、可用性の制限とサブ最適品質のために課題に直面している。 これらの課題は、不正なサービスを提供するクラウドプロバイダのリスクを高める。 これは、ユーザーが自分の投資を保護し、計算の整合性を確保するために、そのような詐欺を検知する必要性を強調している。 本研究では,量子クラウドプラットフォーム上での不正なサービス提供を検出するための動的フィンガープリント手法を提案する。 ダイナミックフィンガープリントは、量子デバイスのユニークなエラー特性を捉えるために、 textit{single} 探索回路を用いて構築されている。 ユーザがサービスを検査すると、サーベイ回路の実行結果は、サービスを提供する量子デバイスのデバイス側指紋として機能する。 そして、ユーザは、正しいデバイスが使用されていると仮定して、期待された実行結果を推定して、ユーザ側の指紋を生成する。 本稿では,ユーザ側の指紋を線形複雑に構築するアルゴリズムを提案する。 デバイス側とユーザ側の指紋を比較することで、ユーザは不正なサービスを効果的に検出できる。 様々な機能を持つ7つのデバイスを含む,IBM Quantumプラットフォーム上での実験により,本手法の有効性が確認された。

Noisy Intermediate-Scale Quantum (NISQ) devices, while accessible via cloud platforms, face challenges due to limited availability and suboptimal quality. These challenges raise the risk of cloud providers offering fraudulent services. This emphasizes the need for users to detect such fraud to protect their investments and ensure computational integrity. This study introduces a novel dynamic fingerprinting method for detecting fraudulent service provision on quantum cloud platforms, specifically targeting machine substitution and profile fabrication attacks. The dynamic fingerprint is constructed using a \textit{single} probing circuit to capture the unique error characteristics of quantum devices, making this approach practical because of its trivial computational costs. When the user examines the service, the execution results of the probing circuit act as the device-side fingerprint of the quantum device providing the service. The user then generates the user-side fingerprint by estimating the expected execution result, assuming the correct device is in use. We propose an algorithm for users to construct the user-side fingerprint with linear complexity. By comparing the device-side and user-side fingerprints, users can effectively detect fraudulent services. Our experiments on the IBM Quantum platform, involving seven devices with varying capabilities, confirm the method's effectiveness.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# DSP-MLIR:デジタル信号処理のためのMLIRダイアレクタ

DSP-MLIR: A MLIR Dialect for Digital Signal Processing ( http://arxiv.org/abs/2408.11205v1 )

ライセンス: Link先を確認
Abhinav Kumar, Atharva Khedkar, Aviral Shrivastava, (参考訳) 従来のデジタル信号処理(DSP)コンパイラは低レベル(Cレベル/アセンブリレベル)で動作するため、高レベル(ドメインレベル)で発生する最適化の機会の多くを失う。 新興のマルチレベルコンパイラインフラストラクチャMLIR(Multi-level Intermediate Representation )は、より高いレベルで最適化を指定することができる。 本稿では,MLIR フレームワークを用いて DSP Dialect を導入し,方言レベル (ハイレベル) でドメイン固有最適化を行い,サンプル DSP アプリケーションにおけるこれらの最適化の有用性を示す。 特に, DSP 用コンパイラと DSL (Domain Specific Language) を開発し,アプリの開発を容易にする。 IRがC/アフィンレベルであった場合,これらのサンプルアプリの実行時間を最大10倍に向上することを示す。

Traditional Digital Signal Processing ( DSP ) compilers work at low level ( C-level / assembly level ) and hence lose much of the optimization opportunities present at high-level ( domain-level ). The emerging multi-level compiler infrastructure MLIR ( Multi-level Intermediate Representation ) allows to specify optimizations at higher level. In this paper, we utilize MLIR framework to introduce a DSP Dialect and perform domain-specific optimizations at dialect -level ( high-level ) and show the usefulness of these optimizations on sample DSP apps. In particular, we develop a compiler for DSP and a DSL (Domain Specific Language) to ease the development of apps. We show the performance improvement in execution time for these sample apps by upto 10x which would have been difficult if the IR were at C/ affine level.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# 量子逆視覚変換器(Q-ICVT):AV用3次元物体検出の新たなフロンティア

Quantum Inverse Contextual Vision Transformers (Q-ICVT): A New Frontier in 3D Object Detection for AVs ( http://arxiv.org/abs/2408.11207v1 )

ライセンス: Link先を確認
Sanjay Bhargav Dharavath, Tanmoy Dam, Supriyo Chakraborty, Prithwiraj Roy, Aniruddha Maiti, (参考訳) 自律走行車(AV)の分野は、主にLiDARとカメラデータのマルチモーダル統合を活用して、単一のモダリティを使用するよりも優れたパフォーマンスを実現する。 しかし、この融合プロセスは、高解像度カメラとLiDARのスパースデータとの相違により、遠方の物体を検出するという課題に直面している。 この問題を解決するために,Quantum Inverse Contextual Vision Transformers (Q-ICVT)と呼ばれる2段階融合プロセスを開発した。 このアプローチは、量子概念における断熱計算を利用して、Global Adiabatic Transformer (GAT)として知られる新しい可逆的な視覚変換器を作成する。 GATは、グローバルな形式でのクロスモーダルな統合のために、密集したイメージのセマンティックな特徴と疎結合なLiDAR機能を集約する。 さらに、Sparse Expert of Local Fusion (SELF)モジュールは、疎LiDAR 3D提案をマッピングし、ゲーティングポイントフュージョンアプローチを用いて、原点雲の位置情報を高密度カメラ特徴空間にエンコードする。 実験の結果,Q-ICVTはWaymoデータセット上のL2障害に対して82.54mAPHを実現し,現状の核融合法よりも1.88%改善した。 また,Q-ICVTの影響を明らかにするためのアブレーション研究において,GATおよびSELFの分析を行った。 私たちのコードはhttps://github.com/sanjay-810/Qicvt Q-ICVTで利用可能です。

The field of autonomous vehicles (AVs) predominantly leverages multi-modal integration of LiDAR and camera data to achieve better performance compared to using a single modality. However, the fusion process encounters challenges in detecting distant objects due to the disparity between the high resolution of cameras and the sparse data from LiDAR. Insufficient integration of global perspectives with local-level details results in sub-optimal fusion performance.To address this issue, we have developed an innovative two-stage fusion process called Quantum Inverse Contextual Vision Transformers (Q-ICVT). This approach leverages adiabatic computing in quantum concepts to create a novel reversible vision transformer known as the Global Adiabatic Transformer (GAT). GAT aggregates sparse LiDAR features with semantic features in dense images for cross-modal integration in a global form. Additionally, the Sparse Expert of Local Fusion (SELF) module maps the sparse LiDAR 3D proposals and encodes position information of the raw point cloud onto the dense camera feature space using a gating point fusion approach. Our experiments show that Q-ICVT achieves an mAPH of 82.54 for L2 difficulties on the Waymo dataset, improving by 1.88% over current state-of-the-art fusion methods. We also analyze GAT and SELF in ablation studies to highlight the impact of Q-ICVT. Our code is available at https://github.com/sanjay-810/Qicvt Q-ICVT
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# PooDLe:自然主義的なビデオから身近で密集した自己教師型学習

PooDLe: Pooled and dense self-supervised learning from naturalistic videos ( http://arxiv.org/abs/2408.11208v1 )

ライセンス: Link先を確認
Alex N. Wang, Christopher Hoang, Yuwen Xiong, Yann LeCun, Mengye Ren, (参考訳) 自己教師付き学習は、単一対象の象徴的なイメージから学習において大きな進歩をもたらした。 しかし、多くの独立したオブジェクトと密集したシーン、不均衡なクラス分布、さまざまなオブジェクトサイズを含む、最小限のキュレートされた自然主義的なビデオデータの使用については、まだ未解決の疑問がある。 本稿では、プール表現における不変性に基づくSSL目的と、光流のワープに等分散を強制する高密度SSL目的とを組み合わせた新しいアプローチを提案する。 以上の結果から,高解像度で自然主義的な映像から画像表現を学習するためには,複数の特徴尺度に適用した統一的な目的が不可欠であることが示唆された。 我々はBDD100K駆動ビデオデータセットとウォーキングツアーの1対1ビデオデータセットに対するアプローチを検証し、密集した目的から空間的理解を捉え、プール化された表現目的を通して意味的理解を捉える能力を実証した。

Self-supervised learning has driven significant progress in learning from single-subject, iconic images. However, there are still unanswered questions about the use of minimally-curated, naturalistic video data, which contain dense scenes with many independent objects, imbalanced class distributions, and varying object sizes. In this paper, we propose a novel approach that combines an invariance-based SSL objective on pooled representations with a dense SSL objective that enforces equivariance to optical flow warping. Our findings indicate that a unified objective applied at multiple feature scales is essential for learning effective image representations from high-resolution, naturalistic videos. We validate our approach on the BDD100K driving video dataset and the Walking Tours first-person video dataset, demonstrating its ability to capture spatial understanding from a dense objective and semantic understanding via a pooled representation objective.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# 認知駆動開発を通じてFlutterで学習する初心者開発者を支援する

Assisting Novice Developers Learning in Flutter Through Cognitive-Driven Development ( http://arxiv.org/abs/2408.11209v1 )

ライセンス: Link先を確認
Ronivaldo Ferreira, Victor H. S. Pinto, Cleidson R. B. de Souza, Gustavo Pinto, (参考訳) 認知駆動開発(CDD、Cognitive-Driven Development)は、開発者が認知的限界内でコードの設計に集中するのを支援するコーディング設計技術である。 この制限はコードの可読性と保守性を高める傾向がある。 初期のCDDは、主にJavaに焦点を当てていたが、その適用性は特定のプログラミング言語を超えて拡張された。 本研究では、Flutterプログラミングと、FlutterとCDDの両方に馴染みのない初心者開発者を対象とした2つの新しい次元におけるCDDの使用について検討した。 私たちのゴールは、CDDが初心者開発者が新しいプログラミング技術を学ぶのにどの程度役立つかを理解することです。 対象者は24名であった。 CDDトレーニングを受けた後、残りの6人の学生がCDDプラクティスによってガイドされたソフトウェア管理アプリケーションの開発を任された。 以上の結果から,CDDはCDD測定値であるICP(Intrinsic Complexity Points)を用いて,参加者のコードの複雑さを低く抑えるのに有効であることが示唆された。 特に、より厳格なICP制限は、コードサイズを20倍に削減し、コード品質と可読性を改善した。 この報告は、コードと認知の複雑さを減らすデザインプラクティスを効果的に教える方法を模索する教授やインストラクターにとって価値があるかもしれない。

Cognitive-Driven Development (CDD) is a coding design technique that helps developers focus on designing code within cognitive limits. The imposed limit tends to enhance code readability and maintainability. While early works on CDD focused mostly on Java, its applicability extends beyond specific programming languages. In this study, we explored the use of CDD in two new dimensions: focusing on Flutter programming and targeting novice developers unfamiliar with both Flutter and CDD. Our goal was to understand to what extent CDD helps novice developers learn a new programming technology. We conducted an in-person Flutter training camp with 24 participants. After receiving CDD training, six remaining students were tasked with developing a software management application guided by CDD practices. Our findings indicate that CDD helped participants keep code complexity low, measured using Intrinsic Complexity Points (ICP), a CDD metric. Notably, stricter ICP limits led to a 20\% reduction in code size, improving code quality and readability. This report could be valuable for professors and instructors seeking effective methodologies for teaching design practices that reduce code and cognitive complexity.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# 3次元CT画像分割におけるSAM2の性能評価

A Short Review and Evaluation of SAM2's Performance in 3D CT Image Segmentation ( http://arxiv.org/abs/2408.11210v1 )

ライセンス: Link先を確認
Yufan He, Pengfei Guo, Yucheng Tang, Andriy Myronenko, Vishwesh Nath, Ziyue Xu, Dong Yang, Can Zhao, Daguang Xu, Wenqi Li, (参考訳) Segment Anything 2 (SAM2) のリリース以来、医療画像コミュニティは3D画像セグメンテーションのパフォーマンスを積極的に評価してきた。 しかし、異なる研究では様々な評価パイプラインを採用しており、SAM2の能力と潜在的な応用の明確な理解を曖昧にする相反する結果をもたらしている。 間もなく既存のベンチマークをレビューし、SAM2論文では、最大8回のイテレーションでユーザクリックを反復的にシミュレートするゼロショット評価パイプラインについて、明確に概説していることを指摘している。 我々は,このインタラクティブなアノテーションシミュレーションを3次元CTデータセット上で再現し,結果とコード提供を行った。 以上より, SAM2をゼロショット撮影で直接3D画像に応用することは, 十分ではないことが明らかとなった。 前景のオブジェクトがなくなると偽陽性が発生する傾向があり、より多くのスライスを注釈付けしても、この傾向を完全にオフセットできない。 腎臓や大動脈のような小さな単連結体ではSAM2は適度に機能するが、ほとんどの臓器では最先端の3Dアノテーション法よりもはるかに遅れている。 SAM2を正しく使用するためには、3D医療画像コミュニティのさらなる研究と革新が必要である。

Since the release of Segment Anything 2 (SAM2), the medical imaging community has been actively evaluating its performance for 3D medical image segmentation. However, different studies have employed varying evaluation pipelines, resulting in conflicting outcomes that obscure a clear understanding of SAM2's capabilities and potential applications. We shortly review existing benchmarks and point out that the SAM2 paper clearly outlines a zero-shot evaluation pipeline, which simulates user clicks iteratively for up to eight iterations. We reproduced this interactive annotation simulation on 3D CT datasets and provided the results and code~\url{https://github.com/Project-MONAI/VISTA}. Our findings reveal that directly applying SAM2 on 3D medical imaging in a zero-shot manner is far from satisfactory. It is prone to generating false positives when foreground objects disappear, and annotating more slices cannot fully offset this tendency. For smaller single-connected objects like kidney and aorta, SAM2 performs reasonably well but for most organs it is still far behind state-of-the-art 3D annotation methods. More research and innovation are needed for 3D medical imaging community to use SAM2 correctly.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# ニューラルネットワークを用いた$\ell_\infty$ノルムの近位演算子の近似

Approximation of the Proximal Operator of the $\ell_\infty$ Norm Using a Neural Network ( http://arxiv.org/abs/2408.11211v1 )

ライセンス: Link先を確認
Kathryn Linehan, Radu Balan, (参考訳) $\ell_\infty$ norm, $\textbf{prox}_{\alpha ||\cdot||_\infty}(\mathbf{x})$ の近似作用素を計算するには、一般に入力データの種類、あるいは少なくともクイックソートに類似した部分的ソートが必要となる。 ソートを避けるために、ニューラルネットワークを用いて$O(m)$ $\textbf{prox}_{\alpha ||\cdot||_\infty}(\mathbf{x})$を近似する。 ネットワークの新たな側面は、入力データのモーメントを利用する特徴選択プロセスにより、様々な長さのベクトルを受け入れることができることである。 本稿では, 近似の精度, 特徴量, 計算効率について述べる。 特徴選択を使用しない「バニラニューラルネットワーク」よりも優れていることを示す。 また、対応する理論を持つアルゴリズムで$\textbf{prox}_{\alpha ||\cdot||_\infty}(\mathbf{x})$を正確に計算し、モロー分解に関連付け、その計算効率を近似のそれと比較する。

Computing the proximal operator of the $\ell_\infty$ norm, $\textbf{prox}_{\alpha ||\cdot||_\infty}(\mathbf{x})$, generally requires a sort of the input data, or at least a partial sort similar to quicksort. In order to avoid using a sort, we present an $O(m)$ approximation of $\textbf{prox}_{\alpha ||\cdot||_\infty}(\mathbf{x})$ using a neural network. A novel aspect of the network is that it is able to accept vectors of varying lengths due to a feature selection process that uses moments of the input data. We present results on the accuracy of the approximation, feature importance, and computational efficiency of the approach. We show that the network outperforms a "vanilla neural network" that does not use feature selection. We also present an algorithm with corresponding theory to calculate $\textbf{prox}_{\alpha ||\cdot||_\infty}(\mathbf{x})$ exactly, relate it to the Moreau decomposition, and compare its computational efficiency to that of the approximation.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# 量子ケルビン・ヘルムホルツ不安定性によるスカイミオンスピンテクスチャーの超越

Beyond skyrmion spin texture from quantum Kelvin-Helmholtz instability ( http://arxiv.org/abs/2408.11217v1 )

ライセンス: Link先を確認
SeungJung Huh, Wooyoung Yun, Gabin Yun, Samgyu Hwang, Kiryang Kwon, Junhyeok Hur, Seungho Lee, Hiromitsu Takeuchi, Se Kwon Kim, Jae-yoon Choi, (参考訳) トポロジーは様々な科学分野に深く影響を与え、物質相を分類し、ソリトン、渦、スカイミオンのような非自明な励起を予測する強力な枠組みを提供する。 これらの位相的欠陥は典型的には、その順序パラメータ場の巻数を表すトポロジカルチャージと呼ばれる整数数によって特徴づけられる。 しかし、トポロジカルな欠陥の分類と予測は、トポロジカルな電荷を計算するために積分領域に特異点が含まれていると困難になる。 このようなエキゾチックな非線形励起は、超流動の$^3$He-A相とスピノルのボース=アインシュタイン凝縮で提案されているが、これらの構造の実験的観察と安定性の研究は、長い間解明されてきた。 ここでは、強磁性超流体中のトポロジーの枠組みを超えた特異なスカイミオンの観測を報告する。 エキゾチックなスカイミオンは、偏心スピン特異点に関連する異常対称性の破れを経験し、従来のスカイミオンやメロンとは異なる基本的な電荷の半分を担っている。 量子ケルビン・ヘルムホルツ不安定性の普遍的な状態の実現に成功し、磁区壁からの放射とスピン特異点を持つ整数スカイミオンの自発分裂によって生じる偏心分数スカイミオンを同定した。 特異なスカイミオンは安定であり、2~sの保持時間後に観測できる。 我々の結果は、古典的および量子的ケルビン・ヘルムホルツ不安定性の普遍性を確認し、トポロジカル量子系のスカイミオンを超えた非自明なテクスチャの複雑な非線形ダイナミクスに対する理解を広げる。

Topology profoundly influences diverse fields of science, providing a powerful framework for classifying phases of matter and predicting nontrivial excitations, such as solitons, vortices, and skyrmions. These topological defects are typically characterized by integer numbers, called topological charges, representing the winding number in their order parameter field. The classification and prediction of topological defects, however, become challenging when singularities are included within the integration domain for calculating the topological charge. While such exotic nonlinear excitations have been proposed in the superfluid $^3$He-A phase and spinor Bose-Einstein condensate of atomic gases, experimental observation of these structures and studies of their stability have long been elusive. Here we report the observation of a singular skyrmion that goes beyond the framework of topology in a ferromagnetic superfluid. The exotic skyrmions are sustained by undergoing anomalous symmetry breaking associated with the eccentric spin singularity and carry half of the elementary charge, distinctive from conventional skyrmions or merons. By successfully realizing the universal regime of the quantum Kelvin-Helmholtz instability, we identified the eccentric fractional skyrmions, produced by emission from a magnetic domain wall and a spontaneous splitting of an integer skyrmion with spin singularities. The singular skyrmions are stable and can be observed after 2~s of hold time. Our results confirm the universality between classical and quantum Kelvin-Helmholtz instabilities and broaden our understanding on complex nonlinear dynamics of nontrivial texture beyond skyrmion in topological quantum systems.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# 対人訓練における最小最適化問題の再検討

Revisiting Min-Max Optimization Problem in Adversarial Training ( http://arxiv.org/abs/2408.11218v1 )

ライセンス: Link先を確認
Sina Hajer Ahmadi, Hassan Bahrami, (参考訳) 現実世界におけるコンピュータビジョンアプリケーションの台頭は、ディープニューラルネットワークのセキュリティを危険にさらす。 近年の研究では、畳み込みニューラルネットワークは、入力画像が自然な画像と似ているが、モデルによって正しく分類されていない、逆の例に影響を受けやすいことが示されている。 この問題に対する反論として, サードル点最適化問題を \cite{madry2017towards} で修正することにより, 敵攻撃に対する堅牢なディープニューラルネットワークを構築する手法を提案する。 提案手法は,複数の敵に対して高い耐性と具体的なセキュリティ保証を提供する。 本論文の目的は,完全堅牢な深層学習モデルに繋がる新たな深層学習モデルの足場として機能することである。

The rise of computer vision applications in the real world puts the security of the deep neural networks at risk. Recent works demonstrate that convolutional neural networks are susceptible to adversarial examples - where the input images look similar to the natural images but are classified incorrectly by the model. To provide a rebuttal to this problem, we propose a new method to build robust deep neural networks against adversarial attacks by reformulating the saddle point optimization problem in \cite{madry2017towards}. Our proposed method offers significant resistance and a concrete security guarantee against multiple adversaries. The goal of this paper is to act as a stepping stone for a new variation of deep learning models which would lead towards fully robust deep learning models.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# CoDi:接地質問回答のための会話蒸留

CoDi: Conversational Distillation for Grounded Question Answering ( http://arxiv.org/abs/2408.11219v1 )

ライセンス: Link先を確認
Patrick Huber, Arash Einolghozati, Rylan Conway, Kanika Narang, Matt Smith, Waqar Nayyar, Adithya Sagar, Ahmed Aly, Akshat Shrivastava, (参考訳) 会話スキルを約10億のパラメータでSLM(Small Language Models)に拡張することは、重大な課題である。 第一に、SLMはモデルパラメータにおいて、より大きなモデルと比較して広範な知識を学ぶ能力に制限がある。 第二に、高品質な会話データセットは少ない、小さい、ドメイン固有のものが多い。 これらの課題に対処するため、我々はCoDi(Codyと発音する会話蒸留のショート)と呼ばれる新しいデータ蒸留フレームワークを導入し、大規模でアシスタントスタイルのデータセットを多種多様な方法で合成できるようにしました。 具体的には、我々のフレームワークは、その中核にタスク非依存であるが、質問応答のための会話的根拠に基づく推論のタスクにおいて、CoDiの可能性を探求し、評価する。 これはスペシャリストSLMの典型的なオンデバイスシナリオであり、限られた重量で世界知識を「記憶」する必要がなく、オープンドメインのモデル応答を可能にする。 評価の結果,CoDi合成データを用いてトレーニングしたSLMは,標準的な測定値において,人間の注釈付きデータに基づいてトレーニングしたモデルに匹敵する性能を示した。 さらに、我々のフレームワークを使用してWebデータからより大きなデータセットを生成する場合、ゼロショットの会話に基づく推論タスクにおいて、我々のモデルは命令調整されたより大きなモデルを上回る。

Distilling conversational skills into Small Language Models (SLMs) with approximately 1 billion parameters presents significant challenges. Firstly, SLMs have limited capacity in their model parameters to learn extensive knowledge compared to larger models. Secondly, high-quality conversational datasets are often scarce, small, and domain-specific. Addressing these challenges, we introduce a novel data distillation framework named CoDi (short for Conversational Distillation, pronounced "Cody"), allowing us to synthesize large-scale, assistant-style datasets in a steerable and diverse manner. Specifically, while our framework is task agnostic at its core, we explore and evaluate the potential of CoDi on the task of conversational grounded reasoning for question answering. This is a typical on-device scenario for specialist SLMs, allowing for open-domain model responses, without requiring the model to "memorize" world knowledge in its limited weights. Our evaluations show that SLMs trained with CoDi-synthesized data achieve performance comparable to models trained on human-annotated data in standard metrics. Additionally, when using our framework to generate larger datasets from web data, our models surpass larger, instruction-tuned models in zero-shot conversational grounded reasoning tasks.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# 屋外ストリートシーンにおける物体検出のためのオープン語彙モデルの可能性について

On the Potential of Open-Vocabulary Models for Object Detection in Unusual Street Scenes ( http://arxiv.org/abs/2408.11221v1 )

ライセンス: Link先を確認
Sadia Ilyas, Ido Freeman, Matthias Rottmann, (参考訳) アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、トレーニングデータとは異なるデータ分布に由来するオブジェクトを検出することに焦点を当てた重要なタスクである。 本研究では,現在最先端のオープンボキャブラリオブジェクト検出器が,OODや稀なシナリオと見なされる街路シーンにおける異常な物体をどの程度検出できるかを検討する。 具体的には、SegmentMeIfYouCanからRoadAnomaly21とRoadObstacle21を拡張したOoDISベンチマークと、最近オブジェクトレベルのアノテーションに拡張されたLostAndFoundのパフォーマンスを評価した。 本研究の目的は、現実世界、特にオープンワールドのシナリオにおいて、現代の物体検出器の欠点を明らかにすることである。 実験の結果,OODオブジェクト検出にはオープン語彙モデルが期待できることがわかった。 現実のアプリケーションに確実にデプロイする前には、実質的な改善が必要である。 3つの異なるデータセット上で、最先端のオープン語彙オブジェクト検出モデル4つをベンチマークする。 注目に値することに、DINOはRoadObstacle21とLostAndFoundでそれぞれ48.3%と25.4%のAPで最高の結果を得た。 YOLO-Worldは21.2%のAPでRoadAnomaly21を抜いている。

Out-of-distribution (OOD) object detection is a critical task focused on detecting objects that originate from a data distribution different from that of the training data. In this study, we investigate to what extent state-of-the-art open-vocabulary object detectors can detect unusual objects in street scenes, which are considered as OOD or rare scenarios with respect to common street scene datasets. Specifically, we evaluate their performance on the OoDIS Benchmark, which extends RoadAnomaly21 and RoadObstacle21 from SegmentMeIfYouCan, as well as LostAndFound, which was recently extended to object level annotations. The objective of our study is to uncover short-comings of contemporary object detectors in challenging real-world, and particularly in open-world scenarios. Our experiments reveal that open vocabulary models are promising for OOD object detection scenarios, however far from perfect. Substantial improvements are required before they can be reliably deployed in real-world applications. We benchmark four state-of-the-art open-vocabulary object detection models on three different datasets. Noteworthily, Grounding DINO achieves the best results on RoadObstacle21 and LostAndFound in our study with an AP of 48.3% and 25.4% respectively. YOLO-World excels on RoadAnomaly21 with an AP of 21.2%.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# 最新のNISQおよびFTアーキテクチャのための量子フーリエ変換(QFT)カーネルの最適化

Optimizing Quantum Fourier Transformation (QFT) Kernels for Modern NISQ and FT Architectures ( http://arxiv.org/abs/2408.11226v1 )

ライセンス: Link先を確認
Yuwei Jin, Xiangyu Gao, Minghao Guo, Henry Chen, Fei Hua, Chi Zhang, Eddy Z. Zhang, (参考訳) 量子コンピューティングの急速な発展は、いくつかの量子応用の出現に繋がる。 量子フーリエ変換(QFT)は多くの応用の中心に位置する。 既存の作業はSATソルバやヒューリスティックスを利用して、論理量子ビットを物理量子ビットに再マップするためにSWAPゲートを挿入することでQFTのハードウェア準拠回路を生成する。 しかし、SATソルバの膨大な検索スペースや、全てのゲート操作を終了するサイクル数の観点からの最適以下の結果のため、長いコンパイル時間などの問題に直面している可能性がある。 本稿では,QFTのためのドメイン固有ハードウェアマッピング手法を提案する。 プログラム合成ツールの助けを借りて、キュービットマッピングソリューションを探索するために、QFTにおける緩和順序付けとユニット探索の洞察を統一する。 本手法は, Google Sycamore, IBM Heavy-hex, 格子手術において, 量子ビット数に関して線形深度QFT回路を保証する最初の方法である。 最先端手法と比較して,SWAPゲートでは最大53%,深さでは92%の節約が可能であった。

Rapid development in quantum computing leads to the appearance of several quantum applications. Quantum Fourier Transformation (QFT) sits at the heart of many of these applications. Existing work leverages SAT solver or heuristics to generate a hardware-compliant circuit for QFT by inserting SWAP gates to remap logical qubits to physical qubits. However, they might face problems such as long compilation time due to the huge search space for SAT solver or suboptimal outcome in terms of the number of cycles to finish all gate operations. In this paper, we propose a domain-specific hardware mapping approach for QFT. We unify our insight of relaxed ordering and unit exploration in QFT to search for a qubit mapping solution with the help of program synthesis tools. Our method is the first one that guarantees linear-depth QFT circuits for Google Sycamore, IBM heavy-hex, and the lattice surgery, with respect to the number of qubits. Compared with state-of-the-art approaches, our method can save up to 53% in SWAP gate and 92% in depth.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# OCTCube:光コヒーレンス断層撮影のための3次元基礎モデル

OCTCube: A 3D foundation model for optical coherence tomography that improves cross-dataset, cross-disease, cross-device and cross-modality analysis ( http://arxiv.org/abs/2408.11227v1 )

ライセンス: Link先を確認
Zixuan Liu, Hanwen Xu, Addie Woicik, Linda G. Shapiro, Marian Blazes, Yue Wu, Cecilia S. Lee, Aaron Y. Lee, Sheng Wang, (参考訳) 光コヒーレンス断層撮影(OCT)は、網膜と視神経の3D画像を可能にするため、網膜疾患の診断に重要である。 OCTの買収は高速で、非侵襲的で、安価で、スケーラブルである。 適用範囲が広いため、定期的な試験で大量のOCT画像が蓄積されており、OCT画像を用いて様々な診断タスクに一般化できる大規模な基礎モデルを訓練することが可能である。 OCTの既存の基礎モデルは2次元画像スライスのみを考慮し、リッチな3次元構造を見下ろしている。 ここではOCTCubeについて述べる。OCTCubeは26,605個の3D OCTボリュームで事前訓練された3D基礎モデルである。 OCTCubeは3Dマスク付きオートエンコーダに基づいて開発され、FlashAttentionを利用して3DボリュームのモデリングによるGPUメモリ使用量の削減を行う。 OCTCubeは、インダクティブとクロスデータセットの両方で8つの網膜疾患を予測する際に、2Dデータの代わりにモデル内の3D構造を利用することで大幅に改善されることを示す2Dモデルよりも優れています。 OCTCubeはさらに、クロスデバイス予測や糖尿病や高血圧などの全身疾患の予測に優れた性能を示し、その強力な一般化性を示している。 最後に,OCT と赤外線網膜 (IR) 画像の相互モダリティ解析のために,OCTCube を用いて OCT ボリュームを埋め込んだコントラッシブ自己教師付き学習ベース OCT-IR 事前学習フレームワークを提案する。 我々は、COIPがOCTとIRの顔画像との正確なアライメントを可能にすることを実証した。 OCTCubeは3D OCTファウンデーションモデルであり、29タスク中27タスクで2Dモデルに対して、他の2タスクで同等のパフォーマンスを示し、AIベースの網膜疾患診断への道を開く。

Optical coherence tomography (OCT) has become critical for diagnosing retinal diseases as it enables 3D images of the retina and optic nerve. OCT acquisition is fast, non-invasive, affordable, and scalable. Due to its broad applicability, massive numbers of OCT images have been accumulated in routine exams, making it possible to train large-scale foundation models that can generalize to various diagnostic tasks using OCT images. Nevertheless, existing foundation models for OCT only consider 2D image slices, overlooking the rich 3D structure. Here, we present OCTCube, a 3D foundation model pre-trained on 26,605 3D OCT volumes encompassing 1.62 million 2D OCT images. OCTCube is developed based on 3D masked autoencoders and exploits FlashAttention to reduce the larger GPU memory usage caused by modeling 3D volumes. OCTCube outperforms 2D models when predicting 8 retinal diseases in both inductive and cross-dataset settings, indicating that utilizing the 3D structure in the model instead of 2D data results in significant improvement. OCTCube further shows superior performance on cross-device prediction and when predicting systemic diseases, such as diabetes and hypertension, further demonstrating its strong generalizability. Finally, we propose a contrastive-self-supervised-learning-based OCT-IR pre-training framework (COIP) for cross-modality analysis on OCT and infrared retinal (IR) images, where the OCT volumes are embedded using OCTCube. We demonstrate that COIP enables accurate alignment between OCT and IR en face images. Collectively, OCTCube, a 3D OCT foundation model, demonstrates significantly better performance against 2D models on 27 out of 29 tasks and comparable performance on the other two tasks, paving the way for AI-based retinal disease diagnosis.
翻訳日:2024-08-22 19:09:22 公開日:2024-08-20
# ヘリウム上の電子を用いたプラズモンモード工学

Plasmon Mode Engineering with Electrons on Helium ( http://arxiv.org/abs/2408.11228v1 )

ライセンス: Link先を確認
C. A. Mikolas, N. R. Beysengulov, A. J. Schleusner, D. G. Rees, C. Undershute, J. Pollanen, (参考訳) 超流動ヘリウムの表面上に閉じ込められた電子のアンサンブルは、低次元電子物質の集団電荷ダイナミクスを研究・制御するためのパラダイムシステムである。 特に興味深いのは、このシステムにおける表面プラズモンモードの空間的およびスペクトル的構造を設計し、ハイブリッド量子システムや回路量子力学デバイスアーキテクチャに統合する能力である。 本稿では,マイクロ波プラズモンモードをマイクロチャネル閉じ込めの幾何学によって決定された空間構造を有するハイブリッド型電子対ヘリウムマイクロチャネルデバイスについて実験を行った。 プラズマ発振は、マイクロチャネル内の電子の局所マイクロ波周波数励起によって発生する。 この励起が特定の表面プラズモンモードと共鳴すると、電子伝導率が非平衡に減少し、同時輸送測定によって検出される。 表面プラズモンの空間構造はデバイス設計パラメータやモデリングとよく一致しており、チャネル内の電子のアレー密度を正確に変化させることで、その周波数を広帯域(複数GHz)で調整することができる。 プラズマ共鳴スペクトル線形状とそのパワー依存性を計測することにより、各プラズモンモードに関連する空間的均一性のレベルを定量化することができる。 その結果、ヘリウム上の電子の汎用性は、低次元クーロン液体と固体の集合モード構造の調査と工学のモデルシステムとして、ヘリウム上の電子に精密に構築された表面プラズモンを将来のハイブリッド回路量子力学系と統合するための有効な経路を示す。

An ensemble of electrons trapped above the surface of superfluid helium is a paradigm system for investigating, and controlling, the collective charge dynamics of low-dimensional electronic matter. Of particular interest is the ability to engineer the spatial and spectral structure of surface plasmon modes in this system for integration into hybrid quantum systems or circuit quantum electrodynamic device architectures. Here we present experiments on a hybrid electron-on-helium microchannel device designed to host microwave-frequency plasmon modes having a spatial structure dictated by the geometry of the microchannel confinement. The plasma oscillations are generated via local microwave frequency excitation of the electrons in the microchannel. When this excitation is resonant with a particular surface plasmon-mode it produces a non-equilibrium decrease in the electron conductance, which we detect via simultaneous transport measurements. We find that the spatial structure of the surface plasmons is in excellent agreement with our device design parameters and modeling, and their frequency can be tuned over a broad range (several GHz) by precisely varying the areal density of electrons in the channel. By measuring the plasma resonance spectrum lineshape, and its power dependence, we can quantify the level of spatial homogeneity associated with each plasmon mode. The results highlight the versatility of electrons on helium as a model system for investigating, and engineering, the collective mode structure of low-dimensional Coulomb liquid and solid states and demonstrate a viable path for integrating precisely engineered surface plasmons in electrons on helium with future hybrid circuit quantum electrodynamic systems.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# 高分解能・マルチセンサ衛星画像からの地上バイオマス・キャノピー高さ・カバーのグローバル予測のための統一深層学習モデル

Unified Deep Learning Model for Global Prediction of Aboveground Biomass, Canopy Height and Cover from High-Resolution, Multi-Sensor Satellite Imagery ( http://arxiv.org/abs/2408.11234v1 )

ライセンス: Link先を確認
Manuel Weber, Carly Beneke, Clyde Wheeler, (参考訳) 世界の森林における炭素ストックの定期的な測定は、国内外の気候イニシアチブの下での炭素会計と報告、科学研究において重要であるが、地上ベースの評価が欠如しているため、スケーラビリティと時間的解決に大きく制限されている。 リモートセンシングされたデータを組み込むことで、これらの課題に対処する努力が増加している。 10mの解像度でマルチセンサ・マルチスペクトル画像を利用する新しい手法と、地上のバイオマス密度(AGBD)、キャノピー高さ(CH)、キャノピーカバー(CC)、および3つの量に対する不確実性推定を統一するディープラーニングベースモデルを提案する。 このモデルは、世界中の何百万ものGEDI-L2/L4測定に基づいて訓練されている。 我々は、2016年から2023年までの毎年、選ばれた地域に対して、2023年の間、世界中にデプロイすることで、モデルの有効性を検証する。 このモデルは、AGBD (CH, CC) の26.1 Mg/ha (3.7 m, 9.9 %) の平均絶対誤差と、グローバルにサンプリングされたテストデータセット上で50.6 Mg/ha (5.4 m, 15.8 %) の平均2乗誤差を達成し、これまでに公表された結果よりも大幅に改善されている。 また,本論文に掲載されている個別の地中測定値に対するモデル性能について報告する。 さらに,事前学習モデルにより,そのマルチヘッドアーキテクチャにより,他のGEDI変数へのシームレスな転送が容易であることを示す。

Regular measurement of carbon stock in the world's forests is critical for carbon accounting and reporting under national and international climate initiatives, and for scientific research, but has been largely limited in scalability and temporal resolution due to a lack of ground based assessments. Increasing efforts have been made to address these challenges by incorporating remotely sensed data. We present a new methodology which uses multi-sensor, multi-spectral imagery at a resolution of 10 meters and a deep learning based model which unifies the prediction of above ground biomass density (AGBD), canopy height (CH), canopy cover (CC) as well as uncertainty estimations for all three quantities. The model is trained on millions of globally sampled GEDI-L2/L4 measurements. We validate the capability of our model by deploying it over the entire globe for the year 2023 as well as annually from 2016 to 2023 over selected areas. The model achieves a mean absolute error for AGBD (CH, CC) of 26.1 Mg/ha (3.7 m, 9.9 %) and a root mean squared error of 50.6 Mg/ha (5.4 m, 15.8 %) on a globally sampled test dataset, demonstrating a significant improvement over previously published results. We also report the model performance against independently collected ground measurements published in the literature, which show a high degree of correlation across varying conditions. We further show that our pre-trained model facilitates seamless transferability to other GEDI variables due to its multi-head architecture.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# マルチモーダル文書分類のためのアテンションヘッドマスキングによるアウト・オブ・ディストリビューション検出

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification ( http://arxiv.org/abs/2408.11237v1 )

ライセンス: Link先を確認
Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson, (参考訳) 機械学習アプリケーションにおいて、オフ・オブ・ディストリビューション(OOD)データの検出は、モデル過信のリスクを軽減し、デプロイされたシステムの信頼性と安全性を高めるために不可欠である。 既存のOOD検出手法の大部分は、画像やテキストなどの一様入力に対処する。 マルチモーダル文書の文脈では、主にコンピュータビジョンタスクに焦点をあてて開発されたこれらの手法の性能に関する広範な研究が欠如している。 本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。 実験の結果,提案手法はすべての最先端手法より優れており,既存の解に比べてFPR(偽陽性率)は7.5 %まで大幅に低下することがわかった。 この手法は、視覚情報とテキスト情報が同じトランスフォーマーアーキテクチャでモデル化される文書などのマルチモーダルデータによく当てはまる。 高品質な公開可能なドキュメントデータセットの不足に対処し、ドキュメントのOOD検出に関するさらなる研究を促進するために、新しいドキュメントAIデータセットであるFundyDocsを導入する。 コードとデータセットは公開されています。

Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# 小さな信頼が長い道のりを歩む

A Little Confidence Goes a Long Way ( http://arxiv.org/abs/2408.11239v1 )

ライセンス: Link先を確認
John Scoville, Shang Gao, Devanshu Agrawal, Javed Qadrud-Din, (参考訳) 本稿では,大規模言語モデル (LLM) における隠れ状態活性化のプローブを用いて,バイナリ分類タスクに関連する一連の手法を紹介する。 性能は、現在利用可能な最大かつ最も先進的なLCMと同等であるが、桁違いに少ない計算資源が必要であり、ラベル付きデータを必要としない。 このアプローチでは、クラスラベルを意味的に豊かな記述に翻訳し、教師なし学習と推論のための多層パーセプトロンプローブの自発的対称性の破れ、エントロピーの最大化によって既知の制約を受ける隠れ状態のアクティベーションから信頼スコア(事前確率)を生成するためのトレーニングプローブ、予測のためのアンサンブルから最も自信のあるプローブモデルを選択する。 これらの手法を5基LLMを用いて4つのデータセットで評価する。

We introduce a group of related methods for binary classification tasks using probes of the hidden state activations in large language models (LLMs). Performance is on par with the largest and most advanced LLMs currently available, but requiring orders of magnitude fewer computational resources and not requiring labeled data. This approach involves translating class labels into a semantically rich description, spontaneous symmetry breaking of multilayer perceptron probes for unsupervised learning and inference, training probes to generate confidence scores (prior probabilities) from hidden state activations subject to known constraints via entropy maximization, and selecting the most confident probe model from an ensemble for prediction. These techniques are evaluated on four datasets using five base LLMs.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# 因果帯域における低複素度非対称グラフ誤差制御

Asymmetric Graph Error Control with Low Complexity in Causal Bandits ( http://arxiv.org/abs/2408.11240v1 )

ライセンス: Link先を確認
Chen Peng, Di Zhang, Urbashi Mitra, (参考訳) 本稿では,因果グラフにおけるノードに対する最適な介入順序を選択することを目的とした因果帯域問題について検討する。 このグラフは線形構造方程式によって支配されていると仮定され、因果トポロジーと介入の分布が不明であると仮定される。 信号が報酬に寄与するノード間の因果関係を利用することで、介入を最適化する。 まず,2種類のグラフ識別誤差(偽陽性と負)の違いに基づいて因果グラフ学習法を提案する。 ガウス的外因性入力と最小平均二乗誤差重み付けの仮定の下で、因果バンディット問題に適した新しい不確実性境界を導出する。 この不確実性境界は、報酬を最適化するために、上位信頼境界に基づく介入選択を駆動する。 非定常帯域に対処するため, 試料効率の高いサブグラフ変化検出機構を提案する。 提案手法を既存手法と比較し,定常条件と非定常条件の両方で大幅な性能向上を示した。 既存の手法と比較して、提案手法は因果構造を学ぶのに67%のサンプルを要し、平均報酬率は85%に達する。

In this paper, the causal bandit problem is investigated, in which the objective is to select an optimal sequence of interventions on nodes in a causal graph. It is assumed that the graph is governed by linear structural equations; it is further assumed that both the causal topology and the distribution of interventions are unknown. By exploiting the causal relationships between the nodes whose signals contribute to the reward, interventions are optimized. First, based on the difference between the two types of graph identification errors (false positives and negatives), a causal graph learning method is proposed, which strongly reduces sample complexity relative to the prior art by learning sub-graphs. Under the assumption of Gaussian exogenous inputs and minimum-mean squared error weight estimation, a new uncertainty bound tailored to the causal bandit problem is derived. This uncertainty bound drives an upper confidence bound based intervention selection to optimize the reward. To cope with non-stationary bandits, a sub-graph change detection mechanism is proposed, with high sample efficiency. Numerical results compare the new methodology to existing schemes and show a substantial performance improvement in both stationary and non-stationary settings. Compared to existing approaches, the proposed scheme takes 67% fewer samples to learn the causal structure and achieves an average reward gain of 85%.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# CooPre: V2X協調知覚のための協調的事前訓練

CooPre: Cooperative Pretraining for V2X Cooperative Perception ( http://arxiv.org/abs/2408.11241v1 )

ライセンス: Link先を確認
Seth Z. Zhao, Hao Xiang, Chenfeng Xu, Xin Xia, Bolei Zhou, Jiaqi Ma, (参考訳) 既存のV2Xの協調認識手法は、正確なマルチエージェント3Dアノテーションに依存している。 それでも、特にV2Xシステムにおいて、実際のデータの収集と注釈作成には時間がかかり、費用がかかる。 本稿では,膨大な量のラベルのない3D V2Xデータを用いて,V2X協調認識のための自己教師型学習手法を提案する。 従来のポイントクラウド表現学習の事前学習手法を単に拡張するだけでなく、協調シナリオ用にカスタマイズされた新しい自己教師型協調事前学習フレームワーク(CooPreと略す)を導入する。 協調的な点クラウドセンシングはエージェント間の情報損失を補うことを指摘している。 これにより、3Dエンコーダのための新しいプロキシタスクを設計し、異なるエージェント間でLiDARポイントクラウドを再構築する動機付けになります。 さらに、BEV空間における異種V2Xエージェント(車とインフラ)間の3D特徴に効果的に注意を払っているV2Xバードアイビュー(BEV)ガイドマスキング戦略を開発した。 このようなマスキング戦略は、3Dエンコーダを効果的に事前訓練し、主要な協調認識バックボーンと互換性がある。 我々のアプローチは、代表データセット(V2X-Real、V2V4Real、OPV2V)に関する広範な実験を通じて検証され、すべてのV2X設定のパフォーマンスが向上する。 さらに、挑戦的なシナリオ下で、クロスドメイン転送可能性、データ効率、堅牢性におけるフレームワークの改善を実演する。 コードは公開されます。

Existing Vehicle-to-Everything (V2X) cooperative perception methods rely on accurate multi-agent 3D annotations. Nevertheless, it is time-consuming and expensive to collect and annotate real-world data, especially for V2X systems. In this paper, we present a self-supervised learning method for V2X cooperative perception, which utilizes the vast amount of unlabeled 3D V2X data to enhance the perception performance. Beyond simply extending the previous pre-training methods for point-cloud representation learning, we introduce a novel self-supervised Cooperative Pretraining framework (termed as CooPre) customized for a collaborative scenario. We point out that cooperative point-cloud sensing compensates for information loss among agents. This motivates us to design a novel proxy task for the 3D encoder to reconstruct LiDAR point clouds across different agents. Besides, we develop a V2X bird-eye-view (BEV) guided masking strategy which effectively allows the model to pay attention to 3D features across heterogeneous V2X agents (i.e., vehicles and infrastructure) in the BEV space. Noticeably, such a masking strategy effectively pretrains the 3D encoder and is compatible with mainstream cooperative perception backbones. Our approach, validated through extensive experiments on representative datasets (i.e., V2X-Real, V2V4Real, and OPV2V), leads to a performance boost across all V2X settings. Additionally, we demonstrate the framework's improvements in cross-domain transferability, data efficiency, and robustness under challenging scenarios. The code will be made publicly available.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# グラフ自己監視学習にニューラルスケーリング法は存在するか?

Do Neural Scaling Laws Exist on Graph Self-Supervised Learning? ( http://arxiv.org/abs/2408.11243v1 )

ライセンス: Link先を確認
Qian Ma, Haitao Mao, Jingzhe Liu, Zhehua Zhang, Chunlin Feng, Yu Song, Yihan Shao, Tianfan Fu, Yao Ma, (参考訳) 自己教師付き学習~(SSL)は、大規模未ラベルデータの知識を効果的に活用することにより、NLPおよびCVドメインの基盤モデルを得るのに不可欠である。 その成功の理由は、適切なSSL設計がモデルがニューラルスケーリング法則に従うのに役立つためである。 しかし、グラフドメインの既存のSSLが、大規模な事前トレーニングでGraph Foundation Models~(GFMs)を構築するためのスケーリング動作に従うことができるかどうかはまだ謎のままである。 本研究では,既存のグラフSSL技術が,GFMの不可欠なコンポーネントとして機能する可能性を備えた,ニューラルネットワークのスケーリング動作に追従できるかどうかを検討する。 我々のベンチマークには、従来のSSL設定と他のドメインで採用されている多くの新しい設定の両方で分析された包括的なSSL技術実装が含まれている。 驚くべきことに、SSLの損失が継続的に減少しているにも関わらず、既存のグラフSSL技術は下流のパフォーマンスにおけるニューラルネットワークのスケーリング動作に従わない。 モデルパフォーマンスは、異なるデータスケールとモデルスケールでのみ変動する。 スケールの代わりに、パフォーマンスに影響を与える重要な要因は、モデルアーキテクチャとプレテキストタスク設計の選択である。 本稿では,GFM開発における既存のSSL技術の実現可能性について検討し,新しい評価試行でグラフSSL設計の新たな方向性を開拓する。 私たちのコード実装は、https://github.com/GraphSSLScaling/GraphSSLScalingの再現性を容易にするために、オンラインで公開されています。

Self-supervised learning~(SSL) is essential to obtain foundation models in NLP and CV domains via effectively leveraging knowledge in large-scale unlabeled data. The reason for its success is that a suitable SSL design can help the model to follow the neural scaling law, i.e., the performance consistently improves with increasing model and dataset sizes. However, it remains a mystery whether existing SSL in the graph domain can follow the scaling behavior toward building Graph Foundation Models~(GFMs) with large-scale pre-training. In this study, we examine whether existing graph SSL techniques can follow the neural scaling behavior with the potential to serve as the essential component for GFMs. Our benchmark includes comprehensive SSL technique implementations with analysis conducted on both the conventional SSL setting and many new settings adopted in other domains. Surprisingly, despite the SSL loss continuously decreasing, no existing graph SSL techniques follow the neural scaling behavior on the downstream performance. The model performance only merely fluctuates on different data scales and model scales. Instead of the scales, the key factors influencing the performance are the choices of model architecture and pretext task design. This paper examines existing SSL techniques for the feasibility of Graph SSL techniques in developing GFMs and opens a new direction for graph SSL design with the new evaluation prototype. Our code implementation is available online to ease reproducibility on https://github.com/GraphSSLScaling/GraphSSLScaling.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# 業務用バイアスのアンボックス化:米国の労働データとLCMの基盤的デバイアス化

Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data ( http://arxiv.org/abs/2408.11247v1 )

ライセンス: Link先を確認
Atmika Gorti, Manas Gaur, Aman Chadha, (参考訳) 大規模言語モデル(LLM)は、トレーニングデータに埋め込まれた社会的バイアスを継承し、増幅する傾向があり、性別、職業、その他のセンシティブなカテゴリーに関連する有害なステレオタイプを補強する可能性がある。 偏見のあるLCMは、不公平な慣行や、採用、オンラインコンテンツモデレーション、刑事司法制度など、さまざまな領域における社会的不平等の悪化につながるため、この問題は特に問題となる。 従来の研究では、固有のバイアスを強調するために設計された特別なデータセットを使用してLCMのバイアスを検出することに焦点が当てられていたが、アメリカ労働統計局(NBLS)などの権威的なデータセットとどのように相関するかについて、注目すべき研究が欠如している。 このギャップに対処するため,我々は,NBLSデータから得られた分布と生成した出力がどのように比較されるかを分析し,LLMを<bias-out-of-the-box>設定で評価する経験的研究を行った。 さらに,NBLSインスタンスを直接組み込んでLLM内のバイアスを緩和する,単純かつ効果的な脱バイアス機構を提案する。 我々の研究は、インストラクタブル(instructable)、ベース(base)、ミックス・オブ・エキスパート(mixed-of-expert)のモデルを含む7つの異なるLLMにまたがっており、既存のバイアス検出技術によって見落とされがちなバイアスのかなりのレベルを明らかにしている。 重要なことは、外部データセットに依存しないデバイアス法は、バイアススコアを大幅に削減し、より公平で信頼性の高いLCMを作成するためのアプローチの有効性を強調している。

Large Language Models (LLMs) are prone to inheriting and amplifying societal biases embedded within their training data, potentially reinforcing harmful stereotypes related to gender, occupation, and other sensitive categories. This issue becomes particularly problematic as biased LLMs can have far-reaching consequences, leading to unfair practices and exacerbating social inequalities across various domains, such as recruitment, online content moderation, or even the criminal justice system. Although prior research has focused on detecting bias in LLMs using specialized datasets designed to highlight intrinsic biases, there has been a notable lack of investigation into how these findings correlate with authoritative datasets, such as those from the U.S. National Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how the generated outputs compare with the distributions found in NBLS data. Furthermore, we propose a straightforward yet effective debiasing mechanism that directly incorporates NBLS instances to mitigate bias within LLMs. Our study spans seven different LLMs, including instructable, base, and mixture-of-expert models, and reveals significant levels of bias that are often overlooked by existing bias detection techniques. Importantly, our debiasing method, which does not rely on external datasets, demonstrates a substantial reduction in bias scores, highlighting the efficacy of our approach in creating fairer and more reliable LLMs.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# EU AI法における汎用AIの不確実性推定のジレンマ

The Dilemma of Uncertainty Estimation for General Purpose AI in the EU AI Act ( http://arxiv.org/abs/2408.11249v1 )

ライセンス: Link先を確認
Matias Valdenegro-Toro, Radina Stoykova, (参考訳) AI法は、欧州連合全体のAIシステムの規制である。 汎用AIモデルの具体的規定を含むが、実際のコンプライアンスソリューションを保証するためには、技術的標準や最先端の研究の観点からさらに解釈する必要がある。 本稿では、汎用AIのプロバイダとデプロイ者に対するAI行動要件について検討し、また、そのようなモデルのトレーニングにおける法的なコンプライアンスと品質保証に適した尺度として、不確実性推定を提案する。 我々は、不確実性推定が、現実世界にモデルをデプロイするために必要なコンポーネントであるべきだと主張しており、EU AI Actの下では、透明性、正確性、信頼性に関するいくつかの要件を満たすことができる。 しかし、一般に不確実性推定法を用いることで計算量が増加し、ジレンマが発生する。これは計算がしきい値(10^{25}$ FLOPS)を超えて、より規制上の負担を伴うシステム的リスクシステムとして分類されるためである。

The AI act is the European Union-wide regulation of AI systems. It includes specific provisions for general-purpose AI models which however need to be further interpreted in terms of technical standards and state-of-art studies to ensure practical compliance solutions. This paper examines the AI act requirements for providers and deployers of general-purpose AI and further proposes uncertainty estimation as a suitable measure for legal compliance and quality assurance in training of such models. We argue that uncertainty estimation should be a required component for deploying models in the real world, and under the EU AI Act, it could fulfill several requirements for transparency, accuracy, and trustworthiness. However, generally using uncertainty estimation methods increases the amount of computation, producing a dilemma, as computation might go over the threshold ($10^{25}$ FLOPS) to classify the model as a systemic risk system which bears more regulatory burden.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-20
# フルラベルを超えて:赤外線小ターゲットラベル生成のためのシングルポイントプロンプト

Beyond Full Label: Single-Point Prompt for Infrared Small Target Label Generation ( http://arxiv.org/abs/2408.08191v4 )

ライセンス: Link先を確認
Shuai Yuan, Hanlin Qin, Renke Kou, Xiang Yan, Zechuan Li, Chenxu Peng, Abd-Krim Seghouane, (参考訳) 本研究では、赤外線小ターゲットラベル生成(IRSTLG)のための学習に基づく単一点アノテーションパラダイムを構築するための最初の試みを行う。 IRSTLGは、目標位置ヒントを持つ赤外線小目標検出(IRSTD)タスクとみなすことができる。 この知見に基づき,エネルギー二重誘導単点プロンプト(EDGSP)フレームワークを導入し,ターゲット検出ネットワークを改良されたラベル生成手法に適応的に変換する。 具体的には,提案されているEDGSPには以下のものがある。 1)擬似ラベルの十分な形状形成のための基礎的概要を作成するための目標エネルギー初期化(TEI)。 2ダブルプロンプト埋め込み(DPE)は、興味のある領域の迅速な局在とラベルの付着を避けるための個人差の強化を目的としている。 3) ボックスベースマッチング(BBM)による誤報の排除。 実験結果から,SIRST,NUDT-SIRST,IRSTD-1kデータセットにおいて,EDGSPを用いた3つのベースラインが生成する擬似ラベルが100%のオブジェクトレベル検出確率(Pd)と0%の偽アラームレート(Fa)を達成できた。 下流IRSTDの実践的応用において、EDGSPはフルラベルを超える単一点生成仮面を初めて認識する。 粗い単一ポイントアノテーションであっても、完全なラベル付けのパフォーマンスは99.5%である。

In this work, we make the first attempt to construct a learning-based single-point annotation paradigm for infrared small target label generation (IRSTLG). Our intuition is that label generation requires just one more point prompt than target detection: IRSTLG can be regarded as an infrared small target detection (IRSTD) task with the target location hint. Based on this insight, we introduce an energy double guided single-point prompt (EDGSP) framework, which adeptly transforms the target detection network into a refined label generation method. Specifically, the proposed EDGSP includes: 1) target energy initialization (TEI) to create a foundational outline for sufficient shape evolution of pseudo label, 2) double prompt embedding (DPE) for rapid localization of interested regions and reinforcement of individual differences to avoid label adhesion, and 3) bounding box-based matching (BBM) to eliminate false alarms. Experimental results show that pseudo labels generated by three baselines equipped with EDGSP achieve 100% object-level probability of detection (Pd) and 0% false-alarm rate (Fa) on SIRST, NUDT-SIRST, and IRSTD-1k datasets, with a pixel-level intersection over union (IoU) improvement of 13.28% over state-of-the-art (SOTA) label generation methods. In the practical application of downstream IRSTD, EDGSP realizes, for the first time, a single-point generated pseudo mask beyond the full label. Even with coarse single-point annotations, it still achieves 99.5% performance of full labeling.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-20
# BLADE: データ駆動科学のためのベンチマーク言語モデルエージェント

BLADE: Benchmarking Language Model Agents for Data-Driven Science ( http://arxiv.org/abs/2408.09667v2 )

ライセンス: Link先を確認
Ken Gu, Ruoxi Shang, Ruien Jiang, Keying Kuang, Richard-John Lin, Donghe Lyu, Yue Mao, Youran Pan, Teng Wu, Jiaqian Yu, Yikun Zhang, Tianmai M. Zhang, Lanyi Zhu, Mike A. Merrill, Jeffrey Heer, Tim Althoff, (参考訳) データ駆動型科学的発見は、科学領域の知識の反復的な統合、統計学の専門知識、データセマンティクスの理解を必要とする。 プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。 しかし、このようなオープンエンドタスクにおけるエージェントの評価は、複数の有効なアプローチ、部分的に正しいステップ、同じ決定を表現するための異なる方法によって困難である。 これらの課題に対処するために,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEを提案する。 BLADEは、既存の科学文献から抽出された12のデータセットと研究質問で構成されており、専門家データ科学者と研究者による独立した分析から、基礎的な真実が収集されている。 エージェント応答を自動的に評価するために,解析の異なる表現をこの基底真理と一致させる計算手法を開発した。 言語モデルには世界的知識がかなりあるが,その評価は基本的分析に限られることが多いことを示している。 しかし、基礎となるデータと対話できるエージェントは、分析的な意思決定において改善されているが、まだ最適ではない多様性を示している。 我々の研究は、データ駆動科学におけるエージェントの評価を可能にし、エージェントの分析アプローチに関する研究者の深い洞察を提供する。

Data-driven scientific discovery requires the iterative integration of scientific domain knowledge, statistical expertise, and an understanding of data semantics to make nuanced analytical decisions, e.g., about which variables, transformations, and statistical models to consider. LM-based agents equipped with planning, memory, and code execution capabilities have the potential to support data-driven science. However, evaluating agents on such open-ended tasks is challenging due to multiple valid approaches, partially correct steps, and different ways to express the same decisions. To address these challenges, we present BLADE, a benchmark to automatically evaluate agents' multifaceted approaches to open-ended research questions. BLADE consists of 12 datasets and research questions drawn from existing scientific literature, with ground truth collected from independent analyses by expert data scientists and researchers. To automatically evaluate agent responses, we developed corresponding computational methods to match different representations of analyses to this ground truth. Though language models possess considerable world knowledge, our evaluation shows that they are often limited to basic analyses. However, agents capable of interacting with the underlying data demonstrate improved, but still non-optimal, diversity in their analytical decision making. Our work enables the evaluation of agents for data-driven science and provides researchers deeper insights into agents' analysis approaches.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-20
# フェデレートラーニングにおけるGANに基づく特徴推論攻撃に対する防犯活動

Exploiting Defenses against GAN-Based Feature Inference Attacks in Federated Learning ( http://arxiv.org/abs/2004.12571v3 )

ライセンス: Link先を確認
Xinjian Luo, Xianglong Zhang, (参考訳) Federated Learning(FL)は、データプライバシを維持しながら、独立したデータアイランドをマージすることを目的とした、分散モデルトレーニングフレームワークである。 しかし、最近の研究により、GANベースの攻撃はFLでプライベートデータセットの分布を学習し、認識可能なイメージを再構築するために使用できることが明らかになった。 本稿では, FLにおけるGAN攻撃に対する防御効果を活用し, 攻撃者が実際のデータ配信を学ばないようにするためのフレームワークであるアンチGANを提案する。 反GANの基本的な考え方は、プライベートトレーニング画像の視覚的特徴を操作して、攻撃者によって復元された人間の目と区別できないようにすることである。 具体的には、Anti-GANはプライベートデータセットをGANのジェネレータに投影し、生成されたフェイクイメージと実際のイメージを組み合わせてトレーニングデータセットを生成し、フェデレートされたモデルトレーニングに使用される。 実験の結果,抗GANは,フェデレートされたモデルの精度に最小限のダメージを与えながら,攻撃者がプライベートイメージの分布を学習するのを防ぐのに有効であることが示された。

Federated learning (FL) is a decentralized model training framework that aims to merge isolated data islands while maintaining data privacy. However, recent studies have revealed that Generative Adversarial Network (GAN) based attacks can be employed in FL to learn the distribution of private datasets and reconstruct recognizable images. In this paper, we exploit defenses against GAN-based attacks in FL and propose a framework, Anti-GAN, to prevent attackers from learning the real distribution of the victim's data. The core idea of Anti-GAN is to manipulate the visual features of private training images to make them indistinguishable to human eyes even restored by attackers. Specifically, Anti-GAN projects the private dataset onto a GAN's generator and combines the generated fake images with the actual images to create the training dataset, which is then used for federated model training. The experimental results demonstrate that Anti-GAN is effective in preventing attackers from learning the distribution of private images while causing minimal harm to the accuracy of the federated model.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-20
# フェアネスの正規化:回帰機械学習問題におけるフェアネスの簡易正規化手法

Normalise for Fairness: A Simple Normalisation Technique for Fairness in Regression Machine Learning Problems ( http://arxiv.org/abs/2202.00993v2 )

ライセンス: Link先を確認
Mostafa M. Amin, Björn W. Schuller, (参考訳) アルゴリズムと機械学習(ML)は日々の生活やいくつかの意思決定プロセスに影響を与えている。 このようなアプリケーションの公正性は重要であり、モデルが人種、性別、その他の保護されたグループに基づいて結果を識別するべきではない。 これは、インタビューの招待や再会の予測など、非常にセンシティブなトピックに影響を与えるモデルにとって特に重要である。 フェアネスは二項分類問題と比較して回帰問題に対して一般的に研究されていないため、正規化(FaiReg)に基づく単純かつ効果的な手法が提案され、特にラベル付けバイアスによる回帰問題における不公平さの影響を最小化することができる。 本手法の理論的解析に加えて,データバランシングと対角訓練の2つの標準手法に対する実証的な比較を行った。 また,提案手法とデータバランシングを併用したハイブリッド定式化(FaiRegH)を併用して,ラベル付けとサンプリングバイアスを同時に実施する。 実験は、Big-Fiveパーソナリティ予測とインタビュースクリーニングスコアなど、さまざまなラベルを持つマルチモーダルデータセットFirst Impressions (FI)上で実施される。 その結果、データバランシングよりも不公平さの影響を低減し、また、元の問題の性能を敵の訓練よりも劣化させることなく、優れた性能を示した。 公平性は、等式精度(EA)と統計パリティ(SP)の制約に基づいて評価される。 実験では、いくつかの保護された変数の公平性を同時に向上する設定を提示した。

Algorithms and Machine Learning (ML) are increasingly affecting everyday life and several decision-making processes, where ML has an advantage due to scalability or superior performance. Fairness in such applications is crucial, where models should not discriminate their results based on race, gender, or other protected groups. This is especially crucial for models affecting very sensitive topics, like interview invitation or recidivism prediction. Fairness is not commonly studied for regression problems compared to binary classification problems; hence, we present a simple, yet effective method based on normalisation (FaiReg), which minimises the impact of unfairness in regression problems, especially due to labelling bias. We present a theoretical analysis of the method, in addition to an empirical comparison against two standard methods for fairness, namely data balancing and adversarial training. We also include a hybrid formulation (FaiRegH), merging the presented method with data balancing, in an attempt to face labelling and sampling biases simultaneously. The experiments are conducted on the multimodal dataset First Impressions (FI) with various labels, namely Big-Five personality prediction and interview screening score. The results show the superior performance of diminishing the effects of unfairness better than data balancing, also without deteriorating the performance of the original problem as much as adversarial training. Fairness is evaluated based on the Equal Accuracy (EA) and Statistical Parity (SP) constraints. The experiments present a setup that enhances the fairness for several protected variables simultaneously.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-20
# 画像読解のためのZigzag Flatteningの再考

Rethinking the Zigzag Flattening for Image Reading ( http://arxiv.org/abs/2202.10240v8 )

ライセンス: Link先を確認
Qingsong Zhao, Yi Wang, Zhipeng Zhou, Duoqian Miao, Limin Wang, Yu Qiao, Cairong Zhao, (参考訳) 単語ベクトルの順序順序付けは、自然言語処理(NLP)において証明されているテキスト読解に非常に重要である。 しかし、コンピュータビジョン (CV) における異なるシーケンス順序付けの規則は、例えば、なぜ ` `zigzag" フラット化 (ZF) がビジョンネットワークにおけるイメージパッチ順序付けのデフォルトオプションとして一般的に使用されるのか、よく調べられていない。 特に、マルチスケール画像の分解時に、ZFは特徴点位置の不変性を維持できなかった。 この目的のために,Hilbertフラクタル平坦化法(HF)をCVの配列順序付け法として検討し,ZFと対比する。 HFは、次元空間のマルチスケール変換を行う際に、空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。 また、ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。 大規模な実験は、様々なアーキテクチャに対して一貫性があり、重要なパフォーマンス向上をもたらすことを実証している。 最後に、画像読取のフラット化戦略について、我々の研究がさらなる研究のきっかけになることを願っている。

Sequence ordering of word vector matters a lot to text reading, which has been proven in natural language processing (NLP). However, the rule of different sequence ordering in computer vision (CV) was not well explored, e.g., why the ``zigzag" flattening (ZF) is commonly utilized as a default option to get the image patches ordering in vision networks. Notably, when decomposing multi-scale images, the ZF could not maintain the invariance of feature point positions. To this end, we investigate the Hilbert fractal flattening (HF) as another method for sequence ordering in CV and contrast it against ZF. The HF has proven to be superior to other curves in maintaining spatial locality, when performing multi-scale transformations of dimensional space. And it can be easily plugged into most deep neural networks (DNNs). Extensive experiments demonstrate that it can yield consistent and significant performance boosts for a variety of architectures. Finally, we hope that our studies spark further research about the flattening strategy of image reading.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-20
# 第3型の確率:統計的関係学習と相対周波数による推論

Probabilities of the Third Type: Statistical Relational Learning and Reasoning with Relative Frequencies ( http://arxiv.org/abs/2202.10367v4 )

ライセンス: Link先を確認
Felix Weitkämper, (参考訳) ドメイン内の状態の相対周波数への依存は、リレーショナルデータに対する確率的依存関係をモデル化する際によく見られる。 例えば、流行中の学校閉鎖の可能性は、感染した生徒の閾値を超える割合に依存する可能性がある。 例えば、病気を媒介する蚊の1匹が噛まれる確率は、キャリア蚊の割合に依存する。 現在のアプローチは通常、ドメイン要素自体よりも、可能世界よりも確率を考慮すべきである。 例外は、確率的データに対する離散的な依存を表現する条件付き確率論理のための最近導入された持ち上げベイジアンネットワークである。 本稿では,相対周波数への連続的依存を統計的リレーショナル人工知能に明示的に組み込んだ関数型持ち上げベイジアンネットワークを導入し,条件付き確率論理のための持ち上げベイジアンネットワークと比較・比較する。 相対周波数を組み込むことはモデリングに有用であるだけでなく、トレーニングやテスト、あるいはアプリケーションドメインのサイズが異なる場合の学習問題に対して、より厳密なアプローチを提供する。 この目的のために、サイズが大きくなる領域上で、関数的持ち上げベイズネットワークによって誘導される漸近確率分布の表現を提供する。 この表現は、ドメインサイズ全体にわたるスケーリングの振る舞いをよく理解しているため、ランダムにサンプリングされたサブポピュレーションから、大きなドメインのパラメータを一貫した推定に使用できる。 さらに、FLBNのパラメトリック系では、収束はパラメータに一様であり、モデルのパラメータに漸近確率が有意に依存することを保証する。

Dependencies on the relative frequency of a state in the domain are common when modelling probabilistic dependencies on relational data. For instance, the likelihood of a school closure during an epidemic might depend on the proportion of infected pupils exceeding a threshold. Often, rather than depending on discrete thresholds, dependencies are continuous: for instance, the likelihood of any one mosquito bite transmitting an illness depends on the proportion of carrier mosquitoes. Current approaches usually only consider probabilities over possible worlds rather than over domain elements themselves. An exception are the recently introduced lifted Bayesian networks for conditional probability logic, which express discrete dependencies on probabilistic data. We introduce functional lifted Bayesian networks, a formalism that explicitly incorporates continuous dependencies on relative frequencies into statistical relational artificial intelligence, and compare and contrast them with lifted Bayesian networks for conditional probability logic. Incorporating relative frequencies is not only beneficial to modelling; it also provides a more rigorous approach to learning problems where training and test or application domains have different sizes. To this end, we provide a representation of the asymptotic probability distributions induced by functional lifted Bayesian networks on domains of increasing sizes. Since that representation has well-understood scaling behaviour across domain sizes, it can be used to estimate parameters for a large domain consistently from randomly sampled subpopulations. Furthermore, we show that in parametric families of FLBN, convergence is uniform in the parameters, which ensures a meaningful dependence of the asymptotic probabilities on the parameters of the model.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-20
# プロジェクティビティ再考

Projectivity revisited ( http://arxiv.org/abs/2207.00625v4 )

ライセンス: Link先を確認
Felix Weitkämper, (参考訳) 異なるサイズの領域にまたがる統計的関係表現の振る舞いは、モデリングと複雑性の両方の観点から研究の焦点となっているが、近年、分布のファミリーの射影性は重要な性質として現れ、限界確率がドメインサイズに依存しないことが保証されている。 しかし、現在使われている形式化は、ドメインはそのサイズによってのみ特徴づけられると仮定している。 この貢献は、射影性の概念を、ドメインサイズでインデックスされた分布の族から、データベースから拡張データを取る関手へと拡張する。 これにより、プロジェクティビティは、構造化された入力を受ける広範囲のアプリケーションで利用できるようになる。 我々は、分布の射影族に関する既知の重要な結果を新しい設定に転送する。 これには、異なる統計関係形式における射影的断片の特徴付けや、分布の射影的族に対する一般的な表現定理が含まれる。 さらに、可算無限領域上の射影性と分布の対応性を証明し、無限領域における統計的関係表現に関する初期の研究を統一・一般化するために使用する。 最後に、拡張された射影の概念を用いて、さらに強化を定義する。これは$\sigma$- Projectivityと呼ばれ、射影性を維持しながら異なるモードで同じ表現を使うことができる。

The behaviour of statistical relational representations across differently sized domains has become a focal area of research from both a modelling and a complexity viewpoint.Recently, projectivity of a family of distributions emerged as a key property, ensuring that marginal probabilities are independent of the domain size. However, the formalisation used currently assumes that the domain is characterised only by its size. This contribution extends the notion of projectivity from families of distributions indexed by domain size to functors taking extensional data from a database. This makes projectivity available for the large range of applications taking structured input. We transfer key known results on projective families of distributions to the new setting. This includes a characterisation of projective fragments in different statistical relational formalisms as well as a general representation theorem for projective families of distributions. Furthermore, we prove a correspondence between projectivity and distributions on countably infinite domains, which we use to unify and generalise earlier work on statistical relational representations in infinite domains. Finally, we use the extended notion of projectivity to define a further strengthening, which we call $\sigma$-projectivity, and which allows the use of the same representation in different modes while retaining projectivity.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-20
# D$^3$FlowSLAM:フローモーション分解とDINO誘導による自己監督動的SLAM

D$^3$FlowSLAM: Self-Supervised Dynamic SLAM with Flow Motion Decomposition and DINO Guidance ( http://arxiv.org/abs/2207.08794v3 )

ライセンス: Link先を確認
Xingyuan Yu, Weicai Ye, Xiyue Guo, Yuhang Ming, Jinyu Li, Hujun Bao, Zhaopeng Cui, Guofeng Zhang, (参考訳) 本稿では,動的シーンにおいて動的コンポーネントを正確に識別しながら,動的シーンで頑健に動作する自己教師型ディープSLAM法を提案する。 本研究では,静的フローと動的フローの二重フロー表現を活用し,動的環境におけるシーンの効率的な分解を容易にする。 本稿では,この表現に基づく動的更新モジュールを提案し,動的シナリオに優れた高密度SLAMシステムの開発を行う。 さらに,DINOを先行学習として利用し,ラベルなし学習を可能にする自己教師型トレーニングスキームを設計する。 本手法は他の自己管理手法と比較して精度が高い。 また、場合によっては既存の教師付きメソッドのパフォーマンスと一致したり、超えたりもします。 すべてのコードとデータは、受け入れ次第公開されます。

In this paper, we introduce a self-supervised deep SLAM method that robustly operates in dynamic scenes while accurately identifying dynamic components. Our method leverages a dual-flow representation for static flow and dynamic flow, facilitating effective scene decomposition in dynamic environments. We propose a dynamic update module based on this representation and develop a dense SLAM system that excels in dynamic scenarios. In addition, we design a self-supervised training scheme using DINO as a prior, enabling label-free training. Our method achieves superior accuracy compared to other self-supervised methods. It also matches or even surpasses the performance of existing supervised methods in some cases. All code and data will be made publicly available upon acceptance.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-20
# S3E:協調SLAMのためのマルチモーダル・マルチモーダル・データセット

S3E: A Mulit-Robot Multimodal Dataset for Collaborative SLAM ( http://arxiv.org/abs/2210.13723v6 )

ライセンス: Link先を確認
Dapeng Feng, Yuhua Qi, Shipeng Zhong, Zhiqiang Chen, Qiming Chen, Hongbo Chen, Jin Wu, Jun Ma, (参考訳) 複雑なタスクをまとめて実行する協調ロボットシステムに対する需要が急増し、研究コミュニティは協調的な状況下での同時局所化とマッピング(SLAM)の進展に重点を置いている。 このような関心にもかかわらず、コラボレーティブSLAM(Collaborative SLAM)の一般化能力がマルチエージェントミッションの実現に不可欠であるような制約された視点のシナリオでは、既存のデータセットのスケーラビリティと多様性は依然として限定的である。 このギャップに対処するため,拡張型マルチモーダルデータセットであるS3Eを導入する。 S3Eは4つの異なる共同軌道パラダイムを横断する無人地上車両群によって捕獲され、13の屋外および5つの屋内シーケンスを含んでいる。 これらのシーケンスは、360度LiDAR点雲、高分解能ステレオ画像、高周波慣性測定ユニット(IMU)、UWB(Ultra-wideband)の相対観測を含む、細心の同期と空間的に校正されたデータストリームを特徴としている。 我々のデータセットは、スケール、シーンの多様性、データの複雑度に関する過去の取り組みを上回るだけでなく、協調的なSLAM方法論と個別のSLAM方法論の徹底的な分析とベンチマークも提供しています。 データセットと最新の情報にアクセスするには、https://pengyu-team.github.io/S3Eのリポジトリを参照してください。

The burgeoning demand for collaborative robotic systems to execute complex tasks collectively has intensified the research community's focus on advancing simultaneous localization and mapping (SLAM) in a cooperative context. Despite this interest, the scalability and diversity of existing datasets for collaborative trajectories remain limited, especially in scenarios with constrained perspectives where the generalization capabilities of Collaborative SLAM (C-SLAM) are critical for the feasibility of multi-agent missions. Addressing this gap, we introduce S3E, an expansive multimodal dataset. Captured by a fleet of unmanned ground vehicles traversing four distinct collaborative trajectory paradigms, S3E encompasses 13 outdoor and 5 indoor sequences. These sequences feature meticulously synchronized and spatially calibrated data streams, including 360-degree LiDAR point cloud, high-resolution stereo imagery, high-frequency inertial measurement units (IMU), and Ultra-wideband (UWB) relative observations. Our dataset not only surpasses previous efforts in scale, scene diversity, and data intricacy but also provides a thorough analysis and benchmarks for both collaborative and individual SLAM methodologies. For access to the dataset and the latest information, please visit our repository at https://pengyu-team.github.io/S3E.
翻訳日:2024-08-21 21:10:36 公開日:2024-08-20
# スマートグリッドにおける短期的エネルギー需要予測:SDG7,9,13ラインの再生可能エネルギー源統合のためのディープラーニングアプローチ

Predicting Short Term Energy Demand in Smart Grid: A Deep Learning Approach for Integrating Renewable Energy Sources in Line with SDGs 7, 9, and 13 ( http://arxiv.org/abs/2304.03997v4 )

ライセンス: Link先を確認
Md Saef Ullah Miah, Junaida Sulaiman, Md. Imamul Islam, Md. Masuduzzaman, Molla Shahadat Hossain Lipu, Ramdhan Nugraha, (参考訳) 世界がSDG7に則ってより持続可能なエネルギーの未来に向かっていくにつれ、再生可能エネルギー源を電力網に統合することの重要性が高まっている。 しかし、再生可能エネルギー源の断続的な性質は電力網の管理を困難にし、SDG 9の達成に欠かせない安定した電力供給を確保することができる。 本稿では,エネルギー需要の正確な予測を行うことで,再生可能エネルギー源の統合を向上する,スマート電力網におけるエネルギー需要予測のためのディープラーニングモデルを提案する。 我々のアプローチは、SDG 13の気候活動と一致し、再生可能エネルギー資源のより効率的な管理を可能にします。 我々は、時系列データに適した長期記憶ネットワークを使用して、エネルギー需要データにおける複雑なパターンや依存関係をキャプチャします。 提案手法は、アメリカン・エレクトリック・パワー、コモンウェルス・エジソン、デイトン・パワー・アンド・ライト、ペンシルバニア・ニュージャージー・メリーランド・インターコネクションなど、異なるエネルギー流通企業の4つの歴史的短期エネルギー需要データデータセットを用いて評価される。 提案されたモデルは、Facebook Prophet、Support Vector Regression、Random Forest Regressionの3つの最先端予測アルゴリズムと比較されている。 実験の結果,提案したREDfモデルは平均絶対誤差1.4%でエネルギー需要を正確に予測し,電力グリッドの安定性と効率を高める可能性を示し,SDG7,9,13の達成に寄与することが示された。 提案モデルはまた,再生可能エネルギー源の統合を効果的に管理する可能性を秘めている。

Integrating renewable energy sources into the power grid is becoming increasingly important as the world moves towards a more sustainable energy future in line with SDG 7. However, the intermittent nature of renewable energy sources can make it challenging to manage the power grid and ensure a stable supply of electricity, which is crucial for achieving SDG 9. In this paper, we propose a deep learning model for predicting energy demand in a smart power grid, which can improve the integration of renewable energy sources by providing accurate predictions of energy demand. Our approach aligns with SDG 13 on climate action, enabling more efficient management of renewable energy resources. We use long short-term memory networks, well-suited for time series data, to capture complex patterns and dependencies in energy demand data. The proposed approach is evaluated using four historical short-term energy demand data datasets from different energy distribution companies, including American Electric Power, Commonwealth Edison, Dayton Power and Light, and Pennsylvania-New Jersey-Maryland Interconnection. The proposed model is compared with three other state-of-the-art forecasting algorithms: Facebook Prophet, Support Vector Regression, and Random Forest Regression. The experimental results show that the proposed REDf model can accurately predict energy demand with a mean absolute error of 1.4%, indicating its potential to enhance the stability and efficiency of the power grid and contribute to achieving SDGs 7, 9, and 13. The proposed model also has the potential to manage the integration of renewable energy sources effectively.
翻訳日:2024-08-21 21:10:36 公開日:2024-08-20
# チェス習得のための表現事項:AlphaZero出力からトランスフォーマーへの変換における特徴表現の改善

Representation Matters for Mastering Chess: Improved Feature Representation in AlphaZero Outperforms Switching to Transformers ( http://arxiv.org/abs/2304.14918v2 )

ライセンス: Link先を確認
Johannes Czech, Jannis Blüml, Kristian Kersting, Hedinn Steingrimsson, (参考訳) トランスフォーマーは人工知能(AI)の汎用ツールとして認識されているが、古典的なAIベンチマークであるチェスの文脈では、未解明の課題が発生する。 ここでは、視覚変換器(ViT)をAlphaZeroに組み込むことは、主にViTの計算制限のため、チェスの熟達には不十分である。 MobileNetとNextViTの組み合わせによる効率の最適化の試みは、AlphaZeroを約30Eloで上回った。 しかし、入力表現と値損失関数の簡単な変更を伴う実用的な改善を提案する。 その結果、チェスにおいて現在AlphaZeroで達成可能なものを超えて、最大180エロポイントの大幅なパフォーマンス向上を実現した。 これらの改善に加えて,新たに導入した機能の有効性を確認するため,Integrated Gradient法による実験結果を得た。

While transformers have gained recognition as a versatile tool for artificial intelligence (AI), an unexplored challenge arises in the context of chess - a classical AI benchmark. Here, incorporating Vision Transformers (ViTs) into AlphaZero is insufficient for chess mastery, mainly due to ViTs' computational limitations. The attempt to optimize their efficiency by combining MobileNet and NextViT outperformed AlphaZero by about 30 Elo. However, we propose a practical improvement that involves a simple change in the input representation and value loss functions. As a result, we achieve a significant performance boost of up to 180 Elo points beyond what is currently achievable with AlphaZero in chess. In addition to these improvements, our experimental results using the Integrated Gradient technique confirm the effectiveness of the newly introduced features.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# 因果推論と大規模言語モデル - 因果性のための新たなフロンティアを開く

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality ( http://arxiv.org/abs/2305.00050v3 )

ライセンス: Link先を確認
Emre Kıcıman, Robert Ness, Amit Sharma, Chenhao Tan, (参考訳) 大規模言語モデル(LLM)の因果的能力は、医学、科学、法学、政策といった社会的に影響力のある領域におけるLLMの使用に重要な意味を持つ重要な議論である。 我々は,LLMの因果論の生成能力を評価するために,LLMの「行動」研究を行う。 幅広いタスクにおいて、LLMは、高い確率で正しい因果引数に対応するテキストを生成でき、既存の手法よりも優れる。 GPT-3.5と4に基づくアルゴリズムは、ペアワイズ因果発見タスク(97%、13ポイントゲイン)、反ファクト因果推論タスク(92%、20ポイントゲイン)、イベント因果性(86%の正確性)において、既存のアルゴリズムよりも優れている。 我々はタスク間で堅牢性チェックを行い、特にLLMがトレーニングのカットオフ後に作成された新しいデータセットに一般化するため、データセットの記憶だけでは説明できないことを示す。 とは言え、LLMは予測不可能な障害モードを示し、改善される可能性のあるエラーの種類と、LLMベースの回答の基本的な限界について議論する。 全体として、LLMはテキストメタデータを操作することで、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される機能を実現する。 結果として、LSMは、因果的手法の普及に最も大きな障害である因果的分析を構築するための努力を省くために、人間の領域の専門家によって使用される可能性がある。 LLMは実際のデータを無視しているため、既存の因果的手法とLLMを組み合わせたアルゴリズムを開発する上での有益な研究の方向性も示唆している。 コードとデータセットはhttps://github.com/py-why/pywhy-llm.comで公開されている。

The causal capabilities of large language models (LLMs) are a matter of significant debate, with critical implications for the use of LLMs in societally impactful domains such as medicine, science, law, and policy. We conduct a "behavorial" study of LLMs to benchmark their capability in generating causal arguments. Across a wide range of tasks, we find that LLMs can generate text corresponding to correct causal arguments with high probability, surpassing the best-performing existing methods. Algorithms based on GPT-3.5 and 4 outperform existing algorithms on a pairwise causal discovery task (97%, 13 points gain), counterfactual reasoning task (92%, 20 points gain) and event causality (86% accuracy in determining necessary and sufficient causes in vignettes). We perform robustness checks across tasks and show that the capabilities cannot be explained by dataset memorization alone, especially since LLMs generalize to novel datasets that were created after the training cutoff date. That said, LLMs exhibit unpredictable failure modes, and we discuss the kinds of errors that may be improved and what are the fundamental limits of LLM-based answers. Overall, by operating on the text metadata, LLMs bring capabilities so far understood to be restricted to humans, such as using collected knowledge to generate causal graphs or identifying background causal context from natural language. As a result, LLMs may be used by human domain experts to save effort in setting up a causal analysis, one of the biggest impediments to the widespread adoption of causal methods. Given that LLMs ignore the actual data, our results also point to a fruitful research direction of developing algorithms that combine LLMs with existing causal techniques. Code and datasets are available at https://github.com/py-why/pywhy-llm.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# 機械学習形成エネルギーを用いたショットガン結晶構造予測

Shotgun crystal structure prediction using machine-learned formation energies ( http://arxiv.org/abs/2305.02158v5 )

ライセンス: Link先を確認
Chang Liu, Hiromasa Tamaki, Tomoyasu Yokoyama, Kensuke Wakasugi, Satoshi Yotsuhashi, Minoru Kusaba, Artem R. Oganov, Ryo Yoshida, (参考訳) 組み立てられた原子の安定な結晶構造や準安定な結晶構造は、原子配置の広い空間内でエネルギー表面の大域的あるいは局所的なミニマを見つけることによって予測できる。 一般に、これは第一原理エネルギー計算を繰り返す必要があり、しばしば大きな結晶系では実用的ではない。 そこで我々は, 学習エネルギー予測器を備えた仮想結晶構造の大規模ライブラリを用いて, 非晶質単発スクリーニングを行い, 結晶構造予測問題の解決に向けた大きな進展を示す。 このショットガン法 (ShotgunCSP) は, 結晶状態の正確なエネルギー予測のための伝達学習 (Transfer Learning) と, 元素置換と対称性制限構造生成に基づく2つの生成モデルにより, 有望かつ多様な結晶構造を生成する。 第一原理計算は、トレーニングサンプルを生成し、いくつかの選択されたプレレラックス結晶構造を洗練するためにのみ行われた。 ShotunCSP法は従来の方法よりも計算量が少なく、異常な予測精度を示し、90種類の結晶構造を持つベンチマーク試験で93.3%に達した。

Stable or metastable crystal structures of assembled atoms can be predicted by finding the global or local minima of the energy surface within a broad space of atomic configurations. Generally, this requires repeated first-principles energy calculations, which is often impractical for large crystalline systems. Here, we present significant progress toward solving the crystal structure prediction problem: we performed noniterative, single-shot screening using a large library of virtually created crystal structures with a machine-learning energy predictor. This shotgun method (ShotgunCSP) has two key technical components: transfer learning for accurate energy prediction of pre-relaxed crystalline states, and two generative models based on element substitution and symmetry-restricted structure generation to produce promising and diverse crystal structures. First-principles calculations were performed only to generate the training samples and to refine a few selected pre-relaxed crystal structures. The ShotunCSP method is computationally less intensive than conventional methods and exhibits exceptional prediction accuracy, reaching 93.3% in benchmark tests with 90 different crystal structures.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# SR+Codec:ビデオ圧縮ビットレート低減のための超解法ベンチマーク

SR+Codec: a Benchmark of Super-Resolution for Video Compression Bitrate Reduction ( http://arxiv.org/abs/2305.04844v2 )

ライセンス: Link先を確認
Evgeney Bogatyrev, Ivan Molodetskikh, Dmitriy Vatolin, (参考訳) 近年,低解像度入力から高解像度画像を生成することに焦点を当てた超解像(SR)への関心が高まっている。 深層学習に基づく超解像法は特に人気があり、様々なベンチマークで印象的な結果を示している。 しかし, 強圧縮ビデオでは, これらの手法がうまく動作しない可能性が示唆された。 我々は、SRの圧縮ビデオのキャパシティを超高解像度で解析するベンチマークを開発した。 H.264, H.265, H.266, AV1, AVS3の5つの広く使用されている圧縮標準に基づくビデオコーデックを用いた。 我々はベンチマークを用いて19種類のSRモデルを評価し、その詳細と圧縮アーティファクトに対する感受性を復元する能力を評価した。 SRモデルの正確な評価を得るために,クラウドソースによる出力の比較を行った。 いくつかのSRモデルと圧縮を組み合わせることで、品質を著しく損なうことなくビデオビットレートを削減できることがわかった。 また,超解像圧縮ビデオの精度を評価するために,画像および映像品質の指標を主観的スコアと比較した。 ベンチマークはhttps://videoprocessing.ai/benchmarks/super- resolution-for-video-compression.htmlで公開されている。

In recent years, there has been significant interest in Super-Resolution (SR), which focuses on generating a high-resolution image from a low-resolution input. Deep learning-based methods for super-resolution have been particularly popular and have shown impressive results on various benchmarks. However, research indicates that these methods may not perform as well on strongly compressed videos. We developed a super-resolution benchmark to analyze SR's capacity to upscale compressed videos. Our dataset employed video codecs based on five widely-used compression standards: H.264, H.265, H.266, AV1, and AVS3. We assessed 19 popular SR models using our benchmark and evaluated their ability to restore details and their susceptibility to compression artifacts. To get an accurate perceptual ranking of SR models, we conducted a crowd-sourced side-by-side comparison of their outputs. We found that some SR models, combined with compression, allow us to reduce the video bitrate without significant loss of quality. We also compared a range of image and video quality metrics with subjective scores to evaluate their accuracy on super-resolved compressed videos. The benchmark is publicly available at https://videoprocessing.ai/benchmarks/super-resolution-for-video-compression.html
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# ミニマックス修正による効果的な二値最適化

Effective Bilevel Optimization via Minimax Reformulation ( http://arxiv.org/abs/2305.13153v3 )

ライセンス: Link先を確認
Xiaoyu Wang, Rui Pan, Renjie Pi, Tong Zhang, (参考訳) バイレベル最適化は、ハイパーパラメータ最適化、データクリーニング、メタラーニングなど、さまざまな機械学習問題に成功している。 しかし、その膨大な計算コストは、大規模問題におけるその利用に大きな課題をもたらす。 この課題は、二段階の定式化のネスト構造が原因であり、各超勾配計算はコストのかかる内部最適化手順を必要とする。 この問題に対処するために,2レベル最適化をミニマックス問題として再検討し,外部インナー依存性を効果的に分離する手法を提案する。 穏やかな条件下では、これらの2つの問題が等価であることを示す。 さらに,収束保証付きミニマックス問題の解法として,多段勾配降下法(GDA)アルゴリズムを導入する。 その結果,提案手法は計算コストを大幅に削減しつつ,最先端の2段階法よりも優れていた。

Bilevel optimization has found successful applications in various machine learning problems, including hyper-parameter optimization, data cleaning, and meta-learning. However, its huge computational cost presents a significant challenge for its utilization in large-scale problems. This challenge arises due to the nested structure of the bilevel formulation, where each hyper-gradient computation necessitates a costly inner optimization procedure. To address this issue, we propose a reformulation of bilevel optimization as a minimax problem, effectively decoupling the outer-inner dependency. Under mild conditions, we show these two problems are equivalent. Furthermore, we introduce a multi-stage gradient descent and ascent (GDA) algorithm to solve the resulting minimax problem with convergence guarantees. Extensive experimental results demonstrate that our method outperforms state-of-the-art bilevel methods while significantly reducing the computational cost.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# ニューラルネットワーク:効率的な推論のための線形行列演算を用いたニューラルネットワーク計算

NeuralMatrix: Compute the Entire Neural Networks with Linear Matrix Operations for Efficient Inference ( http://arxiv.org/abs/2305.14405v4 )

ライセンス: Link先を確認
Ruiqi Sun, Siwei Ye, Jie Zhao, Xin He, Jianzhe Lin, Yiran Li, An Zou, (参考訳) ディープニューラルネットワーク(DNN)モデルにおける計算タイプの固有の多様性は、計算効率を制限し、推論レイテンシと消費電力の両方を増大させるハードウェアプロセッサの様々な特殊ユニットを必要とすることが多い。 本研究では,DNN全体の計算を線形行列演算に弾性的に変換するニューラルマトリックスを提案する。 この変換は、様々なDNNモデルをマトリックス操作でシームレスに実行し、単一のGeneral Matrix Multiplication (GEMM)アクセラレータで多目的DNNモデルを走らせる方法を舗装する。CNNとTransformerベースのモデルの両方による大規模な実験は、NeuralMatrixが幅広いDNNモデルを正確かつ効率的に実行し、CPU、GPU、SoCプラットフォームと比較して2.17-38.72倍の計算効率(すなわち、電力当たりのスループット)を達成する可能性を実証している。 このレベルの効率性は通常、特定のニューラルネットワーク用に設計されたアクセラレータでのみ達成できる。

The inherent diversity of computation types within the deep neural network (DNN) models often requires a variety of specialized units in hardware processors, which limits computational efficiency, increasing both inference latency and power consumption, especially when the hardware processor needs to support and execute different neural networks. In this study, we introduce NeuralMatrix, which elastically transforms the computations of entire DNNs into linear matrix operations. This transformation allows seamless execution of various DNN models all with matrix operations and paves the way for running versatile DNN models with a single General Matrix Multiplication (GEMM) accelerator.Extensive experiments with both CNN and transformer-based models demonstrate the potential of NeuralMatrix to accurately and efficiently execute a wide range of DNN models, achieving 2.17-38.72 times computation efficiency (i.e., throughput per power) compared to CPUs, GPUs, and SoC platforms. This level of efficiency is usually only attainable with the accelerator designed for a specific neural network.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# ラベル効率の良いセマンティックセグメンテーションにおける信頼できない擬似ラベルの利用

Using Unreliable Pseudo-Labels for Label-Efficient Semantic Segmentation ( http://arxiv.org/abs/2306.02314v2 )

ライセンス: Link先を確認
Haochen Wang, Yuchao Wang, Yujun Shen, Junsong Fan, Yuxi Wang, Zhaoxiang Zhang, (参考訳) ラベル効率の良いセマンティックセグメンテーションの欠如は、大量のラベル付きまたは弱いラベル付きデータを活用するために高品質な擬似ラベルを作成することである。 一般的には、各ピクセルの擬似地上構造として高い信頼性の予測を選択するが、その信頼性の低いためほとんどのピクセルが未使用のままになるという問題が生じる。 しかし、各ピクセルはモデルトレーニングに重要であり、信頼できない、曖昧なピクセルでさえも重要であると我々は主張する。 直感的には、信頼できない予測は上位クラスの間で混乱するかもしれないが、残りのクラスに属していないピクセルに自信を持つべきである。 したがって、そのようなピクセルは、最もありそうもないカテゴリの負の鍵として、説得的に扱うことができる。 そこで我々は,ラベルのないデータを十分に活用するための効果的なパイプラインを構築した。 具体的には、予測のエントロピーを通じて信頼できない画素を分離し、信頼できない各ピクセルを負のキーからなるカテゴリワイドキューにプッシュし、すべての候補画素でモデルをトレーニングする。 トレーニングの進化を考えると、信頼できない分割の閾値を適応的に調整する。 様々なベンチマークとトレーニング設定の実験結果から、最先端の代替案に対するアプローチの優位性を実証した。

The crux of label-efficient semantic segmentation is to produce high-quality pseudo-labels to leverage a large amount of unlabeled or weakly labeled data. A common practice is to select the highly confident predictions as the pseudo-ground-truths for each pixel, but it leads to a problem that most pixels may be left unused due to their unreliability. However, we argue that every pixel matters to the model training, even those unreliable and ambiguous pixels. Intuitively, an unreliable prediction may get confused among the top classes, however, it should be confident about the pixel not belonging to the remaining classes. Hence, such a pixel can be convincingly treated as a negative key to those most unlikely categories. Therefore, we develop an effective pipeline to make sufficient use of unlabeled data. Concretely, we separate reliable and unreliable pixels via the entropy of predictions, push each unreliable pixel to a category-wise queue that consists of negative keys, and manage to train the model with all candidate pixels. Considering the training evolution, we adaptively adjust the threshold for the reliable-unreliable partition. Experimental results on various benchmarks and training settings demonstrate the superiority of our approach over the state-of-the-art alternatives.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# 適応コアセット選択による効率的かつロバストな量子化学習

Efficient and Robust Quantization-aware Training via Adaptive Coreset Selection ( http://arxiv.org/abs/2306.07215v3 )

ライセンス: Link先を確認
Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng, (参考訳) QAT(Quantization-Aware Training)は、重みとアクティベーションの冗長性を低減するための代表的なモデル圧縮手法である。 しかし、既存のQAT手法の多くはデータセット全体のエンドツーエンドのトレーニングを必要としており、長いトレーニング時間と高エネルギーコストに悩まされている。 さらに、トレーニングデータの潜在的なラベルノイズは、QATの堅牢性を損なう。 本稿では, 誤差ベクトルスコアと不一致スコアという, 量子化重みの損失と勾配の分析に基づく2つの指標を提案し, トレーニング中の各試料の重要性を定量化する。 これら2つの指標から導かれる量子化対応コアセット選択法(ACS)を提案する。 各種ネットワーク(ResNet-18, MobileNetV2, RetinaNet)、データセット(CIFAR-10, CIFAR-100, ImageNet-1K, COCO)、および異なる量子化設定下で評価を行った。 具体的には、ImageNet-1Kデータセットの4ビット量子化ResNet-18の68.39倍の精度を10倍のサブセットで達成し、ベースラインに比べて4.24倍の絶対ゲインが得られる。 また,本手法は,トレーニングセットのノイズサンプルを除去することにより,QATの堅牢性を向上させることができる。

Quantization-aware training (QAT) is a representative model compression method to reduce redundancy in weights and activations. However, most existing QAT methods require end-to-end training on the entire dataset, which suffers from long training time and high energy costs. In addition, the potential label noise in the training data undermines the robustness of QAT. We propose two metrics based on analysis of loss and gradient of quantized weights: error vector score and disagreement score, to quantify the importance of each sample during training. Guided by these two metrics, we proposed a quantization-aware Adaptive Coreset Selection (ACS) method to select the data for the current training epoch. We evaluate our method on various networks (ResNet-18, MobileNetV2, RetinaNet), datasets(CIFAR-10, CIFAR-100, ImageNet-1K, COCO), and under different quantization settings. Specifically, our method can achieve an accuracy of 68.39\% of 4-bit quantized ResNet-18 on the ImageNet-1K dataset with only a 10\% subset, which has an absolute gain of 4.24\% compared to the baseline. Our method can also improve the robustness of QAT by removing noisy samples in the training set.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# DPM: 分離による感性データのクラスタリング

DPM: Clustering Sensitive Data through Separation ( http://arxiv.org/abs/2307.02969v3 )

ライセンス: Link先を確認
Johannes Liebenow, Yara Schütt, Tanya Braun, Marcel Gehrke, Florian Thaeter, Esfandiar Mohammadi, (参考訳) クラスタリングは、データセットを、基盤となるデータ構造によく適合する不整合クラスタに分割することを目的としている、データ探索のための重要なツールである。 機密データを扱う場合、プライバシー保護アルゴリズムは機密情報の漏洩を最小限に抑えつつ、プライベートでないベースラインを近似することを目的としている。 最先端のプライバシ保存クラスタリングアルゴリズムは、標準メトリクス、慣性、シルエットスコア、クラスタリング精度の点で優れたクラスタを出力する傾向にあるが、クラスタリング結果は非プライベートなKMeansベースラインから強く逸脱する。 本研究では,幾何的クラスタリングアプローチに基づいて,データセットをクラスタに再帰的に分離するDPMというプライバシ保護クラスタリングアルゴリズムを提案する。 さらに、DPMはデータ依存のハイパーパラメータの大部分をプライバシ保護の方法で見積もっている。 我々はDPMが識別プライバシーを保持し、DPMの実用性保証を分析することを証明した。 最後に,合成および実生活データセットに対する広範な実験評価を行う。 我々は,DPMが標準クラスタリングメトリクスの最先端性を実現し,クラス数を必要とせずに,一般的なKMeansアルゴリズムに近いクラスタリング結果が得られることを示す。

Clustering is an important tool for data exploration where the goal is to subdivide a data set into disjoint clusters that fit well into the underlying data structure. When dealing with sensitive data, privacy-preserving algorithms aim to approximate the non-private baseline while minimising the leakage of sensitive information. State-of-the-art privacy-preserving clustering algorithms tend to output clusters that are good in terms of the standard metrics, inertia, silhouette score, and clustering accuracy, however, the clustering result strongly deviates from the non-private KMeans baseline. In this work, we present a privacy-preserving clustering algorithm called DPM that recursively separates a data set into clusters based on a geometrical clustering approach. In addition, DPM estimates most of the data-dependent hyper-parameters in a privacy-preserving way. We prove that DPM preserves Differential Privacy and analyse the utility guarantees of DPM. Finally, we conduct an extensive empirical evaluation for synthetic and real-life data sets. We show that DPM achieves state-of-the-art utility on the standard clustering metrics and yields a clustering result much closer to that of the popular non-private KMeans algorithm without requiring the number of classes.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# MMBench: マルチモーダルモデルはオールアラウンドプレイヤーか?

MMBench: Is Your Multi-modal Model an All-around Player? ( http://arxiv.org/abs/2307.06281v5 )

ライセンス: Link先を確認
Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, Kai Chen, Dahua Lin, (参考訳) 大規模視覚言語モデル(VLM)は近年顕著な進歩を遂げ、印象的なマルチモーダル認識と推論能力を示している。 しかし、これらの大きなVLMを効果的に評価することは大きな課題であり、この領域の将来的な発展を妨げる。 VQAv2やCOCO Captionのような従来のベンチマークは、定量的なパフォーマンス測定を提供するが、詳細な能力評価と堅牢な評価指標は欠如している。 一方、OwlEvalのような主観的なベンチマークは、人間の労働を取り入れることで、モデルの能力を総合的に評価する。 これらの課題に対応するために,VLMのマルチモーダル能力を評価するためのバイリンガルベンチマークMMBenchを提案する。 MMBenchは、主に以下の重要な特徴からなる包括的な評価パイプラインを方法論的に開発している。 1.MMBenchは、よく設計された品質管理スキームで精巧にキュレーションされ、既存の類似ベンチマークを、さまざまな評価質問や能力で上回っている。 MMBenchは厳密なCircularEval戦略を導入し、大きな言語モデルを組み込んで、自由形式の予測を事前定義された選択に変換する。 3. MMBenchは、英語版と中国語版の両方で複数の選択質問を取り入れ、バイリンガル文脈下でのVLMのパフォーマンスのリンゴとアプリケーションの比較を可能にする。 要約すると、MMBenchは視覚言語モデルの堅牢で総合的な評価のための体系的に設計された客観的ベンチマークである。 MMBenchは、研究コミュニティが彼らのモデルを評価し、この分野の将来的な進歩を促進することを願っている。 MMBenchの評価コードはVLMEvalKitに統合された: https://github.com/open-compass/VLMEvalKit。

Large vision-language models (VLMs) have recently achieved remarkable progress, exhibiting impressive multimodal perception and reasoning abilities. However, effectively evaluating these large VLMs remains a major challenge, hindering future development in this domain. Traditional benchmarks like VQAv2 or COCO Caption provide quantitative performance measurements but lack fine-grained ability assessment and robust evaluation metrics. Meanwhile, subjective benchmarks, such as OwlEval, offer comprehensive evaluations of a model's abilities by incorporating human labor, which is not scalable and may display significant bias. In response to these challenges, we propose MMBench, a bilingual benchmark for assessing the multi-modal capabilities of VLMs. MMBench methodically develops a comprehensive evaluation pipeline, primarily comprised of the following key features: 1. MMBench is meticulously curated with well-designed quality control schemes, surpassing existing similar benchmarks in terms of the number and variety of evaluation questions and abilities; 2. MMBench introduces a rigorous CircularEval strategy and incorporates large language models to convert free-form predictions into pre-defined choices, which helps to yield accurate evaluation results for models with limited instruction-following capabilities. 3. MMBench incorporates multiple-choice questions in both English and Chinese versions, enabling an apples-to-apples comparison of VLMs' performance under a bilingual context. To summarize, MMBench is a systematically designed objective benchmark for a robust and holistic evaluation of vision-language models. We hope MMBench will assist the research community in better evaluating their models and facilitate future progress in this area. The evalutation code of MMBench has been integrated into VLMEvalKit: https://github.com/open-compass/VLMEvalKit.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# 全体MR画像におけるAtlas-based Interpretable Age Prediction

Atlas-Based Interpretable Age Prediction In Whole-Body MR Images ( http://arxiv.org/abs/2307.07439v4 )

ライセンス: Link先を確認
Sophie Starck, Yadunandan Vivekanand Kini, Jessica Johanna Maria Ritter, Rickmer Braren, Daniel Rueckert, Tamara Mueller, (参考訳) 年齢予測は医療評価と研究の重要な部分である。 慢性期と生物学的年齢の潜在的な相違を強調することにより、疾患の検出や異常な老化を支援できる。 様々な身体部位の加齢変化の理解を深めるために,全身3D画像を用いて人体を大規模に老化させる方法について検討した。 我々はGrad-CAM法を用いて、人の年齢を最も予測する身体領域を推定する。 対象者を超えて分析を拡大するため,対象者全体に対して最も予測可能な地域を示す人口規模の重要度マップを作成するために,登録手法を採用した。 対象者の年齢を予測する上で,全身の3次元容積と全人口分析は,どの部位が最も重要な役割を担っているかという重要な洞察を与えることができる。 以上の結果より, 脊椎, 自家背筋, 心臓領域の3つの主要な関心領域が明らかとなった。 最後に,加速・減速した被験者の年齢差について検討した。

Age prediction is an important part of medical assessments and research. It can aid in detecting diseases as well as abnormal ageing by highlighting potential discrepancies between chronological and biological age. To improve understanding of age-related changes in various body parts, we investigate the ageing of the human body on a large scale by using whole-body 3D images. We utilise the Grad-CAM method to determine the body areas most predictive of a person's age. In order to expand our analysis beyond individual subjects, we employ registration techniques to generate population-wide importance maps that show the most predictive areas in the body for a whole cohort of subjects. We show that the investigation of the full 3D volume of the whole body and the population-wide analysis can give important insights into which body parts play the most important roles in predicting a person's age. Our findings reveal three primary areas of interest: the spine, the autochthonous back muscles, and the cardiac region, which exhibits the highest importance. Finally, we investigate differences between subjects that show accelerated and decelerated ageing.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# 量子スピン鎖の最適制御による永続的弾道絡み広がり

Persistent Ballistic Entanglement Spreading with Optimal Control in Quantum Spin Chains ( http://arxiv.org/abs/2307.11609v2 )

ライセンス: Link先を確認
Ying Lu, Pei Shi, Xiao-Han Wang, Jie Hu, Shi-Ju Ran, (参考訳) 絡み合いの伝播は、平衡の内外における量子多体ダイナミクスを理解するための重要なルーチンを提供する。 エンタングルメントエントロピー(EE)は、通常、ランダムなユニタリ進化(英語版)において、ページ値 $\tilde{S}_{P} =\tilde{S} - dS$ ($\tilde{S}$の最大値と$dS$のページ補正)と呼ばれる部分飽和にアプローチする。 EEの弾道的な普及は、通常、早期に現れ、ページの値が到達するずっと前に区切られるでしょう。 本研究では、脳波を最大化する磁場が、量子スピン鎖におけるエンタングルメントの永続的な弾道拡散を誘導することを明らかにする。 EEの線形成長は、(平坦な絡み合いスペクトルとともに)最大$\tilde{S}$に達するまで持続することが示される。 このような最適制御下での弾道的拡散の堅牢性とEEの強化は、特にランダム純粋状態(RPS)による初期状態の摂動を考慮して示されている。 これらは RPS の最適制御の絡み合いによる時間進化の自己準同型(英語版)の結果として議論されている。

Entanglement propagation provides a key routine to understand quantum many-body dynamics in and out of equilibrium. The entanglement entropy (EE) usually approaches to a sub-saturation known as the Page value $\tilde{S}_{P} =\tilde{S} - dS$ (with $\tilde{S}$ the maximum of EE and $dS$ the Page correction) in, e.g., the random unitary evolutions. The ballistic spreading of EE usually appears in the early time and will be deviated far before the Page value is reached. In this work, we uncover that the magnetic field that maximizes the EE robustly induces persistent ballistic spreading of entanglement in quantum spin chains. The linear growth of EE is demonstrated to persist till the maximal $\tilde{S}$ (along with a flat entanglement spectrum) is reached. The robustness of ballistic spreading and the enhancement of EE under such an optimal control are demonstrated, considering particularly perturbing the initial state by random pure states (RPS's). These are argued as the results from the endomorphism of the time evolution under such an entanglement-enhancing optimal control for the RPS's.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# 医用画像におけるアレタリック不確実性定量のための潜在密度分割モデルの検討と改善

Investigating and Improving Latent Density Segmentation Models for Aleatoric Uncertainty Quantification in Medical Imaging ( http://arxiv.org/abs/2307.16694v5 )

ライセンス: Link先を確認
M. M. Amaan Valiuddin, Christiaan G. A. Viviers, Ruud J. G. van Sloun, Peter H. N. de With, Fons van der Sommen, (参考訳) センサノイズ、オクルージョン、取得法における制限などのデータ不確実性は、画像に既約曖昧性を導入し、その結果、様々な、もっとも妥当なセマンティック仮説がもたらされる。 機械学習では、この曖昧さは一般にアレタリック不確実性と呼ばれる。 イメージセグメンテーションでは、この問題に対処するために潜在密度モデルを利用することができる。 最も一般的なアプローチは確率的U-Net (PU-Net) である。 本研究では,PU-Netの潜伏空間が疎外であり,利用が不十分であることを示す。 これを解決するために、潜時空間における相互情報最大化とエントロピー規則化Sinkhorn Divergenceを導入し、すべての潜時次元における均質性を向上し、傾きの更新と潜時空間の通知性を効果的に改善する。 提案手法は, 各種臨床セグメント化問題の公開データセットにこれを適用することにより, ハンガリー・マチェド・インターセクションにおける確率的セグメンテーションに対する先行の潜在変数モデルと比較して, 最大11%の性能向上が得られた。 その結果, 同種潜伏空間の促進は, 医用画像セグメンテーションにおける潜伏密度モデリングを著しく改善することが示された。

Data uncertainties, such as sensor noise, occlusions or limitations in the acquisition method can introduce irreducible ambiguities in images, which result in varying, yet plausible, semantic hypotheses. In Machine Learning, this ambiguity is commonly referred to as aleatoric uncertainty. In image segmentation, latent density models can be utilized to address this problem. The most popular approach is the Probabilistic U-Net (PU-Net), which uses latent Normal densities to optimize the conditional data log-likelihood Evidence Lower Bound. In this work, we demonstrate that the PU-Net latent space is severely sparse and heavily under-utilized. To address this, we introduce mutual information maximization and entropy-regularized Sinkhorn Divergence in the latent space to promote homogeneity across all latent dimensions, effectively improving gradient-descent updates and latent space informativeness. Our results show that by applying this on public datasets of various clinical segmentation problems, our proposed methodology receives up to 11% performance gains compared against preceding latent variable models for probabilistic segmentation on the Hungarian-Matched Intersection over Union. The results indicate that encouraging a homogeneous latent space significantly improves latent density modeling for medical image segmentation.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# MMつぶやきで言語バリアを壊す - Fact-Checkingのための言語間対話型ナラティブ検索の改善

Breaking Language Barriers with MMTweets: Advancing Cross-Lingual Debunked Narrative Retrieval for Fact-Checking ( http://arxiv.org/abs/2308.05680v2 )

ライセンス: Link先を確認
Iknoor Singh, Carolina Scarton, Xingyi Song, Kalina Bontcheva, (参考訳) 前述した物語を見つけるには、既に事実確認を受けている主張を特定する必要がある。 この問題は、他の言語で数ヶ月にわたってデバンクが利用可能であったにもかかわらず、類似の偽の主張が複数の言語で持続する時を増す。 したがって、不足するファクトチェックのリソースを最大限活用するためには、複数の言語でデバンク(あるいはファクトチェック)を自動的に見つけることが不可欠である。 特に、言語横断的なシナリオ、すなわち、チェックされているオンライン投稿の言語とは異なる言語におけるデバンクの検索を考えると、これは未調査の問題である。 本研究は、言語横断的な物語検索を導入し、この研究ギャップを次のように解決する。 (i)Multilingual Misinformation Tweets(MMTweets):多言語間ペア、画像、人間のアノテーション、きめ細かいラベルを特徴とするデータセット。 二 最先端の言語間検索モデルをベンチマークし、タスクに適した多段階検索手法を導入するための広範な実験を行うこと。 3)MMつぶやき内における言語間・データセット間転送機能の検索モデルを総合的に評価し,検索遅延解析を行う。 MMTweetsは言語横断的な物語検索の課題を示し,検索モデルの改善領域を強調している。 それにもかかわらず、この研究は、MMTweetsデータセットの作成と、事実チェックの取り組みを促進するために分割された物語検索モデルを最適化するための貴重な洞察を提供する。 データセットとアノテーションのコードブックはhttps://doi.org/10.5281/zenodo.10637161で公開されている。

Finding previously debunked narratives involves identifying claims that have already undergone fact-checking. The issue intensifies when similar false claims persist in multiple languages, despite the availability of debunks for several months in another language. Hence, automatically finding debunks (or fact-checks) in multiple languages is crucial to make the best use of scarce fact-checkers' resources. Mainly due to the lack of readily available data, this is an understudied problem, particularly when considering the cross-lingual scenario, i.e. the retrieval of debunks in a language different from the language of the online post being checked. This study introduces cross-lingual debunked narrative retrieval and addresses this research gap by: (i) creating Multilingual Misinformation Tweets (MMTweets): a dataset that stands out, featuring cross-lingual pairs, images, human annotations, and fine-grained labels, making it a comprehensive resource compared to its counterparts; (ii) conducting an extensive experiment to benchmark state-of-the-art cross-lingual retrieval models and introducing multistage retrieval methods tailored for the task; and (iii) comprehensively evaluating retrieval models for their cross-lingual and cross-dataset transfer capabilities within MMTweets, and conducting a retrieval latency analysis. We find that MMTweets presents challenges for cross-lingual debunked narrative retrieval, highlighting areas for improvement in retrieval models. Nonetheless, the study provides valuable insights for creating MMTweets datasets and optimising debunked narrative retrieval models to empower fact-checking endeavours. The dataset and annotation codebook are publicly available at https://doi.org/10.5281/zenodo.10637161.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-20
# ビジョンランゲージデータセット蒸留

Vision-Language Dataset Distillation ( http://arxiv.org/abs/2308.07545v4 )

ライセンス: Link先を確認
Xindi Wu, Byron Zhang, Zhiwei Deng, Olga Russakovsky, (参考訳) データセット蒸留法は、大規模なデータセットをより小さな合成データ集合に還元し、新しいモデルをスクラッチから迅速に訓練するのに十分な情報を保存する。 しかしながら、データセットの蒸留に関する以前の研究は、画像分類データセットにのみ焦点をあてていたが、現代の大規模データセットは、主に視覚言語データセットである。 本研究では,トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。 重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。 これを解決するために, コントラスト式で画像とテキストのペアを共同蒸留する手法を提案する。 さらに、Low-Rank Adaptation (LoRA) マッチングを利用して、複雑な視覚言語モデルにおいてより効率的で効果的な軌道マッチングを可能にする。 既存のベースラインが存在しないため、蒸留法を3つの適応型視覚言語コアセット選択法と比較する。 例えば、Flickr30Kでは、トレーニング用の1000の画像テキストペアを選択する最良のコアセット選択手法は、画像からテキストへの検索精度が5.6%(リコール@1)しか達成できませんが、対照的に、データセットの蒸留は、たった100のトレーニングペアでほぼ9.9%に向上します。

Dataset distillation methods reduce large-scale datasets to smaller sets of synthetic data, preserving sufficient information to quickly train a new model from scratch. However, prior work on dataset distillation has focused exclusively on image classification datasets, whereas modern large-scale datasets are primarily vision-language datasets. In this work, we design the first vision-language dataset distillation method, building on the idea of trajectory matching. A key challenge is that vision-language datasets do not have a set of discrete classes. To overcome this, our proposed method jointly distills image-text pairs in a contrastive formulation. Further, we leverage Low-Rank Adaptation (LoRA) matching to enable more efficient and effective trajectory matching in complex modern vision-language models. Since there are no existing baselines, we compare our distillation approach with three adapted vision-language coreset selection methods. We demonstrate significant improvements on the challenging Flickr30K and COCO retrieval benchmarks: for example, on Flickr30K, the best coreset selection method selecting 1000 image-text pairs for training achieves only 5.6% image-to-text retrieval accuracy (i.e., recall@1); in contrast, our dataset distillation almost doubles that to 9.9% with just 100 training pairs, an order of magnitude fewer.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# 相互相似性を用いた車線検出のためのコントラスト学習

Contrastive Learning for Lane Detection via cross-similarity ( http://arxiv.org/abs/2308.08242v4 )

ライセンス: Link先を確認
Ali Zoljodi, Sadegh Abadijou, Mina Alibeigi, Masoud Daneshtalab, (参考訳) 道路シーンにおける車線標識の検出は、その複雑な性質が好ましくない条件に影響を受けやすいため、課題となる。 レーンマーキングは前もって強い形状をしているが、その視認性は照明条件、他の車両や歩行者による閉塞、時間の経過とともに色が消えることによって容易に損なわれる。 検出プロセスは、いくつかのレーン形状と自然変動の存在によりさらに複雑であり、様々なシナリオを扱える堅牢なレーン検出モデルを訓練するために大量のデータを必要とする。 本稿では,実世界のシナリオにおける車線検出モデルのレジリエンスを高めるために,車線検出のためのコントラスト学習法であるCLLD(Contrastive Learning for Lane Detection)を提案する。 CLLDは、入力画像のグローバルコンテキスト内の局所的特徴の類似性を評価する、コントラッシブラーニング(CL)手法を導入する。 周囲の情報を使ってレーンマーキングを予測する。 これは,提案したクロスシミラ演算と局所特徴比較学習を統合することで実現される。 局所的な特徴CLは小さなパッチから特徴を抽出することに集中している。 一方、異種間の類似性はグローバルな特徴を捉え、周囲に基づいて不明瞭な車線セグメントを検出することができる。 増大過程において入力画像の一部をランダムにマスキングすることで、相似性を向上する。 TuSimpleとCuLaneのベンチマークによる大規模な実験では、CLLDはSOTAの対照的な学習方法、特にシャドーのような視認性に欠ける条件において優れており、通常の条件下では同等の結果をもたらす。 教師付き学習と比較すると、CLLDはいまだに現実の運転で一般的な影や混雑したシーンのような困難なシナリオに長けている。

Detecting lane markings in road scenes poses a challenge due to their intricate nature, which is susceptible to unfavorable conditions. While lane markings have strong shape priors, their visibility is easily compromised by lighting conditions, occlusions by other vehicles or pedestrians, and fading of colors over time. The detection process is further complicated by the presence of several lane shapes and natural variations, necessitating large amounts of data to train a robust lane detection model capable of handling various scenarios. In this paper, we present a novel self-supervised learning method termed Contrastive Learning for Lane Detection via cross-similarity (CLLD) to enhance the resilience of lane detection models in real-world scenarios, particularly when the visibility of lanes is compromised. CLLD introduces a contrastive learning (CL) method that assesses the similarity of local features within the global context of the input image. It uses the surrounding information to predict lane markings. This is achieved by integrating local feature contrastive learning with our proposed cross-similar operation. The local feature CL concentrates on extracting features from small patches, a necessity for accurately localizing lane segments. Meanwhile, cross-similarity captures global features, enabling the detection of obscured lane segments based on their surroundings. We enhance cross-similarity by randomly masking portions of input images in the process of augmentation. Extensive experiments on TuSimple and CuLane benchmarks demonstrate that CLLD outperforms SOTA contrastive learning methods, particularly in visibility-impairing conditions like shadows, while it also delivers comparable results under normal conditions. Compared to supervised learning, CLLD still excels in challenging scenarios such as shadows and crowded scenes, which are common in real-world driving.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# ブリザード2023チャレンジにおけるフルートシェルフランスの合成システム

The FruitShell French synthesis system at the Blizzard 2023 Challenge ( http://arxiv.org/abs/2309.00223v2 )

ライセンス: Link先を確認
Xin Qi, Xiaopeng Wang, Zhiyong Wang, Wang Liu, Mingming Ding, Shuchen Shi, (参考訳) 本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。 この課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することの2つのタスクから構成される。 競合データについては,欠落したテキストデータや誤テキストデータを除去するスクリーニング処理を行った。 音素以外のすべての記号を整理し,発音や持続時間を持たない記号を除去した。 さらに、テキストに単語境界と開始/終了記号を追加し、過去の経験を基にした音声品質の向上を図った。 Spokeタスクでは,競合ルールに従ってデータ拡張を行った。 我々は、オープンソースのG2Pモデルを使用して、フランス語のテキストを音素に書き起こした。 G2PモデルはIPA(International Phonetic Alphabet)を用いており、提案した競合データに同じ書き起こし処理を適用して標準化した。 しかし、IPAチャートから特殊記号を認識する際のコンパイラの制限により、全ての音素を競合データに使用する音素に変換する規則に従った。 最後に,全競合音声を均一サンプリングレート16kHzに再サンプリングした。 ハイフィガンボコーダを用いたVITSを用いた音響モデルを用いた。 Spokeタスクでは,複数話者モデルを訓練し,モデルの持続時間予測器,ボコーダ,フロー層に話者情報を組み込んだ。 システム評価の結果,Hubタスクが3.6,Spokeタスクが3.4,システムの平均レベルが全参加チーム中の平均値となった。

This paper presents a French text-to-speech synthesis system for the Blizzard Challenge 2023. The challenge consists of two tasks: generating high-quality speech from female speakers and generating speech that closely resembles specific individuals. Regarding the competition data, we conducted a screening process to remove missing or erroneous text data. We organized all symbols except for phonemes and eliminated symbols that had no pronunciation or zero duration. Additionally, we added word boundary and start/end symbols to the text, which we have found to improve speech quality based on our previous experience. For the Spoke task, we performed data augmentation according to the competition rules. We used an open-source G2P model to transcribe the French texts into phonemes. As the G2P model uses the International Phonetic Alphabet (IPA), we applied the same transcription process to the provided competition data for standardization. However, due to compiler limitations in recognizing special symbols from the IPA chart, we followed the rules to convert all phonemes into the phonetic scheme used in the competition data. Finally, we resampled all competition audio to a uniform sampling rate of 16 kHz. We employed a VITS-based acoustic model with the hifigan vocoder. For the Spoke task, we trained a multi-speaker model and incorporated speaker information into the duration predictor, vocoder, and flow layers of the model. The evaluation results of our system showed a quality MOS score of 3.6 for the Hub task and 3.4 for the Spoke task, placing our system at an average level among all participating teams.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# カオス多体量子系における固有状態相関、固有状態熱化仮説、および量子情報ダイナミクス

Eigenstate correlations, the eigenstate thermalization hypothesis, and quantum information dynamics in chaotic many-body quantum systems ( http://arxiv.org/abs/2309.12982v2 )

ライセンス: Link先を確認
Dominik Hahn, David J. Luitz, J. T. Chalker, (参考訳) カオス多体量子系における時間進化作用素の固有状態の統計的性質を考察する。 我々の焦点は、空間的に拡張されたシステムに特有の固有状態と、絡み合いのダイナミクスと演算子の拡散を特徴づける相関性である。 局所保存法則の結果として生じる力学のこれらの側面を分離するために,保存密度のないフロッケ系を考察する。 量子情報のスクランブルに関連する相関は、固有状態熱化仮説(ETH)によって確立された標準枠組みの外側にある。 特に、ETHは、一対の固有状態の間の局所作用素の行列要素の統計的記述を提供するが、我々が関係している力学の側面は、4つ以上の固有状態の集合間の相関から生じる。 我々はこれらの相関関係を捉える最も単純な相関関数を確立し、長距離および低エネルギーで普遍的であると期待される振る舞いの特徴について議論する。 また、小数$n$の固有状態の共分散に対する最大エントロピーアンサッツを提案する。 この場合、$n = 2$ この Ansatz は ETH を再現する。 $n = 4$の場合、時間進化演算子の純粋性によって特徴づけられるサブシステム間の絡み合いによる成長と、時間外相関子の振舞いによって特徴づけられる演算子拡散の両方をキャプチャする。 我々は、モンテカルロによるアンサッツのサンプリング結果とフロケ量子回路の正確な対角化研究を比較して、これらのアイデアを検証した。

We consider the statistical properties of eigenstates of the time-evolution operator in chaotic many-body quantum systems. Our focus is on correlations between eigenstates that are specific to spatially extended systems and that characterise entanglement dynamics and operator spreading. In order to isolate these aspects of dynamics from those arising as a result of local conservation laws, we consider Floquet systems in which there are no conserved densities. The correlations associated with scrambling of quantum information lie outside the standard framework established by the eigenstate thermalisation hypothesis (ETH). In particular, ETH provides a statistical description of matrix elements of local operators between pairs of eigenstates, whereas the aspects of dynamics we are concerned with arise from correlations amongst sets of four or more eigenstates. We establish the simplest correlation function that captures these correlations and discuss features of its behaviour that are expected to be universal at long distances and low energies. We also propose a maximum-entropy Ansatz for the joint distribution of a small number $n$ of eigenstates. In the case $n = 2$ this Ansatz reproduces ETH. For $n = 4$ it captures both the growth with time of entanglement between subsystems, as characterised by the purity of the time-evolution operator, and also operator spreading, as characterised by the behaviour of the out-of-time-order correlator. We test these ideas by comparing results from Monte Carlo sampling of our Ansatz with exact diagonalisation studies of Floquet quantum circuits.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# 分散ADMMを用いた分散型分散通信の分散最適化

Limited Communications Distributed Optimization via Deep Unfolded Distributed ADMM ( http://arxiv.org/abs/2309.14353v2 )

ライセンス: Link先を確認
Yoav Noah, Nir Shlezinger, (参考訳) 分散最適化は分散マルチエージェントシステムにおける協調推論と意思決定の基本的なフレームワークである。 この操作は、通常各エージェントが局所的に収集した観測に依存する共有目的の結合最小化としてモデル化される。 D-ADMMのような分散最適化アルゴリズムは、局所的な計算とメッセージ交換を反復的に組み合わせることで、この課題に対処する。 分散最適化に関連する主な課題の1つとして、特にD-ADMMでは、エージェント間でやりとりされるメッセージがコンセンサスに達するのに大量の通信が必要である。 これにより、D-ADMMの電力、レイテンシ、チャネルリソースのコストがかかります。 本研究では,D-ADMMが各エージェントによって事前に定義された少数のメッセージで確実に動作できるようにするための,新たな深層展開手法を踏襲した展開D-ADMMを提案する。 展開されたD-ADMMは、D-ADMMの動作を完全に保存し、データを活用してアルゴリズムの各イテレーションのハイパーパラメータをチューニングする。 これらのハイパーパラメータはエージェント固有のもので、与えられたネットワーク上で一定回数のイテレーションで最高のパフォーマンスを達成することを目指しているか、エージェント間で共有されているため、異なるネットワーク上で分散最適化を学ぶことができる。 いずれの設定においても,D-ADMMアルゴリズムの解釈可能性と柔軟性を保ちながら,限られた通信で動作します。 我々は,分散推定タスク,スパースリカバリ設定を考慮した分散推定タスク,機械学習モデルの学習において複数のエージェントが協力する分散学習シナリオの2つの代表的な設定に対して,展開されたD-ADMMを特化している。 提案手法は,D-ADMMの通信性能を損なうことなく,D-ADMMの通信回数を大幅に削減することを示す。

Distributed optimization is a fundamental framework for collaborative inference and decision making in decentralized multi-agent systems. The operation is modeled as the joint minimization of a shared objective which typically depends on observations gathered locally by each agent. Distributed optimization algorithms, such as the common D-ADMM, tackle this task by iteratively combining local computations and message exchanges. One of the main challenges associated with distributed optimization, and particularly with D-ADMM, is that it requires a large number of communications, i.e., messages exchanged between the agents, to reach consensus. This can make D-ADMM costly in power, latency, and channel resources. In this work we propose unfolded D-ADMM, which follows the emerging deep unfolding methodology to enable D-ADMM to operate reliably with a predefined and small number of messages exchanged by each agent. Unfolded D-ADMM fully preserves the operation of D-ADMM, while leveraging data to tune the hyperparameters of each iteration of the algorithm. These hyperparameters can either be agent-specific, aiming at achieving the best performance within a fixed number of iterations over a given network, or shared among the agents, allowing to learn to distributedly optimize over different networks. For both settings, our unfolded D-ADMM operates with limited communications, while preserving the interpretability and flexibility of the original D-ADMM algorithm. We specialize unfolded D-ADMM for two representative settings: a distributed estimation task, considering a sparse recovery setup, and a distributed learning scenario, where multiple agents collaborate in learning a machine learning model. Our numerical results demonstrate that the proposed approach dramatically reduces the number of communications utilized by D-ADMM, without compromising on its performance.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# FedMFS: 選択的モダリティ通信を用いた多モード融合学習

FedMFS: Federated Multimodal Fusion Learning with Selective Modality Communication ( http://arxiv.org/abs/2310.07048v4 )

ライセンス: Link先を確認
Liangqi Yuan, Dong-Jun Han, Vishnu Pandi Chellapandi, Stanislaw H. Żak, Christopher G. Brinton, (参考訳) マルチモーダル・フェデレート・ラーニング(FL)は、複数のモーダル(例えば、圧力、動き、その他の種類のデータを計測するセンサー)にわたってデバイスが測定しているFL設定におけるモデルトレーニングを強化することを目的としている。 しかし、特に異種ネットワーク設定において、マルチモーダルFLに対する重要な課題は未解決のままである。 (i)各装置が収集するモダリティの集合は多様であり、 (II)通信制限により、デバイスがローカルに訓練されたすべてのモダリティモデルをサーバにアップロードするのを防ぐ。 本稿では,FedMFS(Federated Multimodal Fusion Learning with Selective modality communication)を提案する。 鍵となるアイデアは、各デバイスに対するモダリティ選択基準の導入である。 (i)Shapley値分析によって測定されたモダリティの影響 (ii)通信オーバーヘッドの指標としてのモダリティモデルサイズ。 これにより、リソースの制約やアプリケーション要求に応じて、FedMFSは通信コストに対して柔軟にパフォーマンスのバランスをとることができます。 実世界のActionSenseデータセットの実験では、FedMFSが複数のベースラインに匹敵する精度を達成し、通信オーバーヘッドを4倍に削減できることを示した。

Multimodal federated learning (FL) aims to enrich model training in FL settings where devices are collecting measurements across multiple modalities (e.g., sensors measuring pressure, motion, and other types of data). However, key challenges to multimodal FL remain unaddressed, particularly in heterogeneous network settings: (i) the set of modalities collected by each device will be diverse, and (ii) communication limitations prevent devices from uploading all their locally trained modality models to the server. In this paper, we propose Federated Multimodal Fusion learning with Selective modality communication (FedMFS), a new multimodal fusion FL methodology that can tackle the above mentioned challenges. The key idea is the introduction of a modality selection criterion for each device, which weighs (i) the impact of the modality, gauged by Shapley value analysis, against (ii) the modality model size as a gauge for communication overhead. This enables FedMFS to flexibly balance performance against communication costs, depending on resource constraints and application requirements. Experiments on the real-world ActionSense dataset demonstrate the ability of FedMFS to achieve comparable accuracy to several baselines while reducing the communication overhead by over 4x.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# Fake News in Sheep's Clothing: Robust Fake News Detection against LLM-Empowered Style Attacks

Fake News in Sheep's Clothing: Robust Fake News Detection Against LLM-Empowered Style Attacks ( http://arxiv.org/abs/2310.10830v2 )

ライセンス: Link先を確認
Jiaying Wu, Jiafeng Guo, Bryan Hooi, (参考訳) 偽ニュースや実ニュースは、センセーショナルな言語と客観的な言語の使用など、異なる書き方を示していると一般的に認識されている。 しかし、スタイルベースの攻撃にも、スタイル関連の機能が活用できることを強調した。 特に、強力な大規模言語モデル(LLM)の出現により、悪意あるアクターは信頼できるニュースソースのスタイルを模倣し、迅速に、費用対効果、大規模に実行できるようになった。 解析の結果,LLMをカモフラージュした偽ニュースコンテンツは,最先端のテキストベース検出器(F1スコアの最大38%低下)の有効性を著しく損なうことが判明した。 この問題に対処するために,我々は,ニュースの正確性を決定する上で,スタイルよりもコンテンツの方が優先されるスタイルの偽ニュース検知器であるSheepDogを紹介した。 SheepDog はこのレジリエンスを,(1) LLM を利用したニューズリフレーミング,(2) 異なるスタイルに合わせて記事をカスタマイズしてスタイルの多様性を注入する,(2) スタイルの異なるリフレーミング間で一貫した妥当性予測を保証する,スタイルに依存しないトレーニングスキーム,(3) 偽ニュースをデバッキングするために LLM からコンテンツ中心のガイドラインを抽出するコンテンツ中心の正確性アトリビュート, 補助的手がかりの提供, 潜在的な不定性予測を支援する, などを通じて実現している。 3つの実世界のベンチマークに関する大規模な実験は、SheepDogのスタイルの堅牢性と様々なバックボーンへの適応性を示している。

It is commonly perceived that fake news and real news exhibit distinct writing styles, such as the use of sensationalist versus objective language. However, we emphasize that style-related features can also be exploited for style-based attacks. Notably, the advent of powerful Large Language Models (LLMs) has empowered malicious actors to mimic the style of trustworthy news sources, doing so swiftly, cost-effectively, and at scale. Our analysis reveals that LLM-camouflaged fake news content significantly undermines the effectiveness of state-of-the-art text-based detectors (up to 38% decrease in F1 Score), implying a severe vulnerability to stylistic variations. To address this, we introduce SheepDog, a style-robust fake news detector that prioritizes content over style in determining news veracity. SheepDog achieves this resilience through (1) LLM-empowered news reframings that inject style diversity into the training process by customizing articles to match different styles; (2) a style-agnostic training scheme that ensures consistent veracity predictions across style-diverse reframings; and (3) content-focused veracity attributions that distill content-centric guidelines from LLMs for debunking fake news, offering supplementary cues and potential intepretability that assist veracity prediction. Extensive experiments on three real-world benchmarks demonstrate SheepDog's style robustness and adaptability to various backbones.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# SAMがUAPと対決: あらゆるセグメンテーションモデルへの攻撃

SAM Meets UAP: Attacking Segment Anything Model With Universal Adversarial Perturbation ( http://arxiv.org/abs/2310.12431v2 )

ライセンス: Link先を確認
Dongshen Han, Chaoning Zhang, Sheng Zheng, Chang Lu, Yang Yang, Heng Tao Shen, (参考訳) Segment Anything Model (SAM) はコンピュータビジョンにおいて一般的な基礎モデルとなり、その逆の堅牢性は無視できない懸念となっている。 本研究は,画像に依存しないユニバーサル・ディバイサル・摂動 (UAP) でSAMを攻撃できるかどうかを検討する。 言い換えれば、SAMを騙して、ほとんどの(すべてではないとしても)画像に対して不正なマスクを予測できる単一の摂動を求める。 画像中心攻撃は画像独立攻撃には有効であるが,普遍的攻撃には有効ではないことを示す。 そこで本研究では,UAP をアンカーサンプルに設定し,UAP から正のサンプルを付加する自己教師付きコントラスト学習 (CL) に基づく UAP 生成手法を提案する。 画像エンコーダから負サンプルの表現を予め取得し、メモリバンクに保存する。 CLを用いたUAP生成手法の有効性を定量的および定性的に検証した。 提案手法の様々な成分を理解するためのアブレーション研究に加えて, 生成したUAPをSAM攻撃に有効にするために, 正および負のサンプルが果たす役割について光を当てた。

As Segment Anything Model (SAM) becomes a popular foundation model in computer vision, its adversarial robustness has become a concern that cannot be ignored. This works investigates whether it is possible to attack SAM with image-agnostic Universal Adversarial Perturbation (UAP). In other words, we seek a single perturbation that can fool the SAM to predict invalid masks for most (if not all) images. We demonstrate convetional image-centric attack framework is effective for image-independent attacks but fails for universal adversarial attack. To this end, we propose a novel perturbation-centric framework that results in a UAP generation method based on self-supervised contrastive learning (CL), where the UAP is set to the anchor sample and the positive sample is augmented from the UAP. The representations of negative samples are obtained from the image encoder in advance and saved in a memory bank. The effectiveness of our proposed CL-based UAP generation method is validated by both quantitative and qualitative results. On top of the ablation study to understand various components in our proposed method, we shed light on the roles of positive and negative samples in making the generated UAP effective for attacking SAM.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# Segment, Select, correct: 弱い修正された参照セグメンテーションのためのフレームワーク

Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation ( http://arxiv.org/abs/2310.13479v3 )

ライセンス: Link先を確認
Francisco Eiras, Kemal Oksuz, Adel Bibi, Philip H. S. Torr, Puneet K. Dokania, (参考訳) Referring Image Segmentation (RIS) - 自然言語文を通して画像中のオブジェクトを識別する問題は、現在主に教師付き学習によって解決されている課題である。 しかし、参照するアノテーションマスクの収集には時間を要するが、既存の弱い教師付きアプローチやゼロショットアプローチは、完全に教師付き学習方法に比べて、パフォーマンスが著しく低い。 マスクアノテーションを使わずにパフォーマンスギャップを埋めるために,参照命令(segment)で言及されたオブジェクトのインスタンスマスクを取得し,ゼロショット学習を用いて与えられた命令(select)に対して潜在的に正しいマスクを選択する,ゼロショット選択(correct)のミスを修正可能なモデルをブートストラップする,という3つのステップに分解してRISに対処する,新しい弱い教師付きフレームワークを提案する。 実験では,最初の2段階(ゼロショットセグメントとセレクト)で,他のゼロショットベースラインを最大16.5%向上させる一方,本手法はより強力なベースラインを改良し,弱教師付きRISのための新しい最先端技術を設定し,弱教師付き手法と完全教師付き手法のギャップを約33%から7%に短縮する。 コードはhttps://github.com/fgirbal/segment-select-correct.comで公開されている。

Referring Image Segmentation (RIS) - the problem of identifying objects in images through natural language sentences - is a challenging task currently mostly solved through supervised learning. However, while collecting referred annotation masks is a time-consuming process, the few existing weakly-supervised and zero-shot approaches fall significantly short in performance compared to fully-supervised learning ones. To bridge the performance gap without mask annotations, we propose a novel weakly-supervised framework that tackles RIS by decomposing it into three steps: obtaining instance masks for the object mentioned in the referencing instruction (segment), using zero-shot learning to select a potentially correct mask for the given instruction (select), and bootstrapping a model which allows for fixing the mistakes of zero-shot selection (correct). In our experiments, using only the first two steps (zero-shot segment and select) outperforms other zero-shot baselines by as much as 16.5%, while our full method improves upon this much stronger baseline and sets the new state-of-the-art for weakly-supervised RIS, reducing the gap between the weakly-supervised and fully-supervised methods in some cases from around 33% to as little as 7%. Code is available at https://github.com/fgirbal/segment-select-correct.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# ソーシャルメディアにおける説明可能な抑うつ症状検出

Explainable Depression Symptom Detection in Social Media ( http://arxiv.org/abs/2310.13664v3 )

ライセンス: Link先を確認
Eliseo Bao, Anxo Pérez, Javier Parapar, (参考訳) ソーシャルプラットフォームのユーザーは、これらのサイトを精神的な健康問題を投稿するための支援スペースとして認識することが多い。 これらの会話には、個人の健康リスクに関する重要な痕跡が含まれている。 最近、研究者たちは、このオンライン情報を利用してメンタルヘルス検出モデルを構築し、Twitter、Reddit、Facebookなどのプラットフォーム上で危険にさらされているユーザーを特定することを目標にしている。 これらのモデルのほとんどは、優れた分類結果を達成することに集中しており、決定の説明可能性や解釈可能性を無視している。 近年の研究では、健康専門家による計算モデルへの信頼を高めるために、症状の使用などの臨床マーカーを使用することの重要性が指摘されている。 本稿では, 利用者の文章中の抑うつ症状マーカーの出現を検知し, 説明するために, トランスフォーマーに基づくアーキテクチャを提案する。 私たちは2つのアプローチを提示します。 一 分類するモデルを訓練し、別々に分類者の判断を説明したもの 二 一つのモデルを用いて同時に二つのタスクを統一すること。 さらに,近年の会話型LLMの文脈内学習における性能についても検討した。 我々の自然言語の説明により、臨床医は、検証済みの症状に基づいてモデルの判断を解釈し、自動化プロセスへの信頼を高めることができる。 我々は、最近の症状に基づくデータセットを用いて、オフラインとエキスパート・イン・ザ・ループのメトリクスを用いて、モデルが生成した説明の質を評価するアプローチを評価した。 実験結果から,解釈可能な症状に基づく説明を生成しつつ,優れた分類結果を得ることが可能であることが示唆された。

Users of social platforms often perceive these sites as supportive spaces to post about their mental health issues. Those conversations contain important traces about individuals' health risks. Recently, researchers have exploited this online information to construct mental health detection models, which aim to identify users at risk on platforms like Twitter, Reddit or Facebook. Most of these models are centred on achieving good classification results, ignoring the explainability and interpretability of the decisions. Recent research has pointed out the importance of using clinical markers, such as the use of symptoms, to improve trust in the computational models by health professionals. In this paper, we propose using transformer-based architectures to detect and explain the appearance of depressive symptom markers in the users' writings. We present two approaches: i) train a model to classify, and another one to explain the classifier's decision separately and ii) unify the two tasks simultaneously using a single model. Additionally, for this latter manner, we also investigated the performance of recent conversational LLMs when using in-context learning. Our natural language explanations enable clinicians to interpret the models' decisions based on validated symptoms, enhancing trust in the automated process. We evaluate our approach using recent symptom-based datasets, employing both offline and expert-in-the-loop metrics to assess the quality of the explanations generated by our models. The experimental results show that it is possible to achieve good classification results while generating interpretable symptom-based explanations.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# LLM使用指導とインタラクション方略が学習者パフォーマンスと知覚に及ぼす影響

Impact of Guidance and Interaction Strategies for LLM Use on Learner Performance and Perception ( http://arxiv.org/abs/2310.13712v3 )

ライセンス: Link先を確認
Harsh Kumar, Ilya Musabirov, Mohi Reza, Jiakai Shi, Xinyuan Wang, Joseph Jay Williams, Anastasia Kuzminykh, Michael Liut, (参考訳) 個人化されたチャットボットベースの指導アシスタントは、特に直接教師の存在が限られている教室の大きさの増大に対処するために不可欠である。 大規模言語モデル(LLM)は、その教育的有用性を探求する研究の増加とともに、有望な道を提供する。 しかし、この課題は、LLMの有効性を確立するだけでなく、学習者とこれらのモデル間の相互作用のニュアンスを識別し、学習者のエンゲージメントと結果に影響を与える。 大学コンピュータサイエンス教室 (N=145) とProlific (N=356) の制御実験を行い, 学習者のパフォーマンス, 信頼度, 信頼度に及ぼす4つの指導戦略の影響について検討した。 直接LLMは性能を極端に改善し、学生ソリューションの精錬は信頼性を高めた。 構造化ガイダンスは、ランダムなクエリを減らし、学生がLLMに課題をコピー&ペーストする例も減らした。 本研究は,LLM支援学習環境の形成において,教師が果たす役割を強調した。

Personalized chatbot-based teaching assistants can be crucial in addressing increasing classroom sizes, especially where direct teacher presence is limited. Large language models (LLMs) offer a promising avenue, with increasing research exploring their educational utility. However, the challenge lies not only in establishing the efficacy of LLMs but also in discerning the nuances of interaction between learners and these models, which impact learners' engagement and results. We conducted a formative study in an undergraduate computer science classroom (N=145) and a controlled experiment on Prolific (N=356) to explore the impact of four pedagogically informed guidance strategies on the learners' performance, confidence and trust in LLMs. Direct LLM answers marginally improved performance, while refining student solutions fostered trust. Structured guidance reduced random queries as well as instances of students copy-pasting assignment questions to the LLM. Our work highlights the role that teachers can play in shaping LLM-supported learning environments.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-20
# 協調エッジネットワークにおけるフェデレーション学習のためのデバイスサンプリングと資源最適化

Device Sampling and Resource Optimization for Federated Learning in Cooperative Edge Networks ( http://arxiv.org/abs/2311.04350v2 )

ライセンス: Link先を確認
Su Wang, Roberto Morabito, Seyyedali Hosseinalipour, Mung Chiang, Christopher G. Brinton, (参考訳) 従来のフェデレートラーニング(FedL)アーキテクチャは、サーバによって定期的に集約されたローカルモデルをトレーニングすることで、機械学習(ML)をワーカーデバイスに分散させる。 しかし、FedLは現代の無線ネットワークの2つの重要な特徴を無視している。 一 ネットワークに異種通信・計算資源を含ませることができること。 (ii)デバイスのローカルデータ分布には大きな重複がある可能性がある。 本研究では,デバイス・ツー・デバイス・オフローディング(D2D)によって補完されるインテリジェント・デバイス・サンプリングを通じて,これらの要因を共同で考慮する新しい最適化手法を開発する。 本手法は,データ処理とD2D通信資源の消費を最小限に抑えつつ,ネットワークトポロジとデバイス機能に現実的な制約を課すことなく,FedLのトレーニング精度を最大化するために,サンプルノードとデータオフロード構成の最適な組み合わせを選択することを目的とする。 D2Dオフロードサブプロブレムの理論解析は、新しいFedL収束バウンダリと効率的な逐次凸最適化器をもたらす。 これらの結果を用いて,ネットワーク属性,サンプリングノード,およびD2Dデータオフロードの関係を学習し,FedLの精度を最大化するグラフ畳み込みネットワーク(GCN)に基づくサンプリング手法を開発した。 本手法は, 機械学習モデルの性能, データ処理オーバーヘッド, エネルギー消費などの観点から, 一般的なデータセットの評価とエッジテストベッドからの実世界のネットワーク計測により, 文献からの一般的なデバイスサンプリング手法よりも優れていることがわかった。

The conventional federated learning (FedL) architecture distributes machine learning (ML) across worker devices by having them train local models that are periodically aggregated by a server. FedL ignores two important characteristics of contemporary wireless networks, however: (i) the network may contain heterogeneous communication/computation resources, and (ii) there may be significant overlaps in devices' local data distributions. In this work, we develop a novel optimization methodology that jointly accounts for these factors via intelligent device sampling complemented by device-to-device (D2D) offloading. Our optimization methodology aims to select the best combination of sampled nodes and data offloading configuration to maximize FedL training accuracy while minimizing data processing and D2D communication resource consumption subject to realistic constraints on the network topology and device capabilities. Theoretical analysis of the D2D offloading subproblem leads to new FedL convergence bounds and an efficient sequential convex optimizer. Using these results, we develop a sampling methodology based on graph convolutional networks (GCNs) which learns the relationship between network attributes, sampled nodes, and D2D data offloading to maximize FedL accuracy. Through evaluation on popular datasets and real-world network measurements from our edge testbed, we find that our methodology outperforms popular device sampling methodologies from literature in terms of ML model performance, data processing overhead, and energy consumption.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# データ融合による学習材料合成-プロセス-構造-プロパティ関係:ベイジアンコリージョン化N次元Piecewise Function Learning

Learning material synthesis-process-structure-property relationship by data fusion: Bayesian Coregionalization N-Dimensional Piecewise Function Learning ( http://arxiv.org/abs/2311.06228v3 )

ライセンス: Link先を確認
A. Gilad Kusne, Austin McDannald, Brian DeCost, (参考訳) 自律的な材料研究所は、多様なデータストリームを組み合わせて学習する能力を必要としている。 これは、材料合成-プロセス-構造-プロパティ関係の学習、材料の最適化と発見の促進、機械的理解の加速に特に当てはまる。 合成プロセス-構造-プロパティ relAtionship coreGionalized lEarner (SAGE) アルゴリズムを提案する。 マルチモーダルなコリージョン化を用いて、データソース間の知識をマージして、合成-プロセス-構造-プロパティ関係を学習する完全ベイズアルゴリズム。 SAGEは、データに与えられた最も可能性の高い関係を含む関係の確率論的後部を出力する。

Autonomous materials research labs require the ability to combine and learn from diverse data streams. This is especially true for learning material synthesis-process-structure-property relationships, key to accelerating materials optimization and discovery as well as accelerating mechanistic understanding. We present the Synthesis-process-structure-property relAtionship coreGionalized lEarner (SAGE) algorithm. A fully Bayesian algorithm that uses multimodal coregionalization to merge knowledge across data sources to learn synthesis-process-structure-property relationships. SAGE outputs a probabilistic posterior for the relationships including the most likely relationships given the data.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# データ拡張における構造レバレッジによる自己監督的絡み合い

Self-Supervised Disentanglement by Leveraging Structure in Data Augmentations ( http://arxiv.org/abs/2311.08815v2 )

ライセンス: Link先を確認
Cian Eastwood, Julius von Kügelgen, Linus Ericsson, Diane Bouchacourt, Pascal Vincent, Bernhard Schölkopf, Mark Ibrahim, (参考訳) 自己教師付き表現学習は、データの「スタイル」属性にいくつかの不変性を誘導するためにデータ拡張を使用することが多い。 しかし、トレーニング時に一般的に下流のタスクが不明であるため、データの属性が実際に"スタイル"であり、安全に破棄できるような優先順位を推論することは困難である。 これに対応するため、現在のアプローチでは、ImageNetオブジェクトの分類のような特定のタスクに不変度を調整することで、スタイル情報を保持しようとする。 しかし、以前の研究によると、そのようなタスク固有のチューニングは、破棄されたスタイルに依存する他のタスクに対して、大幅なパフォーマンス低下をもたらす可能性がある。 この問題に対処するため、私たちは、スタイル機能を破棄するのではなく、アンタングルする、より原則化されたアプローチを導入しました。 鍵となる考え方は、複数のスタイルの埋め込みスペースを追加することである。 i) それぞれが全対一増分に不変であること、及び (二)関節エントロピーを最大化する。 我々は、因果的潜在変数モデルの観点から構造化されたデータ拡張手順を定式化し、コンテンツと個々のスタイル変数の識別可能性を証明する。 我々は、合成データと実世界のデータの両方にアプローチの利点を実証的に示す。

Self-supervised representation learning often uses data augmentations to induce some invariance to "style" attributes of the data. However, with downstream tasks generally unknown at training time, it is difficult to deduce a priori which attributes of the data are indeed "style" and can be safely discarded. To deal with this, current approaches try to retain some style information by tuning the degree of invariance to some particular task, such as ImageNet object classification. However, prior work has shown that such task-specific tuning can lead to significant performance degradation on other tasks that rely on the discarded style. To address this, we introduce a more principled approach that seeks to disentangle style features rather than discard them. The key idea is to add multiple style embedding spaces where: (i) each is invariant to all-but-one augmentation; and (ii) joint entropy is maximized. We formalize our structured data-augmentation procedure from a causal latent-variable-model perspective, and prove identifiability of both content and individual style variables. We empirically demonstrate the benefits of our approach on both synthetic and real-world data.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# Auto-ICL:人間の監督を伴わないインテクスト学習

Auto-ICL: In-Context Learning without Human Supervision ( http://arxiv.org/abs/2311.09263v3 )

ライセンス: Link先を確認
Jinghan Yang, Shuming Ma, Furu Wei, (参考訳) コンテキスト内学習能力により、適切なコンテキストを提供すると、大きな言語モデルの性能が大幅に向上する。 しかし、既存の文脈内学習法は主に、ラベル付き例や明示的な指示など、人間が提供する文脈に依存している。 人間によるコンテキスト記述は、様々なタスクに労働集約的であり、モデルが人間によって管理可能なタスクに制限される。 これらの制約を克服するために,モデルが問題解決のための例と指示を自律的に生成できる自動文脈学習フレームワークを提案する。 Few-ShotやFew-Shot-CoTメソッドなど、モデル生成コンテキストは、Zero-CoTやAuto-CoTといった既存の自己生成コンテキストメソッドを上回っている。

With in-context learning ability, the performance of large language models can be significantly boosted when provided with appropriate context. However, existing in-context learning methods mainly rely on human-provided contexts, such as labeled examples and explicit instructions. Writing context by humans is labor-intensive on various tasks and limits the model to tasks manageable by humans. To overcome these limitations, we propose Automatic In-Context Learning framework that enables the model to autonomously generate examples and instructions for problem-solving. With experiments across various models and datasets, results show that model-generated contexts outperform human-annotated contexts, including Few-Shot and Few-Shot-CoT methods, and surpass existing self-generated context methods like Zero-CoT and Auto-CoT.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# 健常者・障害者の運動解析における現実的共同空間境界の学習

Learning Realistic Joint Space Boundaries for Range of Motion Analysis of Healthy and Impaired Human Arms ( http://arxiv.org/abs/2311.10653v2 )

ライセンス: Link先を確認
Shafagh Keyvanian, Michelle J. Johnson, Nadia Figueroa, (参考訳) 解剖学的制約を満たす現実的な人体運動モデルは、人間とロボットの相互作用、生体力学、ロボットによるリハビリテーションに不可欠である。 しかし、現実的な関節の制約をモデル化することは、人間の腕の動きが関節の限界、関節内および関節内依存関係、自己衝突、個々の能力、表現が難しい筋肉的または神経学的制約によって制約されるため困難である。 そのため、医師や研究者は、重要な解剖学的要因を無視して、単純な箱の制約を頼りにしてきた。 本稿では,モーションキャプチャーデータから,現実的な解剖学的制約付き上肢運動境界(RoM)を学習するためのデータ駆動手法を提案する。 これは、高パラメータの効率的なチューニング手法を用いて、上肢の宇宙探査運動のデータセットに一級支持ベクトルマシンを組み込むことによって達成される。 当社のアプローチは,RoM学習の有効性を重視した類似の作業よりも優れています。 さらに,健常腕と障害腕の比較において,能力・障害の定量的評価を行う障害指標(II)尺度を提案する。 脳卒中患者の健常者における片麻痺と障害レベルの違いをエミュレートするため,健常者を対象に測定値の検証を行った。

A realistic human kinematic model that satisfies anatomical constraints is essential for human-robot interaction, biomechanics and robot-assisted rehabilitation. Modeling realistic joint constraints, however, is challenging as human arm motion is constrained by joint limits, inter- and intra-joint dependencies, self-collisions, individual capabilities and muscular or neurological constraints which are difficult to represent. Hence, physicians and researchers have relied on simple box-constraints, ignoring important anatomical factors. In this paper, we propose a data-driven method to learn realistic anatomically constrained upper-limb range of motion (RoM) boundaries from motion capture data. This is achieved by fitting a one-class support vector machine to a dataset of upper-limb joint space exploration motions with an efficient hyper-parameter tuning scheme. Our approach outperforms similar works focused on valid RoM learning. Further, we propose an impairment index (II) metric that offers a quantitative assessment of capability/impairment when comparing healthy and impaired arms. We validate the metric on healthy subjects physically constrained to emulate hemiplegia and different disability levels as stroke patients.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# 統一ドメイン適応セマンティックセマンティックセグメンテーション

Unified Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2311.13254v2 )

ライセンス: Link先を確認
Zhe Zhang, Gaochang Wu, Jing Zhang, Xiatian Zhu, Dacheng Tao, Tianyou Chai, (参考訳) Unsupervised Domain Adaptive Semantic Segmentation (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。 既存のUDA-SS作品の多くは画像について考察するが、最近の試みは時間次元をモデル化してビデオに取り組むためにさらに拡張されている。 この2つの研究は、基礎となるドメイン分散シフトを克服する上で大きな課題を共有していますが、その研究は大部分が独立しており、断片化された洞察、全体的理解の欠如、アイデアを相互に補う機会の欠如につながります。 この断片化は手法の統一を防ぎ、冗長な努力と画像ドメインとビデオドメイン間の最適知識伝達につながる。 本研究は,より包括的理解,シナジスティックな進歩,効率的な知識共有を実現するため,映像シナリオと画像シナリオにまたがるUDA-SS研究の統一を提唱する。 この目的のために、汎用データ拡張の観点から統一されたUDA-SSを探求し、統一された概念的枠組みとして機能し、一般化を可能とし、アイデアのクロスポリン化の可能性を秘め、最終的にこの研究分野の全体的な進展と実践的影響に寄与する。 具体的には,特徴空間内でのドメイン内混合とドメイン間混合の4方向経路を通じて,異なる点属性と特徴の不整合に対処するQuad-directional Mixup (QuadMix)法を提案する。 ビデオの時間的シフトに対処するために、細粒度ドメインアライメントのための空間的および時間的次元にわたる光学的フロー誘導機能アグリゲーションを組み込んだ。 大規模な実験により,本手法は4つの挑戦的 UDA-SS ベンチマークにおいて,最先端の工法よりも高い性能を示した。 私たちのソースコードとモデルは、 \url{https://github.com/ZHE-SAPI/UDASS} でリリースされます。

Unsupervised Domain Adaptive Semantic Segmentation (UDA-SS) aims to transfer the supervision from a labeled source domain to an unlabeled target domain. The majority of existing UDA-SS works typically consider images whilst recent attempts have extended further to tackle videos by modeling the temporal dimension. Although the two lines of research share the major challenges -- overcoming the underlying domain distribution shift, their studies are largely independent, resulting in fragmented insights, a lack of holistic understanding, and missed opportunities for cross-pollination of ideas. This fragmentation prevents the unification of methods, leading to redundant efforts and suboptimal knowledge transfer across image and video domains. Under this observation, we advocate unifying the study of UDA-SS across video and image scenarios, enabling a more comprehensive understanding, synergistic advancements, and efficient knowledge sharing. To that end, we explore the unified UDA-SS from a general data augmentation perspective, serving as a unifying conceptual framework, enabling improved generalization, and potential for cross-pollination of ideas, ultimately contributing to the overall progress and practical impact of this field of research. Specifically, we propose a Quad-directional Mixup (QuadMix) method, characterized by tackling distinct point attributes and feature inconsistencies through four-directional paths for intra- and inter-domain mixing in a feature space. To deal with temporal shifts with videos, we incorporate optical flow-guided feature aggregation across spatial and temporal dimensions for fine-grained domain alignment. Extensive experiments show that our method outperforms the state-of-the-art works by large margins on four challenging UDA-SS benchmarks. Our source code and models will be released at \url{https://github.com/ZHE-SAPI/UDASS}.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# エッジモード、拡張TQFT、および測定に基づく量子計算

Edge modes, extended TQFT, and measurement based quantum computation ( http://arxiv.org/abs/2312.00605v2 )

ライセンス: Link先を確認
Gabriel Wong, (参考訳) 量子テレポーテーションは、量子状態 \cite{Czech:2018kvg} の絡み合い構造を特徴づける平行輸送の概念を定義するために用いられる。 このことは、絡み合いのゲージ理論を定式化できることを示している。 述語{Wong:2022mnv} では、1次元における測定に基づく量子計算がそのようなゲージ理論(MBQC)の用語で理解できることが説明されている。 本研究では、この「絡み合いゲージ理論」を拡張位相場理論として定式化する。 この定式化は、回路モデルとMBQCの関係についての別の見方を与える。 さらに、ゲージ理論における拡張ヒルベルト空間の構成の観点からMBQCの解釈を提供し、絡み合ったエッジモードが論理量子ビットの役割を担っている。

Quantum teleportation can be used to define a notion of parallel transport which characterizes the entanglement structure of a quantum state \cite{Czech:2018kvg}. This suggests one can formulate a gauge theory of entanglement. In \cite{Wong:2022mnv}, it was explained that measurement based quantum computation in one dimension can be understood in term of such a gauge theory (MBQC). In this work, we give an alternative formulation of this "entanglement gauge theory" as an extended topological field theory. This formulation gives a alternative perspective on the relation between the circuit model and MBQC. In addition, it provides an interpretation of MBQC in terms of the extended Hilbert space construction in gauge theories, in which the entanglement edge modes play the role of the logical qubit.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# 3次元セマンティックセグメンテーションの基礎モデルと新しいクラス発見

Novel class discovery meets foundation models for 3D semantic segmentation ( http://arxiv.org/abs/2312.03782v2 )

ライセンス: Link先を確認
Luigi Riz, Cristiano Saltori, Yiming Wang, Elisa Ricci, Fabio Poiesi, (参考訳) 意味的セグメンテーションにおける新規クラス発見(NCD)のタスクは、注釈付き(ベース)クラスから利用可能な監督に依存して、未ラベル(ノーベル)クラスを正確にセグメンテーションできるモデルを訓練することを必要とする。 2次元画像データでは広く研究されているが、NCDタスクの3次元点雲領域への拡張は、2次元の場合に存在しない仮定や課題を特徴とする先駆的な試みである。 本論文は,4方向の点雲データ解析の進歩を示す。 まず、ポイントクラウドセマンティックセグメンテーションのためのNCDの新たなタスクを紹介する。 第2に、2次元画像セマンティックセグメンテーションのための既存のNCD法を直接3次元データに変換することで、最適以下の結果が得られることを示す。 第3に,オンラインクラスタリング,不確実性推定,セマンティック蒸留に基づく新しいNCD手法を提案する。 最後に、ポイントクラウドセマンティックセグメンテーションにおけるNCDの性能を厳格に評価するための新しい評価プロトコルを提案する。 本論文は,SemanticKITTI,SemanticPOSS,S3DISデータセットの総合評価を通じて,提案手法が検討されたベースラインよりもかなり優れていることを示す。

The task of Novel Class Discovery (NCD) in semantic segmentation entails training a model able to accurately segment unlabelled (novel) classes, relying on the available supervision from annotated (base) classes. Although extensively investigated in 2D image data, the extension of the NCD task to the domain of 3D point clouds represents a pioneering effort, characterized by assumptions and challenges that are not present in the 2D case. This paper represents an advancement in the analysis of point cloud data in four directions. Firstly, it introduces the novel task of NCD for point cloud semantic segmentation. Secondly, it demonstrates that directly transposing the only existing NCD method for 2D image semantic segmentation to 3D data yields suboptimal results. Thirdly, a new NCD approach based on online clustering, uncertainty estimation, and semantic distillation is presented. Lastly, a novel evaluation protocol is proposed to rigorously assess the performance of NCD in point cloud semantic segmentation. Through comprehensive evaluations on the SemanticKITTI, SemanticPOSS, and S3DIS datasets, the paper demonstrates substantial superiority of the proposed method over the considered baselines.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# PromptBench: 大規模言語モデル評価のための統一ライブラリ

PromptBench: A Unified Library for Evaluation of Large Language Models ( http://arxiv.org/abs/2312.07910v3 )

ライセンス: Link先を確認
Kaijie Zhu, Qinlin Zhao, Hao Chen, Jindong Wang, Xing Xie, (参考訳) 大規模言語モデル(LLM)の評価は、その性能を評価し、潜在的なセキュリティリスクを軽減するために不可欠である。 本稿では,LLMを評価する統一ライブラリであるPromptBenchを紹介する。 プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が容易に使用および拡張できるいくつかの重要なコンポーネントで構成されている。 PromptBenchは、研究目的のためのオープンで汎用的で柔軟なコードベースとして設計されており、新しいベンチマークの作成、ダウンストリームアプリケーションのデプロイ、新しい評価プロトコルの設計において、オリジナルの研究を促進することができる。 コードは以下の通りである。 https://github.com/microsoft/promptbench。

The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# パラメトリック近似を超えて--マクロダウンコンバージョンにおけるポンプの枯渇、絡み合い、スクイーズ

Beyond the parametric approximation: pump depletion, entanglement and squeezing in macroscopic down-conversion ( http://arxiv.org/abs/2312.09239v2 )

ライセンス: Link先を確認
Karthik Chinni, Nicolás Quesada, (参考訳) 本研究では, 累積展開法, 摂動理論, ポンプ平均光子数最大10万の系のフル数値シミュレーションを用いて, ダウンコンバージョンハミルトニアンにおけるポンプモードの力学について検討した。 特に, ポンプモードがコヒーレントな状態で初期化される実験的な初期状態に対して, 脱落, 絡み合い, スクイーズ等のポンプモードの特性に着目した。 この分析により, パラメトリック近似では理解できないような, 様々な量の短時間の挙動と, 上記の特徴が系の起源となる時間尺度を得ることができた。 また,ポンプモードの絡み合いを捉えることのできるボゾン作用素のモーメントを含む絡み合いの目撃者も提供する。 最後に,ポンプの光子数統計値と信号/イドラーモードを用いて,これらのモードの一般的な挙動を実験的な時間スケールで解析する。

We study the dynamics of the pump mode in the down-conversion Hamiltonian using the cumulant expansion method, perturbation theory, and the full numerical simulation of systems with a pump mean photon number of up to one hundred thousand. We particularly focus on the properties of the pump-mode such as depletion, entanglement, and squeezing for an experimentally relevant initial state in which the pump mode is initialized in a coherent state. Through this analysis, we obtain the short-time behaviour of various quantities and derive timescales at which the above-mentioned features, which cannot be understood through the parametric approximation, originate in the system. We also provide an entanglement witness involving moments of bosonic operators that can capture the entanglement of the pump mode. Finally, we study the photon-number statistics of the pump and the signal/idler modes to understand the general behaviour of these modes for experimentally relevant time scales.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# 正当性・不確実性・多様性を考慮したグラフ分類に対するモデルステアリング攻撃

Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity ( http://arxiv.org/abs/2312.10943v3 )

ライセンス: Link先を確認
Zhihao Zhu, Chenwang Wu, Rui Fan, Yi Yang, Zhen Wang, Defu Lian, Enhong Chen, (参考訳) 最近の研究は、GNNがモデル盗難攻撃に弱いことを実証している。 しかし、それらは主にノード分類タスクに焦点を当てており、グラフ分類タスクの領域内にある潜在的な脅威を無視している。 さらに、それらの実践性は、不合理な仮定、特に大規模なデータ要求と広範囲なモデル知識に関するため、疑わしい。 この目的のために,本研究では,限定された実データとハードラベル認識による厳密な設定に従って合成データを生成することにより,ターゲットモデルの盗みを容易にすることを提唱する。 具体的には、重要なデータ生成原則に従って、3つのモデルステルス攻撃を導入して、異なる現実的なシナリオに適応する: MSA-AUは、アクティブラーニングにインスパイアされ、生成されたサンプルのクエリ値を強化する不確実性を強調し、MSA-ADは、MSA-AUが生成したオーバーシミラーサンプルによるクエリ非効率問題を緩和するために、ミックスアップ強化戦略に基づく多様性を導入し、MSA-AUDは上記の2つの戦略を組み合わせて、生成したサンプルの信頼性、不確実性、多様性をシームレスに統合する。 最後に、広範囲にわたる実験により、隠れ、クエリ効率、盗み性能の観点から提案手法の優位性を一貫して示している。

Recent research demonstrates that GNNs are vulnerable to the model stealing attack, a nefarious endeavor geared towards duplicating the target model via query permissions. However, they mainly focus on node classification tasks, neglecting the potential threats entailed within the domain of graph classification tasks. Furthermore, their practicality is questionable due to unreasonable assumptions, specifically concerning the large data requirements and extensive model knowledge. To this end, we advocate following strict settings with limited real data and hard-label awareness to generate synthetic data, thereby facilitating the stealing of the target model. Specifically, following important data generation principles, we introduce three model stealing attacks to adapt to different actual scenarios: MSA-AU is inspired by active learning and emphasizes the uncertainty to enhance query value of generated samples; MSA-AD introduces diversity based on Mixup augmentation strategy to alleviate the query inefficiency issue caused by over-similar samples generated by MSA-AU; MSA-AUD combines the above two strategies to seamlessly integrate the authenticity, uncertainty, and diversity of the generated samples. Finally, extensive experiments consistently demonstrate the superiority of the proposed methods in terms of concealment, query efficiency, and stealing performance.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-20
# BrainVis:画像再構成による脳と視覚信号の橋渡し

BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction ( http://arxiv.org/abs/2312.14871v2 )

ライセンス: Link先を確認
Honghao Fu, Zhiqi Shen, Jing Jih Chin, Hao Wang, (参考訳) 脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。 しかし、脳波信号は複雑であり、大きなノイズを含む。 これは、脳波の埋め込みをきめ細かな意味情報と整合させることの難しさや、トレーニングのための大規模な自己収集データセットに大きく依存することなど、脳波からの視覚刺激再構成の既存の作業において、かなりの制限をもたらす。 これらの課題に対処するために、BrainVisと呼ばれる新しいアプローチを提案する。 まず,脳波信号を様々な単位に分割し,学習難易度を高めるため,脳波の時間領域特性を自己監督的に取得する手法を提案する。 また、周波数領域の特徴を利用して脳波表現を強化することを提案する。 次に,脳波の時間-周波数埋め込みとCLIP空間の粗いセマンティクスと微粒なセマンティクスの補間を同時に調整し,一次視覚成分の強調と相互アライメントの困難さを低減する。 最後に,カスケード拡散モデルを用いて画像の再構成を行う。 提案したBrainVisは,従来の研究の10倍のトレーニングデータのみを用いて,セマンティックな忠実度再構築と生成品質の両方において最先端の成果を上げている。 コードはhttps://github.com/RomGai/BrainVis.comで入手できる。

Analyzing and reconstructing visual stimuli from brain signals effectively advances the understanding of human visual system. However, the EEG signals are complex and contain significant noise. This leads to substantial limitations in existing works of visual stimuli reconstruction from EEG, such as difficulties in aligning EEG embeddings with the fine-grained semantic information and a heavy reliance on additional large self-collected dataset for training. To address these challenges, we propose a novel approach called BrainVis. Firstly, we divide the EEG signals into various units and apply a self-supervised approach on them to obtain EEG time-domain features, in an attempt to ease the training difficulty. Additionally, we also propose to utilize the frequency-domain features to enhance the EEG representations. Then, we simultaneously align EEG time-frequency embeddings with the interpolation of the coarse and fine-grained semantics in the CLIP space, to highlight the primary visual components and reduce the cross-modal alignment difficulty. Finally, we adopt the cascaded diffusion models to reconstruct images. Using only 10\% training data of the previous work, our proposed BrainVis outperforms state of the arts in both semantic fidelity reconstruction and generation quality. The code is available at https://github.com/RomGai/BrainVis.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# HiBid:階層的オフライン深層強化学習による予算配分を伴うチャネル間拘束型入札システム

HiBid: A Cross-Channel Constrained Bidding System with Budget Allocation by Hierarchical Offline Deep Reinforcement Learning ( http://arxiv.org/abs/2312.17503v2 )

ライセンス: Link先を確認
Hao Wang, Bo Tang, Chi Harold Liu, Shangqin Mao, Jiahong Zhou, Zipeng Dai, Yaqi Sun, Qianlong Xie, Xingxing Wang, Dong Wang, (参考訳) オンラインディスプレイ広告プラットフォームは、毎日何十億もの広告要求に対してリアルタイム入札(RTB)を提供することで、多くの広告主にサービスを提供する。 入札戦略は、複数のチャンネルにまたがる広告要求を処理し、設定された金銭的制約、すなわち、総予算とクリック当たりコスト(CPC)などのクリック数を最大化する。 単一チャネル入札を主眼とする既存の作業と異なり、予算配分を伴うチャネル横断入札を明示的に検討する。 具体的には,非競争的予算配分のための補助的損失を備えた高レベルプランナと,割り当てられた予算に対応する適応入札戦略のためのデータ強化低レベル実行器からなる階層型オフライン深層強化学習(DRL)フレームワークを提案する。 さらに、チャネル間CPC制約を満たすために、CPC誘導動作選択機構を導入する。 大規模ログデータとオンラインA/Bテストの両方に関する広範な実験を通じて、HiBidはクリック数、CPC満足率、投資率(ROI)において6つのベースラインを上回っていることを確認した。 また、HiBid on Meituanの広告プラットホームも展開しており、すでに数万の広告主が毎日利用している。

Online display advertising platforms service numerous advertisers by providing real-time bidding (RTB) for the scale of billions of ad requests every day. The bidding strategy handles ad requests cross multiple channels to maximize the number of clicks under the set financial constraints, i.e., total budget and cost-per-click (CPC), etc. Different from existing works mainly focusing on single channel bidding, we explicitly consider cross-channel constrained bidding with budget allocation. Specifically, we propose a hierarchical offline deep reinforcement learning (DRL) framework called ``HiBid'', consisted of a high-level planner equipped with auxiliary loss for non-competitive budget allocation, and a data augmentation enhanced low-level executor for adaptive bidding strategy in response to allocated budgets. Additionally, a CPC-guided action selection mechanism is introduced to satisfy the cross-channel CPC constraint. Through extensive experiments on both the large-scale log data and online A/B testing, we confirm that HiBid outperforms six baselines in terms of the number of clicks, CPC satisfactory ratio, and return-on-investment (ROI). We also deploy HiBid on Meituan advertising platform to already service tens of thousands of advertisers every day.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# 新しい仕事とジェンダー : 画像生成モデルにおける社会的バイアスの測定

New Job, New Gender? Measuring the Social Bias in Image Generation Models ( http://arxiv.org/abs/2401.00763v3 )

ライセンス: Link先を確認
Wenxuan Wang, Haonan Bai, Jen-tse Huang, Yuxuan Wan, Youliang Yuan, Haoyi Qiu, Nanyun Peng, Michael R. Lyu, (参考訳) 画像生成モデルは、与えられたテキストから画像を生成し、編集することができる。 DALL-EとMidjourneyによる画像生成技術の最近の進歩は画期的なものである。 これらの高度なモデルは、印象的な能力にもかかわらず、しばしば巨大なインターネットデータセットで訓練されており、社会的ステレオタイプやバイアスを持続するコンテンツを生成することができ、深刻な結果をもたらす可能性がある。 画像生成モデルにおけるバイアスの評価に関する以前の研究は、限られた精度、広範囲な人的労働への依存、包括的な分析の欠如など、いくつかの欠点に悩まされている。 本稿では,画像生成モデルにおける社会的バイアスを的確に,かつ包括的に引き起こすことのできる新しい評価フレームワークであるBiasPainterを提案する。 BiasPainterは、個人のさまざまなシード画像を使用し、画像生成モデルに、性別、人種、年齢ニュートラルなクエリを使ってこれらの画像を編集するよう促す。 これらのクエリは、62の専門職、39のアクティビティ、57のオブジェクト、70のパーソナリティ特性にまたがる。 このフレームワークは、編集された画像をオリジナルのシード画像と比較し、性別、人種、年齢に関する重要な変化に焦点を当てる。 BiasPainterは、中立的なプロンプトを受ける際にこれらの特性を変更するべきではないという重要な洞察を取り入れている。 この設計に基づいて、BiasPainterは社会的偏見を誘発し、画像生成モデルの公平性を評価することができる。 我々はBiasPainterを用いて、安定拡散やMidjourneyなど、広く使われている6つの画像生成モデルを評価する。 実験の結果、BiasPainterは画像生成モデルにおける社会的バイアスをうまく引き起こせることがわかった。 人間の評価によると、BiasPainterは自動バイアス検出において90.8%の精度を達成できる。

Image generation models can generate or edit images from a given text. Recent advancements in image generation technology, exemplified by DALL-E and Midjourney, have been groundbreaking. These advanced models, despite their impressive capabilities, are often trained on massive Internet datasets, making them susceptible to generating content that perpetuates social stereotypes and biases, which can lead to severe consequences. Prior research on assessing bias within image generation models suffers from several shortcomings, including limited accuracy, reliance on extensive human labor, and lack of comprehensive analysis. In this paper, we propose BiasPainter, a novel evaluation framework that can accurately, automatically and comprehensively trigger social bias in image generation models. BiasPainter uses a diverse range of seed images of individuals and prompts the image generation models to edit these images using gender, race, and age-neutral queries. These queries span 62 professions, 39 activities, 57 types of objects, and 70 personality traits. The framework then compares the edited images to the original seed images, focusing on the significant changes related to gender, race, and age. BiasPainter adopts a key insight that these characteristics should not be modified when subjected to neutral prompts. Built upon this design, BiasPainter can trigger the social bias and evaluate the fairness of image generation models. We use BiasPainter to evaluate six widely-used image generation models, such as stable diffusion and Midjourney. Experimental results show that BiasPainter can successfully trigger social bias in image generation models. According to our human evaluation, BiasPainter can achieve 90.8% accuracy on automatic bias detection, which is significantly higher than the results reported in previous work.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# 病変局所化のためのマルチモーダル自己教師型学習

Multimodal self-supervised learning for lesion localization ( http://arxiv.org/abs/2401.01524v3 )

ライセンス: Link先を確認
Hao Yang, Hong-Yu Zhou, Cheng Li, Weijian Huang, Jiarun Liu, Yong Liang, Guangming Shi, Hairong Zheng, Qiegen Liu, Shanshan Wang, (参考訳) 画像診断と診断レポートを利用したマルチモーダル深層学習は, 医用画像診断の分野で顕著な進歩を遂げており, 十分なアノテーション情報が欠如している場合に, 特に補助的診断能力を示す。 それにもかかわらず、詳細な位置アノテーションを使わずに、病気を正確に位置決めすることは依然として困難である。 既存の手法では,局所的な情報を利用して詳細なセマンティックアライメントを実現しているが,レポート内の包括的コンテキストの詳細なセマンティックスを抽出する能力は限られている。 この問題に対処するため,テキストレポートから全文を局所的セマンティックアライメントの基本単位として取り出す新しい手法が導入された。 このアプローチは胸部X線画像と対応するテキストレポートを組み合わせることで、グローバルレベルとローカルレベルの両方でコントラスト学習を行う。 本手法を複数のデータセットに適用し, 病変局所化作業における有効性を確認した。

Multimodal deep learning utilizing imaging and diagnostic reports has made impressive progress in the field of medical imaging diagnostics, demonstrating a particularly strong capability for auxiliary diagnosis in cases where sufficient annotation information is lacking. Nonetheless, localizing diseases accurately without detailed positional annotations remains a challenge. Although existing methods have attempted to utilize local information to achieve fine-grained semantic alignment, their capability in extracting the fine-grained semantics of the comprehensive context within reports is limited. To address this problem, a new method is introduced that takes full sentences from textual reports as the basic units for local semantic alignment. This approach combines chest X-ray images with their corresponding textual reports, performing contrastive learning at both global and local levels. The leading results obtained by this method on multiple datasets confirm its efficacy in the task of lesion localization.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# Amplified Squeezed States: 損失と位相ノイズの分析

Amplified Squeezed States: Analyzing Loss and Phase Noise ( http://arxiv.org/abs/2401.04937v3 )

ライセンス: Link先を確認
K. M. Kwan, M. J. Yap, J. Qin, D. W. Gould, V. B. Adya, S. S. Y. Chua, J. Junker, T. G. McRae, B. J. J. Slagmolen, D. E. McClelland, (参考訳) 圧縮状態の位相感度増幅は、例えば2マイクロメートル波長での高検出損失を緩和する技術である。 増幅励起状態の解析モデルは位相雑音の影響を拡大し, 有効測定可能なスクイーズと有効検出効率の2つの実用的なパラメータを導出する。 現実的なパラメータを含むケーススタディは、位相感受性増幅の利点を示している。 光学パラメトリック増幅器(OPA)の位相ノイズはスケズレベルに最小限に影響を与え,OPAの利得を増大させることができた。 この方式は提案された重力波検出器と互換性があり、光導波路の出力結合損失によって劣化する量子系における応用と一致している。

Phase-sensitive amplification of squeezed states is a technique to mitigate high detection loss, e.g. at 2-micrometre wavelengths. Our analytical model of amplified squeezed states expands on the effect of phase noise and derives two practical parameters: the effective measurable squeezing and the effective detection efficiency. A case study including realistic parameters demonstrates the benefit of phase-sensitive amplification. We identified the phase noise in the optical parametric amplifier (OPA) minimally affects the squeezing level, enabling increased gain of the OPA. This scheme is compatible with proposed gravitational-wave detectors and consistent with applications in quantum systems that are degraded by output coupling loss in optical waveguides.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# ニューラルインバースレンダリングによる顔映像からの高品質メッシュブレンド形状生成

High-Quality Mesh Blendshape Generation from Face Videos via Neural Inverse Rendering ( http://arxiv.org/abs/2401.08398v2 )

ライセンス: Link先を確認
Xin Ming, Jiawei Li, Jingwang Ling, Libo Zhang, Feng Xu, (参考訳) 完璧に編集可能なメッシュブレンドサップはアニメーションパイプラインで広く使用されているが、ニューラルジオメトリーと外観表現の最近の進歩は高品質な逆レンダリングを可能にしている。 これらの観察に基づいて、我々はメッシュベースのブレンドシェープリグを単一またはスパースなマルチビュービデオから再構成し、最先端のニューラル・リバースレンダリングを活用する新しい手法を導入する。 まず、頂点変位を四面体接続の微分座標にパラメータ化する変形表現を構築し、高分解能メッシュ上での高品質な頂点変形を可能にする。 この表現にセマンティック・レギュレーションのセットを構築することにより、ブレンドシャッフルと表現係数の合同最適化を実現する。 さらに,非同期カメラを用いたユーザフレンドリーなマルチビュー設定を実現するために,時間変動運動パラメータをモデル化するためのニューラル回帰器を提案する。 このアプローチは、複数のカメラ間の時間差を暗黙的に考慮し、モーションモデリングの精度を高める。 実験により,シングルあるいはスパースなマルチビュービデオのフレキシブルな入力により,パーソナライズされた高忠実度ブレンドサップを再構築することを示した。 これらのブレンドは幾何学的にも意味的にも正確であり、産業用アニメーションパイプラインと互換性がある。 コードとデータはhttps://github.com/grignarder/high-quality-blendshape-generationで公開されている。

Readily editable mesh blendshapes have been widely used in animation pipelines, while recent advancements in neural geometry and appearance representations have enabled high-quality inverse rendering. Building upon these observations, we introduce a novel technique that reconstructs mesh-based blendshape rigs from single or sparse multi-view videos, leveraging state-of-the-art neural inverse rendering. We begin by constructing a deformation representation that parameterizes vertex displacements into differential coordinates with tetrahedral connections, allowing for high-quality vertex deformation on high-resolution meshes. By constructing a set of semantic regulations in this representation, we achieve joint optimization of blendshapes and expression coefficients. Furthermore, to enable a user-friendly multi-view setup with unsynchronized cameras, we propose a neural regressor to model time-varying motion parameters. This approach implicitly considers the time difference across multiple cameras, enhancing the accuracy of motion modeling. Experiments demonstrate that, with the flexible input of single or sparse multi-view videos, we reconstruct personalized high-fidelity blendshapes. These blendshapes are both geometrically and semantically accurate, and they are compatible with industrial animation pipelines. Code and data are available at https://github.com/grignarder/high-quality-blendshape-generation.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# SVIPTR:視覚可変エクストラクタを用いた高速かつ効率的なシーンテキスト認識

SVIPTR: Fast and Efficient Scene Text Recognition with Vision Permutable Extractor ( http://arxiv.org/abs/2401.10110v5 )

ライセンス: Link先を確認
Xianfu Cheng, Weixiao Zhou, Xiang Li, Jian Yang, Hang Zhang, Tao Sun, Wei Zhang, Yuying Mai, Tongliang Li, Xiaoming Chen, Zhoujun Li, (参考訳) Scene Text Recognition (STR) は構造化された情報データベースを構築する上で重要かつ困難なタスクであり、自然のシーンの画像内でテキストを認識する。 現在のSTRのSOTAモデルは高い性能を示すが、一般的にはビジュアルエンコーダとシーケンスデコーダで構成されるハイブリッドアーキテクチャに依存するため、推論効率が低い。 本研究では,高速かつ効率的なScene Text Recognition (SVIPTR) のための VIsion Permutable extractor を提案する。 具体的には、SVIPTRは、局所的およびグローバルな自己注意層の組み合わせと置換によって特徴づけられるピラミッド構造を持つ視覚的意味抽出器を利用する。 この設計は軽量で効率的なモデルとなり、その推論は入力長に敏感である。 中国語と英語の両方のシーンテキスト認識のための各種標準データセットに対する大規模な実験結果によりSVIPTRの優位性が検証された。 特にSVIPTR-T(Tiny)は、他の軽量モデルと同等に高い競争精度を提供し、SOTA推論速度を達成する。 一方、SVIPTR-L (Large) はシングルエンコーダ型モデルではSOTA精度が向上し、低パラメータ数と良好な推論速度を維持している。 提案手法はSTRチャレンジに対して,高速かつ効率的なSTRを必要とする実世界のアプリケーションに多大な利益をもたらす説得力のあるソリューションを提供する。 コードはhttps://github.com/cxfyxl/VIPTRで公開されている。

Scene Text Recognition (STR) is an important and challenging upstream task for building structured information databases, that involves recognizing text within images of natural scenes. Although current state-of-the-art (SOTA) models for STR exhibit high performance, they typically suffer from low inference efficiency due to their reliance on hybrid architectures comprised of visual encoders and sequence decoders. In this work, we propose a VIsion Permutable extractor for fast and efficient Scene Text Recognition (SVIPTR), which achieves an impressive balance between high performance and rapid inference speeds in the domain of STR. Specifically, SVIPTR leverages a visual-semantic extractor with a pyramid structure, characterized by the Permutation and combination of local and global self-attention layers. This design results in a lightweight and efficient model and its inference is insensitive to input length. Extensive experimental results on various standard datasets for both Chinese and English scene text recognition validate the superiority of SVIPTR. Notably, the SVIPTR-T (Tiny) variant delivers highly competitive accuracy on par with other lightweight models and achieves SOTA inference speeds. Meanwhile, the SVIPTR-L (Large) attains SOTA accuracy in single-encoder-type models, while maintaining a low parameter count and favorable inference speed. Our proposed method provides a compelling solution for the STR challenge, which greatly benefits real-world applications requiring fast and efficient STR. The code is publicly available at https://github.com/cxfyxl/VIPTR.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# 議論論における抽象重み付き直交意味論

Abstract Weighted Based Gradual Semantics in Argumentation Theory ( http://arxiv.org/abs/2401.11472v3 )

ライセンス: Link先を確認
Assaf Libman, Nir Oren, Bruno Yun, (参考訳) 重み付けされた漸進的意味論は、議論の強さを表す各議論に対して受け入れ可能性の度合いを与え、議論の背景証拠を含む要因に基づいて計算され、この議論と他の議論の間の相互作用を考慮に入れている。 段階的意味論と受容可能性度を結びつける4つの重要な問題を導入する。 まず、逆問題を再検討し、議論フレームワークの引数重みを特定して、特定の最終的な受容可能性の度合いを導いた。 第二に、議論重みと受理度の間の関数写像がその像に対して射影的あるいは同型であるかどうかを問う。 第三に、議論の受理度が考慮されるのではなく、選好時に議論の重みが見つかるかどうかを問う。 第4に、この空間に「ギャップ」が存在するかどうかを問う、有効な受容可能性次数の空間の位相を考える。 文献では異なる段階的意味論が提案されているが、本論文では、抽象的重み付けに基づく段階的意味論と呼ばれる、重み付けされた段階的意味論の大きなファミリーを特定する。 これらのことは既存の意味論の多くを一般化し、一意の固定点への収束のような望ましい性質を維持している。 また、抽象重み付け(L^p,\lambda,\mu)に基づく漸進的意味論と呼ばれる、重み付けされた漸進的意味論のサブファミリーが、上記の4つの問題を全て解決していることを示す。

Weighted gradual semantics provide an acceptability degree to each argument representing the strength of the argument, computed based on factors including background evidence for the argument, and taking into account interactions between this argument and others. We introduce four important problems linking gradual semantics and acceptability degrees. First, we reexamine the inverse problem, seeking to identify the argument weights of the argumentation framework which lead to a specific final acceptability degree. Second, we ask whether the function mapping between argument weights and acceptability degrees is injective or a homeomorphism onto its image. Third, we ask whether argument weights can be found when preferences, rather than acceptability degrees for arguments are considered. Fourth, we consider the topology of the space of valid acceptability degrees, asking whether "gaps" exist in this space. While different gradual semantics have been proposed in the literature, in this paper, we identify a large family of weighted gradual semantics, called abstract weighted based gradual semantics. These generalise many of the existing semantics while maintaining desirable properties such as convergence to a unique fixed point. We also show that a sub-family of the weighted gradual semantics, called abstract weighted (L^p,\lambda,\mu)-based gradual semantics and which include well-known semantics, solve all four of the aforementioned problems.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# PsySafe: 多エージェントシステム安全の心理的攻撃・防衛・評価のための総合的枠組み

PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety ( http://arxiv.org/abs/2401.11880v3 )

ライセンス: Link先を確認
Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang, Huchuan Lu, Feng Zhao, Yu Qiao, Jing Shao, (参考訳) 大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。 しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。 現在,マルチエージェントシステムに関する安全性に関する総合的な研究は限られている。 本稿では,エージェント心理学の革新的なレンズを通して,エージェントの暗黒心理学状態が安全性に対する重大な脅威となっていることを明らかにする。 これらの問題に対処するために,エージェント心理学を基盤とした包括的枠組み(PsySafe)を提案する。まず,エージェントのダークパーソナリティ特性がいかに危険行動を引き起こすか,次に,心理的・行動的観点からマルチエージェントシステムの安全性を評価すること,そしてリスクを軽減する効果的な戦略を考案することである。 実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。 我々は,マルチエージェントシステムの安全性に関するさらなる研究に,我々のフレームワークと観測が貴重な洞察を提供することを期待している。 データとコードをhttps://github.com/AI4Good24/PsySafeで公開します。

Multi-agent systems, when enhanced with Large Language Models (LLMs), exhibit profound capabilities in collective intelligence. However, the potential misuse of this intelligence for malicious purposes presents significant risks. To date, comprehensive research on the safety issues associated with multi-agent systems remains limited. In this paper, we explore these concerns through the innovative lens of agent psychology, revealing that the dark psychological states of agents constitute a significant threat to safety. To tackle these concerns, we propose a comprehensive framework (PsySafe) grounded in agent psychology, focusing on three key areas: firstly, identifying how dark personality traits in agents can lead to risky behaviors; secondly, evaluating the safety of multi-agent systems from the psychological and behavioral perspectives, and thirdly, devising effective strategies to mitigate these risks. Our experiments reveal several intriguing phenomena, such as the collective dangerous behaviors among agents, agents' self-reflection when engaging in dangerous behavior, and the correlation between agents' psychological assessments and dangerous behaviors. We anticipate that our framework and observations will provide valuable insights for further research into the safety of multi-agent systems. We will make our data and code publicly accessible at https://github.com/AI4Good24/PsySafe.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# F-Eval:再評価手法による基礎能力の評価

F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods ( http://arxiv.org/abs/2401.14869v2 )

ライセンス: Link先を確認
Yu Sun, Keyu Chen, Shujie Wang, Peiji Li, Qipeng Guo, Hang Yan, Xipeng Qiu, Xuanjing Huang, Dahua Lin, (参考訳) 大型言語モデル(LLM)は前例のない性能で注目され、LSMを評価する研究が増えている。 しかし、これらの評価ベンチマークは、訓練前の段階で現れる基本的な能力を見越して、指示追従能力の評価に限られている。 従来の主観評価手法は主にAPIモデルによるスコアリングに応答する。 しかし、参照がないため、大きなモデルでは微妙な違いを識別する能力が限られている。 このギャップを埋めるために、表現、常識、論理などの基本能力を評価するための二言語評価ベンチマークであるF-Evalを提案する。 F-Evalのタスクには、複数選択目的タスク、オープンエンド目的タスク、参照ベース主観的タスク、参照フリー主観的タスクが含まれる。 参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。 先進LLM13について評価を行った。 その結果,評価手法は他の評価装置よりも高い相関係数と大きな差があることが判明した。 さらに、異なるモデルサイズ、次元、正規化方法の影響についても論じる。 我々は、F-EvalがLLMの基本能力の研究を促進することを期待する。

Large language models (LLMs) garner significant attention for their unprecedented performance, leading to an increasing number of researches evaluating LLMs. However, these evaluation benchmarks are limited to assessing the instruction-following capabilities, overlooking the fundamental abilities that emerge during the pre-training stage. Previous subjective evaluation methods mainly reply on scoring by API models. However, in the absence of references, large models have shown limited ability to discern subtle differences. To bridge the gap, we propose F-Eval, a bilingual evaluation benchmark to evaluate the fundamental abilities, including expression, commonsense and logic. The tasks in F-Eval include multi-choice objective tasks, open-ended objective tasks, reference-based subjective tasks and reference-free subjective tasks. For reference-free subjective tasks, we devise new evaluation methods, serving as alternatives to scoring by API models. We conduct evaluations on 13 advanced LLMs. Results show that our evaluation methods show higher correlation coefficients and larger distinction than other evaluators. Additionally, we discuss the influence of different model sizes, dimensions, and normalization methods. We anticipate that F-Eval will facilitate the study of LLMs' fundamental abilities.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# ブロックチェーン上のブロックチェーン構築のための回路的アプローチ

A Circuit Approach to Constructing Blockchains on Blockchains ( http://arxiv.org/abs/2402.00220v4 )

ライセンス: Link先を確認
Ertem Nusret Tas, David Tse, Yifei Wang, (参考訳) 15年前にBitcoinが誕生して以来、無許可のブロックチェーンの数が爆発的に増えている。 これらのブロックチェーンは、誰でも読み書きできるオープンな台帳を提供する。 このマルチチェーンの世界では、重要な疑問が浮かび上がっています – 特定のブロックチェーンセットを読み書きすることで、よりセキュアなオーバーレイブロックチェーンを構築するにはどうすればよいのでしょう? スイッチング回路に類似した図を描き、ブロックチェーン間の2つの基本的な構成操作、シリアルと三角形の合成を定義し、これらの操作をビルディングブロックとして使用して、一般的なオーバーレイブロックチェーンを構築する。 部分的に同期した設定では、以下の結果が得られる。 1) 2つのブロックチェーン間のシリアル構成は、少なくとも2つのアンダーレイブロックチェーンの1つが安全であり、両方のブロックチェーンが稼働している場合、ライブである場合、安全であるオーバーレイブロックチェーンを生成する。 2) スイッチング回路の並列構成に類似した3つのブロックチェーン間の三角形構成は,すべてのアンダーレイブロックチェーンが安全で,その半数以上がライブである場合のオーバレイブロックチェーンを生成する。 3) この2つの基本的な操作の繰り返し構成は、任意の数のアンダーレイチェーン上に構築されたオーバーレイブロックチェーンに対して、安全性と生存性のすべてのトレードオフをもたらすことができる。 結果は同期設定にも拡張される。

Since the creation of Bitcoin 15 years ago, there has been an explosion in the number of permissionless blockchains. Each of these blockchains provides an open ledger that anyone can read from and write to. In this multi-chain world, an important question emerges: how can we build a more secure overlay blockchain by reading from and writing to a given set of blockchains? Drawing an analogy with switching circuits, we approach the problem by defining two basic compositional operations between blockchains, serial and triangular compositions, and use these operations as building blocks to construct general overlay blockchains. Under the partially synchronous setting, we have the following results: 1) the serial composition, between two blockchains, yields an overlay blockchain that is safe if at least one of the two underlay blockchains is safe and that is live if both of them are live; 2) the triangular composition between three blockchains, akin to parallel composition of switching circuits, yields an overlay blockchain that is safe if all underlay blockchains are safe and that is live if over half of them are live; 3) repeated composition of these two basic operations can yield all possible tradeoffs of safety and liveness for an overlay blockchain built on arbitrary number of underlay chains. The results are also extended to the synchronous setting.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# GaussianStyle: Gaussian Head Avatar via StyleGAN

GaussianStyle: Gaussian Head Avatar via StyleGAN ( http://arxiv.org/abs/2402.00827v3 )

ライセンス: Link先を確認
Pinxin Liu, Luchuan Song, Daoan Zhang, Hang Hua, Yunlong Tang, Huaijin Tu, Jiebo Luo, Chenliang Xu, (参考訳) Neural Radiation Fields (NeRF) や 3D Gaussian Splatting (3DGS) のような既存の手法は、顔のアニメーションやコンポーネントの編集など、顔の属性制御において大きな進歩を遂げているが、動的ヘッドモデリングにおける微細な表現とスケーラビリティに苦慮している。 これらの制約に対処するために,3DGSの体積強度とStyleGANの強力な暗黙表現を統合する新しいフレームワークであるGaussianStyleを提案する。 ガウススタイルは、表現やポーズなどの構造情報をガウス点を用いて保存し、暗黙の容積表現をStyleGANに投影することで、高周波の詳細を捉え、神経テクスチャレンダリングでよく見られる過度な滑らかさを軽減する。 実験結果から, 再現性, 新規なビュー合成, アニメーションにおいて, 最先端の性能を達成できることが示唆された。

Existing methods like Neural Radiation Fields (NeRF) and 3D Gaussian Splatting (3DGS) have made significant strides in facial attribute control such as facial animation and components editing, yet they struggle with fine-grained representation and scalability in dynamic head modeling. To address these limitations, we propose GaussianStyle, a novel framework that integrates the volumetric strengths of 3DGS with the powerful implicit representation of StyleGAN. The GaussianStyle preserves structural information, such as expressions and poses, using Gaussian points, while projecting the implicit volumetric representation into StyleGAN to capture high-frequency details and mitigate the over-smoothing commonly observed in neural texture rendering. Experimental outcomes indicate that our method achieves state-of-the-art performance in reenactment, novel view synthesis, and animation.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-20
# DeCoF:フレーム一貫性による生成ビデオ検出:最初のベンチマークデータセット

DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset ( http://arxiv.org/abs/2402.02085v6 )

ライセンス: Link先を確認
Long Ma, Jiajia Zhang, Hongping Deng, Ningyu Zhang, Qinglang Guo, Haiyang Yu, Yong Liao, Pengyuan Zhou, (参考訳) 高度なビデオ生成手法によって生成されたビデオの品質が向上すると、新たなセキュリティ上の課題がもたらされるが、関連する研究成果はほとんどない。 1)生成したビデオ検出のためのオープンソースデータセットは存在しない。 2) これまでに生成した映像検出手法は提案されていない。 そこで本研究では,生成したビデオのオープンソースデータセットと検出方法を初めて提案する。 まず、964プロンプトからなるスケーラブルなデータセットを提案し、さまざまなフォージェリターゲット、シーン、振る舞い、アクションに加えて、OpenAIのSoraやGoogleのVeoといった最もポピュラーな商用モデルを含む、さまざまなアーキテクチャと生成メソッドを備えたさまざまな世代モデルをカバーしています。 第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。 そこで,本稿では,特徴学習における空間的アーティファクトの影響を排除し,時間的アーティファクトに着目した,簡易かつ効果的な \textbf{de} 決定モデルを提案する。 大規模な実験は、目に見えないビデオ生成モデルによって生成されたビデオの検出におけるDeCoFの有効性を実証し、その強力な一般化性を複数の商用プロプライエタリなモデルで確認する。 コードとデータセットは \url{https://github.com/wuwuuuuyue/DeCoF} でリリースされます。

The escalating quality of video generated by advanced video generation methods results in new security challenges, while there have been few relevant research efforts: 1) There is no open-source dataset for generated video detection, 2) No generated video detection method has been proposed so far. To this end, we propose an open-source dataset and a detection method for generated video for the first time. First, we propose a scalable dataset consisting of 964 prompts, covering various forgery targets, scenes, behaviors, and actions, as well as various generation models with different architectures and generation methods, including the most popular commercial models like OpenAI's Sora and Google's Veo. Second, we found via probing experiments that spatial artifact-based detectors lack generalizability. Hence, we propose a simple yet effective \textbf{de}tection model based on \textbf{f}rame \textbf{co}nsistency (\textbf{DeCoF}), which focuses on temporal artifacts by eliminating the impact of spatial artifacts during feature learning. Extensive experiments demonstrate the efficacy of DeCoF in detecting videos generated by unseen video generation models and confirm its powerful generalizability across several commercially proprietary models. Our code and dataset will be released at \url{https://github.com/wuwuwuyue/DeCoF}.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# 隠蔽単一光子源を用いたパッシブデコイ状態量子セキュア直接通信

Passive decoy-state quantum secure direct communication with heralded single-photon source ( http://arxiv.org/abs/2402.02709v2 )

ライセンス: Link先を確認
Jia-Wei Ying, Peng Zhao, Wei Zhong, Ming-Ming Du, Xi-Yun Li, Shu-Ting Shen, An-Lei Zhang, Lan Zhou, Yu-Bo Sheng, (参考訳) 量子セキュアダイレクト通信(QSDC)は、秘密メッセージをキーなしで直接量子チャネルを介して送信することができる。 不完全光子源はQSDCの実装において大きな障害となる。 不完全な光子源から放出される望ましくない真空状態と多光子成分は、QSDCの機密メッセージ容量を大幅に減らし、セキュリティを脅かす。 本稿では,高効率な単一光子源(HSPS)を用いた受動デコイ状態QSDCプロトコルを提案する。 我々は、2つの空間モードで絡み合った光子対を放出するために、自発的なパラメトリックダウンコンバージョン源を採用する。 2つの相関空間モードのうちの1つで光子を検出することにより、他の空間モードの光子数分布を推測することができる。 一方,本プロトコルは信号状態とデコイ状態の簡易な受動的準備を可能にする。 HSPSは真空状態の確率を効果的に低減し、QSDCの機密メッセージ容量を増大させることができる。 一方、受動的デコイ状態法は、実験操作を簡素化し、サードパーティーのサイドチャネル攻撃に対するQSDCの堅牢性を高めることができる。 10kmの通信距離で、当社のQSDCプロトコルの秘密メッセージ容量は、平均光子数0.1と12.79の81.85回、平均光子数0.01の0.79回を達成することができる。 我々のQSDCプロトコルは最大通信距離が17.975kmであり、平均光子数は0.01である。 我々の研究は、実用的な受動デコイ状態QSDCシステムのさらなる発展に向けた大きなステップとなる。

Quantum secure direct communications (QSDC) can directly transmit secret messages through a quantum channel without keys. The imperfect photon source is a major obstacle for QSDC's practical implementation. The unwanted vacuum state and multiphoton components emitted from imperfect photon source largely reduce QSDC's secrecy message capacity and even threaten its security. In the paper, we propose a high-efficient passive decoy-state QSDC protocol with the heralded single-photon source (HSPS). We adopt a spontaneous parametric down-conversion source to emit entangled photon pairs in two spatial modes. By detecting the photons in one of the two correlated spatial modes, we can infer the photon-number distribution of the other spatial mode. Meanwhile, our protocol allows a simple passive preparation of the signal states and decoy state. The HSPS can effectively reduce the probability of vacuum state and increase QSDC's secrecy message capacity. Meanwhile, the passive decoy-state method can simplify the experimental operations and enhance QSDC's robustness against the third-party side-channel attacks. Under the communication distance of 10 km, the secrecy message capacity of our QSDC protocol can achieve 81.85 times with average photon number of 0.1 and 12.79 times with average photon number of 0.01 of that in the original single-photon-based QSDC protocol without the HSPS. Our QSDC protocol has longer maximal communication distance about 17.975 km with average photon number of 0.01. Our work serves as a major step toward the further development of practical passive decoy-state QSDC systems.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# 個人推論のための線形化群精度に対する異なる影響

Disparate Impact on Group Accuracy of Linearization for Private Inference ( http://arxiv.org/abs/2402.03629v3 )

ライセンス: Link先を確認
Saswat Das, Marco Romanelli, Ferdinando Fioretto, (参考訳) 暗号化されたセキュアなデータに対するプライバシー保護推論を保証することは、よく知られた計算課題である。 非線形アクティベーションにおけるコストのかかる暗号計算のボトルネックを軽減するため、最近の手法では、ニューラルネットワークにおいてこれらのアクティベーションのターゲット部分の線形化が提案されている。 この技術は、しばしば精度に無視できる影響で、ランタイムを著しく削減する。 本稿では,このような計算的利点が公正コストの増大につながることを実証する。 具体的には、ReLUアクティベーション数の減少が多数派と比較して少数派の精度を不均等に低下させることが判明した。 これらの観察を説明するために、決定境界の性質に関する限定的な仮定の下で数学的解釈を行い、また、広く使われているデータセットやアーキテクチャにおけるこの問題の有病率を示す。 最後に,線形化モデルの微調整手順を変更する簡単な手順が,効果的な緩和戦略として有効であることを示す。

Ensuring privacy-preserving inference on cryptographically secure data is a well-known computational challenge. To alleviate the bottleneck of costly cryptographic computations in non-linear activations, recent methods have suggested linearizing a targeted portion of these activations in neural networks. This technique results in significantly reduced runtimes with often negligible impacts on accuracy. In this paper, we demonstrate that such computational benefits may lead to increased fairness costs. Specifically, we find that reducing the number of ReLU activations disproportionately decreases the accuracy for minority groups compared to majority groups. To explain these observations, we provide a mathematical interpretation under restricted assumptions about the nature of the decision boundary, while also showing the prevalence of this problem across widely used datasets and architectures. Finally, we show how a simple procedure altering the fine-tuning step for linearized models can serve as an effective mitigation strategy.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# SCLA: LLMとSemantic Augmentationによるスマートコントラクトの自動要約

SCLA: Automated Smart Contract Summarization via LLMs and Semantic Augmentation ( http://arxiv.org/abs/2402.04863v5 )

ライセンス: Link先を確認
Yingjie Mao, Xiaoqi Li, Wenkai Li, Xin Wang, Lei Xie, (参考訳) 急速に進化するブロックチェーンシステムの世界では、スマートコントラクトの効率的な開発とメンテナンスが重要な課題になっています。 スマートコントラクトコードの要約は、スマートコントラクトのメンテナンスと脆弱性の軽減を著しく促進します。 GPT-4oやGemini-1.5-Proのような大規模言語モデル(LLM)には、プロンプトに埋め込まれたコード例からコード要約を生成する能力がある。 しかし、コード要約におけるLLMの性能は、微調整ベースのモデル(例えば、CodeT5+、CodeBERT)と比較しても最適以下である。 そこで,コード要約性能を向上させるために,LLMと意味拡張を利用したフレームワークであるSCLAを提案する。 SCLAは、スマートコントラクトの抽象構文木(AST)を構築し、潜在意味論を抽出し、意味的に拡張されたプロンプトを形成する。 評価には,4万の現実世界契約からなる大規模データセットを利用する。 実験の結果,SCLAは拡張プロンプトにより,コード要約の品質を著しく向上させることがわかった。 SCLAは他の最先端モデル(CodeBERT、CodeT5、CodeT5+)を上回り、37.53%のBLEU-4、52.54%のMETEOR、56.97%のROUGE-L、63.44%のBLEURTを達成している。

In the rapidly evolving world of blockchain systems, the efficient development and maintenance of smart contracts has become a critical task. Smart contract code summarization can significantly facilitate the maintenance of smart contracts and mitigate their vulnerabilities. Large Language Models (LLMs), such as GPT-4o and Gemini-1.5-Pro, possess the capability to generate code summarizations from code examples embedded in prompts. However, the performance of LLMs in code summarization remains suboptimal compared to fine-tuning-based models (e.g., CodeT5+, CodeBERT). Therefore, we propose SCLA, a framework leveraging LLMs and semantic augmentation to improve code summarization performance. SCLA constructs the smart contract's Abstract Syntax Tree (AST) to extract latent semantics, thereby forming a semantically augmented prompt. For evaluation, we utilize a large-scale dataset comprising 40,000 real-world contracts. Experimental results demonstrate that SCLA, with its enhanced prompt, significantly improves the quality of code summarizations. SCLA surpasses other state-of-the-art models (e.g., CodeBERT, CodeT5, and CodeT5+), achieving 37.53% BLEU-4, 52.54% METEOR, 56.97% ROUGE-L, and 63.44% BLEURT, respectively.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# 推薦の優先順位付けのための非自己回帰生成モデル

Non-autoregressive Generative Models for Reranking Recommendation ( http://arxiv.org/abs/2402.06871v4 )

ライセンス: Link先を確認
Yuxin Ren, Qiya Yang, Yichun Wu, Wei Xu, Yalong Wang, Zhiqiang Zhang, (参考訳) コンテンポラリーレコメンデーションシステムは、ユーザのニーズを満たすために、特定の要求や関心に合わせたアイテムの適切なリストを提供することによって設計されている。 多段階レコメンデーションシステムでは、項目間のリスト内相関をモデル化することで、リランクが重要な役割を果たす。 再階の鍵となる課題は、置換の組合せ空間内の最適な列の探索である。 近年の研究では、ジェネレータが複数の実行可能なシーケンスを生成し、評価器が推定されたリストワイズスコアに基づいて最適なシーケンスを選択する、ジェネレータ-評価器学習パラダイムを提案する。 ジェネレータは非常に重要であり、生成モデルはジェネレータ機能に適している。 現在の生成モデルは、シーケンス生成のための自己回帰戦略を採用している。 しかし、リアルタイム産業システムに自己回帰モデルを展開することは困難である。 これらの課題に対処するため,効率と有効性を高めるために,提案するレコメンデーション(NAR4Rec)の再評価のための非自己回帰生成モデルを提案する。 スパーストレーニングサンプルや動的候補といった課題に対処するために,マッチングモデルを導入する。 ユーザフィードバックの多様性を考えると、実現不可能なシークエンスと不可能なシークエンスを区別するために、シークエンスレベルの相違したトレーニング目標を用いる。 さらに,対象項目に関する非自己回帰モデルにおける依存性モデリングの欠如を克服するため,これらの項目間の相関を捉えるためにコントラッシブデコーディングを導入する。 大規模なオフライン実験により、NAR4Recは最先端の再ランク法よりも優れた性能を示す。 オンラインA/Bテストでは、NAR4Recはユーザーエクスペリエンスを大幅に向上させる。 さらに、NAR4Recは、毎日3億人以上のアクティブユーザーがいる人気ビデオアプリKuaishouに完全にデプロイされている。

Contemporary recommendation systems are designed to meet users' needs by delivering tailored lists of items that align with their specific demands or interests. In a multi-stage recommendation system, reranking plays a crucial role by modeling the intra-list correlations among items. The key challenge of reranking lies in the exploration of optimal sequences within the combinatorial space of permutations. Recent research proposes a generator-evaluator learning paradigm, where the generator generates multiple feasible sequences and the evaluator picks out the best sequence based on the estimated listwise score. The generator is of vital importance, and generative models are well-suited for the generator function. Current generative models employ an autoregressive strategy for sequence generation. However, deploying autoregressive models in real-time industrial systems is challenging. To address these issues, we propose a Non-AutoRegressive generative model for reranking Recommendation (NAR4Rec) designed to enhance efficiency and effectiveness. To tackle challenges such as sparse training samples and dynamic candidates, we introduce a matching model. Considering the diverse nature of user feedback, we employ a sequence-level unlikelihood training objective to differentiate feasible sequences from unfeasible ones. Additionally, to overcome the lack of dependency modeling in non-autoregressive models regarding target items, we introduce contrastive decoding to capture correlations among these items. Extensive offline experiments validate the superior performance of NAR4Rec over state-of-the-art reranking methods. Online A/B tests reveal that NAR4Rec significantly enhances the user experience. Furthermore, NAR4Rec has been fully deployed in a popular video app Kuaishou with over 300 million daily active users.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# 否定からの強い幻覚とその解決法

Strong hallucinations from negation and how to fix them ( http://arxiv.org/abs/2402.10543v2 )

ライセンス: Link先を確認
Nicholas Asher, Swarnadeep Bhar, (参考訳) 言語モデル(LM)は、多くのタスクにおいて優れたパフォーマンスを保っているにもかかわらず、推論に苦慮している。 このような応答をtextit{strong hallucinations} と呼び、論理演算子に対する内部表現のLMの計算とそれらの表現からの出力に従うことを証明します。 否定に着目して、否定が潜在表現の別の要素として扱われるのではなく、それらがどのように進化するかを制約するLMの潜在表現上の \textit{an 演算として扱われる新しい解を提供する。 提案手法は,疎い負のデータに対する訓練を必要とせずに,クローゼプロンプトや否定を伴う自然言語推論タスクにおけるモデル性能を向上させることを示す。

Despite great performance on many tasks, language models (LMs) still struggle with reasoning, sometimes providing responses that cannot possibly be true because they stem from logical incoherence. We call such responses \textit{strong hallucinations} and prove that they follow from an LM's computation of its internal representations for logical operators and outputs from those representations. Focusing on negation, we provide a novel solution in which negation is treated not as another element of a latent representation, but as \textit{an operation over an LM's latent representations that constrains how they may evolve}. We show that our approach improves model performance in cloze prompting and natural language inference tasks with negation without requiring training on sparse negative data.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# Cloud Kitchen: 計画ベースの複合AIを使用してフードデリバリープロセスを最適化する

Cloud Kitchen: Using Planning-based Composite AI to Optimize Food Delivery Processes ( http://arxiv.org/abs/2402.10725v2 )

ライセンス: Link先を確認
Slavomír Švancár, Lukáš Chrpa, Filip Dvořák, Tomáš Balyo, (参考訳) グローバルフードデリバリー市場は、世界の給餌効率を改善するAIベースのサービスに多くの機会を提供する。 本稿では,食品デリバリーを行うレストランの意思決定ツールとして,Cloud Kitchenプラットフォームを提案する。 プラットフォームには、レストランやシミュレーターと通信するためのインターフェースを提供するTechnology-Specific Bridge (TSB) が含まれている。 TSBは計画ドメインモデルを使用して、統一計画フレームワーク(UPF)に組み込まれた決定を表現する。 顧客の注文を車両に割り当て、顧客がどの順序で配送するか(各車両について)を決定する決定は、この問題の効率的なツールであるVine Routing Problem with Time Windows (VRPTW)を介して行われる。 当社のプラットフォームによる意思決定は,現実の過去のデータセットを用いて,納品の遅れを減らすことで,顧客満足度を向上させることができることを示す。

The global food delivery market provides many opportunities for AI-based services that can improve the efficiency of feeding the world. This paper presents the Cloud Kitchen platform as a decision-making tool for restaurants with food delivery and a simulator to evaluate the impact of the decisions. The platform contains a Technology-Specific Bridge (TSB) that provides an interface for communicating with restaurants or the simulator. TSB uses a planning domain model to represent decisions embedded in the Unified Planning Framework (UPF). Decision-making, which concerns allocating customers' orders to vehicles and deciding in which order the customers will be served (for each vehicle), is done via a Vehicle Routing Problem with Time Windows (VRPTW), an efficient tool for this problem. We show that decisions made by our platform can improve customer satisfaction by reducing the number of delayed deliveries using a real-world historical dataset.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# 動作パラメータのない状態トレースからのドメインモデル獲得計画

Planning Domain Model Acquisition from State Traces without Action Parameters ( http://arxiv.org/abs/2402.10726v2 )

ライセンス: Link先を確認
Tomáš Balyo, Martin Suda, Lukáš Chrpa, Dominik Šafránek, Stephan Gocht, Filip Dvořák, Roman Barták, G. Michael Youngblood, (参考訳) 状態トレースから学習する以前のSTRIPSドメインモデル取得アプローチは、学習すべきアクションの名前とパラメータから始まる。 したがって、彼らの唯一の仕事は、与えられた行動の前提条件と効果を推論することである。 本研究では,学習行動のパラメータが提供されない状況下での学習について検討する。 我々は,どの情報を提供するかに基づいて,トレース品質のレベルを定義し,それぞれにアルゴリズムを提示する。 あるレベル(L1)では、トレース中の状態はアクション名でラベル付けされているので、アクションの数と名前は推論できますが、パラメータの数とタイプを調査する必要があります。 他のレベル(L2)では、状態に対応する接地行動のパラメータを構成するオブジェクトを付加ラベル付けする。 ここでは、学習したアクションのパラメータの型を推論する必要があります。 提案アルゴリズムを実験により評価し,ICCベンチマークにおける最先端学習ツールFAMAと比較した。 評価の結果、我々の新しいアルゴリズムはより高速で、より大きな入力を処理でき、参照モデルに類似した学習行動モデルにおいてより良い結果が得られることがわかった。

Previous STRIPS domain model acquisition approaches that learn from state traces start with the names and parameters of the actions to be learned. Therefore their only task is to deduce the preconditions and effects of the given actions. In this work, we explore learning in situations when the parameters of learned actions are not provided. We define two levels of trace quality based on which information is provided and present an algorithm for each. In one level (L1), the states in the traces are labeled with action names, so we can deduce the number and names of the actions, but we still need to work out the number and types of parameters. In the other level (L2), the states are additionally labeled with objects that constitute the parameters of the corresponding grounded actions. Here we still need to deduce the types of the parameters in the learned actions. We experimentally evaluate the proposed algorithms and compare them with the state-of-the-art learning tool FAMA on a large collection of IPC benchmarks. The evaluation shows that our new algorithms are faster, can handle larger inputs and provide better results in terms of learning action models more similar to reference models.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# 勾配を小さくする方法:差分プライベートな非凸最適化のための改善率

How to Make the Gradients Small Privately: Improved Rates for Differentially Private Non-Convex Optimization ( http://arxiv.org/abs/2402.11173v2 )

ライセンス: Link先を確認
Andrew Lowy, Jonathan Ullman, Stephen J. Wright, (参考訳) 非凸損失関数の定常点を近似的に求めるために、微分プライベートアルゴリズムを設計するためのシンプルで柔軟なフレームワークを提供する。 我々のフレームワークは、固定点を見つけるための別のプライベートアルゴリズムを「ウォームスタート」するために、プライベートな近似リスク最小化器を用いています。 我々はこのフレームワークを用いて、いくつかの非凸損失関数のクラスに対して改善され、時には最適となるレートを得る。 まず、スムーズな非凸な経験的損失関数の定常点を求めるための改善率を得る。 第2に、星凸関数を一般化し、力学系を学習し、いくつかのニューラルネットワークを訓練する際に発生する準凸関数を専門とする。 私たちはこのクラスの最適率を達成する。 第3に、クルディカ・ロジャシエヴィチ(KL)条件を満たす関数の定常点を求める最適アルゴリズムを提案する。 例えば、過パラメータ化されたニューラルネットワークはこの条件を満たすことが多い。 第4に、非凸人口減少関数の定常点に対する新しい最先端率を提供する。 第5に、非凸一般化線形モデルの改善率を得る。 このアルゴリズムの修正により、リプシッツ・ヘッセン関数の2階定常点に対してほぼ同値となり、上記の各問題に対して従来の最先端よりも改善される。

We provide a simple and flexible framework for designing differentially private algorithms to find approximate stationary points of non-convex loss functions. Our framework is based on using a private approximate risk minimizer to "warm start" another private algorithm for finding stationary points. We use this framework to obtain improved, and sometimes optimal, rates for several classes of non-convex loss functions. First, we obtain improved rates for finding stationary points of smooth non-convex empirical loss functions. Second, we specialize to quasar-convex functions, which generalize star-convex functions and arise in learning dynamical systems and training some neural nets. We achieve the optimal rate for this class. Third, we give an optimal algorithm for finding stationary points of functions satisfying the Kurdyka-Lojasiewicz (KL) condition. For example, over-parameterized neural networks often satisfy this condition. Fourth, we provide new state-of-the-art rates for stationary points of non-convex population loss functions. Fifth, we obtain improved rates for non-convex generalized linear models. A modification of our algorithm achieves nearly the same rates for second-order stationary points of functions with Lipschitz Hessian, improving over the previous state-of-the-art for each of the above problems.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# 資源推定を利用した量子コンピューティングアプリケーションの開発

Utilizing Resource Estimation for the Development of Quantum Computing Applications ( http://arxiv.org/abs/2402.12434v2 )

ライセンス: Link先を確認
Nils Quetschlich, Mathias Soeken, Prakash Murali, Robert Wille, (参考訳) 量子コンピューティングは近年、ソフトウェアとハードウェアの両方でかなりの進歩を遂げている。 しかし、古典的に効率的に解決できない問題を解決するために量子コンピュータのパワーを解放するには、スケールでの量子コンピューティングが必要である。 残念なことに、量子シミュレータはその指数関数的な複雑さに悩まされており、同時に現在利用可能な量子コンピューティングハードウェアはかなり制限されている(たとえロードマップが興味深い約束をしているとしても)。 したがって、量子コンピューティングアプリケーションを評価するために、エンドユーザーはまだおもちゃサイズの問題インスタンスに制限されている(エラー訂正を考慮しないことが多い)。 これにより、現実世界の量子コンピューティングアプリケーションの開発と評価が著しく妨げられる。 本研究では,この状況を改善するために資源推定を利用する方法を示す。 シミュレーションおよび/または実行を前提とした現在のワークフローを,(1)エンドユーザーがすでに現実的な問題インスタンス(エラー修正スキームやそれに対応するハードウェアリソースも考慮)を考えることができるようにし,(2)デザイン空間全体にわたってそれらのインスタンスの可能な最適化を探求し,(3)ハードウェア開発のトレンドの仮説を組み込んで,より情報を得て,よりよい設計空間パラメータを導出できることを示す。 全体として、これによってエンドユーザーは、たとえそれを実行するハードウェアがまだ利用できないとしても、将来の量子コンピューティングアプリケーションの可能性を確認することができる。

Quantum computing has made considerable progress in recent years in both software and hardware. But to unlock the power of quantum computers in solving problems that cannot be efficiently solved classically, quantum computing at scale is necessary. Unfortunately, quantum simulators suffer from their exponential complexity and, at the same time, the currently available quantum computing hardware is still rather limited (even if roadmaps make intriguing promises). Hence, in order to evaluate quantum computing applications, end-users are still frequently restricted to toy-size problem instances (which additionally often do not take error correction into account). This substantially hinders the development and assessment of real-world quantum computing applications. In this work, we demonstrate how to utilize Resource Estimation to improve this situation. We show how the current workflow (relying on simulation and/or execution) can be complemented with an estimation step, allowing that end-users (1) actually can consider real-world problem instances already today (also considering error correction schemes and correspondingly required hardware resources), (2) can start exploring possible optimizations of those instances across the entire design space, and (3) can incorporate hypotheses of hardware development trends to derive more informed and, thus, better design space parameters. Overall, this enables end-users already today to check out the promises of possible future quantum computing applications, even if the corresponding hardware to execute them is not available yet.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# SoftTiger:医療ワークフローのための臨床基礎モデル

SoftTiger: A Clinical Foundation Model for Healthcare Workflows ( http://arxiv.org/abs/2403.00868v3 )

ライセンス: Link先を確認
Ye Chen, Igor Couto, Wei Cai, Cong Fu, Bruno Dorneles, (参考訳) 医療ワークフローの基礎モデルとして設計された臨床用大規模言語モデル(CLaM)であるSoftTigerを紹介する。 臨床ノートの物語的・非構造的性質は、医療の知的化の大きな障害である。 我々は,臨床ノートを臨床データに構造化する上で重要な問題に対処する。 我々は,3つのサブタスク,すなわち国際患者要約,臨床印象,医療的出会いのデータを収集し,注釈する。 その後,公立および認証された臨床データを用いて,最先端のLCMの微調整を指導した。 トレーニングは、まず略語拡大や時間的情報抽出などの基本的な臨床タスクを対象モデルがサポートし、さらに複雑な下流臨床タスクを実行するように編成される。 さらに、医療コンテキストにおけるいくつかのモデリング課題、例えば、余分に長いコンテキストウィンドウに対処する。 我々のブラインド・ペアワイズ・アセスメントは、SoftTigerが他の人気のあるオープンソース・モデルより優れており、GPT-3.5はGemini-proに匹敵するもので、GPT-4とわずかに差があることを示している。 LLMは医療のデジタル化と民主化の足掛かりになるかもしれない。 したがって、私たちは、130億から700億のパラメータのスケールでSoftTigerモデルを公開し、革新的なスケーラブルな評価のためのデータセットとコードを公開しています。

We introduce SoftTiger, a clinical large language model (CLaM) designed as a foundation model for healthcare workflows. The narrative and unstructured nature of clinical notes is a major obstacle for healthcare intelligentization. We address a critical problem of structuring clinical notes into clinical data, according to international interoperability standards. We collect and annotate data for three subtasks, namely, international patient summary, clinical impression and medical encounter. We then supervised fine-tuned a state-of-the-art LLM using public and credentialed clinical data. The training is orchestrated in a way that the target model can first support basic clinical tasks such as abbreviation expansion and temporal information extraction, and then learn to perform more complex downstream clinical tasks. Moreover, we address several modeling challenges in the healthcare context, e.g., extra long context window. Our blind pairwise evaluation shows that SoftTiger outperforms other popular open-source models and GPT-3.5, comparable to Gemini-pro, with a mild gap from GPT-4. We believe that LLMs may become a step-stone towards healthcare digitalization and democratization. Therefore, we publicly release SoftTiger models at scales of 13 billion and 70 billion parameters, as well as datasets and code for our innovative scalable evaluation, hopefully, making a significant contribution to the healthcare industry.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# 自己監督型画像レイアウト表現学習

Self-supervised Photographic Image Layout Representation Learning ( http://arxiv.org/abs/2403.03740v2 )

ライセンス: Link先を確認
Zhaoran Zhao, Peng Lu, Xujun Peng, Wenhao Guo, (参考訳) 画像レイアウト表現学習の領域では、画像のレイアウトを簡潔なベクトル形式に変換する重要なプロセスが、画像検索、操作、生成などの様々なアプリケーションでますます重要になっている。 この領域のほとんどのアプローチは、高価なラベル付きデータセットに大きく依存しており、特に写真画像レイアウトの特定のニュアンスにモデリングと学習方法を適用することが欠如している。 この欠点は、写真画像レイアウトの学習過程を最適以下にする。 本研究では,これらの課題に対処する。 我々は、様々なレベルのレイアウト情報をカプセル化する基本的なレイアウトプリミティブを定義し、それらを相互接続とともに不均一なグラフ構造にマッピングすることで革新する。 このグラフは、ピクセル領域内の複雑なレイアウト情報を明示的にキャプチャするために慎重に設計されている。 さらに、これらのレイアウトグラフを効果的に自己教師付き学習するために戦略的に設計された、カスタマイズされた損失関数と組み合わされた新しいプリテキストタスクを導入する。 そこで我々は,これらの不均一なレイアウトグラフを精度よく,次元的に再現されたレイアウト表現に圧縮する,オートエンコーダに基づくネットワークアーキテクチャを開発した。 さらに,より広い範囲のレイアウトカテゴリとよりリッチなセマンティクスを特徴とするLODBデータセットを導入し,レイアウト表現学習手法の有効性を評価するための総合的なベンチマークとして機能する。 このデータセットに対する広範な実験は、写真画像レイアウト表現学習の領域における我々のアプローチの優れた性能を示すものである。

In the domain of image layout representation learning, the critical process of translating image layouts into succinct vector forms is increasingly significant across diverse applications, such as image retrieval, manipulation, and generation. Most approaches in this area heavily rely on costly labeled datasets and notably lack in adapting their modeling and learning methods to the specific nuances of photographic image layouts. This shortfall makes the learning process for photographic image layouts suboptimal. In our research, we directly address these challenges. We innovate by defining basic layout primitives that encapsulate various levels of layout information and by mapping these, along with their interconnections, onto a heterogeneous graph structure. This graph is meticulously engineered to capture the intricate layout information within the pixel domain explicitly. Advancing further, we introduce novel pretext tasks coupled with customized loss functions, strategically designed for effective self-supervised learning of these layout graphs. Building on this foundation, we develop an autoencoder-based network architecture skilled in compressing these heterogeneous layout graphs into precise, dimensionally-reduced layout representations. Additionally, we introduce the LODB dataset, which features a broader range of layout categories and richer semantics, serving as a comprehensive benchmark for evaluating the effectiveness of layout representation learning methods. Our extensive experimentation on this dataset demonstrates the superior performance of our approach in the realm of photographic image layout representation learning.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-20
# ファウショット異常検出のためのデュアルパス周波数判別器

Dual-path Frequency Discriminators for Few-shot Anomaly Detection ( http://arxiv.org/abs/2403.04151v3 )

ライセンス: Link先を確認
Yuhu Bai, Jiangning Zhang, Zhaofeng Chen, Yuhang Dong, Yunkang Cao, Guanzhong Tian, (参考訳) 工業生産においてFSAD (Few-shot Anomaly Detection) が重要な役割を担っている。 しかし,既存のFSAD法では,通常のサンプルの数が限られているため,空間領域における異常検出や発見が困難であった。 さらに、これらの微妙な異常が周波数領域でより顕著であることが判明した。 本稿では、これらの問題に対処するために、周波数観点からDual-Path Frequency Discriminator (DFD)ネットワークを提案する。 元の空間画像は多周波画像に変換され、異常を検出する際に、調整された識別器により誘導される。 さらに、識別者は擬似アノマリーの形で共同表現を学ぶ。 MVTec AD と VisA のベンチマークで実施された大規模な実験により、DFD が現在の最先端手法を超越していることが示されている。 ソースコードは利用可能である。

Few-shot anomaly detection (FSAD) plays a crucial role in industrial manufacturing. However, existing FSAD methods encounter difficulties leveraging a limited number of normal samples, frequently failing to detect and locate inconspicuous anomalies in the spatial domain. We have further discovered that these subtle anomalies would be more noticeable in the frequency domain. In this paper, we propose a Dual-Path Frequency Discriminators (DFD) network from a frequency perspective to tackle these issues. The original spatial images are transformed into multi-frequency images, making them more conducive to the tailored discriminators in detecting anomalies. Additionally, the discriminators learn a joint representation with forms of pseudo-anomalies. Extensive experiments conducted on MVTec AD and VisA benchmarks demonstrate that our DFD surpasses current state-of-the-art methods. Source code will be available.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# PrimeComposer: アテンションステアリングによる画像合成のための高速な段階的拡散

PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering ( http://arxiv.org/abs/2403.05053v3 )

ライセンス: Link先を確認
Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin, (参考訳) 画像合成は、与えられたオブジェクトを特定の視覚的コンテキストにシームレスに統合する。 現在の訓練なしの方法は、ジェネレータを誘導するために複数のサンプルから注意重みを合成することに依存している。 しかし、これらの重みは異なる文脈から導かれるため、それらの組み合わせはコヒーレンス混乱と外観情報の喪失につながる。 これらの問題は、このタスクで不要であったとしても、バックグラウンド生成に過度に焦点を合わせることで悪化した。 これは、迅速な実装を阻害するだけでなく、前景の世代品質を損なう。 さらに、これらの手法は遷移領域に不要なアーティファクトを導入する。 本稿では,画像合成を主観的局所編集タスクとして定式化し,前景生成のみに着目した。 各ステップで、編集されたフォアグラウンドとノイズの多いバックグラウンドを組み合わせることで、シーンの一貫性を維持する。 残りの問題に対処するため,さまざまなノイズレベルに対して注意制御を適切に設計することで,画像を合成する高速なトレーニングフリーディフューザであるPrimeComposerを提案する。 このステアリングは主に相関ディフューザによって実現され、各ステップで自己注意層を利用しています。 これらの層の中では、合成対象は参照対象と背景の両方と相互作用し、複雑な詳細とコヒーレントな関係をキャプチャする。 この前の情報はアテンション重みに符号化され、ジェネレータの自己アテンション層に統合され、合成プロセスが導かれる。 さらに、所望の領域に対する特定の被写体関連トークンの影響を抑えるために、領域制約のクロスアテンションを導入し、先程の手法で示される不要なアーティファクトに対処することにより、遷移領域におけるコヒーレンスをさらに改善する。 提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。

Image composition involves seamlessly integrating given objects into a specific visual context. Current training-free methods rely on composing attention weights from several samplers to guide the generator. However, since these weights are derived from disparate contexts, their combination leads to coherence confusion and loss of appearance information. These issues worsen with their excessive focus on background generation, even when unnecessary in this task. This not only impedes their swift implementation but also compromises foreground generation quality. Moreover, these methods introduce unwanted artifacts in the transition area. In this paper, we formulate image composition as a subject-based local editing task, solely focusing on foreground generation. At each step, the edited foreground is combined with the noisy background to maintain scene consistency. To address the remaining issues, we propose PrimeComposer, a faster training-free diffuser that composites the images by well-designed attention steering across different noise levels. This steering is predominantly achieved by our Correlation Diffuser, utilizing its self-attention layers at each step. Within these layers, the synthesized subject interacts with both the referenced object and background, capturing intricate details and coherent relationships. This prior information is encoded into the attention weights, which are then integrated into the self-attention layers of the generator to guide the synthesis process. Besides, we introduce a Region-constrained Cross-Attention to confine the impact of specific subject-related tokens to desired regions, addressing the unwanted artifacts shown in the prior method thereby further improving the coherence in the transition area. Our method exhibits the fastest inference efficiency and extensive experiments demonstrate our superiority both qualitatively and quantitatively.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# 視覚的対話尺度を用いた繰り返し尺度の応答型評価

Response Style Characterization for Repeated Measures Using the Visual Analogue Scale ( http://arxiv.org/abs/2403.10136v2 )

ライセンス: Link先を確認
Shunsuke Minusa, Tadayuki Matsumura, Kanako Esaki, Yang Shao, Chihiro Yoshimura, Hiroyuki Mizuno, (参考訳) 自己申告尺度(例:Likert scales)は主観的健康認知を評価するために広く用いられている。 近年,視覚的アナログ尺度 (VAS) が普及している。 これらのデータは、アンケートの指示によらず、ユーザ依存の体系的傾向である応答スタイル(RS)の影響を受けることができる。 特に個人間分析において重要であるにもかかわらず、主に個人内モニタリングに使われ、RPの影響を受けないため、VAS(Re response profile, RP)におけるRSの扱いにはほとんど注意が払われていない。 しかしながら、VAS測定では、同じアンケート項目を何度も自己報告する必要があることが多く、従来の手法をLikertスケールで適用することは困難である。 本研究では,様々な種類の繰り返し測定されたVASデータに対する新しいRP特性評価法を開発した。 このアプローチでは、RSのような分布を混合してRPを分布パラメータとして${\theta}$としてモデル化し、ブートストラップサンプリングによる不均衡なデータの問題に対処する。 本手法の有効性を擬似データと実データを用いて実証実験により検証した。 パラメータ回復評価の結果,RPパラメータ${\theta}$を正確に推定し,その堅牢性を示した。 さらに,本手法を実際のVASデータセットに適用することにより,各RPの不均一性の存在が明らかとなった。 提案手法は, RPの不均一性を考慮したVASデータ解析を可能にする。

Self-report measures (e.g., Likert scales) are widely used to evaluate subjective health perceptions. Recently, the visual analog scale (VAS), a slider-based scale, has become popular owing to its ability to precisely and easily assess how people feel. These data can be influenced by the response style (RS), a user-dependent systematic tendency that occurs regardless of questionnaire instructions. Despite its importance, especially in between-individual analysis, little attention has been paid to handling the RS in the VAS (denoted as response profile (RP)), as it is mainly used for within-individual monitoring and is less affected by RP. However, VAS measurements often require repeated self-reports of the same questionnaire items, making it difficult to apply conventional methods on a Likert scale. In this study, we developed a novel RP characterization method for various types of repeatedly measured VAS data. This approach involves the modeling of RP as distributional parameters ${\theta}$ through a mixture of RS-like distributions, and addressing the issue of unbalanced data through bootstrap sampling for treating repeated measures. We assessed the effectiveness of the proposed method using simulated pseudo-data and an actual dataset from an empirical study. The assessment of parameter recovery showed that our method accurately estimated the RP parameter ${\theta}$, demonstrating its robustness. Moreover, applying our method to an actual VAS dataset revealed the presence of individual RP heterogeneity, even in repeated VAS measurements, similar to the findings of the Likert scale. Our proposed method enables RP heterogeneity-aware VAS data analysis, similar to Likert-scale data analysis.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# IIDM:意味的画像合成のための画像間拡散モデル

IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis ( http://arxiv.org/abs/2403.13378v2 )

ライセンス: Link先を確認
Feng Liu, Xiaobin Chang, (参考訳) セマンティック画像合成は, セグメンテーションマスクやスタイル参照画像など, 与えられたセグメンテーション条件を満たす高品質な画像を生成することを目的としている。 既存の手法はGAN(Generative Adversarial Network)を広く採用している。 GANは条件付き入力を全て取り、1つのステップで画像を直接合成する。 本稿では,セマンティック画像合成を画像認識タスクとして扱い,新しい画像間拡散モデル(IIDM)で処理する。 特に、スタイル参照はまずランダムノイズで汚染され、次にIIDMによって徐々に認知され、セグメンテーションマスクでガイドされる。 さらに, 改良, 色変換, モデルアンサンブルの3つの手法が提案され, 生成品質をさらに向上させる。 これらはプラグイン推論モジュールであり、追加のトレーニングを必要としない。 広範囲な実験により,我々のIIDMは既存の最先端手法よりも明確なマージンで優れていたことが判明した。 さらなる分析は詳細な実演を通じて行われる。 コードはhttps://github.com/ader47/jittor-jieke-semantic_images_ synthesisで利用可能です。

Semantic image synthesis aims to generate high-quality images given semantic conditions, i.e. segmentation masks and style reference images. Existing methods widely adopt generative adversarial networks (GANs). GANs take all conditional inputs and directly synthesize images in a single forward step. In this paper, semantic image synthesis is treated as an image denoising task and is handled with a novel image-to-image diffusion model (IIDM). Specifically, the style reference is first contaminated with random noise and then progressively denoised by IIDM, guided by segmentation masks. Moreover, three techniques, refinement, color-transfer and model ensembles, are proposed to further boost the generation quality. They are plug-in inference modules and do not require additional training. Extensive experiments show that our IIDM outperforms existing state-of-the-art methods by clear margins. Further analysis is provided via detailed demonstrations. We have implemented IIDM based on the Jittor framework; code is available at https://github.com/ader47/jittor-jieke-semantic_images_synthesis.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# CAUSE:タスク指向対話システムにおけるユーザ満足度推定の非現実的評価

CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2403.19056v2 )

ライセンス: Link先を確認
Amin Abolghasemi, Zhaochun Ren, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke, Suzan Verberne, (参考訳) タスク指向対話(TOD)システムにおけるユーザ満足度推定に関するこれまでの研究において、ユーザ満足度推定に関する重要な未探索の側面は、ユーザ不満の識別のための堅牢性の観点からの評価である。 よりバランスの取れた満足度ラベルがパフォーマンスに与える影響は分かっていない。 しかし、データとより満足のいく対話サンプルのバランスをとるには、さらなるデータ収集と人的アノテーションが必要である。 本研究では,大規模言語モデル(LLM)を活用して,満足度を考慮した対実対話を生成して,テストコレクションの原文対話の集合を拡張する。 生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。 我々は2つのオープンソースLCMを,最先端の微調整モデルに対する拡張コレクションのユーザ満足度推定器として評価した。 実験の結果, オープンソースのLCMは, ユーザ満足度推定器として使用した場合, テストコレクションにおける不満ラベルの増加に対して, 微調整モデルよりもロバスト性が高いことがわかった。 この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。 我々は、人間のアノテーションによってキュレートされた、協調した対実対話を公開し、この話題についてさらなる研究を促進する。

An important unexplored aspect in previous work on user satisfaction estimation for Task-Oriented Dialogue (TOD) systems is their evaluation in terms of robustness for the identification of user dissatisfaction: current benchmarks for user satisfaction estimation in TOD systems are highly skewed towards dialogues for which the user is satisfied. The effect of having a more balanced set of satisfaction labels on performance is unknown. However, balancing the data with more dissatisfactory dialogue samples requires further data collection and human annotation, which is costly and time-consuming. In this work, we leverage large language models (LLMs) and unlock their ability to generate satisfaction-aware counterfactual dialogues to augment the set of original dialogues of a test collection. We gather human annotations to ensure the reliability of the generated samples. We evaluate two open-source LLMs as user satisfaction estimators on our augmented collection against state-of-the-art fine-tuned models. Our experiments show that when used as few-shot user satisfaction estimators, open-source LLMs show higher robustness to the increase in the number of dissatisfaction labels in the test collection than the fine-tuned state-of-the-art models. Our results shed light on the need for data augmentation approaches for user satisfaction estimation in TOD systems. We release our aligned counterfactual dialogues, which are curated by human annotation, to facilitate further research on this topic.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# 安全データには何があるのか? 安全を損なう良否を識別する

What is in Your Safe Data? Identifying Benign Data that Breaks Safety ( http://arxiv.org/abs/2404.01099v2 )

ライセンス: Link先を確認
Luxi He, Mengzhou Xia, Peter Henderson, (参考訳) 現在のLLM(Large Language Models)は、安全性とアライメントのために調整されたものでさえ、ジェイルブレイクの影響を受けやすい。 さらに、良質なデータ(すなわち有害な内容のないデータ)で整列モデルを微調整するだけで、驚くほど安全性が低下することを発見した者もいる。 精巧な微調整が誤ってジェイルブレイクに寄与する理由について、データ中心の側面を掘り下げる。 まず、2つのレンズ(表現空間と勾配空間)を通して微調整データを表現する。 さらに,選択過程において,有害な事例に近づき,良性に欠けるデータ点を優先する双方向アンカー手法を提案する。 我々の手法は、微調整後にモデルの安全性を低下させる可能性がより高い良質なデータのサブセットを効果的に識別する。 わずか100個の不明瞭なデータポイントのトレーニングは、ランダムに選択されたデータの微調整後の20%に比べて、テストされた有害な要求の70%に肯定的に反応する微調整モデルにつながる。 また、選択したデータは、しばしばリスト、弾丸点、数学の質問として現れ、ジェイルブレイクに寄与する微調整データの体系的なパターンを示す。

Current Large Language Models (LLMs), even those tuned for safety and alignment, are susceptible to jailbreaking. Some have found that just further fine-tuning an aligned model with benign data (i.e., data without harmful content) surprisingly leads to substantial degradation in safety. We delve into the data-centric aspects of why benign fine-tuning inadvertently contributes to jailbreaking. First, we represent fine-tuning data through two lenses: representation and gradient spaces. Additionally, we propose a bi-directional anchoring method that, during the selection process, prioritizes data points that are close to harmful examples and far from benign ones. Our approach effectively identifies subsets of benign data that are more likely to degrade the model's safety after fine-tuning. Training on just 100 of these seemingly benign datapoints surprisingly leads to the fine-tuned model affirmatively responding to >70% of tested harmful requests, compared to <20% after fine-tuning on randomly selected data. We also observe that the selected data frequently appear as lists, bullet points, or math questions, indicating a systematic pattern in fine-tuning data that contributes to jailbreaking.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# Kuboを用いた効率的な量子ギブスサンプリング--Martin--Schwingerの詳細なバランス条件

Efficient quantum Gibbs samplers with Kubo--Martin--Schwinger detailed balance condition ( http://arxiv.org/abs/2404.05998v3 )

ライセンス: Link先を確認
Zhiyan Ding, Bowen Li, Lin Lin, (参考訳) リンドブラッド力学やその他の開系力学は、量子コンピュータ上の効率的なギブズサンプリングへの有望な道を提供する。 これらの提案では、リンドブラディアンは、古典モンテカルロ法や分子動力学法で人工サーモスタットを設計するアルゴリズム的な構成によって得られる。 近年、Chen, Kastoryano, Gily\'en (arXiv:2311.09207) は、Kubo--Martin-Schwinger (KMS) の詳細なバランス条件を満たす最初の効率的な実装可能なリンドブラディアンを導入した。 このギブスサンプリング器は連続パラメータ化されたジャンプ演算子の集合を用い、各ジャンプ演算子を実装するために必要なエネルギー分解能は、精度と混合時間にのみ対数的に依存する。 本研究では,Fagnola と Umanit\`a によるKMS詳細平衡リンドブラディアンの構造解析に基づいて,有限個のジャンプ演算子(数値は 1 個程度)を用いて,古典マルコフ連鎖に基づくサンプリングアルゴリズムに類似した,効率的な量子ギブズサンプリング器群を構築する。 既存の研究と比較すると、我々の量子ギブスサンプリングは、同等の量子シミュレーションコストを持つが、設計の柔軟性が向上し、実装とエラー解析がより簡単になった。 また、特例としてChen、Kastoryano、Gily\enの建築も含む。

Lindblad dynamics and other open-system dynamics provide a promising path towards efficient Gibbs sampling on quantum computers. In these proposals, the Lindbladian is obtained via an algorithmic construction akin to designing an artificial thermostat in classical Monte Carlo or molecular dynamics methods, rather than treated as an approximation to weakly coupled system-bath unitary dynamics. Recently, Chen, Kastoryano, and Gily\'en (arXiv:2311.09207) introduced the first efficiently implementable Lindbladian satisfying the Kubo--Martin--Schwinger (KMS) detailed balance condition, which ensures that the Gibbs state is a fixed point of the dynamics and is applicable to non-commuting Hamiltonians. This Gibbs sampler uses a continuously parameterized set of jump operators, and the energy resolution required for implementing each jump operator depends only logarithmically on the precision and the mixing time. In this work, we build upon the structural characterization of KMS detailed balanced Lindbladians by Fagnola and Umanit\`a, and develop a family of efficient quantum Gibbs samplers using a finite set of jump operators (the number can be as few as one), akin to the classical Markov chain-based sampling algorithm. Compared to the existing works, our quantum Gibbs samplers have a comparable quantum simulation cost but with greater design flexibility and a much simpler implementation and error analysis. Moreover, it encompasses the construction of Chen, Kastoryano, and Gily\'en as a special instance.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# Elephants Never Forget:大規模言語モデルにおける語彙データの記憶と学習

Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models ( http://arxiv.org/abs/2404.06209v2 )

ライセンス: Link先を確認
Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana, (参考訳) 大規模言語モデル(LLM)が様々なタスクにどのように適用できるかを示すものが多いが、データ汚染と記憶の重大な問題は、しばしば誇張されている。 本稿では,この問題に対処する。 具体的には、トレーニング中に言語モデルが表のデータセットを見たかどうかを評価するために、さまざまなテクニックを紹介します。 この調査は、LLMが多くの人気のある表のデータセットを冗長に記憶していることを示している。 次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。 LLMはトレーニング中に見られるデータセットよりも優れており、記憶が過度に適合することを示している。 同時に、LLMは、新しいデータセットで非自明なパフォーマンスを示し、驚くほどデータ変換に堅牢である。 次に,LLMの文脈内統計的学習能力について検討する。 LLMは統計分類問題の解法においてランダムよりもはるかに優れているが、従来の統計学習アルゴリズムに遅れた数発の学習ラグのサンプル効率は、特に問題の次元が大きくなるにつれて向上する。 これは、新しい実世界のデータセットで観測された数発のパフォーマンスの多くは、LLMの世界知識によるものであることを示唆している。 本研究の結果は,LLMが事前学習中に評価データセットを見たかどうかをテストすることの重要性を強調した。 我々は https://github.com/interpretml/LLM-Tabular-Memorization-Checker Pythonパッケージをリリースした。

While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. While LLMs are significantly better than random at solving statistical classification problems, the sample efficiency of few-shot learning lags behind traditional statistical learning algorithms, especially as the dimension of the problem increases. This suggests that much of the observed few-shot performance on novel real-world datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We release the https://github.com/interpretml/LLM-Tabular-Memorization-Checker Python package to test LLMs for memorization of tabular datasets.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# 組合せ最適化のためのグラフ強化学習 : 調査と統一的視点

Graph Reinforcement Learning for Combinatorial Optimization: A Survey and Unifying Perspective ( http://arxiv.org/abs/2404.06492v2 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi, (参考訳) グラフは、接続されたエンティティ間の関係に基づくシステムの自然な表現である。 離散構造に対する関心の過程に関連する客観的関数を考える際に生じる組合せ最適化問題は、解空間の急速な成長によってしばしば困難である。 強化学習の試行錯誤パラダイムは、化学、計算機科学、統計学など、さまざまな分野におけるより良い意思決定戦略を発見するための、正確なアルゴリズムや(メタ)ヒューリスティックスといった従来の手法に代わる有望な代替手段として最近登場した。 それらが著しく異なる分野で生じたという事実にもかかわらず、これらの技術は重要な共通点を共有している。 そこで我々は,この研究をグラフ強化学習(Graph Reinforcement Learning)と呼ぶ統一的な視点で合成し,グラフ問題の構築的意思決定手法として解釈した。 関連する技術的背景を網羅した後、関心のあるグラフ構造を最適化するか、あるいは固定されたグラフ構造の下でプロセス自体の結果を最適化するかを、目的の分割線に沿って検討する。 最後に、この分野に直面する共通課題と研究課題について論じる。 他の調査とは対照的に、本研究では、パフォーマンスアルゴリズムが一般的に知られていない非標準グラフ問題に焦点を当て、強化学習は効率的かつ効果的なソリューションを提供することができる。

Graphs are a natural representation for systems based on relations between connected entities. Combinatorial optimization problems, which arise when considering an objective function related to a process of interest on discrete structures, are often challenging due to the rapid growth of the solution space. The trial-and-error paradigm of Reinforcement Learning has recently emerged as a promising alternative to traditional methods, such as exact algorithms and (meta)heuristics, for discovering better decision-making strategies in a variety of disciplines including chemistry, computer science, and statistics. Despite the fact that they arose in markedly different fields, these techniques share significant commonalities. Therefore, we set out to synthesize this work in a unifying perspective that we term Graph Reinforcement Learning, interpreting it as a constructive decision-making method for graph problems. After covering the relevant technical background, we review works along the dividing line of whether the goal is to optimize graph structure given a process of interest, or to optimize the outcome of the process itself under fixed graph structure. Finally, we discuss the common challenges facing the field and open research questions. In contrast with other surveys, the present work focuses on non-canonical graph problems for which performant algorithms are typically not known and Reinforcement Learning is able to provide efficient and effective solutions.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# テキストをご覧ください:命令付き言語モデルは、あなたが考えるよりもロバストな複数の選択者です

Look at the Text: Instruction-Tuned Language Models are More Robust Multiple Choice Selectors than You Think ( http://arxiv.org/abs/2404.08382v2 )

ライセンス: Link先を確認
Xinpeng Wang, Chengzhi Hu, Bolei Ma, Paul Röttger, Barbara Plank, (参考訳) 複数選択質問(MCQ)は、大規模言語モデル(LLM)の機能を評価するために一般的に用いられる。 モデル応答を評価する一般的な方法は、第1のトークン予測のログ確率に基づいて、候補の回答をランク付けすることである。 別の方法は、テキスト出力を調べることである。 従来の研究では、最初のトークン確率はMCQのフレーズの変更に対して堅牢性に欠けており、最初のトークン確率は命令調整されたモデルに対するテキストの答えと一致しない。 そこで本研究では,テキスト回答のロバスト性について検討する。 テキスト回答は、最初のトークン回答がテキスト回答を間違えたときに、最初のトークン確率よりも摂動を問う方が堅牢であることを示す。 ミスマッチ速度が大きくなるにつれて、ロバスト性の違いが増大する。 ミスマッチが50%以上に達すると、テキスト回答はPriDeのような最先端のデバイアス手法を使用して、デバイアスされたファーストトークンの確率よりも、順番変更をオプションにするとより堅牢になる。 本研究は,第1トークン確率評価よりもテキスト応答評価が有効であることを示す。

Multiple choice questions (MCQs) are commonly used to evaluate the capabilities of large language models (LLMs). One common way to evaluate the model response is to rank the candidate answers based on the log probability of the first token prediction. An alternative way is to examine the text output. Prior work has shown that first token probabilities lack robustness to changes in MCQ phrasing, and that first token probabilities do not match text answers for instruction-tuned models. Therefore, in this paper, we investigate the robustness of text answers. We show that the text answers are more robust to question perturbations than the first token probabilities, when the first token answers mismatch the text answers. The difference in robustness increases as the mismatch rate becomes greater. As the mismatch reaches over 50\%, the text answer is more robust to option order changes than the debiased first token probabilities using state-of-the-art debiasing methods such as PriDe. Our findings provide further evidence for the benefits of text answer evaluation over first token probability evaluation.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-20
# 条件付きプロトタイプ整形プロンプト学習

Conditional Prototype Rectification Prompt Learning ( http://arxiv.org/abs/2404.09872v2 )

ライセンス: Link先を確認
Haoxing Chen, Yaohui Li, Zizheng Huang, Yan Hong, Zhuoer Xu, Zhangxuan Gu, Jun Lan, Huijia Zhu, Weiqiang Wang, (参考訳) 事前学習された大規模視覚言語モデル(VLM)は、一般的な視覚概念の深い理解を得た。 効率的な伝達学習(ETL)の最近の進歩は、限られたデータの範囲内で細調整されたVLMにおいて顕著な成功を収めており、VLMからのタスク固有の洞察を利用するためのパラメータはごくわずかである。 大幅な進歩にもかかわらず、現在の先導ETL法はトレーニング中に見られた基礎クラスの狭い分布に過度に適合し、次の2つの主要な課題に直面する傾向にある。 一 タスク特化知識のモデリングに一様情報のみを利用すること。 (二)知識を補うために費用と時間のかかる方法を使用すること。 これらの問題に対処するために, 基本事例のバイアスを補正し, 限られたデータを効果的に増強する条件付きプロトタイプ・リクティフィケーション・プロンプト・ラーニング(CPR)手法を提案する。 具体的には、2つの側面からベースクラスのオーバーフィッティングを軽減します。 まず、各入力画像は、テキストプロトタイプとビジュアルプロトタイプの両方から知識を取得し、次にサンプル条件付きテキストトークンを生成する。 第2に、未ラベルデータから実用的知識を抽出し、プロトタイプをさらに洗練する。 これらの2つの戦略は、基底クラスに由来するバイアスを緩和し、より効果的な分類子をもたらす。 11のベンチマークデータセットに対する大規模な実験により、我々のCPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方で最先端のパフォーマンスを達成している。 我々のコードは \url{https://github.com/chenhaoxing/CPR} で無効です。

Pre-trained large-scale vision-language models (VLMs) have acquired profound understanding of general visual concepts. Recent advancements in efficient transfer learning (ETL) have shown remarkable success in fine-tuning VLMs within the scenario of limited data, introducing only a few parameters to harness task-specific insights from VLMs. Despite significant progress, current leading ETL methods tend to overfit the narrow distributions of base classes seen during training and encounter two primary challenges: (i) only utilizing uni-modal information to modeling task-specific knowledge; and (ii) using costly and time-consuming methods to supplement knowledge. To address these issues, we propose a Conditional Prototype Rectification Prompt Learning (CPR) method to correct the bias of base examples and augment limited data in an effective way. Specifically, we alleviate overfitting on base classes from two aspects. First, each input image acquires knowledge from both textual and visual prototypes, and then generates sample-conditional text tokens. Second, we extract utilizable knowledge from unlabeled data to further refine the prototypes. These two strategies mitigate biases stemming from base classes, yielding a more effective classifier. Extensive experiments on 11 benchmark datasets show that our CPR achieves state-of-the-art performance on both few-shot classification and base-to-new generalization tasks. Our code is avaliable at \url{https://github.com/chenhaoxing/CPR}.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# CULTURE-GEN:自然言語による言語モデルにおけるグローバルカルチャー知覚の解明

CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting ( http://arxiv.org/abs/2404.10199v5 )

ライセンス: Link先を確認
Huihan Li, Liwei Jiang, Jena D. Hwang, Hyunwoo Kim, Sebastin Santy, Taylor Sorensen, Bill Yuchen Lin, Nouha Dziri, Xiang Ren, Yejin Choi, (参考訳) 大規模言語モデル(LLM)の利用が世界中に広まりつつあるため、多様なグローバル文化に対して適切な知識と公正な表現を持つことが重要である。 本研究は,文化条件付き世代を通して,110か国と8か国における3つのSOTAモデルの文化認識を明らかにし,それぞれの文化に関連するシンボルをLLMによって抽出する。 文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。 また, LLMは文化シンボルに不均一な多様性を持ち, 異なる地理的領域の文化は, LLMの文化に依存しない世代に異なる存在であることがわかった。 本研究は,LLMにおけるグローバルカルチャー認識の知識と公正性について,さらなる研究を促進するものである。 コードとデータについては、https://github.com/huihanlhh/Culture-Gen/を参照してください。

As the utilization of large language models (LLMs) has proliferated world-wide, it is crucial for them to have adequate knowledge and fair representation for diverse global cultures. In this work, we uncover culture perceptions of three SOTA models on 110 countries and regions on 8 culture-related topics through culture-conditioned generations, and extract symbols from these generations that are associated to each culture by the LLM. We discover that culture-conditioned generation consist of linguistic "markers" that distinguish marginalized cultures apart from default cultures. We also discover that LLMs have an uneven degree of diversity in the culture symbols, and that cultures from different geographic regions have different presence in LLMs' culture-agnostic generation. Our findings promote further research in studying the knowledge and fairness of global culture perception in LLMs. Code and Data can be found here: https://github.com/huihanlhh/Culture-Gen/
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# 非局所性から文脈性への変換

Converting nonlocality into contextuality ( http://arxiv.org/abs/2404.15793v3 )

ライセンス: Link先を確認
Karl Svozil, (参考訳) 行列鉛筆は、相互に可換な退化作用素の同時固有系を見つけるための堅牢な方法を提供する。 本稿では,これらの手法を用いて,ペレス-メルミン正方形とグリーンベルガー-ホルン-ゼーリンガー-メルミン構成の量子論理構造について検討する。 解析により、2つのスピン-1/2粒子を含む4次元系における古典的および量子的予測の類似の完全矛盾が明らかになった。

Matrix pencils provide a robust method for finding simultaneous eigensystems of mutually commuting degenerate operators. In this paper, we utilize these techniques to investigate the quantum logical structures of the Peres-Mermin square and the Greenberger-Horne-Zeilinger-Mermin configuration. Our analysis uncovers analogous complete contradictions between classical and quantum predictions in a four-dimensional system involving two spin-1/2 particles.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# LLMに基づく自然言語推論抽出のためのベイズ最適化

Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation ( http://arxiv.org/abs/2405.00981v2 )

ライセンス: Link先を確認
David Eric Austin, Anton Korikov, Armin Toroghi, Scott Sanner, (参考訳) コールドスタート設定でユーザのトップ項目の嗜好を迅速に確認できるPE手法の設計は、効果的でパーソナライズされた会話レコメンデーション(ConvRec)システムを構築する上で重要な課題である。 大規模言語モデル (LLM) は, 完全な自然言語(NL) PE対話を可能にするが, 任意の項目に対するユーザの嗜好の探索と活用を効果的に行うために, モノリシックLLM NL-PEアプローチにはマルチターン, 決定論的推論が欠如していると仮定する。 対照的に、従来のベイズ最適化PEメソッドは理論上最適なPE戦略を定義するが、NL項目記述のコンテンツよりも任意のNLクエリや理由を生成することはできない。 両手法の限界を克服するため,ベイズ最適化(BO)フレームワークでNL-PEを定式化し,NLフィードバックを積極的に活用し,最適な推奨事項を特定する。 自然言語のフィードバックを扱うためのBOの一般化における主な課題は、以下のとおりである。 (a)品物事業の機能としてのNL選好フィードバックの可能性をモデル化するためのLCMの活用方法、及び (b)無限の言語空間における嗜好を引き出すことができるNL BOの取得関数を設計する方法。 我々は,新しいNL-PEアルゴリズム PEBOL で本フレームワークを実証する。 1) ベイズ的嗜好の信念を維持するために,ユーザの嗜好発話とNL項目記述との間の自然言語推論(NLI) 2)トンプソンサンプリング (TS) やアッパー信頼境界 (UCB) などのBO戦略を用いてLCMクエリ生成を行う。 制御されたシミュレーションにおいて, PEBOLは10回対話した後, 最良モノリシックなLLMベースラインであるMRR@10の0.17に比べて最大0.27のMRR@10を達成できることがわかった。

Designing preference elicitation (PE) methodologies that can quickly ascertain a user's top item preferences in a cold-start setting is a key challenge for building effective and personalized conversational recommendation (ConvRec) systems. While large language models (LLMs) enable fully natural language (NL) PE dialogues, we hypothesize that monolithic LLM NL-PE approaches lack the multi-turn, decision-theoretic reasoning required to effectively balance the exploration and exploitation of user preferences towards an arbitrary item set. In contrast, traditional Bayesian optimization PE methods define theoretically optimal PE strategies, but cannot generate arbitrary NL queries or reason over content in NL item descriptions -- requiring users to express preferences via ratings or comparisons of unfamiliar items. To overcome the limitations of both approaches, we formulate NL-PE in a Bayesian Optimization (BO) framework that seeks to actively elicit NL feedback to identify the best recommendation. Key challenges in generalizing BO to deal with natural language feedback include determining: (a) how to leverage LLMs to model the likelihood of NL preference feedback as a function of item utilities, and (b) how to design an acquisition function for NL BO that can elicit preferences in the infinite space of language. We demonstrate our framework in a novel NL-PE algorithm, PEBOL, which uses: 1) Natural Language Inference (NLI) between user preference utterances and NL item descriptions to maintain Bayesian preference beliefs, and 2) BO strategies such as Thompson Sampling (TS) and Upper Confidence Bound (UCB) to steer LLM query generation. We numerically evaluate our methods in controlled simulations, finding that after 10 turns of dialogue, PEBOL can achieve an MRR@10 of up to 0.27 compared to the best monolithic LLM baseline's MRR@10 of 0.17, despite relying on earlier and smaller LLMs.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# 3次元量子システムのための単層テンソルネットワークアプローチ

Single-layer tensor network approach for three-dimensional quantum systems ( http://arxiv.org/abs/2405.01489v2 )

ライセンス: Link先を確認
Illia Lukin, Andrii Sotnikov, (参考訳) 複雑な多層テンソルネットワークの収縮を必要とするため、三次元射影対状態を持つ可観測物の計算は一般に難しい。 これらのテンソルネットワークの多層構造を利用して、収縮を大幅に単純化する。 提案手法では, 境界射影絡み合ったペア状態の探索を簡略化し, 最終コーナー移動行列再正規化群縮合の単一層マッピングを行う。 我々は, 立方格子ハイゼンベルクモデルを用いて実験結果をベンチマークし, 結合次元D = 7に到達し, 前の結果と良好な一致を見いだした。

Calculation of observables with three-dimensional projected entangled pair states is generally hard, as it requires a contraction of complex multi-layer tensor networks. We utilize the multi-layer structure of these tensor networks to largely simplify the contraction. The proposed approach involves the usage of the layer structure both to simplify the search for the boundary projected entangled pair states and the single-layer mapping of the final corner transfer matrix renormalization group contraction. We benchmark our results on the cubic lattice Heisenberg model, reaching the bond dimension D = 7, and find a good agreement with the previous results.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# 相関誘起有限差分推定器

A Correlation-induced Finite Difference Estimator ( http://arxiv.org/abs/2405.05638v4 )

ライセンス: Link先を確認
Guo Liang, Guangwu Liu, Kun Zhang, (参考訳) 有限差分近似(FD approximation)は、雑音関数しか実現できないときの確率勾配推定の古典的な手法である。 本稿では,まずブートストラップ法を用いて最適な摂動を推定するサンプル駆動法を提案し,次に,推定された最適摂動における相関サンプルに基づく効率的なFD推定器を提案する。 さらに、摂動推定器とFD推定器の理論的解析により、この相関関係により、提案したFD推定器が分散の減少を達成でき、場合によっては従来の最適FD推定器と比較してバイアスの減少が生じることが明らかになった。 数値計算により, 推定器の効率性を確認し, 提案理論, 特にサンプルサイズが小さい場合とよく一致した。 最後に,デリバティブフリー最適化(DFO)問題の解法として推定器を適用し,100次元のDFO問題を効果的に解けることを示す。

Finite difference (FD) approximation is a classic approach to stochastic gradient estimation when only noisy function realizations are available. In this paper, we first provide a sample-driven method via the bootstrap technique to estimate the optimal perturbation, and then propose an efficient FD estimator based on correlated samples at the estimated optimal perturbation. Furthermore, theoretical analyses of both the perturbation estimator and the FD estimator reveal that, {\it surprisingly}, the correlation enables the proposed FD estimator to achieve a reduction in variance and, in some cases, a decrease in bias compared to the traditional optimal FD estimator. Numerical results confirm the efficiency of our estimators and align well with the theory presented, especially in scenarios with small sample sizes. Finally, we apply the estimator to solve derivative-free optimization (DFO) problems, and numerical studies show that DFO problems with 100 dimensions can be effectively solved.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# 映像品質向上のための圧縮強化深部構造ネットワーク

Compression-Realized Deep Structural Network for Video Quality Enhancement ( http://arxiv.org/abs/2405.06342v4 )

ライセンス: Link先を確認
Hanchi Sun, Xiaohong Liu, Xinyang Jiang, Yifei Shen, Dongsheng Li, Xiongkuo Min, Guangtao Zhai, (参考訳) 本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。 ディープネットワークベースのビデオレコーダは目覚ましい進歩を遂げるが、既存の手法の多くは圧縮コーデックの事前処理を最適に活用するための構造化設計を欠いている。 ビデオの品質劣化は主に圧縮アルゴリズムによって引き起こされるため、より「意識的」な品質向上プロセスのためには、新しいパラダイムが緊急に必要となる。 その結果,従来の圧縮コーデックの3つの主要なプロセスに整合した3つの帰納的バイアスを導入し,従来のエンコーダアーキテクチャの強みと深いネットワーク機能とを融合するCRDS(Compression-Realized Deep Structure Network)を提案する。 コーデック内の残差抽出およびドメイン変換プロセスにインスパイアされ、ビデオフレームを潜在特徴空間に変換するために事前訓練された遅延分解残差自動エンコーダが提案され、各近傍の注意機構が正確な動き推定と残差抽出のために統合される。 さらに、コーデックの量子化雑音分布からインスピレーションを得たCRDSは、品質向上を一連の簡易な減音サブタスクに分解する中間監督型プログレッシブ・デノナイジング・フレームワークを提案する。 LDV 2.0やMFQE 2.0のようなデータセットの実験結果は、我々のアプローチが最先端のモデルを上回ることを示している。

This paper focuses on the task of quality enhancement for compressed videos. Although deep network-based video restorers achieve impressive progress, most of the existing methods lack a structured design to optimally leverage the priors within compression codecs. Since the quality degradation of the video is primarily induced by the compression algorithm, a new paradigm is urgently needed for a more ``conscious'' process of quality enhancement. As a result, we propose the Compression-Realized Deep Structural Network (CRDS), introducing three inductive biases aligned with the three primary processes in the classic compression codec, merging the strengths of classical encoder architecture with deep network capabilities. Inspired by the residual extraction and domain transformation process in the codec, a pre-trained Latent Degradation Residual Auto-Encoder is proposed to transform video frames into a latent feature space, and the mutual neighborhood attention mechanism is integrated for precise motion estimation and residual extraction. Furthermore, drawing inspiration from the quantization noise distribution of the codec, CRDS proposes a novel Progressive Denoising framework with intermediate supervision that decomposes the quality enhancement into a series of simpler denoising sub-tasks. Experimental results on datasets like LDV 2.0 and MFQE 2.0 indicate our approach surpasses state-of-the-art models.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# 動画の多様性を考慮したテキストセマンティックマッチングを用いた言語誘導自己監督ビデオ要約

Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video ( http://arxiv.org/abs/2405.08890v2 )

ライセンス: Link先を確認
Tomoya Sugihara, Shuntaro Masuda, Ling Xiao, Toshihiko Yamasaki, (参考訳) 現在のビデオ要約手法は、時間と主観的な手動アノテーションを必要とする教師付きコンピュータビジョン技術に大きく依存している。 これらの制限を克服するため,自己監督型映像要約について検討した。 LLM(Large Language Models)の成功に触発されて,ビデオ要約タスクを自然言語処理(NLP)タスクに変換する可能性を検討した。 文脈理解におけるLLMの利点を活用することにより,自己監督型映像要約の有効性を高めることを目指す。 提案手法は,まず個々のビデオフレームのキャプションを生成し,LLMによってテキスト要約に合成する。 その後,キャプションとテキスト要約のセマンティック距離を測定した。 特に,映像の多様性に応じてモデルを最適化する新たな損失関数を提案する。 最後に、要約された映像は、テキスト要約と同様の字幕でフレームを選択して生成することができる。 本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。 さらに,本手法は,パーソナライズされた要約を実現できるという特徴を持つ。

Current video summarization methods rely heavily on supervised computer vision techniques, which demands time-consuming and subjective manual annotations. To overcome these limitations, we investigated self-supervised video summarization. Inspired by the success of Large Language Models (LLMs), we explored the feasibility in transforming the video summarization task into a Natural Language Processing (NLP) task. By leveraging the advantages of LLMs in context understanding, we aim to enhance the effectiveness of self-supervised video summarization. Our method begins by generating captions for individual video frames, which are then synthesized into text summaries by LLMs. Subsequently, we measure semantic distance between the captions and the text summary. Notably, we propose a novel loss function to optimize our model according to the diversity of the video. Finally, the summarized video can be generated by selecting the frames with captions similar to the text summary. Our method achieves state-of-the-art performance on the SumMe dataset in rank correlation coefficients. In addition, our method has a novel feature of being able to achieve personalized summarization.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# ブラックボックス除去攻撃で箱なしのモデルウォーターマークが見つかる

Box-Free Model Watermarks Are Prone to Black-Box Removal Attacks ( http://arxiv.org/abs/2405.09863v3 )

ライセンス: Link先を確認
Haonan An, Guang Hua, Zhiping Lin, Yuguang Fang, (参考訳) ボックスフリーなモデル透かしは、ディープラーニングモデルの知的特性、特に低レベルの画像処理タスクを保護するための新興技術である。 既存の研究はいくつかの面でその有効性を検証し改善してきた。 しかし,本稿では,保護されたモデルと透かし抽出器がブラックボックス内にあるような現実世界の脅威モデル下であっても,ボックスフリーなモデル透かしが攻撃を除去する傾向があることを明らかにした。 この設定で、我々は3つの研究を行う。 1) 抽出器のEGG除去装置を開発し, 抽出器がReLU活性化のみを使用する場合の有効性を示した。 2) より一般的には, 未知の抽出器に対して, 敵攻撃を活用し, 推定勾配に基づいてEGG除去器を設計する。 3) 抽出器がアクセス不能な最も厳密な条件下では, 一連のプライベートプロキシモデルに基づいて, 転送可能な除去器を設計する。 いずれの場合も,提案する除去器は,処理画像の品質を維持しつつ,埋め込み透かしの除去に成功し,またEGG除去器は透かしの交換も可能であることを示す。 大規模な実験により、提案攻撃の有効性と一般化性を検証し、既存のボックスフリー手法の脆弱性を明らかにし、さらなる研究を要求した。

Box-free model watermarking is an emerging technique to safeguard the intellectual property of deep learning models, particularly those for low-level image processing tasks. Existing works have verified and improved its effectiveness in several aspects. However, in this paper, we reveal that box-free model watermarking is prone to removal attacks, even under the real-world threat model such that the protected model and the watermark extractor are in black boxes. Under this setting, we carry out three studies. 1) We develop an extractor-gradient-guided (EGG) remover and show its effectiveness when the extractor uses ReLU activation only. 2) More generally, for an unknown extractor, we leverage adversarial attacks and design the EGG remover based on the estimated gradients. 3) Under the most stringent condition that the extractor is inaccessible, we design a transferable remover based on a set of private proxy models. In all cases, the proposed removers can successfully remove embedded watermarks while preserving the quality of the processed images, and we also demonstrate that the EGG remover can even replace the watermarks. Extensive experimental results verify the effectiveness and generalizability of the proposed attacks, revealing the vulnerabilities of the existing box-free methods and calling for further research.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# アルゴリズムによる意思決定における人間とループの整合性

Challenging the Human-in-the-loop in Algorithmic Decision-making ( http://arxiv.org/abs/2405.10706v2 )

ライセンス: Link先を確認
Sebastian Tschiatschek, Eugenia Stamboliev, Timothée Schmude, Mark Coeckelbergh, Laura Koesten, (参考訳) 技術的・哲学的な観点から,社会問題に対するアルゴリズム意思決定(ADM)における人間の役割を論じる。 特に、関係する人間による様々な期待、価値観、制約から生じる緊張について説明する。 この目的のために、戦略的意思決定者(SDM)がADMを導入し、戦略的および社会的目標を最適化し、アルゴリズムの推奨行動は、最終的な決定を行う実践的意思決定者(PDM)によって監督されると仮定する。 通常、PDMは正当であると仮定されるが、これらの値の不正な調整とPDMの情報要求のため、SDMの望ましい目標と社会的価値の実現に反する可能性がある。 これは、ADMの利害関係者間の権力分配、その制約、および情報要求に重大な影響を及ぼす。 特に、戦略的、価値駆動的な目標と地上での個人的決定と制約のバランスをとることを期待する政治的・倫理的な意思決定者としてのPDMの役割の監督を強調します。 我々は、機械学習ベンチマークデータセットにおいて、PDMがアルゴリズムの推奨と異なる限られたアクションのみを実行することを制約されている場合でも、PDMの決定を監督する重大な影響を実証的に示す。 SDMが意図する値を実現するためには、適切な情報を提供し、その役割を明確化する必要がある。 本研究は, PDMの役割と能力について深く議論することの必要性を強調し, ADMに人為的なループを含めることで, システムの「正しい」「倫理的な」機能を保証するという, しばしば取り上げられる見解に挑戦するものである。

We discuss the role of humans in algorithmic decision-making (ADM) for socially relevant problems from a technical and philosophical perspective. In particular, we illustrate tensions arising from diverse expectations, values, and constraints by and on the humans involved. To this end, we assume that a strategic decision-maker (SDM) introduces ADM to optimize strategic and societal goals while the algorithms' recommended actions are overseen by a practical decision-maker (PDM) - a specific human-in-the-loop - who makes the final decisions. While the PDM is typically assumed to be a corrective, it can counteract the realization of the SDM's desired goals and societal values not least because of a misalignment of these values and unmet information needs of the PDM. This has significant implications for the distribution of power between the stakeholders in ADM, their constraints, and information needs. In particular, we emphasize the overseeing PDM's role as a potential political and ethical decision maker, who acts expected to balance strategic, value-driven objectives and on-the-ground individual decisions and constraints. We demonstrate empirically, on a machine learning benchmark dataset, the significant impact an overseeing PDM's decisions can have even if the PDM is constrained to performing only a limited amount of actions differing from the algorithms' recommendations. To ensure that the SDM's intended values are realized, the PDM needs to be provided with appropriate information conveyed through tailored explanations and its role must be characterized clearly. Our findings emphasize the need for an in-depth discussion of the role and power of the PDM and challenge the often-taken view that just including a human-in-the-loop in ADM ensures the 'correct' and 'ethical' functioning of the system.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# 主成分分析によるモデル直交化とベイズ予測混合

Model orthogonalization and Bayesian forecast mixing via Principal Component Analysis ( http://arxiv.org/abs/2405.10839v2 )

ライセンス: Link先を確認
Pablo Giuliani, Kyle Godbey, Vojtech Kejzlar, Witold Nazarewicz, (参考訳) ベイズ統計機械学習フレームワークを用いて不完全な複雑な計算モデルの予測を組み合わせることにより、未知領域の予測可能性を向上させることができる。 しかし、多くの場合、混合プロセスで使用されるモデルは類似している。 モデル空間の汚染に加えて、マルチモデリング過程における同様の、あるいは冗長なモデルの存在は、結果の誤解釈と予測性能の劣化をもたらす可能性がある。 本稿では,モデル冗長性を排除した主成分分析に基づく手法について述べる。 提案するベイズモデル組合せフレームワークにモデル直交化を加えることで、予測精度が向上し、不確実な定量化性能に優れたことを示す。

One can improve predictability in the unknown domain by combining forecasts of imperfect complex computational models using a Bayesian statistical machine learning framework. In many cases, however, the models used in the mixing process are similar. In addition to contaminating the model space, the existence of such similar, or even redundant, models during the multimodeling process can result in misinterpretation of results and deterioration of predictive performance. In this work we describe a method based on the Principal Component Analysis that eliminates model redundancy. We show that by adding model orthogonalization to the proposed Bayesian Model Combination framework, one can arrive at better prediction accuracy and reach excellent uncertainty quantification performance.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-20
# SearchLVLMs: 最新インターネット知識検索による大規模視線モデル拡張のためのプラグイン・アンド・プレイフレームワーク

SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge ( http://arxiv.org/abs/2405.14554v2 )

ライセンス: Link先を確認
Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao, Yuwei Wu, Ping Luo, Yu Qiao, Kaipeng Zhang, (参考訳) 大規模な視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。 例えば、2024年1月にLVLMが公開された場合、2024年4月まで公開されなかった新しいディテクティブ・コナンのテーマソングの歌手は知らないだろう。 この問題を解決するために、検索強化世代(RAG)によって動機付けられた有望な解決策は、推論中にインターネット検索による最新の知識、すなわち、既にGPT-4Vのようなクローズドソースの商用LVLMに統合されているインターネット拡張世代(IAG)を提供することである。 しかし、それらを支える特定の力学は謎のままである。 本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。 階層的フィルタリングモデルは、検索エンジンが返却したWebサイトから最も有用なコンテンツを効果的かつ効率的に見つけるように訓練され、LVLMを最新の知識で促す。 モデルをトレーニングし,我々のフレームワークの性能を評価するために,UDK-VQAと呼ばれるデータセットを構築するために,ニュース関連VQAサンプルを自動的に生成するパイプラインを提案する。 トレーニングセットを構築するために、VQAサンプルのWebサイト/コンテンツの有用性をラベル付けするために、マルチモデル投票機構を導入する。 実験の結果,GPT-4Vの精度が約25%向上した。

Large vision-language models (LVLMs) are ignorant of the up-to-date knowledge, such as LLaVA series, because they cannot be updated frequently due to the large amount of resources required, and therefore fail in many cases. For example, if a LVLM was released on January 2024, and it wouldn't know the singer of the theme song for the new Detective Conan movie, which wasn't released until April 2024. To solve the problem, a promising solution motivated by retrieval-augmented generation (RAG) is to provide LVLMs with up-to-date knowledge via internet search during inference, i.e., internet-augmented generation (IAG), which is already integrated in some closed-source commercial LVLMs such as GPT-4V. However, the specific mechanics underpinning them remain a mystery. In this paper, we propose a plug-and-play framework, for augmenting existing LVLMs in handling visual question answering (VQA) about up-to-date knowledge, dubbed SearchLVLMs. A hierarchical filtering model is trained to effectively and efficiently find the most helpful content from the websites returned by a search engine to prompt LVLMs with up-to-date knowledge. To train the model and evaluate our framework's performance, we propose a pipeline to automatically generate news-related VQA samples to construct a dataset, dubbed UDK-VQA. A multi-model voting mechanism is introduced to label the usefulness of website/content for VQA samples to construct the training set. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4V by about 25% in accuracy.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# QA-MDT:音楽生成のための品質を考慮したマスケッド拡散変圧器

QA-MDT: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation ( http://arxiv.org/abs/2405.15863v2 )

ライセンス: Link先を確認
Chang Li, Ruoyu Wang, Lijuan Liu, Jun Du, Yixuan Sun, Zilu Guo, Zhenrong Zhang, Yuan Jiang, (参考訳) 近年,拡散型テキスト・ツー・ミュージック(TTM)生成が注目され,テキスト記述から音楽コンテンツを合成する革新的なアプローチが提案されている。 この生成プロセスで高い精度と多様性を達成するには、高忠実な音声波形と、利用可能なデータセットのごく一部を構成する詳細なテキスト記述を含む、広範囲で高品質なデータが必要である。 オープンソースデータセットでは、低品質な音楽波形、誤ラベル、弱いラベル付け、未ラベルデータなどの問題は、音楽生成モデルの開発を著しく妨げている。 これらの課題に対処するため、我々は、高品質な学習戦略を取り入れた高品質な音楽生成のための新しいパラダイムを提案し、生成モデルにより、学習中に入力された音楽波形の品質を識別できるようにする。 音楽信号のユニークな特性を活用し,TTMタスクにマスク付き拡散変換器(MDT)モデルを適用し,その品質制御能力と音楽性の向上を実証した。 さらに,TTMにおける低品質キャプションの問題に対して,キャプションリファインメントデータ処理手法を用いて対処する。 実験では、MusicCapsとSong-Describer Dataset上でのSOTA(State-of-the-art)のパフォーマンスを実証した。 私たちのデモページはhttps://qa-mdt.github.io/でアクセスできます。

In recent years, diffusion-based text-to-music (TTM) generation has gained prominence, offering an innovative approach to synthesizing musical content from textual descriptions. Achieving high accuracy and diversity in this generation process requires extensive, high-quality data, including both high-fidelity audio waveforms and detailed text descriptions, which often constitute only a small portion of available datasets. In open-source datasets, issues such as low-quality music waveforms, mislabeling, weak labeling, and unlabeled data significantly hinder the development of music generation models. To address these challenges, we propose a novel paradigm for high-quality music generation that incorporates a quality-aware training strategy, enabling generative models to discern the quality of input music waveforms during training. Leveraging the unique properties of musical signals, we first adapted and implemented a masked diffusion transformer (MDT) model for the TTM task, demonstrating its distinct capacity for quality control and enhanced musicality. Additionally, we address the issue of low-quality captions in TTM with a caption refinement data processing approach. Experiments demonstrate our state-of-the-art (SOTA) performance on MusicCaps and the Song-Describer Dataset. Our demo page can be accessed at https://qa-mdt.github.io/.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# 非アベリアホップ・ウラー絶縁体

Non-Abelian Hopf-Euler insulators ( http://arxiv.org/abs/2405.17305v3 )

ライセンス: Link先を確認
Wojciech J. Jankowski, Arthur S. Morris, Zory Davoyan, Adrien Bouhon, F. Nur Ünal, Robert-Jan Slager, (参考訳) 時空間($\mathcal{PT}$)反転対称性で保護された1つのバルクホップ指数を持つ3次元の3バンド非アベリア位相絶縁体のクラスについて論じる。 これらの位相はまた、オイラー標数クラスによって与えられる部分次元位相不変量を持ち、結果として真のホップ・オイラー絶縁体となる。 このような系は自然に3次元ブリルアンゾーンのヘリカル・ノルダル構造を実現し、ホップ不変量によって記述される連結数の物理的表現を与える。 これらの系の原子価バンド間のギャップを開き、完全に結合した `flag'' 相を見つけ、3バンドのマルチギャップポントリャーギン不変量を示す。 以前に報告された$\mathcal{PT}$-symmetric four-band real Hopf insulatorは$\mathbb{Z} \oplus \mathbb{Z}$ invariantであるが、これらの位相は複素二バンドホップ絶縁体の2つのコピーと一意に等価ではない。 このような非チャート相は二次元オイラー絶縁体の次元拡張によって得ることができ、それらをサポートすることを示す。 i)ホップ不変量によって量子化された光バルク集積円シフト効果 (II)実空間ワニエ関数における量子幾何学的呼吸、及び (三)境界上の曲面オイラー位相。 その結果, これらの系は, メタマテリアルや超低温原子の合成次元を利用して直接シミュレートできるため, 実空間量子幾何学の新たな実験的実現の道を開くことができた。

We discuss a class of three-band non-Abelian topological insulators in three dimensions that carry a single bulk Hopf index protected by spatiotemporal ($\mathcal{PT}$) inversion symmetry. These phases may also host subdimensional topological invariants given by the Euler characteristic class, resulting in real Hopf-Euler insulators. Such systems naturally realize helical nodal structures in the three-dimensional Brillouin zone, providing a physical manifestation of the linking number described by the Hopf invariant. We show that, by opening a gap between the valence bands of these systems, one finds a fully-gapped ``flag'' phase, which displays a three-band multi-gap Pontryagin invariant. Unlike the previously reported $\mathcal{PT}$-symmetric four-band real Hopf insulator, which hosts a $\mathbb{Z} \oplus \mathbb{Z}$ invariant, these phases are not unitarily equivalent to two copies of a complex two-band Hopf insulator. We show that such uncharted phases can be obtained through dimensional extension of two-dimensional Euler insulators, and that they support (i) an optical bulk integrated circular shift effect quantized by the Hopf invariant, (ii) quantum-geometric breathing in the real space Wannier functions, and (iii) surface Euler topology on boundaries. Consequently, our findings pave the way for novel experimental realizations of real-space quantum-geometry, as these systems may be directly simulated by utilizing synthetic dimensions in metamaterials or ultracold atoms.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# 対数回帰に束縛された次元自由一様濃度

Dimension-free uniform concentration bound for logistic regression ( http://arxiv.org/abs/2405.18055v4 )

ライセンス: Link先を確認
Shogo Nakakita, (参考訳) 制約付きロジスティック回帰の経験的リスク関数に拘束された新しい次元自由一様濃度を与える。 我々の境界は、ラデマッハ複雑性論とマクダイアルメイドの不等式によって導かれる条件よりも大きな数の一様法則に対して、より穏やかな条件をもたらす。 この導出は、2階展開を持つPAC-ベイズ法と、拡張の残余項に対するラデマッハ複素性に基づく境界に基づくものである。

We provide a novel dimension-free uniform concentration bound for the empirical risk function of constrained logistic regression. Our bound yields a milder sufficient condition for a uniform law of large numbers than conditions derived by the Rademacher complexity argument and McDiarmid's inequality. The derivation is based on the PAC-Bayes approach with second-order expansion and Rademacher-complexity-based bounds for the residual term of the expansion.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# 医療画像におけるIQA対策の妥当性の検討

A study on the adequacy of common IQA measures for medical images ( http://arxiv.org/abs/2405.19224v2 )

ライセンス: Link先を確認
Anna Breger, Clemens Karner, Ian Selby, Janek Gröhl, Sören Dittmer, Edward Lilley, Judith Babar, Jake Beckford, Thomas R Else, Timothy J Sadler, Shahab Shahipasand, Arthikkaa Thavakumar, Michael Roberts, Carola-Bibiane Schönlieb, (参考訳) 画像品質評価(IQA)は、画像を操作する新しい機械学習アルゴリズムの開発段階における標準的な実践である。 最も一般的に用いられているIQA測定法は、自然画像のために開発されたが、医療現場では行われていない。 医学画像に現れる不整合は、自然画像とは異なる性質を持つため、驚くべきことではない。 本研究では,手動評価胸部X線(5名)および光音響画像(2名)と比較し,医療画像データに対する一般的なIQA測定の有効性を検証した。 さらに、グレースケールの自然画像と加速脳MRIデータに関する補助的な研究も含んでいる。 全ての実験の結果は, 既定値のPSNRとSSIMは, 結果リストの低い範囲にあり, HaarPSIは, 総合的な評価において, 他の試験結果よりも優れていた。 医療実験ではFSIM, GMSD, LPIPS, MS-SSIMのすべてを参照した。 一般に、自然画像の結果は相関関係がかなり高く、医用画像アルゴリズムに適合したIQA対策のさらなる活用が必要であることが示唆されている。

Image quality assessment (IQA) is standard practice in the development stage of novel machine learning algorithms that operate on images. The most commonly used IQA measures have been developed and tested for natural images, but not in the medical setting. Reported inconsistencies arising in medical images are not surprising, as they have different properties than natural images. In this study, we test the applicability of common IQA measures for medical image data by comparing their assessment to manually rated chest X-ray (5 experts) and photoacoustic image data (2 experts). Moreover, we include supplementary studies on grayscale natural images and accelerated brain MRI data. The results of all experiments show a similar outcome in line with previous findings for medical imaging: PSNR and SSIM in the default setting are in the lower range of the result list and HaarPSI outperforms the other tested measures in the overall performance. Also among the top performers in our medical experiments are the full reference measures FSIM, GMSD, LPIPS and MS-SSIM. Generally, the results on natural images yield considerably higher correlations, suggesting that the additional employment of tailored IQA measures for medical imaging algorithms is needed.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# Quantum Visual Feature Encoding Revisited

Quantum Visual Feature Encoding Revisited ( http://arxiv.org/abs/2405.19725v2 )

ライセンス: Link先を確認
Xuan-Bac Nguyen, Hoang-Quan Nguyen, Hugh Churchill, Samee U. Khan, Khoa Luu, (参考訳) 量子機械学習はしばらく前から導入されてきたが、コンピュータビジョンへの応用はまだ限られている。 そこで本稿では,量子機械学習の初期段階である量子視覚符号化戦略を再考する。 根本原因を調べた結果,既存の量子符号化設計では符号化処理後の視覚的特徴の情報保存に失敗し,量子機械学習モデルの学習過程を複雑化することがわかった。 特に、QIG(Quantum Information Gap)と呼ばれるこの問題は、古典的特徴と対応する量子的特徴の間の情報のギャップにつながる。 本稿では、量子機械学習アルゴリズムの性能に直接影響するため、QIGの意義を実証し、裏付ける理論的証明と実践的な実証を行う。 この課題に対処するために、量子情報保存(QIP)と呼ばれるシンプルだが効率的な新しい損失関数を導入し、このギャップを最小化し、量子機械学習アルゴリズムの性能を向上する。 大規模な実験により,提案手法の有効性を検証し,現在の手法と比較して優れた性能を示し,量子モデリングにおける最先端の成果を一貫して達成した。

Although quantum machine learning has been introduced for a while, its applications in computer vision are still limited. This paper, therefore, revisits the quantum visual encoding strategies, the initial step in quantum machine learning. Investigating the root cause, we uncover that the existing quantum encoding design fails to ensure information preservation of the visual features after the encoding process, thus complicating the learning process of the quantum machine learning models. In particular, the problem, termed "Quantum Information Gap" (QIG), leads to a gap of information between classical and corresponding quantum features. We provide theoretical proof and practical demonstrations of that found and underscore the significance of QIG, as it directly impacts the performance of quantum machine learning algorithms. To tackle this challenge, we introduce a simple but efficient new loss function named Quantum Information Preserving (QIP) to minimize this gap, resulting in enhanced performance of quantum machine learning algorithms. Extensive experiments validate the effectiveness of our approach, showcasing superior performance compared to current methodologies and consistently achieving state-of-the-art results in quantum modeling.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# ロバスト時系列異常検出のための連立選択状態空間モデルとデトレクション

Joint Selective State Space Model and Detrending for Robust Time Series Anomaly Detection ( http://arxiv.org/abs/2405.19823v2 )

ライセンス: Link先を確認
Junqi Chen, Xu Tan, Sylwan Rahardja, Jiawei Yang, Susanto Rahardja, (参考訳) 深層学習に基づくシーケンスモデルは、効率的な逐次モデリング機能のため、時系列異常検出(TSAD)タスクに広く採用されている。 しかし、TSADの能力は2つの主要な課題によって制限されている。 一 長距離依存をモデル化する能力及び (II)非定常データが存在する場合の一般化問題。 これらの課題に対処するために、様々な領域にまたがる長期的依存関係を捕捉する能力で知られている選択的状態空間モデルを活用する異常検出器を提案する。 さらに、非定常データにおける顕著なトレンド成分を緩和し、一般化問題に対処する多段抑止機構を導入する。 実世界の公開データセットで実施された大規模な実験により、提案手法が12の比較ベースライン法をすべて超越していることが証明された。

Deep learning-based sequence models are extensively employed in Time Series Anomaly Detection (TSAD) tasks due to their effective sequential modeling capabilities. However, the ability of TSAD is limited by two key challenges: (i) the ability to model long-range dependency and (ii) the generalization issue in the presence of non-stationary data. To tackle these challenges, an anomaly detector that leverages the selective state space model known for its proficiency in capturing long-term dependencies across various domains is proposed. Additionally, a multi-stage detrending mechanism is introduced to mitigate the prominent trend component in non-stationary data to address the generalization issue. Extensive experiments conducted on realworld public datasets demonstrate that the proposed methods surpass all 12 compared baseline methods.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# LLaMEA:メタヒューリスティックスの自動生成のための大規模言語モデル進化アルゴリズム

LLaMEA: A Large Language Model Evolutionary Algorithm for Automatically Generating Metaheuristics ( http://arxiv.org/abs/2405.20132v3 )

ライセンス: Link先を確認
Niki van Stein, Thomas Bäck, (参考訳) GPT-4のような大規模言語モデル(LLM)は、自然言語を理解し、複雑なコードスニペットを生成する能力を示している。 本稿では,アルゴリズムの自動生成と改良にGPTモデルを活用する,新しいLarge Language Model Evolutionary Algorithm (LLaMEA) フレームワークを提案する。 一連の基準とタスク定義(検索空間)が与えられた後、LLaMEAは実行時評価からパフォーマンスメトリクスとフィードバックに基づいてアルゴリズムを反復的に生成し、変更し、選択する。 このフレームワークは、高度な事前の専門知識を必要とせず、最適化されたアルゴリズムを生成するためのユニークなアプローチを提供する。 我々は,このフレームワークを用いて,新しいブラックボックスメタヒューリスティック最適化アルゴリズムを自動生成する方法を示す。 LLaMEAは5次元ブラックボックス最適化ベンチマーク(BBOB)で最先端の最適化アルゴリズム(共分散行列適応進化戦略と微分進化)を上回る複数のアルゴリズムを生成する。 また,テスト関数の10次元および20次元のインスタンスに対して,自動生成プロセス中にそのようなインスタンスは見られないが,競合性能を示す。 その結果,LLMによるアルゴリズムの自動生成と最適化のためのフレームワークの実現可能性を示し,今後の方向性を明らかにした。

Large Language Models (LLMs) such as GPT-4 have demonstrated their ability to understand natural language and generate complex code snippets. This paper introduces a novel Large Language Model Evolutionary Algorithm (LLaMEA) framework, leveraging GPT models for the automated generation and refinement of algorithms. Given a set of criteria and a task definition (the search space), LLaMEA iteratively generates, mutates and selects algorithms based on performance metrics and feedback from runtime evaluations. This framework offers a unique approach to generating optimized algorithms without requiring extensive prior expertise. We show how this framework can be used to generate novel black-box metaheuristic optimization algorithms automatically. LLaMEA generates multiple algorithms that outperform state-of-the-art optimization algorithms (Covariance Matrix Adaptation Evolution Strategy and Differential Evolution) on the five dimensional black box optimization benchmark (BBOB). The algorithms also show competitive performance on the 10- and 20-dimensional instances of the test functions, although they have not seen such instances during the automated generation process. The results demonstrate the feasibility of the framework and identify future directions for automated generation and optimization of algorithms via LLMs.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# GECO:SECOnd内の3D画像生成

GECO: Generative Image-to-3D within a SECOnd ( http://arxiv.org/abs/2405.20327v2 )

ライセンス: Link先を確認
Chen Wang, Jiatao Gu, Xiaoxiao Long, Yuan Liu, Lingjie Liu, (参考訳) 近年では3D世代が著しく進歩している。 スコア蒸留のような手法は印象的な結果をもたらすが、多くの場合、時間効率を制限したシーンごとの最適化が必要である。 一方、再構築に基づくアプローチはより効率的であるが、不確実性に対処する能力に制限があるため、品質を損なう傾向がある。 本稿では,1秒以内に動作する高品質な3次元生成モデリング手法GECOを紹介する。 提案手法は,既存の手法における不確実性と非効率性の問題を2段階のアプローチで解決する。 第1段階では,スコア蒸留を用いた一段階多視点生成モデルを訓練する。 次に,多視点世代における視点の不整合に対処するため,第2段蒸留を適用した。 この2段階のプロセスは、3D生成に対するバランスの取れたアプローチを確保し、品質と効率の両方を最適化する。 包括的実験により,GECOは前例のない効率で高品質な画像-3Dメッシュ生成を実現することが示された。 コードとモデルを公開します。

Recent years have seen significant advancements in 3D generation. While methods like score distillation achieve impressive results, they often require extensive per-scene optimization, which limits their time efficiency. On the other hand, reconstruction-based approaches are more efficient but tend to compromise quality due to their limited ability to handle uncertainty. We introduce GECO, a novel method for high-quality 3D generative modeling that operates within a second. Our approach addresses the prevalent issues of uncertainty and inefficiency in existing methods through a two-stage approach. In the first stage, we train a single-step multi-view generative model with score distillation. Then, a second-stage distillation is applied to address the challenge of view inconsistency in the multi-view generation. This two-stage process ensures a balanced approach to 3D generation, optimizing both quality and efficiency. Our comprehensive experiments demonstrate that GECO achieves high-quality image-to-3D mesh generation with an unprecedented level of efficiency. We will make the code and model publicly available.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# エンドツーエンド同時音声翻訳の最近の進歩

Recent Advances in End-to-End Simultaneous Speech Translation ( http://arxiv.org/abs/2406.00497v2 )

ライセンス: Link先を確認
Xiaoqian Liu, Guoqiang Hu, Yangfan Du, Erfeng He, Yingfeng Luo, Chen Xu, Tong Xiao, Jingbo Zhu, (参考訳) 同時音声翻訳(SimulST)は、音声入力を継続的に処理しながら、リアルタイムに翻訳を生成するタスクである。 本稿では,SimulST研究の最近の展開を概観し,4つの課題に焦点をあてる。 第一に、長大で連続的な音声ストリームを処理する複雑さは、大きなハードルとなる。 第二に、リアルタイム要求を満たすことは、即時翻訳出力を必要とするため固有の困難を生じさせる。 第三に、翻訳品質とレイテンシの制約のバランスを崩すことは、依然として重要な課題です。 最後に、アノテーション付きデータの不足は、タスクに別の複雑なレイヤを追加します。 これらの課題と提案した解決策の探索を通じて、SimulST研究の現在の展望について貴重な知見を提供し、今後の探索に向けた有望な方向性を提案することを目的としている。

Simultaneous speech translation (SimulST) is a demanding task that involves generating translations in real-time while continuously processing speech input. This paper offers a comprehensive overview of the recent developments in SimulST research, focusing on four major challenges. Firstly, the complexities associated with processing lengthy and continuous speech streams pose significant hurdles. Secondly, satisfying real-time requirements presents inherent difficulties due to the need for immediate translation output. Thirdly, striking a balance between translation quality and latency constraints remains a critical challenge. Finally, the scarcity of annotated data adds another layer of complexity to the task. Through our exploration of these challenges and the proposed solutions, we aim to provide valuable insights into the current landscape of SimulST research and suggest promising directions for future exploration.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# 資源制約フェアネス

Resource-constrained Fairness ( http://arxiv.org/abs/2406.01290v3 )

ライセンス: Link先を確認
Sofie Goethals, Eoin Delaney, Brent Mittelstadt, Chris Russell, (参考訳) リソースへのアクセスは、決定を強く制約します。 学生全員に奨学金を提供したい、あるいは専門家とのフォローアップミーティングのために患者全員をスケジュールしたいと思うかもしれませんが、リソースは限られているため、これは不可能です。 機械学習システムをデプロイする場合、これらのリソース制約は、分類器のしきい値を変更することで単純に強制される。 しかし、これらの有限リソース制限は、リソース制限の仕様を許さず、しきい値が変化しても公平に保たない、公正な機械学習のためのほとんどの既存のツールには無視されている。 これにより、実際のデプロイメントには適さない。 本研究は「資源制約公正」の概念を導入し、この枠組みにおける公正のコストを定量化する。 利用可能な資源のレベルがこのコストに大きく影響することを示し、これは以前の評価で見落とされた要素である。

Access to resources strongly constrains the decisions we make. While we might wish to offer every student a scholarship, or schedule every patient for follow-up meetings with a specialist, limited resources mean that this is not possible. When deploying machine learning systems, these resource constraints are simply enforced by varying the threshold of a classifier. However, these finite resource limitations are disregarded by most existing tools for fair machine learning, which do not allow the specification of resource limitations and do not remain fair when varying thresholds. This makes them ill-suited for real-world deployment. Our research introduces the concept of "resource-constrained fairness" and quantifies the cost of fairness within this framework. We demonstrate that the level of available resources significantly influences this cost, a factor overlooked in previous evaluations.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-20
# SUBER:リコメンダシステムのための人間行動シミュレーションによるRL環境

SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems ( http://arxiv.org/abs/2406.01631v2 )

ライセンス: Link先を確認
Nathan Corecco, Giorgio Piatti, Luca A. Lanzendörfer, Flint Xiaofeng Fan, Roger Wattenhofer, (参考訳) 強化学習 (Reinforcement Learning, RL) は, 長期報酬を最適化し, 利用者に関連コンテンツの発見を指導する能力によって, 推薦システムの領域で人気を博している。 しかし,レコメンデーションシステムにおけるRLの実装は,オンラインデータの利用率の制限など,いくつかの要因により困難である。 この不足は、オンラインモデルのトレーニングに高価なヒューマンインタラクションを必要とします。 さらに、モデルの品質を正確に反映した効果的な評価フレームワークの開発は、レコメンダシステムにおける根本的な課題である。 これらの課題に対処するために,大規模言語モデル(LLM)の能力を活用し,人間の行動をシミュレートする総合的な合成環境フレームワークを提案する。 我々は,本フレームワークを詳細なアブレーション研究で補完し,映画や書籍のレコメンデーション実験でその効果を実証する。 LLMを合成ユーザとして使用することにより、RLベースのレコメンデータシステムをトレーニングするためのモジュラーで斬新なフレームワークを導入する。 RL環境を含むソフトウェアはGitHubで公開されている。

Reinforcement learning (RL) has gained popularity in the realm of recommender systems due to its ability to optimize long-term rewards and guide users in discovering relevant content. However, the successful implementation of RL in recommender systems is challenging because of several factors, including the limited availability of online data for training on-policy methods. This scarcity requires expensive human interaction for online model training. Furthermore, the development of effective evaluation frameworks that accurately reflect the quality of models remains a fundamental challenge in recommender systems. To address these challenges, we propose a comprehensive framework for synthetic environments that simulate human behavior by harnessing the capabilities of large language models (LLMs). We complement our framework with in-depth ablation studies and demonstrate its effectiveness with experiments on movie and book recommendations. Using LLMs as synthetic users, this work introduces a modular and novel framework to train RL-based recommender systems. The software, including the RL environment, is publicly available on GitHub.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# どちらをやっているのか? エンドツーエンドの議論の要約と評価のためのマルチタスクデータセット

Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation ( http://arxiv.org/abs/2406.03151v3 )

ライセンス: Link先を確認
Hao Li, Yuping Wu, Viktor Schlegel, Riza Batista-Navarro, Tharindu Madusanka, Iqra Zahid, Jiayan Zeng, Xiaochi Wang, Xinran He, Yizhi Li, Goran Nenadic, (参考訳) 大規模言語モデル(LLM)の最近の進歩により、人々が説得力のある議論を合成するのに役立つ自動討論システムを構築することはもはや不可能である。 以前の作業では、複数のコンポーネントを統合することでこのタスクを試みていた。 本研究では,議論のための議論的エッセイ作成の終末過程を捉えた議論マイニングデータセットを導入し,主張的エッセイ作成作業(第1章ED),証拠検証性ランキング(第2章ECR),議論的エッセイ要約と人選好ランキング(第3章ASR),および議論的エッセイの自動評価のための計量学習(第4章SQE)について述べる。 私たちのデータセットには、上記のタスクをサポートするさまざまなプロパティで完全に注釈付けされたクレームの14万の例が含まれています。 代表的LCMを含む各タスクに対して,複数の生成ベースラインを評価する。 その結果、ベンチマークでは、個々のタスクに対して有望な結果を示す一方で、自動測定と人中心評価の両方において、4つのタスクの連続的なエンドツーエンドのパフォーマンスが著しく低下していることが判明した。 提案したデータセットが示す課題は、エンド・ツー・エンドの議論マイニングと要約に関する今後の研究を動機付けている。 このプロジェクトのリポジトリはhttps://github.com/HaoBytes/ArgSum-Datatsetで入手できる。

With the recent advances of large language models (LLMs), it is no longer infeasible to build an automated debate system that helps people to synthesise persuasive arguments. Previous work attempted this task by integrating multiple components. In our work, we introduce an argument mining dataset that captures the end-to-end process of preparing an argumentative essay for a debate, which covers the tasks of claim and evidence identification (Task 1 ED), evidence convincingness ranking (Task 2 ECR), argumentative essay summarisation and human preference ranking (Task 3 ASR) and metric learning for automated evaluation of resulting essays, based on human feedback along argument quality dimensions (Task 4 SQE). Our dataset contains 14k examples of claims that are fully annotated with the various properties supporting the aforementioned tasks. We evaluate multiple generative baselines for each of these tasks, including representative LLMs. We find, that while they show promising results on individual tasks in our benchmark, their end-to-end performance on all four tasks in succession deteriorates significantly, both in automated measures as well as in human-centred evaluation. This challenge presented by our proposed dataset motivates future research on end-to-end argument mining and summarisation. The repository of this project is available at https://github.com/HaoBytes/ArgSum-Datatset
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# TimeSieve:インフォメーション・ボトルネックによる時間的ダイナミクスの抽出

TimeSieve: Extracting Temporal Dynamics through Information Bottlenecks ( http://arxiv.org/abs/2406.05036v2 )

ライセンス: Link先を確認
Ninghui Feng, Songning Lai, Fobao Zhou, Zhenxiao Yin, Hang Zhao, (参考訳) 時系列予測は、交通管理、天気予報、財務分析など、様々な現実の領域で重要な応用がなされているため、ますます人気が高まっている。 大幅な進歩にもかかわらず、既存のモデルは、異なるデータセットに対する手動ハイパーパラメータチューニングの必要性や、強い季節性によって特徴づけられるデータにおける冗長な特徴とシグナルを効果的に区別することの難しさなど、顕著な課題に直面している。 これらの問題は時系列予測モデルの一般化と実用化を妨げている。 そこで本研究では,これらの課題に対処するために,時系列予測モデルであるTimeSieveを提案する。 提案手法では,ウェーブレット変換を用いて時系列データを前処理し,パラメータの追加や手動ハイパーパラメータチューニングを必要とせず,マルチスケール機能を効果的にキャプチャする。 さらに,より詳細な情報と近似係数から冗長な特徴を抽出し,最も予測可能な情報のみを保持する情報ボトルネック理論を導入する。 この組み合わせにより、モデルの精度が大幅に向上する。 大規模な実験により、我々のモデルはデータセットの70%で既存の最先端の手法より優れており、予測精度が向上し、多様なデータセットをまたいだ一般化が向上していることが示された。 本研究は, 時系列予測における重要な課題に対処する上で, 提案手法の有効性を検証し, 実用的応用における信頼性と効率的な予測モデルの実現の道を開くものである。 私たちのモデルのコードはhttps://github.com/xll0328/TimeSieve.comから入手可能です。

Time series forecasting has become an increasingly popular research area due to its critical applications in various real-world domains such as traffic management, weather prediction, and financial analysis. Despite significant advancements, existing models face notable challenges, including the necessity of manual hyperparameter tuning for different datasets, and difficulty in effectively distinguishing signal from redundant features in data characterized by strong seasonality. These issues hinder the generalization and practical application of time series forecasting models. To solve this issues, we propose an innovative time series forecasting model TimeSieve designed to address these challenges. Our approach employs wavelet transforms to preprocess time series data, effectively capturing multi-scale features without the need for additional parameters or manual hyperparameter tuning. Additionally, we introduce the information bottleneck theory that filters out redundant features from both detail and approximation coefficients, retaining only the most predictive information. This combination reduces significantly improves the model's accuracy. Extensive experiments demonstrate that our model outperforms existing state-of-the-art methods on 70% of the datasets, achieving higher predictive accuracy and better generalization across diverse datasets. Our results validate the effectiveness of our approach in addressing the key challenges in time series forecasting, paving the way for more reliable and efficient predictive models in practical applications. The code for our model is available at https://github.com/xll0328/TimeSieve.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# Hibou: 病理学の基礎的なビジョントランスフォーマーの家族

Hibou: A Family of Foundational Vision Transformers for Pathology ( http://arxiv.org/abs/2406.05074v2 )

ライセンス: Link先を確認
Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova, (参考訳) 病理学は疾患組織の顕微鏡検査であり、様々な疾患、特にがんの診断に重要である。 従来の方法は労働集約的であり、ヒューマンエラーの傾向が強い。 コンピュータアルゴリズムによる解析のためにガラススライドを高解像度のデジタル画像に変換するデジタル病理学は、自動画像解析と大規模データ処理によって、診断精度、一貫性、効率を向上させることにより、分野に革命をもたらす。 基礎変換器の事前学習は、大量の無注釈データから学習を可能にするため、堅牢で一般化可能なモデルの開発に不可欠である。 本稿では,組織の種類や染色技術を表す100万枚以上のスライド画像(WSI)のプロプライエタリなデータセット上で,DINOv2フレームワークを用いてヒブーBとヒブーLの2つのモデル変異体を事前学習する。 我々の事前訓練されたモデルは、既存の最先端手法を超越して、パッチレベルとスライドレベルの両方のベンチマークで優れた性能を示す。 特に、Hibou-Lは複数のベンチマークデータセットで最高の平均精度を達成している。 この分野におけるさらなる研究と応用をサポートするため、Hibouモデルをオープンソースとして公開しました。

Pathology, the microscopic examination of diseased tissue, is critical for diagnosing various medical conditions, particularly cancers. Traditional methods are labor-intensive and prone to human error. Digital pathology, which converts glass slides into high-resolution digital images for analysis by computer algorithms, revolutionizes the field by enhancing diagnostic accuracy, consistency, and efficiency through automated image analysis and large-scale data processing. Foundational transformer pretraining is crucial for developing robust, generalizable models as it enables learning from vast amounts of unannotated data. This paper introduces the Hibou family of foundational vision transformers for pathology, leveraging the DINOv2 framework to pretrain two model variants, Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide images (WSIs) representing diverse tissue types and staining techniques. Our pretrained models demonstrate superior performance on both patch-level and slide-level benchmarks, surpassing existing state-of-the-art methods. Notably, Hibou-L achieves the highest average accuracy across multiple benchmark datasets. To support further research and application in the field, we have open-sourced the Hibou models, which can be accessed at https://github.com/HistAI/hibou.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# SciRIFF: 言語モデル指導を促進するためのリソース-科学文献を追従する

SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature ( http://arxiv.org/abs/2406.07835v3 )

ライセンス: Link先を確認
David Wadden, Kejian Shi, Jacob Morrison, Aakanksha Naik, Shruti Singh, Nitzan Barzilay, Kyle Lo, Tom Hope, Luca Soldaini, Shannon Zejiang Shen, Doug Downey, Hannaneh Hajishirzi, Arman Cohan, (参考訳) SciRIFF (Scientific Resource for Instruction-Following and Finetuning, SciRIFF) は,情報抽出,要約,質問応答,クレーム検証,および分類の5つの重要な科学的文献理解能力をカバーする,54のタスクを対象とした137Kの指示追従デモのデータセットである。 SciRIFFのデモは、長い入力コンテキスト、詳細なタスク仕様、複雑な構造化出力で有名である。 SciRIFFは、臨床医学や化学などの特定の領域で利用することができるが、研究文献から情報を抽出し合成することに焦点を当てた最初のデータセットである。 SciRIFFの実用性を実証するために、汎用ドメインとSciRIFFのデモを混合して追加的な微調整を行うことにより、科学のための一般的な命令追従モデルを適応するためのサンプル効率のよい戦略を開発した。 9つの科学課題の評価において、SciTuluと呼ばれるモデルでは、7Bスケールと70Bスケールでそれぞれ28.1%と6.5%の強いLCMベースラインを改良し、ベースラインの2%以内の一般的な命令追従性能を維持した。 我々はSciRIFFがLLMの開発と評価を円滑に進め、研究者が今後も成長を続ける科学文献をナビゲートするのに役立つと楽観している。 我々は、さらなる研究を可能にするために、データセット、モデルチェックポイント、データ処理および評価コードをリリースします。

We present SciRIFF (Scientific Resource for Instruction-Following and Finetuning), a dataset of 137K instruction-following demonstrations for 54 tasks covering five essential scientific literature understanding capabilities: information extraction, summarization, question answering, claim verification, and classification. SciRIFF demonstrations are notable for their long input contexts, detailed task specifications, and complex structured outputs. While instruction-following resources are available in specific domains such as clinical medicine and chemistry, SciRIFF is the first dataset focused on extracting and synthesizing information from research literature across a wide range of scientific fields. To demonstrate the utility of SciRIFF, we develop a sample-efficient strategy to adapt a general instruction-following model for science by performing additional finetuning on a mix of general-domain and SciRIFF demonstrations. In evaluations on nine held-out scientific tasks, our model -- called SciTulu -- improves over a strong LLM baseline by 28.1% and 6.5% at the 7B and 70B scales respectively, while maintaining general instruction-following performance within 2% of the baseline. We are optimistic that SciRIFF will facilitate the development and evaluation of LLMs to help researchers navigate the ever-growing body of scientific literature. We release our dataset, model checkpoints, and data processing and evaluation code to enable further research.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# 長文用大言語モデルにおけるクエリ関連ニューロンの同定

Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts ( http://arxiv.org/abs/2406.10868v3 )

ライセンス: Link先を確認
Lihu Chen, Adam Dejl, Francesca Toni, (参考訳) 大規模言語モデル (LLM) はそのパラメータ内で膨大な量の知識を保有しており、この知識を探索し、編集する手法の研究を促す。 これまでの研究は、小さなモデルでエンティティ関連の事実(多くの場合、シングルトークン)を見つけることに重点を置いてきた。 1)LlamaやMistralのような現代自己回帰LDMにおいて、クエリ関連ニューロンを効果的に見つけるにはどうすればよいのか? (2)長文テキスト生成の課題にどう対処すればよいか? (3)LLMに局所的な知識領域はあるか? 本研究では,LLMにおけるクエリ関連ニューロンを識別できるアーキテクチャに依存しない新しいフレームワークであるQRNCA(Query-Relevant Neuron Cluster Attribution)を紹介する。 QRNCAは、多選択質問応答のプロキシタスクを利用することで、三重項事実を超えた長文回答の検証を可能にする。 検出されたニューロンの有効性を評価するため、様々なドメインや言語にまたがる2つの多色QAデータセットを構築した。 実験により,本手法がベースライン法を著しく上回ることを示す。 さらに、ニューロンの分布の解析により、特に異なる領域における可視的な局在領域の存在が明らかになる。 最後に,検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。

Large Language Models (LLMs) possess vast amounts of knowledge within their parameters, prompting research into methods for locating and editing this knowledge. Previous work has largely focused on locating entity-related (often single-token) facts in smaller models. However, several key questions remain unanswered: (1) How can we effectively locate query-relevant neurons in contemporary autoregressive LLMs, such as Llama and Mistral? (2) How can we address the challenge of long-form text generation? (3) Are there localized knowledge regions in LLMs? In this study, we introduce Query-Relevant Neuron Cluster Attribution (QRNCA), a novel architecture-agnostic framework capable of identifying query-relevant neurons in LLMs. QRNCA allows for the examination of long-form answers beyond triplet facts by employing the proxy task of multi-choice question answering. To evaluate the effectiveness of our detected neurons, we build two multi-choice QA datasets spanning diverse domains and languages. Empirical evaluations demonstrate that our method outperforms baseline methods significantly. Further, analysis of neuron distributions reveals the presence of visible localized regions, particularly within different domains. Finally, we show potential applications of our detected neurons in knowledge editing and neuron-based prediction.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# 分散線形量子最適制御のための2時間最適化フレームワーク

Two-Timescale Optimization Framework for Decentralized Linear-Quadratic Optimal Control ( http://arxiv.org/abs/2406.11168v2 )

ライセンス: Link先を確認
Lechen Feng, Yuan-Hua Ni, Xuebo Zhang, (参考訳) 本研究では, 分散線形二乗最適制御問題について検討し, スパーシティ促進関数の選択に基づいて, 近似分離制約付き最適化問題を初めて定式化する。 まず、重み付き$\ell_1$スペーシティ促進関数の最適化問題に対して、BSUM(Block Successive Upper-bound Minimization)フレームワークと微分方程式ソルバに基づく2段階のアルゴリズムを採用する。 第2に、分割2次スペーサ性促進関数を導入し、誘導最適化問題は、同じ2時間スケールのアルゴリズムを実行することにより、加速収束率を示す。 最後に、$\ell_0$スペーサ性促進関数の最適化問題は、非凸かつ不連続であり、逐次座標凸最適化問題によって近似できると考えられる。

This study investigates a decentralized linear-quadratic optimal control problem, and several approximate separable constrained optimization problems are formulated for the first time based on the selection of sparsity promoting functions. First, for the optimization problem with weighted $\ell_1$ sparsity promoting function, a two-timescale algorithm is adopted that is based on the BSUM (Block Successive Upper-bound Minimization) framework and a differential equation solver. Second, a piecewise quadratic sparsity promoting function is introduced, and the induced optimization problem demonstrates an accelerated convergence rate by performing the same two-timescale algorithm. Finally, the optimization problem with $\ell_0$ sparsity promoting function is considered that is nonconvex and discontinuous, and can be approximated by successive coordinatewise convex optimization problems.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# LLMベースのマルチスレッド計画とソクラティックコードデバッグのための階層的質問

Instruct, Not Assist: LLM-based Multi-Turn Planning and Hierarchical Questioning for Socratic Code Debugging ( http://arxiv.org/abs/2406.11709v3 )

ライセンス: Link先を確認
Priyanka Kargupta, Ishika Agarwal, Dilek Hakkani-Tur, Jiawei Han, (参考訳) ソクラテス質問は効果的な教育戦略であり、批判的思考と問題解決を奨励する。 大規模言語モデル(LLM)の会話能力は、スケーラブルでリアルタイムな学生指導を提供する大きな可能性を示している。 しかし、現在のLLMは直接的に解を与えることが多く、非効率なインストラクターとなる。 我々は、新しい状態空間ベースの計画アルゴリズムによって誘導されるインストラクタエージェントであるTreeInstructを用いて、コードデバッグ領域におけるこの問題に対処する。 TreeInstructは、学生が個別にエラーを特定し、解決するのを助けるために、探索的な質問をする。 学生の概念的および構文的知識を推定し、その反応と現在の知識状態に基づいて質問ツリーを動的に構築し、マルチターンインタラクション設定において、独立的および依存的誤りを同時に解決する。 既存の単一バグデバッグベンチマークの使用に加えて、150のコーディング問題、不正なソリューション、バグ修正といった、専門家によって慎重に構築され、注釈付けされた、より困難なマルチバグデータセットを構築しています。 大規模な評価は、両方のデータセットでTreeInstructの最先端のパフォーマンスを示し、ベースラインよりも効果的なインストラクターであることを証明している。 さらに、様々なスキルレベルを持つ5人の学生による実世界のケーススタディでは、TreeInstructが生徒に最小限のターンと高いソクラテス的質問でコードを効率的にデバッグできるように指導する能力を示している。 コードとデータセットはhttp://github.com/agarwalishika/TreeInstruct で公開しています。

Socratic questioning is an effective teaching strategy, encouraging critical thinking and problem-solving. The conversational capabilities of large language models (LLMs) show great potential for providing scalable, real-time student guidance. However, current LLMs often give away solutions directly, making them ineffective instructors. We tackle this issue in the code debugging domain with TreeInstruct, an Instructor agent guided by a novel state space-based planning algorithm. TreeInstruct asks probing questions to help students independently identify and resolve errors. It estimates a student's conceptual and syntactical knowledge to dynamically construct a question tree based on their responses and current knowledge state, effectively addressing both independent and dependent mistakes concurrently in a multi-turn interaction setting. In addition to using an existing single-bug debugging benchmark, we construct a more challenging multi-bug dataset of 150 coding problems, incorrect solutions, and bug fixes -- all carefully constructed and annotated by experts. Extensive evaluation shows TreeInstruct's state-of-the-art performance on both datasets, proving it to be a more effective instructor than baselines. Furthermore, a real-world case study with five students of varying skill levels further demonstrates TreeInstruct's ability to guide students to debug their code efficiently with minimal turns and highly Socratic questioning. We provide our code and datasets at http://github.com/agarwalishika/TreeInstruct .
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# ECAFormer: クロスアテンションを用いた低照度画像強調

ECAFormer: Low-light Image Enhancement using Cross Attention ( http://arxiv.org/abs/2406.13281v2 )

ライセンス: Link先を確認
Yudi Ruan, Hao Ma, Weikai Li, Xiao Wang, (参考訳) 低照度画像強調(LLIE)はコンピュータビジョンにおいて重要である。 既存のLLIEメソッドは、異なるサブコンポーネント間の基盤となる関係を見つけるのに失敗し、複数のモジュールとネットワーク層の間で補完的な情報が失われ、最終的には画像の詳細が失われる。 この不足を克服するため,クロスアテンション・トランスフォーマー (ECAFormer) による階層的相互強化を設計し,複数の機能の同時伝搬と相互作用を可能にするアーキテクチャを導入する。 このモデルはDual Multi-head Self-attention (DMSA)を導入して詳細な情報を保存する。 さらに、残余接続を捕捉するために、クロススケールDMSAブロックを導入し、層間情報を統合して画像の詳細をさらに高めている。 実験の結果、ECAFormerは複数のベンチマークで競合性能を達成し、サブ最適化法よりもPSNRが約3%向上し、LLIEにおける情報インタラクションの有効性が示された。

Low-light image enhancement (LLIE) is critical in computer vision. Existing LLIE methods often fail to discover the underlying relationships between different sub-components, causing the loss of complementary information between multiple modules and network layers, ultimately resulting in the loss of image details. To beat this shortage, we design a hierarchical mutual Enhancement via a Cross Attention transformer (ECAFormer), which introduces an architecture that enables concurrent propagation and interaction of multiple features. The model preserves detailed information by introducing a Dual Multi-head self-attention (DMSA), which leverages visual and semantic features across different scales, allowing them to guide and complement each other. Besides, a Cross-Scale DMSA block is introduced to capture the residual connection, integrating cross-layer information to further enhance image detail. Experimental results show that ECAFormer reaches competitive performance across multiple benchmarks, yielding nearly a 3% improvement in PSNR over the suboptimal method, demonstrating the effectiveness of information interaction in LLIE.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# InstructRAG:Self-Syntheized Rationalesによる検索機能強化ジェネレーションの指導

InstructRAG: Instructing Retrieval-Augmented Generation via Self-Synthesized Rationales ( http://arxiv.org/abs/2406.13629v2 )

ライセンス: Link先を確認
Zhepei Wei, Wei-Lin Chen, Yu Meng, (参考訳) Retrieval-augmented Generation (RAG) は言語モデル(LM)の精度と事実性を向上する有望な可能性を示している。 しかし、不完全な検索者やノイズの多いコーパスは、検索した内容に誤った情報や誤った情報をもたらす可能性があり、生成品質に重大な課題を生じさせる。 既存のRAGメソッドは、潜在的にノイズの多い入力にもかかわらず、最終的な答えを直接予測することで、この課題に対処する。 一方、明示的な先導的監督の獲得は、しばしば人的努力を伴ってコストがかかる。 そこで本研究では,自己合成的理性を通して,LMが明示的に認知過程を学習するインストラクタRAGを提案する。 次に、これらの合理性は、明示的な認知のコンテキスト内学習のデモンストレーションとして、あるいはモデルをトレーニングするための教師付き微調整データとして、使用することができる。 標準的なRAGアプローチと比較して、InstructRAGは追加の監視を必要としないため、予測された回答の検証が容易になり、生成精度が効果的に向上する。 実験の結果、InstructRAGはトレーニングのないシナリオとトレーニング可能なシナリオの両方において既存のRAGメソッドを一貫して上回っており、5つの知識集約ベンチマークで、最高のベースラインメソッドに対して8.3%の相対的な改善を実現している。 拡張解析により、InstructRAGは検索された文書の数の増加とともにスケールし、ドメイン外のデータセットでも頑健な復調能力を示し、強力な一般化性を示している。

Retrieval-augmented generation (RAG) has shown promising potential to enhance the accuracy and factuality of language models (LMs). However, imperfect retrievers or noisy corpora can introduce misleading or even erroneous information to the retrieved contents, posing a significant challenge to the generation quality. Existing RAG methods typically address this challenge by directly predicting final answers despite potentially noisy inputs, resulting in an implicit denoising process that is difficult to interpret and verify. On the other hand, the acquisition of explicit denoising supervision is often costly, involving significant human efforts. In this work, we propose InstructRAG, where LMs explicitly learn the denoising process through self-synthesized rationales -- First, we instruct the LM to explain how the ground-truth answer is derived from retrieved documents. Then, these rationales can be used either as demonstrations for in-context learning of explicit denoising or as supervised fine-tuning data to train the model. Compared to standard RAG approaches, InstructRAG requires no additional supervision, allows for easier verification of the predicted answers, and effectively improves generation accuracy. Experiments show InstructRAG consistently outperforms existing RAG methods in both training-free and trainable scenarios, achieving a relative improvement of 8.3% over the best baseline method on average across five knowledge-intensive benchmarks. Extensive analysis indicates that InstructRAG scales well with increased numbers of retrieved documents and consistently exhibits robust denoising ability even in out-of-domain datasets, demonstrating strong generalizability.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# FairX: フェアネス、ユーティリティ、説明可能性を用いたモデル解析のための総合的なベンチマークツール

FairX: A comprehensive benchmarking tool for model analysis using fairness, utility, and explainability ( http://arxiv.org/abs/2406.14281v2 )

ライセンス: Link先を確認
Md Fahim Sikder, Resmi Ramachandranpillai, Daniel de Leng, Fredrik Heintz, (参考訳) FairXはオープンソースのPythonベースのベンチマークツールで、フェアネス、ユーティリティ、eXplainability(XAI)という傘の下で、モデルを包括的に分析するように設計されています。 FairXは、ベンチマークのバイアス除去モデルをトレーニングし、さまざまな公正度メトリクス、データユーティリティメトリクスを使用して公正性を評価し、統一されたフレームワーク内でモデル予測の説明を生成する。 既存のベンチマークツールには、公正な生成モデルから生成された合成データを評価する方法はなく、公正な生成モデルのトレーニングもサポートしていない。 FairXでは、フェアモデルライブラリ(前処理、内処理、後処理)のコレクションに公正な生成モデルを加え、合成フェアデータの品質を評価するための評価指標を加えます。 このバージョンのFairXは、表と画像の両方のデータセットをサポートする。 また、ユーザーは独自のカスタムデータセットを提供することもできる。 FairXベンチマークパッケージはhttps://github.com/fahim-sikder/FairXで公開されている。

We present FairX, an open-source Python-based benchmarking tool designed for the comprehensive analysis of models under the umbrella of fairness, utility, and eXplainability (XAI). FairX enables users to train benchmarking bias-removal models and evaluate their fairness using a wide array of fairness metrics, data utility metrics, and generate explanations for model predictions, all within a unified framework. Existing benchmarking tools do not have the way to evaluate synthetic data generated from fair generative models, also they do not have the support for training fair generative models either. In FairX, we add fair generative models in the collection of our fair-model library (pre-processing, in-processing, post-processing) and evaluation metrics for evaluating the quality of synthetic fair data. This version of FairX supports both tabular and image datasets. It also allows users to provide their own custom datasets. The open-source FairX benchmarking package is publicly available at https://github.com/fahim-sikder/FairX.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# GPTは本当にそれを得るのか?人間とAIのアルゴリズム理解を定量化する階層的尺度

Does GPT Really Get It? A Hierarchical Scale to Quantify Human vs AI's Understanding of Algorithms ( http://arxiv.org/abs/2406.14722v2 )

ライセンス: Link先を確認
Mirabel Reid, Santosh S. Vempala, (参考訳) 大規模言語モデル(LLM)がより複雑な認知タスクを遂行する(そして時には卓越する)につれて、自然な疑問はAIが本当に理解しているかどうかである。 LLMにおける理解の研究は、その初期段階にあり、まだ哲学、心理学、教育に精通した研究を組み込んでいない。 我々はこれを開始し、特にアルゴリズムの理解に焦点をあて、理解のレベル階層を提案する。 我々は、人的対象(学部・大学院生)と大きな言語モデル(GPTの世代)を設計・実行するために階層を用いており、興味深い類似点と相違点を明らかにしている。 我々の厳格な基準は、そのような認知領域におけるAIの進歩を追跡するのに役立つと期待しています。

As Large Language Models (LLMs) perform (and sometimes excel at) more and more complex cognitive tasks, a natural question is whether AI really understands. The study of understanding in LLMs is in its infancy, and the community has yet to incorporate well-trodden research in philosophy, psychology, and education. We initiate this, specifically focusing on understanding algorithms, and propose a hierarchy of levels of understanding. We use the hierarchy to design and conduct a study with human subjects (undergraduate and graduate students) as well as large language models (generations of GPT), revealing interesting similarities and differences. We expect that our rigorous criteria will be useful to keep track of AI's progress in such cognitive domains.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# 空間制約付き拡散モデルを用いた人間対応3次元シーン生成

Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models ( http://arxiv.org/abs/2406.18159v2 )

ライセンス: Link先を確認
Xiaolin Hong, Hongwei Yi, Fazhi He, Qiong Cao, (参考訳) 人間のモーションシーケンスから3Dシーンを生成することは、仮想現実やアーキテクチャデザインなど、数多くのアプリケーションをサポートする。 しかし,従来のオートレグレッションに基づく人間の3Dシーン生成手法では,複数の物体と入力された人間の関節の分布を正確に把握することが困難であり,しばしば同じ空間で重なり合うオブジェクトを生成する。 この制限に対処するために、全ての入力された人間とフロアプランを同時に考慮し、もっともらしい3Dシーンを生成する拡散モデルの可能性を探る。 我々のアプローチは、全ての入力された人間の相互作用を満たすだけでなく、フロアプランとの空間的制約にも従う。 さらに,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。 これらのメカニズムは、レイアウト制約を尊重しながら人間の動きと矛盾するシーンを生成するのに役立ちます。 そこで我々は,既存の3次元FRONT HUMANデータセットにおける人間と物体の相互作用の多様性と妥当性を向上させる自動パイプラインを開発した。 人工的および実世界の両方のデータセットに対する大規模な実験により、我々のフレームワークは、人間のシーンの正確な相互作用でより自然でプラウティブルな3Dシーンを生成できる一方で、従来の最先端の手法に比べて人間と物体の衝突を著しく低減できることが示された。 私たちのコードとデータは、この作業の公開時に公開されます。

Generating 3D scenes from human motion sequences supports numerous applications, including virtual reality and architectural design. However, previous auto-regression-based human-aware 3D scene generation methods have struggled to accurately capture the joint distribution of multiple objects and input humans, often resulting in overlapping object generation in the same space. To address this limitation, we explore the potential of diffusion models that simultaneously consider all input humans and the floor plan to generate plausible 3D scenes. Our approach not only satisfies all input human interactions but also adheres to spatial constraints with the floor plan. Furthermore, we introduce two spatial collision guidance mechanisms: human-object collision avoidance and object-room boundary constraints. These mechanisms help avoid generating scenes that conflict with human motions while respecting layout constraints. To enhance the diversity and accuracy of human-guided scene generation, we have developed an automated pipeline that improves the variety and plausibility of human-object interactions in the existing 3D FRONT HUMAN dataset. Extensive experiments on both synthetic and real-world datasets demonstrate that our framework can generate more natural and plausible 3D scenes with precise human-scene interactions, while significantly reducing human-object collisions compared to previous state-of-the-art methods. Our code and data will be made publicly available upon publication of this work.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-20
# ナノダイアモンドを用いた細胞力学の時空間変形検出

Nanodiamond-based spatial-temporal deformation sensing for cell mechanics ( http://arxiv.org/abs/2406.18577v2 )

ライセンス: Link先を確認
Yue Cui, Weng-Hang Leong, Guoli Zhu, Ren-Bao Liu, Quan Li, (参考訳) ナノスケールでのソフトバイオシステムの機械的特性の精密評価は、生理学、病理学、関連する薬物の開発を理解する上で重要である。 従来の原子間力顕微鏡(AFM)に基づくインデンテーション法は、局所的な先端-サンプル相互作用とモデル選択の不確実性に悩まされている。 これは、機械的解析に空間的に解決された非局所変形検出を採用することで克服できる。 しかし、現在この技術は、空間的あるいは時間的解決が不十分なことや、生きた活動や他の外部の摂動とインデンテーションによって引き起こされる変形を区別することが困難であるために、生命の無いシステムや静電気システムに限られている。 そこで我々は,空間的および時間的に解決された機械的解析と,数十マイクロ秒の時間ラグ精度,ナノメートルの垂直変形精度,サブハンドされたナノメートルの空間分解能を実現する,革新的な動的非局所変形検出手法を開発した。 振動性ナノインデンテーションと分光分析を用いて、インデンテーションによって引き起こされる信号をランダムノイズから切り離し、生きた細胞測定を可能にする。 この方法を用いて, インデンテーション中の表面変形の距離依存性位相を発見し, AFMインデンテーションによる生体細胞の機械的応答における表面張力効果(キャピラリティ)を明らかにする。 表面張力を有する粘弾性モデルを用いて、細胞の粘弾性とキャピラリティの同時定量を可能にする。 従来のAFM法と同様に表面張力の無視は液状特性を過小評価し, 細胞表面粘弾性率を過小評価することを示した。 この研究は、生きた細胞における幅広いエラストカピラリティ関連界面力学とメカノロジープロセスを理解するための基礎を築いている。

Precise assessment of the mechanical properties of soft biological systems at the nanoscale is crucial for understanding physiology, pathology, and developing relevant drugs. Conventional atomic force microscopy (AFM)-based indentation methods suffer from uncertainties in local tip-sample interactions and model choice. This can be overcome by adopting spatially resolved nonlocal deformation sensing for mechanical analysis. However, the technique is currently limited to lifeless/static systems, due to the inadequate spatial or temporal resolution, or difficulties in differentiating the indentation-induced deformation from that associated with live activities and other external perturbations. Here, we develop an innovative dynamic nonlocal deformation sensing approach allowing both spatially and temporally resolved mechanical analysis, which achieves a tens of microsecond time-lag precision, a nanometer vertical deformation precision, and a sub-hundred nanometer lateral spatial resolution. Using oscillatory nanoindentation and spectroscopic analysis, the method can separate the indentation-caused signal from random noise, enabling live cell measurement. Using this method, we discover a distance-dependent phase of surface deformation during indentation, leading to the disclosure of surface tension effects (capillarity) in the mechanical response of live cells upon AFM indentation. A viscoelastic model with surface tension is used to enable simultaneous quantification of the viscoelasticity and capillarity of cell. We show that neglecting surface tension, as in conventional AFM methods, would underestimate the liquid-like characteristics and overestimate the apparent viscoelastic modulus of cells. The study lays down a foundation for understanding a broad range of elastocapillarity-related interfacial mechanics and mechanobiological processes in live cells.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# DSLR:文レベル再分類による文書のリファインメントと検索機能強化のための再構築

DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.03627v4 )

ライセンス: Link先を確認
Taeho Hwang, Soyeong Jeong, Sukmin Cho, SeungYoon Han, Jong C. Park, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理(NLP)タスクにおいて、その性能を大幅に改善している。 しかし、LCMはパラメトリックメモリの制限のため、非実効応答の生成に苦慮している。 Retrieval-Augmented Generation (RAG) システムは、外部知識を検索モジュールに組み込むことでこの問題に対処する。 しかし、その成功にもかかわらず、現在のRAGシステムは、検索に失敗し、LLMが無関係な情報をフィルタリングする能力に制限があるという問題に直面している。 そこで本研究では、検索した文書を文に分解し、無関係な文をフィルタリングし、それらを再び一貫性のある文に再構成する、教師なしのフレームワークであるDSLRを提案する。 我々は,複数のオープンドメインQAデータセット上でDSLRを実験的に検証し,DSLRが従来の固定サイズパスよりもRAG性能を大幅に向上することを示した。 さらに、我々のDSLRは、追加のトレーニングを必要とせずに、特定の現実的なシナリオにおけるパフォーマンスを高め、RAGシステムで取得した文書を精算するための効率的かつ効率的なソリューションを提供する。

Recent advancements in Large Language Models (LLMs) have significantly improved their performance across various Natural Language Processing (NLP) tasks. However, LLMs still struggle with generating non-factual responses due to limitations in their parametric memory. Retrieval-Augmented Generation (RAG) systems address this issue by incorporating external knowledge with a retrieval module. Despite their successes, however, current RAG systems face challenges with retrieval failures and the limited ability of LLMs to filter out irrelevant information. Therefore, in this work, we propose DSLR (Document Refinement with Sentence-Level Re-ranking and Reconstruction), an unsupervised framework that decomposes retrieved documents into sentences, filters out irrelevant sentences, and reconstructs them again into coherent passages. We experimentally validate DSLR on multiple open-domain QA datasets and the results demonstrate that DSLR significantly enhances the RAG performance over conventional fixed-size passage. Furthermore, our DSLR enhances performance in specific, yet realistic scenarios without the need for additional training, providing an effective and efficient solution for refining retrieved documents in RAG systems.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# AutoBench: HDL設計のためのLCMを用いた自動テストベンチ生成と評価

AutoBench: Automatic Testbench Generation and Evaluation Using LLMs for HDL Design ( http://arxiv.org/abs/2407.03891v2 )

ライセンス: Link先を確認
Ruidi Qiu, Grace Li Zhang, Rolf Drechsler, Ulf Schlichtmann, Bing Li, (参考訳) デジタル回路設計において、テストベンチはシミュレーションベースのハードウェア検証の基礎となる。 シミュレーションベースのハードウェア検証におけるテストベンチ生成の従来の手法は、一部手作業のままであり、様々なシナリオのテストや設計者からの高価な時間を要する。 LLM(Large Language Models)は、回路設計フローの自動化の可能性を実証している。 しかし、直接LLMをテストベンチ生成に適用することは、通過率の低下に悩まされる。 この課題に対処するために,我々は,デジタル回路設計のための最初のLCMベースのテストベンチジェネレータであるAutoBenchを紹介した。 AutoBenchでは、LLMを用いてハイブリッドテストベンチ構造と自己チェックシステムを実現する。 生成されたテストベンチを検証するために,複数の視点から生成されたテストベンチの品質を評価する自動テストベンチ評価フレームワークも導入した。 実験の結果, AutoBenchは, LLMを用いて直接テストベンチを生成するベースラインと比較して, testbench pass@1比が57%向上していることがわかった。 75のシーケンシャル回路では、AutoBenchはベースラインに比べて3.36倍のテストベンチパス@1比で成功した。 ソースコードと実験結果は、このリンクでオープンソース化されている。

In digital circuit design, testbenches constitute the cornerstone of simulation-based hardware verification. Traditional methodologies for testbench generation during simulation-based hardware verification still remain partially manual, resulting in inefficiencies in testing various scenarios and requiring expensive time from designers. Large Language Models (LLMs) have demonstrated their potential in automating the circuit design flow. However, directly applying LLMs to generate testbenches suffers from a low pass rate. To address this challenge, we introduce AutoBench, the first LLM-based testbench generator for digital circuit design, which requires only the description of the design under test (DUT) to automatically generate comprehensive testbenches. In AutoBench, a hybrid testbench structure and a self-checking system are realized using LLMs. To validate the generated testbenches, we also introduce an automated testbench evaluation framework to evaluate the quality of generated testbenches from multiple perspectives. Experimental results demonstrate that AutoBench achieves a 57% improvement in the testbench pass@1 ratio compared with the baseline that directly generates testbenches using LLMs. For 75 sequential circuits, AutoBench successfully has a 3.36 times testbench pass@1 ratio compared with the baseline. The source codes and experimental results are open-sourced at this link: https://github.com/AutoBench/AutoBench
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# 連続視覚言語ナビゲーションのための基礎モデルを用いた順応型計画法

Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation ( http://arxiv.org/abs/2407.05890v2 )

ライセンス: Link先を確認
Jiaqi Chen, Bingqian Lin, Xinmin Liu, Lin Ma, Xiaodan Liang, Kwan-Yee K. Wong, (参考訳) LLMベースのエージェントは視覚言語ナビゲーション(VLN)タスクにおいて印象的なゼロショット性能を示した。 しかし、既存のLCMベースの手法は、ナビゲーションシナリオの低レベル制御を見越して、事前に定義されたナビゲーショングラフのノードを選択することで、高レベルタスク計画の解決にのみ焦点をあてることが多い。 このギャップを埋めるため、連続VLNタスクのための新しいAffordances-Oriented PlannerであるAO-Plannerを提案する。 我々のAO-Plannerは、様々な基礎モデルを統合して、ゼロショット環境で実行されたアベイランス指向の低レベル動作計画とハイレベルな意思決定を実現する。 具体的には、視界をSAMで区分けし、LLMが潜在的な候補経路を選択し、選択された経路に向けて低レベル経路を計画するビジュアルアフォード・プロンプティング(VAP)アプローチを用いる。 さらに、画像入力への計画経路を示す高レベルパスAgentを提案し、すべての環境情報を解釈することで最も可能性の高い経路を推論する。 最後に,選択した経路をカメラ固有のパラメータと深度情報を用いて3次元座標に変換する。 挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショット性能(SPLの8.8%の改善)を達成したことを示している。 提案手法は擬似ラベルを得るためのデータアノテータとしても機能し,そのウェイポイント予測能力を学習ベース予測器に蒸留する。 この新たな予測器はシミュレータからのウェイポイントデータを一切必要とせず、教師付き手法と競合する47%のSRを達成する。 我々はLLMと3Dの世界を効果的に接続し、低レベルモーションコントロールに基礎モデルを採用する新たな可能性を示す。

LLM-based agents have demonstrated impressive zero-shot performance in vision-language navigation (VLN) task. However, existing LLM-based methods often focus only on solving high-level task planning by selecting nodes in predefined navigation graphs for movements, overlooking low-level control in navigation scenarios. To bridge this gap, we propose AO-Planner, a novel Affordances-Oriented Planner for continuous VLN task. Our AO-Planner integrates various foundation models to achieve affordances-oriented low-level motion planning and high-level decision-making, both performed in a zero-shot setting. Specifically, we employ a Visual Affordances Prompting (VAP) approach, where the visible ground is segmented by SAM to provide navigational affordances, based on which the LLM selects potential candidate waypoints and plans low-level paths towards selected waypoints. We further propose a high-level PathAgent which marks planned paths into the image input and reasons the most probable path by comprehending all environmental information. Finally, we convert the selected path into 3D coordinates using camera intrinsic parameters and depth information, avoiding challenging 3D predictions for LLMs. Experiments on the challenging R2R-CE and RxR-CE datasets show that AO-Planner achieves state-of-the-art zero-shot performance (8.8% improvement on SPL). Our method can also serve as a data annotator to obtain pseudo-labels, distilling its waypoint prediction ability into a learning-based predictor. This new predictor does not require any waypoint data from the simulator and achieves 47% SR competing with supervised methods. We establish an effective connection between LLM and 3D world, presenting novel prospects for employing foundation models in low-level motion control.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# 周期的エージェント状態に基づくPMDPのQ-ラーニング

Periodic agent-state based Q-learning for POMDPs ( http://arxiv.org/abs/2407.06121v2 )

ライセンス: Link先を確認
Amit Sinha, Mathieu Geist, Aditya Mahajan, (参考訳) 部分観測可能なマルコフ決定過程(POMDP)の標準的なアプローチは、それらを完全に観察された信念状態のMDPに変換することである。 しかし、信念状態はシステムモデルに依存するため、強化学習(RL)設定では不可能である。 広く使われている代替手段は、観察履歴のモデル無しで再帰的に更新可能な機能であるエージェント状態を使用することである。 例えば、フレームの積み重ねやリカレントニューラルネットワークなどがある。 エージェント状態はモデルフリーであるため、標準RLアルゴリズムをPOMDPに適応するために使用される。 しかし、Qラーニングのような標準的なRLアルゴリズムは定常ポリシーを学ぶ。 例として、エージェント状態がマルコフの性質を満たさないため、非定常エージェント状態ベースのポリシーは定常エージェントよりも優れる。 本機能を活用するために,エージェント状態に基づくQ-ラーニングの変種であるPASQL(周期的エージェント状態に基づくQ-ラーニング)を提案する。 周期的マルコフ連鎖と確率近似のアイデアを組み合わせることで、PASQLが巡回極限に収束し、収束した周期ポリシーの近似誤差を特徴付けることを厳密に証明する。 最後に、PASQLの健全な特徴を強調する数値実験を行い、定常的なポリシーよりも周期的なポリシーを学ぶことの利点を実証する。

The standard approach for Partially Observable Markov Decision Processes (POMDPs) is to convert them to a fully observed belief-state MDP. However, the belief state depends on the system model and is therefore not viable in reinforcement learning (RL) settings. A widely used alternative is to use an agent state, which is a model-free, recursively updateable function of the observation history. Examples include frame stacking and recurrent neural networks. Since the agent state is model-free, it is used to adapt standard RL algorithms to POMDPs. However, standard RL algorithms like Q-learning learn a stationary policy. Our main thesis that we illustrate via examples is that because the agent state does not satisfy the Markov property, non-stationary agent-state based policies can outperform stationary ones. To leverage this feature, we propose PASQL (periodic agent-state based Q-learning), which is a variant of agent-state-based Q-learning that learns periodic policies. By combining ideas from periodic Markov chains and stochastic approximation, we rigorously establish that PASQL converges to a cyclic limit and characterize the approximation error of the converged periodic policy. Finally, we present a numerical experiment to highlight the salient features of PASQL and demonstrate the benefit of learning periodic policies over stationary policies.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# エルミート行列空間の幾何学とシュリーファー-ヴォルフ変換

The geometry of the Hermitian matrix space and the Schrieffer--Wolff transformation ( http://arxiv.org/abs/2407.10478v2 )

ライセンス: Link先を確認
Gergő Pintér, György Frank, Dániel Varjas, András Pályi, (参考訳) 量子力学において、シュリーファー-ヴォルフ変換(Schrieffer--Wolff、SW)変換(準退化摂動理論とも呼ばれる)は、ハミルトニアンの次元を減少させる近似法として知られている。 我々は、SW変換の幾何学的解釈を提示する:我々は、それがエルミート行列の空間における局所座標チャートを、$k$フォールドの縮退部分多様体の近くで誘導することを証明する。 この結果に着想を得て、我々は '距離定理' を定め、例えば、ハミルトニアンの隣接する固有値$k$の標準偏差が、対応する$k$-フォールドの退化部分多様体からこのハミルトニアンの距離と等しいことを示し、$\sqrt{k}$で割る。 さらに、縮退ハミルトニアンの一パラメータ摂動について検討し、標準偏差と固有値の対差がエネルギー固有値の分割の順序と同じであることを示す。 応用として、超越定理を用いてワイル点の「保護」を証明し、量子誤差補正と位相秩序の結果に基づいて、ある種の縮退部分多様体の幾何学的性質を推測する。

In quantum mechanics, the Schrieffer--Wolff (SW) transformation (also called quasi-degenerate perturbation theory) is known as an approximative method to reduce the dimension of the Hamiltonian. We present a geometric interpretation of the SW transformation: We prove that it induces a local coordinate chart in the space of Hermitian matrices near a $k$-fold degeneracy submanifold. Inspired by this result, we establish a `distance theorem': we show that the standard deviation of $k$ neighboring eigenvalues of a Hamiltonian equals the distance of this Hamiltonian from the corresponding $k$-fold degeneracy submanifold, divided by $\sqrt{k}$. Furthermore, we investigate one-parameter perturbations of a degenerate Hamiltonian, and prove that the standard deviation and the pairwise differences of the eigenvalues lead to the same order of splitting of the energy eigenvalues, which in turn is the same as the order of distancing from the degeneracy submanifold. As applications, we prove the `protection' of Weyl points using the transversality theorem, and infer geometrical properties of certain degeneracy submanifolds based on results from quantum error correction and topological order.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# 機械学習のための情報理論の基礎

Information-Theoretic Foundations for Machine Learning ( http://arxiv.org/abs/2407.12288v3 )

ライセンス: Link先を確認
Hong Jun Jeon, Benjamin Van Roy, (参考訳) 過去10年間の機械学習の驚くべき進歩は、注目に値するものとなっている。 振り返ってみれば、これらのマイルストーンが実験を導くための厳密な理論をほとんど、あるいは全く持たなかったことは、目覚ましいことと不安である。 この事実にもかかわらず、実践者は以前の大規模な実証実験の観察を通して将来の実験を導くことができた。 しかし、プラトンの洞窟のアレゴリー(英語版)に言及すると、フィールドの現実の概念を形成する観察は、その現実の断片を表す影である可能性が高い。 本研究では,洞窟外に存在する問題に答えようとする理論的枠組みを提案する。 理論家にとって、我々は数学的に厳密なフレームワークを提供し、将来の探索のために多くの興味深いアイデアを開放する。 実践者には、結果が非常に直感的で、一般的に、将来の調査を導くための原則を形成するのに役立つフレームワークを提供する。 具体的には、ベイズ統計とシャノンの情報理論に根ざした理論的枠組みを提供する。 本フレームワークは,情報の基本的限界を考慮した最適なベイズ学習者の性能を特徴付ける。 この研究を通じて、非常に一般的な理論的結果を導出し、未知の分布下で独立に分布するデータから、連続的なデータ、メタラーニングに適する階層構造を示すデータまで、設定に特異的な洞察を導出する。 我々は、不特定アルゴリズムの性能を特徴付けるセクションを締めくくる。 これらの結果はエキサイティングで、この無限に複雑な世界でますます困難な機械学習の課題を克服しようと努めている。

The staggering progress of machine learning in the past decade has been a sight to behold. In retrospect, it is both remarkable and unsettling that these milestones were achievable with little to no rigorous theory to guide experimentation. Despite this fact, practitioners have been able to guide their future experimentation via observations from previous large-scale empirical investigations. However, alluding to Plato's Allegory of the cave, it is likely that the observations which form the field's notion of reality are but shadows representing fragments of that reality. In this work, we propose a theoretical framework which attempts to answer what exists outside of the cave. To the theorist, we provide a framework which is mathematically rigorous and leaves open many interesting ideas for future exploration. To the practitioner, we provide a framework whose results are very intuitive, general, and which will help form principles to guide future investigations. Concretely, we provide a theoretical framework rooted in Bayesian statistics and Shannon's information theory which is general enough to unify the analysis of many phenomena in machine learning. Our framework characterizes the performance of an optimal Bayesian learner, which considers the fundamental limits of information. Throughout this work, we derive very general theoretical results and apply them to derive insights specific to settings ranging from data which is independently and identically distributed under an unknown distribution, to data which is sequential, to data which exhibits hierarchical structure amenable to meta-learning. We conclude with a section dedicated to characterizing the performance of misspecified algorithms. These results are exciting and particularly relevant as we strive to overcome increasingly difficult machine learning challenges in this endlessly complex world.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# 大規模視覚言語モデルも良い分類法である:インテクストマルチモーダルフェイクニュース検出の検討

Large Visual-Language Models Are Also Good Classifiers: A Study of In-Context Multimodal Fake News Detection ( http://arxiv.org/abs/2407.12879v2 )

ライセンス: Link先を確認
Ye Jiang, Yimin Wang, (参考訳) 大規模視覚言語モデル(LVLM)は、多種多様なクロスモーダルベンチマークにおいて、視覚言語推論において例外的な性能を示す。 これらの進歩にもかかわらず、最近の研究は、GPT-3.5-turboのような大規模言語モデル(LLM)が、Fake News Detection (FND)においてBERTのようなよく訓練された小型モデルと比較され、FNDタスクにおけるLVLMsの有効性を問うことが示唆されている。 微調整のLVLMにより性能は向上するが、かなりのパラメータと必要な事前訓練の重み付けにより、FNDアプリケーションのためのリソース重み付けの取り組みとなった。 本稿は,CLIPモデルと比較し,まず2つの有名なLVLM(CagVLMとGPT4V)のFND能力を評価する。 以上の結果から,LVLMは小型モデルと競合する性能が得られることが示された。 次に,標準文脈学習(ICL)をLVLMと統合し,FND性能の向上に言及する。 この問題に対処するため、我々は、よく訓練された小さなモデルからの予測と対応する確率で、文脈内例とテストインプットを豊かにすることで、textbf{I}n-context \textbf{M}ultimodal \textbf{F}ake \textbf{N}ews \textbf{D}etection (IMFND) フレームワークを導入する。 この戦略的統合により、LVLMは高い確率に関連するニュースセグメントに焦点を向け、分析精度を向上させることができる。 実験結果から,IMFNDフレームワークはLVLMのFND効率を大幅に向上し,3つのFNDデータセットの標準ICLアプローチよりも精度が向上したことが示唆された。

Large visual-language models (LVLMs) exhibit exceptional performance in visual-language reasoning across diverse cross-modal benchmarks. Despite these advances, recent research indicates that Large Language Models (LLMs), like GPT-3.5-turbo, underachieve compared to well-trained smaller models, such as BERT, in Fake News Detection (FND), prompting inquiries into LVLMs' efficacy in FND tasks. Although performance could improve through fine-tuning LVLMs, the substantial parameters and requisite pre-trained weights render it a resource-heavy endeavor for FND applications. This paper initially assesses the FND capabilities of two notable LVLMs, CogVLM and GPT4V, in comparison to a smaller yet adeptly trained CLIP model in a zero-shot context. The findings demonstrate that LVLMs can attain performance competitive with that of the smaller model. Next, we integrate standard in-context learning (ICL) with LVLMs, noting improvements in FND performance, though limited in scope and consistency. To address this, we introduce the \textbf{I}n-context \textbf{M}ultimodal \textbf{F}ake \textbf{N}ews \textbf{D}etection (IMFND) framework, enriching in-context examples and test inputs with predictions and corresponding probabilities from a well-trained smaller model. This strategic integration directs the LVLMs' focus towards news segments associated with higher probabilities, thereby improving their analytical accuracy. The experimental results suggest that the IMFND framework significantly boosts the FND efficiency of LVLMs, achieving enhanced accuracy over the standard ICL approach across three publicly available FND datasets.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# DropKan: ポストアクティベーションのマスキングによるカンの正規化

DropKAN: Regularizing KANs by masking post-activations ( http://arxiv.org/abs/2407.13044v4 )

ライセンス: Link先を確認
Mohammed Ghaith Altarabichi, (参考訳) 本研究では,Dropout Kolmogorov-Arnold Networks(Dropout Kolmogorov-Arnold Networks)を提案する。 DropKANは、ドロップマスクをkan層に直接埋め込んで、Kansの計算グラフ内のいくつかのアクティベーションの出力をランダムにマスキングすることで機能する。 最小限のコーディング作業を必要とするこの単純な手順は、正規化効果を持ち、一貫してkansのより優れた一般化につながることを示す。 我々は、標準のDropout with Kansの適応を分析し、Kansのニューロンに適用されたDropoutがフィードフォワードパスの予測不可能な動作を引き起こすことを実証する。 実世界の機械学習データセットを用いて実証的研究を行い、その結果を検証する。 その結果,DropKANは標準のDropout with Kansよりも優れた代替手段であり,kansの一般化性能を向上させることが示唆された。 DropKANの実装は以下の通りである。

We propose DropKAN (Dropout Kolmogorov-Arnold Networks) a regularization method that prevents co-adaptation of activation function weights in Kolmogorov-Arnold Networks (KANs). DropKAN functions by embedding the drop mask directly within the KAN layer, randomly masking the outputs of some activations within the KANs' computation graph. We show that this simple procedure that require minimal coding effort has a regularizing effect and consistently lead to better generalization of KANs. We analyze the adaptation of the standard Dropout with KANs and demonstrate that Dropout applied to KANs' neurons can lead to unpredictable behavior in the feedforward pass. We carry an empirical study with real world Machine Learning datasets to validate our findings. Our results suggest that DropKAN is consistently a better alternative to using standard Dropout with KANs, and improves the generalization performance of KANs. Our implementation of DropKAN is available at: \url{https://github.com/Ghaith81/dropkan}.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# PetFace: 動物識別のための大規模データセットとベンチマーク

PetFace: A Large-Scale Dataset and Benchmark for Animal Identification ( http://arxiv.org/abs/2407.13555v2 )

ライセンス: Link先を確認
Risa Shinoda, Kaede Shiohara, (参考訳) 動物の顔の自動識別は、行動の監視、調査の実施、失われた動物の発見に重要な役割を果たしている。 人間の顔認証の進歩にもかかわらず、動物領域におけるデータセットやベンチマークの欠如は進歩を妨げている。 本稿では,実験動物とペット動物の両方を含む,13種の動物科および319種の異なる257,484種の動物顔識別のための包括的リソースであるPetFaceデータセットを紹介する。 この大規模な個体の収集は、個体数が限られているため、既存のデータセットで十分に調査されていない領域である未確認動物の顔認証の調査を促進する。 さらにPetFaceには、セックス、種別、色、パターンといった細かいアノテーションもある。 対象個人に対する再識別や,未確認個人に対する検証を含む,複数のベンチマークを提供する。 私たちのデータセットでトレーニングされたモデルは、詳細な品種のバリエーションや目に見えない動物の家族であっても、以前のデータセットでトレーニングされたモデルよりも優れています。 以上の結果から,複数個体群における統合的識別性能を向上させる余地があることが示唆された。 PetFaceデータセットは、動物の顔の識別を促進し、非侵襲的な動物自動識別方法の開発を促進することを願っている。

Automated animal face identification plays a crucial role in the monitoring of behaviors, conducting of surveys, and finding of lost animals. Despite the advancements in human face identification, the lack of datasets and benchmarks in the animal domain has impeded progress. In this paper, we introduce the PetFace dataset, a comprehensive resource for animal face identification encompassing 257,484 unique individuals across 13 animal families and 319 breed categories, including both experimental and pet animals. This large-scale collection of individuals facilitates the investigation of unseen animal face verification, an area that has not been sufficiently explored in existing datasets due to the limited number of individuals. Moreover, PetFace also has fine-grained annotations such as sex, breed, color, and pattern. We provide multiple benchmarks including re-identification for seen individuals and verification for unseen individuals. The models trained on our dataset outperform those trained on prior datasets, even for detailed breed variations and unseen animal families. Our result also indicates that there is some room to improve the performance of integrated identification on multiple animal families. We hope the PetFace dataset will facilitate animal face identification and encourage the development of non-invasive animal automatic identification methods.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# モルフィング回路を用いた二変量自転車符号の接続性低下

Lowering Connectivity Requirements For Bivariate Bicycle Codes Using Morphing Circuits ( http://arxiv.org/abs/2407.16336v2 )

ライセンス: Link先を確認
Mackenzie H. Shaw, Barbara M. Terhal, (参考訳) 最近、Bravyi et al [1] は、回路レベルのエラー率を表面コードに類似させるが符号化率を向上させる小さな量子バイバーリテイト自転車 (BB) 符号のセットを提案した。 本研究では,新しいパリティチェック回路の設計原理を一般化し,この手法をBB符号に適用する。 私たちの構成では、新しい$[[144,12,12]$ "gross"コードを含む、BBコードの新しいファミリーを生成しています。 興味深いことに、各パリティチェック回路は6ラウンドのCNOTゲート(Ref. [1]より1ラウンド少ない)しか必要としない。 また, 論理入力/出力回路をモーフィング回路を用いてアシラリー回転曲面コードに対して2平面配置で実行する方法を示す。 新しいコードは少なくともRefのコードと同様に機能する。 [1] BP-OSD でデコードした場合の均一回路レベルのノイズ。 最後に、モーフィング回路を設計するための一般的なフレームワークを開発し、2ブロック群代数符号に適用可能な条件を示す。 [1] S. Bravyi, A. W. Cross, J. M. Gambetta, D. Maslov, P. Rall, T. J. Yoder, Nature 627, 778 (2024)。 [2] C. Gidney and C. Jones, New circuits and a open source decoder for the color code (2023), arXiv:2312.08813。

Recently, Bravyi et al. [1] proposed a set of small quantum Bivariate Bicycle (BB) codes that achieve a similar circuit-level error rate to the surface code but with an improved encoding rate. In this work, we generalise a novel parity-check circuit design principle that we call morphing circuits (first introduced in [2]) and apply this methodology to BB codes. Our construction generates a new family of BB codes -- including a new $[[144,12,12]]$ "gross" code -- whose parity check circuits require a qubit connectivity of degree five instead of six. Intriguingly, each parity check circuit requires only 6 rounds of CNOT gates -- one fewer than in Ref. [1] -- even though our new codes have weight-9 stabilisers. We also show how to perform logical input/output circuits to an ancillary rotated surface code using morphing circuits, all within a biplanar layout. The new codes perform at least as well as those of Ref. [1] under uniform circuit-level noise when decoded using BP-OSD. Finally, we develop a general framework for designing morphing circuits and present a sufficient condition for its applicability to two-block group algebra codes. [1] S. Bravyi, A. W. Cross, J. M. Gambetta, D. Maslov, P. Rall, and T. J. Yoder, Nature 627, 778 (2024). [2] C. Gidney and C. Jones, New circuits and an open source decoder for the color code (2023), arXiv:2312.08813.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# OpenVINOベースニューラルネットワークモデルのサイドチャネル解析

Side-Channel Analysis of OpenVINO-based Neural Network Models ( http://arxiv.org/abs/2407.16467v2 )

ライセンス: Link先を確認
Dirmanto Jap, Jakub Breier, Zdenko Lehocký, Shivam Bhasin, Xiaolu Hou, (参考訳) ニューラルネットワークアクセラレータを備えた組み込みデバイスは、ユーザにとって大きな汎用性を提供し、クラウドベースのサービスの使用の必要性を低減します。 同時に、彼らはハードウェア攻撃の領域で新しいセキュリティ課題を導入し、最も顕著なのは、サイドチャネル分析(SCA)である。 SCAはモデルパラメータを高い精度で復元することができ、モデルを秘密にしたいエンティティに脅威を与えます。 本稿では,組込みデバイスとエッジデバイスにニューラルネットワークをデプロイする組込みフレームワークであるOpenVINOで実装された量子化モデルの感受性について検討する。 モデルパラメータを高精度に復元し,元のパラメータに非常に近い精度でモデルパラメータを復元できることを示す。 GoogleNet v1の実験では、トップ1の1%の違いとトップ5の0.64%の違いしか示されていない。

Embedded devices with neural network accelerators offer great versatility for their users, reducing the need to use cloud-based services. At the same time, they introduce new security challenges in the area of hardware attacks, the most prominent being side-channel analysis (SCA). It was shown that SCA can recover model parameters with a high accuracy, posing a threat to entities that wish to keep their models confidential. In this paper, we explore the susceptibility of quantized models implemented in OpenVINO, an embedded framework for deploying neural networks on embedded and Edge devices. We show that it is possible to recover model parameters with high precision, allowing the recovered model to perform very close to the original one. Our experiments on GoogleNet v1 show only a 1% difference in the Top 1 and a 0.64% difference in the Top 5 accuracies.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# Adaptive Gradient Regularization: ディープニューラルネットワークの高速で一般化可能な最適化手法

Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks ( http://arxiv.org/abs/2407.16944v4 )

ライセンス: Link先を確認
Huixiu Jiang, Ling Yang, Yu Bao, Rutong Si, Sikun Yang, (参考訳) 確率最適化は、ディープラーニング技術の進歩において重要な役割を果たす。 何十年もの間、勾配正規化(GN)や勾配集中化(GC)といった様々な戦略を通じて、ディープニューラルネットワークのトレーニング効率と堅牢性を改善するための重要な努力が続けられてきた。 それにもかかわらず、我々の知る限りでは、勾配降下方向を適応的に制御することで、最適勾配降下軌道を捉えることを誰も考えていない。 そこで本研究では,勾配ベクトルの和正規化を係数として用い,勾配を動的に正規化し,最適化方向を効果的に制御するディープニューラルネットワークの新しい最適化手法について検討する。 提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。 これは適応的な勾配クリッピング法と見なすことができる。 理論解析により,AGRは損失景観を効果的に平滑にすることができ,トレーニング効率とモデル一般化性能を大幅に向上させることができることがわかった。 AGRは3行のコードを追加するだけで、AdanやAdamWを含む"バニラオプティマイザ"のトレーニング効率を大幅に改善することができます。 画像生成, 画像分類, 言語表現に関する最終実験は, AGR法が訓練効率を向上するだけでなく, モデル一般化性能を向上させることを実証している。

Stochastic optimization plays a crucial role in the advancement of deep learning technologies. Over the decades, significant effort has been dedicated to improving the training efficiency and robustness of deep neural networks, via various strategies including gradient normalization (GN) and gradient centralization (GC). Nevertheless, to the best of our knowledge, no one has considered to capture the optimal gradient descent trajectory, by adaptively controlling gradient descent direction. To address this concern, this paper is the first attempt to study a new optimization technique for deep neural networks, using the sum normalization of a gradient vector as coefficients, to dynamically regularize gradients and thus to effectively control optimization direction. The proposed technique is hence named as the adaptive gradient regularization (AGR). It can be viewed as an adaptive gradient clipping method. The theoretical analysis reveals that the AGR can effectively smooth the loss landscape, and hence can significantly improve the training efficiency and model generalization performance. We note that AGR can greatly improve the training efficiency of vanilla optimizers' including Adan and AdamW, by adding only three lines of code. The final experiments conducted on image generation, image classification, and language representation, demonstrate that the AGR method can not only improve the training efficiency but also enhance the model generalization performance.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# 紙ソース追跡のためのテキスト駆動型ニューラルコラボレーティブフィルタリングモデル

Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing ( http://arxiv.org/abs/2407.17722v2 )

ライセンス: Link先を確認
Aobo Xu, Bingyu Chang, Qingpeng Liu, Ling Jian, (参考訳) 引用知識グラフの複雑な相互関係の中で重要な参照を識別することは困難であり、引用、著者名、キーワード、その他の関係属性を通して接続を包含する。 PST(Paper Source Tracing)タスクは,先進的なデータマイニング技術を利用した学術論文における重要な参照の識別を自動化する。 KDD CUP OAG-Challenge PSTトラックでは、PSTタスクに適したレコメンデーションベースのフレームワークを設計する。 このフレームワークでは、最終的な予測を生成するために、Neural Collaborative Filtering(NCF)モデルを採用している。 論文のテキスト属性を処理し,モデルの入力特徴を抽出するために,事前学習された言語モデルであるSciBERTを利用する。 実験結果によると,本手法は平均精度(MAP)測定値において0.37814のスコアを達成し,ベースラインモデルを上回っ,全参加チームで11位となった。 ソースコードはhttps://github.com/MyLove-XAB/KDDCupFinal.comで公開されている。

Identifying significant references within the complex interrelations of a citation knowledge graph is challenging, which encompasses connections through citations, authorship, keywords, and other relational attributes. The Paper Source Tracing (PST) task seeks to automate the identification of pivotal references for given scholarly articles utilizing advanced data mining techniques. In the KDD CUP OAG-Challenge PST track, we design a recommendation-based framework tailored for the PST task. This framework employs the Neural Collaborative Filtering (NCF) model to generate final predictions. To process the textual attributes of the papers and extract input features for the model, we utilize SciBERT, a pre-trained language model. According to the experimental results, our method achieved a score of 0.37814 on the Mean Average Precision (MAP) metric, outperforming baseline models and ranking 11th among all participating teams. The source code is publicly available at https://github.com/MyLove-XAB/KDDCupFinal.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-20
# CellM:フェデレートラーニングのための大規模言語モデルにおける効率的なコミュニケーション

CELLM: An Efficient Communication in Large Language Models Training for Federated Learning ( http://arxiv.org/abs/2407.20557v2 )

ライセンス: Link先を確認
Raja Vavekanand, Kira Sam, (参考訳) Federated Learning(FL)は、クライアントデバイスがデータを集約することなく、協調的にモデルをトレーニングする、最近のモデルトレーニングパラダイムである。 重要なのは、このスキームは、データを直接通信し集約する従来の機械学習(ML)トレーニングとは対照的に、モデルウェイトに対するアップデートを中央サーバに通信するだけで、潜在的なプライバシとセキュリティ上のメリットを提供する。 しかし、FLトレーニングは、クライアントがローカルデータの分布が異なる可能性があるため、統計的不均一性に悩まされている。 大規模言語モデル(LLM)は、膨大なノイズデータから学習できることが一貫して示されていることから、この不均一性の問題に対する潜在的な解決策を提供する。 LLMは、非I.D.クライアントのフェデレーション設定における一貫した問題を解決するための有望な開発であるが、FLの他の2つのボトルネック、すなわちローカルコンピューティングと高価な通信を悪化させる。 本論文は,FL における LLM の効率的な学習手法の開発を目的とする。 この目的のために、効率的なトレーニングを可能にするために、2つの重要なテクニックを採用している。 まず,ローランク適応(LoRA)を用いて局所モデルトレーニングの計算負荷を削減する。 第2に、コミュニケーションコストを大幅に削減するために、トレーニング全体を通してスパース更新を通信します。 本手法は,バニラロラ上での通信コストを最大10倍に削減し,より複雑な疎いロラベースラインを最大5倍に削減する。 フェデレートLDMトレーニングにおいて,スペーサを慎重に適用し,効果的なランクとスペーサ構成を選択することの重要性を強調した。

Federated Learning (FL) is a recent model training paradigm in which client devices collaboratively train a model without ever aggregating their data. Crucially, this scheme offers users potential privacy and security benefits by only ever communicating updates to the model weights to a central server as opposed to traditional machine learning (ML) training which directly communicates and aggregates data. However, FL training suffers from statistical heterogeneity as clients may have differing local data distributions. Large language models (LLMs) offer a potential solution to this issue of heterogeneity given that they have consistently been shown to be able to learn on vast amounts of noisy data. While LLMs are a promising development for resolving the consistent issue of non-I.I.D. Clients in federated settings exacerbate two other bottlenecks in FL: limited local computing and expensive communication. This thesis aims to develop efficient training methods for LLMs in FL. To this end, we employ two critical techniques in enabling efficient training. First, we use low-rank adaptation (LoRA) to reduce the computational load of local model training. Second, we communicate sparse updates throughout training to significantly cut down on communication costs. Taken together, our method reduces communication costs by up to 10x over vanilla LoRA and up to 5x over more complex sparse LoRA baselines while achieving greater utility. We emphasize the importance of carefully applying sparsity and picking effective rank and sparsity configurations for federated LLM training.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# グラフニューラルネットワークによる個別血流と活動へのフロー誘導型位置決め

Tailoring Graph Neural Network-based Flow-guided Localization to Individual Bloodstreams and Activities ( http://arxiv.org/abs/2408.01239v2 )

ライセンス: Link先を確認
Pablo Galván, Filip Lemic, Gerard Calvo Bartra, Sergi Abadal, Xavier Costa Pérez, (参考訳) 血流中ナノデバイスを用いたフローガイドの局在化は,早期疾患の検出,生物状態の連続モニタリング,標的治療に有用であることが期待される。 ナノデバイスは、ローカライゼーション目的のために誤った生データを生成する、サイズと電力制約を呈する。 オンボディアンカーはこのデータを受信し、興味のある診断イベントの場所を導出する。 さまざまな機械学習(ML)アプローチが最近提案されているが、現在は安静患者の基準血流に制限されている。 そのため、患者の血流の物理的多様性には対処できず、個々の患者の活動の変化による継続的なモニタリングもできない。 グラフニューラルネットワーク(GNN)をベースとした現状のフローガイド型ローカライズ手法であるSotA(State-of-the-Art)に対するこれらの課題に対処するために,身長,体重,心拍数などの個々の生理指標に基づくGNN適応のためのパイプラインを提案する。 以上の結果から,提案した適応は,血流と活動の個人差を和らげる上で有益であることが示唆された。

Flow-guided localization using in-body nanodevices in the bloodstream is expected to be beneficial for early disease detection, continuous monitoring of biological conditions, and targeted treatment. The nanodevices face size and power constraints that produce erroneous raw data for localization purposes. On-body anchors receive this data, and use it to derive the locations of diagnostic events of interest. Different Machine Learning (ML) approaches have been recently proposed for this task, yet they are currently restricted to a reference bloodstream of a resting patient. As such, they are unable to deal with the physical diversity of patients' bloodstreams and cannot provide continuous monitoring due to changes in individual patient's activities. Toward addressing these issues for the current State-of-the-Art (SotA) flow-guided localization approach based on Graph Neural Networks (GNNs), we propose a pipeline for GNN adaptation based on individual physiological indicators including height, weight, and heart rate. Our results indicate that the proposed adaptions are beneficial in reconciling the individual differences between bloodstreams and activities.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# 資源制約型ハードウェアデバイスにおけるソフトウェアとハードウェアの共同設計による効率的なリアルタイムオブジェクト検出フレームワーク

An Efficient Real-Time Object Detection Framework on Resource-Constricted Hardware Devices via Software and Hardware Co-design ( http://arxiv.org/abs/2408.01534v2 )

ライセンス: Link先を確認
Mingshuo Liu, Shiyi Luo, Kevin Han, Bo Yuan, Ronald F. DeMara, Yu Bai, (参考訳) 物体検出技術の急速な発展は、効率的なディープニューラルネットワーク(DNN)の開発に注目を集めている。 しかし、現在の最先端のDNNモデルは、精度、速度、モデルサイズでバランスのとれたソリューションを提供できない。 本稿では,ハードウェアとソフトウェアの共同設計による資源制約のあるハードウェアデバイス上での効率的なリアルタイムオブジェクト検出フレームワークを提案する。 YOLOv5モデルを圧縮するために, テンソルトレイン(TT)分解法を提案する。 TT分解によって得られる特徴を統一することにより,FPGAデバイスに基づく効率的なハードウェアアクセラレータを開発する。 実験の結果,提案手法はモデルサイズを大幅に削減し,実行時間を短縮できることがわかった。

The fast development of object detection techniques has attracted attention to developing efficient Deep Neural Networks (DNNs). However, the current state-of-the-art DNN models can not provide a balanced solution among accuracy, speed, and model size. This paper proposes an efficient real-time object detection framework on resource-constrained hardware devices through hardware and software co-design. The Tensor Train (TT) decomposition is proposed for compressing the YOLOv5 model. By unitizing the unique characteristics given by the TT decomposition, we develop an efficient hardware accelerator based on FPGA devices. Experimental results show that the proposed method can significantly reduce the model size and improve the execution time.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# AvatarPose:スパース・マルチビュー映像からの人間間密接な相互作用のアバターガイドによる3次元評価

AvatarPose: Avatar-guided 3D Pose Estimation of Close Human Interaction from Sparse Multi-view Videos ( http://arxiv.org/abs/2408.02110v2 )

ライセンス: Link先を確認
Feichi Lu, Zijian Dong, Jie Song, Otmar Hilliges, (参考訳) 人間のモーションキャプチャの進歩にもかかわらず、既存のマルチビュー手法は、複数の密接に相互作用する人々の3Dポーズと形状を推定する上で、しばしば課題に直面している。 この困難は、人が密接な相互作用をしているとき、閉塞や身体接触のために入手が困難である正確な2次元関節推定に依存することから生じる。 そこで本研究では,個人ごとのパーソナライズされた暗黙的ニューラルアバターを前者として活用し,この課題に対するポーズ推定作業の堅牢性と精度を大幅に向上させる手法を提案する。 具体的には、アバターはスパースマルチビュービデオからの層状ボリュームレンダリングによって効率的に再構成される。 再構成されたアバターは、色とシルエットのレンダリング損失に基づいて3Dポーズを直接最適化することができ、ノイズの多い2D検出に関連する問題を回避できる。 そこで本研究では,アバターの重なり合う形状領域における衝突損失を計算し,浸透制約を付加する手法を提案する。 さらに、3Dポーズとアバターの両方を交互に最適化する。 実験により、いくつかの公開データセット上での最先端の性能を示す。

Despite progress in human motion capture, existing multi-view methods often face challenges in estimating the 3D pose and shape of multiple closely interacting people. This difficulty arises from reliance on accurate 2D joint estimations, which are hard to obtain due to occlusions and body contact when people are in close interaction. To address this, we propose a novel method leveraging the personalized implicit neural avatar of each individual as a prior, which significantly improves the robustness and precision of this challenging pose estimation task. Concretely, the avatars are efficiently reconstructed via layered volume rendering from sparse multi-view videos. The reconstructed avatar prior allows for the direct optimization of 3D poses based on color and silhouette rendering loss, bypassing the issues associated with noisy 2D detections. To handle interpenetration, we propose a collision loss on the overlapping shape regions of avatars to add penetration constraints. Moreover, both 3D poses and avatars are optimized in an alternating manner. Our experimental results demonstrate state-of-the-art performance on several public datasets.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# 視覚変換器と畳み込みニューラルネットワークのためのヒューマンインスピレーションによる説明

Human-inspired Explanations for Vision Transformers and Convolutional Neural Networks ( http://arxiv.org/abs/2408.02123v2 )

ライセンス: Link先を確認
Mahadev Prasad Panda, Matteo Tiezzi, Martina Vilas, Gemma Roig, Bjoern M. Eskofier, Dario Zanca, (参考訳) 本稿では,Deep Neural Networks のための新しいヒューマンインスパイアされた視覚的説明可能性 (XAI) 手法である Foveation-based Explanations (FovEx) を紹介する。 提案手法は変圧器(5つの指標のうち4つ)と畳み込みモデル(5つの指標のうち3つ)の両方で最先端の性能を達成し,その汎用性を実証する。 さらに,FovExが生成した説明地図と人間の視線パターン(RISEに比べて+14\%,NSSでは+203\%,gradCAMより+203\%)との整合性を示し,FovExの人間と機械間の解釈ギャップを埋める能力に対する信頼感を高めた。

We introduce Foveation-based Explanations (FovEx), a novel human-inspired visual explainability (XAI) method for Deep Neural Networks. Our method achieves state-of-the-art performance on both transformer (on 4 out of 5 metrics) and convolutional models (on 3 out of 5 metrics), demonstrating its versatility. Furthermore, we show the alignment between the explanation map produced by FovEx and human gaze patterns (+14\% in NSS compared to RISE, +203\% in NSS compared to gradCAM), enhancing our confidence in FovEx's ability to close the interpretation gap between humans and machines.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# ロボットの深部生成モデル:マルチモーダルなデモから学ぶ

Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations ( http://arxiv.org/abs/2408.04380v2 )

ライセンス: Link先を確認
Julen Urain, Ajay Mandlekar, Yilun Du, Mahi Shafiullah, Danfei Xu, Katerina Fragkiadaki, Georgia Chalvatzaki, Jan Peters, (参考訳) データからロボットの行動モデルを学ぶための分野であるDemonstrationsからの学習は、深層生成モデルの出現によって人気が高まっている。 この問題は、Imitation Learning, Behavioral Cloning, Inverse Reinforcement Learningといった名前で何年も研究されてきたが、古典的な手法は複雑なデータ分布をうまく捉えていない、あるいは多くのデモにうまくスケールしていないモデルに依存している。 近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。 本調査では,ロボット工学における深部生成モデルの利用における昨年の進歩を総合的かつ包括的に検証することを目的としている。 我々は、エネルギーベースモデル、拡散モデル、アクションバリューマップ、生成的敵ネットワークなど、コミュニティが探求した様々なタイプのモデルを提示する。 また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。 生成モデルの最も重要な要素の1つは分布の一般化である。 本調査では,学習モデルの一般化を改善するために,コミュニティが行ったさまざまな決定についてレビューする。 最後に,研究課題を取り上げ,ロボット工学における深層生成モデル学習の今後の方向性について述べる。

Learning from Demonstrations, the field that proposes to learn robot behavior models from data, is gaining popularity with the emergence of deep generative models. Although the problem has been studied for years under names such as Imitation Learning, Behavioral Cloning, or Inverse Reinforcement Learning, classical methods have relied on models that don't capture complex data distributions well or don't scale well to large numbers of demonstrations. In recent years, the robot learning community has shown increasing interest in using deep generative models to capture the complexity of large datasets. In this survey, we aim to provide a unified and comprehensive review of the last year's progress in the use of deep generative models in robotics. We present the different types of models that the community has explored, such as energy-based models, diffusion models, action value maps, or generative adversarial networks. We also present the different types of applications in which deep generative models have been used, from grasp generation to trajectory generation or cost learning. One of the most important elements of generative models is the generalization out of distributions. In our survey, we review the different decisions the community has made to improve the generalization of the learned models. Finally, we highlight the research challenges and propose a number of future directions for learning deep generative models in robotics.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# LLMは人間に勝てるか? 競争力のある議論のための動的マルチエージェントフレームワーク

Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate ( http://arxiv.org/abs/2408.04472v2 )

ライセンス: Link先を確認
Yiqun Zhang, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song, (参考訳) 競争論は計算論の複雑な課題である。 大規模言語モデル(LLM)はこの分野で幻覚と競争力の欠如に悩まされている。 これらの課題に対処するために,競争上の議論においてその能力を高めるために設計されたLSMをベースとした動的マルチエージェントフレームワークであるAgent4Debate(Agent4Debate)を紹介した。 Agent4Debateは、議論の準備と実行において人間の行動からインスピレーションを得て、検索、アナライザー、ライター、レビューアーを含む4人の専門エージェントが動的に対話し協力するコラボレーションアーキテクチャを採用している。 これらのエージェントは議論プロセス全体を通して働き、最初の研究から議論の定式化から反感と要約まで、様々な段階をカバーする。 フレームワークのパフォーマンスを総合的に評価するために、66の慎重に選択された中国の議論運動からなる競争的議論アリーナを構築した。 我々は、経験豊富な10人の人間討論者を募集し、Agent4Debate、ベースラインモデル、および人間を含む200の議論の記録を収集します。 評価には、Debatrix自動スコアシステムと、確立されたDebatrix-EloとHuman-Eloのランキングに基づく専門家の人間レビュアーが使用されている。 実験の結果、最先端のAgent4Debateは人間の能力に匹敵する能力を示した。 さらに、アブレーション研究は、エージェント構造における各成分の有効性を示す。

Competitive debate is a complex task of computational argumentation. Large Language Models (LLMs) suffer from hallucinations and lack competitiveness in this field. To address these challenges, we introduce Agent for Debate (Agent4Debate), a dynamic multi-agent framework based on LLMs designed to enhance their capabilities in competitive debate. Drawing inspiration from human behavior in debate preparation and execution, Agent4Debate employs a collaborative architecture where four specialized agents, involving Searcher, Analyzer, Writer, and Reviewer, dynamically interact and cooperate. These agents work throughout the debate process, covering multiple stages from initial research and argument formulation to rebuttal and summary. To comprehensively evaluate framework performance, we construct the Competitive Debate Arena, comprising 66 carefully selected Chinese debate motions. We recruit ten experienced human debaters and collect records of 200 debates involving Agent4Debate, baseline models, and humans. The evaluation employs the Debatrix automatic scoring system and professional human reviewers based on the established Debatrix-Elo and Human-Elo ranking. Experimental results indicate that the state-of-the-art Agent4Debate exhibits capabilities comparable to those of humans. Furthermore, ablation studies demonstrate the effectiveness of each component in the agent structure.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# PersonViT: 個人再識別のための大規模自己監督型視覚変換器

PersonViT: Large-scale Self-supervised Vision Transformer for Person Re-Identification ( http://arxiv.org/abs/2408.05398v2 )

ライセンス: Link先を確認
Bin Hu, Xinggang Wang, Wenyu Liu, (参考訳) Person Re-Identification (ReID) は、重複しないカメラ画像中の関連個人を検索することを目的としており、公共の安全分野に幅広い応用がある。 近年、視覚変換器(ViT)と自己教師あり学習技術の開発により、自己教師あり事前学習に基づく人物ReIDの性能が大幅に向上している。 Person ReIDは、人体の高度に識別された局所的な微細な特徴を抽出する必要があるが、従来のViTは、文脈に関連したグローバルな特徴を抽出するのが得意であり、局所的な人体の特徴に焦点を絞ることが困難である。 本稿では,最近登場したMasked Image Modeling (MIM) の自己教師付き学習手法について紹介し,マスク付き画像モデリングと識別的コントラスト学習を組み合わせた大規模教師なし事前学習を通じて,高品質なグローバル・ローカルな特徴を効果的に抽出し,人物ReIDタスクにおける教師付き微調整訓練を行う。 マスク付き画像モデリング(PersonViT)を用いた人物特徴抽出手法は、教師なし、スケーラブルで強力な一般化能力の優れた特徴を有し、教師付き人物ReIDの難しいアノテーションの問題を克服し、MSMT17、Market1501、DukeMTMC-reID、Occluded-Dukeなどの公開ベンチマークデータセットに対して最先端の結果を得る。 PersonViT メソッドのコードと事前訓練されたモデルは \url{https://github.com/hustvl/PersonViT} でリリースされる。

Person Re-Identification (ReID) aims to retrieve relevant individuals in non-overlapping camera images and has a wide range of applications in the field of public safety. In recent years, with the development of Vision Transformer (ViT) and self-supervised learning techniques, the performance of person ReID based on self-supervised pre-training has been greatly improved. Person ReID requires extracting highly discriminative local fine-grained features of the human body, while traditional ViT is good at extracting context-related global features, making it difficult to focus on local human body features. To this end, this article introduces the recently emerged Masked Image Modeling (MIM) self-supervised learning method into person ReID, and effectively extracts high-quality global and local features through large-scale unsupervised pre-training by combining masked image modeling and discriminative contrastive learning, and then conducts supervised fine-tuning training in the person ReID task. This person feature extraction method based on ViT with masked image modeling (PersonViT) has the good characteristics of unsupervised, scalable, and strong generalization capabilities, overcoming the problem of difficult annotation in supervised person ReID, and achieves state-of-the-art results on publicly available benchmark datasets, including MSMT17, Market1501, DukeMTMC-reID, and Occluded-Duke. The code and pre-trained models of the PersonViT method are released at \url{https://github.com/hustvl/PersonViT} to promote further research in the person ReID field.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# Scene123:ビデオアシストと一貫性強化による3Dシーン生成

Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE ( http://arxiv.org/abs/2408.05477v2 )

ライセンス: Link先を確認
Yiying Yang, Fukun Yin, Jiayuan Fan, Xin Chen, Wanzhang Li, Gang Yu, (参考訳) AIGC(Artificial Intelligence Generated Content)の発展に伴い、テキスト、画像、ビデオ、および3Dオブジェクトを単一またはマルチモーダル入力から生成する様々な手法が開発され、ヒューマンライクな認知コンテンツ生成のエミュレートに寄与している。 しかし、1つの入力から現実的な大規模なシーンを生成することは、モデルによって生成された外挿されたビュー間の一貫性を確保するのにまつわる複雑さのため、課題となる。 近年の映像生成モデルと暗黙的ニューラル表現に相応しい3Dシーン生成モデルであるScene123を提案する。これは映像生成フレームワークを通じてリアリズムと多様性を保証するだけでなく、Masked Autoencoders(MAE)と組み合わせて暗黙的ニューラルフィールドを使用して、ビュー全体における見えない領域の一貫性を効果的に確保する。 具体的には、まず入力画像(またはテキストから生成された画像)をワープし、隣接するビューをシミュレートし、MAEモデルで見えない領域を埋める。 しかし,これらの画像は視界の整合性の維持に失敗するため,生成したビューを利用してニューラルラディアンス場を最適化し,幾何的整合性を向上させる。 さらに、生成したビューの細部やテクスチャの忠実度をさらに高めるために、映像生成モデルを通じて入力画像から得られる画像に対して、GANベースのロスを用いる。 大規模な実験により,一つのプロンプトから現実的で一貫したシーンを生成できることが実証された。 定性的かつ定量的な結果は、我々のアプローチが既存の最先端手法を上回ることを示している。 ビデオ例はhttps://yiyingyang12.github.io/Scene123.github.io/で紹介する。

As Artificial Intelligence Generated Content (AIGC) advances, a variety of methods have been developed to generate text, images, videos, and 3D objects from single or multimodal inputs, contributing efforts to emulate human-like cognitive content creation. However, generating realistic large-scale scenes from a single input presents a challenge due to the complexities involved in ensuring consistency across extrapolated views generated by models. Benefiting from recent video generation models and implicit neural representations, we propose Scene123, a 3D scene generation model, that not only ensures realism and diversity through the video generation framework but also uses implicit neural fields combined with Masked Autoencoders (MAE) to effectively ensures the consistency of unseen areas across views. Specifically, we initially warp the input image (or an image generated from text) to simulate adjacent views, filling the invisible areas with the MAE model. However, these filled images usually fail to maintain view consistency, thus we utilize the produced views to optimize a neural radiance field, enhancing geometric consistency. Moreover, to further enhance the details and texture fidelity of generated views, we employ a GAN-based Loss against images derived from the input image through the video generation model. Extensive experiments demonstrate that our method can generate realistic and consistent scenes from a single prompt. Both qualitative and quantitative results indicate that our approach surpasses existing state-of-the-art methods. We show encourage video examples at https://yiyingyang12.github.io/Scene123.github.io/.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# 生体イベント抽出のための構造認識生成モデル

A Structure-aware Generative Model for Biomedical Event Extraction ( http://arxiv.org/abs/2408.06583v4 )

ライセンス: Link先を確認
Haohan Yuan, Siu Cheung Hui, Haopeng Zhang, (参考訳) バイオメディカルイベント抽出(BEE)は、バイオメディカルテキストにおける微細な実体間の複雑な関係をモデル化する難しいタスクである。 BEEは伝統的に分類問題として定式化されてきた。 近年の大規模言語モデル (LLM) の技術進歩により, イベント抽出をシーケンス生成問題として捉えた生成モデルが, NLP研究コミュニティから注目を集めている。 しかしながら、現在の生成モデルは、ネストイベントや重複イベントといった複雑なイベント構造からのクロスインスタンス情報の重要性を見落とし、ベンチマークデータセットにおけるイベントの20%以上に寄与することが多い。 本稿では,生物医学的イベント抽出のためのバイオメディカルテキスト中の複雑なイベント構造をキャプチャするイベント構造認識生成モデルGenBEEを提案する。 特に、GenBEEは、ラベルの意味論と引数依存性の関係の両方をモデルに組み込むため、LLMから知識を抽出するイベントプロンプトを構築している。 さらに、GenBEEは、モデル全体のパフォーマンスを改善する構造的特徴を組み込むために、イベント構造的プロンプトを持つプレフィックスを生成する。 提案したGenBEEモデルについて,MLEE,GE11,PHEEの3つのバイオメディカルイベント抽出ベンチマークを用いて評価を行った。 実験の結果、GenBEEはMLEEおよびGE11データセットで最先端のパフォーマンスを達成し、PHEEデータセットの最先端分類ベースモデルと比較して競争力のある結果を得た。

Biomedical Event Extraction (BEE) is a challenging task that involves modeling complex relationships between fine-grained entities in biomedical text. BEE has traditionally been formulated as a classification problem. With the recent technological advancements in large language models (LLMs), generation-based models that cast event extraction as a sequence generation problem have attracted much attention from the NLP research communities. However, current generative models often overlook the importance of cross-instance information from complex event structures such as nested events and overlapping events, which contribute to over 20% of the events in the benchmark datasets. In this paper, we propose an event structure-aware generative model named GenBEE, which can capture complex event structures in biomedical text for biomedical event extraction. In particular, GenBEE constructs event prompts that distill knowledge from LLMs for incorporating both label semantics and argument dependency relationships into the proposed model. In addition, GenBEE also generates prefixes with event structural prompts to incorporate structural features for improving the model's overall performance. We have evaluated the proposed GenBEE model on three widely used biomedical event extraction benchmark datasets, namely MLEE, GE11, and PHEE. Experimental results show that GenBEE has achieved state-of-the-art performance on the MLEE and GE11 datasets, and achieved competitive results when compared to the state-of-the-art classification-based models on the PHEE dataset.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-20
# 帰納的関係予測のための学習規則に基づく部分グラフ表現

Learning Rule-Induced Subgraph Representations for Inductive Relation Prediction ( http://arxiv.org/abs/2408.07088v2 )

ライセンス: Link先を確認
Tianyu Liu, Qitan Lv, Jie Wang, Shuling Yang, Hanzhu Chen, (参考訳) 帰納的関係予測(IRP) -- トレーニングと推論の間にエンティティが異なる可能性がある -- は、進化する知識グラフを完成させる大きな力を示している。 既存の研究は主に、グラフニューラルネットワーク(GNN)を使用して、ターゲットリンクから誘導されるサブグラフの表現を学ぶことに焦点を当てている。 しかし、これらの手法は、メッセージパッシング中にターゲットリンクやその他のリンクを区別できないため、最終的なサブグラフ表現は、ターゲットリンクに無関係なルール情報を含むことになる。 この問題に対処するため,新しいGNNモデルを提案し,関連するルールを符号化し,サブグラフ内の無関係なルールを除去する。 具体的には,ターゲットリンクに対してのみエッジ機能を初期化するための‘textit{single-source}初期化アプローチを提案し,マイニングされたルールとターゲットリンクの関連性を保証する。 次に, マイニングされたルールの逐次特性をモデル化するために, メッセージパッシングのための RNN ベースの関数をいくつか提案する。 REST はシンプルで効果的なアプローチであり、理論的なサポートによって \textit{rule-induced subgraph representation} を学ぶことができます。 さらに、RESTはノードラベリングを必要としないため、サブグラフ前処理時間を最大でtextbf{11.66$\times$} まで大幅に高速化する。 帰納的関係予測ベンチマークの実験は、RESTの有効性を示しています。 私たちのコードはhttps://github.com/smart-lty/RESTで利用可能です。

Inductive relation prediction (IRP) -- where entities can be different during training and inference -- has shown great power for completing evolving knowledge graphs. Existing works mainly focus on using graph neural networks (GNNs) to learn the representation of the subgraph induced from the target link, which can be seen as an implicit rule-mining process to measure the plausibility of the target link. However, these methods cannot differentiate the target link and other links during message passing, hence the final subgraph representation will contain irrelevant rule information to the target link, which reduces the reasoning performance and severely hinders the applications for real-world scenarios. To tackle this problem, we propose a novel \textit{single-source edge-wise} GNN model to learn the \textbf{R}ule-induc\textbf{E}d \textbf{S}ubgraph represen\textbf{T}ations (\textbf{REST}), which encodes relevant rules and eliminates irrelevant rules within the subgraph. Specifically, we propose a \textit{single-source} initialization approach to initialize edge features only for the target link, which guarantees the relevance of mined rules and target link. Then we propose several RNN-based functions for \textit{edge-wise} message passing to model the sequential property of mined rules. REST is a simple and effective approach with theoretical support to learn the \textit{rule-induced subgraph representation}. Moreover, REST does not need node labeling, which significantly accelerates the subgraph preprocessing time by up to \textbf{11.66$\times$}. Experiments on inductive relation prediction benchmarks demonstrate the effectiveness of our REST. Our code is available at https://github.com/smart-lty/REST.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# 競争的知識伝達を用いた費用最適化のためのサロゲート支援探索

Surrogate-Assisted Search with Competitive Knowledge Transfer for Expensive Optimization ( http://arxiv.org/abs/2408.07176v2 )

ライセンス: Link先を確認
Xiaoming Xue, Yao Hu, Liang Feng, Kai Zhang, Linqi Song, Kay Chen Tan, (参考訳) 重大最適化問題 (EOP) は, 様々な応用に応用されているため, 何十年にもわたって研究の関心が高まりつつある。 このような問題を解決するために開発された多くの高度なサロゲート支援進化アルゴリズム(SAEA)にもかかわらず、これらのアルゴリズムの多くは、これまで解決されたタスクから知識を伝達し、常にゼロから検索を開始する能力に欠けており、悪名高いコールドスタート問題に悩まされている。 トランスファーラーニングをSAEAに統合するいくつかの予備的な研究は、望ましくない知識を過小評価しがちな欠陥類似性の定量化、SAEAにおける最先端技術と整合しないトランスファーメソッドのサロゲート依存性など、いくつかの問題に直面している。 本論文では,様々なSAEAを向上するために,プラグアンドプレイの知識伝達手法を提案する。 具体的には、ソースタスクからの最適化されたソリューションと、ターゲットサロゲートが獲得した有望なソリューションの両方をタスク解決の知識として扱い、両者が競い合うことによって、高価な評価のために勝者を選択することができ、ターゲットタスクの探索速度が向上する。 さらに、知識競争による収束利得の下位境界を数学的に解析し、シーケンシャルトランスファー最適化の理論的基礎を強化することが期待されている。 一連のベンチマーク問題と石油産業の実用化に関する実験研究により,提案手法の有効性が検証された。 競合する知識伝達のソースコードはhttps://github.com/XmingHsueh/SAS-CKTで公開されている。

Expensive optimization problems (EOPs) have attracted increasing research attention over the decades due to their ubiquity in a variety of practical applications. Despite many sophisticated surrogate-assisted evolutionary algorithms (SAEAs) that have been developed for solving such problems, most of them lack the ability to transfer knowledge from previously-solved tasks and always start their search from scratch, making them troubled by the notorious cold-start issue. A few preliminary studies that integrate transfer learning into SAEAs still face some issues, such as defective similarity quantification that is prone to underestimate promising knowledge, surrogate-dependency that makes the transfer methods not coherent with the state-of-the-art in SAEAs, etc. In light of the above, a plug and play competitive knowledge transfer method is proposed to boost various SAEAs in this paper. Specifically, both the optimized solutions from the source tasks and the promising solutions acquired by the target surrogate are treated as task-solving knowledge, enabling them to compete with each other to elect the winner for expensive evaluation, thus boosting the search speed on the target task. Moreover, the lower bound of the convergence gain brought by the knowledge competition is mathematically analyzed, which is expected to strengthen the theoretical foundation of sequential transfer optimization. Experimental studies conducted on a series of benchmark problems and a practical application from the petroleum industry verify the efficacy of the proposed method. The source code of the competitive knowledge transfer is available at https://github.com/XmingHsueh/SAS-CKT.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# マルチリソースレストレスマッチング帯域に対するディープインデックスポリシーとマルチチャネルスケジューリングへの応用

Deep Index Policy for Multi-Resource Restless Matching Bandit and Its Application in Multi-Channel Scheduling ( http://arxiv.org/abs/2408.07205v2 )

ライセンス: Link先を確認
Nida Zamir, I-Hong Hou, (参考訳) マルチチャネル無線通信システムにおけるスケジューリングは、リソースの割り当てを効果的に行う上で非常に困難な課題である。 これらの課題に対処するために、資源制約を尊重しつつ長期割引された全報酬を最大化することを目的とした、異種資源システムのためのマルチリソースレスマッチング帯域(MR-RMB)モデルについて検討する。 また、マルチチャネル無線以外のアプリケーションにも一般化した。 学習した部分指数に基づいて資源割り当てを最適化するMax-Weight Index Matchingアルゴリズムについて検討する。 我々は、索引学習のためのポリシー勾配定理を導出した。 私たちの主な貢献は、MR-RMBに適したオンライン学習アルゴリズムである、新しいDeep Index Policy(DIP)の導入です。 DIPは、不均一資源の複雑で未知の遷移核を持つレスレスアームに対するポリシー勾配定理を利用して部分指数を学習する。 3つのMR-RMB問題に対してDIPの有効性を評価する。 シミュレーションの結果,DIPが効率よく部分指数を学習できることが示唆された。

Scheduling in multi-channel wireless communication system presents formidable challenges in effectively allocating resources. To address these challenges, we investigate a multi-resource restless matching bandit (MR-RMB) model for heterogeneous resource systems with an objective of maximizing long-term discounted total rewards while respecting resource constraints. We have also generalized to applications beyond multi-channel wireless. We discuss the Max-Weight Index Matching algorithm, which optimizes resource allocation based on learned partial indexes. We have derived the policy gradient theorem for index learning. Our main contribution is the introduction of a new Deep Index Policy (DIP), an online learning algorithm tailored for MR-RMB. DIP learns the partial index by leveraging the policy gradient theorem for restless arms with convoluted and unknown transition kernels of heterogeneous resources. We demonstrate the utility of DIP by evaluating its performance for three different MR-RMB problems. Our simulation results show that DIP indeed learns the partial indexes efficiently.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# 模範的文脈を作るための大言語モデル

Large Language Models Know What Makes Exemplary Contexts ( http://arxiv.org/abs/2408.07505v2 )

ライセンス: Link先を確認
Quanyu Long, Jianda Chen, Wenya Wang, Sinno Jialin Pan, (参考訳) In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。 数発の実証例を使ってLLMを指示することにより、ICLは数百万のパラメータを更新することなく、幅広いタスクを実行できる。 本稿では,LLMを統合的に構築するフレームワークについて述べる。このフレームワークでは,文脈の異なる実演構成の自己選び方,実演選択の自己選び方,強化学習による順序付けを自己選び方で行うことができる。 具体的には,LLMの好みに基づいて,学習後に最適化された実演を生成するパラメータ効率の高い検索ヘッドを設計する。 ICL性能向上における提案手法の有効性を実験的に検証した。 さらに,本手法では,現在のタスクの最も代表的な例を効果的に識別し,選択し,検索の多様性を向上する。

In-context learning (ICL) has proven to be a significant capability with the advancement of Large Language models (LLMs). By instructing LLMs using few-shot demonstrative examples, ICL enables them to perform a wide range of tasks without needing to update millions of parameters. This paper presents a unified framework for LLMs that allows them to self-select influential in-context examples to compose their contexts; self-rank candidates with different demonstration compositions; self-optimize the demonstration selection and ordering through reinforcement learning. Specifically, our method designs a parameter-efficient retrieval head that generates the optimized demonstration after training with rewards from LLM's own preference. Experimental results validate the proposed method's effectiveness in enhancing ICL performance. Additionally, our approach effectively identifies and selects the most representative examples for the current task, and includes more diversity in retrieval.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# VHR SARの光画像変換のための条件付きブラウン橋拡散モデル

Conditional Brownian Bridge Diffusion Model for VHR SAR to Optical Image Translation ( http://arxiv.org/abs/2408.07947v2 )

ライセンス: Link先を確認
Seon-Hoon Kim, Dae-won Chung, (参考訳) 合成開口レーダ(SAR)イメージング技術は、気象条件や時間に関係なくデータを収集できるというユニークな利点を提供する。 しかし、SAR画像は複雑な後方散乱パターンとスペックルノイズを示し、解釈の専門知識を必要とする。 SAR画像の光学的表現への変換に関する研究は,SARデータの解釈を支援するために行われている。 それにもかかわらず、既存の研究は、主に低解像度の衛星画像データセットを利用しており、そのトレーニング不安定性と低忠実さで知られているGAN(Generative Adversarial Network)に基づいている。 このような低解像度データ利用の限界とGANに基づくアプローチを克服するために,Brownian Bridge Diffusion Model (BBDM) に基づく条件付き画像-画像変換手法を提案する。 我々は、MSAWデータセット、ペアSAR、0.5m Very-High-Resolution (VHR) の光学画像収集に関する総合的な実験を行った。 実験結果から,本手法は条件拡散モデル (CDM) とGANベースモデルの両方を,多様な知覚的品質指標で上回ることがわかった。

Synthetic Aperture Radar (SAR) imaging technology provides the unique advantage of being able to collect data regardless of weather conditions and time. However, SAR images exhibit complex backscatter patterns and speckle noise, which necessitate expertise for interpretation. Research on translating SAR images into optical-like representations has been conducted to aid the interpretation of SAR data. Nevertheless, existing studies have predominantly utilized low-resolution satellite imagery datasets and have largely been based on Generative Adversarial Network (GAN) which are known for their training instability and low fidelity. To overcome these limitations of low-resolution data usage and GAN-based approaches, this paper introduces a conditional image-to-image translation approach based on Brownian Bridge Diffusion Model (BBDM). We conducted comprehensive experiments on the MSAW dataset, a paired SAR and optical images collection of 0.5m Very-High-Resolution (VHR). The experimental results indicate that our method surpasses both the Conditional Diffusion Models (CDMs) and the GAN-based models in diverse perceptual quality metrics.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# Snuffy: 効率的な全スライド画像分類器

Snuffy: Efficient Whole Slide Image Classifier ( http://arxiv.org/abs/2408.08258v2 )

ライセンス: Link先を確認
Hossein Jafarinia, Alireza Alipanah, Danial Hamdi, Saeed Razavi, Nahal Mirzaie, Mohammad Hossein Rohban, (参考訳) デジタル病理学におけるMIL(Multiple Case Learning)を用いたWSI(Whole Slide Image)分類は、重要な計算課題に直面している。 現在の手法は主に、長い訓練期間と相当な計算資源を必要とする満足なパフォーマンスのために、広範な自己教師付き学習(SSL)に依存している。 同時に、事前トレーニングは、自然画像からWSIへのドメインシフトによるパフォーマンスに影響を与えない。 Snuffy アーキテクチャはスパース変圧器をベースとした新しい MIL プール方式で,性能損失を限定的な事前訓練で軽減し,競争力のある選択肢として数発の事前訓練を可能にする。 我々の空間パターンは病理学に特化しており、理論上はスパース変圧器の層数に最も密接な確率的シャープを持つ普遍近似器であることが証明されている。 Snuffy が CAMELYON16 および TCGA Lung 癌データセットに対して有効であることを示す。 コードはhttps://github.com/jafarinia/snuffy.comで入手できる。

Whole Slide Image (WSI) classification with multiple instance learning (MIL) in digital pathology faces significant computational challenges. Current methods mostly rely on extensive self-supervised learning (SSL) for satisfactory performance, requiring long training periods and considerable computational resources. At the same time, no pre-training affects performance due to domain shifts from natural images to WSIs. We introduce Snuffy architecture, a novel MIL-pooling method based on sparse transformers that mitigates performance loss with limited pre-training and enables continual few-shot pre-training as a competitive option. Our sparsity pattern is tailored for pathology and is theoretically proven to be a universal approximator with the tightest probabilistic sharp bound on the number of layers for sparse transformers, to date. We demonstrate Snuffy's effectiveness on CAMELYON16 and TCGA Lung cancer datasets, achieving superior WSI and patch-level accuracies. The code is available on https://github.com/jafarinia/snuffy.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# 個別光アドレッシングと非破壊読出しを備えた普遍中原子量子コンピュータ

A universal neutral-atom quantum computer with individual optical addressing and non-destructive readout ( http://arxiv.org/abs/2408.08288v2 )

ライセンス: Link先を確認
A. G. Radnaev, W. C. Chung, D. C. Cole, D. Mason, T. G. Ballance, M. J. Bedalov, D. A. Belknap, M. R. Berman, M. Blakely, I. L. Bloomfield, P. D. Buttler, C. Campbell, A. Chopinaud, E. Copenhaver, M. K. Dawes, S. Y. Eubanks, A. J. Friss, D. M. Garcia, J. Gilbert, M. Gillette, P. Goiporia, P. Gokhale, J. Goldwin, D. Goodwin, T. M. Graham, CJ Guttormsson, G. T. Hickman, L. Hurtley, M. Iliev, E. B. Jones, R. A. Jones, K. W. Kuper, T. B. Lewis, M. T. Lichtman, F. Majdeteimouri, J. J. Mason, J. K. McMaster, J. A. Miles, P. T. Mitchell, J. D. Murphree, N. A. Neff-Mallon, T. Oh, V. Omole, C. Parlo Simon, N. Pederson, M. A. Perlin, A. Reiter, R. Rines, P. Romlow, A. M. Scott, D. Stiefvater, J. R. Tanner, A. K. Tucker, I. V. Vinogradov, M. L. Warter, M. Yeo, M. Saffman, T. W. Noel, (参考訳) 量子コンピュータは、変換処理能力[1-4]の約束を果たすために、大規模でフォールトトレラントな演算をしなければならない。 これは数千から数百万の高忠実度量子ゲートと類似の量子ビット [5] を必要とする。 レーザーによって捕捉・操作された中性原子量子ビットを用いた実証実験により、このモード性は高い2量子ゲート(CZ)フィラリティとスケーラブルな操作 [6-10] を提供できることが示された。 しかし、これらのデモのゲートは、個々の量子ビットを解決しないレーザーによって駆動され、量子ビットの物理的中間回路シャットリングによって普遍的な計算が可能である。 この比較的遅い操作は、有用な大規模計算のためにランタイムを大幅に拡張する。 ここでは、単一原子の配列に集束したレーザービームを個別に処理することで、シャットリングではなく光スイッチング時間によってゲートレートが制限される普遍的な中性原子量子コンピュータを実証する。 我々は、99.35(4)%のCZ忠実度と、99.902(8)%の局所的な単一量子ビットRZゲート忠実度を達成する。 さらに, アルカリ原子量子ビットの非破壊的読み出しを低損失で行い, 運転速度を向上することを示した。 この手法により、原子ロス現象を除外した99.73(3)%のCZ忠実度を測定でき、これは長生きした中性原子量子ビット間の記録であり、より高い忠実度と誤り訂正への道のりを強調することができる。 この結果は,大規模でフォールトトレラントな中性原子量子コンピュータへの重要な一歩であり,実際の時間スケールで計算を実行できることを示す。

Quantum computers must achieve large-scale, fault-tolerant operation to deliver on their promise of transformational processing power [1-4]. This will require thousands or millions of high-fidelity quantum gates and similar numbers of qubits [5]. Demonstrations using neutral-atom qubits trapped and manipulated by lasers have shown that this modality can provide high two-qubit gate (CZ) fidelities and scalable operation [6-10]. However, the gates in these demonstrations are driven by lasers that do not resolve individual qubits, with universal computation enabled by physical mid-circuit shuttling of the qubits. This relatively slow operation will greatly extend runtimes for useful, large-scale computation. Here we demonstrate a universal neutral-atom quantum computer with gate rates limited by optical switching times, rather than shuttling, by individually addressing tightly focused laser beams at an array of single atoms. We achieve CZ fidelity of 99.35(4)% and local single qubit RZ gate fidelity of 99.902(8)%. Moreover, we demonstrate non-destructive readout of alkali-atom qubits with sub-percent loss, which boosts operational speed. This technique also enables us to measure 99.73(3)% CZ fidelity with atom-loss events excluded, which is a record among long lived neutral-atom qubits and highlights the path to higher fidelity and error correction. Our results represent a critical step towards large-scale, fault-tolerant neutral-atom quantum computers that can execute computations on practical timescales.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# 遺伝モデルネットワークにおける漁師の並列アンラーニング

Fishers Harvest Parallel Unlearning in Inherited Model Networks ( http://arxiv.org/abs/2408.08493v2 )

ライセンス: Link先を確認
Xiao Liu, Mingyuan Li, Xu Wang, Guangsheng Yu, Wei Ni, Lixiang Li, Haipeng Peng, Renping Liu, (参考訳) さまざまな学習フレームワークにおけるアンラーニングは、複雑な継承関係を示すモデルの継続的成長と更新によって、依然として困難である。 本稿では、継承を示すモデル間で完全に並列なアンラーニングを可能にする、新しいアンラーニングフレームワークを提案する。 主要なイネーブルは、新しいUMIG(Unified Model Inheritance Graph)で、DAG(Directed Acyclic Graph)を使用して継承をキャプチャする。 このアルゴリズムは、初期未学習モデルから遺伝モデルにおける衝突パラメータのピンポイントまで、FIM(Fiher Information Matrix)を利用する。 FIMを用いることで、FIUnメソッドはモデル間のシーケンシャルな依存関係を壊し、同時学習の容易化と計算オーバーヘッドの低減を実現している。 さらに、異なるFIMを単一のマトリックスにマージし、継承されたモデル間で更新を同期するように設計する。 実験は、我々の未学習フレームワークの有効性を確認します。 シングルクラスのタスクでは、未学習ラベルに対する0\%の精度で完全な未学習を実現し、保持ラベルに対する94.53\%の精度を平均で維持する。 マルチクラスタスクでは、未学習ラベルでは1.07\%、保持ラベルでは84.77\%である。 我々のフレームワークは、代替手法と比較して、学習を99 %加速します。

Unlearning in various learning frameworks remains challenging, with the continuous growth and updates of models exhibiting complex inheritance relationships. This paper presents a novel unlearning framework, which enables fully parallel unlearning among models exhibiting inheritance. A key enabler is the new Unified Model Inheritance Graph (UMIG), which captures the inheritance using a Directed Acyclic Graph (DAG).Central to our framework is the new Fisher Inheritance Unlearning (FIUn) algorithm, which utilizes the Fisher Information Matrix (FIM) from initial unlearning models to pinpoint impacted parameters in inherited models. By employing FIM, the FIUn method breaks the sequential dependencies among the models, facilitating simultaneous unlearning and reducing computational overhead. We further design to merge disparate FIMs into a single matrix, synchronizing updates across inherited models. Experiments confirm the effectiveness of our unlearning framework. For single-class tasks, it achieves complete unlearning with 0\% accuracy for unlearned labels while maintaining 94.53\% accuracy for retained labels on average. For multi-class tasks, the accuracy is 1.07\% for unlearned labels and 84.77\% for retained labels on average. Our framework accelerates unlearning by 99\% compared to alternative methods.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# 大型の言語モデルは、あなたが言っていることを気にしていないかもしれない: Prompt Formatが説明を破る

Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions ( http://arxiv.org/abs/2408.08780v2 )

ライセンス: Link先を確認
Chenming Tang, Zhixiang Wang, Yunfang Wu, (参考訳) In-context Learning (ICL) の助けを借りて、大規模言語モデル (LLM) は様々なタスクで優れたパフォーマンスを実現している。 しかし、ICLにおける記述的命令の機能はいまだ解明されていない。 本研究では,複数のテキスト中のサンプルの選択基準を記述するためのアンサンブルプロンプトフレームワークを提案する。 しかし驚いたことに、LLMは必ずしも記述が実際に何を言っているかを気にせず、パフォーマンスの向上は主にアンサンブルフォーマットによって引き起こされる。 さらに、この新たなアンサンブルプロンプトを、3つの LLM を用いたコモンセンス、数学、論理的推論、幻覚タスクに適用し、有望な結果を得る。 この論文が公開されたら、私たちのコードは公開されます。

With the help of in-context learning (ICL), large language models (LLMs) have achieved impressive performance across various tasks. However, the function of descriptive instructions during ICL remains under-explored. In this work, we propose an ensemble prompt framework to describe the selection criteria of multiple in-context examples, and preliminary experiments on machine translation (MT) across six translation directions confirm that this framework boosts ICL perfromance. But to our surprise, LLMs might not necessarily care what the descriptions actually say, and the performance gain is primarily caused by the ensemble format, since the framework could lead to improvement even with random descriptive nouns. We further apply this new ensemble prompt on a range of commonsense, math, logical reasoning and hallucination tasks with three LLMs and achieve promising results, suggesting again that designing a proper prompt format would be much more effective and efficient than paying effort into specific descriptions. Our code will be publicly available once this paper is published.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# PriorMapNet: オンラインベクタライズされたHDマップ構築をプリミティブで強化

PriorMapNet: Enhancing Online Vectorized HD Map Construction with Priors ( http://arxiv.org/abs/2408.08802v2 )

ライセンス: Link先を確認
Rongxuan Wang, Xin Lu, Xiaoyang Liu, Xiaoyi Zou, Tongyi Cao, Ying Li, (参考訳) オンラインベクトル化ハイディフィニション(HD)マップの構築は、自動運転におけるその後の予測と計画作業に不可欠である。 MapTRのパラダイムに従って、最近の研究は注目すべき成果を上げている。 しかし、参照ポイントは主流の手法でランダムに初期化され、予測と基底真理の不安定な一致につながる。 この問題に対処するため,オンラインベクター化HDマップ構築を事前で強化するために,PresideMapNetを導入する。 位置と構造を持つ参照ポイントを提供するPS-Decoderを提案する。 データセットのマップ要素から設定された事前参照ポイントは、学習困難を減らし、安定したマッチングを実現する。 さらに,BEV特徴量による画像からBEVへの変換を向上するPF-Encoderを提案する。 さらに,マルチスケールおよびマルチサンプルに沿って,それぞれクロスアテンションを分離して効率を向上するMDDクロスアテンションを提案する。 提案したPreferMapNetは,nuScenesおよびArgoverse2データセット上でのオンラインベクトル化HDマップ構築タスクにおいて,最先端のパフォーマンスを実現する。 コードはまもなく公開される予定だ。

Online vectorized High-Definition (HD) map construction is crucial for subsequent prediction and planning tasks in autonomous driving. Following MapTR paradigm, recent works have made noteworthy achievements. However, reference points are randomly initialized in mainstream methods, leading to unstable matching between predictions and ground truth. To address this issue, we introduce PriorMapNet to enhance online vectorized HD map construction with priors. We propose the PPS-Decoder, which provides reference points with position and structure priors. Fitted from the map elements in the dataset, prior reference points lower the learning difficulty and achieve stable matching. Furthermore, we propose the PF-Encoder to enhance the image-to-BEV transformation with BEV feature priors. Besides, we propose the DMD cross-attention, which decouples cross-attention along multi-scale and multi-sample respectively to achieve efficiency. Our proposed PriorMapNet achieves state-of-the-art performance in the online vectorized HD map construction task on nuScenes and Argoverse2 datasets. The code will be released publicly soon.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# LLM-as-a-judgeのためのドメイン特化評価セットの構築

Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge ( http://arxiv.org/abs/2408.08808v3 )

ライセンス: Link先を確認
Ravi Raju, Swayambhoo Jain, Bo Li, Jonathan Li, Urmish Thakker, (参考訳) 大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。 ベンチマークの有用性は、様々な能力(分離性)のモデルを明確に区別し、人間の好みと密接に一致させることによって決定される。 Alpaca-Eval 2.0 LC \cite{dubois2024length controlledalpacaevalsimpleway} や Arena-Hard v0.1 \cite{li2024crowdsourced} のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。 本稿では,LLM-as-a-Judgeフレームワークに適した多種多様なドメイン固有の評価セットをキュレートする新しいデータパイプラインを導入することで,これらの制約に対処する。 提案手法では,手動キュレーション,半教師付き学習,クラスタ生成,階層化サンプリングを組み合わせることで,幅広いドメインや言語にまたがるバランスの取れた表現を確保する。 その結果、14のカテゴリにまたがる1573のサンプルを含む評価セットは、10の上位モデルに対して高い分離性 (84 %) を示し、Chatbot Arena と (0.915) スピアマン相関との一致 (84 %) を示す。 合意値は、AlpacaEval 2.0 LCより9倍、AlpacaEval 2.0 LCより20倍、Spearman係数は次のベストベンチマークより0.7倍、ベンチマークの有用性が大幅に向上したことを示している。 さらに、ユーザ定義カテゴリ間のモデルパフォーマンスのきめ細かい分析を可能にするオープンソースの評価ツールを提供し、実践者にとって貴重な洞察を提供する。 本研究は, LLM評価手法の透明性, 多様性, 有効性の向上に寄与する。

Large Language Models (LLMs) have revolutionized the landscape of machine learning, yet current benchmarks often fall short in capturing the diverse behavior of these models in real-world applications. A benchmark's usefulness is determined by its ability to clearly differentiate between models of varying capabilities (separability) and closely align with human preferences. Existing frameworks like Alpaca-Eval 2.0 LC \cite{dubois2024lengthcontrolledalpacaevalsimpleway} and Arena-Hard v0.1 \cite{li2024crowdsourced} are limited by their focus on general-purpose queries and lack of diversity across domains such as law, medicine, and multilingual contexts. In this paper, we address these limitations by introducing a novel data pipeline that curates diverse, domain-specific evaluation sets tailored for LLM-as-a-Judge frameworks. Our approach leverages a combination of manual curation, semi-supervised learning to generate clusters, and stratified sampling to ensure balanced representation across a wide range of domains and languages. The resulting evaluation set, which includes 1573 samples across 14 categories, demonstrates high separability (84\%) across ten top-ranked models, and agreement (84\%) with Chatbot Arena and (0.915) Spearman correlation. The agreement values are 9\% better than Arena Hard and 20\% better than AlpacaEval 2.0 LC, while the Spearman coefficient is 0.7 more than the next best benchmark, showcasing a significant improvement in the usefulness of the benchmark. We further provide an open-source evaluation tool that enables fine-grained analysis of model performance across user-defined categories, offering valuable insights for practitioners. This work contributes to the ongoing effort to enhance the transparency, diversity, and effectiveness of LLM evaluation methodologies.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-20
# オンラインSLA分解 - 進化するシステムへのリアルタイム適応の実現

Online SLA Decomposition: Enabling Real-Time Adaptation to Evolving Systems ( http://arxiv.org/abs/2408.08968v2 )

ライセンス: Link先を確認
Cyril Shih-Huan Hsu, Danny De Vleeschauwer, Chrysa Papagianni, (参考訳) ネットワークスライスが複数のドメインにまたがる場合、各ドメインはスライスに関連するエンド・ツー・エンド(E2E)サービス・レベル・アグリーメント(SLA)を守らなければならない。 これにより、E2E SLAを各ドメインの部分SLAに分解する必要があります。 E2Eオーケストレータとローカルコントローラを備えた2段階ネットワークスライシング管理システムにおいて,近年のフィードバックを用いてリスクモデルを動的に更新するオンライン学習分解フレームワークを提案する。 このアプローチは、安定性と堅牢性を高めるために、オンライン勾配降下とFIFOメモリバッファを利用する。 実験により,提案手法は現状の静的手法より優れており,様々な条件下でのSLA分解やスパースデータをより正確かつ弾力的に実現していることがわかった。

When a network slice spans multiple domains, each domain must uphold the End-to-End (E2E) Service Level Agreement (SLA) associated with the slice. This requires decomposing the E2E SLA into partial SLAs for each domain. In a two-level network slicing management system with an E2E orchestrator and local controllers, we propose an online learning-decomposition framework that dynamically updates risk models using recent feedback. This approach utilizes online gradient descent and FIFO memory buffers to enhance stability and robustness. Our empirical study shows the proposed framework outperforms state-of-the-art static methods, offering more accurate and resilient SLA decomposition under varying conditions and sparse data.
翻訳日:2024-08-21 18:39:28 公開日:2024-08-20
# 暗黒におけるガウス的:ガウス的スプレイティングを用いた一貫性のない暗黒画像からのリアルタイムビュー合成

Gaussian in the Dark: Real-Time View Synthesis From Inconsistent Dark Images Using Gaussian Splatting ( http://arxiv.org/abs/2408.09130v2 )

ライセンス: Link先を確認
Sheng Ye, Zhen-Hui Dong, Yubin Hu, Yu-Hui Wen, Yong-Jin Liu, (参考訳) 3D Gaussian Splattingは、一貫したマルチビューイメージを入力として、驚くべき新しいビューを合成できる強力な表現として最近登場した。 しかし, シーンが完全に照らされていない暗い環境下で撮影された画像は, 明るさの変動や多視点不整合が顕著であり, 3次元ガウス散乱において大きな課題となり, 性能を著しく低下させる。 この問題に対処するため,ガウスDKを提案する。 不整合は主にカメラ画像によって引き起こされるので、異方性3Dガウスの集合を用いて物理世界の一貫した放射界を表現し、多視点不整合を補うためのカメラ応答モジュールを設計する。 また、カメラ近傍のガウス人を拘束するために、ステップベースの勾配スケーリング戦略を導入する。 提案したベンチマークデータセットを用いて,ゴーストやフローターのアーティファクトを使わずに高品質なレンダリングを実現し,既存の手法を著しく上回ることを示す。 さらに,影領域の詳細を明瞭に示す露光レベルを制御することで,照明画像の合成も可能である。

3D Gaussian Splatting has recently emerged as a powerful representation that can synthesize remarkable novel views using consistent multi-view images as input. However, we notice that images captured in dark environments where the scenes are not fully illuminated can exhibit considerable brightness variations and multi-view inconsistency, which poses great challenges to 3D Gaussian Splatting and severely degrades its performance. To tackle this problem, we propose Gaussian-DK. Observing that inconsistencies are mainly caused by camera imaging, we represent a consistent radiance field of the physical world using a set of anisotropic 3D Gaussians, and design a camera response module to compensate for multi-view inconsistencies. We also introduce a step-based gradient scaling strategy to constrain Gaussians near the camera, which turn out to be floaters, from splitting and cloning. Experiments on our proposed benchmark dataset demonstrate that Gaussian-DK produces high-quality renderings without ghosting and floater artifacts and significantly outperforms existing methods. Furthermore, we can also synthesize light-up images by controlling exposure levels that clearly show details in shadow areas.
翻訳日:2024-08-21 18:39:28 公開日:2024-08-20
# Unc-TTP: 文脈内事例選択を改善するLLM不確かさの分類方法

Unc-TTP: A Method for Classifying LLM Uncertainty to Improve In-Context Example Selection ( http://arxiv.org/abs/2408.09172v2 )

ライセンス: Link先を確認
Hsiu-Yuan Huang, Zichen Wu, Yutong Yang, Junzhao Zhang, Yunfang Wu, (参考訳) 現在、Large Language Models (LLMs) は様々な下流タスクで例外的なパフォーマンスを示している。 しかし、ユーザの期待に応えるために、応答が確実に生成されるか、あるいは作られているかを知ることは困難である。 LLMの不確実性を推定することは、その大規模化とホワイトボックスアクセスの欠如により特に困難である。 本研究では,ラベル干渉をサンプリングベースアプローチに組み込む際のLCM出力の整合性を評価することによって,LCMの不確かさを分類する新しいUncertainty Tripartite Testing Paradigm(Unc-TTP)を提案する。 Unc-TTP出力に基づいて、インスタンスを特定のカテゴリと不確実なカテゴリに集約する。 さらに,LLMの不確かさの詳細な解析を行い,既存のサンプリング法よりもUnc-TTPの方が優れていることを示す。 さらに、得られた不確実性情報を利用して、文脈内サンプル選択を誘導し、Unc-TTPが明らかに検索ベースおよびサンプリングベースアプローチより優れていることを示す。 本研究は,オープンソース LLM とクローズドソース LLM の両方の不確かさを分類する新たな手法を提案し,この不確実性を利用して LLM の性能を向上させるための実践的アプローチを提案する。

Nowadays, Large Language Models (LLMs) have demonstrated exceptional performance across various downstream tasks. However, it is challenging for users to discern whether the responses are generated with certainty or are fabricated to meet user expectations. Estimating the uncertainty of LLMs is particularly challenging due to their vast scale and the lack of white-box access. In this work, we propose a novel Uncertainty Tripartite Testing Paradigm (Unc-TTP) to classify LLM uncertainty, via evaluating the consistency of LLM outputs when incorporating label interference into the sampling-based approach. Based on Unc-TTP outputs, we aggregate instances into certain and uncertain categories. Further, we conduct a detailed analysis of the uncertainty properties of LLMs and show Unc-TTP's superiority over the existing sampling-based methods. In addition, we leverage the obtained uncertainty information to guide in-context example selection, demonstrating that Unc-TTP obviously outperforms retrieval-based and sampling-based approaches in selecting more informative examples. Our work paves a new way to classify the uncertainty of both open- and closed-source LLMs, and introduces a practical approach to exploit this uncertainty to improve LLMs performance.
翻訳日:2024-08-21 18:39:28 公開日:2024-08-20
# 3次元ボリューム患者の画像翻訳のための高速で計算上不便な方法

A Fast and Computationally Inexpensive Method For Image Translation of 3D Volume Patient Data ( http://arxiv.org/abs/2408.09218v2 )

ライセンス: Link先を確認
Cho Yang, (参考訳) 今回提案したSynthRAD Grand Challenge Datasetでは,CycleGAN-single (CycleGAN-single) と呼ばれるシングルエポック修正(SEM)法を用いて,約200エポック(CycleGAN-multi)でのCycleGAN訓練法と比較した。 モデル性能は,PSNR,SSIM,MAE,MSEなどの定量的性能指標を用いて質的,定量的に評価した。 本論文では, モデル評価における定量的および定性的性能の両面について, 医用画像などの画像翻訳作業に特有な考察を述べる。 また,良質な量的性能は必ずしも良質な量的性能を示唆するものではなく,逆は常に真であるとは限らない(つまり,良質な量的性能は必ずしも良質な量的性能を示唆するものではない)。 本稿では,FQGA(Fast Paired Image-to- Image Translation Quarter-Generator Adversary)モデルを提案する。 FQGAは、20エポックのトレーニング後にのみ、CycleGANを質的に、定量的に上回る。 最後に、FQGA上でSEM法を用いることで、CycleGANを定量的にも質的にも再び上回ることができる。 本論文で論じる医療画像翻訳タスクとは別として, モデルパラメータの削減とエポックの削減による時間節約が, 機械学習における他の画像・画像翻訳タスクにも応用できる可能性がある。

CycleGAN was trained on SynthRAD Grand Challenge Dataset using the single-epoch modification (SEM) method proposed in this paper which is referred to as (CycleGAN-single) compared to the usual method of training CycleGAN on around 200 epochs (CycleGAN-multi). Model performance were evaluated qualitatively and quantitatively with quantitative performance metrics like PSNR, SSIM, MAE and MSE. The consideration of both quantitative and qualitative performance when evaluating a model is unique to certain image-translation tasks like medical imaging as detailed in this paper. Also, this paper shows that good quantitative performance does not always imply good qualitative performance and the converse is also not always True (i.e. good qualitative performance does not always imply good quantitative performance). This paper also proposes FQGA (Fast Paired Image-to-Image Translation Quarter-Generator Adversary) Model which has 1/4 the number of parameters compared to CycleGAN (when comparing their Generator Models). FQGA outperforms CycleGAN qualitatively and quantitatively even only after training on 20 epochs. Finally, using SEM method on FQGA allowed it to again outperform CycleGAN both quantitatively and qualitatively. These performance gains with fewer model parameters and time savings from running fewer epochs may also be applicable to other image-to-image translation tasks in Machine Learning apart from the Medical image-translation task discussed in this paper between Cone Beam Computed Tomography (CBCT) and Computed Tomography (CT) images.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# 基準誘導検証:自由形テキストの自動評価におけるLCMs-as-Judges

Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text ( http://arxiv.org/abs/2408.09235v2 )

ライセンス: Link先を確認
Sher Badshah, Hassan Sajjad, (参考訳) 人間のような会話を生成できるチャットアシスタントとしてのLarge Language Models(LLMs)の出現は、特にオープンなタスクにおいて、堅牢な評価方法の必要性を増幅した。 BLEUやROUGEのような従来のメトリクスは有用ではあるが、このような生成出力の微妙な意味や文脈的な豊かさを捉えるには不適切である。 本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。 3つのオープンエンド質問回答タスクの実験を通して、複数のLCM-as-judgeを組み合わせることで、特に1つのモデルが苦労する複雑なタスクにおいて、評価の信頼性と精度が著しく向上することを示した。 我々の手法は従来の指標や人間の判断に代えて有効かつ効果的な方法として確立されており、特にLLMベースのチャットアシスタントでは、応答の複雑さと多様性が既存のベンチマークに挑戦する。

The emergence of Large Language Models (LLMs) as chat assistants capable of generating human-like conversations has amplified the need for robust evaluation methods, particularly for open-ended tasks. Conventional metrics like BLEU and ROUGE, while useful, are increasingly inadequate for capturing the subtle semantics and contextual richness of such generative outputs. We propose a reference-guided verdict method that automates the evaluation process by leveraging multiple LLMs-as-judges. Through experiments on three open-ended question-answering tasks, we demonstrate that combining multiple LLMs-as-judges significantly improves the reliability and accuracy of evaluations, particularly in complex tasks where a single model might struggle. Our findings reveal a strong correlation with human evaluations, establishing our method as a viable and effective alternative to traditional metrics and human judgments, particularly in the context of LLM-based chat assistants where the complexity and diversity of responses challenge existing benchmarks.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# ハイブリッドセマンティック検索:キーワード以外のユーザーインテントを公開

Hybrid Semantic Search: Unveiling User Intent Beyond Keywords ( http://arxiv.org/abs/2408.09236v2 )

ライセンス: Link先を確認
Aman Ahluwalia, Bishwajit Sutradhar, Karishma Ghosh, Indrapal Yadav, Arpan Sheetal, Prashant Patil, (参考訳) 本稿では,ユーザ意図を理解する上で,従来のキーワードベース検索の限界に対処し,非意味的検索エンジン,LLM(Large Language Models),埋め込みモデルなどの長所を生かした,新しいハイブリッド検索手法を提案する。 提案システムは,キーワードマッチング,意味的ベクトル埋め込み,LLM生成した構造化クエリを統合し,関連性が高く,文脈的に適切な検索結果を提供する。 本稿では,これらの補完手法を組み合わせることで,明示的かつ暗黙的なユーザ意図を効果的に捉え,より高速な応答時間にクエリ実行を最適化する手法について検討し,包括的かつ正確な検索結果を生成する上で,このハイブリッド検索モデルの有効性を実証する。

This paper addresses the limitations of traditional keyword-based search in understanding user intent and introduces a novel hybrid search approach that leverages the strengths of non-semantic search engines, Large Language Models (LLMs), and embedding models. The proposed system integrates keyword matching, semantic vector embeddings, and LLM-generated structured queries to deliver highly relevant and contextually appropriate search results. By combining these complementary methods, the hybrid approach effectively captures both explicit and implicit user intent.The paper further explores techniques to optimize query execution for faster response times and demonstrates the effectiveness of this hybrid search model in producing comprehensive and accurate search outcomes.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# MagicID:フレキシブルIDフィデリティ生成システム

MagicID: Flexible ID Fidelity Generation System ( http://arxiv.org/abs/2408.09248v2 )

ライセンス: Link先を確認
Zhaoli Deng, Wen Liu, Fanyi Wang, Junkang Zhang, Fan Chen, Meng Zhang, Wendong Zhang, Zhenpeng Mi, (参考訳) ポートレート・フィデリティ・ジェネレーションは、生成モデルにおいて顕著な研究領域であり、制御可能性とフィデリティの両方を強化することに重点を置いている。 近年の手法では,画像のごく一部を低解像度で占める場合,特にマルチパーソナライズされたグループ写真の設定において,高忠実度像の生成に課題がある。 これらの課題に対処するため、IDZoomという自己構築された100万単位のマルチモーダルデータセットに基づくMagicIDと呼ばれる体系的ソリューションを提案する。 MagicID は Multi-Mode Fusion Training Strategy (MMF) と DDIM Inversion based ID Restoration Inference framework (DIIR) から構成されている。 トレーニング中、MMFは条件付きガイダンスとしてIDZoomのスケルトンとランドマークのモダリティを反復的に使用した。 トレーニング段階におけるクローンフェイスチューニングと、推論段階におけるマスクガイドマルチIDクロスアテンション(MGMICA)の導入により、マルチIDグループ写真生成における顔位置特徴の明示的な制約が達成される。 DIIRは、アーティファクトの問題に対処することを目指している。 DDIMインバージョンは、顔のランドマーク、グローバルおよびローカルな顔の特徴と組み合わせて、背景を変更せずに顔の復元を実現するために使用される。 さらに、DIIRはプラグアンドプレイであり、拡散ベースのポートレート生成方法にも適用することができる。 MagicIDの有効性を検証するため,広範囲な比較・アブレーション実験を行った。 実験の結果,MagicIDは主観的,客観的両方の指標において大きな優位性を示し,多人数シナリオにおいて制御可能な生成を実現する。

Portrait Fidelity Generation is a prominent research area in generative models, with a primary focus on enhancing both controllability and fidelity. Current methods face challenges in generating high-fidelity portrait results when faces occupy a small portion of the image with a low resolution, especially in multi-person group photo settings. To tackle these issues, we propose a systematic solution called MagicID, based on a self-constructed million-level multi-modal dataset named IDZoom. MagicID consists of Multi-Mode Fusion training strategy (MMF) and DDIM Inversion based ID Restoration inference framework (DIIR). During training, MMF iteratively uses the skeleton and landmark modalities from IDZoom as conditional guidance. By introducing the Clone Face Tuning in training stage and Mask Guided Multi-ID Cross Attention (MGMICA) in inference stage, explicit constraints on face positional features are achieved for multi-ID group photo generation. The DIIR aims to address the issue of artifacts. The DDIM Inversion is used in conjunction with face landmarks, global and local face features to achieve face restoration while keeping the background unchanged. Additionally, DIIR is plug-and-play and can be applied to any diffusion-based portrait generation method. To validate the effectiveness of MagicID, we conducted extensive comparative and ablation experiments. The experimental results demonstrate that MagicID has significant advantages in both subjective and objective metrics, and achieves controllable generation in multi-person scenarios.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# シミュレーション投影幾何学による頭部CBCTからのパノラマ生合成

Panorama Tomosynthesis from Head CBCT with Simulated Projection Geometry ( http://arxiv.org/abs/2408.09358v2 )

ライセンス: Link先を確認
Anusree P. S., Bikram Keshari Parida, Seong Yong Moon, Wonsang You, (参考訳) コーンビームCT (CBCT) とパノラマX線は, 歯科医療において最もよく用いられる画像モダリティである。 CBCTは患者の頭部の3次元像を作成でき、臨床医により良い診断能力を提供する一方、パノラマX線は単一の画像で顎顔面領域全体を捉えることができる。 CBCTが既に利用可能であれば、パノラマX線を合成し、即時追加スキャンや余分な放射線曝露を避けることが有用である。 既存の方法は、近似的な歯科用アーチを規定し、このアーチに沿って直交する突起を作成することに重点を置いている。 しかし、このような歯科用アーチの抽出には黄金の標準は利用できないため、この選択は合成X線の品質に影響を及ぼす可能性がある。 このような問題を回避するために,シミュレーション投影幾何と動的回転中心を用いた様々な頭部CBCTからパノラマX線を合成する方法を提案する。 本手法は, 欠損歯や非欠損歯, 重金属インプラントの存在下においてもCBCTからパノラマ像を効果的に合成する。 本手法はCBCTスキャナーによらず,高品質なパノラマ画像を生成することができることを示す。

Cone Beam Computed Tomography (CBCT) and Panoramic X-rays are the most commonly used imaging modalities in dental health care. CBCT can produce three-dimensional views of a patient's head, providing clinicians with better diagnostic capability, whereas Panoramic X-ray can capture the entire maxillofacial region in a single image. If the CBCT is already available, it can be beneficial to synthesize a Panoramic X-ray, thereby avoiding an immediate additional scan and extra radiation exposure. Existing methods focus on delineating an approximate dental arch and creating orthogonal projections along this arch. However, no golden standard is available for such dental arch extractions, and this choice can affect the quality of synthesized X-rays. To avoid such issues, we propose a novel method for synthesizing Panoramic X-rays from diverse head CBCTs, employing a simulated projection geometry and dynamic rotation centers. Our method effectively synthesized panoramic views from CBCT, even for patients with missing or nonexistent teeth and in the presence of severe metal implants. Our results demonstrate that this method can generate high-quality panoramic images irrespective of the CBCT scanner geometry.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# ELASTIC:シークエンス圧縮のための効率的な線形アテンション

ELASTIC: Efficient Linear Attention for Sequential Interest Compression ( http://arxiv.org/abs/2408.09380v2 )

ライセンス: Link先を確認
Jiaxin Deng, Shiyao Wang, Song Lu, Yinfeng Li, Xinchen Luo, Yuanjun Liu, Peixing Xu, Guorui Zhou, (参考訳) 最先端のシーケンシャルレコメンデーションモデルは、トランスフォーマーの注意機構に大きく依存している。 しかし、自己注意の二次計算とメモリの複雑さは、ユーザの長距離動作シーケンスをモデル化するためのスケーラビリティを制限している。 この問題に対処するために、線形時間複雑性と計算コストからのモデルキャパシティの分離を必要とせず、SequenTial Interest Compressionの効率的な線形アテンションであるELASTICを提案する。 具体的には、線形ディスパッチアテンション機構を備えた固定長関心の専門家を導入し、長期の動作シーケンスをよりコンパクトな表現に圧縮し、x2.7推論速度で最大90%のGPUメモリ使用量を削減した。 提案した線形ディスパッチアテンション機構は2次複雑性を著しく低減し、非常に長いシーケンスを適切にモデル化できるモデルを実現する。 さらに、多様なユーザ関心をモデル化する能力を維持するため、ELASTICは、膨大な学習可能な関心記憶バンクを初期化し、圧縮されたユーザ関心を、無視可能な計算オーバーヘッドでメモリからわずかに回収する。 提案手法は,同じ計算コストを維持しつつ,利用可能な関心空間の濃度を著しく拡張し,推奨精度と効率のトレードオフを生じさせる。 提案するELASTICの有効性を検証するため,様々な公開データセットに対する広範囲な実験を行い,複数の強力なシーケンシャルなレコメンデータと比較した。 実験結果から、ELASTICはベースラインをかなりのマージンで一貫した性能を示し、長いシーケンスをモデル化する際の計算効率を強調した。 実装コードを公開します。

State-of-the-art sequential recommendation models heavily rely on transformer's attention mechanism. However, the quadratic computational and memory complexities of self attention have limited its scalability for modeling users' long range behaviour sequences. To address this problem, we propose ELASTIC, an Efficient Linear Attention for SequenTial Interest Compression, requiring only linear time complexity and decoupling model capacity from computational cost. Specifically, ELASTIC introduces a fixed length interest experts with linear dispatcher attention mechanism which compresses the long-term behaviour sequences to a significantly more compact representation which reduces up to 90% GPU memory usage with x2.7 inference speed up. The proposed linear dispatcher attention mechanism significantly reduces the quadratic complexity and makes the model feasible for adequately modeling extremely long sequences. Moreover, in order to retain the capacity for modeling various user interests, ELASTIC initializes a vast learnable interest memory bank and sparsely retrieves compressed user's interests from the memory with a negligible computational overhead. The proposed interest memory retrieval technique significantly expands the cardinality of available interest space while keeping the same computational cost, thereby striking a trade-off between recommendation accuracy and efficiency. To validate the effectiveness of our proposed ELASTIC, we conduct extensive experiments on various public datasets and compare it with several strong sequential recommenders. Experimental results demonstrate that ELASTIC consistently outperforms baselines by a significant margin and also highlight the computational efficiency of ELASTIC when modeling long sequences. We will make our implementation code publicly available.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# ベンチャーキャピタリストにおけるスタートアップ成功予測の強化:多変量時系列法のグラフRAG

Enhancing Startup Success Predictions in Venture Capital: A GraphRAG Augmented Multivariate Time Series Method ( http://arxiv.org/abs/2408.09420v2 )

ライセンス: Link先を確認
Zitian Gao, Yihao Xiao, (参考訳) Venture Capital(VC)業界では、限られた財務データと主観的な収益予測の必要性のため、スタートアップの成功を予測することは難しい。 時系列分析やディープラーニングに基づく従来の方法は、競争やコラボレーションのような重要な企業間関係を組み込むことができないため、しばしば不足する。 本稿では,GrahphRAG拡張時系列モデルを用いた新しい手法を提案する。 GraphRAGでは、これらの重要な関係を分析フレームワークに統合することにより、時系列予測の手法が強化され、ベンチャーキャピタルにおけるスタートアップエコシステムをよりダイナミックに理解できるようになる。 実験の結果,我々のモデルは,スタートアップの成功予測において,過去のモデルよりも大幅に優れていたことがわかった。 私たちの知る限りでは、私たちの仕事はGraphRAGの最初のアプリケーション作業です。

In the Venture Capital(VC) industry, predicting the success of startups is challenging due to limited financial data and the need for subjective revenue forecasts. Previous methods based on time series analysis or deep learning often fall short as they fail to incorporate crucial inter-company relationships such as competition and collaboration. Regarding the issues, we propose a novel approach using GrahphRAG augmented time series model. With GraphRAG, time series predictive methods are enhanced by integrating these vital relationships into the analysis framework, allowing for a more dynamic understanding of the startup ecosystem in venture capital. Our experimental results demonstrate that our model significantly outperforms previous models in startup success predictions. To the best of our knowledge, our work is the first application work of GraphRAG.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# 対向重み調整による対向移動性の向上

Enhancing Adversarial Transferability with Adversarial Weight Tuning ( http://arxiv.org/abs/2408.09469v2 )

ライセンス: Link先を確認
Jiahao Chen, Zhou Feng, Rui Zeng, Yuwen Pu, Chunyi Zhou, Yi Jiang, Yuyou Gan, Jinbao Li, Shouling Ji, (参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、人間の観察者に優劣を感じながらモデルを誤解させる敵の例(AE)に対して脆弱である。 重要な懸念事項は、ターゲットモデルに直接アクセスすることなくブラックボックス攻撃を可能にするAEsの転送性である。 しかし, 従来の攻撃の多くは, 対向移動性の本質的なメカニズムを説明できなかった。 本稿では、転送可能なAEの特性を再考し、転送可能性の定式化を改定する。 このメカニズムから得られた知見に基づいて、異なるアーキテクチャを持つモデル間のAEの一般化を分析し、サロゲートとターゲットモデルのギャップを軽減するための局所摂動を見つけることができることを示す。 さらに、モデル滑らか性と平坦な局所最大値との間の内部接続を確立し、これらがAEsの伝達性に寄与する。 さらに,生成されたAEを用いて代理モデルのパラメータを適応的に調整し,局所的な局所的な最大値と滑らかさを同時に最適化する,新しい逆攻撃アルゴリズムである \textbf{A}dversarial \textbf{W}eight \textbf{T}uning (AWT)を提案する。 AWTは、勾配に基づく攻撃法とモデルに基づく攻撃法を組み合わせて、AEの転送可能性を高めるデータフリーチューニング手法である。 ImageNet上で異なるアーキテクチャを持つさまざまなモデルに対する大規模な実験により、AWTは他の攻撃よりも優れたパフォーマンスを示し、CNNベースのモデルとTransformerベースのモデルでは、それぞれ平均5倍と10倍の攻撃成功率が上昇している。

Deep neural networks (DNNs) are vulnerable to adversarial examples (AEs) that mislead the model while appearing benign to human observers. A critical concern is the transferability of AEs, which enables black-box attacks without direct access to the target model. However, many previous attacks have failed to explain the intrinsic mechanism of adversarial transferability. In this paper, we rethink the property of transferable AEs and reformalize the formulation of transferability. Building on insights from this mechanism, we analyze the generalization of AEs across models with different architectures and prove that we can find a local perturbation to mitigate the gap between surrogate and target models. We further establish the inner connections between model smoothness and flat local maxima, both of which contribute to the transferability of AEs. Further, we propose a new adversarial attack algorithm, \textbf{A}dversarial \textbf{W}eight \textbf{T}uning (AWT), which adaptively adjusts the parameters of the surrogate model using generated AEs to optimize the flat local maxima and model smoothness simultaneously, without the need for extra data. AWT is a data-free tuning method that combines gradient-based and model-based attack methods to enhance the transferability of AEs. Extensive experiments on a variety of models with different architectures on ImageNet demonstrate that AWT yields superior performance over other attacks, with an average increase of nearly 5\% and 10\% attack success rates on CNN-based and Transformer-based models, respectively, compared to state-of-the-art attacks.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# シームレスな統合 - フェデレーションラーニングシステムにおける戦略のサンプリング

Seamless Integration: Sampling Strategies in Federated Learning Systems ( http://arxiv.org/abs/2408.09545v2 )

ライセンス: Link先を確認
Tatjana Legler, Vinit Hegiste, Martin Ruskowski, (参考訳) Federated Learning(FL)は、機械学習分野におけるパラダイムシフトであり、ローカルデータのプライバシを維持しながら、複数のデバイスにわたるモデルの分散トレーニングのためのアプローチを提供する。 しかし、FLシステムの動的性質は、潜在的に多様なデータ分散と計算能力を持つ新しいクライアントの継続的な導入によって特徴づけられ、これらの分散学習ネットワークの安定性と効率に重大な課題をもたらす。 新しいクライアントのシームレスな統合は、FLシステムの性能と堅牢性を維持および強化するために不可欠である。 本稿では,新たなクライアントを既存のFLシステムに統合することの複雑さを考察し,データの不均一性とデータ分散(独立性および同一分散性ではない)がモデルトレーニング,システム効率,スケーラビリティ,安定性に与える影響について考察する。 これらの課題にもかかわらず、新しいクライアントをFLシステムに統合することは、データの多様性を高め、学習性能を改善し、分散計算能力を活用する機会を提供する。 Gboard上の単語予測の分散最適化(かつてはフェデレートされた学習)のような他の分野のアプリケーションとは対照的に、プロダクション環境には通常少数のクライアントしか存在しない。 本稿では,システムのスケーラビリティと安定性を確保するための効果的なクライアント選択戦略とソリューションについて概説する。 光品質検査の例を用いて、実践的なアプローチに関する洞察を提供する。 結論として,新たなクライアント統合によってもたらされる課題に対処することが,分散学習ネットワークの高度化と効率化に不可欠であることが示唆された。

Federated Learning (FL) represents a paradigm shift in the field of machine learning, offering an approach for a decentralized training of models across a multitude of devices while maintaining the privacy of local data. However, the dynamic nature of FL systems, characterized by the ongoing incorporation of new clients with potentially diverse data distributions and computational capabilities, poses a significant challenge to the stability and efficiency of these distributed learning networks. The seamless integration of new clients is imperative to sustain and enhance the performance and robustness of FL systems. This paper looks into the complexities of integrating new clients into existing FL systems and explores how data heterogeneity and varying data distribution (not independent and identically distributed) among them can affect model training, system efficiency, scalability and stability. Despite these challenges, the integration of new clients into FL systems presents opportunities to enhance data diversity, improve learning performance, and leverage distributed computational power. In contrast to other fields of application such as the distributed optimization of word predictions on Gboard (where federated learning once originated), there are usually only a few clients in the production environment, which is why information from each new client becomes all the more valuable. This paper outlines strategies for effective client selection strategies and solutions for ensuring system scalability and stability. Using the example of images from optical quality inspection, it offers insights into practical approaches. In conclusion, this paper proposes that addressing the challenges presented by new client integration is crucial to the advancement and efficiency of distributed learning networks, thus paving the way for the adoption of Federated Learning in production environments.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# スクリーンのテーマ:H&E全スライド画像からの高出力パンキャスター遺伝子とフェノタイプバイオマーカーのスクリーニング

Screen Them All: High-Throughput Pan-Cancer Genetic and Phenotypic Biomarker Screening from H&E Whole Slide Images ( http://arxiv.org/abs/2408.09554v2 )

ライセンス: Link先を確認
Yi Kan Wang, Ludmila Tydlitatova, Jeremy D. Kunz, Gerard Oakley, Ran A. Godrich, Matthew C. H. Lee, Chad Vanderbilt, Razik Yousfi, Thomas Fuchs, David S. Klimstra, Siqi Liu, (参考訳) 多くの分子変異は臨床診断または治療予測バイオマーカーとして機能し、典型的には単遺伝子または多遺伝子分子アッセイを用いて検出される。 しかし、これらのアッセイは高価で組織破壊性があり、完成までに数週間かかることが多い。 通常のH&E WSIにAIを使用することで、複数の分子バイオマーカーのスクリーニングを迅速かつ経済的に行うことができる。 次世代シークエンシング(NGS)アッセイで決定されたゲノム特徴を,38,984例のがん患者の47,960個のヘマトキシリンおよびエオシン全スライド画像(WSI)を用いて問うため,300万個のスライドに事前トレーニングされた基礎モデルであるVirchow2を利用した高スループットAIベースシステムを提案する。 バイオマーカーや癌の種類ごとに個別のモデルを訓練する従来の手法とは異なり、我々のシステムは、がんの種類にまたがる幅広い臨床的に関連する分子バイオマーカーを同時に予測するために統一されたモデルを採用している。 ネットワークをトレーニングし、505遺伝子のMSK-IMPACT標的バイオマーカーパネルを再現することで、最も一般的な15種類のがんにおいて平均0.89のAU-ROCを持つハイパフォーマンスバイオマーカー80を同定した。 さらに40名のバイオマーカーが特定の癌組織学的サブタイプと強い関連性を示した。 さらに, 治療選択と反応予測のために臨床検査を頻繁に行ったターゲットには, 58種類のバイオマーカーが関与していた。 このモデルはまた、5つの標準シグナル伝達経路の活性を予測し、DNA修復機構の欠陥を特定し、腫瘍突然変異の負担、マイクロサテライト不安定(MSI)、染色体不安定(CIN)によって測定されたゲノム不安定を予測できる。 提案モデルでは,治療選択のガイド,治療効果の向上,臨床試験の患者スクリーニングの促進,新たな治療対象の取調べの促進が期待できる。

Many molecular alterations serve as clinically prognostic or therapy-predictive biomarkers, typically detected using single or multi-gene molecular assays. However, these assays are expensive, tissue destructive and often take weeks to complete. Using AI on routine H&E WSIs offers a fast and economical approach to screen for multiple molecular biomarkers. We present a high-throughput AI-based system leveraging Virchow2, a foundation model pre-trained on 3 million slides, to interrogate genomic features previously determined by an next-generation sequencing (NGS) assay, using 47,960 scanned hematoxylin and eosin (H&E) whole slide images (WSIs) from 38,984 cancer patients. Unlike traditional methods that train individual models for each biomarker or cancer type, our system employs a unified model to simultaneously predict a wide range of clinically relevant molecular biomarkers across cancer types. By training the network to replicate the MSK-IMPACT targeted biomarker panel of 505 genes, it identified 80 high performing biomarkers with a mean AU-ROC of 0.89 in 15 most common cancer types. In addition, 40 biomarkers demonstrated strong associations with specific cancer histologic subtypes. Furthermore, 58 biomarkers were associated with targets frequently assayed clinically for therapy selection and response prediction. The model can also predict the activity of five canonical signaling pathways, identify defects in DNA repair mechanisms, and predict genomic instability measured by tumor mutation burden, microsatellite instability (MSI), and chromosomal instability (CIN). The proposed model can offer potential to guide therapy selection, improve treatment efficacy, accelerate patient screening for clinical trials and provoke the interrogation of new therapeutic targets.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# MoDeGPT: 大規模言語モデル圧縮のためのモジュール分解

MoDeGPT: Modular Decomposition for Large Language Model Compression ( http://arxiv.org/abs/2408.09632v2 )

ライセンス: Link先を確認
Chi-Heng Lin, Shangqian Gao, James Seale Smith, Abhishek Patel, Shikhar Tuli, Yilin Shen, Hongxia Jin, Yen-Chang Hsu, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すことによって、人工知能の景観を再構築した。 しかし、かなりの計算量の要求は、限られたリソースを持つデバイスへの展開を困難にしている。 近年,低ランク行列を用いた圧縮手法が期待されているが,精度が低下したり,パラメータや推論遅延の大幅なオーバーヘッドが発生することがしばしばある。 本稿では, 上記の欠点を解消しつつ, 復元微調整を必要としない新しい構造化圧縮フレームワークである \textbf{Mo}dular \textbf{De}composition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、モジュールレベルの出力を再構築することで隠れた次元を縮小する。 MoDeGPTは、3つの確立された行列分解アルゴリズム(Nystr\"om approximation, CR decomposition, SVD)を利用する理論的枠組みに基づいて開発され、再定義されたトランスモジュールに適用する。 総合的な実験により, 後方伝播のないMoDeGPTは, 勾配情報に依存した従来の構造化圧縮手法と一致し, 計算コストの98%を節約できることがわかった。 textsc{Llama}-2/3およびOPTモデルでは、MoDeGPTは圧縮率25-30%で90-95%のゼロショット性能を維持している。 さらに、圧縮は1つのGPU上で数時間以内に行うことができ、推論スループットを最大46%向上させることができる。

Large Language Models (LLMs) have reshaped the landscape of artificial intelligence by demonstrating exceptional performance across various tasks. However, substantial computational requirements make their deployment challenging on devices with limited resources. Recently, compression methods using low-rank matrix techniques have shown promise, yet these often lead to degraded accuracy or introduce significant overhead in parameters and inference latency. This paper introduces \textbf{Mo}dular \textbf{De}composition (MoDeGPT), a novel structured compression framework that does not need recovery fine-tuning while resolving the above drawbacks. MoDeGPT partitions the Transformer block into modules comprised of matrix pairs and reduces the hidden dimensions via reconstructing the module-level outputs. MoDeGPT is developed based on a theoretical framework that utilizes three well-established matrix decomposition algorithms -- Nystr\"om approximation, CR decomposition, and SVD -- and applies them to our redefined transformer modules. Our comprehensive experiments show MoDeGPT, without backward propagation, matches or surpasses previous structured compression methods that rely on gradient information, and saves 98% of compute costs on compressing a 13B model. On \textsc{Llama}-2/3 and OPT models, MoDeGPT maintains 90-95% zero-shot performance with 25-30% compression rates. Moreover, the compression can be done on a single GPU within a few hours and increases the inference throughput by up to 46%.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# キャラクタ複雑性:量子回路解析の新しい尺度

Character Complexity: A Novel Measure for Quantum Circuit Analysis ( http://arxiv.org/abs/2408.09641v2 )

ライセンス: Link先を確認
Daksh Shami, (参考訳) 量子コンピューティングの分野では、量子化回路の複雑さは依然として重要な課題である。 本稿では,グループ理論の概念を実用的な量子コンピューティングの課題にブリッジする新しい尺度であるキャラクタ複雑度を紹介する。 表現理論からツールを活用することで、キャラクタの複雑さのいくつかの重要な性質を証明し、量子回路の古典的シミュラビリティへの驚くべき接続を確立する。 この新たな尺度は、量子アルゴリズムの複雑さの展望を新たに提供し、量子古典計算境界の理解を再構築する可能性がある。 本稿では、量子回路の構造に関する直感的な洞察を提供する、文字複雑性の革新的な可視化手法を提案する。 実験の結果、量子ビットとゲート数に関して興味深いスケーリング挙動を示し、量子アルゴリズムの設計と最適化のための新たな道を開く。 この研究は、量子複雑性の理論的な基礎に貢献するだけでなく、量子コンピューティングコミュニティに実用的なツールを提供する。 量子ハードウェアが進歩し続ければ、より効率的な量子アルゴリズムの開発や量子計算の基本的な限界の探索において、文字の複雑さが重要な役割を果たす可能性がある。

In the rapidly evolving field of quantum computing, quantifying circuit complexity remains a critical challenge. This paper introduces Character Complexity, a novel measure that bridges Group-theoretic concepts with practical quantum computing concerns. By leveraging tools from representation theory, I prove several key properties of character complexity and establish a surprising connection to the classical simulability of quantum circuits. This new measure offers a fresh perspective on the complexity landscape of quantum algorithms, potentially reshaping our understanding of quantum-classical computational boundaries. I present innovative visualization methods for character complexity, providing intuitive insights into the structure of quantum circuits. The empirical results reveal intriguing scaling behaviors with respect to qubit and gate counts, opening new avenues for quantum algorithm design and optimization. This work not only contributes to the theoretical foundations of quantum complexity but also offers practical tools for the quantum computing community. As quantum hardware continues to advance, character complexity could play a crucial role in developing more efficient quantum algorithms and in exploring the fundamental limits of quantum computation.
翻訳日:2024-08-21 18:39:27 公開日:2024-08-20
# 乱数生成課題における大規模言語モデルと人的性能の比較

A Comparison of Large Language Model and Human Performance on Random Number Generation Tasks ( http://arxiv.org/abs/2408.09656v2 )

ライセンス: Link先を確認
Rachel M. Harrison, (参考訳) ランダム数生成タスク(RNGT)は、人間が予測可能なパターンを欠くシーケンスをどのように生成するかを調べる心理学で用いられる。 既存の人間のRNGTをLLM互換環境に適用することにより、人間の生成したテキストに基づいて訓練された大きな言語モデルであるChatGPT-3.5が、ランダムな数列を生成する際に人間に似た認知バイアスを示すかどうかを予備研究により検証する。 初期の知見から、ChatGPT-3.5は人間に比べて繰り返しパターンやシーケンシャルパターンを効果的に回避し、特に頻度が低く、数頻度が隣接していることが示唆された。 異なるモデル、パラメータ、およびプロンプトの方法論に関する継続的な研究は、LLMが人間のランダムな生成行動をより密に模倣する方法の理解を深めるとともに、認知科学や行動科学の研究におけるそれらの応用を広げる。

Random Number Generation Tasks (RNGTs) are used in psychology for examining how humans generate sequences devoid of predictable patterns. By adapting an existing human RNGT for an LLM-compatible environment, this preliminary study tests whether ChatGPT-3.5, a large language model (LLM) trained on human-generated text, exhibits human-like cognitive biases when generating random number sequences. Initial findings indicate that ChatGPT-3.5 more effectively avoids repetitive and sequential patterns compared to humans, with notably lower repeat frequencies and adjacent number frequencies. Continued research into different models, parameters, and prompting methodologies will deepen our understanding of how LLMs can more closely mimic human random generation behaviors, while also broadening their applications in cognitive and behavioral science research.
翻訳日:2024-08-21 18:28:07 公開日:2024-08-20
# フュージョンフレームを用いたトランスファー演算子学習

Transfer Operator Learning with Fusion Frame ( http://arxiv.org/abs/2408.10458v1 )

ライセンス: Link先を確認
Haoyang Jiang, Yongzhi Qu, (参考訳) あるドメインから学習知識を適用して別のドメインで問題を解決するという課題は、PDE(Partial Differential Equations)を解く演算子学習モデルにおいて基本的なものである。 これらの現在のモデルは、様々なタスクやデータセットをまたいだ一般化に苦しむことが多く、様々な科学や工学の分野における適用性を制限している。 本研究では,PDE(Partial Differential Equations)を解くための演算子学習モデルの伝達学習能力を向上させる新しいフレームワークについて,統合フレーム理論とPOD(Proper Orthogonal Decomposition)強化Deep Operator Network(DeepONet)の統合により提案する。 我々は,融合フレームとPOD-DeepONetを組み合わせた革新的なアーキテクチャを導入し,実験解析において様々なPDEに対して優れた性能を示す。 我々のフレームワークは、オペレーターラーニングモデルにおけるトランスファーラーニングの重要な課題に対処し、幅広い科学的・工学的応用において適応的で効率的なソリューションの道を開く。

The challenge of applying learned knowledge from one domain to solve problems in another related but distinct domain, known as transfer learning, is fundamental in operator learning models that solve Partial Differential Equations (PDEs). These current models often struggle with generalization across different tasks and datasets, limiting their applicability in diverse scientific and engineering disciplines. This work presents a novel framework that enhances the transfer learning capabilities of operator learning models for solving Partial Differential Equations (PDEs) through the integration of fusion frame theory with the Proper Orthogonal Decomposition (POD)-enhanced Deep Operator Network (DeepONet). We introduce an innovative architecture that combines fusion frames with POD-DeepONet, demonstrating superior performance across various PDEs in our experimental analysis. Our framework addresses the critical challenge of transfer learning in operator learning models, paving the way for adaptable and efficient solutions across a wide range of scientific and engineering applications.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-20
# TTSデータオーバーフィッティング最小化のためのキーワードスポッティングの逆トレーニング

Adversarial training of Keyword Spotting to Minimize TTS Data Overfitting ( http://arxiv.org/abs/2408.10463v1 )

ライセンス: Link先を確認
Hyun Jin Park, Dhruuv Agarwal, Neng Chen, Rentao Sun, Kurt Partridge, Justin Chen, Harry Zhang, Pai Zhu, Jacob Bartel, Kyle Kastner, Gary Wang, Andrew Rosenberg, Quan Wang, (参考訳) キーワードスポッティング(KWS)問題では,多様な話者間で高い精度を達成するために,大量の実声訓練データを必要とする。 大量のTTS(text-to-speech)合成データを利用することで、KWS開発に伴うコストと時間を削減できる。 しかし、TSデータには、実際の音声には存在しないアーティファクトが含まれており、KWSモデルは、実際の音声に対して劣化した精度をもたらす(過度な)ことができる。 この問題に対処するために,大量のTSデータに基づいてトレーニングを行った場合,KWSモデルがTS特有の特徴を学習するのを防ぐために,逆トレーニング手法を適用することを提案する。 実験により, 実音声データに対するKWSモデルの精度は, 元のKWS損失に加えて, 対向損失を用いた場合, 最大12%向上できることが示された。 また, TTS と実陰性音声データのみを訓練しても, 正の実例を伴わずに, 対向的設定により精度が最大8%向上することを示した。

The keyword spotting (KWS) problem requires large amounts of real speech training data to achieve high accuracy across diverse populations. Utilizing large amounts of text-to-speech (TTS) synthesized data can reduce the cost and time associated with KWS development. However, TTS data may contain artifacts not present in real speech, which the KWS model can exploit (overfit), leading to degraded accuracy on real speech. To address this issue, we propose applying an adversarial training method to prevent the KWS model from learning TTS-specific features when trained on large amounts of TTS data. Experimental results demonstrate that KWS model accuracy on real speech data can be improved by up to 12% when adversarial loss is used in addition to the original KWS loss. Surprisingly, we also observed that the adversarial setup improves accuracy by up to 8%, even when trained solely on TTS and real negative speech data, without any real positive examples.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-20
# EBMプリミティブとMCMC推論によるマルチモーダル遅延空間の学習

Learning Multimodal Latent Space with EBM Prior and MCMC Inference ( http://arxiv.org/abs/2408.10467v1 )

ライセンス: Link先を確認
Shiyu Yuan, Carlo Lipizzi, Tian Han, (参考訳) マルチモーダル生成モデルは様々な用途に欠かせない。 本稿では,マルチモーダル生成のための潜在空間における表現的エネルギーベースモデル(EBM)とマルコフ・チェイン・モンテカルロ(MCMC)推論とを結合したアプローチを提案する。 EBMは情報的ガイドとして機能し、MCMC推論は特に短期ランゲヴィン力学を通して、後部分布を真の形に近づける。 この方法は、多様性の複雑さをよりよく捉えるための表現的事前を提供するだけでなく、多様性のコヒーレントな生成のために共有潜在変数の学習を改善する。 提案手法は,マルチモーダルコンテキストにおける相互・共同生成タスクの強化において,MCMC推論に先立ってEMMの有効性を裏付ける実証実験によって支持された。

Multimodal generative models are crucial for various applications. We propose an approach that combines an expressive energy-based model (EBM) prior with Markov Chain Monte Carlo (MCMC) inference in the latent space for multimodal generation. The EBM prior acts as an informative guide, while MCMC inference, specifically through short-run Langevin dynamics, brings the posterior distribution closer to its true form. This method not only provides an expressive prior to better capture the complexity of multimodality but also improves the learning of shared latent variables for more coherent generation across modalities. Our proposed method is supported by empirical experiments, underscoring the effectiveness of our EBM prior with MCMC inference in enhancing cross-modal and joint generative tasks in multimodal contexts.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# 適応影響関数による学習データへの言語モデルのプライバシ漏洩の追跡

Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions ( http://arxiv.org/abs/2408.10468v1 )

ライセンス: Link先を確認
Jinxin Liu, Zao Yang, (参考訳) LLM(Large Language Models)が生成する応答には、個人や組織からの機密情報が含まれて、潜在的なプライバシー漏洩につながる可能性がある。 この研究は、インフルエンス関数(IF)を実装して、トレーニングデータにプライバシリークをトレースすることで、言語モデル(LM)のプライバシに関する懸念を軽減する。 しかし、現在のIFは、大きな勾配ノルムを持つトークンの影響を正確に見積もることに苦労しており、その影響を過大評価する可能性がある。 最も影響力のあるサンプルをトレースする場合、これは大きな勾配のノルムトークンを持つサンプルに頻繁にトレースし、その影響が十分に見積もられている場合でも、実際の最も影響力のあるサンプルをオーバーシェードする。 この問題に対処するため,Huristically Adjusted IF (HAIF) を提案する。 PII-E と PII-CR という2つの異なるシナリオを,モデル出力と事前学習データに同一のテキストを持つモデルと,その推論能力を利用して事前学習データからテキストを逸脱させる2つのデータセットを構築した。 HAIFは追跡精度を大幅に改善し、PII-Eデータセットでは20.96\%から73.71\%に、PII-CRデータセットでは3.21\%から45.93\%に向上した。 また、HAIFは現実世界の事前訓練データCLUECorpus2020においてSOTA IFよりも優れており、プロンプトや応答長に関わらず強い堅牢性を示している。

The responses generated by Large Language Models (LLMs) can include sensitive information from individuals and organizations, leading to potential privacy leakage. This work implements Influence Functions (IFs) to trace privacy leakage back to the training data, thereby mitigating privacy concerns of Language Models (LMs). However, we notice that current IFs struggle to accurately estimate the influence of tokens with large gradient norms, potentially overestimating their influence. When tracing the most influential samples, this leads to frequently tracing back to samples with large gradient norm tokens, overshadowing the actual most influential samples even if their influences are well estimated. To address this issue, we propose Heuristically Adjusted IF (HAIF), which reduces the weight of tokens with large gradient norms, thereby significantly improving the accuracy of tracing the most influential samples. To establish easily obtained groundtruth for tracing privacy leakage, we construct two datasets, PII-E and PII-CR, representing two distinct scenarios: one with identical text in the model outputs and pre-training data, and the other where models leverage their reasoning abilities to generate text divergent from pre-training data. HAIF significantly improves tracing accuracy, enhancing it by 20.96\% to 73.71\% on the PII-E dataset and 3.21\% to 45.93\% on the PII-CR dataset, compared to the best SOTA IFs against various GPT-2 and QWen-1.5 models. HAIF also outperforms SOTA IFs on real-world pretraining data CLUECorpus2020, demonstrating strong robustness regardless prompt and response lengths.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# LSVOSチャレンジ 第3位:SAM2とCutieベースのVOS

LSVOS Challenge 3rd Place Report: SAM2 and Cutie based VOS ( http://arxiv.org/abs/2408.10469v1 )

ライセンス: Link先を確認
Xinyu Liu, Jing Zhang, Kexin Zhang, Xu Liu, Lingling Li, (参考訳) ビデオオブジェクトセグメンテーション(VOS)は、オブジェクトの隠蔽と断片化、オブジェクトの非出現と再出現、混雑したシーン内の特定のオブジェクトの追跡など、いくつかの課題を提示している。 本研究では,これらの課題に対処するために,最新技術モデル(SOTA)SAM2とCutieの長所を組み合わせる。 さらに,ビデオインスタンスのセグメンテーション性能に及ぼす各種ハイパーパラメータの影響についても検討する。 LSVOS チャレンジ VOS トラックの試験段階での J\&F スコアは 0.7952 となり,第3位にランクインした。

Video Object Segmentation (VOS) presents several challenges, including object occlusion and fragmentation, the dis-appearance and re-appearance of objects, and tracking specific objects within crowded scenes. In this work, we combine the strengths of the state-of-the-art (SOTA) models SAM2 and Cutie to address these challenges. Additionally, we explore the impact of various hyperparameters on video instance segmentation performance. Our approach achieves a J\&F score of 0.7952 in the testing phase of LSVOS challenge VOS track, ranking third overa1l.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# 複素アダマール行列の固有値と固有ベクトル

Eigenvalues and eigenvectors of complex Hadamard matrices ( http://arxiv.org/abs/2408.10471v1 )

ライセンス: Link先を確認
Mengfan Liang, Lin Chen, (参考訳) 6\times 6$ complex Hadamard matrices (CHMs) を特徴づけることは線形代数と量子情報においてオープンな問題である。 本稿では,CHMの固有値と固有ベクトルについて検討する。 脱相形式を持つ任意の$n\times n$ CHM が 2つの定数固有値 $\pm\sqrt{n}$ を持ち、2つの定数固有ベクトルを持つことを示す。 我々は、脱相形式を持つ6\times 6$ CHMsの同一固有値の最大値を求め、この結果を任意の次元に拡張する。 また、4つの同一固有値を持つ6\times 6$ CHMが存在しないことも示している。 6\times 6$ CHMs の固有値と固有ベクトルが 6\times 6$ CHMs の完全な分類につながると推測する。

Characterizing the $6\times 6$ complex Hadamard matrices (CHMs) is an open problem in linear algebra and quantum information. In this paper, we investigate the eigenvalues and eigenvectors of CHMs. We show that any $n\times n$ CHM with dephased form has two constant eigenvalues $\pm\sqrt{n}$ and has two constant eigenvectors. We obtain the maximum numbers of identical eigenvalues of $6\times 6$ CHMs with dephased form and we extend this result to arbitrary dimension. We also show that there is no $6\times 6$ CHM with four identical eigenvalues. We conjecture that the eigenvalues and eigenvectors of $6\times 6$ CHMs will lead to the complete classification of $6\times 6$ CHMs.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# Sparse-Dense-Sparseメカニズムによるワンショットプルーニング事前訓練言語モデルの強化

Enhancing One-shot Pruned Pre-trained Language Models through Sparse-Dense-Sparse Mechanism ( http://arxiv.org/abs/2408.10473v1 )

ライセンス: Link先を確認
Guanchen Li, Xiandong Zhao, Lian Liu, Zeping Li, Dong Li, Lu Tian, Jie He, Ashish Sirasao, Emad Barsoum, (参考訳) 事前学習された言語モデル(PLM)は、文脈理解において堅牢で、様々な自然言語処理タスクにおいて優れた性能を示すように設計されている。 しかし、そのかなりのサイズは、計算とストレージのコストを大幅に上回っている。 現代のプルーニング戦略では、タスク特化データや一般データの再トレーニングを必要とせず、PLMを圧縮するためのワンショット手法が採用されているが、これらの手法は性能の欠落を招きがちである。 本稿では,重み分布最適化の観点から,刈り取られたPLMの性能を向上させるためのスパース・デンス・スパース・プルーニング・フレームワークであるSDSを提案する。 刈り取り過程を3つのステップで概説する。 当初、従来のワンショットプルーニング手法を用いて、モデルの重要度を低くする。 次に,スパース正則化によるプルーニング接続を活性化することにより,プルーニングフレンドリーな重量分布を特徴とする密集モデルを構築した。 最後に、第2のプルーニングラウンドを実行し、初期プルーニングよりも優れたプルーニングモデルを生成する。 実験結果から,SDSはSparseGPTとWandaを同一の空間構成で,最先端の刈り取り技術よりも優れていた。 例えば、SDSはRaw-Wikitext2でパープレキシティを9.13削減し、OPT-125Mの複数のゼロショットベンチマークで平均2.05%精度を2:4間隔で改善している。

Pre-trained language models (PLMs) are engineered to be robust in contextual understanding and exhibit outstanding performance in various natural language processing tasks. However, their considerable size incurs significant computational and storage costs. Modern pruning strategies employ one-shot techniques to compress PLMs without the need for retraining on task-specific or otherwise general data; however, these approaches often lead to an indispensable reduction in performance. In this paper, we propose SDS, a Sparse-Dense-Sparse pruning framework to enhance the performance of the pruned PLMs from a weight distribution optimization perspective. We outline the pruning process in three steps. Initially, we prune less critical connections in the model using conventional one-shot pruning methods. Next, we reconstruct a dense model featuring a pruning-friendly weight distribution by reactivating pruned connections with sparse regularization. Finally, we perform a second pruning round, yielding a superior pruned model compared to the initial pruning. Experimental results demonstrate that SDS outperforms the state-of-the-art pruning techniques SparseGPT and Wanda under an identical sparsity configuration. For instance, SDS reduces perplexity by 9.13 on Raw-Wikitext2 and improves accuracy by an average of 2.05% across multiple zero-shot benchmarks for OPT-125M with 2:4 sparsity.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# LeCov: 大規模言語モデルのマルチレベルテスト基準

LeCov: Multi-level Testing Criteria for Large Language Models ( http://arxiv.org/abs/2408.10474v1 )

ライセンス: Link先を確認
Xuan Xie, Jiayang Song, Yuheng Huang, Da Song, Fuyuan Zhang, Felix Juefei-Xu, Lei Ma, (参考訳) 大規模言語モデル(LLM)は多くの異なるドメインで広く使われているが、その解釈可能性に限界があるため、それらがいかに信頼に値するか、例えば、真実性、毒性といった様々な観点で疑問がある。 最近の研究は、デプロイ前に不確実な問題、すなわち欠陥を明らかにすることを目的として、LSMのテスト方法の開発を開始した。 しかし、体系的で形式化されたテスト基準が欠如しており、テスト探索の程度と妥当性の総合的な評価を妨げている。 この脅威を軽減するために,LLMのマルチレベルテスト基準であるLeCovを提案する。 この基準は、注意機構、フィードフォワードニューロン、不確実性の3つの重要なLCM内部成分を考慮し、合計9種類の試験基準を含む。 テスト優先化とカバレッジ誘導テストの2つのシナリオに基準を適用します。 3つのモデルと4つのデータセットによる実験評価は、LeCovの有用性と有効性を示している。

Large Language Models (LLMs) are widely used in many different domains, but because of their limited interpretability, there are questions about how trustworthy they are in various perspectives, e.g., truthfulness and toxicity. Recent research has started developing testing methods for LLMs, aiming to uncover untrustworthy issues, i.e., defects, before deployment. However, systematic and formalized testing criteria are lacking, which hinders a comprehensive assessment of the extent and adequacy of testing exploration. To mitigate this threat, we propose a set of multi-level testing criteria, LeCov, for LLMs. The criteria consider three crucial LLM internal components, i.e., the attention mechanism, feed-forward neurons, and uncertainty, and contain nine types of testing criteria in total. We apply the criteria in two scenarios: test prioritization and coverage-guided testing. The experiment evaluation, on three models and four datasets, demonstrates the usefulness and effectiveness of LeCov.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# 対称性と検出された3体相互作用のシグナルの観察

Observation of the Symmetry-Protected Signature of 3-body Interactions ( http://arxiv.org/abs/2408.10475v1 )

ライセンス: Link先を確認
Liudmila A. Zhukas, Qingfeng Wang, Or Katz, Christopher Monroe, Iman Marvian, (参考訳) 量子プロセスにおける多体相互作用の同定と特徴付けは依然として重要な課題である。 これは、2-体相互作用が任意の時間発展をもたらすためであり、量子コンピューティングの文脈では2-局所ゲートの普遍性と呼ばれることが多い。 しかし、未知のハミルトニアンが電荷や粒子数保存のようなU(1)対称性を尊重する場合、N-体相互作用はN-体相として知られる異なる対称性で保護されたシグネチャを示す。 本研究では,未知の2体相互作用が存在するにもかかわらず,3体相互作用を検出するための効率的な手法を開発し,実証する。 位相推定のためにGHZ状態を利用するこの手法は、一元的進化を探索し、システムサイズと線形にスケールする小さな部分空間においてその行列式を測定することを必要とし、効率的なアプローチである。

Identifying and characterizing multi-body interactions in quantum processes remains a significant challenge. This is partly because 2-body interactions can produce an arbitrary time evolution, a fundamental fact often called the universality of 2-local gates in the context of quantum computing. However, when an unknown Hamiltonian respects a U(1) symmetry such as charge or particle number conservation, N-body interactions exhibit a distinct symmetry-protected signature known as the N-body phase, which fewer-body interactions cannot mimic. We develop and demonstrate an efficient technique for the detection of 3-body interactions despite the presence of unknown 2-body interactions. This technique, which takes advantage of GHZ states for phase estimation, requires probing the unitary evolution and measuring its determinant in a small subspace that scales linearly with the system size, making it an efficient approach.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# エンド・ツー・エンド強化学習に基づくライダリーディングにおけるマイクロビュー次数分散手法

An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing ( http://arxiv.org/abs/2408.10479v1 )

ライセンス: Link先を確認
Xinlang Yue, Yiran Liu, Fangzhou Shi, Sihong Luo, Chen Zhong, Min Lu, Zhe Xu, (参考訳) 配車サービス体験に影響を与えるため、ローカルな時空間(マイクロビューの注文伝達)の下でドライバーに注文を割り当てることが、Didiの主要な課題である。 既存の産業ソリューションは主に、ヒューリスティックまたは学習に基づくアルゴリズムを単純な組み合わせ手法で組み込んだ2段階のパターンに従っており、出現タイミング、空間的関係、旅行時間など、双方の行動の不確実性に対処している。 本稿では,一段階から一段階の強化学習に基づく順序分散手法を提案する。 具体的には、この問題をモデル化するために2層Markov Decision Processフレームワークを使用し、エンコーダ-デコーダ構造ネットワークである \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN) を提示し、それに従って注文ドライバの割り当てを直接生成し、割り当てを停止する。 さらに、コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。 Didiの実際のベンチマークに関する大規模な実験は、提案されたアプローチが、マッチング効率とユーザエクスペリエンスタスクの最適化において、競争上のベースラインを大幅に上回っていることを正当化している。 さらに、大規模エンジニアリング実装の観点から、デプロイメントの概要を評価し、デプロイメントテストで得られた成果と経験について論じる。

Assigning orders to drivers under localized spatiotemporal context (micro-view order-dispatching) is a major task in Didi, as it influences ride-hailing service experience. Existing industrial solutions mainly follow a two-stage pattern that incorporate heuristic or learning-based algorithms with naive combinatorial methods, tackling the uncertainty of both sides' behaviors, including emerging timings, spatial relationships, and travel duration, etc. In this paper, we propose a one-stage end-to-end reinforcement learning based order-dispatching approach that solves behavior prediction and combinatorial optimization uniformly in a sequential decision-making manner. Specifically, we employ a two-layer Markov Decision Process framework to model this problem, and present \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN), an encoder-decoder structure network to generate order-driver assignments directly and stop assignments accordingly. Besides, by leveraging contextual dynamics, our approach can adapt to the behavioral patterns for better performance. Extensive experiments on Didi's real-world benchmarks justify that the proposed approach significantly outperforms competitive baselines in optimizing matching efficiency and user experience tasks. In addition, we evaluate the deployment outline and discuss the gains and experiences obtained during the deployment tests from the view of large-scale engineering implementation.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# マルチターゲット薬物のAIによる分子設計のための評価枠組み:脳疾患を事例として

Evaluation Framework for AI-driven Molecular Design of Multi-target Drugs: Brain Diseases as a Case Study ( http://arxiv.org/abs/2408.10482v1 )

ライセンス: Link先を確認
Arthur Cerveira, Frederico Kremer, Darling de Andrade Lourenço, Ulisses B Corrêa, (参考訳) 人工知能(AI)技術の幅広い応用は、新しい治療薬の開発に大きな影響を与えている。 これらの計算手法は、生成された分子の特性を設計し、予測するために使用することができる。 MTDD(Multi-target Drug Discovery)は、中枢神経系、免疫系、心血管疾患など、より伝統的な標的特異的治療にうまく反応しない複雑な疾患に対する薬物発見のパラダイムである。 それでも、マルチターゲット化合物を設計するためのAIツールの有効性を評価するための確立されたベンチマークスイートは、まだ存在しない。 標準化されたベンチマークでは、既存の技術を比較し、迅速な研究の進展を促進することができる。 そこで本研究では,脳疾患を事例として,MTDDシナリオにおける分子生成手法の評価枠組みを提案する。 提案手法は, 大規模言語モデルを用いて適切な分子標的を選択すること, バイオアッセイデータセットの収集と前処理, ターゲット変調予測のための定量的構造活性相関モデルを訓練すること, ベンチマークを実装する上で重要な薬物類似性特性を評価することを含む。 さらに、この研究は、ベンチマークスイート上で4つの深い生成モデルと進化的アルゴリズムの性能を評価する。 その結果, 進化的アルゴリズムと生成モデルの両方が, 提案したベンチマークで競合する結果を得ることができた。

The widespread application of Artificial Intelligence (AI) techniques has significantly influenced the development of new therapeutic agents. These computational methods can be used to design and predict the properties of generated molecules. Multi-target Drug Discovery (MTDD) is an emerging paradigm for discovering drugs against complex disorders that do not respond well to more traditional target-specific treatments, such as central nervous system, immune system, and cardiovascular diseases. Still, there is yet to be an established benchmark suite for assessing the effectiveness of AI tools for designing multi-target compounds. Standardized benchmarks allow for comparing existing techniques and promote rapid research progress. Hence, this work proposes an evaluation framework for molecule generation techniques in MTDD scenarios, considering brain diseases as a case study. Our methodology involves using large language models to select the appropriate molecular targets, gathering and preprocessing the bioassay datasets, training quantitative structure-activity relationship models to predict target modulation, and assessing other essential drug-likeness properties for implementing the benchmarks. Additionally, this work will assess the performance of four deep generative models and evolutionary algorithms over our benchmark suite. In our findings, both evolutionary algorithms and generative models can achieve competitive results across the proposed benchmarks.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# PRformer:多変量時系列予測のためのピラミッドリカレントトランス

PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2408.10483v1 )

ライセンス: Link先を確認
Yongbo Yu, Weizhong Yu, Feiping Nie, Xuelong Li, (参考訳) Transformerアーキテクチャにおける自己保持機構は、シーケンス順序に不変であり、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。 この位置埋め込みへの依存は、特に長い見返りウィンドウを使用する場合、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限していると論じる。 この問題に対処するために、単変量時系列に対するピラミッドRNN埋め込み(PRE)と多変量依存関係をモデル化するTransformerの機能を組み合わせた革新的なアプローチを導入する。 Preはピラミッド状の1次元の畳み込み層を利用して、時間的秩序を保ったマルチスケールの畳み込み特性を構築する。 さらに、これらの特徴の上に階層化されたRNNは、シーケンス順序に敏感なマルチスケール時系列表現を学習する。 この注意機構を備えたTransformerモデルへの統合は、大幅なパフォーマンス向上をもたらす。 本稿では,Preと標準のTransformerエンコーダを統合したモデルであるPRformerについて述べる。 この性能は、より長い見返り窓の活用における我々のアプローチの有効性を強調し、トランスフォーマーの予測タスクに対するポテンシャルを最大化する上で、頑健な時間的表現の重要性を強調している。 コードは、このリポジトリで入手できる。

The self-attention mechanism in Transformer architecture, invariant to sequence order, necessitates positional embeddings to encode temporal order in time series prediction. We argue that this reliance on positional embeddings restricts the Transformer's ability to effectively represent temporal sequences, particularly when employing longer lookback windows. To address this, we introduce an innovative approach that combines Pyramid RNN embeddings(PRE) for univariate time series with the Transformer's capability to model multivariate dependencies. PRE, utilizing pyramidal one-dimensional convolutional layers, constructs multiscale convolutional features that preserve temporal order. Additionally, RNNs, layered atop these features, learn multiscale time series representations sensitive to sequence order. This integration into Transformer models with attention mechanisms results in significant performance enhancements. We present the PRformer, a model integrating PRE with a standard Transformer encoder, demonstrating state-of-the-art performance on various real-world datasets. This performance highlights the effectiveness of our approach in leveraging longer lookback windows and underscores the critical role of robust temporal representations in maximizing Transformer's potential for prediction tasks. Code is available at this repository: \url{https://github.com/usualheart/PRformer}.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# 依存型古典量子コンピュータシステム工学

Dependable Classical-Quantum Computer Systems Engineering ( http://arxiv.org/abs/2408.10484v1 )

ライセンス: Link先を確認
Edoardo Giusto, Santiago Nuñez-Corrales, Phuong Cao, Alessandro Cilardo, Ravishankar K. Iyer, Weiwen Jiang, Paolo Rech, Flavio Vella, Bartolomeo Montrucchio, Samudra Dasgupta, Travis S. Humble, (参考訳) 量子コンピューティング(QC)は、量子コンピュータのユニークな特性を活用することで、従来のハイパフォーマンスコンピューティング(HPC)のワークロードを強化する可能性を提供し、新しいパラダイムであるHPC-QCが出現する。 この統合は新たな機会をもたらすが、特にハイブリッドシステムの信頼性を確保する上で、新しい課題をもたらす。 本稿では,統合の課題を特定し,障害を予測し,QC,クラウドコンピューティング,HPC,ネットワークセキュリティを一体化することによって,HPC-QCシステムの多様な共同設計を促進することを目的とする。 この新たな学際的な取り組みの焦点は、より規範的な共同設計サイクルを目指して、ハイブリッドシステムの信頼性を保証するエンジニアリング原則を開発することである。 我々のフレームワークは、設計の落とし穴を防ぎ、QC技術エコシステムの成熟を加速するのに役立ちます。 鍵となる側面は、レジリエントなHPC-QCシステムの構築、量子領域への従来のテクニックの適用性の分析、ハイブリッドシステムにおけるスケーリングの複雑さの探索である。 このことは、この新しい計算パラダイムに特有のパフォーマンス-信頼性メトリクスの必要性を浮き彫りにしている。

Quantum Computing (QC) offers the potential to enhance traditional High-Performance Computing (HPC) workloads by leveraging the unique properties of quantum computers, leading to the emergence of a new paradigm: HPC-QC. While this integration presents new opportunities, it also brings novel challenges, particularly in ensuring the dependability of such hybrid systems. This paper aims to identify integration challenges, anticipate failures, and foster a diverse co-design for HPC-QC systems by bringing together QC, cloud computing, HPC, and network security. The focus of this emerging inter-disciplinary effort is to develop engineering principles that ensure the dependability of hybrid systems, aiming for a more prescriptive co-design cycle. Our framework will help to prevent design pitfalls and accelerate the maturation of the QC technology ecosystem. Key aspects include building resilient HPC-QC systems, analyzing the applicability of conventional techniques to the quantum domain, and exploring the complexity of scaling in such hybrid systems. This underscores the need for performance-reliability metrics specific to this new computational paradigm.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# ハイブリッド絡み付き準曲面対応量子ホログラム

Metasurface-enabled quantum holograms with hybrid entanglement ( http://arxiv.org/abs/2408.10485v1 )

ライセンス: Link先を確認
Hong Liang, Wai Chun Wong, Tailin An, Jensen Li, (参考訳) 光の可能なすべての次元を制御できるメタ曲面は、量子状態の生成、演算、トモグラフィーを含む量子光学応用に不可欠なものとなっている。 本研究では, 量子ホログラムを構成するために, 信号イドラー光子対間の偏光-ホログラムハイブリッド絡み合わせを生成するために, 準曲面を用いる。 量子ホログラムの性質は、アイドラー光子の偏極度を崩壊させ、信号光子の2つのホログラム状態間の干渉を誘導することにより、ホログラム内容の有意かつ選択的消去として明らかにすることができる。 一方、アイドラー光子が偏光を観察せずに検出されると干渉は消える。 この過程は量子ホログラム消去器として解釈され、ホログラムの消去された内容で消去作用を可視化する。 我々の分極-ホログラムハイブリッド絡み合い状態と準曲面の構築は、強靭性のある量子通信、追加の量子自由度による反カウンセリング応用、および絡み合いと非局所性の基本的な量子概念を探求するための新たなプラットフォームとして有用である。

Metasurfaces, with their capability to control all possible dimensions of light, have become integral to quantum optical applications, including quantum state generation, operation, and tomography. In this work, we utilize a metasurface to generate polarization-hologram hybrid entanglement between a signal-idler photon pair to construct a quantum hologram. The properties of the quantum hologram can be revealed by collapsing the polarization degree of freedom of the idler photon, inducing interference between two holographic states of the signal photon, as a meaningful and selective erasure of the holographic content. In contrary, interference disappears when the idler photon is detected without observing polarization. This process can be further interpreted as a quantum holographic eraser, where the erasing action is visualized with erased contents in holograms. Our construction of polarization-hologram hybrid entangled state with metasurfaces will be useful for quantum communication with enhanced robustness, anti-counterfeiting applications through the additional quantum degrees of freedom, and as an emerging platform for exploring fundamental quantum concepts for entanglement and non-locality.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# コード言語モデルによる進化的プログラム修復の再考

Revisiting Evolutionary Program Repair via Code Language Model ( http://arxiv.org/abs/2408.10486v1 )

ライセンス: Link先を確認
Yunan Wang, Tingyu Guo, Zilong Huang, Yuan Yuan, (参考訳) ソフトウェア欠陥は、ソフトウェア開発とメンテナンスの本質的な部分です。 これらの欠陥に対処するため、自動プログラム修正(APR)が開発され、バグを自動的に修正する。 大規模言語モデルの出現に伴い、コードコーパスで訓練されたコード言語モデル(CLM)はコード生成に優れ、APRアプリケーションに適している。 多くのバグは修正に複数ポイントの編集を必要とするが、現在のCLMベースのAPRは単一ポイントのバグ修正に限定されており、修正可能なバグの範囲を著しく制限している。 さらに、これらのツールは一般的に、CLMのプロンプトを構築する際にのみバギーラインの直接的なコンテキストを考慮し、提供された限られた情報によって、最適でない修復結果をもたらす。 本稿では,Javaプロジェクトのマルチロケーションバグを修正するために,多目的進化アルゴリズムとCLMを統合した新しいアプローチARJA-CLMを提案する。 また,提案手法は,CLMが候補文を生成するための,アクセス可能なフィールドとメソッドに関する追加情報により,プロンプトを充実させる。 Defects4J と APR-2024 のコンペティションベンチマーク実験により,ARJA-CLM が多くの最先端の修復システムを超え,多点バグに対して良好に動作することを示した。 また、CLMは、コンテキスト認識プロンプト内のフィールド情報やメソッド情報を効果的に活用し、候補文を生成する。

Software defects are an inherent part of software development and maintenance. To address these defects, Automated Program Repair (APR) has been developed to fix bugs automatically. With the advent of Large Language Models, Code Language Models (CLMs) trained on code corpora excels in code generation, making them suitable for APR applications. Despite this progress, a significant limitation remains: many bugs necessitate multi-point edits for repair, yet current CLM-based APRs are restricted to single-point bug fixes, which severely narrows the scope of repairable bugs. Moreover, these tools typically only consider the direct context of the buggy line when building prompts for the CLM, leading to suboptimal repair outcomes due to the limited information provided. This paper introduces a novel approach, ARJA-CLM, which integrates the multiobjective evolutionary algorithm with CLM to fix multilocation bugs in Java projects. We also propose a context-aware prompt construction stratege, which enriches the prompt with additional information about accessible fields and methods for the CLM generating candidate statements. Our experiments on the Defects4J and APR-2024 competition benchmark demonstrate that ARJA-CLM surpasses many state-of-the-art repair systems, and performs well on multi-point bugs. The results also reveal that CLMs effectively utilize the provided field and method information within context-aware prompts to produce candidate statements.
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# MambaEVT:状態空間モデルを用いたイベントストリームベースのビジュアルオブジェクト追跡

MambaEVT: Event Stream based Visual Object Tracking using State Space Model ( http://arxiv.org/abs/2408.10487v1 )

ライセンス: Link先を確認
Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang, (参考訳) イベントカメラによる視覚追跡は、低エネルギー消費、高ダイナミックレンジ、高密度時間分解能のユニークな画像原理と利点により、近年ますます注目されている。 現在のイベントベースのトラッキングアルゴリズムは、ターゲットオブジェクトのローカライゼーションにVision Transformerと静的テンプレートを利用することによって、徐々にパフォーマンスのボトルネックにぶつかっている。 本稿では,バックボーンネットワークとして線形複雑性を持つ状態空間モデルを採用した新しいマンバ型ビジュアルトラッキングフレームワークを提案する。 検索領域とターゲットテンプレートは、視覚マンバネットワークに入力され、特徴抽出と相互作用が同時に行われる。 検索領域の出力トークンは、ターゲットのローカライゼーションのためにトラッキングヘッドに入力される。 さらに重要なことは、我々はMemory Mambaネットワークを使用して追跡フレームワークに動的テンプレート更新戦略を導入することを検討している。 対象のテンプレートライブラリのサンプルの多様性を考慮し、テンプレートメモリモジュールを適切に調整することにより、より効果的な動的テンプレートを統合することができる。 動的テンプレートと静的テンプレートの効果的な組み合わせにより、当社のMambaベースのトラッキングアルゴリズムは、EventVOT、VisEvent、FE240hzなど、複数の大規模データセットにおいて、精度と計算コストのバランスよく実現できる。 ソースコードはhttps://github.com/Event-AHU/MambaEVTで公開される。

Event camera-based visual tracking has drawn more and more attention in recent years due to the unique imaging principle and advantages of low energy consumption, high dynamic range, and dense temporal resolution. Current event-based tracking algorithms are gradually hitting their performance bottlenecks, due to the utilization of vision Transformer and the static template for target object localization. In this paper, we propose a novel Mamba-based visual tracking framework that adopts the state space model with linear complexity as a backbone network. The search regions and target template are fed into the vision Mamba network for simultaneous feature extraction and interaction. The output tokens of search regions will be fed into the tracking head for target localization. More importantly, we consider introducing a dynamic template update strategy into the tracking framework using the Memory Mamba network. By considering the diversity of samples in the target template library and making appropriate adjustments to the template memory module, a more effective dynamic template can be integrated. The effective combination of dynamic and static templates allows our Mamba-based tracking algorithm to achieve a good balance between accuracy and computational cost on multiple large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source code will be released on https://github.com/Event-AHU/MambaEVT
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# イベントストリームに基づく手話翻訳:高精細ベンチマークデータセットと新しいアルゴリズム

Event Stream based Sign Language Translation: A High-Definition Benchmark Dataset and A New Algorithm ( http://arxiv.org/abs/2408.10488v1 )

ライセンス: Link先を確認
Xiao Wang, Yao Rong, Fuling Wang, Jianing Li, Lin Zhu, Bo Jiang, Yaowei Wang, (参考訳) 手話翻訳(SLT)は、AI支援障害の分野における中核的なタスクである。 可視光ビデオに基づく従来のSLTとは違い,照明や手の動き,プライバシー侵害などの要因が容易に影響を受ける。 これは主に、イベントストリームが高ダイナミックレンジと高密度の時間信号を持ち、照度が低く、動きがぼやけやすいためである。 また、空間が広いため、ターゲットのプライバシーを効果的に保護する。 具体的には、この領域におけるデータギャップを効果的に埋める、Event-CSLと呼ばれる、新しい高解像度のEventストリーム手話データセットを提案する。 ビデオ14,827本、グロス14,821本、漢文2,544語を含む。 これらのサンプルは、複数の角度、光強度、カメラの動きを含む様々な屋内および屋外のシーンで収集される。 我々は、今後の取り組みに対して公正な比較を可能にするため、既存のSLTワークをベンチマークした。 このデータセットと他の大規模データセットに基づいて,マンバモデルがCNN特徴の時間情報を統合する能力を完全に活用する新たなベースライン手法を提案し,その結果,手話翻訳結果が改善された。 ベンチマークデータセットとソースコードは、https://github.com/Event-AHU/OpenESLでリリースされる。

Sign Language Translation (SLT) is a core task in the field of AI-assisted disability. Unlike traditional SLT based on visible light videos, which is easily affected by factors such as lighting, rapid hand movements, and privacy breaches, this paper proposes the use of high-definition Event streams for SLT, effectively mitigating the aforementioned issues. This is primarily because Event streams have a high dynamic range and dense temporal signals, which can withstand low illumination and motion blur well. Additionally, due to their sparsity in space, they effectively protect the privacy of the target person. More specifically, we propose a new high-resolution Event stream sign language dataset, termed Event-CSL, which effectively fills the data gap in this area of research. It contains 14,827 videos, 14,821 glosses, and 2,544 Chinese words in the text vocabulary. These samples are collected in a variety of indoor and outdoor scenes, encompassing multiple angles, light intensities, and camera movements. We have benchmarked existing mainstream SLT works to enable fair comparison for future efforts. Based on this dataset and several other large-scale datasets, we propose a novel baseline method that fully leverages the Mamba model's ability to integrate temporal information of CNN features, resulting in improved sign language translation outcomes. Both the benchmark dataset and source code will be released on https://github.com/Event-AHU/OpenESL
翻訳日:2024-08-21 15:34:22 公開日:2024-08-20
# 非局所性試験における量子資源の相互作用

Interplay of Quantum Resources in Nonlocality Tests ( http://arxiv.org/abs/2408.10489v1 )

ライセンス: Link先を確認
Hai-Hao Dong, Yuwei Zhu, Su-Yi Cheng, Xingjian Zhang, Cheng-Long Li, Ying-Zhao Li, Hao Li, Lixing You, Xiongfeng Ma, Qiang Zhang, Jian-Wei Pan, (参考訳) ベルの不等式違反によって証明された非局所性は、絡み合いを示すだけでなく、量子系における測定の不整合性も強調する。 一般化されたCluser-Horne-Shimony-Holt (CHSH) Bellの不等式を利用して、我々の高効率光学装置は、ループホールフリーな2.0132$を達成している。 この結果、デバイス非依存のアンタングル上の下界が、形成のアンタングルとして0.0159$で定量化される。 さらに、一般化ベルの不等式のパラメータを調整することにより、測定の不整合性の推定を強化し、実効重なり4.3883 \times 10^{-5}$で定量化する。 非局所性、絡み合い、測定不整合性の間の複雑な相互作用を探索するため、混合状態を生成し、ポッケルセルを用いた4つのベル状態間の高速切替による絡み合いの柔軟な変調を可能にし、99.10\%以上の忠実度を達成する。 興味深いことに,不整合性の増加は最初は非局所性を高めるが,最終的にはその減少につながる反直感的関係が明らかとなった。 通常、極大非局所性は極大非可逆性とは一致しない。 この実験はベル不品質に基づく量子情報処理のための量子資源の最適管理に光を当てる。

Nonlocality, evidenced by the violation of Bell inequalities, not only signifies entanglement but also highlights measurement incompatibility in quantum systems. Utilizing the generalized Clauser-Horne-Shimony-Holt (CHSH) Bell inequality, our high-efficiency optical setup achieves a loophole-free violation of $2.0132$. This result provides a device-independent lower bound on entanglement, quantified as the entanglement of formation at $0.0159$. Moreover, by tuning the parameters of the generalized Bell inequality, we enhance the estimation of measurement incompatibility, which is quantified by an effective overlap of $4.3883 \times 10^{-5}$. To explore the intricate interplay among nonlocality, entanglement, and measurement incompatibility, we generate mixed states, allowing for flexible modulation of entanglement via fast switching among the four Bell states using Pockels cells, achieving a fidelity above $99.10\%$. Intriguingly, our results reveal a counterintuitive relationship where increasing incompatibility initially boosts nonlocality but eventually leads to its reduction. Typically, maximal nonlocality does not coincide with maximal incompatibility. This experimental study sheds light on the optimal management of quantum resources for Bell-inequality-based quantum information processing.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# 接地テキスト生成のための計画ベース検索手法の解析

Analysis of Plan-based Retrieval for Grounded Text Generation ( http://arxiv.org/abs/2408.10490v1 )

ライセンス: Link先を確認
Ameya Godbole, Nicholas Monath, Seungyeon Kim, Ankit Singh Rawat, Andrew McCallum, Manzil Zaheer, (参考訳) テキスト生成において、幻覚とは、確立された知識と矛盾する一見一貫性のあるテキストの生成を指す。 1つの説得力ある仮説は、言語モデルがそのパラメトリック知識(希少性、相対性、領域など)の外で生成タスクを与えられたときに、幻覚が起こるというものである。 この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入し、タスクに関連する知識をモデルに提供することである。 本稿では,命令調整型LLMの計画能力を活用し,幻覚の頻度をさらに低減するために,探索のガイドとして計画をどのように利用できるか分析する。 長文テキスト生成タスクにおける提案手法の様々なバリエーションを実証的に評価する。 関連事実のカバレッジを改善することで、プラン誘導検索と生成により、ソース文書への寄与率を高めつつ、より情報的な応答が得られる。

In text generation, hallucinations refer to the generation of seemingly coherent text that contradicts established knowledge. One compelling hypothesis is that hallucinations occur when a language model is given a generation task outside its parametric knowledge (due to rarity, recency, domain, etc.). A common strategy to address this limitation is to infuse the language models with retrieval mechanisms, providing the model with relevant knowledge for the task. In this paper, we leverage the planning capabilities of instruction-tuned LLMs and analyze how planning can be used to guide retrieval to further reduce the frequency of hallucinations. We empirically evaluate several variations of our proposed approach on long-form text generation tasks. By improving the coverage of relevant facts, plan-guided retrieval and generation can produce more informative responses while providing a higher rate of attribution to source documents.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# 形式的検証のためのシグモイドの最大緩和

Achieving the Tightest Relaxation of Sigmoids for Formal Verification ( http://arxiv.org/abs/2408.10491v1 )

ライセンス: Link先を確認
Samuel Chevalier, Duncan Starkenburg, Krishnamurthy, Dvijotham, (参考訳) 形式的検証の分野では、ニューラルネットワーク(NN)は通常、最適化された等価な数学的プログラムに書き換えられる。 これらの再構成の本質的にの非凸性を克服するために、非線形活性化関数の凸緩和が典型的に利用される。 しかし、「S字型」アクティベーション関数の一般的な緩和(すなわち静的線形切断)は、過度に緩くなり、全体の検証プロセスが遅くなる。 本稿では,シグモイド活性化関数を上下に有界な調整可能な超平面を導出する。 双対空間でチューニングされると、これらのアフィン境界はシグモイド活性化関数の非線形多様体の周りで滑らかに回転する。 このアプローチは$\alpha$-sigと呼ばれ、シグモイド活性化関数の最も強固で、要素的な凸緩和を形式的な検証フレームワークに組み込むことができる。 大規模な検証タスクにこれらの緩和を組み込み、そのパフォーマンスをLiRPAや最先端の検証デュオである$\alpha$-CROWNと比較する。

In the field of formal verification, Neural Networks (NNs) are typically reformulated into equivalent mathematical programs which are optimized over. To overcome the inherent non-convexity of these reformulations, convex relaxations of nonlinear activation functions are typically utilized. Common relaxations (i.e., static linear cuts) of ``S-shaped" activation functions, however, can be overly loose, slowing down the overall verification process. In this paper, we derive tuneable hyperplanes which upper and lower bound the sigmoid activation function. When tuned in the dual space, these affine bounds smoothly rotate around the nonlinear manifold of the sigmoid activation function. This approach, termed $\alpha$-sig, allows us to tractably incorporate the tightest possible, element-wise convex relaxation of the sigmoid activation function into a formal verification framework. We embed these relaxations inside of large verification tasks and compare their performance to LiRPA and $\alpha$-CROWN, a state-of-the-art verification duo.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# 学習用講義は学習用か?知識グラフ対応知的学習支援システム(ILA)の講義音声知覚分析

Is the Lecture Engaging for Learning? Lecture Voice Sentiment Analysis for Knowledge Graph-Supported Intelligent Lecturing Assistant (ILA) System ( http://arxiv.org/abs/2408.10492v1 )

ライセンス: Link先を確認
Yuan An, Samarth Kolanupaka, Jacob An, Matthew Ma, Unnat Chhatwal, Alex Kalinowski, Michelle Rogers, Brian Smith, (参考訳) 本稿では,授業内容と最適教育戦略を表す知識グラフを用いた知的学習支援システム (ILA) を提案する。 本システムは,音声,コンテンツ,教育のリアルタイム分析を通じて,生徒の学習力を高めるためのインストラクターを支援するように設計されている。 初回調査では講義音声感情分析のケーススタディとして,3000点以上の講義音声クリップからなるトレーニングセットを開発した。 各クリップは手動でエンゲージメントまたは非エンゲージメントとしてラベル付けされた。 このデータセットを用いて,音声クリップから抽出した様々な特徴に基づいて,いくつかの分類モデルを構築し,評価した。 結果は,800以上のテスト音声クリップの独立したセット上での退屈な講義に対して,F1スコア90%を達成し,有望なパフォーマンスを示した。 このケーススタディは、コンテンツ分析と教育実践を統合した、より洗練されたモデルの開発の基礎となるものである。 私たちの究極のゴールは、現代の人工知能技術を活用することで、インストラクターがより積極的に効果的に教えることを支援することです。

This paper introduces an intelligent lecturing assistant (ILA) system that utilizes a knowledge graph to represent course content and optimal pedagogical strategies. The system is designed to support instructors in enhancing student learning through real-time analysis of voice, content, and teaching methods. As an initial investigation, we present a case study on lecture voice sentiment analysis, in which we developed a training set comprising over 3,000 one-minute lecture voice clips. Each clip was manually labeled as either engaging or non-engaging. Utilizing this dataset, we constructed and evaluated several classification models based on a variety of features extracted from the voice clips. The results demonstrate promising performance, achieving an F1-score of 90% for boring lectures on an independent set of over 800 test voice clips. This case study lays the groundwork for the development of a more sophisticated model that will integrate content analysis and pedagogical practices. Our ultimate goal is to aid instructors in teaching more engagingly and effectively by leveraging modern artificial intelligence techniques.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# マイニング密度分布と分割マニフォールド構造によるクラスタリング

Clustering by Mining Density Distributions and Splitting Manifold Structure ( http://arxiv.org/abs/2408.10493v1 )

ライセンス: Link先を確認
Zhichang Xu, Zhiguo Long, Hua Meng, (参考訳) スペクトルクラスタリングでは、類似性グラフのラプラシア行列の分解に時間を要するため、大きなデータセットへの適用性が制限される。 スペクトルクラスタリングの効率を改善するために、最近トップダウンアプローチが提案され、まずデータを複数のマイクロクラスタ(グラニュラーボール)に分割し、次に「コンパクト」でないときにこれらのマイクロクラスタを分割し、最終的にこれらのマイクロクラスタをノードとして使用し、より効率的なスペクトルクラスタリングのための類似性グラフを構築する。 しかし、このトップダウンアプローチは、不均一に分散された、あるいは構造的に複雑なデータに適応することが難しい。 これは、粗い球としてマイクロクラスタを構築することは、局所的な範囲におけるデータの形状や構造を捉えるのに苦労しているためであり、「コンパクト性」のみを対象とする単純な分割規則は、データ密度のノイズや変動に敏感であり、異なる形状のマイクロクラスタを導き出すため、それらの類似性を正確に測定することは困難である。 これらの問題を解決するために,本論文ではまず,局所構造からマイクロクラスタを得るよう提案する。 さらに, ユークリッド距離が凸集合に適していることを示すことにより, 局所密度とデータ多様体構造を結合するデータ分割規則を提案し, 得られたマイクロクラスタの類似性を容易に評価する。 その後、最終的なスペクトルクラスタリングのために、マイクロクラスタ間の新しい類似度尺度が提案される。 合成および実世界のデータセットに基づく一連の実験により、提案手法はグラニュラーボール法よりも構造的に複雑なデータに適応可能であることが示された。

Spectral clustering requires the time-consuming decomposition of the Laplacian matrix of the similarity graph, thus limiting its applicability to large datasets. To improve the efficiency of spectral clustering, a top-down approach was recently proposed, which first divides the data into several micro-clusters (granular-balls), then splits these micro-clusters when they are not "compact'', and finally uses these micro-clusters as nodes to construct a similarity graph for more efficient spectral clustering. However, this top-down approach is challenging to adapt to unevenly distributed or structurally complex data. This is because constructing micro-clusters as a rough ball struggles to capture the shape and structure of data in a local range, and the simplistic splitting rule that solely targets ``compactness'' is susceptible to noise and variations in data density and leads to micro-clusters with varying shapes, making it challenging to accurately measure the similarity between them. To resolve these issues, this paper first proposes to start from local structures to obtain micro-clusters, such that the complex structural information inside local neighborhoods is well captured by them. Moreover, by noting that Euclidean distance is more suitable for convex sets, this paper further proposes a data splitting rule that couples local density and data manifold structures, so that the similarities of the obtained micro-clusters can be easily characterized. A novel similarity measure between micro-clusters is then proposed for the final spectral clustering. A series of experiments based on synthetic and real-world datasets demonstrate that the proposed method has better adaptability to structurally complex data than granular-ball based methods.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# 大規模言語モデルは、エンド・ツー・エンドのコード・プロデューサとしてどの程度機能するか?

How Well Do Large Language Models Serve as End-to-End Secure Code Producers? ( http://arxiv.org/abs/2408.10495v1 )

ライセンス: Link先を確認
Jianian Gong, Nachuan Duan, Ziheng Tao, Zhaohui Gong, Yuan Yuan, Minlie Huang, (参考訳) GPT-4のような大規模言語モデル(LLM)の急速な進歩は、ソフトウェア工学の展望に革命をもたらし、これらのモデルを現代の開発プラクティスの中核に位置づけている。 これらのモデルがソフトウェア開発で使われる主要な、信頼性の高いツールに進化することを期待しているので、それらが生成するコードのセキュリティが最重要であることを保証します。 LLMは、エンドツーエンドのセキュアなコードプロデューサとして、どの程度うまく機能するのか? 本稿では,LSMが持つ脆弱性が少ないコード生成の可能性について,系統的に検討する。 具体的には,GPT-3.5,GPT-4,Code Llama,CodeGeeX2)を含む4つのLLMで生成されたコードの脆弱性を特定し,修復する機能について検討した。 4900個のコードを手動または自動でレビューすることで,(1)大規模言語モデルではシナリオ関連セキュリティリスクの認識が欠如しており,それがSecurityEvalベンチマークにおける75%以上の脆弱性コードの生成につながること,(2) GPT-3.5やGPT-4のようなLLMでは,生成したコードの脆弱性を正確に識別できないこと,(3) GPT-3.5やGPT-4は,4つのLLMで生成されたセキュリティコードの修復において33.2%~59.6%の成功率を達成することができること,などを明らかにした。 単一ラウンドの修復の限界に対処するため,本研究から得られた知見に基づいて,反復的な修復手順により,LCMがより安全なソースコードを構築するための軽量ツールを開発した。 セマンティック分析エンジンの補助により, 修復の成功率を65.9%~85.5%に向上させる実験を行った。

The rapid advancement of large language models (LLMs) such as GPT-4 has revolutionized the landscape of software engineering, positioning these models at the core of modern development practices. As we anticipate these models to evolve into the primary and trustworthy tools used in software development, ensuring the security of the code they produce becomes paramount. How well can LLMs serve as end-to-end secure code producers? This paper presents a systematic investigation into LLMs' inherent potential to generate code with fewer vulnerabilities. Specifically, We studied GPT-3.5 and GPT-4's capability to identify and repair vulnerabilities in the code generated by four popular LLMs including themselves (GPT-3.5, GPT-4, Code Llama, and CodeGeeX2). By manually or automatically reviewing 4,900 pieces of code, our study reveals that: (1) large language models lack awareness of scenario-relevant security risks, which leads to the generation of over 75% vulnerable code on the SecurityEval benchmark; (2) LLMs such as GPT-3.5 and GPT-4 are unable to precisely identify vulnerabilities in the code they generated; (3) GPT-3.5 and GPT-4 can achieve 33.2%~59.6% success rates in repairing the insecure code produced by the 4 LLMs, but they both perform poorly when repairing self-produced code, indicating self-repair "blind spots". To address the limitation of a single round of repair, we developed a lightweight tool that prompts LLMs to construct safer source code through an iterative repair procedure based on the insights gained from our study. Experiments show that assisted by semantic analysis engines, our tool significantly improves the success rates of repair to 65.9%~85.5%.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# 3Dポイントクラウドデータを用いたGPTによる繊維ピリング分類

GPT-based Textile Pilling Classification Using 3D Point Cloud Data ( http://arxiv.org/abs/2408.10496v1 )

ライセンス: Link先を確認
Yu Lu, YuYu Chen, Gang Zhou, Zhenghua Lan, (参考訳) 繊維品質管理には, 繊維のピリング評価が重要である。 布の実際のテスト環境で数千の3Dポイントのクラウドイメージを収集し、それらをTextileNet8データセットとして整理し、ラベル付けします。 私たちの知る限りでは、繊維のピリング評価分野における8つのカテゴリの3Dポイントクラウドデータセットとしては、これが初めて公開されています。 ポイントクラウド解析のGPT型ビッグデータであるPointGPTをベースとして,非パラメトリックネットワークから抽出した入力ポイントクラウドのグローバルな特徴を取り入れ,PointGPT+NNモデルを提案する。 TextileNet8をベンチマークとして、提案したPointGPT+NNモデルは91.8%の総合精度(OA)、平均クラス毎の平均精度(mAcc)が92.2%であることを示した。 他の公開データセットでの試験結果は、提案したPointGPT+NNモデルの競合性能も検証する。 提案されているTextileNet8データセットが公開される。

Textile pilling assessment is critical for textile quality control. We collect thousands of 3D point cloud images in the actual test environment of textiles and organize and label them as TextileNet8 dataset. To the best of our knowledge, it is the first publicly available eight-categories 3D point cloud dataset in the field of textile pilling assessment. Based on PointGPT, the GPT-like big model of point cloud analysis, we incorporate the global features of the input point cloud extracted from the non-parametric network into it, thus proposing the PointGPT+NN model. Using TextileNet8 as a benchmark, the experimental results show that the proposed PointGPT+NN model achieves an overall accuracy (OA) of 91.8% and a mean per-class accuracy (mAcc) of 92.2%. Test results on other publicly available datasets also validate the competitive performance of the proposed PointGPT+NN model. The proposed TextileNet8 dataset will be publicly available.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# QUITO-X:クロスアテンションを用いた情報ボトルネック型圧縮アルゴリズム

QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention ( http://arxiv.org/abs/2408.10497v1 )

ライセンス: Link先を確認
Yihang Wang, Xu Huang, Bowen Tian, Yixing Fan, Jiafeng Guo, (参考訳) 生成LDMは様々な産業タスクにおいて大きな成功を収めており、ICLを介して垂直領域や下流タスクに効果的に適応することができる。 しかし、タスクが複雑化するにつれて、ICLが要求するコンテキスト長も長くなり、2つの重大な問題が発生する。 i)過度に長いコンテキストは、コストと推論の遅延につながる。 二 長期的文脈で導入したタスク非関連情報が「中間のロスト」問題を悪化させる。 近年、ラマ7bのような因果関係言語モデルから得られた指標に従ってトークンを除去して圧縮プロンプトが、これらの問題を緩和するための効果的なアプローチとして出現している。 しかし、自己情報やPPLといった事前の手法で使われるメトリクスは、クエリの条件付け時に最も重要なトークンを廃止する目的と完全に一致しない。 本研究では,計量が必要とする特性を慎重に検討するために,情報ボトルネック理論を導入する。 これに影響を受け、エンコーダ・デコーダアーキテクチャにおけるクロスアテンションを新しいメトリクスとして使用します。 我々の単純な手法は、レイテンシの低い小さなモデルでは、大幅に性能が向上する。 DROP, CoQA, SQuAD, Quoref の4つのデータセットを用いて本手法の評価を行った。 実験の結果,同じ性能を維持しながら,従来のSOTAよりも25%近く圧縮速度が向上することがわかった。 興味深いことに、25%のトークンが取り除かれた実験では、私たちのモデルのEMスコアは、文脈として圧縮されていないテキストを使用して制御グループのスコアを超えることがある。

Generative LLM have achieved significant success in various industrial tasks and can effectively adapt to vertical domains and downstream tasks through ICL. However, with tasks becoming increasingly complex, the context length required by ICL is also getting longer, and two significant issues arise: (i) The excessively long context leads to high costs and inference delays. (ii) A substantial amount of task-irrelevant information introduced by long contexts exacerbates the "lost in the middle" problem. Recently, compressing prompts by removing tokens according to some metric obtained from some causal language models, such as llama-7b, has emerged as an effective approach to mitigate these issues. However, the metric used by prior method such as self-information or PPL do not fully align with the objective of distinuishing the most important tokens when conditioning on query. In this work, we introduce information bottleneck theory to carefully examine the properties required by the metric. Inspired by this, we use cross-attention in encoder-decoder architecture as a new metric. Our simple method leads to significantly better performance in smaller models with lower latency. We evaluate our method on four datasets: DROP, CoQA, SQuAD, and Quoref. The experimental results show that, while maintaining the same performance, our compression rate can improve by nearly 25% over previous SOTA. Remarkably, in experiments where 25% of the tokens are removed, our model's EM score for answers sometimes even exceeds that of the control group using uncompressed text as context.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# マルチブランチディープラーニングモデルを用いた頸部癌検出

Cervical Cancer Detection Using Multi-Branch Deep Learning Model ( http://arxiv.org/abs/2408.10498v1 )

ライセンス: Link先を確認
Tatsuhiro Baba, Abu Saleh Musa Miah, Jungpil Shin, Md. Al Mehedi Hasan, (参考訳) 子宮頸癌は女性にとって重要な世界的な健康上の問題であり、高リスクHPVの持続的な感染は、これは主に世界的な健康上の課題であり、30年間で若い女性の診断率は10%から40%に上昇した。 Pap smear スクリーニングは一般的な診断法であるが、画像解析は長大であり、しばしば誤りにつながる。 この疾患の早期発見は、患者の予後改善に大きく貢献する。 近年、多くの研究者が、医療画像に基づく子宮頸がん検出プロセスにおいて約束を達成した機械学習技術を採用してきた。 近年,多くの研究者が子宮頸癌検出の精度向上のために様々なディープラーニング技術を採用しているが,依然として様々な課題に直面している。 本研究では,MHSA (Multi-Head Self-Attention) と畳み込みニューラルネットワーク (CNN) を用いた頚部癌画像の自動分類手法を提案する。 提案手法は,MHSA機構とCNNの長所を利用して,頚部画像の局所的特徴と大域的特徴を2つのストリームで効果的に捉える。 MHSAはモデルが関心のある領域にフォーカスする能力を促進する一方、CNNは正確な分類に寄与する階層的な特徴を抽出する。 最後に、2つのストリーム機能を組み合わせて分類モジュールに入力し、特徴と分類を洗練させました。 提案手法の性能を評価するために, 頚椎細胞を5つのカテゴリに分類したSIPaKMeDデータセットを用いた。 我々のモデルは98.522\%という驚くべき精度を達成した。 この性能は、医用画像分類の精度が高く、他の医用画像認識タスクに適用可能であることを約束する。

Cervical cancer is a crucial global health concern for women, and the persistent infection of High-risk HPV mainly triggers this remains a global health challenge, with young women diagnosis rates soaring from 10\% to 40\% over three decades. While Pap smear screening is a prevalent diagnostic method, visual image analysis can be lengthy and often leads to mistakes. Early detection of the disease can contribute significantly to improving patient outcomes. In recent decades, many researchers have employed machine learning techniques that achieved promise in cervical cancer detection processes based on medical images. In recent years, many researchers have employed various deep-learning techniques to achieve high-performance accuracy in detecting cervical cancer but are still facing various challenges. This research proposes an innovative and novel approach to automate cervical cancer image classification using Multi-Head Self-Attention (MHSA) and convolutional neural networks (CNNs). The proposed method leverages the strengths of both MHSA mechanisms and CNN to effectively capture both local and global features within cervical images in two streams. MHSA facilitates the model's ability to focus on relevant regions of interest, while CNN extracts hierarchical features that contribute to accurate classification. Finally, we combined the two stream features and fed them into the classification module to refine the feature and the classification. To evaluate the performance of the proposed approach, we used the SIPaKMeD dataset, which classifies cervical cells into five categories. Our model achieved a remarkable accuracy of 98.522\%. This performance has high recognition accuracy of medical image classification and holds promise for its applicability in other medical image recognition tasks.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# ProgramAlly:マルチモーダルエンドユーザープログラミングによるカスタムビジュアルアクセスプログラムの作成

ProgramAlly: Creating Custom Visual Access Programs via Multi-Modal End-User Programming ( http://arxiv.org/abs/2408.10499v1 )

ライセンス: Link先を確認
Jaylin Herskovitz, Andi Xu, Rahaf Alharbi, Anhong Guo, (参考訳) 既存の視覚補助技術は、シンプルで一般的なユースケースのために構築されており、視覚障害者が機能をカスタマイズするための道は少ない。 本稿では,DIY支援技術に関する先行研究から,ユーザが独自のニーズを満たすビジュアルアクセスプログラムを作成し,カスタマイズするための手段として,エンドユーザープログラミングについて考察する。 本稿では,視覚情報のためのカスタムフィルタであるProgramAllyを紹介し,ブロックプログラミング,自然言語,プログラミングの3つのエンドユーザープログラミングアプローチを活用する。 ProgramAllyを実装するために、視覚的なフィルタリングタスクを視覚障害者が遭遇するシナリオに基づいて表現し、これらのプログラムの生成と実行のためにデバイス上のモデルとクラウドモデルを統合した。 視覚障害者12名のユーザスタディにおいて、参加者はタスクによって異なるプログラミングモダリティを好み、視覚的アクセスプログラムを用いて既存のアプリケーションでは困難なアクセシビリティ問題に対処することを想定した。 ProgramAllyを通じて、視覚障害者が体験をカスタマイズし制御するための視覚的アクセスプログラムをいかに作成できるかを探索する。

Existing visual assistive technologies are built for simple and common use cases, and have few avenues for blind people to customize their functionalities. Drawing from prior work on DIY assistive technology, this paper investigates end-user programming as a means for users to create and customize visual access programs to meet their unique needs. We introduce ProgramAlly, a system for creating custom filters for visual information, e.g., 'find NUMBER on BUS', leveraging three end-user programming approaches: block programming, natural language, and programming by example. To implement ProgramAlly, we designed a representation of visual filtering tasks based on scenarios encountered by blind people, and integrated a set of on-device and cloud models for generating and running these programs. In user studies with 12 blind adults, we found that participants preferred different programming modalities depending on the task, and envisioned using visual access programs to address unique accessibility challenges that are otherwise difficult with existing applications. Through ProgramAlly, we present an exploration of how blind end-users can create visual access programs to customize and control their experiences.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# MER2024におけるSZTU-CMU:マルチモーダル感情認識のためのconv-Attentionによる感情ララマの改善

SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition ( http://arxiv.org/abs/2408.10500v1 )

ライセンス: Link先を確認
Zebang Cheng, Shuyuan Tu, Dawei Huang, Minghan Li, Xiaojiang Peng, Zhi-Qi Cheng, Alexander G. Hauptmann, (参考訳) 本稿では,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチについて述べる。 Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成し、限定ラベル付きデータの課題に対処する。 モーダリティ固有の雑音を緩和しながらマルチモーダル融合を強化するために,軽量で効率的なハイブリッドフレームワークであるConv-Attentionを導入する。 大規模な実験は我々のアプローチの有効性を判断する。 MER-NOISEトラックでは,2位と3位にそれぞれ1.47%,1.65%を上回り,最先端の重み付き平均Fスコア85.30%を達成した。 MER-OVトラックでは,オープンボキャブラリアノテーションに対する感情-LLaMAの利用により,GPT-4Vと比較して平均精度とリコールが8.52%向上し,参加する大規模マルチモーダルモデルの中で最も高いスコアが確保された。 Emotion-LLaMAのコードとモデルはhttps://github.com/ZebangCheng/Emotion-LLaMAで公開されている。

This paper presents our winning approach for the MER-NOISE and MER-OV tracks of the MER2024 Challenge on multimodal emotion recognition. Our system leverages the advanced emotional understanding capabilities of Emotion-LLaMA to generate high-quality annotations for unlabeled samples, addressing the challenge of limited labeled data. To enhance multimodal fusion while mitigating modality-specific noise, we introduce Conv-Attention, a lightweight and efficient hybrid framework. Extensive experimentation vali-dates the effectiveness of our approach. In the MER-NOISE track, our system achieves a state-of-the-art weighted average F-score of 85.30%, surpassing the second and third-place teams by 1.47% and 1.65%, respectively. For the MER-OV track, our utilization of Emotion-LLaMA for open-vocabulary annotation yields an 8.52% improvement in average accuracy and recall compared to GPT-4V, securing the highest score among all participating large multimodal models. The code and model for Emotion-LLaMA are available at https://github.com/ZebangCheng/Emotion-LLaMA.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# 重機更新プロセスにおける漸近的分類誤差

Asymptotic Classification Error for Heavy-Tailed Renewal Processes ( http://arxiv.org/abs/2408.10502v1 )

ライセンス: Link先を確認
Xinhui Rong, Victor Solo, (参考訳) 分類問題の普及と多くの分野にわたる点プロセスデータの収集にもかかわらず、点プロセス分類の誤差確率の研究はごく最近になって始まった。 本稿では,更新プロセスの分類について考察する。 重み付き更新プロセスの誤分類誤差確率に基づくBhattacharyyaの漸近式を得る。

Despite the widespread occurrence of classification problems and the increasing collection of point process data across many disciplines, study of error probability for point process classification only emerged very recently. Here, we consider classification of renewal processes. We obtain asymptotic expressions for the Bhattacharyya bound on misclassification error probabilities for heavy-tailed renewal processes.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# 説明可能な視覚変換器を用いた手動画像の分類のための適応的知識蒸留法

Adaptive Knowledge Distillation for Classification of Hand Images using Explainable Vision Transformers ( http://arxiv.org/abs/2408.10503v1 )

ライセンス: Link先を確認
Thanh Thi Nguyen, Campbell Wilson, Janis Dalins, (参考訳) 手画像の法医学的価値を評価するには、個人の手にあるユニークな特徴やパターンを使用する必要がある。 人間の手は、静脈のパターン、指紋、手そのものの幾何学など、異なる特徴を持っている。 本稿では,手動画像の分類における視覚変換器(ViT)の利用について検討する。 説明可能性ツールを用いて、ViTの内部表現を探索し、モデル出力への影響を評価する。 本稿では,ViTの内部理解を活用して,教師モデルから知識を適応的に抽出し,異なるドメインのデータから学習し,破滅的な忘れを防止できる蒸留手法を提案する。 市販の2つの手動画像データセットを用いて,ViTの性能評価と適応蒸留法を提案する。 実験結果から,ViTモデルは従来の機械学習手法よりも大幅に優れており,ViTの内部状態は分類タスクにおけるモデル出力を説明するのに有用であることがわかった。 破滅的な忘れを省くことで,本蒸留法はソースドメインとターゲットドメインの両方のデータ,特にこれら2つのドメインが大きな相違点を示す場合に,優れた性能を発揮する。 提案手法は,アクセス制御,ID認証,認証システムといった実世界のアプリケーションに対して効果的に開発,実装することができる。

Assessing the forensic value of hand images involves the use of unique features and patterns present in an individual's hand. The human hand has distinct characteristics, such as the pattern of veins, fingerprints, and the geometry of the hand itself. This paper investigates the use of vision transformers (ViTs) for classification of hand images. We use explainability tools to explore the internal representations of ViTs and assess their impact on the model outputs. Utilizing the internal understanding of ViTs, we introduce distillation methods that allow a student model to adaptively extract knowledge from a teacher model while learning on data of a different domain to prevent catastrophic forgetting. Two publicly available hand image datasets are used to conduct a series of experiments to evaluate performance of the ViTs and our proposed adaptive distillation methods. The experimental results demonstrate that ViT models significantly outperform traditional machine learning methods and the internal states of ViTs are useful for explaining the model outputs in the classification task. By averting catastrophic forgetting, our distillation methods achieve excellent performance on data from both source and target domains, particularly when these two domains exhibit significant dissimilarity. The proposed approaches therefore can be developed and implemented effectively for real-world applications such as access control, identity verification, and authentication systems.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# QPO:マルチループオフライン強化学習によるクエリ依存型プロンプト最適化

QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning ( http://arxiv.org/abs/2408.10504v1 )

ライセンス: Link先を確認
Yilun Kong, Hangyu Mao, Qi Zhao, Bin Zhang, Jingqing Ruan, Li Shen, Yongzhe Chang, Xueqian Wang, Rui Zhao, Dacheng Tao, (参考訳) プロンプトエンジニアリングは、多種多様なタスクにわたる大規模言語モデル(LLM)の性能向上に顕著な成功を収めた。 しかし、既存のプロンプト最適化手法のほとんどはタスクレベルのパフォーマンスにのみ焦点を当てており、クエリが優先するプロンプトの重要性を見落としている。 さらに、これらの手法は、最適化プロセスの指針となるフィードバックを得るために、LLMとの頻繁な相互作用に大きく依存しており、かなりの冗長な相互作用コストが生じる。 本稿では,クエリ依存型プロンプト最適化(QPO,Query-dependent Prompt Optimization)を提案する。これは,複数ループのオフライン強化学習を利用して,小さな事前学習言語モデルを反復的に微調整し,入力クエリに適合した最適なプロンプトを生成することで,大きなターゲットLLMに対するプロンプト効果を大幅に改善する。 我々は、オープンソースのタスクに多様なプロンプトをベンチマークする副産物として、すでに多数存在するオフラインのプロンプトデータから洞察を得て、オンラインインタラクションのコストを回避した。 さらに、最適化されたモデルからのプロンプトが元のデータセットのソースプロンプトを上回っているため、各ループで生成されたプロンプトでオフラインデータセットを継続的に拡張します。 これらの反復ループは、最適なプロンプトを生成するためにモデルをブートストラップする。 様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットシナリオと少数ショットシナリオの両方において、本手法の有効性とコスト効率を実証している。

Prompt engineering has demonstrated remarkable success in enhancing the performance of large language models (LLMs) across diverse tasks. However, most existing prompt optimization methods only focus on the task-level performance, overlooking the importance of query-preferred prompts, which leads to suboptimal performances. Additionally, these methods rely heavily on frequent interactions with LLMs to obtain feedback for guiding the optimization process, incurring substantial redundant interaction costs. In this paper, we introduce Query-dependent Prompt Optimization (QPO), which leverages multi-loop offline reinforcement learning to iteratively fine-tune a small pretrained language model to generate optimal prompts tailored to the input queries, thus significantly improving the prompting effect on the large target LLM. We derive insights from offline prompting demonstration data, which already exists in large quantities as a by-product of benchmarking diverse prompts on open-sourced tasks, thereby circumventing the expenses of online interactions. Furthermore, we continuously augment the offline dataset with the generated prompts in each loop, as the prompts from the fine-tuned model are supposed to outperform the source prompts in the original dataset. These iterative loops bootstrap the model towards generating optimal prompts. Experiments on various LLM scales and diverse NLP and math tasks demonstrate the efficacy and cost-efficiency of our method in both zero-shot and few-shot scenarios.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# 量子軌道インスパイアされたリンドブレディアンシミュレーション

Quantum-Trajectory-Inspired Lindbladian Simulation ( http://arxiv.org/abs/2408.10505v1 )

ライセンス: Link先を確認
Sirui Peng, Xiaoming Sun, Qi Zhao, Hongyi Zhou, (参考訳) オープン量子システムの力学をシミュレーションすることは、量子コンピューティングにおいて重要な課題であり、広範囲のアプリケーションを提供するが、計算的に困難である。 本稿では,リンドブラディアンズが支配するオープン量子系の力学をシミュレーションする2つの量子アルゴリズムを提案する。 我々は,我々のアルゴリズムの効率を裏付ける量子軌道法にインスパイアされた,短時間進化のための新しい近似チャネルを導入する。 最初のアルゴリズムはジャンプ演算子数とは無関係にゲート複雑性を達成し、$m$は効率を大幅に向上させる。 第2のアルゴリズムは進化時間$t$と精度$\epsilon$にほぼ最適に依存し、さらに$\tilde{O}(m)$ factorのみを導入し、$\tilde O(m^2)$ factorを持つ最先端のゲートベース量子アルゴリズムを厳密に改善する。 どちらのアルゴリズムも、$m$への依存の低減は、多数のジャンプ演算子によって特徴づけられる実用的な散逸過程をシミュレートする効率を著しく向上させる。

Simulating the dynamics of open quantum systems is a crucial task in quantum computing, offering wide-ranging applications but remaining computationally challenging. In this paper, we propose two quantum algorithms for simulating the dynamics of open quantum systems governed by Lindbladians. We introduce a new approximation channel for short-time evolution, inspired by the quantum trajectory method, which underpins the efficiency of our algorithms. The first algorithm achieves a gate complexity independent of the number of jump operators, $m$, marking a significant improvement in efficiency. The second algorithm achieves near-optimal dependence on the evolution time $t$ and precision $\epsilon$ and introduces only an additional $\tilde{O}(m)$ factor, which strictly improves upon state-of-the-art gate-based quantum algorithm that has an $\tilde O(m^2)$ factor. In both our algorithms, the reduction of dependence on $m$ significantly enhances the efficiency of simulating practical dissipative processes characterized by a large number of jump operators.
翻訳日:2024-08-21 15:24:37 公開日:2024-08-20
# シングルセル学習に基づくディープグラフ埋め込みクラスタリング

Single-cell Curriculum Learning-based Deep Graph Embedding Clustering ( http://arxiv.org/abs/2408.10511v1 )

ライセンス: Link先を確認
Huifa Li, Jie Fu, Xinpeng Ling, Zhiyu Sun, Kuncan Wang, Zhili Chen, (参考訳) 単一細胞RNAシークエンシング(scRNA-seq)技術の急速な進歩は、細胞レベルの組織不均一性の研究を可能にする。 細胞アノテーションは、cRNA-seqデータの広範な下流解析に大きく貢献する。 しかし,生物推論のための scRNA-seq の解析は,その複雑なデータ分布と不確定なデータ分布により,相当量の量と高頻度のドロップアウト現象を特徴とする課題を呈している。 さらに、トレーニングサンプルの品質は大きく異なり、一般的なScRNA-seqデータクラスタリングソリューションであるGNNの性能は、2種類の低品質トレーニングノードによって損なわれる可能性がある。 1) 境界上のノード 2)グラフへの追加情報はほとんど提供しないノード。 これらの問題に対処するために,単セルラーニングに基づく深層グラフ埋め込みクラスタリング(scCLG)を提案する。 まず,チェビシェフグラフ畳み込み自己エンコーダとマルチデコーダ(ChebAE)を併用し,セルグラフの位相再構成損失,ゼロインフレーション負二項損失(ZINB)損失,クラスタリング損失などの3つのデコーダに対応する最適化目標を組み合わせたセル-セルトポロジ表現を提案する。 一方、我々はノードの特徴とエントロピーに基づいてGNNを訓練し、高品質なグラフを維持するのに難易度スコアに基づいて困難なノードを訓練する選択的なトレーニング戦略を採用している。 様々な遺伝子発現データセットの実証結果から,我々のモデルは最先端の手法よりも優れていることが示された。

The swift advancement of single-cell RNA sequencing (scRNA-seq) technologies enables the investigation of cellular-level tissue heterogeneity. Cell annotation significantly contributes to the extensive downstream analysis of scRNA-seq data. However, The analysis of scRNA-seq for biological inference presents challenges owing to its intricate and indeterminate data distribution, characterized by a substantial volume and a high frequency of dropout events. Furthermore, the quality of training samples varies greatly, and the performance of the popular scRNA-seq data clustering solution GNN could be harmed by two types of low-quality training nodes: 1) nodes on the boundary; 2) nodes that contribute little additional information to the graph. To address these problems, we propose a single-cell curriculum learning-based deep graph embedding clustering (scCLG). We first propose a Chebyshev graph convolutional autoencoder with multi-decoder (ChebAE) that combines three optimization objectives corresponding to three decoders, including topology reconstruction loss of cell graphs, zero-inflated negative binomial (ZINB) loss, and clustering loss, to learn cell-cell topology representation. Meanwhile, we employ a selective training strategy to train GNN based on the features and entropy of nodes and prune the difficult nodes based on the difficulty scores to keep the high-quality graph. Empirical results on a variety of gene expression datasets show that our model outperforms state-of-the-art methods.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# 連続ドメインにおける動的エージェントの高次元実行スキルの近似推定

Approximate Estimation of High-dimension Execution Skill for Dynamic Agents in Continuous Domains ( http://arxiv.org/abs/2408.10512v1 )

ライセンス: Link先を確認
Delma Nieves-Rivera, Christopher Archibald, (参考訳) 多くの現実世界の継続的なアクションドメインでは、人間のエージェントはどのアクションを試すかを決め、そのアクションを最大限に実行しなければならない。 しかし、人間は誤りなしには行動しない。 これらの領域における人間のパフォーマンスは、意思決定を支援するためにAIを使用することによって改善される可能性がある。 人間のエージェントが試みるべきアクションを正しく推論するAIの要件のひとつは、その人間の実行エラーやスキルの正しいモデルである。 近年の研究では、異なるドメインにまたがる様々なタイプのエージェントを用いて、この実行エラーを推定する手法が成功している。 しかし、この以前の研究は、これらのアイデアの現実的な設定への適用を制限するいくつかの仮定を行った。 まず、以前の研究は誤差分布が対称正規であると仮定し、単一のパラメータのみを見積もる必要があった。 実際、エージェントエラー分布は任意の形状を示し、より柔軟にモデル化されるべきである。 第2に、全ての観測においてエージェントの実行エラーが一定であったと仮定した。 特に人間エージェントの場合、実行エラーは時間とともに変化し、これは効果的な見積もりを得るために考慮する必要がある。 これら2つの欠点を克服するために,この問題に対する新しい粒子フィルタに基づく推定器を提案する。 この近似推定器の詳細を説明した後、様々な設計決定を実験的に検討し、様々な設定で過去の技術推定器と性能を比較して改善点を示す。 結果は、エージェントのより現実的で時間的に変化する実行スキルの見積もりを生成することができる推定器であり、エージェントがより良い意思決定を行い、全体的なパフォーマンスを改善するのを助けるのに使用できる。

In many real-world continuous action domains, human agents must decide which actions to attempt and then execute those actions to the best of their ability. However, humans cannot execute actions without error. Human performance in these domains can potentially be improved by the use of AI to aid in decision-making. One requirement for an AI to correctly reason about what actions a human agent should attempt is a correct model of that human's execution error, or skill. Recent work has demonstrated successful techniques for estimating this execution error with various types of agents across different domains. However, this previous work made several assumptions that limit the application of these ideas to real-world settings. First, previous work assumed that the error distributions were symmetric normal, which meant that only a single parameter had to be estimated. In reality, agent error distributions might exhibit arbitrary shapes and should be modeled more flexibly. Second, it was assumed that the execution error of the agent remained constant across all observations. Especially for human agents, execution error changes over time, and this must be taken into account to obtain effective estimates. To overcome both of these shortcomings, we propose a novel particle-filter-based estimator for this problem. After describing the details of this approximate estimator, we experimentally explore various design decisions and compare performance with previous skill estimators in a variety of settings to showcase the improvements. The outcome is an estimator capable of generating more realistic, time-varying execution skill estimates of agents, which can then be used to assist agents in making better decisions and improve their overall performance.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# 強く相互作用するRydberg原子におけるマイクロ波駆動の多重性

Microwave-driven multistability in a strongly interacting Rydberg atoms ( http://arxiv.org/abs/2408.10514v1 )

ライセンス: Link先を確認
Yu Ma, Bang Liu, Li-Hua Zhang, Ya-Jun Wang, Zheng-Yuan Zhang, Shi-Yao Shao, Qing Li, Han-Chao Chen, Jun Zhang, Tian-Yu Han, Qi-Feng Wang, Jia-Dou Nan, Yi-Ming Ying, Dong-Yang Zhu, Bao-Sen Shi, Dong-Sheng Ding, (参考訳) ライドバーグ原子とマイクロ波場の相互作用は、平衡、エキゾチック相、および多体物理学における臨界現象から複雑な力学を研究するための貴重な枠組みとなる。 このユニークな相互作用により、非線形性や相転移の様々な状態を探ることができる。 ここでは、Z3対称性の破れに伴うマイクロ波場強度の変化により、安定状態の状態から強く相互作用するリドベルク原子の多重性への相転移を観察する。 相転移の間、システムは隠れた臨界点を経験し、マルチスタブル状態の特定が困難である。 システムの初期状態を変更することで、隠れた多安定状態を特定し、位相遷移の隠れた軌跡を明らかにすることができ、隠れた臨界点まで追跡することができる。 さらに,スペクトルの複数相転移を観測し,高次対称性の破れを示唆する。 報告された結果は、散逸性リドバーグ原子系における乗算可能性の操作に光を当て、非平衡多体物理学の応用に期待を持てる。

The interactions between Rydberg atoms and microwave fields provide a valuable framework for studying the complex dynamics out of equilibrium, exotic phases, and critical phenomena in many-body physics. This unique interplay allows us to explore various regimes of nonlinearity and phase transitions. Here, we observe a phase transition from the state in the regime of bistability to that in multistability in a strongly interacting Rydberg atoms by varying the microwave field intensity, accompanying with the breaking of Z3-symmetry. During the phase transition, the system experiences a hidden critical point, in which the multistable states are difficult to be identified. Through changing the initial state of system, we can identify a hidden multistable state and reveal a hidden trajectory of phase transition, allowing us to track to a hidden critical point. In addition, we observe multiple phase transitions in spectra, suggesting higher-order symmetry breaking. The reported results shed light on manipulating multistability in dissipative Rydberg atoms systems and hold promise in the applications of non-equilibrium many-body physics.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# 低リソースユーザグループへの音声対話システム適応のための対話フローとスタイルを統合したデータ拡張

Data Augmentation Integrating Dialogue Flow and Style to Adapt Spoken Dialogue Systems to Low-Resource User Groups ( http://arxiv.org/abs/2408.10516v1 )

ライセンス: Link先を確認
Zhiyang Qi, Michimasa Inaba, (参考訳) 本研究では、音声対話システム(SDS)が抱える相互作用の課題について、データ不足のシナリオにおいて、会話行動、特に未成年者が異なるユーザと対話する際の課題について考察する。 限られたリソースを持つユーザグループのSDS性能を向上させるための新しいデータ拡張フレームワークを提案する。 提案手法では,対話行動履歴をシミュレートするために,大規模言語モデル(LLM)を用いて話者スタイルと事前学習言語モデル(PLM)を抽出する。 この方法は、リッチでパーソナライズされた対話データを生成し、ユニークなユーザ層とのインタラクションを改善する。 本手法の有効性を検証し,より適応的で包括的な対話システムの開発を促進する可能性を明らかにする。

This study addresses the interaction challenges encountered by spoken dialogue systems (SDSs) when engaging with users who exhibit distinct conversational behaviors, particularly minors, in scenarios where data are scarce. We propose a novel data augmentation framework to enhance SDS performance for user groups with limited resources. Our approach leverages a large language model (LLM) to extract speaker styles and a pre-trained language model (PLM) to simulate dialogue act history. This method generates enriched and personalized dialogue data, facilitating improved interactions with unique user demographics. Extensive experiments validate the efficacy of our methodology, highlighting its potential to foster the development of more adaptive and inclusive dialogue systems.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# マルチモーダル入力トークンミキサーをマンバベース決定モデルに統合する:決定メタマンバ

Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba ( http://arxiv.org/abs/2408.10517v1 )

ライセンス: Link先を確認
Wall Kim, (参考訳) Return-Conditioned Transformer Decision Models (RCTDM) は、入力シーケンスの報酬をreturn-to-goに置き換えることで、オフライン強化学習におけるTransformerパフォーマンスを向上させる可能性を実証している。 しかし、限られた最適軌道からなるオフラインデータセットから最適なポリシーを学習する目的を達成するために、RTTDMは代替手法を必要とした。 1つの顕著なアプローチであるトラジェクトリーステッチは、ネットワークが複数のトラジェクトリを組み合わせて最適な経路を見つけることを可能にするように設計された。 補助的ネットワークを持たない変圧器のみを用いてこれを実装するには、強化学習においてマルコフ特性をよりよく捉えるために入力シーケンス長を短縮する必要がある。 しかし、これは行動推論の精度を低下させるためトレードオフをもたらした。 そこで本研究では,これらの課題を解決するために,Decision MetaMambaというモデルを紹介した。 DMMは入力トークンミキサーを用いて短いシーケンスからパターンを抽出し、ステートスペースモデル(SSM)を用いて比較的離れたシーケンスから情報を選択的に結合する。 Metaformerにインスパイアされたこの構造は、Mambaの入力層を様々なマルチモーダル層に変換することによって開発された。 幸いなことに、並列選択走査を用いて実装されたMambaの出現により、変換器を交換できる高性能なシーケンスモデルを実現した。 これらのイノベーションに基づいて、DMMはオフラインRLの様々なデータセットに対して優れた性能を示し、SSMを用いたモデルが入力層のドメイン固有の変更によって性能を向上させることを確認した。 さらに、パラメータが少ない軽量モデルでも性能を維持した。 これらの結果から,SSMに基づく意思決定モデルが今後の発展における成果の道を開くことが示唆された。

Return-Conditioned Transformer Decision Models (RCTDM) have demonstrated the potential to enhance transformer performance in offline reinforcement learning by replacing rewards in the input sequence with returns-to-go. However, to achieve the goal of learning an optimal policy from offline datasets composed of limited suboptimal trajectories, RCTDM required alternative methods. One prominent approach, trajectory stitching, was designed to enable the network to combine multiple trajectories to find the optimal path. To implement this using only transformers without auxiliary networks, it was necessary to shorten the input sequence length to better capture the Markov property in reinforcement learnings. This, however, introduced a trade-off, as it reduced the accuracy of action inference. Our study introduces a model named Decision MetaMamba to resolve these challenges. DMM employs an input token mixer to extract patterns from short sequences and uses a State Space Model (SSM) to selectively combine information from relatively distant sequences. Inspired by Metaformer, this structure was developed by transforming Mamba's input layer into various multi-modal layers. Fortunately, with the advent of Mamba, implemented using parallel selective scanning, we achieved a high-performance sequence model capable of replacing transformers. Based on these innovations, DMM demonstrated excellent performance across various datasets in offline RL, confirming that models using SSM can improve performance by domain-specific alterations of the input layer. Additionally, it maintained its performance even in lightweight models with fewer parameters. These results suggest that decision models based on SSM can pave the way for improved outcomes in future developments.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# BAUST Lipi: ディープラーニングに基づくバングラ手話認識を用いたBdSLデータセット

BAUST Lipi: A BdSL Dataset with Deep Learning Based Bangla Sign Language Recognition ( http://arxiv.org/abs/2408.10518v1 )

ライセンス: Link先を確認
Md Hadiuzzaman, Mohammed Sowket Ali, Tamanna Sultana, Abdur Raj Shafi, Abu Saleh Musa Miah, Jungpil Shin, (参考訳) 人々は様々な媒体を通して英語、アラビア語、ベンガル語でコミュニケーションをとる。 しかし、聴覚障害や難聴の個人は、主にボディランゲージと手話を使用して、自身のニーズを表現し、独立を達成する。 聴覚障害者コミュニティとのコミュニケーションを強化するために、手話の研究が盛んである。 多くの研究者がフランス語、イギリス語、アラビア語、トルコ語、アメリカなどの手話の認識に力を注いでいるが、バングラ手話(BdSL)についてはあまり満足のいく結果が得られていない。 重要な障壁の1つは、包括的なBangla手話データセットがないことである。 そこで本研究では,224×224ピクセルの18,000個の画像からなるBdSLデータセットを新たに導入した。 我々のデータセットは36のベンガル記号を含み、そのうち30は子音、残りの6つは母音である。 データセットのコントリビューションにもかかわらず、既存のシステムの多くは、BdSLの高性能な精度を保ち続けています。 そこで我々は,複数の畳み込み層,アクティベーション機能,ドロップアウト技術,LSTM層を統合したハイブリッド畳み込みニューラルネットワーク(CNN)モデルを考案した。 新たに作成したBdSLデータセットを用いてハイブリッドCNNモデルを評価した結果,精度97.92\%を達成した。 BdSLデータセットとハイブリッドCNNモデルの両方が、BdSL研究において重要なマイルストーンとして認識されると確信しています。

People commonly communicate in English, Arabic, and Bengali spoken languages through various mediums. However, deaf and hard-of-hearing individuals primarily use body language and sign language to express their needs and achieve independence. Sign language research is burgeoning to enhance communication with the deaf community. While many researchers have made strides in recognizing sign languages such as French, British, Arabic, Turkish, and American, there has been limited research on Bangla sign language (BdSL) with less-than-satisfactory results. One significant barrier has been the lack of a comprehensive Bangla sign language dataset. In our work, we introduced a new BdSL dataset comprising alphabets totaling 18,000 images, with each image being 224x224 pixels in size. Our dataset encompasses 36 Bengali symbols, of which 30 are consonants and the remaining six are vowels. Despite our dataset contribution, many existing systems continue to grapple with achieving high-performance accuracy for BdSL. To address this, we devised a hybrid Convolutional Neural Network (CNN) model, integrating multiple convolutional layers, activation functions, dropout techniques, and LSTM layers. Upon evaluating our hybrid-CNN model with the newly created BdSL dataset, we achieved an accuracy rate of 97.92\%. We are confident that both our BdSL dataset and hybrid CNN model will be recognized as significant milestones in BdSL research.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# XCB: 音声認識におけるバイアス言語間フレーズに対する効果的な文脈バイアス手法

XCB: an effective contextual biasing approach to bias cross-lingual phrases in speech recognition ( http://arxiv.org/abs/2408.10524v1 )

ライセンス: Link先を確認
Xucheng Wan, Naijun Zheng, Kai Liu, Huan Zhou, (参考訳) コンテクスト化されたASRモデルは、事前定義されたフレーズリストが利用可能である場合に、一般的でないフレーズの認識精度を効果的に向上する。 しかしながら、これらのモデルは、コードスイッチング音声認識でよく見られるバイリンガル設定に苦しむことが多い。 本研究では,言語間コンテキストバイアス(XCB)モジュールを導入することで,この問題に対処するための最初の試みを行う。 具体的には、補助言語バイアスモジュールと補助言語固有の損失を統合することで、支配言語に対する事前訓練されたASRモデルを強化し、二次言語におけるフレーズの認識を高めることを目的とする。 社内のコードスイッチングデータセットで行った実験結果から,提案手法の有効性が検証され,追加の推論オーバーヘッドを伴わずとも,二次言語における偏見文認識の大幅な改善が示された。 さらに,本システムでは,未確認のASRU-2019テストセットで適用した場合の効率性と一般化の両立を図っている。

Contextualized ASR models have been demonstrated to effectively improve the recognition accuracy of uncommon phrases when a predefined phrase list is available. However, these models often struggle with bilingual settings, which are prevalent in code-switching speech recognition. In this study, we make the initial attempt to address this challenge by introducing a Cross-lingual Contextual Biasing(XCB) module. Specifically, we augment a pre-trained ASR model for the dominant language by integrating an auxiliary language biasing module and a supplementary language-specific loss, aimed at enhancing the recognition of phrases in the secondary language. Experimental results conducted on our in-house code-switching dataset have validated the efficacy of our approach, demonstrating significant improvements in the recognition of biasing phrases in the secondary language, even without any additional inference overhead. Additionally, our proposed system exhibits both efficiency and generalization when is applied by the unseen ASRU-2019 test set.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# EdgeNAT: 効率的なエッジ検出のためのトランス

EdgeNAT: Transformer for Efficient Edge Detection ( http://arxiv.org/abs/2408.10527v1 )

ライセンス: Link先を確認
Jinghuai Jie, Yan Guo, Guixing Wu, Junmin Wu, Baojian Hua, (参考訳) トランスフォーマーは強力な特徴抽出能力で知られており、様々な視覚タスクにおいて顕著な役割を担っている。 特に近年のDilated Neighborhood Attention Transformer (DiNAT) のような階層構造を持つ変圧器は, グローバル・ローカル両方の特徴を効率的に捉える能力に優れていた。 しかし、エッジ検出におけるトランスの応用は十分に活用されていない。 本稿では,DiNATをエンコーダとする一段変圧器を用いたエッジ検出器EdgeNATを提案する。 一方、EdgeNATは、グローバルなコンテキスト情報と、DiNATによる詳細なローカルキューをキャプチャする一方で、特徴マップの空間的およびチャネル間関係を利用して、新しいSCAF-MLAデコーダによる特徴表現を強化する。 複数のデータセットに対する大規模な実験により,RGB画像と深度画像の両方で最先端の性能が得られた。 特に,広く使用されているBSDS500データセットでは,ODS F測定値が86.0%,OIS F測定値が87.6%,マルチスケール入力値が84.9%,シングルスケール入力値が86.3%,現在の最先端EDTERが1.2%,1.1%,1.7%,そして1.6%をそれぞれ上回っている。 さらにスループットに関しては,RTX 4090 GPU上で20.87 FPSでシングルスケール入力を行う。 私たちのメソッドのコードはまもなくリリースされます。

Transformers, renowned for their powerful feature extraction capabilities, have played an increasingly prominent role in various vision tasks. Especially, recent advancements present transformer with hierarchical structures such as Dilated Neighborhood Attention Transformer (DiNAT), demonstrating outstanding ability to efficiently capture both global and local features. However, transformers' application in edge detection has not been fully exploited. In this paper, we propose EdgeNAT, a one-stage transformer-based edge detector with DiNAT as the encoder, capable of extracting object boundaries and meaningful edges both accurately and efficiently. On the one hand, EdgeNAT captures global contextual information and detailed local cues with DiNAT, on the other hand, it enhances feature representation with a novel SCAF-MLA decoder by utilizing both inter-spatial and inter-channel relationships of feature maps. Extensive experiments on multiple datasets show that our method achieves state-of-the-art performance on both RGB and depth images. Notably, on the widely used BSDS500 dataset, our L model achieves impressive performances, with ODS F-measure and OIS F-measure of 86.0%, 87.6% for multi-scale input,and 84.9%, and 86.3% for single-scale input, surpassing the current state-of-the-art EDTER by 1.2%, 1.1%, 1.7%, and 1.6%, respectively. Moreover, as for throughput, our approach runs at 20.87 FPS on RTX 4090 GPU with single-scale input. The code for our method will be released soon.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# NoMatterXAI: Black-Box テキスト分類モデルの記述例

NoMatterXAI: Generating "No Matter What" Alterfactual Examples for Explaining Black-Box Text Classification Models ( http://arxiv.org/abs/2408.10528v1 )

ライセンス: Link先を確認
Tuc Nguyen, James Michels, Hua Shen, Thai Le, (参考訳) 説明可能なAI(XAI: Explainable AI)では、AIモデルの予測を説明するために、"What if"の対照的な推論を通じて機能関連を伝達する、反実的説明(CE)がよく研究されている。 しかし、それらは重要な(すなわち、関連する)機能のみに焦点を当て、重要でない(すなわち、無関係な)ものを無視している。 このような無関係な機能は、特にAIモデルの決定が、性別、人種、宗教、政治的所属といった特定の属性に影響されないか、偏見がないかを確認する必要がある場合、多くのアプリケーションにおいて重要である。 このギャップに対処するため, 構造的説明(AE)の概念が提案されている。 AEは、類似した予測出力を維持しながら、同じ属性(例えば、"republicans" -> "democrats")内の別の特徴(例えば、"republicans" -> "democrats")に置き換えられる「何があっても」という代替的な現実を探求する。 これは、AIモデル予測が指定された属性に影響されているかどうかを検証するのに役立つ。 AEsの約束にもかかわらず、それらを体系的に生成するための計算アプローチが欠如している。特にテキストドメインでは、AIテキスト分類器用のAEsを作成することがユニークな課題である。 本稿では,AE生成を最適化問題として定式化し,テキスト分類タスク用のAEを生成する新しいアルゴリズムであるMoMatterXAIを導入することで,この問題に対処する。 提案手法は,複数のモデルやデータセットに対して90%以上のコンテキスト類似性を保ちながら,最大95%の忠実度を達成する。 人間による研究は、AIテキスト分類器をエンドユーザに説明する際のAEsの有効性をさらに検証する。 すべてのコードは公開されます。

In Explainable AI (XAI), counterfactual explanations (CEs) are a well-studied method to communicate feature relevance through contrastive reasoning of "what if" to explain AI models' predictions. However, they only focus on important (i.e., relevant) features and largely disregard less important (i.e., irrelevant) ones. Such irrelevant features can be crucial in many applications, especially when users need to ensure that an AI model's decisions are not affected or biased against specific attributes such as gender, race, religion, or political affiliation. To address this gap, the concept of alterfactual explanations (AEs) has been proposed. AEs explore an alternative reality of "no matter what", where irrelevant features are substituted with alternative features (e.g., "republicans" -> "democrats") within the same attribute (e.g., "politics") while maintaining a similar prediction output. This serves to validate whether AI model predictions are influenced by the specified attributes. Despite the promise of AEs, there is a lack of computational approaches to systematically generate them, particularly in the text domain, where creating AEs for AI text classifiers presents unique challenges. This paper addresses this challenge by formulating AE generation as an optimization problem and introducing MoMatterXAI, a novel algorithm that generates AEs for text classification tasks. Our approach achieves high fidelity of up to 95% while preserving context similarity of over 90% across multiple models and datasets. A human study further validates the effectiveness of AEs in explaining AI text classifiers to end users. All codes will be publicly available.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# ディープラーニングフレームワークにおけるアルゴリズム負債の自動検出:実証的研究

Automated Detection of Algorithm Debt in Deep Learning Frameworks: An Empirical Study ( http://arxiv.org/abs/2408.10529v1 )

ライセンス: Link先を確認
Emmanuel Iko-Ojo Simon, Chirath Hettiarachchi, Alex Potanin, Hanna Suominen, Fatemeh Fard, (参考訳) コンテキスト: 最近の研究は、機械学習(ML/DL)モデルがソースコードのコメントからSelf-Admitted Technical Debt(SATD)と呼ばれる技術的負債を検出できることを示した。 ソフトウェア開発におけるML/DLの重要性にもかかわらず、限定的な研究は、新しいSATDタイプの自動検出に焦点を当てている。 AD検出は、TDを早期に識別し、研究、学習を促進し、モデル劣化とスケーラビリティの欠如に関連する問題の蓄積を防止するために重要である。 Aim: ML/DLモデルのAD検出性能を改善することが目標です。 方法: TF-IDF, Count Vectorizer, Hash Vectorizer, TD-indicative words を用いて, ML/DL分類器を用いて, AD検出を改善する特徴を特定する。 AD、互換性、欠陥、設計、ドキュメント、要求、テスト負債に手動で分類された7つのDLフレームワークから収集された既存のデータセットを使用します。 MLモデルの機能をさらに強化するために,様々な単語埋め込み手法について検討する。 これらの埋め込みは、ROBERTA、ALBERTv2、および大規模な言語モデル(LLMs:INSTRUCTOR、VOYAGE AI)のようなDLで作成されたモデルから提供される。 AD関連用語を取り入れてデータセットを強化し、さまざまなML/DL分類器、サポートベクトルマシン、ロジスティック回帰、ランダムフォレスト、ROBERTA、ALBERTv2をトレーニングします。

Context: Recent studies demonstrate that Machine or Deep Learning (ML/DL) models can detect Technical Debt from source code comments called Self-Admitted Technical Debt (SATD). Despite the importance of ML/DL in software development, limited studies focus on automated detection for new SATD types: Algorithm Debt (AD). AD detection is important because it helps to identify TD early, facilitating research, learning, and preventing the accumulation of issues related to model degradation and lack of scalability. Aim: Our goal is to improve AD detection performance of various ML/DL models. Method: We will perform empirical studies using approaches: TF-IDF, Count Vectorizer, Hash Vectorizer, and TD-indicative words to identify features that improve AD detection, using ML/DL classifiers with different data featurisations. We will use an existing dataset curated from seven DL frameworks where comments were manually classified as AD, Compatibility, Defect, Design, Documentation, Requirement, and Test Debt. We will explore various word embedding methods to further enrich features for ML models. These embeddings will be from models founded in DL such as ROBERTA, ALBERTv2, and large language models (LLMs): INSTRUCTOR and VOYAGE AI. We will enrich the dataset by incorporating AD-related terms, then train various ML/DL classifiers, Support Vector Machine, Logistic Regression, Random Forest, ROBERTA, and ALBERTv2.
翻訳日:2024-08-21 15:13:44 公開日:2024-08-20
# NutrifyAI: リアルタイム食品検出、栄養分析、パーソナライズされた食事レコメンデーションのためのAIを利用したシステム

NutrifyAI: An AI-Powered System for Real-Time Food Detection, Nutritional Analysis, and Personalized Meal Recommendations ( http://arxiv.org/abs/2408.10532v1 )

ライセンス: Link先を確認
Michelle Han, Junyao Chen, (参考訳) 2022年にはダイエットアプリや栄養アプリが14億人に達したので、MyFitnessPal、Noom、Calorie Counterといった健康アプリが人気を集めています。 しかし、ほぼ全ての栄養学応用の大きな欠点は、ユーザが手動で食品データを入力する必要があることである。 このように、食品を正確に識別し、栄養内容を分析し、リアルタイムに食事推奨を提供するアプリケーションへの需要が高まっている。 本稿では,先進的なコンピュータビジョン技術と栄養分析を組み合わせた総合システムを提案する。 システムは3つの重要な構成要素に分けられる。 1) YOLOv8モデルを用いた食品検出 2)エダマム栄養分析APIによる栄養分析,及び 3)Edamam Meal Planning and Recipe Search APIを用いたパーソナライズされた食事レコメンデーション。 モバイルプラットフォームとWebプラットフォームの両方向けに設計されたこのアプリケーションは、Chart.jsを使ったデータ視覚化、ログインシステム、食事の好み、アレルギー、料理の選択のためのパーソナライズされた設定などの機能を備えた、直感的なユーザーインターフェイスで高速な処理時間を保証している。 予備的な結果はシステムの有効性を示し、ユーザが食事に関する決定を下すための貴重なツールとなる。

With diet and nutrition apps reaching 1.4 billion users in 2022 [1], it's no surprise that health apps like MyFitnessPal, Noom, and Calorie Counter, are surging in popularity. However, one major setback [2] of nearly all nutrition applications is that users must enter food data manually, which is time-consuming and tedious. Thus, there has been an increasing demand for applications that can accurately identify food items, analyze their nutritional content, and offer dietary recommendations in real-time. This paper introduces a comprehensive system that combines advanced computer vision techniques with nutrition analysis, implemented in a versatile mobile and web application. The system is divided into three key components: 1) food detection using the YOLOv8 model, 2) nutrient analysis via the Edamam Nutrition Analysis API, and 3) personalized meal recommendations using the Edamam Meal Planning and Recipe Search APIs. Designed for both mobile and web platforms, the application ensures fast processing times with an intuitive user interface, with features such as data visualizations using Chart.js, a login system, and personalized settings for dietary preferences, allergies, and cuisine choices. Preliminary results showcase the system's effectiveness, making it a valuable tool for users to make informed dietary decisions.
翻訳日:2024-08-21 15:13:43 公開日:2024-08-20
# FAGStyle:Zero-shot Text-Guided Diffusion Image Style Transferのための測地面上の特徴拡張

FAGStyle: Feature Augmentation on Geodesic Surface for Zero-shot Text-guided Diffusion Image Style Transfer ( http://arxiv.org/abs/2408.10533v1 )

ライセンス: Link先を確認
Yuexing Han, Liheng Ruan, Bing Wang, (参考訳) イメージスタイル転送の目標は、オリジナルのコンテンツを維持しながら、スタイル参照によってガイドされたイメージをレンダリングすることである。 既存の画像誘導方式は、特定のスタイルの参照画像に依存し、適用範囲を制限し、結果の品質を損なう可能性がある。 フレキシブルな代替手段として、テキスト誘導方式では、ユーザーはテキストプロンプトを使って所望のスタイルを記述できる。 その汎用性にもかかわらず、これらの手法はスタイルの一貫性を維持し、記述されたスタイルを正確に反映し、ターゲット画像の内容を保存するのに苦労することが多い。 これらの課題に対処するために、ゼロショットテキスト誘導拡散画像スタイル転送方式であるFAGStyleを紹介する。 Sliding Window Crop 技術とGeodesic Surface の機能拡張を私たちのスタイル制御損失に組み込むことで,パッチ間の情報インタラクションを向上する。 さらに、コンテンツ整合性を確保するために、事前の自己相関整合性損失を統合する。 FAGStyleは既存の手法よりも優れた性能を示し、ソースイメージのセマンティックな内容を保持するスタイリゼーションを一貫して達成している。 実験の結果,FAGStyleの有効性は,様々なソース内容やスタイルで実証された。

The goal of image style transfer is to render an image guided by a style reference while maintaining the original content. Existing image-guided methods rely on specific style reference images, restricting their wider application and potentially compromising result quality. As a flexible alternative, text-guided methods allow users to describe the desired style using text prompts. Despite their versatility, these methods often struggle with maintaining style consistency, reflecting the described style accurately, and preserving the content of the target image. To address these challenges, we introduce FAGStyle, a zero-shot text-guided diffusion image style transfer method. Our approach enhances inter-patch information interaction by incorporating the Sliding Window Crop technique and Feature Augmentation on Geodesic Surface into our style control loss. Furthermore, we integrate a Pre-Shape self-correlation consistency loss to ensure content consistency. FAGStyle demonstrates superior performance over existing methods, consistently achieving stylization that retains the semantic content of the source image. Experimental results confirms the efficacy of FAGStyle across a diverse range of source contents and styles, both imagined and common.
翻訳日:2024-08-21 15:13:43 公開日:2024-08-20
# 単言語・多言語・多言語情報検索の同時最適化のための相乗的アプローチ

Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval ( http://arxiv.org/abs/2408.10536v1 )

ライセンス: Link先を確認
Adel Elmahdy, Sheng-Chieh Lin, Amin Ahmad, (参考訳) 異なる言語間での情報検索は、自然言語処理においてますます重要な課題となっている。 近年,多言語事前学習型言語モデルに基づくアプローチは顕著な成功を収めているが,一言語的,多言語的,多言語的な検索性能を犠牲にして最適化することがしばしばある。 本稿では,言語バイアスを軽減しつつ,単言語,言語横断,多言語設定におけるゼロショット検索性能を同時に向上するハイブリッドバッチ学習手法を提案する。 このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。 XQuAD-R, MLQA-R, MIRACLベンチマークデータセットを用いた実験により, 提案手法は, モノリンガルのみのトレーニングやクロスリンガルのみのトレーニングと比較して, 様々な言語をまたいだゼロショット検索や検索タスクにおいて, 同等あるいは優れた結果が得られることを示した。 ハイブリッドバッチトレーニングは、単言語学習と比較して、多言語検索における言語バイアスを大幅に低減する。 これらの結果は,多言語間のゼロショット検索性能を向上する言語に依存しない表現を学習するための提案手法の有効性を示す。

Information retrieval across different languages is an increasingly important challenge in natural language processing. Recent approaches based on multilingual pre-trained language models have achieved remarkable success, yet they often optimize for either monolingual, cross-lingual, or multilingual retrieval performance at the expense of others. This paper proposes a novel hybrid batch training strategy to simultaneously improve zero-shot retrieval performance across monolingual, cross-lingual, and multilingual settings while mitigating language bias. The approach fine-tunes multilingual language models using a mix of monolingual and cross-lingual question-answer pair batches sampled based on dataset size. Experiments on XQuAD-R, MLQA-R, and MIRACL benchmark datasets show that the proposed method consistently achieves comparable or superior results in zero-shot retrieval across various languages and retrieval tasks compared to monolingual-only or cross-lingual-only training. Hybrid batch training also substantially reduces language bias in multilingual retrieval compared to monolingual training. These results demonstrate the effectiveness of the proposed approach for learning language-agnostic representations that enable strong zero-shot retrieval performance across diverse languages.
翻訳日:2024-08-21 15:13:43 公開日:2024-08-20
# 点群セマンティックセグメンテーションにおけるクラス不均衡の緩和のためのサブスペースプロトタイプガイダンス

Subspace Prototype Guidance for Mitigating Class Imbalance in Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2408.10537v1 )

ライセンス: Link先を確認
Jiawei Han, Kaiqi Liu, Wei Li, Guangzhi Chen, (参考訳) ポイントクラウドセマンティックセグメンテーションは、インテリジェントエージェントの認識を著しく向上させる。 それでも、セグメンテーションネットワークの識別能力は、異なるカテゴリで利用可能なサンプルの量に影響される。 本稿では,クラス不均衡による認知バイアスを軽減するために,サブスペースのプロトタイプガイダンス(\textbf{SPG})を導入し,セグメンテーションネットワークのトレーニングを指導する。 具体的には、点雲は最初、特徴部分空間の生成の初期条件を提供するために、カテゴリごとに独立点集合に分離される。 補助分岐はエンコーダと投影ヘッドで構成され、これらの点集合を別個の特徴部分空間にマッピングする。 その後、現在分離している部分空間から抽出された特徴プロトタイプと過去の部分空間のプロトタイプが組み合わさって、メインブランチの機能空間をガイドし、マイノリティカテゴリの特徴の識別性を高める。 また、主枝の特徴空間から派生したプロトタイプを用いて補助枝の訓練を指導し、ネットワーク全体の一貫した収束を維持するための監督ループを形成する。 大規模な公開ベンチマーク(S3DIS, ScanNet v2, ScanNet200, Toronto-3D)で実施された実験により, 提案手法はセグメンテーション性能を大幅に改善し, 最先端の手法を上回ることを示す。 コードは \url{https://github.com/Javion11/PointLiBR.git} で公開されている。

Point cloud semantic segmentation can significantly enhance the perception of an intelligent agent. Nevertheless, the discriminative capability of the segmentation network is influenced by the quantity of samples available for different categories. To mitigate the cognitive bias induced by class imbalance, this paper introduces a novel method, namely subspace prototype guidance (\textbf{SPG}), to guide the training of segmentation network. Specifically, the point cloud is initially separated into independent point sets by category to provide initial conditions for the generation of feature subspaces. The auxiliary branch which consists of an encoder and a projection head maps these point sets into separate feature subspaces. Subsequently, the feature prototypes which are extracted from the current separate subspaces and then combined with prototypes of historical subspaces guide the feature space of main branch to enhance the discriminability of features of minority categories. The prototypes derived from the feature space of main branch are also employed to guide the training of the auxiliary branch, forming a supervisory loop to maintain consistent convergence of the entire network. The experiments conducted on the large public benchmarks (i.e. S3DIS, ScanNet v2, ScanNet200, Toronto-3D) and collected real-world data illustrate that the proposed method significantly improves the segmentation performance and surpasses the state-of-the-art method. The code is available at \url{https://github.com/Javion11/PointLiBR.git}.
翻訳日:2024-08-21 15:13:43 公開日:2024-08-20
# Pringle maneuver を用いた腹腔鏡下肝切除術における外科的ワークフロー認識とブロック効果の検出

Surgical Workflow Recognition and Blocking Effectiveness Detection in Laparoscopic Liver Resections with Pringle Maneuver ( http://arxiv.org/abs/2408.10538v1 )

ライセンス: Link先を確認
Diandian Guo, Weixin Si, Zhixi Li, Jialun Pei, Pheng-Ann Heng, (参考訳) 腹腔鏡下肝切除におけるプリングル手術 (PM) は, 肝血流を断続的に遮断することにより, 出血を減少させ, 明確な外科的観察を可能にすることを目的としている。 この外科的処置を包括的に監視し,非効率で長期にわたるブロックのタイムリーな警告を与えるために,我々は,ワークフロー認識と肝切除における有効性検出の2つの補完的AI支援手術モニタリングタスクを提案する。 前者は短期PMのリアルタイム取得に課題を呈し、後者は長期肝虚血状態の術中診断を含む。 これらの課題に対処するため,腹腔鏡下肝切除術50例の手術段階をカバーする25,037の動画フレームからなる,PmLR50という新しいデータセットを慎重に収集した。 さらに,PmLR50のオンラインベースラインであるPmNetを開発した。 このモデルは、短時間・長期の時間情報モデリングを効率的に行うために、マスク付き一時符号化(MTE)と圧縮シーケンスモデリング(CSM)を採用し、コントラスト型プロトタイプ分離(CPS)を組み込んで、同様の手術操作間の動作識別を強化する。 PmLR50ベンチマークでPmNetが既存の最先端の手術ワークフロー認識手法より優れていることを示す実験結果を得た。 本研究は腹腔鏡下肝外科領域における臨床応用の可能性について検討した。 ソースコードとデータは公開されます。

Pringle maneuver (PM) in laparoscopic liver resection aims to reduce blood loss and provide a clear surgical view by intermittently blocking blood inflow of the liver, whereas prolonged PM may cause ischemic injury. To comprehensively monitor this surgical procedure and provide timely warnings of ineffective and prolonged blocking, we suggest two complementary AI-assisted surgical monitoring tasks: workflow recognition and blocking effectiveness detection in liver resections. The former presents challenges in real-time capturing of short-term PM, while the latter involves the intraoperative discrimination of long-term liver ischemia states. To address these challenges, we meticulously collect a novel dataset, called PmLR50, consisting of 25,037 video frames covering various surgical phases from 50 laparoscopic liver resection procedures. Additionally, we develop an online baseline for PmLR50, termed PmNet. This model embraces Masked Temporal Encoding (MTE) and Compressed Sequence Modeling (CSM) for efficient short-term and long-term temporal information modeling, and embeds Contrastive Prototype Separation (CPS) to enhance action discrimination between similar intraoperative operations. Experimental results demonstrate that PmNet outperforms existing state-of-the-art surgical workflow recognition methods on the PmLR50 benchmark. Our research offers potential clinical applications for the laparoscopic liver surgery community. Source code and data will be publicly available.
翻訳日:2024-08-21 15:13:43 公開日:2024-08-20
# アルファラベルを使わずにマッチングモデルをトレーニングする

Training Matting Models without Alpha Labels ( http://arxiv.org/abs/2408.10539v1 )

ライセンス: Link先を確認
Wenze Liu, Zixuan Ye, Hao Lu, Zhiguo Cao, Xiangyu Yue, (参考訳) ラベル付けの難しさは、ディープ・イメージ・マッティングにおける長年の問題であった。 細かなラベルから逃れるために、フォアグラウンド/バックグラウンドを監督として粗いトリマップなどの粗いアノテーションを用いて調査する。 本研究は, 既知領域からの学習意味論と適切な仮定マッチング規則との協調が, 遷移領域におけるアルファ値の推測に有効であることが示唆された。 従来の画像マッチングにおける非局所原理に着想を得て,各画素近傍に方向距離整合損失(DDC損失)を構築し,入力画像に条件付けられたアルファ値を制限する。 DDC損失は、アルファマット上の類似の対と対応する画像上の距離が一貫することを強制する。 このようにして、アルファ値は学習された既知の領域から未知の遷移領域へと伝播することができる。 画像とトリマップのみを用いて、既知の損失と提案されたDDC損失の監視の下で、マッチングモデルをトレーニングすることができる。 AM-2K と P3M-10K データセットを用いた実験により,我々のパラダイムは,微ラベル教師付きベースラインと同等の性能を達成できる一方で,時として人間よりも満足度の高い結果が得られることが示された。 コードは \url{https://github.com/poppuppy/alpha-free-matting} で公開されている。

The labelling difficulty has been a longstanding problem in deep image matting. To escape from fine labels, this work explores using rough annotations such as trimaps coarsely indicating the foreground/background as supervision. We present that the cooperation between learned semantics from indicated known regions and proper assumed matting rules can help infer alpha values at transition areas. Inspired by the nonlocal principle in traditional image matting, we build a directional distance consistency loss (DDC loss) at each pixel neighborhood to constrain the alpha values conditioned on the input image. DDC loss forces the distance of similar pairs on the alpha matte and on its corresponding image to be consistent. In this way, the alpha values can be propagated from learned known regions to unknown transition areas. With only images and trimaps, a matting model can be trained under the supervision of a known loss and the proposed DDC loss. Experiments on AM-2K and P3M-10K dataset show that our paradigm achieves comparable performance with the fine-label-supervised baseline, while sometimes offers even more satisfying results than human-labelled ground truth. Code is available at \url{https://github.com/poppuppy/alpha-free-matting}.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# 大規模スピン1/2$場に対する位置演算子のローレンツ共分散とその固有状態

Lorentz-covariance of Position Operator and its Eigenstates for a massive spin $1/2$ field ( http://arxiv.org/abs/2408.10540v1 )

ライセンス: Link先を確認
Taeseung Choi, (参考訳) 我々は、スピン 1/2$ を持つ大体に対する位置作用素の導出を、ポアンカルイエ群の表現非依存形式で表現する。 最近導出されたローレンツ共変体スピン作用素を用いて、全角運動量式を通して対応する場の位置演算子を得る。 ディラックスピノル表現に作用して、場位置作用素の固有値はローレンツ共変時空座標の空間成分である4$-ベクトルに対応する。 電場位置演算子が状態の粒子と反粒子特性を保存することを示す。 したがって、場位置作用素は粒子と反粒子の双方の1粒子位置演算子として機能し、これにより、ディラック位置演算子に付随するジッテルベヴェーグング(Zitterbewegung)として知られる異常な高速振動項を避けることができる。 電場位置演算子は古典的自由粒子と同じ速度が得られることを示す。 場位置作用素の固有状態はニュートン-ウィグナー局所性基準を満たし、ローレンツ-共変法で変換する。 場位置演算子は、粒子と反粒子部分空間に作用するときに粒子位置演算子および反粒子位置演算子となり、どちらもエルミートである。 さらに、ディラックスピノル空間の粒子部分空間内では、場位置作用素はニュートン・ウィグナー位置作用素と同値であることを示す。

We present a derivation of a position operator for a massive field with spin $1/2$, expressed in a representation-independent form of the Poincar\'e group. Using the recently derived Lorentz-covariant field spin operator, we obtain a corresponding field position operator through the total angular momentum formula. Acting on the Dirac spinor representation, the eigenvalues of the field position operator correspond to the spatial components of the Lorentz-covariant space-time coordinate $4$-vector. We show that the field position operator preserves the particle and the antiparticle character of the states. Thus, the field position operator can serve as a one-particle position operator for both particles and antiparticles, thereby avoiding an unusual fast-oscillating term, known as the Zitterbewegung, associated with the Dirac position operator. We show that the field position operator yields the same velocity as a classical free particle. The eigenstates of the field position operator satisfy the Newton-Wigner locality criteria and transform in a Lorentz-covariant manner. The field position operator becomes particle position and antiparticle position operators when acting on the particle and the antiparticle subspaces, both of which are Hermitian. Additionally, we demonstrate that within the particle subspace of the Dirac spinor space, the field position operator is equivalent to the Newton-Wigner position operator.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# LSVOSチャレンジのRVOSトラック用インスタンス中心変換器:第3位

The Instance-centric Transformer for the RVOS Track of LSVOS Challenge: 3rd Place Solution ( http://arxiv.org/abs/2408.10541v1 )

ライセンス: Link先を確認
Bin Cao, Yisi Zhang, Hanyi Wang, Xingjian He, Jing Liu, (参考訳) Referring Video Object Segmentationは、自然言語で表現されたビデオ内のオブジェクトをセグメント化することを目的とした、新たなマルチモーダルタスクである。 本研究では,2つのインスタンス中心モデルを構築し,フレームレベルとインスタンスレベルの予測結果を融合する。 まず、時間的拡張を実現するためにクエリ初期化のためのDETRモデルにインスタンスマスクを導入し、空間的洗練のためにSAMを使用する。 第二に、インスタンスが参照されているかどうかに関わらず、バイナリインスタンスマスクの分類を行うインスタンス検索モデルを構築します。 最後に, 予測結果を融合し, 検証フェーズで52.67 J&F, テストフェーズで60.36 J&Fを達成し, 第6回LSVOSチャレンジRVOSトラックで3位となった。

Referring Video Object Segmentation is an emerging multi-modal task that aims to segment objects in the video given a natural language expression. In this work, we build two instance-centric models and fuse predicted results from frame-level and instance-level. First, we introduce instance mask into the DETR-based model for query initialization to achieve temporal enhancement and employ SAM for spatial refinement. Secondly, we build an instance retrieval model conducting binary instance mask classification whether the instance is referred. Finally, we fuse predicted results and our method achieved a score of 52.67 J&F in the validation phase and 60.36 J&F in the test phase, securing the final ranking of 3rd place in the 6-th LSVOS Challenge RVOS Track.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# Diff-PCC:3次元点雲の拡散に基づくニューラル圧縮

Diff-PCC: Diffusion-based Neural Compression for 3D Point Clouds ( http://arxiv.org/abs/2408.10543v1 )

ライセンス: Link先を確認
Kai Liu, Kang You, Pan Gao, (参考訳) 安定拡散ネットワークは、現実的で詳細な視覚コンテンツを制作する能力のために、画期的な発展を遂げている。 この特徴は、それらを理想的なデコーダで表現し、高品質で美的な再構築を可能にする。 本稿では,Diff-PCCと呼ばれる最初の拡散型点雲圧縮法を提案する。 従来のオートエンコーダ方式とは違って,2つの独立符号化バックボーンからなる圧縮機が,異なる潜在空間から表現型ラテントを抽出する,二重空間ラテント表現を考案した。 復号側では、ノイズの多い点雲を確率的に denoise するためのガイダンスとして、形状ラテントを考慮し、拡散型ジェネレータを設計し、高品質な再構成を行う。 実験により,提案したDiff-PCCの圧縮性能(例えば7.711dBのBD-PSNRは,最新のG-PCC標準を超低ビットレートで向上させるが,主観的品質は良好であることが示された。 ソースコードは公開されます。

Stable diffusion networks have emerged as a groundbreaking development for their ability to produce realistic and detailed visual content. This characteristic renders them ideal decoders, capable of producing high-quality and aesthetically pleasing reconstructions. In this paper, we introduce the first diffusion-based point cloud compression method, dubbed Diff-PCC, to leverage the expressive power of the diffusion model for generative and aesthetically superior decoding. Different from the conventional autoencoder fashion, a dual-space latent representation is devised in this paper, in which a compressor composed of two independent encoding backbones is considered to extract expressive shape latents from distinct latent spaces. At the decoding side, a diffusion-based generator is devised to produce high-quality reconstructions by considering the shape latents as guidance to stochastically denoise the noisy point clouds. Experiments demonstrate that the proposed Diff-PCC achieves state-of-the-art compression performance (e.g., 7.711 dB BD-PSNR gains against the latest G-PCC standard at ultra-low bitrate) while attaining superior subjective quality. Source code will be made publicly available.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# 語彙データに基づく言語モデリング:基礎・技法・進化のサーベイ

Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution ( http://arxiv.org/abs/2408.10548v1 )

ライセンス: Link先を確認
Yucheng Ruan, Xiang Lan, Jingying Ma, Yizhi Dong, Kai He, Mengling Feng, (参考訳) タブラルデータ(Tabular data)は、様々な領域にまたがる一般的なデータ型であり、その異種性や複雑な構造的関係から、ユニークな課題を提起する。 グラフデータ解析における高い予測性能と堅牢性を達成することは、多くのアプリケーションにとって大きな約束である。 近年の自然言語処理,特にトランスフォーマーアーキテクチャの進歩の影響により,表型データモデリングの新しい手法が出現している。 初期のテクニックは、スクラッチから事前トレーニングするトランスフォーマーに集中しており、しばしばスケーラビリティの問題に直面していた。 その後、BERTのような事前訓練された言語モデルを活用する手法が開発され、データが少なくなり、性能が向上した。 GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。 関心が高まっているにもかかわらず、表形式のデータに対する言語モデリング技術に関する包括的な調査はいまだに残っていない。 本稿では,(1)表型データ構造とデータ型の違いの分類,(2)モデルトレーニングや評価に使用される重要なデータセットのレビュー,(3)広く採用されているデータ処理手法,一般的なアーキテクチャ,トレーニング目的を含むモデリング技術の要約,(4)従来の事前学習・事前学習型モデルから大規模言語モデルへの適応,(5)表型データ解析のための言語モデリングにおける永続的課題と今後の研究方向の同定,といった課題を包含して,このギャップを埋める。 この調査に関連するGitHubページは、https://github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git.comで公開されている。

Tabular data, a prevalent data type across various domains, presents unique challenges due to its heterogeneous nature and complex structural relationships. Achieving high predictive performance and robustness in tabular data analysis holds significant promise for numerous applications. Influenced by recent advancements in natural language processing, particularly transformer architectures, new methods for tabular data modeling have emerged. Early techniques concentrated on pre-training transformers from scratch, often encountering scalability issues. Subsequently, methods leveraging pre-trained language models like BERT have been developed, which require less data and yield enhanced performance. The recent advent of large language models, such as GPT and LLaMA, has further revolutionized the field, facilitating more advanced and diverse applications with minimal fine-tuning. Despite the growing interest, a comprehensive survey of language modeling techniques for tabular data remains absent. This paper fills this gap by providing a systematic review of the development of language modeling for tabular data, encompassing: (1) a categorization of different tabular data structures and data types; (2) a review of key datasets used in model training and tasks used for evaluation; (3) a summary of modeling techniques including widely-adopted data processing methods, popular architectures, and training objectives; (4) the evolution from adapting traditional Pre-training/Pre-trained language models to the utilization of large language models; (5) an identification of persistent challenges and potential future research directions in language modeling for tabular data analysis. GitHub page associated with this survey is available at: https://github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# AIベースのIVR

AI-Based IVR ( http://arxiv.org/abs/2408.10549v1 )

ライセンス: Link先を確認
Gassyrbek Kosherbay, Nurgissa Apbaz, (参考訳) 従来のIVR(Interactive Voice Response)手法は、顧客のニーズを満たすには不十分であることがしばしば証明される。 本稿では,コールセンターにおけるIVRシステムの効率向上のための人工知能(AI)技術の適用について検討する。 提案手法は、音声からテキストへの変換ソリューションの統合、大規模言語モデル(LLM)を用いたテキストクエリ分類、音声合成に基づく。 特別なデータセットの微調整モデルを含む、カザフ語で動くようにこれらの技術を適用することには、特に注意が払われている。 本稿では,クエリ分類のための実コールセンタにおけるシステム実装の実践的側面について述べる。 その結果、コールセンタIVRシステムにおけるAI技術の応用は、オペレータの作業量を削減し、顧客のサービス品質を向上し、クエリ処理の効率化を図っている。 提案手法は、様々な言語で動作するコールセンターでの使用に適応することができる。

The use of traditional IVR (Interactive Voice Response) methods often proves insufficient to meet customer needs. This article examines the application of artificial intelligence (AI) technologies to enhance the efficiency of IVR systems in call centers. A proposed approach is based on the integration of speech-to-text conversion solutions, text query classification using large language models (LLM), and speech synthesis. Special attention is given to adapting these technologies to work with the Kazakh language, including fine-tuning models on specialized datasets. The practical aspects of implementing the developed system in a real call center for query classification are described. The research results demonstrate that the application of AI technologies in call center IVR systems reduces operator workload, improves customer service quality, and increases the efficiency of query processing. The proposed approach can be adapted for use in call centers operating with various languages.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# スパースグラフを用いた連続時間量子ウォークの実現

Implementation of Continuous-Time Quantum Walk on Sparse Graph ( http://arxiv.org/abs/2408.10553v1 )

ライセンス: Link先を確認
Zhaoyang Chen, Guanzhong Li, Lvzhou Li, (参考訳) 連続時間量子ウォーク(CTQW)は、特に量子アルゴリズムの設計において、量子コンピューティングにおいて重要な役割を果たす。 しかし、CTQWを効率的に実装する方法は難しい問題である。 本稿では,分散グラフ上でのCTQWの実装,すなわち,単位演算子$e^{-iHt}$を実装するための効率的な量子回路の構築について検討する。 我々の結果は、$N$頂点と進化時間$t$を持つ$d$スパースグラフに対して、ゲート複雑性を持つ量子回路$(d^3 \|H\| t N \log N)^{1+o(1)}$を、$(\|H\| t N^4 \log N)^{1+o(1)}$のようにスケールする一般的なパウリ分解と比較して近似することができる。 スパースグラフ、例えば$d=O(1)$の場合、顕著な改善が得られる。 興味深いことに,本手法はグラフ分解に関係している。 より具体的には、グラフを星グラフの和に分解し、それに対応するハミルトニアン$H$は、いくつかのハミルトニアン$H_j$の和として表すことができ、それぞれ$e^{-iH_jt}$は、効率的に実装できる星グラフ上のCTQWである。

Continuous-time quantum walks (CTQWs) play a crucial role in quantum computing, especially for designing quantum algorithms. However, how to efficiently implement CTQWs is a challenging issue. In this paper, we study implementation of CTQWs on sparse graphs, i.e., constructing efficient quantum circuits for implementing the unitary operator $e^{-iHt}$, where $H=\gamma A$ ($\gamma$ is a constant and $A$ corresponds to the adjacency matrix of a graph). Our result is, for a $d$-sparse graph with $N$ vertices and evolution time $t$, we can approximate $e^{-iHt}$ by a quantum circuit with gate complexity $(d^3 \|H\| t N \log N)^{1+o(1)}$, compared to the general Pauli decomposition, which scales like $(\|H\| t N^4 \log N)^{1+o(1)}$. For sparse graphs, for instance, $d=O(1)$, we obtain a noticeable improvement. Interestingly, our technique is related to graph decomposition. More specifically, we decompose the graph into a union of star graphs, and correspondingly, the Hamiltonian $H$ can be represented as the sum of some Hamiltonians $H_j$, where each $e^{-iH_jt}$ is a CTQW on a star graph which can be implemented efficiently.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# 生成AIによるソフトウェアプログラミングの倫理: 生成AIによるプログラミングは常に急進的か?

Ethics of Software Programming with Generative AI: Is Programming without Generative AI always radical? ( http://arxiv.org/abs/2408.10554v1 )

ライセンス: Link先を確認
Marcellin Atemkeng, Sisipho Hamlomo, Brian Welman, Nicole Oyentunji, Pouya Ataei, Jean Louis K. E Fendji, (参考訳) 本稿では,ジェネレーティブAI(GenAI)の可能性について,効率の向上とコード記述時間の短縮を通じて,ソフトウェアコーディングに革命をもたらす可能性を包括的に分析する。 ソフトウェアコード生成におけるGenAIのトランスフォーメーション能力を認め、未確認の場合にはバイアスやエラーの固有のリスクに警告する。 従来のプログラミングの置き換え不可能な価値を強調して、GenAIは代替ではなく、ソフトウェアコードを書くための補完的なツールである、と論じている。 倫理的考察は、GenAIがより優れたものを提供し、ソフトウェアコードを書く際の説明責任を損なうことのないよう厳格な倫理的ガイドラインを提唱する論文の中で最重要である。 リスクを軽減し、信頼性を高めるために、人間の監視とAI能力を組み合わせたバランスのとれたアプローチを提案する。 この論文は、開発者が複雑さをナビゲートし、責任を持って採用することを可能にするコーディングにおけるGenAI活用のガイドラインを提案することで締めくくられている。 このアプローチは、現在の倫理的懸念に対処し、将来におけるGenAIの司法的利用の基礎を定め、その利益を道徳的整合性を維持しつつ効果的に活用することを保証する。

This paper provides a comprehensive analysis of Generative AI (GenAI) potential to revolutionise software coding through increased efficiency and reduced time span for writing code. It acknowledges the transformative power of GenAI in software code generation, while also cautioning against the inherent risks of bias and errors if left unchecked. Emphasising the irreplaceable value of traditional programming, it posits that GenAI is not a replacement but a complementary tool for writing software code. Ethical considerations are paramount with the paper advocating for stringent ethical guidelines to ensure GenAI serves the greater good and does not compromise on accountability in writing software code. It suggests a balanced approach, combining human oversight with AI's capabilities, to mitigate risks and enhance reliability. The paper concludes by proposing guidelines for GenAI utilisation in coding, which will empower developers to navigate its complexities and employ it responsibly. This approach addresses current ethical concerns and sets a foundation for the judicious use of GenAI in the future, ensuring its benefits are harnessed effectively while maintaining moral integrity.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# 時間的QoS予測のためのターゲットプロンプトオンライングラフ協調学習

Target-Prompt Online Graph Collaborative Learning for Temporal QoS Prediction ( http://arxiv.org/abs/2408.10555v1 )

ライセンス: Link先を確認
Shengxiang Hu, Guobing Zou, Song Yang, Shiyi Lin, Bofeng Zhang, Yixin Chen, (参考訳) サービス指向アーキテクチャでは、信頼性を維持し、ユーザの満足度を高めるために、QoS(Quality of Service)を正確に予測することが不可欠です。 しかし、現在の手法では、高次の遅延的協調関係を無視し、特定のユーザ・サービス呼び出しに対して機能学習を動的に調整することができないことが多い。 さらに、QoSの進化を捉えるためにRNNに依存すると、長距離依存関係管理の課題により、長期的なトレンドを検出する能力が制限される。 これらの課題に対処するために、時間的QoS予測のためのTarget-Prompt Online Graph Collaborative Learning(TOGCL)フレームワークを提案する。 動的ユーザサービス呼び出しグラフを利用して、過去のインタラクションを包括的にモデル化する。 このグラフに基づいて、暗黙的な協調関係と歴史的なQoS値を考慮して、ユーザやサービスのオンラインの深い潜伏した特徴を抽出するターゲットプロンプトグラフアテンションネットワークを開発する。 さらに、多層トランスフォーマーエンコーダを用いて、時間的特徴の進化パターンを解明し、時間的QoS予測を強化する。 WS-DREAMデータセットに関する大規模な実験は、TOGCLが複数のメトリクスにわたって最先端のメソッドを著しく上回り、最大38.80\%の改善を実現していることを示している。 これらの結果は,時間的QoS予測におけるTOGCLの有効性を裏付けるものである。

In service-oriented architecture, accurately predicting the Quality of Service (QoS) is vital for maintaining reliability and enhancing user satisfaction. However, current methods often neglect high-order latent collaborative relationships and fail to dynamically adjust feature learning for specific user-service invocations, which are critical for precise feature extraction. Moreover, relying on RNNs to capture QoS evolution limits the ability to detect long-term trends due to challenges in managing long-range dependencies. To address these issues, we propose the Target-Prompt Online Graph Collaborative Learning (TOGCL) framework for temporal QoS prediction. It leverages a dynamic user-service invocation graph to comprehensively model historical interactions. Building on this graph, it develops a target-prompt graph attention network to extract online deep latent features of users and services at each time slice, considering implicit target-neighboring collaborative relationships and historical QoS values. Additionally, a multi-layer Transformer encoder is employed to uncover temporal feature evolution patterns, enhancing temporal QoS prediction. Extensive experiments on the WS-DREAM dataset demonstrate that TOGCL significantly outperforms state-of-the-art methods across multiple metrics, achieving improvements of up to 38.80\%. These results underscore the effectiveness of TOGCL for temporal QoS prediction.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# Hokoff: キングスの名誉とオフライン強化学習ベンチマークによるリアルゲームデータセット

Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks ( http://arxiv.org/abs/2408.10556v1 )

ライセンス: Link先を確認
Yun Qu, Boyuan Wang, Jianzhun Shao, Yuhang Jiang, Chen Chen, Zhenbin Ye, Lin Liu, Junfeng Yang, Lin Lai, Hongyang Qin, Minwen Deng, Juchao Zhuo, Deheng Ye, Qiang Fu, Wei Yang, Guang Yang, Lanxiao Huang, Xiangyang Ji, (参考訳) オフライン強化学習(RL)とオフラインマルチエージェント強化学習(MARL)の進歩は、現実世界の複雑さと実践的な応用を表す高品質で事前コンパイルされたオフラインデータセットの可用性に依存している。 しかし、既存のデータセットは、単純さとリアリズムの欠如に欠けることが多い。 このギャップに対処するため、我々は、オフラインのRLとオフラインのMARLの両方をカバーする、事前コンパイルされたデータセットの包括的なセットであるHokoffを提案する。 このデータは、Multiplayer Online Battle Arena(MOBA)ゲームで、その複雑な性質で知られており、現実の状況によく似ている。 このフレームワークを利用することで、さまざまなオフラインRLおよびオフラインMARLアルゴリズムをベンチマークする。 また,ゲーム固有の階層的アクション空間に適した,新しいベースラインアルゴリズムを導入する。 タスク複雑性,一般化,マルチタスク学習における現在のオフラインRLアプローチの非効率性を明らかにする。

The advancement of Offline Reinforcement Learning (RL) and Offline Multi-Agent Reinforcement Learning (MARL) critically depends on the availability of high-quality, pre-collected offline datasets that represent real-world complexities and practical applications. However, existing datasets often fall short in their simplicity and lack of realism. To address this gap, we propose Hokoff, a comprehensive set of pre-collected datasets that covers both offline RL and offline MARL, accompanied by a robust framework, to facilitate further research. This data is derived from Honor of Kings, a recognized Multiplayer Online Battle Arena (MOBA) game known for its intricate nature, closely resembling real-life situations. Utilizing this framework, we benchmark a variety of offline RL and offline MARL algorithms. We also introduce a novel baseline algorithm tailored for the inherent hierarchical action space of the game. We reveal the incompetency of current offline RL approaches in handling task complexity, generalization and multi-task learning.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# 音声表現学習の再考:別個の学習可能なパラメータとロバストデータ強化の必要性

Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation ( http://arxiv.org/abs/2408.10557v1 )

ライセンス: Link先を確認
Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah, (参考訳) 音声モデリング手法は、通常10~25msで1つの音声セグメントの埋め込みを学習する。音声に含まれる情報は、「何を言っているか」(コンテンツ)と「どのように表現されているか」(他)の2つのカテゴリに分けられる。 これは、以前の研究で示されているように、1つまたはすべての下流タスクにおける準最適パフォーマンスをもたらす。 HuBERTのような現在の自己教師型学習(SSL)手法は、音声に含まれるコンテンツ情報のモデル化に非常に適している。 データ拡張は、他の情報の効果的なモデリングを必要とするタスクのパフォーマンスを改善するが、これはモデルの分割能力に繋がる。 本研究では,学習可能な別のパラメータを用いて,他の情報のモデリングの重要性を理解するための予備的研究を行う。 我々は我々の仮説をテストするためにHuBERTの修正版であるAther HuBERT (O-HuBERT)を提案する。 まず、O-HuBERT法は、すべてのレイヤを利用して、他の情報をエンコードする複雑な機能を構築することができる。第2に、他の情報に依存するタスクに必要な情報を学習するためには、堅牢なデータ拡張戦略が不可欠であり、同じ大きさのモデル(1億個のパラメータ)と事前学習データ(960時間)を持つSUPERBベンチマーク上で、最先端(SOTA)のパフォーマンスを達成する。

Speech modeling methods learn one embedding for a fixed segment of speech, typically in between 10-25 ms. The information present in speech can be divided into two categories: "what is being said" (content) and "how it is expressed" (other) and these two are orthogonal in nature causing the optimization algorithm to find a sub-optimal solution if forced to optimize together. This leads to sub-optimal performance in one or all downstream tasks as shown by previous studies. Current self-supervised learning (SSL) methods such as HuBERT are very good at modeling the content information present in speech. Data augmentation improves the performance on tasks which require effective modeling of other information but this leads to a divided capacity of the model. In this work, we conduct a preliminary study to understand the importance of modeling other information using separate learnable parameters. We propose a modified version of HuBERT, termed Other HuBERT (O-HuBERT), to test our hypothesis. Our findings are twofold: first, the O-HuBERT method is able to utilize all layers to build complex features to encode other information; second, a robust data augmentation strategy is essential for learning the information required by tasks that depend on other information and to achieve state-of-the-art (SOTA) performance on the SUPERB benchmark with a similarly sized model (100 million parameters) and pre-training data (960 hours).
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# Kalib:キーポイントトラッキングを備えたマーカーレスハンドアイキャリブレーション

Kalib: Markerless Hand-Eye Calibration with Keypoint Tracking ( http://arxiv.org/abs/2408.10562v1 )

ライセンス: Link先を確認
Tutian Tang, Minghao Liu, Wenqiang Xu, Cewu Lu, (参考訳) ハンドアイキャリブレーションでは、カメラとロボット間の変換を推定する。 伝統的な手法は、多くの手作業と注意深いセットアップを含む、フィデューシャルマーカーに依存している。 ディープラーニングの最近の進歩は、マーカーレス技術を提供しているが、それらは、各ロボットのためのネットワークの再トレーニングの必要性、データ生成のための正確なメッシュモデルの必要性、そして、sim-to-realギャップに対処する必要性など、課題を提示している。 本稿では,視覚基盤モデルの一般化性を活用し,これらの障壁を解消する自動的かつ普遍的マーカーレスハンドアイ校正パイプラインであるKalibを提案する。 キャリブレーションの各過程において、カリブは、ロボットの座標空間とカメラ空間の対応する点の間の変換を推定するために、キーポイントトラッキングとプロプリセプティブセンサーを使用する。 我々の手法は、新しいネットワークのトレーニングやメッシュモデルへのアクセスを必要としない。 シミュレーション環境と実世界のデータセットDROIDの評価を通じて、Kalibは最近のベースライン手法よりも精度が高いことを示した。 このアプローチは、セットアップを簡素化し、正確な物理的マーカーへの依存を取り除くことにより、様々なロボットシステムに対して効果的で柔軟な校正プロセスを提供する。

Hand-eye calibration involves estimating the transformation between the camera and the robot. Traditional methods rely on fiducial markers, involving much manual labor and careful setup. Recent advancements in deep learning offer markerless techniques, but they present challenges, including the need for retraining networks for each robot, the requirement of accurate mesh models for data generation, and the need to address the sim-to-real gap. In this letter, we propose Kalib, an automatic and universal markerless hand-eye calibration pipeline that leverages the generalizability of visual foundation models to eliminate these barriers. In each calibration process, Kalib uses keypoint tracking and proprioceptive sensors to estimate the transformation between a robot's coordinate space and its corresponding points in camera space. Our method does not require training new networks or access to mesh models. Through evaluations in simulation environments and the real-world dataset DROID, Kalib demonstrates superior accuracy compared to recent baseline methods. This approach provides an effective and flexible calibration process for various robot systems by simplifying setup and removing dependency on precise physical markers.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# 高階論理プログラミングのための安定モデル意味論

The Stable Model Semantics for Higher-Order Logic Programming ( http://arxiv.org/abs/2408.10563v1 )

ライセンス: Link先を確認
Bart Bogaerts, Angelos Charalambidis, Giannos Chatziagapis, Babis Kostopoulos, Samuele Pollaci, Panos Rondogiannis, (参考訳) 本稿では,高階論理プログラムのための安定モデルセマンティクスを提案する。 我々のセマンティクスは近似固定点理論 (AFT) を用いて開発されており、これは様々な非単調な形式主義に意味を与えるのに成功している。 提案された意味論は、古典的二値安定モデル意味論(Gelfond and Lifschitz 1988)を(Przymusinski 1990)の3値のセマンティクスとして一般化し、それらの望ましい性質を維持している。 AFT の使用により、高階論理プログラム、すなわちサポート対象モデル、Kripke-Kleene に対する無料の代替セマンティクスも提供される。 さらに、階層化された高階論理プログラムの幅広いクラスを定義し、それらのプログラムのしっかりとしたセマンティクスと一致する2値の高階安定モデルを持つことを実証する。 安定モデルセマンティクスの下での高階論理プログラミングは強力で汎用的な形式であり、新しいASPシステムの基礎を形成する可能性があることを実証する。

We propose a stable model semantics for higher-order logic programs. Our semantics is developed using Approximation Fixpoint Theory (AFT), a powerful formalism that has successfully been used to give meaning to diverse non-monotonic formalisms. The proposed semantics generalizes the classical two-valued stable model semantics of (Gelfond and Lifschitz 1988) as-well-as the three-valued one of (Przymusinski 1990), retaining their desirable properties. Due to the use of AFT, we also get for free alternative semantics for higher-order logic programs, namely supported model, Kripke-Kleene, and well-founded. Additionally, we define a broad class of stratified higher-order logic programs and demonstrate that they have a unique two-valued higher-order stable model which coincides with the well-founded semantics of such programs. We provide a number of examples in different application domains, which demonstrate that higher-order logic programming under the stable model semantics is a powerful and versatile formalism, which can potentially form the basis of novel ASP systems.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# SparseGrow: タスク非依存型継続的学習における成長誘導型学習への取り組み

SparseGrow: Addressing Growth-Induced Forgetting in Task-Agnostic Continual Learning ( http://arxiv.org/abs/2408.10566v1 )

ライセンス: Link先を確認
Yuqing Zhao, Divya Saxena, Jiannong Cao, Xiaoyun Liu, Changlin Song, (参考訳) 連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。 しかし、不適切なモデルの成長は、成長によって引き起こされる忘れ(GIFt)と呼ばれる、未学習の知識を著しく劣化させる可能性がある。 既存の研究は、モデル成長と適応性の向上のためにランダム初期化を採用するが、不適切なモデル成長によって引き起こされるGIFtの存在を認識できないことが多い。 この監視は、忘れることの包括的な制御を制限し、モデル成長の完全な利用を妨げる。 我々は、この問題を最初に特定し、GIFtの根本原因について詳細な研究を行い、モデル成長戦略の中で層拡大が際立っており、モデル機能に影響を与えない層を広げている。 しかし、レイヤー拡張の直接的な採用は課題を呈している。 データ駆動制御と、適応性と知識保持のバランスをとるために拡張されたパラメータの初期化が欠けている。 本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。 SparseGrowはデータ駆動のスパース層拡張を使用して、成長中の効率的なパラメータ使用量を制御し、過剰な成長と機能変更からGIFtを削減する。 また、トレーニング後期におけるスパース成長とオンデータ初期化を組み合わせて、学習された分散に適合し、保持性と適応性を高める、部分的に0値の拡張を生成します。 さらに忘れるのを最小にするため、スパースマスクを計算し、重要なパラメータのデータ駆動保存を可能にする。 さまざまな設定やケース,タスク番号を持つデータセットを対象とした実験を通じて,レイヤ拡張の必要性を実証し,GIFtを克服する上でのSparseGrowの有効性を示し,インクリメンタルタスクへの適応性と知識保持を強調した。

In continual learning (CL), model growth enhances adaptability over new data, improving knowledge retention for more tasks. However, improper model growth can lead to severe degradation of previously learned knowledge, an issue we name as growth-induced forgetting (GIFt), especially in task-agnostic CL using entire grown model for inference. Existing works, despite adopting model growth and random initialization for better adaptability, often fail to recognize the presence of GIFt caused by improper model growth. This oversight limits comprehensive control of forgetting and hinders full utilization of model growth. We are the first in CL to identify this issue and conduct an in-depth study on root cause of GIFt, where layer expansion stands out among model growth strategies, widening layers without affecting model functionality. Yet, direct adoption of layer expansion presents challenges. It lacks data-driven control and initialization of expanded parameters to balance adaptability and knowledge retention. This paper presents a novel SparseGrow approach to overcome the issue of GIFt while enhancing adaptability over new data. SparseGrow employs data-driven sparse layer expansion to control efficient parameter usage during growth, reducing GIFt from excessive growth and functionality changes. It also combines sparse growth with on-data initialization at training late-stage to create partially 0-valued expansions that fit learned distribution, enhancing retention and adaptability. To further minimize forgetting, freezing is applied by calculating the sparse mask, allowing data-driven preservation of important parameters. Through experiments across datasets with various settings, cases and task numbers, we demonstrate the necessity of layer expansion and showcase the effectiveness of SparseGrow in overcoming GIFt, highlighting its adaptability and knowledge retention for incremental tasks.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# 脳のプロンプト:fMRI事前訓練モデルの効率的な適応のためのスキャフォールド・プロンプト・チューニング

Prompt Your Brain: Scaffold Prompt Tuning for Efficient Adaptation of fMRI Pre-trained Model ( http://arxiv.org/abs/2408.10567v1 )

ライセンス: Link先を確認
Zijian Dong, Yilei Wu, Zijiao Chen, Yichi Zhang, Yueming Jin, Juan Helen Zhou, (参考訳) 我々は,大規模な機能的磁気共鳴画像(fMRI)を下流タスクに適用するための新しいプロンプトベースのフレームワークであるScaPT(Scffold Prompt Tuning)を紹介した。 これにより、学習した特徴空間を歪ませ、fMRIフィールドで一般的な限られたトレーニングデータで過度に適合する可能性がある。 対照的に、我々は高リソースタスクから低リソースタスクへ学習した知識を伝達する階層的なプロンプト構造を設計する。 この構造は、Deep-conditioned Input-Prompt (DIP) マッピングモジュールを備えており、トレーニング可能なパラメータのわずか2%を更新することで、効率的な適応を可能にする。 このフレームワークは、入力とプロンプト間の注意機構を通じて意味的解釈性を高め、事前の知識と一致して潜在空間内でのプロンプトをクラスタ化する。 公衆安静状態fMRIデータセットの実験では、20人未満の参加者であっても、神経変性疾患の診断/予後と性格特性予測において、ScaPTは微調整とマルチタスクベースの即時チューニングに優れていた。 これは、訓練済みのfMRIモデルを低リソースタスクに適応する際のScaPTの効率性を強調している。

We introduce Scaffold Prompt Tuning (ScaPT), a novel prompt-based framework for adapting large-scale functional magnetic resonance imaging (fMRI) pre-trained models to downstream tasks, with high parameter efficiency and improved performance compared to fine-tuning and baselines for prompt tuning. The full fine-tuning updates all pre-trained parameters, which may distort the learned feature space and lead to overfitting with limited training data which is common in fMRI fields. In contrast, we design a hierarchical prompt structure that transfers the knowledge learned from high-resource tasks to low-resource ones. This structure, equipped with a Deeply-conditioned Input-Prompt (DIP) mapping module, allows for efficient adaptation by updating only 2% of the trainable parameters. The framework enhances semantic interpretability through attention mechanisms between inputs and prompts, and it clusters prompts in the latent space in alignment with prior knowledge. Experiments on public resting state fMRI datasets reveal ScaPT outperforms fine-tuning and multitask-based prompt tuning in neurodegenerative diseases diagnosis/prognosis and personality trait prediction, even with fewer than 20 participants. It highlights ScaPT's efficiency in adapting pre-trained fMRI models to low-resource tasks.
翻訳日:2024-08-21 15:03:52 公開日:2024-08-20
# カスタマイズ拡散モデルのためのプロンプト非依存的対向摂動

Prompt-Agnostic Adversarial Perturbation for Customized Diffusion Models ( http://arxiv.org/abs/2408.10571v1 )

ライセンス: Link先を確認
Cong Wan, Yuhang He, Xiang Song, Yihong Gong, (参考訳) 拡散モデルは、カスタマイズされたテキスト・ツー・イメージ生成に革命をもたらし、テキスト記述による個人データからの写真の効率的な合成を可能にした。 しかし、これらの進歩は、プライバシー侵害や芸術作品の無許可複製などのリスクを引き起こす。 従来の研究は主に、個人画像を保護するための敵対的な例を生成するために、プロンプト固有の手法を主に用いていたが、既存の手法の有効性は、異なるプロンプトに対する制約付き適応性によって妨げられている。 本稿では,カスタマイズした拡散モデルのためのPR法を提案する。 PAPはまず、ラプラス近似を用いてプロンプト分布をモデル化し、その後、モデル化された分布に基づいて外乱期待を最大化することにより、急激な摂動を発生させる。 このアプローチは、即時無敵攻撃に効果的に取り組み、防御安定性を向上させる。 顔のプライバシと芸術的スタイルの保護に関する大規模な実験は、既存の手法と比較して、我々の手法のより優れた一般化を実証している。

Diffusion models have revolutionized customized text-to-image generation, allowing for efficient synthesis of photos from personal data with textual descriptions. However, these advancements bring forth risks including privacy breaches and unauthorized replication of artworks. Previous researches primarily center around using prompt-specific methods to generate adversarial examples to protect personal images, yet the effectiveness of existing methods is hindered by constrained adaptability to different prompts. In this paper, we introduce a Prompt-Agnostic Adversarial Perturbation (PAP) method for customized diffusion models. PAP first models the prompt distribution using a Laplace Approximation, and then produces prompt-agnostic perturbations by maximizing a disturbance expectation based on the modeled distribution. This approach effectively tackles the prompt-agnostic attacks, leading to improved defense stability. Extensive experiments in face privacy and artistic style protection, demonstrate the superior generalization of our method in comparison to existing techniques.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# 畳み込みニューラルネットワークと勾配重み付きクラス活性化マッピングを用いた認知症ステージの説明可能な画像分類に関する研究

A Tutorial on Explainable Image Classification for Dementia Stages Using Convolutional Neural Network and Gradient-weighted Class Activation Mapping ( http://arxiv.org/abs/2408.10572v1 )

ライセンス: Link先を確認
Kevin Kam Fung Yuen, (参考訳) 本稿では、畳み込みニューラルネットワーク(CNN)とグラディエント重み付きクラス活性化マッピング(Grad-CAM)を用いて、オープンMRI脳画像に基づく4つの進行性認知症ステージを分類するための説明可能なアプローチのチュートリアルを提案する。 詳細な実装手順は、説明とともに示される。 提案したCNNアーキテクチャは、テストデータセットの99%以上の精度を達成することが実証されているが、CNNの計算手順はブラックボックスのままである。 Grad-CAMに基づく可視化は、非常に高精度な説明を試みており、医師に有用な情報を提供する可能性がある。 この研究に基づく今後のモチベーションについて論じる。

This paper presents a tutorial of an explainable approach using Convolutional Neural Network (CNN) and Gradient-weighted Class Activation Mapping (Grad-CAM) to classify four progressive dementia stages based on open MRI brain images. The detailed implementation steps are demonstrated with an explanation. Whilst the proposed CNN architecture is demonstrated to achieve more than 99% accuracy for the test dataset, the computational procedure of CNN remains a black box. The visualisation based on Grad-CAM is attempted to explain such very high accuracy and may provide useful information for physicians. Future motivation based on this work is discussed.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# LLMのシューズに人を乗せる - 質問リライタによるより良い回答の生成

Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter ( http://arxiv.org/abs/2408.10573v1 )

ライセンス: Link先を確認
Junhao Chen, Bowen Wang, Zhouqiang jiang, Yuta Nakashima, (参考訳) 大規模言語モデル(LLM)は特に質問応答(QA)の領域において重要な機能を示している。 しかし、QAにおけるそれらの有効性は、ユーザ質問の曖昧さによって損なわれることが多い。 この問題に対処するために,質問リライタと呼ばれる単一ラウンドのインスタンスレベルのプロンプト最適化を導入する。 ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。 リライターは、生成した回答を評価するための自動基準から収集したフィードバックに基づいて、直接選好最適化を用いて最適化される。 複数のブラックボックスLSMと長文質問応答(LFQA)データセットを用いた実験により,本手法の有効性が示された。 本稿では,質問書き直しを訓練するための実践的なフレームワークを提供し,LFQAタスク内での迅速な最適化における今後の探索の先例を定めている。 コードは \url{https://github.com/3244we/Question-Rewriter} で公開されている。

Large Language Models (LLMs) have demonstrated significant capabilities, particularly in the domain of question answering (QA). However, their effectiveness in QA is often undermined by the vagueness of user questions. To address this issue, we introduce single-round instance-level prompt optimization, referred to as question rewriter. By enhancing the intelligibility of human questions for black-box LLMs, our question rewriter improves the quality of generated answers. The rewriter is optimized using direct preference optimization based on feedback collected from automatic criteria for evaluating generated answers; therefore, its training does not require costly human annotations. The experiments across multiple black-box LLMs and long-form question answering (LFQA) datasets demonstrate the efficacy of our method. This paper provides a practical framework for training question rewriters and sets a precedent for future explorations in prompt optimization within LFQA tasks. Code is available at \url{https://github.com/3244we/Question-Rewriter}.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# 生死連鎖に関連する多次元連続時間量子ウォーク

Multi-dimensional continuous time quantum walks related to the birth and death chains ( http://arxiv.org/abs/2408.10574v1 )

ライセンス: Link先を確認
Yusuke Ide, Norio Konno, Akihiro Narimatsu, (参考訳) 本稿では,多次元生死連鎖と連続時間量子ウォーク(CTQW)について考察する。 我々は,CTQWの遷移確率について,多次元の生死連鎖に関するCTQWについて,複数の次元間の時間スケールの独立性を求める。 この特徴を用いて,1次元のエレンフェストモデルに関連するパスグラフ上のCTQWを分析する。 また、我々のモデルと関連する確率変数を持ち、標準ガウス分布に収束する。

In this paper, we consider multi-dimensional birth and death chains and continuous time quantum walks (CTQW) related to them. For CTQW related to our forms of multi-dimensional birth and death chains, we obtain the time scaled independence between multiple dimensions about the transition probability of CTQW. By using this feature, we analyze CTQW on the path graph, which is related to 1-dimensional Ehrenfest model. We also have a random variable which is related to our models and converges to the standard Gaussian distribution.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# MUSE: Mambaはテキストビデオ検索のための効率的なマルチスケール学習ツール

MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval ( http://arxiv.org/abs/2408.10575v1 )

ライセンス: Link先を確認
Haoran Tang, Meng Cao, Jinfa Huang, Ruyang Liu, Peng Jin, Ge Li, Xiaodan Liang, (参考訳) Text-Video Retrieval (TVR)は、関連するビデオコンテンツと対応する自然言語クエリを関連付けることを目的としている。 既存のTVR手法の多くは、大規模な事前訓練された視覚言語モデル(例えばCLIP)に基づいている。 しかし、CLIPの固有のプレーンな構造のため、より深い理解のためによりリッチなコンテキスト情報を提供するマルチスケールの表現をTVRで探索する手法はほとんどない。 この目的のために,線形計算複雑性を持つマルチスケールマンバ MUSE を提案する。 具体的には、最後の単一スケールのフィーチャーマップに特徴ピラミッドを適用することで、マルチスケールの表現を生成する。 そこで我々は,Mamba構造を効率的なマルチスケール学習者として用いて,スケールワイド表現を共同学習する。 さらに,異なるモデル構造と設計を総合的に検討する。 3つの人気のあるベンチマークの結果は、MUSEの優位性を実証している。

Text-Video Retrieval (TVR) aims to align and associate relevant video content with corresponding natural language queries. Most existing TVR methods are based on large-scale pre-trained vision-language models (e.g., CLIP). However, due to the inherent plain structure of CLIP, few TVR methods explore the multi-scale representations which offer richer contextual information for a more thorough understanding. To this end, we propose MUSE, a multi-scale mamba with linear computational complexity for efficient cross-resolution modeling. Specifically, the multi-scale representations are generated by applying a feature pyramid on the last single-scale feature map. Then, we employ the Mamba structure as an efficient multi-scale learner to jointly learn scale-wise representations. Furthermore, we conduct comprehensive studies to investigate different model structures and designs. Extensive results on three popular benchmarks have validated the superiority of MUSE.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# コード生成のための大規模言語モデルハイパーパラメータの最適化

Optimizing Large Language Model Hyperparameters for Code Generation ( http://arxiv.org/abs/2408.10577v1 )

ライセンス: Link先を確認
Chetan Arora, Ahnaf Ibn Sayeed, Sherlock Licorish, Fanyu Wang, Christoph Treude, (参考訳) GPTモデルのような大規模言語モデル(LLM)は、コード生成、要求管理、デバッグといった様々なタスクのために、ソフトウェア工学においてますます使われている。 これらのタスクの自動化には大きな注意が向けられているが、コード生成結果に対する様々なハイパーパラメータの影響に関する体系的な研究は、まだ明らかになっていない。 本研究の目的は,様々なハイパーパラメータの影響を徹底的に探索し,LLMのコード生成性能を評価することである。 LLMのハイパーパラメータは、モデルの振る舞いとパフォーマンスに影響を与える調整可能な設定である。 具体的には、温度、トップ確率(top_p)、周波数ペナルティ、プレゼンスペナルティといったハイパーパラメータの変化が、コード生成結果にどのように影響するかを検討した。 我々は、すべてのハイパーパラメータを体系的に調整し、各ハイパーパラメータに小さなインクリメントを一度に行うことで、可能なすべての組み合わせを探索した。 この徹底的なアプローチは、13のPythonコード生成タスクに適用され、各ハイパーパラメータの組み合わせに対して4つの結果の1つが得られた。 これらの結果を分析し、14,742個のPythonコードセグメントを生成し、その正確性に着目して、それぞれの結果に到達するために、ハイパーパラメータがLLMにどのように影響するかを判定した。 相関係数と回帰木解析を用いて, LLMのどの側面にどのようなハイパーパラメータが影響を及ぼすかを確認した。 その結果, 最適性能は0.5以下の温度, 0.75以下の最高確率, -1以上の周波数ペナルティ, 1.5以下の周波数ペナルティ, -1以上の存在ペナルティで達成された。 レプリケーションを容易にするために、データセットと結果を利用可能にしています。

Large Language Models (LLMs), such as GPT models, are increasingly used in software engineering for various tasks, such as code generation, requirements management, and debugging. While automating these tasks has garnered significant attention, a systematic study on the impact of varying hyperparameters on code generation outcomes remains unexplored. This study aims to assess LLMs' code generation performance by exhaustively exploring the impact of various hyperparameters. Hyperparameters for LLMs are adjustable settings that affect the model's behaviour and performance. Specifically, we investigated how changes to the hyperparameters: temperature, top probability (top_p), frequency penalty, and presence penalty affect code generation outcomes. We systematically adjusted all hyperparameters together, exploring every possible combination by making small increments to each hyperparameter at a time. This exhaustive approach was applied to 13 Python code generation tasks, yielding one of four outcomes for each hyperparameter combination: no output from the LLM, non executable code, code that fails unit tests, or correct and functional code. We analysed these outcomes for a total of 14,742 generated Python code segments, focusing on correctness, to determine how the hyperparameters influence the LLM to arrive at each outcome. Using correlation coefficient and regression tree analyses, we ascertained which hyperparameters influence which aspect of the LLM. Our results indicate that optimal performance is achieved with a temperature below 0.5, top probability below 0.75, frequency penalty above -1 and below 1.5, and presence penalty above -1. We make our dataset and results available to facilitate replication.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# 点埋め込み変換器を用いた多視点ハンド再構成

Multi-view Hand Reconstruction with a Point-Embedded Transformer ( http://arxiv.org/abs/2408.10581v1 )

ライセンス: Link先を確認
Lixin Yang, Licheng Zhong, Pengxiang Zhu, Xinyu Zhan, Junxiao Kong, Jian Xu, Cewu Lu, (参考訳) 本研究は、実世界の手動キャプチャーシナリオで実用化するために設計された、新しい多視点ハンドメッシュ再構成(HMR)モデルであるPOEMを紹介する。 POEMモデルの進歩は2つの主な側面から成り立っている。 まず,この問題のモデル化について,多視点ステレオ空間内に静的な基底点を埋め込むことを提案する。 ポイントは3D情報の自然な形態を表し、様々な視点にまたがって特徴を融合させる理想的な媒体として機能する。 複雑な3Dハンドメッシュは、3Dベースポイントのセットで表現できる。 1)はマルチビューステレオに埋め込まれる。 2)多視点画像の特徴を携帯し、 3) 手の内を包含する。 第2の進歩は、トレーニング戦略にある。 5つの大規模マルチビューデータセットの組み合わせを利用して、カメラの数、順序、ポーズをランダム化する。 このような膨大なデータと多様なカメラ構成を処理することにより、我々のモデルは現実世界のアプリケーションにおいて顕著な一般化性を示す。 結果として、POEMは、ユーザフレンドリーで費用対効果の高いマルチビューモーションキャプチャーを、左右両方の手で実現する、非常に実用的なプラグアンドプレイソリューションを提供する。 モデルとソースコードはhttps://github.com/JubSteven/POEM-v2.comで入手できる。

This work introduces a novel and generalizable multi-view Hand Mesh Reconstruction (HMR) model, named POEM, designed for practical use in real-world hand motion capture scenarios. The advances of the POEM model consist of two main aspects. First, concerning the modeling of the problem, we propose embedding a static basis point within the multi-view stereo space. A point represents a natural form of 3D information and serves as an ideal medium for fusing features across different views, given its varied projections across these views. Consequently, our method harnesses a simple yet effective idea: a complex 3D hand mesh can be represented by a set of 3D basis points that 1) are embedded in the multi-view stereo, 2) carry features from the multi-view images, and 3) encompass the hand in it. The second advance lies in the training strategy. We utilize a combination of five large-scale multi-view datasets and employ randomization in the number, order, and poses of the cameras. By processing such a vast amount of data and a diverse array of camera configurations, our model demonstrates notable generalizability in the real-world applications. As a result, POEM presents a highly practical, plug-and-play solution that enables user-friendly, cost-effective multi-view motion capture for both left and right hands. The model and source codes are available at https://github.com/JubSteven/POEM-v2.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# DEGAS:全体ガウスアバターの詳細な表現

DEGAS: Detailed Expressions on Full-Body Gaussian Avatars ( http://arxiv.org/abs/2408.10588v1 )

ライセンス: Link先を確認
Zhijing Shao, Duotun Wang, Qing-Yao Tian, Yao-Dong Yang, Hengyu Meng, Zeyu Cai, Bo Dong, Yu Zhang, Kang Zhang, Zeyu Wang, (参考訳) ニューラルレンダリングは、生命に似た、アニマタブルなフルボディアバターとヘッドアバターの作成において大きな進歩を遂げているが、詳細な表現をフルボディアバターに組み込むことは、ほとんど未発見のままである。 顔表情の豊かなフルボディアバターに対する3次元ガウススティング(3DGS)に基づくモデリング手法であるDEGASを提案する。 対象者のマルチビュー映像に基づいて,身体動作と表情の両方を駆動信号として用いた条件付き変分オートエンコーダを学習し,UVレイアウトのガウス写像を生成する。 本研究では,3次元頭部アバターにおける3次元形態モデル(3DMM)の代わりに,2次元顔画像のみを訓練した潜在空間を用いて,2次元顔と3次元アバターのギャップを埋めることを提案する。 3DGSのレンダリング能力と表現潜在空間の豊かな表現性を活用して、学習したアバターを再現して、微妙で正確な表情で写実的なレンダリング画像を再現することができる。 既存のデータセットと、新たに提案したフルボディ音声アバターのデータセットを用いた実験により、本手法の有効性が示された。 また,対話型AIエージェントに新たな可能性を開くため,音声による2次元会話による手法の拡張も提案する。

Although neural rendering has made significant advancements in creating lifelike, animatable full-body and head avatars, incorporating detailed expressions into full-body avatars remains largely unexplored. We present DEGAS, the first 3D Gaussian Splatting (3DGS)-based modeling method for full-body avatars with rich facial expressions. Trained on multiview videos of a given subject, our method learns a conditional variational autoencoder that takes both the body motion and facial expression as driving signals to generate Gaussian maps in the UV layout. To drive the facial expressions, instead of the commonly used 3D Morphable Models (3DMMs) in 3D head avatars, we propose to adopt the expression latent space trained solely on 2D portrait images, bridging the gap between 2D talking faces and 3D avatars. Leveraging the rendering capability of 3DGS and the rich expressiveness of the expression latent space, the learned avatars can be reenacted to reproduce photorealistic rendering images with subtle and accurate facial expressions. Experiments on an existing dataset and our newly proposed dataset of full-body talking avatars demonstrate the efficacy of our method. We also propose an audio-driven extension of our method with the help of 2D talking faces, opening new possibilities to interactive AI agents.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# 幾何学図を用いた代数問題の解法のためのホログラム推論

Hologram Reasoning for Solving Algebra Problems with Geometry Diagrams ( http://arxiv.org/abs/2408.10592v1 )

ライセンス: Link先を確認
Litian Huang, Xinguo Yu, Feng Xiong, Bin He, Shengbing Tang, Jiawen Fu, (参考訳) 幾何学図を用いた代数問題の解法(APGD)は、図処理が言語処理ほど集中的に研究されないため、依然として難しい問題である。 この課題に対処するため,本手法を用いてホログラム推論手法を提案し,APGDを解くための高性能な手法を開発した。 この目標を達成するために、まずホログラムをグラフの一種として定義し、与えられたAPGDをホログラムに変換するホログラム生成器を提案する。 すると、ホログラム推論法であるHGRは、代数方程式を導出するために準備されたグラフモデルのプールを用いる。 このメソッドは、プールに新しいグラフモデルを追加することで、更新することができる。 最後に、プールからのモデル選択の効率を高めるために、深層強化学習を採用する。 HGR全体は、推論ステップが少なくて高い解精度を保証するだけでなく、すべての推論ステップの説明を提供することで、解法の解釈可能性を大幅に向上させる。 実験結果から, APGDの解法におけるHGRの有効性が示唆された。

Solving Algebra Problems with Geometry Diagrams (APGDs) is still a challenging problem because diagram processing is not studied as intensively as language processing. To work against this challenge, this paper proposes a hologram reasoning scheme and develops a high-performance method for solving APGDs by using this scheme. To reach this goal, it first defines a hologram, being a kind of graph, and proposes a hologram generator to convert a given APGD into a hologram, which represents the entire information of APGD and the relations for solving the problem can be acquired from it by a uniform way. Then HGR, a hologram reasoning method employs a pool of prepared graph models to derive algebraic equations, which is consistent with the geometric theorems. This method is able to be updated by adding new graph models into the pool. Lastly, it employs deep reinforcement learning to enhance the efficiency of model selection from the pool. The entire HGR not only ensures high solution accuracy with fewer reasoning steps but also significantly enhances the interpretability of the solution process by providing descriptions of all reasoning steps. Experimental results demonstrate the effectiveness of HGR in improving both accuracy and interpretability in solving APGDs.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# LLMを用いた空間構成と運動ダイナミクスを用いた手話翻訳の効率化

An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs ( http://arxiv.org/abs/2408.10593v1 )

ライセンス: Link先を確認
Eui Jun Hwang, Sukmin Cho, Junmyeong Lee, Jong C. Park, (参考訳) グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。 近年,Large Language Models (LLMs) は,その強力な自然言語生成能力を活用して,グロスフリーな手法で顕著な翻訳性能を示した。 しかし、これらの手法は最適な結果を得るために、しばしばドメイン固有のビジュアルエンコーダの微調整に依存している。 対照的に,手話固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調した。 このことを念頭に、新しいLSMベースのSLTフレームワークであるSpaMo(Spatment and Motion-based Sign Language Translation)を導入する。 SpaMoの中核となるアイデアはシンプルだが効果的だ。 まず,市販のビジュアルエンコーダを用いて空間的特徴と運動的特徴を抽出し,その特徴を言語プロンプトでLLMに入力する。 さらに,SLTの監督前におけるウォームアップとして,視覚テキストアライメントプロセスを用いる。 実験の結果,スパモはPHOENIX14TとHow2Signという2つの一般的なデータセット上で,最先端のパフォーマンスを実現していることがわかった。

Gloss-free Sign Language Translation (SLT) converts sign videos directly into spoken language sentences without relying on glosses. Recently, Large Language Models (LLMs) have shown remarkable translation performance in gloss-free methods by harnessing their powerful natural language generation capabilities. However, these methods often rely on domain-specific fine-tuning of visual encoders to achieve optimal results. By contrast, this paper emphasizes the importance of capturing the spatial configurations and motion dynamics inherent in sign language. With this in mind, we introduce Spatial and Motion-based Sign Language Translation (SpaMo), a novel LLM-based SLT framework. The core idea of SpaMo is simple yet effective. We first extract spatial and motion features using off-the-shelf visual encoders and then input these features into an LLM with a language prompt. Additionally, we employ a visual-text alignment process as a warm-up before the SLT supervision. Our experiments demonstrate that SpaMo achieves state-of-the-art performance on two popular datasets, PHOENIX14T and How2Sign.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# 量子補正重力場に埋め込まれた空間寄与を伴うディラック方程式

Dirac Equation with Space Contributions Embedded in a Quantum-Corrected Gravitational Field ( http://arxiv.org/abs/2408.10598v1 )

ライセンス: Link先を確認
M. Baradaran, L. M. Nieto, S. Zarrinkamar, (参考訳) 曲線化された時空量子力学と宇宙量子通信、量子技術、量子光学の応用の間の界面によって動機づけられたディラック方程式は、最近提案された一般化重力相互作用(ケプラーまたはクーロン)と古典ポテンシャルに対する量子補正を含む。 この計量を選択する際の一般的な考え方は、時空の寄与は外部ポテンシャルや電磁ポテンシャルに含まれており、将来の宇宙量子通信の研究のよい基礎とみなすことができるということである。 また、この定式化の中でクーロンポテンシャルのいくつかの既知の一般化を、あるフン函数の観点から議論する。 量子補正クーロン項に対する量子補正クーロン項の解法は、既知の完全あるいは準コンパクトな非摂動解析技術を用いて論じられ、最終的にベーテ・アンサッツ法がこの問題を克服するために提案される。

Motivated by the interface between curved spacetime quantum mechanics and applications in space quantum communications, quantum technologies and quantum optics, the Dirac equation is considered with the recently proposed generalized gravitational interaction (Kepler or Coulomb), which includes post-Newtonian (relativistic) and quantum corrections to the classical potential. The general idea in choosing the metric is that the spacetime contributions are contained in an external potential or in an electromagnetic potential which can be considered as a good basis for future studies on space quantum communication. We also discuss several known generalizations of the Coulomb potential within this formulation in terms of certain Heun functions. The impossibility of solving our equation for the quantum-corrected Coulomb terms using known exact or quasi-exact nonperturbative analytical techniques is discussed, and finally the Bethe-ansatz approach is proposed to overcome this challenging problem.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# 抗中性子再建のための視線量計 : ベースライン

Vision Calorimeter for Anti-neutron Reconstruction: A Baseline ( http://arxiv.org/abs/2408.10599v1 )

ライセンス: Link先を確認
Hongtian Yu, Yangu Li, Mingrui Wu, Letian Shen, Yue Liu, Yunxuan Song, Qixiang Ye, Xiaorui Lyu, Yajun Mao, Yangheng Zheng, Yunfan Liu, (参考訳) 高エネルギー物理学では、反中性子(英語版)(\bar{n}$)は最終状態粒子としてしばしば現れる基本粒子であり、それらの運動特性の再構成は、支配原理を理解するための重要なプローブとなる。 しかし、これは典型的な実験センサーである電磁カロリー計(EMC)と機器的に重要な課題に直面するが、入射した$\bar{n}$の情報が不十分に回復する。 本研究では,EMC応答と入射時の$\bar{n}$特性の暗黙的関係を解析するために,深層学習検出器を利用した反中性子再構成のためのベースライン手法であるViC(ViC)を紹介する。 私たちのモチベーションは、EMCセルアレイに蓄積された$\bar{n}$サンプルのエネルギー分布が、豊富な文脈情報を具現化することである。 2次元画像に換算すると、そのような文脈エネルギー分布は、擬似有界ボックスと特定の訓練目標とともに、ディープラーニング検出器を通して$\bar{n}$$$(つまり、入射位置と運動量)の状態を予測することができる。 実験の結果、ViCは従来の再建手法よりも大幅に優れており、インシデント位置の予測誤差を42.81%削減している(17.31$^{\circ}$から9.90$^{\circ}$へ)。 さらに重要なことは、この研究が初めて、粒子再構成のための深層学習検出器の可能性を示すインシデント$\bar{n}$運動量の測定を実現したことである。 コードはhttps://github.com/yuhongtian17/ViC.comで入手できる。

In high-energy physics, anti-neutrons ($\bar{n}$) are fundamental particles that frequently appear as final-state particles, and the reconstruction of their kinematic properties provides an important probe for understanding the governing principles. However, this confronts significant challenges instrumentally with the electromagnetic calorimeter (EMC), a typical experimental sensor but recovering the information of incident $\bar{n}$ insufficiently. In this study, we introduce Vision Calorimeter (ViC), a baseline method for anti-neutron reconstruction that leverages deep learning detectors to analyze the implicit relationships between EMC responses and incident $\bar{n}$ characteristics. Our motivation lies in that energy distributions of $\bar{n}$ samples deposited in the EMC cell arrays embody rich contextual information. Converted to 2-D images, such contextual energy distributions can be used to predict the status of $\bar{n}$ ($i.e.$, incident position and momentum) through a deep learning detector along with pseudo bounding boxes and a specified training objective. Experimental results demonstrate that ViC substantially outperforms the conventional reconstruction approach, reducing the prediction error of incident position by 42.81% (from 17.31$^{\circ}$ to 9.90$^{\circ}$). More importantly, this study for the first time realizes the measurement of incident $\bar{n}$ momentum, underscoring the potential of deep learning detectors for particle reconstruction. Code is available at https://github.com/yuhongtian17/ViC.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# 超音波映像からの自己教師付きコントラスト学習に基づく乳癌の分類

Breast tumor classification based on self-supervised contrastive learning from ultrasound videos ( http://arxiv.org/abs/2408.10600v1 )

ライセンス: Link先を確認
Yunxin Tang, Siyuan Tang, Jian Zhang, Hao Chen, (参考訳) 背景:乳房超音波検査は乳腺腫瘍の診断に有用である。 現在, 放射線科医の診断を支援するため, 深層学習に基づく自動システムが多く開発されている。 しかし、そのようなシステムの訓練は、通常、専門的な知識を必要とし、高価であるラベル付きデータの需要量とデータ不足のため、依然として困難なままである。 方法: 胸部超音波ビデオクリップから表現を学習するために, トリプルトネットワークと自己教師付きコントラスト学習手法を採用した。 我々はさらに、特に認識しにくい正と負のイメージ対を識別する表現を学ぶために、新しい三重項損失を設計した。 11,805画像のアンカーサンプルデータセット,188,880画像の正のサンプルデータセット,ビデオクリップから動的に生成された負のサンプルデータセットを含む。 さらに,66例の400枚の画像を含む微調整データセットを構築した。 我々は、事前学習されたネットワークを下流の良/良性分類タスクに移行し、ImageNetで事前学習された3つのモデルと、データセットで再学習された従来のコントラスト学習モデルを含む、他の最先端モデルと比較した。 結果と結論: 実験の結果, 受信機動作特性曲線 (AUC) が0.952の領域を達成できた。 さらに, ラベル付きデータ数に対する事前学習モデルの依存性を評価し, 0.901のAUCを達成するためには<100試料が必要であることを明らかにした。 提案フレームワークはラベル付きデータに対する需要を大幅に減らし,乳房超音波画像の自動診断に活用する可能性を秘めている。

Background: Breast ultrasound is prominently used in diagnosing breast tumors. At present, many automatic systems based on deep learning have been developed to help radiologists in diagnosis. However, training such systems remains challenging because they are usually data-hungry and demand amounts of labeled data, which need professional knowledge and are expensive. Methods: We adopted a triplet network and a self-supervised contrastive learning technique to learn representations from unlabeled breast ultrasound video clips. We further designed a new hard triplet loss to to learn representations that particularly discriminate positive and negative image pairs that are hard to recognize. We also constructed a pretraining dataset from breast ultrasound videos (1,360 videos from 200 patients), which includes an anchor sample dataset with 11,805 images, a positive sample dataset with 188,880 images, and a negative sample dataset dynamically generated from video clips. Further, we constructed a finetuning dataset, including 400 images from 66 patients. We transferred the pretrained network to a downstream benign/malignant classification task and compared the performance with other state-of-the-art models, including three models pretrained on ImageNet and a previous contrastive learning model retrained on our datasets. Results and conclusion: Experiments revealed that our model achieved an area under the receiver operating characteristic curve (AUC) of 0.952, which is significantly higher than the others. Further, we assessed the dependence of our pretrained model on the number of labeled data and revealed that <100 samples were required to achieve an AUC of 0.901. The proposed framework greatly reduces the demand for labeled data and holds potential for use in automatic breast ultrasound image diagnosis.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# MV-MOS:3次元移動物体分割のためのマルチビュー機能融合

MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation ( http://arxiv.org/abs/2408.10602v1 )

ライセンス: Link先を確認
Jintao Cheng, Xingming Chen, Jinxin Liang, Xiaoyu Tang, Xieyuanli Chen, Dachuan Li, (参考訳) 移動物体(移動物体セグメンテーション、MOS)の動き情報を抽出することは、自律走行やロボット工学の応用において重要である。 3D-to-2Dプロジェクションにおける動作と意味的特徴の有効活用と情報損失の回避は依然として重要な課題である。 本稿では,点雲の異なる2次元表現から動画像特徴を融合させることにより,新しい多視点MOSモデル(MV-MOS)を提案する。 補足情報を効果的に活用するために,提案モデルの運動枝は,鳥の視線(BEV)とレンジビュー(RV)の両方からの運動特徴を結合する。 さらに、動くオブジェクトの補足的な意味的特徴を提供するためにセマンティックブランチが導入された。 最後に、マンバモジュールを用いて、動作特徴と意味的特徴を融合させ、動作分岐に対して効果的なガイダンスを提供する。 提案手法の有効性を総合的な実験により検証し,提案手法はSemanticKITTIベンチマークにおいて既存の最先端モデルよりも優れていることを示す。

Effectively summarizing dense 3D point cloud data and extracting motion information of moving objects (moving object segmentation, MOS) is crucial to autonomous driving and robotics applications. How to effectively utilize motion and semantic features and avoid information loss during 3D-to-2D projection is still a key challenge. In this paper, we propose a novel multi-view MOS model (MV-MOS) by fusing motion-semantic features from different 2D representations of point clouds. To effectively exploit complementary information, the motion branches of the proposed model combines motion features from both bird's eye view (BEV) and range view (RV) representations. In addition, a semantic branch is introduced to provide supplementary semantic features of moving objects. Finally, a Mamba module is utilized to fuse the semantic features with motion features and provide effective guidance for the motion branches. We validated the effectiveness of the proposed multi-branch fusion MOS framework via comprehensive experiments, and our proposed model outperforms existing state-of-the-art models on the SemanticKITTI benchmark.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# 銀回答による多言語非ファクトイド質問応答

Multilingual Non-Factoid Question Answering with Silver Answers ( http://arxiv.org/abs/2408.10604v1 )

ライセンス: Link先を確認
Ritwik Mishra, Sreeram Vennam, Rajiv Ratn Shah, Ponnurangam Kumaraguru, (参考訳) 既存のQanguage Answering Datasets (QuAD) は主にファクトイドベースの短文Qanswering (QA) に重点を置いている。 しかし、そのような低リソース言語に対するデータセットの範囲は限定的であり、ファクトイドベースのQuADと非ファクトイドのQuADを中心にした研究はほとんどない。 したがって、この研究は非ファクトイデアルな質問を持つ多言語QuADである MuNfQuAD を提示する。 BBCのニュース記事からの疑わしいサブヘッダーを質問として、それに対応する段落を銀の回答として利用する。 データセットは38言語にまたがる370万以上のQAペアで構成され、いくつかの低リソース言語を含んでいる。 MuNfQuAD (golden set) の 790 QA-pair のマニュアルアノテーションに基づいて, 98%の質問が対応する銀の回答を用いて答えられることを示した。 微調整されたAnswer Paragraph Selection(APS)モデルはベースラインよりも優れています。 APSモデルでは,MNfQuADテストセットとゴールデンセットにおいて,80\%,72\%,マクロF1が72\%,66\%の精度が得られた。 さらに、APSモデルは銀ラベルを微調整した後でも、黄金集合内の特定の言語を効果的に一般化する。

Most existing Question Answering Datasets (QuADs) primarily focus on factoid-based short-context Question Answering (QA) in high-resource languages. However, the scope of such datasets for low-resource languages remains limited, with only a few works centered on factoid-based QuADs and none on non-factoid QuADs. Therefore, this work presents MuNfQuAD, a multilingual QuAD with non-factoid questions. It utilizes interrogative sub-headings from BBC news articles as questions and the corresponding paragraphs as silver answers. The dataset comprises over 370K QA pairs across 38 languages, encompassing several low-resource languages, and stands as the largest multilingual QA dataset to date. Based on the manual annotations of 790 QA-pairs from MuNfQuAD (golden set), we observe that 98\% of questions can be answered using their corresponding silver answer. Our fine-tuned Answer Paragraph Selection (APS) model outperforms the baselines. The APS model attained an accuracy of 80\% and 72\%, as well as a macro F1 of 72\% and 66\%, on the MuNfQuAD testset and the golden set, respectively. Furthermore, the APS model effectively generalizes certain a language within the golden set, even after being fine-tuned on silver labels.
翻訳日:2024-08-21 14:54:06 公開日:2024-08-20
# MUSES:マルチモーダルエージェントによる3次元制御可能な画像生成

MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration ( http://arxiv.org/abs/2408.10605v1 )

ライセンス: Link先を確認
Yanbo Ding, Shaobin Zhuang, Kunchang Li, Zhengrong Yue, Yu Qiao, Yali Wang, (参考訳) 近年のテキスト・画像生成の進歩にもかかわらず、既存の手法のほとんどは、複数のオブジェクトと複雑な空間的関係を持つ画像を作成するのに苦労している。 この制限に対処するために、ユーザクエリから3D制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。 具体的には,(1)2次元から3次元のレイアウトリフトのためのレイアウトマネージャ,(2)3次元のオブジェクト取得とキャリブレーションのためのモデルエンジニア,(3)3次元から2次元のイメージレンダリングのためのイメージアーティストなど,3つの重要なコンポーネントからなるプログレッシブワークフローを開発することで,この課題に対処する。 このマルチモーダルエージェントパイプラインは、人間のプロフェッショナルのコラボレーションを模倣することにより、トップダウン計画とボトムアップ生成の説明可能な統合を通じて、3D制御可能なオブジェクトによる画像の有効かつ自動生成を容易にする。 さらに、既存のベンチマークでは、複数のオブジェクトの複雑な3次元空間関係の詳細な記述が欠如していることが判明した。 このギャップを埋めるために、我々はさらにT2I-3DisBench (3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。 T2I-CompBenchとT2I-3DisBenchは、DALL-E 3やStable Diffusion 3といった最近の強力なライバルよりも優れている。 これらの結果は,自然言語,2次元画像生成,3次元世界におけるMUSESの前進の重要なステップを示している。

Despite recent advancements in text-to-image generation, most existing methods struggle to create images with multiple objects and complex spatial relationships in 3D world. To tackle this limitation, we introduce a generic AI system, namely MUSES, for 3D-controllable image generation from user queries. Specifically, our MUSES addresses this challenging task by developing a progressive workflow with three key components, including (1) Layout Manager for 2D-to-3D layout lifting, (2) Model Engineer for 3D object acquisition and calibration, (3) Image Artist for 3D-to-2D image rendering. By mimicking the collaboration of human professionals, this multi-modal agent pipeline facilitates the effective and automatic creation of images with 3D-controllable objects, through an explainable integration of top-down planning and bottom-up generation. Additionally, we find that existing benchmarks lack detailed descriptions of complex 3D spatial relationships of multiple objects. To fill this gap, we further construct a new benchmark of T2I-3DisBench (3D image scene), which describes diverse 3D image scenes with 50 detailed prompts. Extensive experiments show the state-of-the-art performance of MUSES on both T2I-CompBench and T2I-3DisBench, outperforming recent strong competitors such as DALL-E 3 and Stable Diffusion 3. These results demonstrate a significant step of MUSES forward in bridging natural language, 2D image generation, and 3D world.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# ミリヘルツ周波数帯における圧縮真空状態の生成

Generation of squeezed vacuum state in the millihertz frequency band ( http://arxiv.org/abs/2408.10607v1 )

ライセンス: Link先を確認
Li Gao, Li-ang Zheng, Bo Lu, Shaoping Shi, Long Tian, Yaohui Zheng, (参考訳) 重力波の検出は、宇宙を観測する新しい時代の幕開けとなった。 量子資源の利点は重力波観測の感度を著しく向上させる。 地表面重力波検出のための圧縮状態は注目されているが、中低周波検出に適した圧縮状態の生成は未調査のままである。 超低周波での圧縮状態光場のギャップに対処するため, 多重雑音抑制方式を用いて, 4ミリヘルツのフーリエ周波数で最大8dBの量子ノイズ低減を行うまで, 圧縮真空場の直接観測を行った。 我々の研究は将来の重力波観測のための量子資源を提供し、量子精度測定の開発を促進する。

The detection of gravitational waves has ushered in a new era of observing the universe. Quantum resource advantages offer significant enhancements to the sensitivity of gravitational wave observatories. While squeezed states for ground-based gravitational wave detection have received marked attention, the generation of squeezed states suitable for mid-to-low-frequency detection has remained unexplored. To address the gap in squeezed state optical fields at ultra-low frequencies, we report on the first direct observation of a squeezed vacuum field until Fourier frequency of 4 millihertz with the quantum noise reduction of up to 8 dB, by the employment of a multiple noise suppression scheme. Our work provides quantum resources for future gravitational wave observatories, facilitating the development of quantum precision measurement.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# 大規模言語モデルにおける平等の促進:ベイズ理論に基づく暗黙のバイアスの同定と緩和

Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory ( http://arxiv.org/abs/2408.10608v1 )

ライセンス: Link先を確認
Yongxin Deng, Xihe Qiu, Xiaoyu Tan, Jing Pan, Chen Jue, Zhijun Fang, Yinghui Xu, Wei Chu, Yuan Qi, (参考訳) 大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。 Affective Alignmentのようなテクニックはこれらのバイアスの負の影響を軽減することができるが、既存のプロンプトベースの攻撃方法はモデルの重みからこれらのバイアスを抽出することができる。 さらに、これらのバイアスは、LDMが異なる人口集団にまたがって同一のタスクを遂行するよう促されたときに、微妙に現れる。 この問題に対処するため、我々は、暗黙バイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みである、ベイズ理論に基づくバイアス除去(BTBR)を開発した。 BTBRは、LLMトレーニングフェーズ中に意図せず組み込まれたバイアスを表す、一般にアクセス可能なバイアス付きデータセット内のデータエントリをピンポイントする可能性比率スクリーニングを採用している。 その後、関連する知識を3倍に自動的に構築し、モデル編集技術を用いてLLMからバイアス情報を抽出する。 広汎な実験により, LLMにおける暗黙バイアス問題の存在が確認され, BTBR法の有効性を実証した。

Large language models (LLMs) are trained on extensive text corpora, which inevitably include biased information. Although techniques such as Affective Alignment can mitigate some negative impacts of these biases, existing prompt-based attack methods can still extract these biases from the model's weights. Moreover, these biases frequently appear subtly when LLMs are prompted to perform identical tasks across different demographic groups, thereby camouflaging their presence. To address this issue, we have formally defined the implicit bias problem and developed an innovative framework for bias removal based on Bayesian theory, Bayesian-Theory based Bias Removal (BTBR). BTBR employs likelihood ratio screening to pinpoint data entries within publicly accessible biased datasets that represent biases inadvertently incorporated during the LLM training phase. It then automatically constructs relevant knowledge triples and expunges bias information from LLMs using model editing techniques. Through extensive experimentation, we have confirmed the presence of the implicit bias problem in LLMs and demonstrated the effectiveness of our BTBR approach.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# PerturBench: セル摂動解析のための機械学習モデルのベンチマーク

PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis ( http://arxiv.org/abs/2408.10609v1 )

ライセンス: Link先を確認
Yan Wu, Esther Wershof, Sebastian M Schmon, Marcel Nassar, Błażej Osiński, Ridvan Eksi, Kun Zhang, Thore Graepel, (参考訳) 本稿では,この急速に発展する分野におけるベンチマークの標準化を目的として,単一細胞における摂動の影響を予測するための包括的なフレームワークを提案する。 当社のフレームワークであるPerturBenchには、ユーザフレンドリなプラットフォーム、多様なデータセット、フェアモデル比較のためのメトリクス、詳細なパフォーマンス分析が含まれています。 出版およびベースラインモデルの広範囲な評価は、モード崩壊や後部崩壊のような制限を明らかにし、RMSEのような従来の尺度と並んで摂動の順序を評価するランク指標の重要性を強調している。 以上の結果から,単純なモデルの方がより複雑なアプローチより優れていることが示唆された。 このベンチマークエクササイズは、モデル評価のための新しい標準を設定し、堅牢なモデル開発をサポートし、これらのモデルの可能性を前進させ、疾患ターゲット発見のための高スループットかつ高濃度の遺伝的および化学的スクリーンを使用する。

We present a comprehensive framework for predicting the effects of perturbations in single cells, designed to standardize benchmarking in this rapidly evolving field. Our framework, PerturBench, includes a user-friendly platform, diverse datasets, metrics for fair model comparison, and detailed performance analysis. Extensive evaluations of published and baseline models reveal limitations like mode or posterior collapse, and underscore the importance of rank metrics that assess the ordering of perturbations alongside traditional measures like RMSE. Our findings show that simple models can outperform more complex approaches. This benchmarking exercise sets new standards for model evaluation, supports robust model development, and advances the potential of these models to use high-throughput and high-content genetic and chemical screens for disease target discovery.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# ARMAモデルによる定常過程の近似性について

On the Approximability of Stationary Processes using the ARMA Model ( http://arxiv.org/abs/2408.10610v1 )

ライセンス: Link先を確認
Anand Ganesh, Babhrubahan Bose, Anand Rajagopalan, (参考訳) 自動回帰移動平均 (ARMA) モデルを用いて, 定常確率変数の近似性に関する文献上のギャップを同定する。 近似性を定量化するために, 定常確率変数の近似としてARMAモデルを用いることを提案する。 我々はこれらの定常確率変数をハーディ空間関数に写像し、確率変数近似に対応する新しい関数近似問題を定式化し、したがってARMAとなる。 このハーディ空間の定式化に基づいて、近似保証が実現可能な定常過程のクラスを特定する。 また、良好なARMA近似が不可能であると推測する理想的な定常ランダム過程も同定する。 次に、Pad\'e近似が必ずしも最良のARMA近似と一致しないという構成的証明を与える。 最後に、本論文で採用されているスペクトル法は、ARMAモデルが定義されていない場合でも、定常過程の単位根法を一般化したものとみなすことができる。

We identify certain gaps in the literature on the approximability of stationary random variables using the Autoregressive Moving Average (ARMA) model. To quantify approximability, we propose that an ARMA model be viewed as an approximation of a stationary random variable. We map these stationary random variables to Hardy space functions, and formulate a new function approximation problem that corresponds to random variable approximation, and thus to ARMA. Based on this Hardy space formulation we identify a class of stationary processes where approximation guarantees are feasible. We also identify an idealized stationary random process for which we conjecture that a good ARMA approximation is not possible. Next, we provide a constructive proof that Pad\'e approximations do not always correspond to the best ARMA approximation. Finally, we note that the spectral methods adopted in this paper can be seen as a generalization of unit root methods for stationary processes even when an ARMA model is not defined.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# 一般化可能な表情認識

Generalizable Facial Expression Recognition ( http://arxiv.org/abs/2408.10614v1 )

ライセンス: Link先を確認
Yuhang Zhang, Xiuqi Zheng, Chenyi Liang, Jiani Hu, Weihong Deng, (参考訳) SOTA顔表情認識(FER)メソッドは、列車セットとドメインギャップを持つテストセットで失敗する。 近年の領域適応 FER 法では,対象ドメインのラベル付きあるいはラベルなしのサンプルを取得して FER モデルを微調整する必要がある。 本稿では,1つの列車セットのみを用いて,異なる未確認テストセット上でのFER法のゼロショット一般化能力を改善することを目的とする。 ヒトがまず顔を検出し、次に表現特徴を選択する方法に着想を得て、任意の顔画像から表現関連特徴を抽出する新しいFERパイプラインを提案する。 提案手法は,CLIPのような大規模モデルによって抽出された一般化可能な顔特徴に基づいている。 しかし、FERのような特定のタスクにCLIPの一般的な機能を適用するのは簡単ではない。 CLIPの一般化能力とFERモデルの高精度性を維持するため,CLIPの顔特徴に基づいてSigmoid masksを学習し,表現特徴を抽出する手法を考案した。 未確認テストセットの一般化能力をさらに向上するため,学習したマスキング特徴のチャネルを表現クラスに従って分離し,ロジットを直接生成し,FC層によるオーバーフィッティングの低減を回避する。 また,学習マスクを分離するチャネル幅の損失も導入する。 5つの異なるFERデータセットに対する大規模な実験により、我々の手法がSOTA FER法よりも大きなマージンで優れていることが確認された。 コードはhttps://github.com/zyh-uaiaaaa/Generalizable-FERで入手できる。

SOTA facial expression recognition (FER) methods fail on test sets that have domain gaps with the train set. Recent domain adaptation FER methods need to acquire labeled or unlabeled samples of target domains to fine-tune the FER model, which might be infeasible in real-world deployment. In this paper, we aim to improve the zero-shot generalization ability of FER methods on different unseen test sets using only one train set. Inspired by how humans first detect faces and then select expression features, we propose a novel FER pipeline to extract expression-related features from any given face images. Our method is based on the generalizable face features extracted by large models like CLIP. However, it is non-trivial to adapt the general features of CLIP for specific tasks like FER. To preserve the generalization ability of CLIP and the high precision of the FER model, we design a novel approach that learns sigmoid masks based on the fixed CLIP face features to extract expression features. To further improve the generalization ability on unseen test sets, we separate the channels of the learned masked features according to the expression classes to directly generate logits and avoid using the FC layer to reduce overfitting. We also introduce a channel-diverse loss to make the learned masks separated. Extensive experiments on five different FER datasets verify that our method outperforms SOTA FER methods by large margins. Code is available in https://github.com/zyh-uaiaaaa/Generalizable-FER.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# 大規模言語モデルにおけるロバスト性向上:無関係情報の影響を緩和するための試行

Enhancing Robustness in Large Language Models: Prompting for Mitigating the Impact of Irrelevant Information ( http://arxiv.org/abs/2408.10615v1 )

ライセンス: Link先を確認
Ming Jiang, Tingting Huang, Biao Guo, Yao Lu, Feng Zhang, (参考訳) 近年,Large Language Model (LLM) が注目されている。 しかし、最近の研究では、高度なプロンプト技術を用いても、問題記述が無関係な情報を含む場合、その推論能力は著しく低下する可能性がある。 この問題をさらに調査するため,GSMIRという無関係情報を含む小学校数学問題のデータセットを構築した。 顕著なLSMのテストと、このデータセットのプロンプト技術により、LSMは無関係な情報を識別できるが、一度特定されると引き起こされる干渉を効果的に軽減しないことが明らかとなった。 非関連情報の影響を識別し、自己緩和するLSMの能力を高める新しい自動構築手法であるATFを提案し、この問題に対処する。 この方法は2つのステップで機能する: まず、無関係な情報を分析し、次にフィルタリングする。 ATF法は, 実験結果から示されるように, GSMIRデータセットの無関係な情報が存在する場合でも, LLMの推論性能を著しく向上し, 手法を推し進める。

In recent years, Large language models (LLMs) have garnered significant attention due to their superior performance in complex reasoning tasks. However, recent studies may diminish their reasoning capabilities markedly when problem descriptions contain irrelevant information, even with the use of advanced prompting techniques. To further investigate this issue, a dataset of primary school mathematics problems containing irrelevant information, named GSMIR, was constructed. Testing prominent LLMs and prompting techniques on this dataset revealed that while LLMs can identify irrelevant information, they do not effectively mitigate the interference it causes once identified. A novel automatic construction method, ATF, which enhances the ability of LLMs to identify and self-mitigate the influence of irrelevant information, is proposed to address this shortcoming. This method operates in two steps: first, analysis of irrelevant information, followed by its filtering. The ATF method, as demonstrated by experimental results, significantly improves the reasoning performance of LLMs and prompting techniques, even in the presence of irrelevant information on the GSMIR dataset.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# 美学研究における客観的画像特性の計算ツールボックス

A toolbox for calculating objective image properties in aesthetics research ( http://arxiv.org/abs/2408.10616v1 )

ライセンス: Link先を確認
Christoph Redies, Ralf Bartho, Lisa Koßmann, Branka Spehar, Ronald Hübner, Johan Wagemans, Gregor U. Hayn-Leichsenring, (参考訳) 過去20年間、視覚美学の研究者は、多くの量的(客観的な)イメージ特性と、それらが視覚美的鑑賞との関連性について研究してきた。 しかし,研究グループ間の比較は困難である。 一つの理由は、研究者が研究で異なる画像特性のセットを使用しているからである。 しかし、同じプロパティが使われたとしても、画像前処理技術が異なる場合があり、しばしば研究者は独自のスクリプトを使用して画像特性を計算します。 視覚的審美学における研究結果のアクセシビリティとコンパビリティの向上を目的として,オープンアクセスで使いやすいツールボックス(Aesthetics Toolbox)を開発した。 Toolboxは、現代の研究でよく使われる定量的な画像特性の集合をユーザが正確に計算することを可能にする。 この性質には、光度と色統計、フーリエスペクトル特性、フラクタル性、自己相似性、対称性、異なるエントロピー測度とCNNに基づく分散が含まれる。 ほとんどのデバイスと互換性のあるツールボックスは、直感的なクリック&ドロップのWebインターフェースを提供する。 Toolboxでは、4つの異なる研究グループのオリジナルのスクリプトを統合し、それらをPython 3に翻訳しました。 分析全体で結果が一貫していることを確認するため、Pythonバージョンのスクリプトの結果がオリジナルのスクリプトと同じであるように注意しました。 ツールボックス、詳細なドキュメント、クラウドバージョンへのリンクはGithubで入手できる。 そこで我々は,視覚美学研究のための定量的画像特性の計算の標準化と簡易化を支援するツールボックスを開発した。

Over the past two decades, researchers in the field of visual aesthetics have studied numerous quantitative (objective) image properties and how they relate to visual aesthetic appreciation. However, results are difficult to compare between research groups. One reason is that researchers use different sets of image properties in their studies. But even if the same properties are used, the image pre-processing techniques may differ and often researchers use their own customized scripts to calculate the image properties. To provide greater accessibility and comparability of research results in visual experimental aesthetics, we developed an open-access and easy-to-use toolbox (called the 'Aesthetics Toolbox'). The Toolbox allows users to calculate a well-defined set of quantitative image properties popular in contemporary research. The properties include lightness and color statistics, Fourier spectral properties, fractality, self-similarity, symmetry, as well as different entropy measures and CNN-based variances. Compatible with most devices, the Toolbox provides an intuitive click-and-drop web interface. In the Toolbox, we integrated the original scripts of four different research groups and translated them into Python 3. To ensure that results were consistent across analyses, we took care that results from the Python versions of the scripts were the same as those from the original scripts. The toolbox, detailed documentation, and a link to the cloud version are available via Github: https://github.com/RBartho/Aesthetics-Toolbox. In summary, we developed a toolbox that helps to standardize and simplify the calculation of quantitative image properties for visual aesthetics research.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# OMEGA:状態空間モデルによる動的環境におけるエアグラウンドロボットの効率的なオクルージョン認識ナビゲーション

OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model ( http://arxiv.org/abs/2408.10618v1 )

ライセンス: Link先を確認
Junming Wang, Dong Huang, Xiuxian Guan, Zekai Sun, Tianxiang Shen, Fangming Liu, Heming Cui, (参考訳) 地上のロボット(AGR)は、異常な機動性と汎用性(飛行と運転)のため、監視や災害対応に広く使用されている。 現在のAGRナビゲーションシステムは,3次元セマンティック占有ネットワークを用いて局所マッピングの完全なオクルージョンを予測し,経路計画のためのユークリッド符号距離場(ESDF)を計算することで,静的オクルージョン発生環境(例えば屋内)において良好に機能する。 しかしこれらのシステムは、知覚ネットワークの予測精度の低さとパスプランナーの計算オーバーヘッドの高さにより、動的で厳しい閉塞シーン(例えば群集)の課題に直面している。 本稿では,OccMamba と AGR-Planner を併用した OMEGA を提案する。 OccMambaは、セマンティックおよび占有予測を独立したブランチに分離し、2つのマンバブロックをこれらのブランチに組み込む新しいアーキテクチャを採用している。 これらのブロックは3次元環境における意味的特徴と幾何学的特徴を線形複雑に抽出し、ネットワークが長距離依存を学習して予測精度を向上させることを保証する。 意味的特徴と幾何学的特徴は、機能融合時の計算オーバーヘッドを最小限に抑えるために、Bird's Eye View (BEV)空間内で結合される。 結果のセマンティック占有マップは、局所マップにシームレスに統合され、動的環境に対する排他的認識を提供する。 我々のAGR-Plannerはこのローカルマップを利用してキノダイナミックA*探索と勾配に基づく軌道最適化を用いて、計画がESDFフリーでエネルギー効率が良いことを保証している。 OccMambaは25.0% mIoUで最先端の3Dセマンティック占有ネットワークを上回っている。 動的シーンにおけるエンドツーエンドのナビゲーション実験は、OMEGAの効率を検証し、平均的な計画成功率は96%に達する。 コードとビデオはhttps://jmwang0117.github.io/OMEGA/で公開されている。

Air-ground robots (AGRs) are widely used in surveillance and disaster response due to their exceptional mobility and versatility (i.e., flying and driving). Current AGR navigation systems perform well in static occlusion-prone environments (e.g., indoors) by using 3D semantic occupancy networks to predict occlusions for complete local mapping and then computing Euclidean Signed Distance Field (ESDF) for path planning. However, these systems face challenges in dynamic, severe occlusion scenes (e.g., crowds) due to limitations in perception networks' low prediction accuracy and path planners' high computation overhead. In this paper, we propose OMEGA, which contains OccMamba with an Efficient AGR-Planner to address the above-mentioned problems. OccMamba adopts a novel architecture that separates semantic and occupancy prediction into independent branches, incorporating two mamba blocks within these branches. These blocks efficiently extract semantic and geometric features in 3D environments with linear complexity, ensuring that the network can learn long-distance dependencies to improve prediction accuracy. Semantic and geometric features are combined within the Bird's Eye View (BEV) space to minimise computational overhead during feature fusion. The resulting semantic occupancy map is then seamlessly integrated into the local map, providing occlusion awareness of the dynamic environment. Our AGR-Planner utilizes this local map and employs kinodynamic A* search and gradient-based trajectory optimization to guarantee planning is ESDF-free and energy-efficient. Extensive experiments demonstrate that OccMamba outperforms the state-of-the-art 3D semantic occupancy network with 25.0% mIoU. End-to-end navigation experiments in dynamic scenes verify OMEGA's efficiency, achieving a 96% average planning success rate. Code and video are available at https://jmwang0117.github.io/OMEGA/.
翻訳日:2024-08-21 14:44:20 公開日:2024-08-20
# 拡散モデルと構造類似度指標(SSIM)を用いたリモートセンシング画像における新しい変化検出フレームワーク

Novel Change Detection Framework in Remote Sensing Imagery Using Diffusion Models and Structural Similarity Index (SSIM) ( http://arxiv.org/abs/2408.10619v1 )

ライセンス: Link先を確認
Andrew Kiruluta, Eric Lundy, Andreas Lemos, (参考訳) 変化検出はリモートセンシングにおいて重要な課題であり、環境変化、都市の成長、災害影響のモニタリングを可能にする。 画像の差分や比例などの従来の変化検出技術は、しばしばノイズに悩まされ、画像の複雑な変化を捉えられなかった。 近年の機械学習、特に拡散モデルのような生成モデルの発展は、変化検出精度を向上する新たな機会を提供する。 本稿では、安定拡散モデルの強度と構造類似度指数(SSIM)を組み合わせ、頑健で解釈可能な変化マップを作成する新しい変化検出フレームワークを提案する。 我々のアプローチはDiffusion Based Change Detectorと呼ばれ、合成と現実世界の両方のリモートセンシングデータセットで評価され、最先端の手法と比較される。 以上の結果から,従来の差分法や近年の深層学習手法,特に複雑な変化やノイズのあるシナリオでは,本手法の方が優れていたことが示唆された。

Change detection is a crucial task in remote sensing, enabling the monitoring of environmental changes, urban growth, and disaster impact. Conventional change detection techniques, such as image differencing and ratioing, often struggle with noise and fail to capture complex variations in imagery. Recent advancements in machine learning, particularly generative models like diffusion models, offer new opportunities for enhancing change detection accuracy. In this paper, we propose a novel change detection framework that combines the strengths of Stable Diffusion models with the Structural Similarity Index (SSIM) to create robust and interpretable change maps. Our approach, named Diffusion Based Change Detector, is evaluated on both synthetic and real-world remote sensing datasets and compared with state-of-the-art methods. The results demonstrate that our method significantly outperforms traditional differencing techniques and recent deep learning-based methods, particularly in scenarios with complex changes and noise.
翻訳日:2024-08-21 14:44:19 公開日:2024-08-20
# TextMastero: さまざまな言語やスタイルで高品質なシーンテキスト編集を習得する

TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles ( http://arxiv.org/abs/2408.10623v1 )

ライセンス: Link先を確認
Tong Wang, Xiaochao Qu, Ting Liu, (参考訳) シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。 課題は、画像、対象領域、および対象テキストが与えられた場合、選択された領域における対象テキストの出力画像を生成し、原文を置き換える。 このタスクは、テキストの忠実さとスタイルの類似性のバランスをとるために、GAN(Generative Adversarial Networks)を用いて、広く研究されている。 しかし、GANベースの手法は複雑な背景やテキストスタイルに悩まされていた。 特にCJK文字(中国語、日本語、韓国語)のような複雑なグリフを持つ非ラテン言語では、しばしば不正確または認識不能な文字を生成する。 これらの問題に対処するために, 潜在拡散モデル (LDM) に基づく多言語シーンテキスト編集アーキテクチャである \emph{TextMastero} を提案する。 TextMasteroは、正確なテキストを生成するための細かいコンテンツ制御のためのグリフコンディショニングモジュールと、編集前後の類似性を保証する包括的なスタイル情報を提供する潜在ガイダンスモジュールの2つの主要なモジュールを紹介している。 定性的かつ定量的な実験は、本手法がテキストの忠実さとスタイルの類似性において、既知のすべての作品を上回ることを実証している。

Scene text editing aims to modify texts on images while maintaining the style of newly generated text similar to the original. Given an image, a target area, and target text, the task produces an output image with the target text in the selected area, replacing the original. This task has been studied extensively, with initial success using Generative Adversarial Networks (GANs) to balance text fidelity and style similarity. However, GAN-based methods struggled with complex backgrounds or text styles. Recent works leverage diffusion models, showing improved results, yet still face challenges, especially with non-Latin languages like CJK characters (Chinese, Japanese, Korean) that have complex glyphs, often producing inaccurate or unrecognizable characters. To address these issues, we present \emph{TextMastero} - a carefully designed multilingual scene text editing architecture based on latent diffusion models (LDMs). TextMastero introduces two key modules: a glyph conditioning module for fine-grained content control in generating accurate texts, and a latent guidance module for providing comprehensive style information to ensure similarity before and after editing. Both qualitative and quantitative experiments demonstrate that our method surpasses all known existing works in text fidelity and style similarity.
翻訳日:2024-08-21 14:44:19 公開日:2024-08-20
# WRIM-Net:視覚障害者再識別のための広帯域情報マイニングネットワーク

WRIM-Net: Wide-Ranging Information Mining Network for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2408.10624v1 )

ライセンス: Link先を確認
Yonggan Wu, Ling-Chao Meng, Yuan Zichao, Sixian Chan, Hong-Qiang Wang, (参考訳) 視覚的赤外線人物再識別(VI-ReID)タスクでは、主要な課題の1つは、重要なモダリティの相違にある。 既存の方法は、モダリティ不変の情報マイニングを行うのに苦労している。 彼らはしばしば、空間やチャネルのような特異次元のマイニングだけに集中し、特定のモダリティの多重次元情報の抽出を見落としている。 本稿では,多次元インタラクティブ情報マイニング(MIIM)モジュールと補助情報に基づくコントラスト学習(AICL)アプローチを主とするワイドランキング情報マイニングネットワーク(WRIM-Net)について紹介する。 提案したGRI(Global Region Interaction)を応用したMIIMは,次元内相互作用を通じて局所的空間情報とチャネル情報を包括的にマイニングする。 さらに、計算複雑性の低い設計により、別々のMIIMを浅い層に配置できるため、ネットワークは特定のモダリティの多重次元情報をよりよくマイニングすることができる。 AICLは、新しいCMKIC(Cross-Modality Key-Instance Contrastive)損失を導入することで、モダリティ不変情報を抽出するネットワークを効果的にガイドする。 我々は、よく知られたSYSU-MM01とRegDBデータセットだけでなく、最新の大規模クロスモダリティLLMデータセットにも広範な実験を行う。 その結果、WRIM-Netは最先端の手法よりも優れていることが示された。

For the visible-infrared person re-identification (VI-ReID) task, one of the primary challenges lies in significant cross-modality discrepancy. Existing methods struggle to conduct modality-invariant information mining. They often focus solely on mining singular dimensions like spatial or channel, and overlook the extraction of specific-modality multi-dimension information. To fully mine modality-invariant information across a wide range, we introduce the Wide-Ranging Information Mining Network (WRIM-Net), which mainly comprises a Multi-dimension Interactive Information Mining (MIIM) module and an Auxiliary-Information-based Contrastive Learning (AICL) approach. Empowered by the proposed Global Region Interaction (GRI), MIIM comprehensively mines non-local spatial and channel information through intra-dimension interaction. Moreover, Thanks to the low computational complexity design, separate MIIM can be positioned in shallow layers, enabling the network to better mine specific-modality multi-dimension information. AICL, by introducing the novel Cross-Modality Key-Instance Contrastive (CMKIC) loss, effectively guides the network in extracting modality-invariant information. We conduct extensive experiments not only on the well-known SYSU-MM01 and RegDB datasets but also on the latest large-scale cross-modality LLCM dataset. The results demonstrate WRIM-Net's superiority over state-of-the-art methods.
翻訳日:2024-08-21 14:44:19 公開日:2024-08-20
# マスクビデオの一貫性によるビデオセグメンテーションの再考: モデルは意図的であったか?

Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? ( http://arxiv.org/abs/2408.10627v1 )

ライセンス: Link先を確認
Chen Liang, Qiang Guo, Xiaochao Qu, Luoqi Liu, Ting Liu, (参考訳) ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。 現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。 これにより、フレーム間の一貫性のないセグメンテーション結果が得られる。 これらの課題に対処するために,空間的・時間的特徴集約を強化するMasked Video Consistencyを提案する。 MVCは、画像パッチをランダムに隠蔽し、セマンティックセグメンテーション全体の予測をネットワークに強制するトレーニング戦略を導入し、コンテキスト情報の統合を改善する。 さらに、非関係なクエリの影響を低減し、時間的モデリング能力を向上させることにより、オブジェクトマスキング注意(OMA)を導入し、クロスアテンションメカニズムを最適化する。 直近の分離されたユニバーサルビデオセグメンテーションフレームワークに組み込まれた我々の手法は,3つのビデオセグメンテーションタスクに対して,5つのデータセットにまたがる最先端のパフォーマンスを実現し,モデルパラメータを増大させることなく,従来の手法よりも大幅に改善されたことを示す。

Video segmentation aims at partitioning video sequences into meaningful segments based on objects or regions of interest within frames. Current video segmentation models are often derived from image segmentation techniques, which struggle to cope with small-scale or class-imbalanced video datasets. This leads to inconsistent segmentation results across frames. To address these issues, we propose a training strategy Masked Video Consistency, which enhances spatial and temporal feature aggregation. MVC introduces a training strategy that randomly masks image patches, compelling the network to predict the entire semantic segmentation, thus improving contextual information integration. Additionally, we introduce Object Masked Attention (OMA) to optimize the cross-attention mechanism by reducing the impact of irrelevant queries, thereby enhancing temporal modeling capabilities. Our approach, integrated into the latest decoupled universal video segmentation framework, achieves state-of-the-art performance across five datasets for three video segmentation tasks, demonstrating significant improvements over previous methods without increasing model parameters.
翻訳日:2024-08-21 14:44:19 公開日:2024-08-20
# 時系列のDeepDreamを見つける:一様時系列のアクティベーション最大化

Finding the DeepDream for Time Series: Activation Maximization for Univariate Time Series ( http://arxiv.org/abs/2408.10628v1 )

ライセンス: Link先を確認
Udo Schlegel, Daniel A. Keim, Tobias Sutter, (参考訳) モデルがどのように処理し、時系列データを解釈するかを理解することは、ディープラーニングにおいて、医療のような安全クリティカルな分野に適用可能にするための重要な課題である。 本稿では,逐次情報解析にアクティベーション最大化を適用する手法であるSequence Dreamingを紹介し,一変量時系列で動作するニューラルネットワークの解釈可能性を高めることを目的とした。 この手法を利用することで、モデル決定プロセスに最も影響を及ぼす時間的ダイナミクスとパターンを可視化する。 非現実的あるいは過度にノイズのあるシーケンスの生成に対処するため、指数的滑らか化を含む様々な正規化手法でシーケンスドリーミングを強化する。 このアプローチにより、ニューラルネットワークによって識別される重要な特徴をより正確に反映したシーケンスの生成が保証される。 本手法は,予測保守における応用を含む時系列分類データセットを用いて検証する。 その結果,本提案手法は,異なるユースケースを対象としたターゲットアクティベーションの最大化を実証し,中心的クラスと境界的アクティベーションの最大化が可能であることを示した。 その結果、ニューラルネットワークが学習した有意義な時間的特徴を明らかにすることで、決定クリティカルドメインにおけるモデルの透明性と信頼性を向上する上で、シーケンスドリーミングの汎用性を強調した。

Understanding how models process and interpret time series data remains a significant challenge in deep learning to enable applicability in safety-critical areas such as healthcare. In this paper, we introduce Sequence Dreaming, a technique that adapts Activation Maximization to analyze sequential information, aiming to enhance the interpretability of neural networks operating on univariate time series. By leveraging this method, we visualize the temporal dynamics and patterns most influential in model decision-making processes. To counteract the generation of unrealistic or excessively noisy sequences, we enhance Sequence Dreaming with a range of regularization techniques, including exponential smoothing. This approach ensures the production of sequences that more accurately reflect the critical features identified by the neural network. Our approach is tested on a time series classification dataset encompassing applications in predictive maintenance. The results show that our proposed Sequence Dreaming approach demonstrates targeted activation maximization for different use cases so that either centered class or border activation maximization can be generated. The results underscore the versatility of Sequence Dreaming in uncovering salient temporal features learned by neural networks, thereby advancing model transparency and trustworthiness in decision-critical domains.
翻訳日:2024-08-21 14:44:19 公開日:2024-08-20
# LLM-Barber: 大規模言語モデルのためのワンショットスポーザリティマスクのためのブロック対応リビルダー

LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models ( http://arxiv.org/abs/2408.10631v1 )

ライセンス: Link先を確認
Yupeng Su, Ziyi Guan, Xiaoqun Liu, Tianlai Jin, Dongkuan Wu, Graziano Chesi, Ngai Wong, Hao Yu, (参考訳) 大規模言語モデル(LLM)は大規模に大きく成長しており、効率的なモデルプルーニング技術を必要としている。 既存の訓練後のプルーニング技術は主に、保存すべき塩分重量を決定するために収束密度モデルにおける重みの重要度を測定することに焦点を当てている。 しかし、彼らはしばしば刈り込み過程における重み付けの重要性の変化を見落とし、刈り込みモデルの性能低下につながる可能性がある。 この問題に対処するため,我々は,再トレーニングや重量再構成を伴わずに刈り取られたモデルのスパーシティマスクを再構築する,新しいワンショットプルーニングフレームワーク LLM-Barber (Block-Aware Rebuilder for Sparsity Mask in One-Shot) を紹介した。 LLM-Barberは、自己注意ブロックとMLPブロックをまたいだブロック認識エラー最適化を導入し、グローバルなパフォーマンス最適化を実現している。 LLMにおける最近の顕著な外れ値発見に触発されて、LSM-バーバーは勾配に乗じて重みの重みを識別する革新的なプルーニング指標を導入した。 LLM-Barber は 1 つの A100 GPU 上で 7B から 13B のパラメータを持つ LLaMA や OPT ファミリ などのモデルを 30 分で効率的にプルークできることを示す。 コードはhttps://github.com/YupengSu/LLM-Barber.comで入手できる。

Large language models (LLMs) have grown significantly in scale, leading to a critical need for efficient model pruning techniques. Existing post-training pruning techniques primarily focus on measuring weight importance on converged dense models to determine salient weights to retain. However, they often overlook the changes in weight importance during the pruning process, which can lead to performance degradation in the pruned models. To address this issue, we present LLM-Barber (Block-Aware Rebuilder for Sparsity Mask in One-Shot), a novel one-shot pruning framework that rebuilds the sparsity mask of pruned models without any retraining or weight reconstruction. LLM-Barber incorporates block-aware error optimization across Self-Attention and MLP blocks, ensuring global performance optimization. Inspired by the recent discovery of prominent outliers in LLMs, LLM-Barber introduces an innovative pruning metric that identifies weight importance using weights multiplied by gradients. Our experiments show that LLM-Barber can efficiently prune models like LLaMA and OPT families with 7B to 13B parameters on a single A100 GPU in just 30 minutes, achieving state-of-the-art results in both perplexity and zero-shot performance across various language benchmarks. Code is available at https://github.com/YupengSu/LLM-Barber.
翻訳日:2024-08-21 14:44:19 公開日:2024-08-20
# 一様時系列の相互対数生成

Interactive Counterfactual Generation for Univariate Time Series ( http://arxiv.org/abs/2408.10633v1 )

ライセンス: Link先を確認
Udo Schlegel, Julius Rauscher, Daniel A. Keim, (参考訳) 本稿では,2次元投影法と決定境界マップを利用して,一変量時系列データに対して,解釈可能性問題に対処する対話的手法を提案する。 私たちのアプローチは、ディープラーニングモデルの意思決定プロセスの透明性と理解を高めることを目的としています。 このアプリケーションは、ユーザが対話的に投影されたデータポイントを操作できるようにし、逆投影技術による直感的な洞察を提供することにより、時系列データ解析を単純化する。 生の時系列データではなく、予測されたデータポイントとのユーザインタラクションを抽象化することにより、本手法は直感的な反実的説明の生成を容易にする。 このアプローチにより、単変量時系列データのより直接的な探索が可能になり、ユーザーはデータポイントを操作でき、仮説的なシナリオの潜在的な結果を理解することができる。 本手法をECG5000ベンチマークデータセットを用いて検証し,解釈可能性と時系列分類のユーザ理解の大幅な向上を実証した。 この結果は、さまざまな分野の潜在的な応用において、透明で解釈可能なディープラーニングモデルを必要とする、説明可能なAIを強化するための有望な方向を示している。 今後,この手法の時系列データを多変量化するためのスケーラビリティと,他の解釈可能性技術との統合について検討する。

We propose an interactive methodology for generating counterfactual explanations for univariate time series data in classification tasks by leveraging 2D projections and decision boundary maps to tackle interpretability challenges. Our approach aims to enhance the transparency and understanding of deep learning models' decision processes. The application simplifies the time series data analysis by enabling users to interactively manipulate projected data points, providing intuitive insights through inverse projection techniques. By abstracting user interactions with the projected data points rather than the raw time series data, our method facilitates an intuitive generation of counterfactual explanations. This approach allows for a more straightforward exploration of univariate time series data, enabling users to manipulate data points to comprehend potential outcomes of hypothetical scenarios. We validate this method using the ECG5000 benchmark dataset, demonstrating significant improvements in interpretability and user understanding of time series classification. The results indicate a promising direction for enhancing explainable AI, with potential applications in various domains requiring transparent and interpretable deep learning models. Future work will explore the scalability of this method to multivariate time series data and its integration with other interpretability techniques.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# アイデンティティアクセス管理ソリューションによるセキュリティ課題の産業認識

Industry Perception of Security Challenges with Identity Access Management Solutions ( http://arxiv.org/abs/2408.10634v1 )

ライセンス: Link先を確認
Abhishek Pratap Singh, Ievgeniia Kuzminykh, Bogdan Ghita, (参考訳) IAM(Identity Access Management)は、特にリモート接続と分散あるいはクラウドベースのシステムのコンテキストにおいて、重要な課題を提起する分野である。 先行研究によって幅広い技術的ソリューションが提案されているが、これらのソリューションを商業分野に統合することは、彼らの受け入れを著しく妨げるステップである。 本研究は、受益者の視点から、IAMソリューションに関する現在の認識とセキュリティ問題の概要を明らかにすることを目的としている。 この分析は、世界中の異なる組織のサイバーセキュリティ専門家45人との一連のインタビューに基づいている。 結果が示すように、クラウドIAMソリューションとオンプレミスIAMソリューションは異なる問題の影響を受けます。 クラウドベースのIAMソリューションの主な課題は、デフォルト設定、サービスアカウントのような非Human Identitiesの不適切な管理、不正な証明書管理、API設定の不適切な設定、限定的なログ分析である。 対照的に、オンプレミスソリューションの課題は、マルチファクタ認証、安全でないデフォルト設定、IAMソリューションを安全に管理するために必要なスキルセットの欠如、パスワードポリシーの貧弱化、未パッチの脆弱性、シングルサインの妥協などである。 調査はまた、クラウドベースのIAMソリューションの進化する機能にかかわらず、回答者の41%がオンプレミスソリューションがクラウドベースのソリューションよりも安全であると信じていると結論付けた。 回答者が指摘したように、クラウドIAMは、根底にあるソリューションの複雑さ、パーミッション管理の課題、動的IAMポリシーの遵守などにより、組織を幅広い脆弱性に晒す可能性がある。

Identity Access Management (IAM) is an area posing significant challenges, particularly in the context of remote connectivity and distributed or cloud-based systems. A wide range of technical solutions have been proposed by prior research, but the integration of these solutions in the commercial sector represent steps that significantly hamper their acceptance. The study aims to outline the current perception and security issues associated with IAMs solutions from the perspective of the beneficiaries. The analysis relies on a series of interviews with 45 cyber security professionals from different organisations all over the world. As results showed, cloud IAM solutions and on premises IAM solutions are affected by different issues. The main challenges for cloud based IAM solutions were Default configurations, Poor management of Non-Human Identities such as Service accounts, Poor certificate management, Poor API configuration and limited Log analysis. In contrast, the challenges for on premise solutions were Multi Factor Authentication, insecure Default configurations, Lack of skillsets required to manage IAM solution securely, Poor password policies, Unpatched vulnerabilities, and compromise of Single-Sign on leading to compromise of multiple entities. The study also determined that, regardless the evolving functionality of cloud based IAM solutions, 41% of respondents believe that the on premise solutions more secure than the cloud-based ones. As pointed out by the respondents, cloud IAM may potentially expose organisations to a wider range of vulnerabilities due to the complexity of the underlying solutions, challenges with managing permissions, and compliance to dynamic IAM policies.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# ストラテジスト:二層木探索によるLSMによる戦略スキルの学習

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search ( http://arxiv.org/abs/2408.10635v1 )

ライセンス: Link先を確認
Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu, (参考訳) 本稿では,LSMを利用したマルチエージェントゲームのための新たなスキルを自己改善プロセスにより獲得するストラテジストを提案する。 提案手法はモンテカルロ木探索とLLMリフレクションを用いた自己再生シミュレーションにより品質フィードバックを収集し,低レベルの実行を導く状態の評価など高レベルの戦略スキルの学習に利用することができる。 具体的には,ゲーム・オブ・プル・ストラテジー(GOPS)やレジスタンス・アバロンといったゲームにおいて,従来の強化学習に基づくアプローチや,その他のLLMベースのスキル学習アプローチよりも優れたパフォーマンスでエージェントを訓練できることを示す。

In this paper, we propose a new method Strategist that utilizes LLMs to acquire new skills for playing multi-agent games through a self-improvement process. Our method gathers quality feedback through self-play simulations with Monte Carlo tree search and LLM-based reflection, which can then be used to learn high-level strategic skills such as how to evaluate states that guide the low-level execution.We showcase how our method can be used in both action planning and dialogue generation in the context of games, achieving good performance on both tasks. Specifically, we demonstrate that our method can help train agents with better performance than both traditional reinforcement learning-based approaches and other LLM-based skill learning approaches in games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# 超広視野カラー画像から多フレーム超広視野フルオレセイン血管造影を作製した糖尿病網膜症

Generating Multi-frame Ultrawide-field Fluorescein Angiography from Ultrawide-field Color Imaging Improves Diabetic Retinopathy Stratification ( http://arxiv.org/abs/2408.10636v1 )

ライセンス: Link先を確認
Ruoyu Chen, Kezheng Xu, Kangyan Zheng, Weiyi Zhang, Yan Lu, Danli Shi, Mingguang He, (参考訳) Ultrawide-field fluorescein angiography (UWF-FA) は糖尿病網膜症(DR)の検出を促進する。 しかし、潜在的なリスクを伴う静脈内染料注入は、その適用を妨げている。 我々は、生成人工知能(GenAI)を用いた非侵襲的UWFカラーファンドス(UWF-CF)画像から染料フリーなUWF-FA画像を取得し、DRスクリーニングの有効性を評価することを目的とする。 異なる位相のUWF-FA画像18,321枚を対応するUWF-CF画像に登録し,GAN(Generative Adversarial Network)ベースのトレーニングモデルに入力した。 生成したUWF-FA画像の品質を定量化と人的評価により評価した。 DeepDRiDデータセットを用いて、生成したUWF-FA画像のDR分類への寄与を外部から評価し、受信機動作特性曲線(AUROC)以下の領域を結果指標とした。 生成したUWF-FA画像は、0.70から0.91までの類似度スコアと1.64から1.98(実際のUWF-FAの品質)の定性的視覚スコアで高い信頼性を得た。 ランダムに選択された50枚の画像では、生成した画像の56%から76%はチューリング試験で実際の画像と区別することが困難であった。 さらに、これらの生成したUWF-FA画像をDR分類に付加すると、UWF-CF画像を用いたベースラインモデルと比較して、AUROCは0.869から0.904に大幅に増加した(P < .001)。 このモデルは静脈内染料注入なしで現実的な多フレームUWF-FA画像を生成する。 生成したUWF-FAはDR層を増強した。

Ultrawide-field fluorescein angiography (UWF-FA) facilitates diabetic retinopathy (DR) detection by providing a clear visualization of peripheral retinal lesions. However, the intravenous dye injection with potential risks hamper its application. We aim to acquire dye-free UWF-FA images from noninvasive UWF color fundus (UWF-CF) images using generative artificial intelligence (GenAI) and evaluate its effectiveness in DR screening. A total of 18,321 UWF-FA images of different phases were registered with corresponding UWF-CF images and fed into a generative adversarial networks (GAN)-based model for training. The quality of generated UWF-FA images was evaluated through quantitative metrics and human evaluation. The DeepDRiD dataset was used to externally assess the contribution of generated UWF-FA images to DR classification, using area under the receiver operating characteristic curve (AUROC) as outcome metrics. The generated early, mid, and late phase UWF-FA images achieved high authenticity, with multi-scale similarity scores ranging from 0.70 to 0.91 and qualitative visual scores ranging from 1.64 to 1.98 (1=real UWF-FA quality). In fifty randomly selected images, 56% to 76% of the generated images were difficult to distinguish from real images in the Turing test. Moreover, adding these generated UWF-FA images for DR classification significantly increased the AUROC from 0.869 to 0.904 compared to the baseline model using UWF-CF images (P < .001). The model successfully generates realistic multi-frame UWF-FA images without intravenous dye injection. The generated UWF-FA enhanced DR stratification.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# 2レベルシステムにおける数値演算子に基づく逆工学手法

Number-operator-based inverse engineering technique in a two level system ( http://arxiv.org/abs/2408.10639v1 )

ライセンス: Link先を確認
Kiran Thengil, (参考訳) 本稿では, トランスモン量子ビットを用いた量子コンピュータを用いて, 数値演算子を用いた逆エンジニアリング法(NOBIE)を実験的に実現した。 ディジタル制御パルスは、ショートカットプロトコルを実行するために、オープンソースのソフトウェア開発キットであるqiskitでプログラムされる。 その結果,他の量子ビットとの相互作用や制御パルスに付随する雑音によらず,量子ビットの有効ハミルトニアンに対して試験されたとしても,NOBIE法のロバスト性を示した。

This paper experimentally realize a new method for shortcuts to adiabaticity, number operator based inverse engineering method (NOBIE), using quantum computers built with transmon qubits. Digitized control pulses are programmed in an open source software development kit, qiskit, to execute the shortcut protocols. The obtained results shows the robustness of the NOBIE method, even though it is tested for an effective Hamiltonian of a qubit irrespective of the interaction with other qubits and noise associated with the control pulses.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# 人間と物体の相互作用検出の概観

A Review of Human-Object Interaction Detection ( http://arxiv.org/abs/2408.10641v1 )

ライセンス: Link先を確認
Yuxiao Wang, Qiwei Xiong, Yu Lei, Weiying Xue, Qi Liu, Zhenao Wei, (参考訳) ヒトと物体の相互作用(HOI)の検出は、人間の活動の深い理解を促進するために、ハイレベルな視覚的理解において重要な役割を果たす。 具体的には、HOI検出は、画像やビデオ内のインタラクションに関わる人間とオブジェクトを特定し、それら間の特定のインタラクションを分類することを目的としている。 このタスクの成功は、人間とオブジェクトの正確な位置決めや、オブジェクトのカテゴリと相互作用関係の正確な分類など、いくつかの重要な要因の影響を受けている。 本稿では,画像に基づくHOI検出における最近の研究を体系的に要約し,考察する。 まず、HOI関係検出に関わる主流データセットを紹介する。 さらに,2段階法とエンドツーエンドの1段階検出手法から,画像に基づくHOI検出の現況を包括的に考察し,この2つの手法の長所と短所を解析した。 さらに,ゼロショット学習の進歩,弱教師付き学習,大規模言語モデルのHOI検出への応用についても論じる。 最後に、HOI検出における現在の課題について概説し、今後の研究の方向性と動向について考察する。

Human-object interaction (HOI) detection plays a key role in high-level visual understanding, facilitating a deep comprehension of human activities. Specifically, HOI detection aims to locate the humans and objects involved in interactions within images or videos and classify the specific interactions between them. The success of this task is influenced by several key factors, including the accurate localization of human and object instances, as well as the correct classification of object categories and interaction relationships. This paper systematically summarizes and discusses the recent work in image-based HOI detection. First, the mainstream datasets involved in HOI relationship detection are introduced. Furthermore, starting with two-stage methods and end-to-end one-stage detection approaches, this paper comprehensively discusses the current developments in image-based HOI detection, analyzing the strengths and weaknesses of these two methods. Additionally, the advancements of zero-shot learning, weakly supervised learning, and the application of large-scale language models in HOI detection are discussed. Finally, the current challenges in HOI detection are outlined, and potential research directions and future trends are explored.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# LLMファインチューンの小型SFT損失による性能向上とモデル偏差低減

Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation ( http://arxiv.org/abs/2408.10642v1 )

ライセンス: Link先を確認
Shiming Xie, Hong Chen, Fred Yu, Zeye Sun, Xiuyu Wu, (参考訳) 命令LDMは、LLMを人間の好みに合わせるために、大規模言語モデルで使用されるパラダイムを提供する。 このパラダイムには、教師付き微調整と、人間のフィードバックからの学習の強化が含まれている。 このパラダイムは、特定のコーパスやアプリケーションにLLMを適用するために、下流のシナリオでも使用される。 SFTと比較して、RLHFやPPO、DPO、IPO、KTO、MinorDPOなど、いくつかのアルゴリズムが提案されている。 一方、SFTのほとんどの取り組みは、高品質なデータを収集、フィルタリング、混合する方法に焦点を当てている。 本稿では,DPO と MinorDPO の知見を得て,最適化モデルとオリジナルモデルとの差分を測定するための SFT のトレーニング指標と,学習効率を向上し,最適化 LLM とオリジナル LLM の差分を低減することができる損失関数 MinorSFT を提案する。

Instruct LLM provide a paradigm used in large scale language model to align LLM to human preference. The paradigm contains supervised fine tuning and reinforce learning from human feedback. This paradigm is also used in downstream scenarios to adapt LLM to specific corpora and applications. Comparing to SFT, there are many efforts focused on RLHF and several algorithms being proposed, such as PPO, DPO, IPO, KTO, MinorDPO and etc. Meanwhile most efforts for SFT are focused on how to collect, filter and mix high quality data. In this article with insight from DPO and MinorDPO, we propose a training metric for SFT to measure the discrepancy between the optimized model and the original model, and a loss function MinorSFT that can increase the training effectiveness, and reduce the discrepancy between the optimized LLM and original LLM.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# CoRA:大規模言語モデルの推薦重みによる協調的情報知覚

CoRA: Collaborative Information Perception by Large Language Model's Weights for Recommendation ( http://arxiv.org/abs/2408.10645v1 )

ライセンス: Link先を確認
Yuting Liu, Jinghao Zhang, Yizhou Dang, Yuliang Liang, Qiang Liu, Guibing Guo, Jianzhe Zhao, Xingwei Wang, (参考訳) LLM(Large Language Models)における協調情報の導入は,LLMを推奨に適応させる上で有望な手法である。 既存の手法では、テキストトークンと協調した特徴を統一シーケンス入力に結合し、それらの特徴をLSMの入力空間と整列するように微調整する。 本研究では,LLMをレコメンデーションタスクに適応する際の2つの制限を同定し,汎用知識と協調情報の統合を阻害し,準最適レコメンデーション性能をもたらす。 1)レコメンデーションデータを用いた微調整LDMは,レコメンデーションテキストの解釈や推論に不可欠である,固有の世界知識や基本的な能力を損なう可能性がある。 2)コラボレーティブな特徴をテキストプロンプトに組み込むことは,本来のプロンプトの意味を乱し,LLMが適切な出力を生成するのを防ぐ。 本稿では,協調重み生成器を用いた新しいパラダイムであるCoRA(Collaborative LoRAの頭字語)を提案する。 入力空間アライメントではなく、LLMのパラメータ空間と協調情報を整列し、LSMの出力を更新するためのインクリメンタルウェイトとして表現する。 このようにして、LLMは、一般的な知識やテキスト推論能力を変えることなく、協調情報を知覚する。 具体的には、ユーザとアイテムの埋め込みを抽出するために協調フィルタリングモデルを使用し、それらを協調重み生成器を通じて低ランク特性の協調重みに変換する。 次に、LLMの重みをLLMの重みにマージし、LLMが協調的な信号を知覚し、パーソナライズされたレコメンデーションを生成することができる。 大規模な実験により、コラボレーティブ情報がLLMに効果的に統合され、レコメンデーション性能が向上することが確認された。

Involving collaborative information in Large Language Models (LLMs) is a promising technique for adapting LLMs for recommendation. Existing methods achieve this by concatenating collaborative features with text tokens into a unified sequence input and then fine-tuning to align these features with LLM's input space. Although effective, in this work, we identify two limitations when adapting LLMs to recommendation tasks, which hinder the integration of general knowledge and collaborative information, resulting in sub-optimal recommendation performance. (1) Fine-tuning LLM with recommendation data can undermine its inherent world knowledge and fundamental competencies, which are crucial for interpreting and inferring recommendation text. (2) Incorporating collaborative features into textual prompts disrupts the semantics of the original prompts, preventing LLM from generating appropriate outputs. In this paper, we propose a new paradigm, CoRA (an acronym for Collaborative LoRA), with a collaborative weights generator. Rather than input space alignment, this method aligns collaborative information with LLM's parameter space, representing them as incremental weights to update LLM's output. This way, LLM perceives collaborative information without altering its general knowledge and text inference capabilities. Specifically, we employ a collaborative filtering model to extract user and item embeddings, converting them into collaborative weights with low-rank properties through the collaborative weights generator. We then merge the collaborative weights into LLM's weights, enabling LLM to perceive the collaborative signals and generate personalized recommendations without fine-tuning or extra collaborative tokens in prompts. Extensive experiments confirm that CoRA effectively integrates collaborative information into LLM, enhancing recommendation performance.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# 一貫性の面の下--LLMにおける言語間知識表現の探索

Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs ( http://arxiv.org/abs/2408.10646v1 )

ライセンス: Link先を確認
Maxim Ifergan, Leshem Choshen, Roee Aharoni, Idan Szpektor, Omri Abend, (参考訳) ファクトイドの正確性は、それが記述されている言語に大きく依存している。 しかし、言語モデルは言語全体で同じ事実に答える能力に矛盾する。 このことは、LLMが言語間の特定の事実をどのように表現するかという疑問を提起する。 モデルがクエリに一貫して答える能力と、複数の言語で共有された表現で'ストア'する能力の2つの側面から、多言語的な事実知識を探求する。 本稿では,知識編集手法を再開発することにより,言語間の表現の共有度を測定する手法を提案する。 新しい多言語データセットを用いて,多言語構成のLLMについて検討する。 高い一貫性は必ずしも共有表現を意味するものではなく、特に異なるスクリプトを持つ言語を対象としている。 さらに、スクリプトの類似性は、表現共有において重要な要素であることがわかった。 最後に、LLMが言語間で知識を完全に共有できれば、最高のパフォーマンス言語におけるそれらの正確さは、平均して150倍まで向上する可能性があることを観察する。 これらの知見は、LLMにおける多言語知識表現の改善の必要性を強調し、より堅牢で一貫した多言語LLMの開発への道筋を示唆している。

The veracity of a factoid is largely independent of the language it is written in. However, language models are inconsistent in their ability to answer the same factual question across languages. This raises questions about how LLMs represent a given fact across languages. We explore multilingual factual knowledge through two aspects: the model's ability to answer a query consistently across languages, and the ability to ''store'' answers in a shared representation for several languages. We propose a methodology to measure the extent of representation sharing across languages by repurposing knowledge editing methods. We examine LLMs with various multilingual configurations using a new multilingual dataset. We reveal that high consistency does not necessarily imply shared representation, particularly for languages with different scripts. Moreover, we find that script similarity is a dominant factor in representation sharing. Finally, we observe that if LLMs could fully share knowledge across languages, their accuracy in their best-performing language could benefit an increase of up to 150\% on average. These findings highlight the need for improved multilingual knowledge representation in LLMs and suggest a path for the development of more robust and consistent multilingual LLMs.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# ブラックボックスモデルに対するプライバシー保護ユニバーサル・ディフェンス

Privacy-preserving Universal Adversarial Defense for Black-box Models ( http://arxiv.org/abs/2408.10647v1 )

ライセンス: Link先を確認
Qiao Li, Cong Wu, Jing Chen, Zijun Zhang, Kun He, Ruiying Du, Xinxin Wang, Qingchuang Zhao, Yang Liu, (参考訳) ディープニューラルネットワーク(DNN)は、識別認証や自律運転といった重要なアプリケーションにおいて、敵の攻撃に対する堅牢性が不可欠であるようになってきている。 これらの攻撃は、小さな摂動を利用して重大な予測エラーを引き起こす可能性があるため、DNNのレジリエンスを高めることが不可欠である。 従来の防衛手法は、しばしば詳細なモデル情報へのアクセスに依存しており、モデル所有者はそのようなデータを共有するのを嫌がる可能性があるため、プライバシー上の懸念を引き起こす。 対照的に、既存のブラックボックス防御手法は、様々な種類の敵攻撃に対して普遍的な防御を提供していない。 これらの課題に対処するために,ターゲットモデルのパラメータやアーキテクチャへのアクセスを必要としない汎用ブラックボックス防御手法であるDUCDを導入する。 このアプローチでは、データをクエリすることでターゲットモデルを蒸留し、データのプライバシを保持しながら、ホワイトボックスサロゲートを生成します。 さらに、ランダムな平滑化と最適化された雑音選択に基づく認証された防御を用いて、このサロゲートモデルを強化し、幅広い敵攻撃に対する堅牢な防御を可能にする。 提案手法の有効性を実証し,サロゲートとターゲットモデルの比較評価を行った。 複数の画像分類データセットの実験では、DUCDは既存のブラックボックスディフェンスを上回るだけでなく、ホワイトボックスディフェンスの精度も向上し、データのプライバシを高め、メンバーシップ推論攻撃の成功率を下げている。

Deep neural networks (DNNs) are increasingly used in critical applications such as identity authentication and autonomous driving, where robustness against adversarial attacks is crucial. These attacks can exploit minor perturbations to cause significant prediction errors, making it essential to enhance the resilience of DNNs. Traditional defense methods often rely on access to detailed model information, which raises privacy concerns, as model owners may be reluctant to share such data. In contrast, existing black-box defense methods fail to offer a universal defense against various types of adversarial attacks. To address these challenges, we introduce DUCD, a universal black-box defense method that does not require access to the target model's parameters or architecture. Our approach involves distilling the target model by querying it with data, creating a white-box surrogate while preserving data privacy. We further enhance this surrogate model using a certified defense based on randomized smoothing and optimized noise selection, enabling robust defense against a broad range of adversarial attacks. Comparative evaluations between the certified defenses of the surrogate and target models demonstrate the effectiveness of our approach. Experiments on multiple image classification datasets show that DUCD not only outperforms existing black-box defenses but also matches the accuracy of white-box defenses, all while enhancing data privacy and reducing the success rate of membership inference attacks.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# クラウドセンシングキャンペーンを保存するスマートコントラクトコーディネートプライバシ

Smart Contract Coordinated Privacy Preserving Crowd-Sensing Campaigns ( http://arxiv.org/abs/2408.10648v1 )

ライセンス: Link先を確認
Luca Bedogni, Stefano Ferretti, (参考訳) クラウドセンシングは強力なデータ検索モデルとして登場し、アクティブなユーザ参加を活用することで多様なアプリケーションを可能にする。 しかし、データの可用性とプライバシに関する懸念は大きな課題を引き起こします。 データ暗号化や匿名化といった従来の手法は、必須ではあるが、これらの問題を完全に解決するものではない。 例えば、人口の少ない地域では、匿名化されたデータは個々のユーザーまで遡ることができる。 さらに、ユーザが生成したデータのボリュームは、自身のアイデンティティを明らかにすることができる。 信頼できるクラウドセンシングシステムの開発には、データを匿名化し、集約し、一様サイズのチャンクに分割する必要がある。 さらに、単一のサーバに頼るのではなく、データ管理プロセスの分散化によって、セキュリティと信頼性が向上する。 本稿では,スマートコントラクトとブロックチェーン技術を利用してクラウドセンシングキャンペーンを管理するシステムを提案する。 スマートコントラクトは、ユーザサブスクリプション、データ暗号化、分散ストレージを処理し、セキュアなデータマーケットプレースを作成する。 スマートコントラクト内のインセンティブポリシーは、ユーザの参加とデータの多様性を促進する。 シミュレーションの結果,データの信頼性に対するユーザの参加の重要性と,地理的データ不足が報酬に与える影響を明らかにする。 このアプローチは、データの起源のバランスと不正なリスクの低減を目的としています。

Crowd-sensing has emerged as a powerful data retrieval model, enabling diverse applications by leveraging active user participation. However, data availability and privacy concerns pose significant challenges. Traditional methods like data encryption and anonymization, while essential, may not fully address these issues. For instance, in sparsely populated areas, anonymized data can still be traced back to individual users. Additionally, the volume of data generated by users can reveal their identities. To develop credible crowd-sensing systems, data must be anonymized, aggregated and separated into uniformly sized chunks. Furthermore, decentralizing the data management process, rather than relying on a single server, can enhance security and trust. This paper proposes a system utilizing smart contracts and blockchain technologies to manage crowd-sensing campaigns. The smart contract handles user subscriptions, data encryption, and decentralized storage, creating a secure data marketplace. Incentive policies within the smart contract encourage user participation and data diversity. Simulation results confirm the system's viability, highlighting the importance of user participation for data credibility and the impact of geographical data scarcity on rewards. This approach aims to balance data origin and reduce cheating risks.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# FINNによる水中地形の推定

Inferring Underwater Topography with FINN ( http://arxiv.org/abs/2408.10649v1 )

ライセンス: Link先を確認
Coşku Can Horuz, Matthias Karlbauer, Timothy Praditia, Sergey Oladyshkin, Wolfgang Nowak, Sebastian Otte, (参考訳) 時空間偏微分方程式(PDE)は、様々な科学・工学分野に広く応用されている。 物理と機械学習(ML)の両方のコミュニティから多くのモデルが生まれてきたが、物理を意識した機械学習モデルとして知られるハイブリッドアーキテクチャを開発するために、これらのアプローチを統合する傾向が高まっている。 これらのうち、最近の追加として有限体積ニューラルネットワーク(FINN)が出現している。 FINNはデータの潜在構造を明らかにするのに特に効率的であることが証明されている。 本研究では,沿岸域の波動動態をシミュレートする浅水式を扱うFINNの機能について検討した。 具体的には,これらの波動方程式に基づいて海底地形を再構成するFINNの有効性について検討する。 その結果、FINNは、従来のMLモデルと物理認識MLモデルとを区別して、波動力学のみから地形を推測する優れた能力を示すことが明らかとなった。 本研究は, 時空間現象の理解を深め, 関連領域におけるパラメトリゼーション能力を高めるためのFINNの可能性を明らかにするものである。

Spatiotemporal partial differential equations (PDEs) find extensive application across various scientific and engineering fields. While numerous models have emerged from both physics and machine learning (ML) communities, there is a growing trend towards integrating these approaches to develop hybrid architectures known as physics-aware machine learning models. Among these, the finite volume neural network (FINN) has emerged as a recent addition. FINN has proven to be particularly efficient in uncovering latent structures in data. In this study, we explore the capabilities of FINN in tackling the shallow-water equations, which simulates wave dynamics in coastal regions. Specifically, we investigate FINN's efficacy to reconstruct underwater topography based on these particular wave equations. Our findings reveal that FINN exhibits a remarkable capacity to infer topography solely from wave dynamics, distinguishing itself from both conventional ML and physics-aware ML models. Our results underscore the potential of FINN in advancing our understanding of spatiotemporal phenomena and enhancing parametrization capabilities in related domains.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# 視覚と言語アシスタントを用いた語彙自由な3次元インスタンスセグメンテーション

Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant ( http://arxiv.org/abs/2408.10652v1 )

ライセンス: Link先を確認
Guofeng Mei, Luigi Riz, Yiming Wang, Fabio Poiesi, (参考訳) 最近の3Dインスタンスセグメンテーション手法はオープンボキャブラリであり、クローズドボキャブラリ法よりも柔軟性が高い。 しかし、それらは特定の概念のセットである‘e the vocabulary’内での推論に限定されており、テスト時にユーザがトリガーする。 本質的に、これらのモデルは、オープンエンドな方法で、つまり、シーン内のオブジェクトの ``List' に答えることができない。 と。 本稿では,前述した語彙のない設定,すなわち語彙のない設定において,3Dインスタンスのセグメンテーションに対処する最初の方法を紹介する。 提案手法では,大規模視覚言語アシスタントとオープンボキャブラリ2Dインスタンスセグメンタを用いて,提案した画像のセマンティックなカテゴリを探索し,構築する。 3Dインスタンスマスクを形成するために、まず入力点雲を高密度なスーパーポイントに分割し、3Dインスタンスマスクにマージする。 本稿では,2次元オブジェクト・インスタンス・マスクから推定されるマス・コヒーレンスとセマンティック・コヒーレンスの両方を考慮したスペクトルクラスタリングによる新たなスーパーポイント・マージ戦略を提案する。 ScanNet200 と Replica を用いて提案手法の評価を行った。 コードは利用可能になる。

Most recent 3D instance segmentation methods are open vocabulary, offering a greater flexibility than closed-vocabulary methods. Yet, they are limited to reasoning within a specific set of concepts, \ie the vocabulary, prompted by the user at test time. In essence, these models cannot reason in an open-ended fashion, i.e., answering ``List the objects in the scene.''. We introduce the first method to address 3D instance segmentation in a setting that is void of any vocabulary prior, namely a vocabulary-free setting. We leverage a large vision-language assistant and an open-vocabulary 2D instance segmenter to discover and ground semantic categories on the posed images. To form 3D instance mask, we first partition the input point cloud into dense superpoints, which are then merged into 3D instance masks. We propose a novel superpoint merging strategy via spectral clustering, accounting for both mask coherence and semantic coherence that are estimated from the 2D object instance masks. We evaluate our method using ScanNet200 and Replica, outperforming existing methods in both vocabulary-free and open-vocabulary settings. Code will be made available.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# UIE-UnFold:色優先の深層展開ネットワークと水中画像強調のための視覚変換器

UIE-UnFold: Deep Unfolding Network with Color Priors and Vision Transformer for Underwater Image Enhancement ( http://arxiv.org/abs/2408.10653v1 )

ライセンス: Link先を確認
Yingtie Lei, Jia Yu, Yihang Dong, Changwei Gong, Ziyang Zhou, Chi-Man Pun, (参考訳) 水中画像強調(UIE)は様々な海洋用途において重要な役割を担っているが、複雑な水中環境のため課題は残る。 現在の学習に基づくアプローチでは、水中画像形成に関わる物理過程に関する事前知識が具体化されていないことが多い。 そこで本稿では,UIEのカラープリエントとステージ間特徴変換を統合したDUN(Deep Openfolding Network)を提案する。 提案したDUNモデルは、モデルベースのメソッドの反復的最適化と信頼性とディープラーニングの柔軟性と表現力を組み合わせることで、既存の学習ベースのUIEアプローチよりも説明可能な安定したソリューションを提供する。 提案モデルは,劣化画像と原画像のカラーチャネルをマッピングするカラー優先誘導ブロック (CPGB) と,水中画像劣化過程をシミュレートする非線形活性化勾配降下モジュール (NAGDM) と,異なるネットワークステージ間の特徴交換を容易にするインターステージ特徴変換器 (ISF-Former) の3つの主要コンポーネントから構成される。 水中画像形成の物理的特性を明示的に取り入れ,モデル化することにより,提案したDUNモデルはより正確で信頼性の高い拡張結果が得られる。 複数の水中画像データセットに対する大規模な実験は、定量評価と定性評価の両方において、最先端の手法よりも提案モデルの方が優れていることを示す。 提案されたDUNベースのアプローチはUIEに有望なソリューションを提供し、海洋研究においてより正確で信頼性の高い科学的分析を可能にする。 コードはhttps://github.com/CXH-Research/UIE-UnFoldで公開されている。

Underwater image enhancement (UIE) plays a crucial role in various marine applications, but it remains challenging due to the complex underwater environment. Current learning-based approaches frequently lack explicit incorporation of prior knowledge about the physical processes involved in underwater image formation, resulting in limited optimization despite their impressive enhancement results. This paper proposes a novel deep unfolding network (DUN) for UIE that integrates color priors and inter-stage feature transformation to improve enhancement performance. The proposed DUN model combines the iterative optimization and reliability of model-based methods with the flexibility and representational power of deep learning, offering a more explainable and stable solution compared to existing learning-based UIE approaches. The proposed model consists of three key components: a Color Prior Guidance Block (CPGB) that establishes a mapping between color channels of degraded and original images, a Nonlinear Activation Gradient Descent Module (NAGDM) that simulates the underwater image degradation process, and an Inter Stage Feature Transformer (ISF-Former) that facilitates feature exchange between different network stages. By explicitly incorporating color priors and modeling the physical characteristics of underwater image formation, the proposed DUN model achieves more accurate and reliable enhancement results. Extensive experiments on multiple underwater image datasets demonstrate the superiority of the proposed model over state-of-the-art methods in both quantitative and qualitative evaluations. The proposed DUN-based approach offers a promising solution for UIE, enabling more accurate and reliable scientific analysis in marine research. The code is available at https://github.com/CXH-Research/UIE-UnFold.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# Deepmriprep: ディープニューラルネットワークによるVoxel-based Morphometry(VBM)前処理

deepmriprep: Voxel-based Morphometry (VBM) Preprocessing via Deep Neural Networks ( http://arxiv.org/abs/2408.10656v1 )

ライセンス: Link先を確認
Lukas Fisch, Nils R. Winter, Janik Goltermann, Carlotta Barkhau, Daniel Emden, Jan Ernsting, Maximilian Konowski, Ramona Leenings, Tiana Borgers, Kira Flinkenflügel, Dominik Grotegerd, Anna Kraus, Elisabeth J. Leehr, Susanne Meinert, Frederike Stein, Lea Teutenberg, Florian Thomas-Odenthal, Paula Usemann, Marco Hermesdorf, Hamidreza Jamalabadi, Andreas Jansen, Igor Nenadic, Benjamin Straube, Tilo Kircher, Klaus Berger, Benjamin Risse, Udo Dannlowski, Tim Hahn, (参考訳) ボクセルベースのモルフォメトリー(VBM)は神経画像研究において強力なアプローチとして現れ、2000年以降7000以上の研究で利用されている。 磁気共鳴イメージング(MRI)データを用いて、VBMは脳組織の局所密度の変動を評価し、その生物学的および心理学的変数との関係を調べる。 本稿では、ディープニューラルネットワークを用いたT1重み付けMR画像のVBM分析に必要な前処理ステップをすべて行うニューラルネットワークベースのパイプラインであるDeepmriprepについて述べる。 Graphics Processing Unit (GPU)を利用することで、Deepmriprepは主要なVBM前処理ツールボックスであるCAT12の37倍高速である。 提案手法は,100以上のデータセットにわたる組織分割と画像登録の精度でCAT12と一致し,VBM結果に強い相関関係を示す。 Deepmriprepの組織分割マップは、95%以上と地上の真理地図と一致しており、その非線形登録は、教師付きSYMNetを用いて、CAT12に匹敵する滑らかな変形場を予測する。 ディープムリプの高速処理により、広範囲なデータセットの高速前処理が可能となり、VBM分析の大規模神経画像研究への応用が促進され、リアルタイム応用への扉が開ける。 最後に、Deepmriprepsの単純でモジュラーな設計により、研究者は基礎となる方法を容易に理解し、再利用し、進歩し、神経画像研究のさらなる進歩を育むことができる。 DeepmriprepはPythonパッケージとして便利にインストールでき、https://github.com/wwu-mmll/deepmriprep.comで公開されている。

Voxel-based Morphometry (VBM) has emerged as a powerful approach in neuroimaging research, utilized in over 7,000 studies since the year 2000. Using Magnetic Resonance Imaging (MRI) data, VBM assesses variations in the local density of brain tissue and examines its associations with biological and psychometric variables. Here, we present deepmriprep, a neural network-based pipeline that performs all necessary preprocessing steps for VBM analysis of T1-weighted MR images using deep neural networks. Utilizing the Graphics Processing Unit (GPU), deepmriprep is 37 times faster than CAT12, the leading VBM preprocessing toolbox. The proposed method matches CAT12 in accuracy for tissue segmentation and image registration across more than 100 datasets and shows strong correlations in VBM results. Tissue segmentation maps from deepmriprep have over 95% agreement with ground truth maps, and its non-linear registration, using supervised SYMNet, predicts smooth deformation fields comparable to CAT12. The high processing speed of deepmriprep enables rapid preprocessing of extensive datasets and thereby fosters the application of VBM analysis to large-scale neuroimaging studies and opens the door to real-time applications. Finally, deepmripreps straightforward, modular design enables researchers to easily understand, reuse, and advance the underlying methods, fostering further advancements in neuroimaging research. deepmriprep can be conveniently installed as a Python package and is publicly accessible at https://github.com/wwu-mmll/deepmriprep.
翻訳日:2024-08-21 14:34:27 公開日:2024-08-20
# ETGuard:ブロックチェーンベースの電力グリッドシステムにおける悪意ある暗号化されたトラフィック検出

ETGuard: Malicious Encrypted Traffic Detection in Blockchain-based Power Grid Systems ( http://arxiv.org/abs/2408.10657v1 )

ライセンス: Link先を確認
Peng Zhou, Yongdong Liu, Lixun Ma, Weiye Zhang, Haohan Tan, Zhenguang Liu, Butian Huang, (参考訳) 暗号化プロトコルの普及により、暗号化されたトラフィックに隠れる悪意のある攻撃の数が急増した。 電力グリッドシステムは、基本的なインフラとして、このような攻撃の主要なターゲットになりつつある。 悪意のある暗号化パケットを検出する従来の方法は、通常静的事前訓練されたモデルを使用する。 これらの手法はブロックチェーンベースの電力グリッドシステムには適していない。 さらに重要なのは、新しいタイプの暗号化攻撃が継続的に出現する動的環境では不足していることだ。 1)ブロックチェーンベースの電力グリッドシステムにおいて、悪意のある暗号化されたトラフィックを自動的に検出し、新たな悪意のあるトラフィックから漸進的に学習できる新しいフレームワークを提案する。 2) モデルが新たな暗号化攻撃パターンを処理可能であることを保証しながら, 古い攻撃パターンの忘れを抑えるために, 数学的に漸進的な学習損失を導出する。 提案手法は,3つのベンチマークデータセットの最先端性能を実証的に達成する。 また、ブロックチェーンベースの電力グリッドシナリオのための、最初の悪意のある暗号化トラフィックデータセットを構築しました。 私たちのコードとデータセットはhttps://github.com/PPPmzt/ETGuardで公開されています。

The escalating prevalence of encryption protocols has led to a concomitant surge in the number of malicious attacks that hide in encrypted traffic. Power grid systems, as fundamental infrastructure, are becoming prime targets for such attacks. Conventional methods for detecting malicious encrypted packets typically use a static pre-trained model. We observe that these methods are not well-suited for blockchain-based power grid systems. More critically, they fall short in dynamic environments where new types of encrypted attacks continuously emerge. Motivated by this, in this paper we try to tackle these challenges from two aspects: (1) We present a novel framework that is able to automatically detect malicious encrypted traffic in blockchain-based power grid systems and incrementally learn from new malicious traffic. (2) We mathematically derive incremental learning losses to resist the forgetting of old attack patterns while ensuring the model is capable of handling new encrypted attack patterns. Empirically, our method achieves state-of-the-art performance on three different benchmark datasets. We also constructed the first malicious encrypted traffic dataset for blockchain-based power grid scenario. Our code and dataset are available at https://github.com/PPPmzt/ETGuard, hoping to inspire future research.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# Reinstruct: ラベルなしコーパスからのインストラクションデータの構築

REInstruct: Building Instruction Data from Unlabeled Corpus ( http://arxiv.org/abs/2408.10663v1 )

ライセンス: Link先を確認
Shu Chen, Xinyan Guan, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, (参考訳) 大規模言語モデルの命令データを手動でアノテートするのは難しく、コストがかかり、スケールが難しい。 一方、現在の自動アノテーション法は、通常、プロプライエタリなLCMから合成データを蒸留することに依存しており、命令データの品質の上限を制限するだけでなく、潜在的な著作権問題を引き起こす。 本稿では,ラベルのないコーパスから命令データを自動的に作成する簡易でスケーラブルな手法であるREInstructを提案する。 具体的には、ReInstructはまず、構造化された有用な、洞察に富んだコンテンツを含む可能性のある、ラベルなしテキストのサブセットを選択し、それからこれらのテキストの命令を生成する。 効果的でロバストなトレーニングのための正確かつ関連する応答を生成するために、ReInstructはさらに、生成した命令データの品質を改善するための書き換えベースのアプローチを提案する。 3kシードデータとREInstructからの32k合成データの組み合わせでLlama-7bをトレーニングすることにより、微細調整されたモデルがAlpacaEvalのリーダーボード上で、text-davinci-003に対して65.41\%の勝利率を達成する。 コードは \url{https://github.com/cs32963/REInstruct} で公開されている。

Manually annotating instruction data for large language models is difficult, costly, and hard to scale. Meanwhile, current automatic annotation methods typically rely on distilling synthetic data from proprietary LLMs, which not only limits the upper bound of the quality of the instruction data but also raises potential copyright issues. In this paper, we propose REInstruct, a simple and scalable method to automatically build instruction data from an unlabeled corpus without heavy reliance on proprietary LLMs and human annotation. Specifically, REInstruct first selects a subset of unlabeled texts that potentially contain well-structured helpful and insightful content and then generates instructions for these texts. To generate accurate and relevant responses for effective and robust training, REInstruct further proposes a rewriting-based approach to improve the quality of the generated instruction data. By training Llama-7b on a combination of 3k seed data and 32k synthetic data from REInstruct, fine-tuned model achieves a 65.41\% win rate on AlpacaEval leaderboard against text-davinci-003, outperforming other open-source, non-distilled instruction data construction methods. The code is publicly available at \url{https://github.com/cs32963/REInstruct}.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# Federated Clustering: 分散データ分散のための教師なしクラスタワイズトレーニング

Federated Clustering: An Unsupervised Cluster-Wise Training for Decentralized Data Distributions ( http://arxiv.org/abs/2408.10664v1 )

ライセンス: Link先を確認
Mirko Nardi, Lorenzo Valerio, Andrea Passarella, (参考訳) フェデレートラーニング(FL)は、分散機械学習における重要なアプローチであり、特にデータのプライバシが重要であり、直接的なデータ共有が現実的でない場合である。 FLは典型的には教師あり学習と結びついているが、教師なしのシナリオにおけるそのポテンシャルは過小評価されている。 本稿では,フェデレートクラスタリング(Federated Clustering)と呼ばれるプロセスにおいて,ラベルのない非一様データ分散において,複数のクライアントにまたがるカテゴリの完全な集合(グローバルK)を特定するために設計された,教師なしのフェデレーション学習手法を提案する。 当社のアプローチであるFederated Cluster-Wise Refinement (FedCRef)は、類似したデータ分布を持つクラスタ上でモデルを協調的にトレーニングするクライアントを伴います。 当初、さまざまなローカルデータ分散(ローカルK)を持つクライアントは、圧縮データ表現を生成するために、クラスタ上でモデルを訓練する。 これらのローカルモデルはネットワーク全体で共有され、リコンストラクションエラー解析によりクライアントがそれらを比較できるようになり、フェデレートされたグループが形成され、これらのグループでは、クライアントは、各データ分布を表す共有モデルを協調的にトレーニングし、ローカルクラスタを継続的に修正し、データの関連性を高める。 この反復的処理により,ネットワーク全体にわたる潜在的なデータ分布を同定し,それぞれにロバストな表現モデルを構築することができる。 このアプローチを検証するため、従来の集中型手法と比較し、パフォーマンスベースラインを確立し、分散ソリューションの利点を示します。 我々はまた、EMNISTとKMNISTデータセットの実験を行い、FedCRefのクラスタモデルを実際のデータ分布と整合させ、教師なしのフェデレーション設定におけるデータの表現精度を大幅に向上させる能力を示す。

Federated Learning (FL) is a pivotal approach in decentralized machine learning, especially when data privacy is crucial and direct data sharing is impractical. While FL is typically associated with supervised learning, its potential in unsupervised scenarios is underexplored. This paper introduces a novel unsupervised federated learning methodology designed to identify the complete set of categories (global K) across multiple clients within label-free, non-uniform data distributions, a process known as Federated Clustering. Our approach, Federated Cluster-Wise Refinement (FedCRef), involves clients that collaboratively train models on clusters with similar data distributions. Initially, clients with diverse local data distributions (local K) train models on their clusters to generate compressed data representations. These local models are then shared across the network, enabling clients to compare them through reconstruction error analysis, leading to the formation of federated groups.In these groups, clients collaboratively train a shared model representing each data distribution, while continuously refining their local clusters to enhance data association accuracy. This iterative process allows our system to identify all potential data distributions across the network and develop robust representation models for each. To validate our approach, we compare it with traditional centralized methods, establishing a performance baseline and showcasing the advantages of our distributed solution. We also conduct experiments on the EMNIST and KMNIST datasets, demonstrating FedCRef's ability to refine and align cluster models with actual data distributions, significantly improving data representation precision in unsupervised federated settings.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# エンド・ツー・エンドで学習したロッシーなダイナミックポイントクラウド属性圧縮

End-to-end learned Lossy Dynamic Point Cloud Attribute Compression ( http://arxiv.org/abs/2408.10665v1 )

ライセンス: Link先を確認
Dat Thanh Nguyen, Daniel Zieger, Marc Stamminger, Andre Kaup, (参考訳) ポイントクラウド圧縮の最近の進歩は、主に幾何学的圧縮を強調している一方、属性圧縮に向けられた取り組みは比較的少ない。 本研究では,高速な高次元畳み込みを利用して,広範囲な点間依存関係を抽出し,エンドツーエンドの動的損失属性符号化手法を提案する。 これにより、属性特徴の潜在変数への効率的なプロジェクションが可能になる。 次に,遅延テンソルをビットストリームに符号化する自動回帰コンテキストモデルとともに,従来の潜時空間を利用するコンテキストモデルを用いる。 MPEG と Microsoft から広く活用されている点クラウドデータセットの評価は,MPEG Geometry Point Cloud Compression のコア属性圧縮モジュールである Region-Adaptive Hierarchical Transform よりも優れた性能を示し,Bjontegaard デルタレートを平均38.1%削減し,低複雑さの符号化/復号を実現した。

Recent advancements in point cloud compression have primarily emphasized geometry compression while comparatively fewer efforts have been dedicated to attribute compression. This study introduces an end-to-end learned dynamic lossy attribute coding approach, utilizing an efficient high-dimensional convolution to capture extensive inter-point dependencies. This enables the efficient projection of attribute features into latent variables. Subsequently, we employ a context model that leverage previous latent space in conjunction with an auto-regressive context model for encoding the latent tensor into a bitstream. Evaluation of our method on widely utilized point cloud datasets from the MPEG and Microsoft demonstrates its superior performance compared to the core attribute compression module Region-Adaptive Hierarchical Transform method from MPEG Geometry Point Cloud Compression with 38.1% Bjontegaard Delta-rate saving in average while ensuring a low-complexity encoding/decoding.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# 非安全な復号経路生成による大言語モデルの安全応答境界の提案

Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation ( http://arxiv.org/abs/2408.10668v1 )

ライセンス: Link先を確認
Haoyu Wang, Bingzhe Wu, Yatao Bian, Yongzhe Chang, Xueqian Wang, Peilin Zhao, (参考訳) 大きな言語モデル(LLM)は暗黙のトラブルメーカーである。 貴重な洞察を提供し、問題解決を支援する一方で、悪意のある活動のためのリソースとしても機能する可能性がある。 安全アライメントを実装することで、LLMが有害な応答を引き起こすリスクを軽減することができる。 LLMが有害なクエリをブロックできたとしても、時限爆弾として機能する隠れた脆弱性があるかもしれません。 これらの弱点を識別するために,検出器と攻撃者の両方に費用対価モデルを適用することを提案する。 外部または自己生成した有害なデータセットに基づいてトレーニングされ、コストバリューモデルは、復号プロセスにおいて有害なコンテンツを出力するために、オリジナルの安全なLCMに影響を与えることができた。 例えば、LLaMA-2-chat 7Bは39.18%のコンクリートの有害成分を出力し、22.16%しか有害な接尾辞を含まない。 これらの潜在的な弱点は、画像上のソフトプロンプトのようなプロンプト最適化を通じて利用することができる。 Jailbreak Value Decoding (JVD) 氏は,一見セキュアな LLM は,当初私たちが信じていたほど安全ではない,と強調する。 有害なデータを収集したり、隠蔽攻撃を行うのに使用できる。

Large Language Models (LLMs) are implicit troublemakers. While they provide valuable insights and assist in problem-solving, they can also potentially serve as a resource for malicious activities. Implementing safety alignment could mitigate the risk of LLMs generating harmful responses. We argue that: even when an LLM appears to successfully block harmful queries, there may still be hidden vulnerabilities that could act as ticking time bombs. To identify these underlying weaknesses, we propose to use a cost value model as both a detector and an attacker. Trained on external or self-generated harmful datasets, the cost value model could successfully influence the original safe LLM to output toxic content in decoding process. For instance, LLaMA-2-chat 7B outputs 39.18% concrete toxic content, along with only 22.16% refusals without any harmful suffixes. These potential weaknesses can then be exploited via prompt optimization such as soft prompts on images. We name this decoding strategy: Jailbreak Value Decoding (JVD), emphasizing that seemingly secure LLMs may not be as safe as we initially believe. They could be used to gather harmful data or launch covert attacks.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# テンソルツリーはデータ内の隠れリレーショナル構造を学習し、生成モデルを構築する

Tensor tree learns hidden relational structures in data to construct generative models ( http://arxiv.org/abs/2408.10669v1 )

ライセンス: Link先を確認
Kenji Harada, Tsuyoshi Okubo, Naoki Kawashima, (参考訳) 本研究では, テンソル木を用いたテンソル木ネットワークに基づいて, ターゲット分布関数をテンソル木で表される量子波動関数振幅として表現し, 生成モデルを構築する方法を提案する。 鍵となる考え方は、相互結合情報を最小化するツリー構造を動的に最適化することである。 提案手法は性能を向上し,対象データに隠れた関係構造を明らかにする。 実例を4つ紹介する。 ランダムパターン; ランダムパターン; ランダムパターン (ii)QMNIST手書き桁 (三)ベイズ的ネットワーク、及び (4)S&P500の株価変動パターン 院 (i)および (ii) ネットワークの中心付近に強い相関変数が集中していた。 (三)因果パターンが特定され、また、 (四)十一セクターに対応する構造が出現した。

Based on the tensor tree network with the Born machine framework, we propose a general method for constructing a generative model by expressing the target distribution function as the quantum wave function amplitude represented by a tensor tree. The key idea is dynamically optimizing the tree structure that minimizes the bond mutual information. The proposed method offers enhanced performance and uncovers hidden relational structures in the target data. We illustrate potential practical applications with four examples: (i) random patterns, (ii) QMNIST hand-written digits, (iii) Bayesian networks, and (iv) the stock price fluctuation pattern in S&P500. In (i) and (ii), strongly correlated variables were concentrated near the center of the network; in (iii), the causality pattern was identified; and, in (iv), a structure corresponding to the eleven sectors emerged.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# サーマルステレオグラフィと深層学習に基づく波動計測のための非接触手法

A Noncontact Technique for Wave Measurement Based on Thermal Stereography and Deep Learning ( http://arxiv.org/abs/2408.10670v1 )

ライセンス: Link先を確認
Deyu Li, Longfei Xiao, Handi Wei, Yan Li, Binghua Zhang, (参考訳) 波動場とその時空間進化の正確な測定は、多くの流体力学実験や工学的応用において不可欠である。 双眼鏡ステレオイメージング技術は、波を測定するために広く使われてきた。 しかし, 透過性, 反射反射, テクスチャの欠如など屋内水面の光学的特性は, 画像処理やステレオ再構成の課題を提起している。 本研究では, 熱ステレオグラフィと深層学習を組み合わせた非接触波計測手法を提案する。 長波長赤外スペクトルの水の光学イメージング特性はステレオマッチングに適していることが判明し、可視光スペクトルの問題を効果的に回避した。 サーマルステレオカメラを用いて波動画像の撮影を行った結果,ステレオマッチング性能を向上させるため,深層学習技術を用いた再構成手法が提案された。 注釈のない赤外線画像から地軸不一致のデータセットを合成するために, 生成的手法を用いた。 このデータセットはトレーニング済みのステレオニューラルネットワークに送信され、ドメイン適応を実現するための微調整を行う。 提案手法の有効性と精度を検証するため, ウェーブ・フラム実験を行った。 その結果, 平均偏差が2.1%未満であることから, 波面の時空間分布を効果的に測定できることが示唆された。

The accurate measurement of the wave field and its spatiotemporal evolution is essential in many hydrodynamic experiments and engineering applications. The binocular stereo imaging technique has been widely used to measure waves. However, the optical properties of indoor water surfaces, including transparency, specular reflection, and texture absence, pose challenges for image processing and stereo reconstruction. This study proposed a novel technique that combined thermal stereography and deep learning to achieve fully noncontact wave measurements. The optical imaging properties of water in the long-wave infrared spectrum were found to be suitable for stereo matching, effectively avoiding the issues in the visible-light spectrum. After capturing wave images using thermal stereo cameras, a reconstruction strategy involving deep learning techniques was proposed to improve stereo matching performance. A generative approach was employed to synthesize a dataset with ground-truth disparity from unannotated infrared images. This dataset was then fed to a pretrained stereo neural network for fine-tuning to achieve domain adaptation. Wave flume experiments were conducted to validate the feasibility and accuracy of the proposed technique. The final reconstruction results indicated great agreement and high accuracy with a mean bias of less than 2.1% compared with the measurements obtained using wave probes, suggesting that the novel technique effectively measures the spatiotemporal distribution of wave surface in hydrodynamic experiments.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# ニューラルネットワークによるランドスケープ解析

Neural Exploratory Landscape Analysis ( http://arxiv.org/abs/2408.10672v1 )

ライセンス: Link先を確認
Zeyuan Ma, Jiacheng Chen, Hongshu Guo, Yue-Jiao Gong, (参考訳) メタブラックボックス最適化(MetaBBO)の最近の研究によると、メタトレーニングニューラルネットワークはブラックボックスオプティマイザの設計を効果的に導くことができ、専門家のチューニングの必要性を大幅に低減し、複雑な問題分布をまたいだ堅牢なパフォーマンスを実現することができる。 MetaBBOは、低レベルの最適化の進捗について、メタレベルエージェントに通知するために、人造のExploratory Landscape Analysis機能に依存しています。 このギャップに対処するため,本研究では,2段階の注目型ニューラルネットワークを用いて景観特徴を動的にプロファイリングする新しいフレームワークであるNeurELAを提案する。 NeurELAは、マルチタスクの神経進化戦略を用いて、様々なMetaBBOアルゴリズム上で事前訓練されている。 大規模な実験により、NeurELAは様々なMetaBBOタスクに統合された場合、一貫して優れたパフォーマンスを実現し、さらなるパフォーマンス向上のために効率的に微調整できることが示された。 この進歩は、MetaBBOアルゴリズムをより自律的で広く適用するための重要なステップである。

Recent research in Meta-Black-Box Optimization (MetaBBO) have shown that meta-trained neural networks can effectively guide the design of black-box optimizers, significantly reducing the need for expert tuning and delivering robust performance across complex problem distributions. Despite their success, a paradox remains: MetaBBO still rely on human-crafted Exploratory Landscape Analysis features to inform the meta-level agent about the low-level optimization progress. To address the gap, this paper proposes Neural Exploratory Landscape Analysis (NeurELA), a novel framework that dynamically profiles landscape features through a two-stage, attention-based neural network, executed in an entirely end-to-end fashion. NeurELA is pre-trained over a variety of MetaBBO algorithms using a multi-task neuroevolution strategy. Extensive experiments show that NeurELA achieves consistently superior performance when integrated into different and even unseen MetaBBO tasks and can be efficiently fine-tuned for further performance boost. This advancement marks a pivotal step in making MetaBBO algorithms more autonomous and broadly applicable.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# 反復窓平均フィルタ:拡散に基づく逆浄化の回避

Iterative Window Mean Filter: Thwarting Diffusion-based Adversarial Purification ( http://arxiv.org/abs/2408.10673v1 )

ライセンス: Link先を確認
Hanrui Wang, Ruoxi Sun, Cunjian Chen, Minhui Xue, Lay-Ki Soon, Shuo Wang, Zhe Jin, (参考訳) 顔認証システムはかなりの利便性と高度な発達をもたらしたが、敵攻撃のような目立たない摂動に敏感なため信頼できないものになっている。 既存の防御は、様々な攻撃アルゴリズムやアダプティブアタックやセキュリティ強化のための妥協精度に直面すると、しばしば弱点を示す。 これらの課題に対処するため、IWMF (Iterative Window Mean Filter) と呼ばれる新しい高効率な非深層学習画像フィルタを開発し、IWMFと拡散モデルを統合した新たな逆浄化フレームワークIWMF-Diffを提案した。 これらの手法は、ターゲットシステムのさらなる修正や再訓練を必要とせずに、対向的摂動を取り除くための前処理モジュールとして機能することができる。 提案手法は, 保存精度, セキュリティ向上, 各種脅威に対する汎用性, 適応攻撃に対する耐性の4つの重要な要件を満たすことを示す。 この性能は、最先端の敵対的浄化法であるDiffPureを上回ります。

Face authentication systems have brought significant convenience and advanced developments, yet they have become unreliable due to their sensitivity to inconspicuous perturbations, such as adversarial attacks. Existing defenses often exhibit weaknesses when facing various attack algorithms and adaptive attacks or compromise accuracy for enhanced security. To address these challenges, we have developed a novel and highly efficient non-deep-learning-based image filter called the Iterative Window Mean Filter (IWMF) and proposed a new framework for adversarial purification, named IWMF-Diff, which integrates IWMF and denoising diffusion models. These methods can function as pre-processing modules to eliminate adversarial perturbations without necessitating further modifications or retraining of the target system. We demonstrate that our proposed methodologies fulfill four critical requirements: preserved accuracy, improved security, generalizability to various threats in different settings, and better resistance to adaptive attacks. This performance surpasses that of the state-of-the-art adversarial purification method, DiffPure.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# 長期学習におけるアウト・オブ・ディストリビューション検出のための表現ノルム増幅

Representation Norm Amplification for Out-of-Distribution Detection in Long-Tail Learning ( http://arxiv.org/abs/2408.10676v1 )

ライセンス: Link先を確認
Dong Geun Shin, Hye Won Chung, (参考訳) オフ・オブ・ディストリビューション(OOD)サンプルの検出は、信頼性の高い機械学習にとって重要なタスクである。 しかし、モデルが長い尾のデータセットで訓練されると、特に困難になる。 本稿では,OOD検出と既存手法によるID分類のトレードオフを明らかにすることにより,この問題の主な課題について検討する。 次に、この2つの問題を分離してこの問題を解決する方法として、textit{Representation Norm Amplification} (RNA) を紹介した。 本研究の目的は,OOD検出のための新しい次元として表現の規範を用い,ID分類のための特徴学習を邪魔することなく,IDとOODデータの表現規範に顕著な相違を生じさせる訓練手法を開発することである。 CIFAR10-LT と ImageNet-LT の分類精度は FPR95 では 1.70 %, 9.46 %, 2.43 %, 6.87 % である。 この研究のコードはhttps://github.com/dgshin21/RNAで公開されている。

Detecting out-of-distribution (OOD) samples is a critical task for reliable machine learning. However, it becomes particularly challenging when the models are trained on long-tailed datasets, as the models often struggle to distinguish tail-class in-distribution samples from OOD samples. We examine the main challenges in this problem by identifying the trade-offs between OOD detection and in-distribution (ID) classification, faced by existing methods. We then introduce our method, called \textit{Representation Norm Amplification} (RNA), which solves this challenge by decoupling the two problems. The main idea is to use the norm of the representation as a new dimension for OOD detection, and to develop a training method that generates a noticeable discrepancy in the representation norm between ID and OOD data, while not perturbing the feature learning for ID classification. Our experiments show that RNA achieves superior performance in both OOD detection and classification compared to the state-of-the-art methods, by 1.70\% and 9.46\% in FPR95 and 2.43\% and 6.87\% in classification accuracy on CIFAR10-LT and ImageNet-LT, respectively. The code for this work is available at https://github.com/dgshin21/RNA.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# DemMamba: 周波数アシスト型時空間マンバによるアライメントなし生動画のデモ

DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba ( http://arxiv.org/abs/2408.10679v1 )

ライセンス: Link先を確認
Shuning Xu, Xina Liu, Binbin Song, Xiangyu Chen, Qiubo Chen, Jiantao Zhou, (参考訳) モアレパターンは、2つの同様の反復パターンが干渉し、画面上の画像やビデオのキャプチャ中によく見られる現象である。 モアレパターンの色、形状、位置はビデオフレームによって異なり、隣接するフレームから情報を学び、時間的一貫性を保つことに挑戦する。 以前のビデオ復号法は、よく設計されたアライメントモジュールに大きく依存しており、かなりの計算負荷をもたらしている。 最近、ステートスペースモデル(SSM)の改良版であるMambaは、線形複雑度で長距離依存をモデル化する大きな可能性を示しており、特定のアライメントモジュールを必要とせずに、ビデオデプライアにおける効率的な時間的モデリングを可能にしている。 本稿では,周波数アシスト型時空間マンバ(DemMamba)を用いたアライメントフリーなRawビデオ復調ネットワークを提案する。 空間マンバブロック (SMB) とテンポラルマンバブロック (TMB) は、モーアパターンの生ビデオにおける効果的な相互関係モデリングを容易にするために順次配置される。 SMB内では、周波数領域の復調を支援するために、適応周波数ブロック(AFB)が導入される。 TMBでは、チャネル間関係を利用して、時間的情報相互作用を強化するために、チャネル注意ブロック(CAB)が組み込まれている。 大規模な実験により、提案したDemMambaは1.3dBの最先端のアプローチを超越し、優れた視覚体験を提供することが示された。

Moire patterns arise when two similar repetitive patterns interfere, a phenomenon frequently observed during the capture of images or videos on screens. The color, shape, and location of moire patterns may differ across video frames, posing a challenge in learning information from adjacent frames and preserving temporal consistency. Previous video demoireing methods heavily rely on well-designed alignment modules, resulting in substantial computational burdens. Recently, Mamba, an improved version of the State Space Model (SSM), has demonstrated significant potential for modeling long-range dependencies with linear complexity, enabling efficient temporal modeling in video demoireing without requiring a specific alignment module. In this paper, we propose a novel alignment-free Raw video demoireing network with frequency-assisted spatio-temporal Mamba (DemMamba). The Spatial Mamba Block (SMB) and Temporal Mamba Block (TMB) are sequentially arranged to facilitate effective intra- and inter-relationship modeling in Raw videos with moire patterns. Within SMB, an Adaptive Frequency Block (AFB) is introduced to aid demoireing in the frequency domain. For TMB, a Channel Attention Block (CAB) is embedded to further enhance temporal information interactions by exploiting the inter-channel relationships among features. Extensive experiments demonstrate that our proposed DemMamba surpasses state-of-the-art approaches by 1.3 dB and delivers a superior visual experience.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# リハーサルなし多言語ASRに向けて: LoRA を用いたウィスパーのケーススタディ

Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper ( http://arxiv.org/abs/2408.10680v1 )

ライセンス: Link先を確認
Tianyi Xu, Kaixun Huang, Pengcheng Guo, Yu Zhou, Longtao Huang, Hui Xue, Lei Xie, (参考訳) Whisperのような事前訓練された多言語音声基礎モデルは、様々な言語で素晴らしいパフォーマンスを示している。 しかし、これらのモデルを新しい言語や特定の言語に適用することは、計算的に広範であり、破滅的な忘れの問題に直面している。 これらの課題に対処するため,本研究では,オリジナルトレーニングデータがない場合の新たな言語モデルを強化するための戦略を検討するとともに,オリジナル言語の確立した性能を保ちながら,新しい言語モデルを強化する戦略を検討する。 具体的には、まずLoRAベースの様々な手法を比較して、その脆弱性を忘れることを見つける。 この問題を軽減するため,本論文では,元のモデルからのLoRAパラメータを近似直交勾配勾配に利用することを提案する。 さらに、より効率的なトレーニングのためにトレーニング可能なパラメータを割り当てるための学習可能なランク係数も導入する。 中国のウイスパーモデル(ウイグル語とチベット語)による実験では、よりコンパクトなパラメータセットでより良い結果が得られる。

Pre-trained multilingual speech foundation models, like Whisper, have shown impressive performance across different languages. However, adapting these models to new or specific languages is computationally extensive and faces catastrophic forgetting problems. Addressing these issues, our study investigates strategies to enhance the model on new languages in the absence of original training data, while also preserving the established performance on the original languages. Specifically, we first compare various LoRA-based methods to find out their vulnerability to forgetting. To mitigate this issue, we propose to leverage the LoRA parameters from the original model for approximate orthogonal gradient descent on the new samples. Additionally, we also introduce a learnable rank coefficient to allocate trainable parameters for more efficient training. Our experiments with a Chinese Whisper model (for Uyghur and Tibetan) yield better results with a more compact parameter set.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# HMoE:言語モデリングの専門家の不均一な混合

HMoE: Heterogeneous Mixture of Experts for Language Modeling ( http://arxiv.org/abs/2408.10681v1 )

ライセンス: Link先を確認
An Wang, Xingwu Sun, Ruobing Xie, Shuaipeng Li, Jiaqi Zhu, Zhen Yang, Pinxue Zhao, J. N. Han, Zhanhui Kang, Di Wang, Naoaki Okazaki, Cheng-zhong Xu, (参考訳) Mixture of Experts (MoE)は、モデルパラメータのサブセットを選択的に活性化することで、優れたパフォーマンスと計算効率を提供する。 伝統的に、MoEモデルは同一容量の均一な専門家を使用する。 しかし、入力データの様々な複雑さは、様々な能力を持つ専門家を必要とする一方で、均質なMoEは、効果的な専門家の専門化と効率的なパラメータ利用を妨げる。 本研究では,HMOE(Heterogeneous Mixture of Experts)を提案する。 この異質性により、より専門的な専門家が様々なトークンの複雑さをより効果的に扱えるようになる。 専門家アクティベーションの不均衡に対処するため,より小さな専門家の頻繁な活性化を奨励し,計算効率とパラメータ利用を向上する新たなトレーニング目標を提案する。 広範囲な実験により,HMoEは活性化パラメータを少なくして低損失を達成し,様々な事前学習評価ベンチマークにおいて従来の均一なMoEモデルより優れることが示された。 コードは受理後に公開される。

Mixture of Experts (MoE) offers remarkable performance and computational efficiency by selectively activating subsets of model parameters. Traditionally, MoE models use homogeneous experts, each with identical capacity. However, varying complexity in input data necessitates experts with diverse capabilities, while homogeneous MoE hinders effective expert specialization and efficient parameter utilization. In this study, we propose a novel Heterogeneous Mixture of Experts (HMoE), where experts differ in size and thus possess diverse capacities. This heterogeneity allows for more specialized experts to handle varying token complexities more effectively. To address the imbalance in expert activation, we propose a novel training objective that encourages the frequent activation of smaller experts, enhancing computational efficiency and parameter utilization. Extensive experiments demonstrate that HMoE achieves lower loss with fewer activated parameters and outperforms conventional homogeneous MoE models on various pre-training evaluation benchmarks. Codes will be released upon acceptance.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# ロバスト知識の未学習に向けて--大規模言語モデルにおける未学習ロバスト性の評価と改善のための支援フレームワーク

Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models ( http://arxiv.org/abs/2408.10682v1 )

ライセンス: Link先を確認
Hongbang Yuan, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao, (参考訳) LLMは多くの分野で成功しているが、トレーニングコーパスにおける問題のある内容に悩まされている。 LLMアンラーニングは、その影響を減らし、望ましくない行動を避けることを目的としている。 しかし、既存の未学習手法は、手動で設計した攻撃クエリの後に、敵のクエリや未学習の知識が再浮上することに対して脆弱なままである。 未学習モデルの脆弱性を積極的に評価する赤チームの取り組みの一環として、動的で自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計し、これらのモデルを攻撃し、堅牢性を評価する。 敵の接尾辞を最適化し、様々なシナリオにおいて未学習の知識を再導入する。 未学習のモデルのパラメータを明らかにしなくても、未学習の知識は5,5.2 %$の質問で回収できる。 この脆弱性に対応するために、未学習プロセスの堅牢性を効果的に向上する普遍的なフレームワークであるLatent Adversarial Unlearning (LAU)を提案する。 学習されていない過程を最小限の最適化問題として定式化し、乱れベクトルを訓練してLLMの潜在空間に追加する攻撃段階と、未学習モデルの堅牢性を高めるために以前に訓練された摂動ベクトルを使用する防衛段階の2段階で解決する。 LAUフレームワークでは,AdvGAとAdvNPOの2つの頑健なアンラーニング手法を得た。 複数のアンラーニングベンチマークやさまざまなモデルにまたがって広範な実験を行い、学習効率を53.5\%以上改善し、近隣の知識を11.6\%以下に減らし、モデルの一般的な機能にほとんど影響を与えないことを実証した。

LLM have achieved success in many fields but still troubled by problematic content in the training corpora. LLM unlearning aims at reducing their influence and avoid undesirable behaviours. However, existing unlearning methods remain vulnerable to adversarial queries and the unlearned knowledge resurfaces after the manually designed attack queries. As part of a red-team effort to proactively assess the vulnerabilities of unlearned models, we design Dynamic Unlearning Attack (DUA), a dynamic and automated framework to attack these models and evaluate their robustness. It optimizes adversarial suffixes to reintroduce the unlearned knowledge in various scenarios. We find that unlearned knowledge can be recovered in $55.2\%$ of the questions, even without revealing the unlearned model's parameters. In response to this vulnerability, we propose Latent Adversarial Unlearning (LAU), a universal framework that effectively enhances the robustness of the unlearned process. It formulates the unlearning process as a min-max optimization problem and resolves it through two stages: an attack stage, where perturbation vectors are trained and added to the latent space of LLMs to recover the unlearned knowledge, and a defense stage, where previously trained perturbation vectors are used to enhance unlearned model's robustness. With our LAU framework, we obtain two robust unlearning methods, AdvGA and AdvNPO. We conduct extensive experiments across multiple unlearning benchmarks and various models, and demonstrate that they improve the unlearning effectiveness by over $53.5\%$, cause only less than a $11.6\%$ reduction in neighboring knowledge, and have almost no impact on the model's general capabilities.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# 抽象論における拒絶 : 受け入れよりも難しいか?

Rejection in Abstract Argumentation: Harder Than Acceptance? ( http://arxiv.org/abs/2408.10683v1 )

ライセンス: Link先を確認
Johannes K. Fichte, Markus Hecher, Yasir Mahmood, Arne Meier, (参考訳) 抽象的議論は、議論をモデル化、評価、比較するための一般的なツールキットである。 引数間の関係は議論フレームワーク(AF)で指定され、条件は引数の集合(拡張)に置かれ、AFを評価できる。 より表現力を高めるために、AFは直接相互作用する引数や許容される引数の集合に対する制約に対して \emph{acceptance conditions} で拡張される。 本稿では,拡張子からの引数として \emph{rejecting} のフレキシブル条件を考える。 技術的なレベルでは、各引数を特定の論理プログラムに関連付ける。 構造パラメータツリー幅を含む複雑さの解析を行う。 退行 AF は非常に表現力が高く、多項式階層の上位レベルに自然問題を引き起こす。

Abstract argumentation is a popular toolkit for modeling, evaluating, and comparing arguments. Relationships between arguments are specified in argumentation frameworks (AFs), and conditions are placed on sets (extensions) of arguments that allow AFs to be evaluated. For more expressiveness, AFs are augmented with \emph{acceptance conditions} on directly interacting arguments or a constraint on the admissible sets of arguments, resulting in dialectic frameworks or constrained argumentation frameworks. In this paper, we consider flexible conditions for \emph{rejecting} an argument from an extension, which we call rejection conditions (RCs). On the technical level, we associate each argument with a specific logic program. We analyze the resulting complexity, including the structural parameter treewidth. Rejection AFs are highly expressive, giving rise to natural problems on higher levels of the polynomial hierarchy.
翻訳日:2024-08-21 14:24:42 公開日:2024-08-20
# 量子情報スクランブルの限界

The Limits of Quantum Information Scrambling ( http://arxiv.org/abs/2408.10684v1 )

ライセンス: Link先を確認
Ahmed Zahia, M. Y. Abd-Rabbou, Atta ur Rahman, Cong Feng Qiao, (参考訳) 量子情報スクランブル(quantum information scrambling、QI-scrambling)は、量子多体系の研究において重要な調査領域である。 この研究は、マリグラダの不等式を適用することにより、スクランブルレートの数学的上界と下界を導出する。 この結果は、局所作用素がエルミート作用素およびユニタリ作用素を示すときに、上界、下界、およびスクランブルレートが一致することを示している。 重要なことに、これらの上界と下界のスクランブルレートに対する収束またはばらつきは、システムの初期状態に依存している。 理論的枠組みを検証するため、スピンスターモデルについて、熱状態と純初期状態の両方を考慮した検討を行った。 さらに、局所演算子の3つの異なるシナリオ、すなわち、シングルキュービット、1つのマルチキュービット、両方のマルチキュービット構成について検討した。 アンシラまたは外部クビットの注入は、スクランブルレートを確立された境界と整合させる。 上と下の境界は、両方の局所演算子がマルチキュービット系である場合、システムの初期状態に基づいてスクランブルレートから分岐することがある。 局所演算子の量子ビット数が増加するにつれて、スクランブルレートが増加することに気付いた。

Quantum information scrambling (QI-scrambling) is a pivotal area of inquiry within the study of quantum many-body systems. This research derives mathematical upper and lower bounds for the scrambling rate by applying the Maligranda inequality. Our results indicate that the upper bounds, lower bounds, and scrambling rates coincide precisely when local operators exhibit Hermitian and unitary operators. Crucially, the convergence or divergence of these upper and lower bounds relative to the scrambling rate is contingent upon the system's initial state. To validate our theoretical framework, we investigated the spin-star model, considering both thermal and pure initial states. Furthermore, three distinct scenarios for local operators were examined, namely single-qubit, one multi-qubit, and both multi-qubit configurations. The implantation of the ancilla or external qubit aligns the scrambling rate with the established bounds. The upper and lower bounds may diverge from the scrambling rate based on the system's initial state when both local operators are multi-qubit systems. We noticed that the scrambling rate increased as the number of qubits in local operators increased.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# TDS-CLIP:画像間移動学習のための時間差側ネットワーク

TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning ( http://arxiv.org/abs/2408.10688v1 )

ライセンス: Link先を確認
Bin Wang, Wenqian Wang, (参考訳) 近年、大規模な事前学習型視覚言語モデル(例えばCLIP)が、その強力な代表能力によって注目を集めている。 これは、特にサイドネットワークを活用してパラメータ効率の良い微調整(PEFT)の効率を高めることによって、これらの大規模な事前学習モデルから他のタスク固有のモデル、例えばビデオアクション認識(VAR)モデルに知識を移すことに刺激を与える。 しかしながら、VARにおける現在の転送アプローチは、行動認識モデル自体の時間的モデリング機能を利用する代わりに、凍結した知識を大規模な訓練済みモデルから最小限のコストで行動認識ネットワークへ直接転送する傾向にある。 そこで本研究では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。 具体的には、時間差適応器(TD-Adapter)を導入し、運動特徴の局所時間差を効果的に捉え、モデルのグローバル時間差モデリング機能を強化する。 さらに,映像中のリッチな動き情報を効率的に学習する上で,提案する側ネットワークを誘導する側ネットワーク拡張アダプタ(SME-Adapter)を設計した。 大規模な実験は、Something V1\&V2やKinetics-400を含む3つのベンチマークデータセットで実施されている。 実験結果から,本手法は競争性能を向上することが示された。

Recently, large-scale pre-trained vision-language models (e.g., CLIP), have garnered significant attention thanks to their powerful representative capabilities. This inspires researchers in transferring the knowledge from these large pre-trained models to other task-specific models, e.g., Video Action Recognition (VAR) models, via particularly leveraging side networks to enhance the efficiency of parameter-efficient fine-tuning (PEFT). However, current transferring approaches in VAR tend to directly transfer the frozen knowledge from large pre-trained models to action recognition networks with minimal cost, instead of exploiting the temporal modeling capabilities of the action recognition models themselves. Therefore, in this paper, we propose a memory-efficient Temporal Difference Side Network (TDS-CLIP) to balance knowledge transferring and temporal modeling, avoiding backpropagation in frozen parameter models. Specifically, we introduce a Temporal Difference Adapter (TD-Adapter), which can effectively capture local temporal differences in motion features to strengthen the model's global temporal modeling capabilities. Furthermore, we designed a Side Motion Enhancement Adapter (SME-Adapter) to guide the proposed side network in efficiently learning the rich motion information in videos, thereby improving the side network's ability to capture and learn motion information. Extensive experiments are conducted on three benchmark datasets, including Something-Something V1\&V2, and Kinetics-400. Experimental results demonstrate that our approach achieves competitive performance.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# Genesis: システム生物学研究の自動化に向けて

Genesis: Towards the Automation of Systems Biology Research ( http://arxiv.org/abs/2408.10689v1 )

ライセンス: Link先を確認
Ievgeniia A. Tiukova, Daniel Brunnsåker, Erik Y. Bjurström, Alexander H. Gower, Filip Kronström, Gabriel K. Reder, Ronald S. Reiserer, Konstantin Korovin, Larisa B. Soldatova, John P. Wikswo, Ross D. King, (参考訳) AIを科学に適用する最先端は、科学研究のクローズループ自動化である。 われわれは以前,「アダム」(酵母機能生物学)と「イーブ」(初期医薬品デザイン)の2人のロボット科学者を開発した。 私たちは今、次世代のロボット科学者Genesisを開発している。 Genesisでは、人間の科学者よりも明らかに速く、低コストで、科学の分野を研究できることを実証することを目指している。 ここでは、Genesisプロジェクトの進捗状況を報告する。 Genesisは、何千もの相互作用する因果成分でシステム生物学モデルを自動的に改善するように設計されている。 ジェネシスが完成すれば、1日当たり1000回の仮説に基づくクローズドループサイクルを並列に開始し実行することができる。 ここでは、Genesisのコアハードウェアについて説明する: 1000のコンピュータ制御された$\mu$-bioreactors。 統合されたMass Spectrometryプラットフォームのために、我々はAutonoMSを開発した。 我々はまた、ソフトウェアエージェントが大量の構造化ドメイン情報にアクセスできるように設計されたデータベースシステムGenesis-DBを開発した。 我々は, RIMBO (Revisions for Improvements of Models in Biology Ontology) を開発した。 我々は,2つのリレーショナル学習バイオインフォマティクスプロジェクトによって,このインフラの有用性を実証した。 最後に,LGEM+をゲノム規模メタボリックモデルの自動誘導的改善のための関係学習システムとして記述する。

The cutting edge of applying AI to science is the closed-loop automation of scientific research: robot scientists. We have previously developed two robot scientists: `Adam' (for yeast functional biology), and `Eve' (for early-stage drug design)). We are now developing a next generation robot scientist Genesis. With Genesis we aim to demonstrate that an area of science can be investigated using robot scientists unambiguously faster, and at lower cost, than with human scientists. Here we report progress on the Genesis project. Genesis is designed to automatically improve system biology models with thousands of interacting causal components. When complete Genesis will be able to initiate and execute in parallel one thousand hypothesis-led closed-loop cycles of experiment per-day. Here we describe the core Genesis hardware: the one thousand computer-controlled $\mu$-bioreactors. For the integrated Mass Spectrometry platform we have developed AutonoMS, a system to automatically run, process, and analyse high-throughput experiments. We have also developed Genesis-DB, a database system designed to enable software agents access to large quantities of structured domain information. We have developed RIMBO (Revisions for Improvements of Models in Biology Ontology) to describe the planned hundreds of thousands of changes to the models. We have demonstrated the utility of this infrastructure by developed two relational learning bioinformatic projects. Finally, we describe LGEM+ a relational learning system for the automated abductive improvement of genome-scale metabolic models.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# エッジ上での大規模言語モデルの調整とデプロイ - 問題とアプローチ

Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches ( http://arxiv.org/abs/2408.10691v1 )

ライセンス: Link先を確認
Yanjie Dong, Xiaoyi Fan, Fangxin Wang, Chengming Li, Victor C. M. Leung, Xiping Hu, (参考訳) 2019年にGPT2-1.5Bが発明されて以来、大型言語モデル(LLM)は特殊モデルから汎用基盤モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。 従来の1次オプティマイザによる微調整技術では、メインストリームのハードウェア能力を超える相当なGPUメモリが必要である。 したがって、メモリ効率のよい手法が研究される。 モデル圧縮技術は、持続可能な人工知能の進歩をサポートするために、エネルギー消費、運用コスト、環境への影響を減らすことができる。 さらに、大規模なファンデーションモデルは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するために拡張され、より効率的なデプロイメントの必要性を強調している。 そこで本研究では,ネットワークエッジ上でのメモリ効率の高い微調整手法の概要を概説する。 また,ネットワークエッジ上にLLMをデプロイするビジョンを提供するため,モデル圧縮に関する最新の文献をレビューする。

Since the invention of GPT2--1.5B in 2019, large language models (LLMs) have transitioned from specialized models to versatile foundation models. The LLMs exhibit impressive zero-shot ability, however, require fine-tuning on local datasets and significant resources for deployment. Traditional fine-tuning techniques with the first-order optimizers require substantial GPU memory that exceeds mainstream hardware capability. Therefore, memory-efficient methods are motivated to be investigated. Model compression techniques can reduce energy consumption, operational costs, and environmental impact so that to support sustainable artificial intelligence advancements. Additionally, large-scale foundation models have expanded to create images, audio, videos, and multi-modal contents, further emphasizing the need for efficient deployment. Therefore, we are motivated to present a comprehensive overview of the prevalent memory-efficient fine-tuning methods over the network edge. We also review the state-of-the-art literatures on model compression to provide a vision on deploying LLMs over the network edge.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# 非条件真理性:大規模言語モデルの不確実性定量化のための条件依存の学習

Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models ( http://arxiv.org/abs/2408.10692v1 )

ライセンス: Link先を確認
Artem Vazhentsev, Ekaterina Fadeeva, Rui Xing, Alexander Panchenko, Preslav Nakov, Timothy Baldwin, Maxim Panov, Artem Shelmanov, (参考訳) 不確実性定量化(英: Uncertainty Quantification、UQ)は、Large Language Model(LLM)の幻覚と低品質な出力を検出するための視点アプローチである。 本研究では,LLMの生成ステップ間の条件依存性から生じるタスク生成におけるUQの課題の1つに対処する。 我々はこの依存関係をデータから学ぶことを提案する。 対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。 LLM推論において、この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。 9つのデータセットと3つのLCMに関する実験により,提案手法は不確実な定量化に極めて有効であり,競合するアプローチよりも大幅に改善されていることを示す。

Uncertainty quantification (UQ) is a perspective approach to detecting Large Language Model (LLM) hallucinations and low quality output. In this work, we address one of the challenges of UQ in generation tasks that arises from the conditional dependency between the generation steps of an LLM. We propose to learn this dependency from data. We train a regression model, which target variable is the gap between the conditional and the unconditional generation confidence. During LLM inference, we use this learned conditional dependency model to modulate the uncertainty of the current generation step based on the uncertainty of the previous step. Our experimental evaluation on nine datasets and three LLMs shows that the proposed method is highly effective for uncertainty quantification, achieving substantial improvements over rivaling approaches.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# 量子・カオス・ラッソによる差分進化に基づく特徴選択の改良

Improved Differential Evolution based Feature Selection through Quantum, Chaos, and Lasso ( http://arxiv.org/abs/2408.10693v1 )

ライセンス: Link先を確認
Yelleti Vivek, Sri Krishna Vadlamani, Vadlamani Ravi, P. Radha Krishna, (参考訳) 現代のディープラーニングは、驚くべき様々な高次元タスクにおいて、優れたパフォーマンスを保ち続けている。 実際には、これは全ての入力データに最小の特徴工学でディープ・ニューラル・モデルを適用することで得られるため、多くの場合、解釈可能性が犠牲になる。 しかし、解釈可能性が非常に重要である医学などの応用においては、特徴部分選択が重要な問題となっている。 二項微分進化のようなメタヒューリスティックスは、特徴選択に対する一般的なアプローチであり、研究文献は、例えば量子コンピューティングやカオス理論から引き出された新しいアイデアを導入し続けている。 本稿では,量子化メタヒューリスティックスにおける確率変数の代わりに,リアプノフ時間を考慮したカオス生成変数を導入することにより,高次元医用分類タスクの性能が著しく向上し,他の手法よりも優れていることを示す。 このカオスによって引き起こされる改善は、基礎となる量子インスパイアされたメタヒューリスティック(英語版)の多種多様な変種に対してこれを実証することで一般的な現象であることを示す。 性能はラッソ補助機能プルーニングによりさらに向上する。 実装レベルでは、スケーラブルな島ベースのクラスタ並列化技術により、アルゴリズムを大幅に高速化します。

Modern deep learning continues to achieve outstanding performance on an astounding variety of high-dimensional tasks. In practice, this is obtained by fitting deep neural models to all the input data with minimal feature engineering, thus sacrificing interpretability in many cases. However, in applications such as medicine, where interpretability is crucial, feature subset selection becomes an important problem. Metaheuristics such as Binary Differential Evolution are a popular approach to feature selection, and the research literature continues to introduce novel ideas, drawn from quantum computing and chaos theory, for instance, to improve them. In this paper, we demonstrate that introducing chaos-generated variables, generated from considerations of the Lyapunov time, in place of random variables in quantum-inspired metaheuristics significantly improves their performance on high-dimensional medical classification tasks and outperforms other approaches. We show that this chaos-induced improvement is a general phenomenon by demonstrating it for multiple varieties of underlying quantum-inspired metaheuristics. Performance is further enhanced through Lasso-assisted feature pruning. At the implementation level, we vastly speed up our algorithms through a scalable island-based computing cluster parallelization technique.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# MsMemoryGAN:Palm-vein逆境浄化のためのマルチスケールメモリGAN

MsMemoryGAN: A Multi-scale Memory GAN for Palm-vein Adversarial Purification ( http://arxiv.org/abs/2408.10694v1 )

ライセンス: Link先を確認
Huafeng Qin, Yuming Fu, Huiyan Zhang, Mounim A. El-Yacoubi, Xinbo Gao, Qun Song, Jun Wang, (参考訳) 深部ニューラルネットワークは、最近、静脈認識タスクにおいて有望なパフォーマンスを達成し、応用傾向の高まりを示しているが、入力に知覚不能な摂動を加えることで敵の摂動攻撃に陥り、誤認識をもたらす傾向にある。 この問題に対処するため,我々はMsMemoryGANという新しい防衛モデルを提案する。 まず、高品質な再構成を実現するためのマルチスケールオートエンコーダと、2つのメモリモジュールを設計し、異なるスケールでサンプルの詳細なパターンを学習する。 次に、メモリモジュール内の学習可能なメトリックを調べ、最も関連性の高いメモリアイテムを検索し、入力イメージを再構成する。 最後に、認識損失と画素損失とを組み合わせることにより、再構成画像の品質をさらに向上させる。 トレーニングフェーズの間、MsMemoryGANは、メモリに記録された通常のパターンのより少ないプロトタイプ要素を使用することで、入力を再構築することを学ぶ。 テスト段階では、反対のサンプルが与えられた場合、MsMemoryGANは記憶の最も関連性の高い正常なパターンを復元するために取り出す。 対向サンプルの摂動は、通常よく再構成されないため、対向的摂動からの入力を浄化する。 提案手法の有効性を評価するために,異なる対角攻撃法を用いて2つのパブリック静脈データセットについて広範な実験を行った。 実験の結果,本手法は様々な逆流を除去し,静脈分類器が高い認識精度を達成できることが示唆された。

Deep neural networks have recently achieved promising performance in the vein recognition task and have shown an increasing application trend, however, they are prone to adversarial perturbation attacks by adding imperceptible perturbations to the input, resulting in making incorrect recognition. To address this issue, we propose a novel defense model named MsMemoryGAN, which aims to filter the perturbations from adversarial samples before recognition. First, we design a multi-scale autoencoder to achieve high-quality reconstruction and two memory modules to learn the detailed patterns of normal samples at different scales. Second, we investigate a learnable metric in the memory module to retrieve the most relevant memory items to reconstruct the input image. Finally, the perceptional loss is combined with the pixel loss to further enhance the quality of the reconstructed image. During the training phase, the MsMemoryGAN learns to reconstruct the input by merely using fewer prototypical elements of the normal patterns recorded in the memory. At the testing stage, given an adversarial sample, the MsMemoryGAN retrieves its most relevant normal patterns in memory for the reconstruction. Perturbations in the adversarial sample are usually not reconstructed well, resulting in purifying the input from adversarial perturbations. We have conducted extensive experiments on two public vein datasets under different adversarial attack methods to evaluate the performance of the proposed approach. The experimental results show that our approach removes a wide variety of adversarial perturbations, allowing vein classifiers to achieve the highest recognition accuracy.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# NVD利用者の態度、経験、希望、ハードルについて

On NVD Users' Attitudes, Experiences, Hopes and Hurdles ( http://arxiv.org/abs/2408.10695v1 )

ライセンス: Link先を確認
Julia Wunder, Alan Corona, Andreas Hammer, Zinaida Benenson, (参考訳) National Vulnerability Database (NVD)は主要な脆弱性データベースであり、誰でも自由に利用できる。 脆弱性に関する情報と、リンクされたアドバイザリやパッチなどの有用なリソースを提供する。 NVDは脆弱性情報の中心的なソースとされ、脆弱性管理のリソース集約プロセスを改善するのに役立つ。 NVDは広く注目を集めているが、脆弱性管理における使用状況、ユーザからの態度、使用中に何らかの問題に遭遇したかどうかについては、ほとんど分かっていない。 調査は,7名を対象に行った予備面接調査と,71名によるフォローアップ調査を用いて行った。 結果は、NVDが定期的にコンサルティングされ、意思決定に役立っていることを示している。 一般的に、ユーザはNVDに肯定的であり、役に立つ、明確に構造化されたツールとして認識している。 しかし、ユーザーも問題に直面した: 不正なエントリ、不完全な説明、あるいは理解不能なCVSS評価。 問題の発端を明らかにするため,2人の上級NVDメンバーと結果について検討した。 問題の多くは、CVEリストや限られたリソースといった高レベルな問題に起因する可能性がある。 それでも、NVDは既存の問題の改善に取り組んでいる。

The National Vulnerability Database (NVD) is a major vulnerability database that is free to use for everyone. It provides information about vulnerabilities and further useful resources such as linked advisories and patches. The NVD is often considered as the central source for vulnerability information and as a help to improve the resource-intensive process of vulnerability management. Although the NVD receives much public attention, little is known about its usage in vulnerability management, users' attitudes towards it and whether they encounter any problems during usage. We explored these questions using a preliminary interview study with seven people, and a follow-up survey with 71 participants. The results show that the NVD is consulted regularly and often aids decision making. Generally, users are positive about the NVD and perceive it as a helpful, clearly structured tool. But users also faced issues: missing or incorrect entries, incomplete descriptions or incomprehensible CVSS ratings. In order to identify the problems origins, we discussed the results with two senior NVD members. Many of the problems can be attributed to higher-level problems such as the CVE List or limited resources. Nevertheless, the NVD is working on improving existing problems.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# AnyGraph: ワイルドなグラフ基盤モデル

AnyGraph: Graph Foundation Model in the Wild ( http://arxiv.org/abs/2408.10700v1 )

ライセンス: Link先を確認
Lianghao Xia, Chao Huang, (参考訳) グラフとして構造化されたリレーショナルデータの普及は、例外的な一般化機能を備えたグラフ学習モデルの必要性を暗示している。 しかし、現在のアプローチは、しばしば効果的に一般化可能な洞察を引き出すのに苦労し、しばしば広範囲の微調整を必要とし、それらの汎用性を制限する。 グラフ基盤モデルは、グラフデータから堅牢で一般化可能な表現を学習する可能性を備えた変換ソリューションを提供する。 これにより、タスクやドメインの幅広い範囲にわたって、より効果的で適応可能なアプリケーションが可能になる。 本研究では,主要な課題に対処するために設計された統一グラフモデルであるAnyGraphについて検討する。 一 構造異質性 グラフ構造情報における分布変化の対応 二 特徴不均一性 グラフデータセットにまたがる多様な特徴表現空間の処理 三 適応の速さ モデルを新しいグラフ領域に効果的に適応させる。 四 法施行の規模を拡大すること。 データ量とパラメータサイズに応じて、そのパフォーマンスが好適にスケールする、スケーリング法則の振る舞いを示すモデルを構築する。 これらの重要な課題に対処するために、我々はGraph Mixture-of-Experts (MoE)アーキテクチャに基づいてAnyGraphを構築します。 このアプローチにより、構造レベルと特徴レベルの不均一性に関して、ドメイン内およびドメイン間の分散シフトを効果的に管理することが可能になる。 さらに、AnyGraphの新しいデータやドメインへの高速な適応を容易にするために、軽量なグラフ専門家ルーティング機構が提案されている。 多様な38のグラフデータセットに関する広範な実験により、AnyGraphが分散シフトの大きい多様なグラフドメインにまたがる強力なゼロショット学習性能が実証された。 さらに、モデルの高速適応能力とスケーリング法の出現を検証し、その汎用性を実証した。

The growing ubiquity of relational data structured as graphs has underscored the need for graph learning models with exceptional generalization capabilities. However, current approaches often struggle to effectively extract generalizable insights, frequently requiring extensive fine-tuning and limiting their versatility. Graph foundation models offer a transformative solution, with the potential to learn robust, generalizable representations from graph data. This enables more effective and adaptable applications across a wide spectrum of tasks and domains. In this work, we investigate a unified graph model, AnyGraph, designed to handle key challenges: i) Structure Heterogenity. Addressing distribution shift in graph structural information; ii) Feature Heterogenity. Handling diverse feature representation spaces across graph datasets; iii) Fast Adaptation. Efficiently adapting the model to new graph domains; iv) Scaling Law Emergence. Enabling the model to exhibit scaling law behavior, where its performance scales favorably with the amount of data and parameter sizes. To tackle these critical challenges, we build the AnyGraph upon a Graph Mixture-of-Experts (MoE) architecture. This approach empowers the model to effectively manage both the in-domain and cross-domain distribution shift concerning structure-level and feature-level heterogeneity. Furthermore, a lightweight graph expert routing mechanism is proposed to facilitate AnyGraph's fast adaptability to new data and domains. Our extensive experiments on diverse 38 graph datasets have demonstrated the strong zero-shot learning performance of AnyGraph across diverse graph domains with significant distribution shift. Furthermore, we have validated the model's fast adaptation ability and scaling law emergence, showcasing its versatility.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# Ferret: Reward-Based Scoring技術によるより高速で効果的な自動化されたレッドチーム

Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique ( http://arxiv.org/abs/2408.10701v1 )

ライセンス: Link先を確認
Tej Deep Pala, Vernon Y. H. Toh, Rishabh Bhardwaj, Soujanya Poria, (参考訳) 今日の時代には、大規模言語モデル(LLM)が多くの現実世界のアプリケーションに統合され、その安全性と堅牢性を保証することが、AI使用の責任を負う上で不可欠である。 このプロセスでは、これらのモデルにおける潜在的な脆弱性を特定し軽減するために、敵攻撃を発生させることによって、自動化されたリピート方式が重要な役割を果たす。 しかし、既存の手法はパフォーマンスの遅さ、カテゴリの多様性の制限、高いリソース要求に悩まされることが多い。 最近のアプローチであるレインボウ・ボウティング(Rainbow Teaming)は、敵の即時生成を品質多様性探索としてフレーミングすることで多様性の課題に対処するが、それは依然として遅く、最適な性能を得るためには大きな微調整のミュータを必要とする。 このような制約を克服するため,フェレットはレインボー・チーム(Rainbow Teaming)を基盤として,複数回に一度に複数の逆の突然変異を発生させ,スコアリング関数を用いて最も効果的な逆のプロンプトをランク付けし,選択することで,新しいアプローチを提案する。 報奨モデルやLlama Guard, LLM-as-a-judgeなどの各種スコアリング機能を用いて, 有害な突然変異の探索効率を向上させるために, その潜在的な害に基づいて, 敵の突然変異をランク付けする。 その結果,フェレットは報酬モデルを評価関数として利用し,総合攻撃成功率(ASR)を95%に改善し,レインボーチームよりも46%高い結果を得た。 さらに、フェレットはベースラインに比べて90%のASRを達成するのに必要な時間を15.2%削減し、転送可能な逆のプロンプトを生成する。 私たちのコードはhttps://github.com/declare-lab/ferret.comで公開されています。

In today's era, where large language models (LLMs) are integrated into numerous real-world applications, ensuring their safety and robustness is crucial for responsible AI usage. Automated red-teaming methods play a key role in this process by generating adversarial attacks to identify and mitigate potential vulnerabilities in these models. However, existing methods often struggle with slow performance, limited categorical diversity, and high resource demands. While Rainbow Teaming, a recent approach, addresses the diversity challenge by framing adversarial prompt generation as a quality-diversity search, it remains slow and requires a large fine-tuned mutator for optimal performance. To overcome these limitations, we propose Ferret, a novel approach that builds upon Rainbow Teaming by generating multiple adversarial prompt mutations per iteration and using a scoring function to rank and select the most effective adversarial prompt. We explore various scoring functions, including reward models, Llama Guard, and LLM-as-a-judge, to rank adversarial mutations based on their potential harm to improve the efficiency of the search for harmful mutations. Our results demonstrate that Ferret, utilizing a reward model as a scoring function, improves the overall attack success rate (ASR) to 95%, which is 46% higher than Rainbow Teaming. Additionally, Ferret reduces the time needed to achieve a 90% ASR by 15.2% compared to the baseline and generates adversarial prompts that are transferable i.e. effective on other LLMs of larger size. Our codes are available at https://github.com/declare-lab/ferret.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# マルチモーダルな変形可能な画像登録のための大規模言語モデル

Large Language Models for Multimodal Deformable Image Registration ( http://arxiv.org/abs/2408.10703v1 )

ライセンス: Link先を確認
Mingrui Ma, Weijie Wang, Jie Ning, Jianfeng He, Nicu Sebe, Bruno Lepri, (参考訳) MDIR(Multimodal Deformable Image Registration)の課題は、異なるモダリティの画像間の特徴の変換とアライメントにある。 生成モデル(GM)は、ソースのモダリティからターゲットのモダリティまで十分な情報を保持できないが、非GMはこれらの2つのモダリティにまたがる特徴の整合に苦慮している。 本稿では,様々な学習済み大規模言語モデル (LLM) に適用可能なMDIRフレームワークLLM-Morphを提案する。 具体的には、まずCNNエンコーダを用いて、クロスモーダル画像対から深い視覚的特徴を抽出し、次に、最初のアダプタを用いてこれらのトークンを調整し、LoRAをトレーニング済みLLMに使用して、トレーニング済みLLMとMDIRタスクのドメインギャップを解消する。 第3に、トークンのアライメントのために、他の4つのアダプタを用いて、LLM符号化されたトークンをマルチスケールの視覚的特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。 MR-CTアブドメンとSR-Reg Brainデータセットの大規模な実験は、MDIRタスクに対する我々のフレームワークの有効性と事前訓練されたLLMの可能性を示している。 私たちのコードは、https://github.com/ninjannn/LLM-Morph.comで利用可能です。

The challenge of Multimodal Deformable Image Registration (MDIR) lies in the conversion and alignment of features between images of different modalities. Generative models (GMs) cannot retain the necessary information enough from the source modality to the target one, while non-GMs struggle to align features across these two modalities. In this paper, we propose a novel coarse-to-fine MDIR framework,LLM-Morph, which is applicable to various pre-trained Large Language Models (LLMs) to solve these concerns by aligning the deep features from different modal medical images. Specifically, we first utilize a CNN encoder to extract deep visual features from cross-modal image pairs, then we use the first adapter to adjust these tokens, and use LoRA in pre-trained LLMs to fine-tune their weights, both aimed at eliminating the domain gap between the pre-trained LLMs and the MDIR task. Third, for the alignment of tokens, we utilize other four adapters to transform the LLM-encoded tokens into multi-scale visual features, generating multi-scale deformation fields and facilitating the coarse-to-fine MDIR task. Extensive experiments in MR-CT Abdomen and SR-Reg Brain datasets demonstrate the effectiveness of our framework and the potential of pre-trained LLMs for MDIR task. Our code is availabel at: https://github.com/ninjannn/LLM-Morph.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# 論理プログラム学習のための可変アサインメント不変ニューラルネットワーク

Variable Assignment Invariant Neural Networks for Learning Logic Programs ( http://arxiv.org/abs/2408.10709v1 )

ライセンス: Link先を確認
Yin Jun Phua, Katsumi Inoue, (参考訳) 解釈遷移から学ぶ(LFIT)は、観察された状態遷移から規則を学ぶためのフレームワークである。 LFITは純粋にシンボリックなアルゴリズムで実装されているが、ノイズに対処したり、観測されていない遷移に一般化することはできない。 ルール抽出に基づくニューラルネットワーク手法はオーバーフィッティングに悩まされ、ルールを分類するより一般的な実装は組合せ爆発に悩まされる。 本稿では,記号領域に固有の変分不変性を活用する手法を提案する。 我々の手法は、変数の置換や命名が結果に影響を与えないことを保証する。 本手法の有効性とスケーラビリティを様々な実験で実証する。 私たちのコードはhttps://github.com/phuayj/delta-lfit-2で公開されています。

Learning from interpretation transition (LFIT) is a framework for learning rules from observed state transitions. LFIT has been implemented in purely symbolic algorithms, but they are unable to deal with noise or generalize to unobserved transitions. Rule extraction based neural network methods suffer from overfitting, while more general implementation that categorize rules suffer from combinatorial explosion. In this paper, we introduce a technique to leverage variable permutation invariance inherent in symbolic domains. Our technique ensures that the permutation and the naming of the variables would not affect the results. We demonstrate the effectiveness and the scalability of this method with various experiments. Our code is publicly available at https://github.com/phuayj/delta-lfit-2
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# ロボット溶接用マルチシームの粗対有限検出

Coarse-to-Fine Detection of Multiple Seams for Robotic Welding ( http://arxiv.org/abs/2408.10710v1 )

ライセンス: Link先を確認
Pengkun Wei, Shuo Cheng, Dayou Li, Ran Song, Yipeng Zhang, Wei Zhang, (参考訳) ターゲット溶接シームを効率よく検出し, サブミリ精度を確保することは, 自律溶接において常に重要な課題であり, 工業的実践において重要な役割を担っている。 それまでの作業は主に溶接シームの認識とローカライズに重点を置いていたため、ワークをモデル化する際の効率は劣っていた。 本稿では,RGB画像と3次元点群の両方を用いた複数溶接シーム抽出が可能な新しいフレームワークを提案する。 RGB画像は、溶接シームを略局在させて興味領域を得るために使用され、その点雲を用いて、関心領域内の溶接シームの微細端抽出を行う。 提案手法は,事前学習したディープラーニングモデルを用いて,効率性と一般化能力を両立させることによりさらに高速化される。 提案手法の性能は, 線形および湾曲した溶接シームと物理実験システムの両方を特徴とする各種加工品で総合的に検証されている。 その結果,本手法の効率性と有効性を重視した実世界の産業応用の可能性を示した。 実世界の実験のビデオはhttps://youtu.be/pq162HSP2D4で見ることができる。

Efficiently detecting target weld seams while ensuring sub-millimeter accuracy has always been an important challenge in autonomous welding, which has significant application in industrial practice. Previous works mostly focused on recognizing and localizing welding seams one by one, leading to inferior efficiency in modeling the workpiece. This paper proposes a novel framework capable of multiple weld seams extraction using both RGB images and 3D point clouds. The RGB image is used to obtain the region of interest by approximately localizing the weld seams, and the point cloud is used to achieve the fine-edge extraction of the weld seams within the region of interest using region growth. Our method is further accelerated by using a pre-trained deep learning model to ensure both efficiency and generalization ability. The performance of the proposed method has been comprehensively tested on various workpieces featuring both linear and curved weld seams and in physical experiment systems. The results showcase considerable potential for real-world industrial applications, emphasizing the method's efficiency and effectiveness. Videos of the real-world experiments can be found at https://youtu.be/pq162HSP2D4.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# 大規模言語モデルにおける類似性判断における文脈効果の検討

Investigating Context Effects in Similarity Judgements in Large Language Models ( http://arxiv.org/abs/2408.10711v1 )

ライセンス: Link先を確認
Sagar Uprety, Amit Kumar Jaiswal, Haiming Liu, Dawei Song, (参考訳) 大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。 エージェントを現実世界のシナリオで強化し、デプロイするために、ますます使われています。 そのため、研究者や政策立案者、企業は、これらのエージェントによる決定が人間の価値観やユーザの期待と一致していることを保証するために取り組んでいる。 とはいえ、人間の価値観や決定は必ずしも測定が簡単というわけではなく、異なる認知バイアスにさらされている。 行動科学(Behavioural Science)には、人間の判断におけるバイアスを研究する膨大な文献がある。 本研究では, LLMと人的判断の整合性について, 順序バイアスの影響について検討する。 具体的には、類似性判定における順序効果の証拠を示す有名な人間の研究に焦点を当て、それを様々なLLMで再現する。 人為的な順序効果バイアスを示すLCMの異なる設定を報告し、これらの発見の意味を議論し、LCMベースのアプリケーションの設計と開発について報告する。

Large Language Models (LLMs) have revolutionised the capability of AI models in comprehending and generating natural language text. They are increasingly being used to empower and deploy agents in real-world scenarios, which make decisions and take actions based on their understanding of the context. Therefore researchers, policy makers and enterprises alike are working towards ensuring that the decisions made by these agents align with human values and user expectations. That being said, human values and decisions are not always straightforward to measure and are subject to different cognitive biases. There is a vast section of literature in Behavioural Science which studies biases in human judgements. In this work we report an ongoing investigation on alignment of LLMs with human judgements affected by order bias. Specifically, we focus on a famous human study which showed evidence of order effects in similarity judgements, and replicate it with various popular LLMs. We report the different settings where LLMs exhibit human-like order effect bias and discuss the implications of these findings to inform the design and development of LLM based applications.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# 反探索を用いたオフラインモデルに基づく強化学習

Offline Model-Based Reinforcement Learning with Anti-Exploration ( http://arxiv.org/abs/2408.10713v1 )

ライセンス: Link先を確認
Padmanaba Srinivasan, William Knottenbelt, (参考訳) モデルベース強化学習(MBRL)アルゴリズムは、収集されたデータから動的モデルを学び、それを応用して、より高速な学習を可能にする合成軌道を生成する。 これはオフライン強化学習(RL)において特に有望なパラダイムである。 オフラインMBRLへの実践的なアプローチは、通常、動的モデルのアンサンブルに依存して、個々のモデルの悪用を防ぎ、データセットのサポートから遠く離れた状態の値をペナルライズする不確実性推定を抽出する。 アンサンブルからの不確実性推定は大規模に大きく変化し、たとえ類似したタスクであってもハイパーパラメータをうまく一般化することは困難である。 本稿では,モースモデルに基づくオフラインRL(MoMo)について述べる。 我々は,MoMoのモデルフリーおよびモデルベース変異体を開発し,大規模なアンサンブルを必要とせず,明確な不確実性推定を用いて,モデルフリーバージョンをどのように拡張してアウト・オブ・ディストリビューション(OOD)状態を検出し,対処するかを示す。 MoMoは、アンチ探索ボーナスを使用してオフラインMBRLを実行し、ポリシー制約と組み合わせて値を過大評価し、過度にOODとなる合成ロールアウトを終了するトランケーション機能を実行する。 実験により,モデルフリーとモデルベースの両方のMoMoは良好に動作し,後者はD4RLデータセットの大部分において,モデルベースおよびモデルフリーのベースラインよりも優れていることがわかった。

Model-based reinforcement learning (MBRL) algorithms learn a dynamics model from collected data and apply it to generate synthetic trajectories to enable faster learning. This is an especially promising paradigm in offline reinforcement learning (RL) where data may be limited in quantity, in addition to being deficient in coverage and quality. Practical approaches to offline MBRL usually rely on ensembles of dynamics models to prevent exploitation of any individual model and to extract uncertainty estimates that penalize values in states far from the dataset support. Uncertainty estimates from ensembles can vary greatly in scale, making it challenging to generalize hyperparameters well across even similar tasks. In this paper, we present Morse Model-based offline RL (MoMo), which extends the anti-exploration paradigm found in offline model-free RL to the model-based space. We develop model-free and model-based variants of MoMo and show how the model-free version can be extended to detect and deal with out-of-distribution (OOD) states using explicit uncertainty estimation without the need for large ensembles. MoMo performs offline MBRL using an anti-exploration bonus to counteract value overestimation in combination with a policy constraint, as well as a truncation function to terminate synthetic rollouts that are excessively OOD. Experimentally, we find that both model-free and model-based MoMo perform well, and the latter outperforms prior model-based and model-free baselines on the majority of D4RL datasets tested.
翻訳日:2024-08-21 14:14:58 公開日:2024-08-20
# レーザー吸収センシング量子化における物理駆動型AI補正

Physics-Driven AI Correction in Laser Absorption Sensing Quantification ( http://arxiv.org/abs/2408.10714v1 )

ライセンス: Link先を確認
Ruiyuan Kang, Panos Liatsis, Meixia Geng, Qingjie Yang, (参考訳) レーザー吸収分光法(LAS)の定量化は、気体の温度と濃度を測定するのによく用いられるツールである。 エラー耐性は低いが、現在のMLベースのソリューションでは信頼性を保証できない。 本研究では,この問題に対処する新しいフレームワークSPECを提案する。 従来のML推定器に基づく推定モードに加えて、SPECには物理駆動型異常検出モジュール(PAD)が含まれており、推定の誤差を評価する。 また、信頼できない推定を補正するために、補正モードが設計されている。 補正モードはネットワークベースの最適化アルゴリズムであり、エラーの誘導を用いて推定を反復的に補正する。 再構成誤りをシミュレートするネットワークのアンサンブルを含む誤差分布を推定するために,ハイブリッドサロゲート誤差モデルを提案する。 代理モデルの勾配誘導から最適補正を頑健かつ効率的に発見するために, グリーディアンサンブル探索を提案する。 提案したSPECは,トレーニングディストリビューション外のテストシナリオで検証される。 その結果,SPECは推定精度を大幅に向上し,補正モードは現在のネットワーク最適化アルゴリズムより優れていることがわかった。 さらに、SPECは再構成可能性を持ち、ML推定器を再トレーニングすることなくPADを変更することで、異なる定量化タスクに容易に適応できる。

Laser absorption spectroscopy (LAS) quantification is a popular tool used in measuring temperature and concentration of gases. It has low error tolerance, whereas current ML-based solutions cannot guarantee their measure reliability. In this work, we propose a new framework, SPEC, to address this issue. In addition to the conventional ML estimator-based estimation mode, SPEC also includes a Physics-driven Anomaly Detection module (PAD) to assess the error of the estimation. And a Correction mode is designed to correct the unreliable estimation. The correction mode is a network-based optimization algorithm, which uses the guidance of error to iteratively correct the estimation. A hybrid surrogate error model is proposed to estimate the error distribution, which contains an ensemble of networks to simulate reconstruction error, and true feasible error computation. A greedy ensemble search is proposed to find the optimal correction robustly and efficiently from the gradient guidance of surrogate model. The proposed SPEC is validated on the test scenarios which are outside the training distribution. The results show that SPEC can significantly improve the estimation quality, and the correction mode outperforms current network-based optimization algorithms. In addition, SPEC has the reconfigurability, which can be easily adapted to different quantification tasks via changing PAD without retraining the ML estimator.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# 局所LLaMA-3大規模言語モデルによる放射線オンコロジーにおけるプライバシー保護型物理文字の自動生成

Fine-Tuning a Local LLaMA-3 Large Language Model for Automated Privacy-Preserving Physician Letter Generation in Radiation Oncology ( http://arxiv.org/abs/2408.10715v1 )

ライセンス: Link先を確認
Yihao Hou, Christoph Bert, Ahmed Gomaa, Godehard Lahmer, Daniel Hoefler, Thomas Weissmann, Raphaela Voigt, Philipp Schubert, Charlotte Schmitter, Alina Depardon, Sabine Semrau, Andreas Maier, Rainer Fietkau, Yixing Huang, Florian Putz, (参考訳) 医師の手紙の作成は日常臨床における時間を要する作業である。 本研究では,大規模言語モデル(LLM)の局所的な微調整,特にLLaMAモデルについて,放射線腫瘍学の分野におけるプライバシ保存的手法を用いて検討した。 以上の結果から,LLaMAモデルでは微調整は行わないが,医師の文字を効果的に生成するには不十分であることが示唆された。 QLoRAアルゴリズムは、限られた計算資源(病院内の48GBのGPUワークステーション)でLLMを局所的に微調整する効率的な方法を提供する。 微調整LDMは、放射線腫瘍学固有の情報を学び、施設固有のスタイルで医師の手紙を生成する。 生成された要約レポートのROUGEスコアは、13B LLaMA-2モデルよりも8B LLaMA-3モデルの方が優れていることを示している。 さらに10例の多次元的医師評価の結果, 微調整のLLaMA-3モデルでは, 入力データ以外のコンテンツ生成能力に制限があるものの, サルテーション, 診断, 治療履歴, さらなる治療の勧告, 計画スケジュールが得られた。 臨床的メリットは, 臨床専門家によって高く評価された(平均スコアは4点, 平均3.44点)。 注意深い医師レビューと修正により,LSMに基づく医師レターの自動生成は極めて有用である。

Generating physician letters is a time-consuming task in daily clinical practice. This study investigates local fine-tuning of large language models (LLMs), specifically LLaMA models, for physician letter generation in a privacy-preserving manner within the field of radiation oncology. Our findings demonstrate that base LLaMA models, without fine-tuning, are inadequate for effectively generating physician letters. The QLoRA algorithm provides an efficient method for local intra-institutional fine-tuning of LLMs with limited computational resources (i.e., a single 48 GB GPU workstation within the hospital). The fine-tuned LLM successfully learns radiation oncology-specific information and generates physician letters in an institution-specific style. ROUGE scores of the generated summary reports highlight the superiority of the 8B LLaMA-3 model over the 13B LLaMA-2 model. Further multidimensional physician evaluations of 10 cases reveal that, although the fine-tuned LLaMA-3 model has limited capacity to generate content beyond the provided input data, it successfully generates salutations, diagnoses and treatment histories, recommendations for further treatment, and planned schedules. Overall, clinical benefit was rated highly by the clinical experts (average score of 3.44 on a 4-point scale). With careful physician review and correction, automated LLM-based physician letter generation has significant practical value.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# 表面変位と流れの深層学習サロゲートモデルの高速化とMCMCによるCO2貯蔵運転履歴マッチングへの応用

Accelerated training of deep learning surrogate models for surface displacement and flow, with application to MCMC-based history matching of CO2 storage operations ( http://arxiv.org/abs/2408.10717v1 )

ライセンス: Link先を確認
Yifu Han, Francois P. Hamon, Louis J. Durlofsky, (参考訳) 深層学習サロゲートモデリングは地下流れのアプリケーションにとって大きな可能性を秘めている。 ここでは,CO2飽和度,圧力,表面変位を予測し,炭素貯蔵操作の履歴マッチングに用いるための新しい代理モデリングフレームワークを提案する。 ここでのトレーニングは、大量の高価な結合型フロー・ジオメカニクス・シミュレーション・ランを使用する代わりに、多数の安価なフローオンリー・シミュレーションと、はるかに少ない結合型ランを併用する。 流れのみの走行では, 実効的な岩盤圧縮率を用い, 飽和と圧力の正確な予測を行うことができた。 飽和および圧力代理モデルに連続した残留U-Netアーキテクチャを適用し,新しい残留U-Netモデルを導入して表面変位を予測する。 表面変位サロゲートは、飽和と圧力サロゲート予測とともに入力、ジオモデル量として受け入れる。 多様なテストセットの中間相対誤差は、すべての変数に対して4%未満である。 代理モデルは階層的なマルコフ連鎖モンテカルロ履歴マッチングワークフローに組み込まれる。 代理誤差は、完全モデル誤差共分散行列を含む新しい処理によって含まれる。 未確定な地質シナリオパラメータ(メタパラメータ)と関連する実現を特徴とする地形モデルによる事前不確実性の高度化が検討されている。 In-situ monitoring-well data only, surface shift data only, both data types を用いて合成真理モデルの履歴マッチング結果を生成する。 両データタイプで達成した不確実性低減の強化を定量化する。 後方飽和と表面変位場は真の解とよく一致している。

Deep learning surrogate modeling shows great promise for subsurface flow applications, but the training demands can be substantial. Here we introduce a new surrogate modeling framework to predict CO2 saturation, pressure and surface displacement for use in the history matching of carbon storage operations. Rather than train using a large number of expensive coupled flow-geomechanics simulation runs, training here involves a large number of inexpensive flow-only simulations combined with a much smaller number of coupled runs. The flow-only runs use an effective rock compressibility, which is shown to provide accurate predictions for saturation and pressure for our system. A recurrent residual U-Net architecture is applied for the saturation and pressure surrogate models, while a new residual U-Net model is introduced to predict surface displacement. The surface displacement surrogate accepts, as inputs, geomodel quantities along with saturation and pressure surrogate predictions. Median relative error for a diverse test set is less than 4% for all variables. The surrogate models are incorporated into a hierarchical Markov chain Monte Carlo history matching workflow. Surrogate error is included using a new treatment involving the full model error covariance matrix. A high degree of prior uncertainty, with geomodels characterized by uncertain geological scenario parameters (metaparameters) and associated realizations, is considered. History matching results for a synthetic true model are generated using in-situ monitoring-well data only, surface displacement data only, and both data types. The enhanced uncertainty reduction achieved with both data types is quantified. Posterior saturation and surface displacement fields are shown to correspond well with the true solution.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# CodeJudge-Eval: 大規模言語モデルはコード理解の優れた判断者になれるか?

CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding? ( http://arxiv.org/abs/2408.10718v1 )

ライセンス: Link先を確認
Yuwei Zhao, Ziyang Luo, Yuchen Tian, Hongzhan Lin, Weixiang Yan, Annan Li, Jing Ma, (参考訳) 大規模言語モデル(LLM)の最近の進歩は印象的なコード生成能力を示しており、主に言語間ベンチマークによって評価されている。 しかし、これらのベンチマークはモデルのコード理解能力を十分に捉えていないかもしれない。 コード生成ではなくコード判断の観点からLLMのコード理解能力を評価するために設計された新しいベンチマークであるCodeJudge-Eval(CJ-Eval)を紹介する。 CJ-Evalは、様々なエラータイプやコンパイル問題を含む、提供されたコードソリューションの正確性を決定するためにモデルに挑戦する。 様々な問題ときめ細かい判断システムを活用することで、CJ-Evalはソリューションの暗記を含む従来のベンチマークの限界に対処する。 CJ-Evalでよく知られた12のLCMの評価は、最先端のモデルでさえ苦戦し、ベンチマークがモデルのコード理解能力を深く調査する能力を強調していることを示している。 私たちのベンチマークは \url{https://github.com/CodeLLM-Research/CodeJudge-Eval} で公開されます。

Recent advancements in large language models (LLMs) have showcased impressive code generation capabilities, primarily evaluated through language-to-code benchmarks. However, these benchmarks may not fully capture a model's code understanding abilities. We introduce CodeJudge-Eval (CJ-Eval), a novel benchmark designed to assess LLMs' code understanding abilities from the perspective of code judging rather than code generation. CJ-Eval challenges models to determine the correctness of provided code solutions, encompassing various error types and compilation issues. By leveraging a diverse set of problems and a fine-grained judging system, CJ-Eval addresses the limitations of traditional benchmarks, including the potential memorization of solutions. Evaluation of 12 well-known LLMs on CJ-Eval reveals that even state-of-the-art models struggle, highlighting the benchmark's ability to probe deeper into models' code understanding abilities. Our benchmark will be available at \url{https://github.com/CodeLLM-Research/CodeJudge-Eval}.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# ケミカル・キネティクスの産業予測のための基礎モデルに向けて

Towards Foundation Models for the Industrial Forecasting of Chemical Kinetics ( http://arxiv.org/abs/2408.10720v1 )

ライセンス: Link先を確認
Imran Nasim, Joaõ Lucas de Sousa Almeida, (参考訳) 科学機械学習は、既存の技術の効率を高め、特に化学反応のモデリングにおいてイノベーションを加速することによって、伝統的なエンジニアリング産業を変革している。 近年の進歩にもかかわらず、計算流体力学における固い化学反応問題の解決は重要な問題である。 本研究では,多層パーセプトロンミキサーアーキテクチャ(MLP-ミキサー)を用いて,固形化学反応の時系列をモデル化する手法を提案する。 本稿では, 化学動力学のベンチマークモデルであるROBERシステムを用いて, その性能を従来の数値手法と比較する。 本研究は、最近開発されたMLP-Mixerアーキテクチャの化学動力学モデリングにおける産業的有用性について考察し、時系列基礎モデルの基盤としてそのようなニューラルネットワークアーキテクチャを使用する動機を与える。

Scientific Machine Learning is transforming traditional engineering industries by enhancing the efficiency of existing technologies and accelerating innovation, particularly in modeling chemical reactions. Despite recent advancements, the issue of solving stiff chemically reacting problems within computational fluid dynamics remains a significant issue. In this study we propose a novel approach utilizing a multi-layer-perceptron mixer architecture (MLP-Mixer) to model the time-series of stiff chemical kinetics. We evaluate this method using the ROBER system, a benchmark model in chemical kinetics, to compare its performance with traditional numerical techniques. This study provides insight into the industrial utility of the recently developed MLP-Mixer architecture to model chemical kinetics and provides motivation for such neural architecture to be used as a base for time-series foundation models.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# MEGen: モデル編集による大規模言語モデルの生成バックドア

MEGen: Generative Backdoor in Large Language Models via Model Editing ( http://arxiv.org/abs/2408.10722v1 )

ライセンス: Link先を確認
Jiyang Qiu, Xinbei Ma, Zhuosheng Zhang, Hai Zhao, (参考訳) 大規模言語モデル(LLM)は目覚ましい能力を示している。 その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。 多様なタスクに対して広く採用されているジェネラリストとして、LLMは依然としてバックドアに対して脆弱である。 本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。 提案手法では,まず言語モデルを用いて,固定メトリクスから選択したトリガを入力に挿入し,モデル編集のパイプラインを設計し,バックドアを直接LLMに埋め込む。 局所パラメータの小さなセットをサンプルのミニバッチで調整することにより、MEGenは時間効率を大幅に向上し、高いロバスト性を実現する。 実験結果から,我々のバックドア攻撃戦略は,クリーンデータ上でのモデルの性能を維持しつつ,毒性データに対する高い攻撃成功率を達成することが示唆された。 特に、バックドアモデルがトリガーされると、下流タスクを成功させながら、予め設定された危険な情報を自由に出力することができる。 このことは、将来のLLMアプリケーションは、特定の危険な情報を提供するためにガイドされ、LLMの生成スタイルを変える可能性があることを示唆している。 このアプローチは、将来のLLMアプリケーションと、会話型AIシステムに対するバックドアアタックの実行に関する洞察を提供するものだと考えています。

Large language models (LLMs) have demonstrated remarkable capabilities. Their powerful generative abilities enable flexible responses based on various queries or instructions. Emerging as widely adopted generalists for diverse tasks, LLMs are still vulnerable to backdoors. This paper proposes an editing-based generative backdoor, named MEGen, aiming to create a customized backdoor for NLP tasks with the least side effects. In our approach, we first leverage a language model to insert a trigger selected on fixed metrics into the input, then design a pipeline of model editing to directly embed a backdoor into an LLM. By adjusting a small set of local parameters with a mini-batch of samples, MEGen significantly enhances time efficiency and achieves high robustness. Experimental results indicate that our backdoor attack strategy achieves a high attack success rate on poison data while maintaining the model's performance on clean data. Notably, the backdoored model, when triggered, can freely output pre-set dangerous information while successfully completing downstream tasks. This suggests that future LLM applications could be guided to deliver certain dangerous information, thus altering the LLM's generative style. We believe this approach provides insights for future LLM applications and the execution of backdoor attacks on conversational AI systems.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# 英語、トルコ語、ハンガリー語、ペルシア語のニューラルニュース生成と検出

Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian ( http://arxiv.org/abs/2408.10724v1 )

ライセンス: Link先を確認
Cem Üyük, Danica Rovó, Shaghayegh Kolli, Rabia Varol, Georg Groh, Daryna Dementieva, (参考訳) 情報過負荷とLarge Language Models (LLMs) によるファシリテーションに支配される時代において、誤報の流行は、世論や社会福祉に重大な脅威をもたらす。 現在重要な懸念事項は、機械によるニュースの識別である。 この研究では、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出用に設計されたベンチマークデータセットを導入することで、大きな一歩を踏み出した。 このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。 次に,言語的特徴に基づくものから,先進的なトランスフォーマーモデルやLSMのプロンプトまで,さまざまな分類器を実験する。 本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。

In the era dominated by information overload and its facilitation with Large Language Models (LLMs), the prevalence of misinformation poses a significant threat to public discourse and societal well-being. A critical concern at present involves the identification of machine-generated news. In this work, we take a significant step by introducing a benchmark dataset designed for neural news detection in four languages: English, Turkish, Hungarian, and Persian. The dataset incorporates outputs from multiple multilingual generators (in both, zero-shot and fine-tuned setups) such as BloomZ, LLaMa-2, Mistral, Mixtral, and GPT-4. Next, we experiment with a variety of classifiers, ranging from those based on linguistic features to advanced Transformer-based models and LLMs prompting. We present the detection results aiming to delve into the interpretablity and robustness of machine-generated texts detectors across all target languages.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# 量子人工知能:簡単な調査

Quantum Artificial Intelligence: A Brief Survey ( http://arxiv.org/abs/2408.10726v1 )

ライセンス: Link先を確認
Matthias Klusch, Jörg Lässig, Daniel Müssig, Antonio Macaluso, Frank K. Wilhelm, (参考訳) 量子人工知能(QAI)は、量子コンピューティングとAIの交差点である。 本稿では,これまでにQAIで達成されたことの概要を概説し,今後の研究に向けたオープンな疑問を提起する。 特に、AIの様々なサブフィールドにおいて、計算的に難しい問題を解くために量子コンピューティングを使用することの可能性と実現可能性に関する主要な知見を要約し、その逆も、量子コンピューティングデバイスの構築と運用にAI手法を活用することである。

Quantum Artificial Intelligence (QAI) is the intersection of quantum computing and AI, a technological synergy with expected significant benefits for both. In this paper, we provide a brief overview of what has been achieved in QAI so far and point to some open questions for future research. In particular, we summarize some major key findings on the feasability and the potential of using quantum computing for solving computationally hard problems in various subfields of AI, and vice versa, the leveraging of AI methods for building and operating quantum computing devices.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# 科学的テキストのための効率的な大言語モデルを目指して : 概観

Towards Efficient Large Language Models for Scientific Text: A Review ( http://arxiv.org/abs/2408.10729v1 )

ライセンス: Link先を確認
Huy Quoc To, Ming Liu, Guangyan Huang, (参考訳) 大規模言語モデル(LLM)は、科学を含む様々な分野において複雑な情報を処理するための新しい時代を迎えている。 科学文献の増大により、これらのモデルは科学的知識を効果的に獲得し、理解し、幅広いタスクにおいてその性能を向上させることができる。 LLMのパワーのため、非常に高価な計算資源、大量のデータ、訓練時間が必要である。 そのため、近年、研究者は科学的LLMをより手頃な価格にするための様々な手法を提案している。 最もよく知られたアプローチは2つの方向に沿っている。 モデルのサイズにフォーカスするか、データの品質を向上させるかのどちらかです。 これまでのところ、これら2つの方法の総合的なレビューは行われていない。 本稿では,LLMの出現する能力の現況を,科学のためのよりアクセスしやすいAIソリューションにまとめるとともに,LLMを用いた科学領域向けの手頃なソリューションを開発する上での課題と機会について考察する。

Large language models (LLMs) have ushered in a new era for processing complex information in various fields, including science. The increasing amount of scientific literature allows these models to acquire and understand scientific knowledge effectively, thus improving their performance in a wide range of tasks. Due to the power of LLMs, they require extremely expensive computational resources, intense amounts of data, and training time. Therefore, in recent years, researchers have proposed various methodologies to make scientific LLMs more affordable. The most well-known approaches align in two directions. It can be either focusing on the size of the models or enhancing the quality of data. To date, a comprehensive review of these two families of methods has not yet been undertaken. In this paper, we (I) summarize the current advances in the emerging abilities of LLMs into more accessible AI solutions for science, and (II) investigate the challenges and opportunities of developing affordable solutions for scientific domains using LLMs.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# $m-$partite極大絡み合った状態と可観測物のロバスト自己検定

Robust self-testing of the $m-$partite maximally entangled state and observables ( http://arxiv.org/abs/2408.10732v1 )

ライセンス: Link先を確認
Ritesh K. Singh, Souradeep Sasmal, A. K. Pan, (参考訳) 量子技術が急速に進歩するにつれて、量子デバイスの機能に関するデバイスに依存しないテストがますます重要になっている。 相関ベースのプロトコルであるセルフテストは、デバイスの内部動作に関する知識を必要とせずに、約束された量子状態とそれ上で実施される測定の認定を可能にする。 このアプローチは典型的には、適切なベルの不等式を最適に量子違反することに依存する。 自己検査はバイパルタイトベル実験の文脈で広く研究されている。 しかしながら、マルチパーティイトのシナリオへの拡張は、マルチパーティイト量子相関の複雑な性質のため、ほとんど未解明のままである。 本研究では,任意の個数のパーティを含むSvetlichnyの不等式に対する最適量子違反に基づいて,状態と可観測物を認証する,シンプルで効率的なセルフテストプロトコルを提案する。 この手法は、量子系の次元を仮定することができないスヴェットリニュ汎函数の最適量子値を導出するために、エレガントな2乗和法を利用する。 これにより、$m-$partite の最大エンタングル状態と各パーティに対するローカルなアンチ・コンミュート・オブザーバブルの自己テストが可能になる。 さらに,実実験におけるノイズや不完全性の存在下での基準状態と測定値の近接性を評価するスワップ回路のアイソメトリを開発し,自己試験プロトコルの堅牢性を示す。 最後に、我々の自己検証プロトコルが、Svetlichnyの不等式の最適違反を可能にする相関関係から、証明された真正性の生成を促進する方法について述べる。

As quantum technologies continue to advance rapidly, the device-independent testing of the functioning of a quantum device has become increasingly important. Self-testing, a correlation based protocol, enables such certification of a promised quantum state as well as measurements performed on it without requiring knowledge of the device's internal workings. This approach typically relies on achieving the optimal quantum violation of a suitable Bell inequality. Self-testing has been extensively investigated in the context of bipartite Bell experiments. However, its extension to multipartite scenarios remains largely unexplored, owing to the intricate nature of multipartite quantum correlations. In this work, we propose a simple and efficient self-testing protocol that certifies the state and observables based on the optimal quantum violation of the Svetlichny inequality involving an arbitrary number of parties, each with two inputs. Our method leverages an elegant sum-of-squares approach to derive the optimal quantum value of the Svetlichny functional, devoid of assuming the dimension of the quantum system. This enables the self-testing of the $m-$partite maximally entangled state and local anti-commuting observables for each party. Moreover, we develop a swap circuit isometry to assess the proximity of reference states and measurements to their ideal counterparts in the presence of noise and imperfections in real experiments, thereby demonstrating the robustness of our self-testing protocol. Finally, we illustrate how our self-testing protocol facilitates the generation of certified genuine randomness from correlations that enable the optimal violation of the Svetlichny inequality.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# CNN変換器モデルを用いた内視鏡・ビデオカプセル画像の分類

Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model ( http://arxiv.org/abs/2408.10733v1 )

ライセンス: Link先を確認
Aliza Subedi, Smriti Regmi, Nisha Regmi, Bhumi Bhusal, Ulas Bagci, Debesh Jha, (参考訳) 消化器癌は癌の発生と死亡の主な原因であり、早期発見と治療強化のための新しいコンピュータ支援診断システムの開発が重要である。 伝統的なアプローチでは、消化器科医の専門知識に頼って疾患を特定するが、このプロセスは主観的であり、解釈は専門医の間でも異なる。 内視鏡およびビデオカプセル内視鏡画像における消化管の異常や目印の分類の最近の進歩を踏まえ,トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせたハイブリッドモデルを提案する。 我々のモデルはDenseNet201をCNNブランチとして利用して局所的な特徴を抽出し,グローバルな特徴理解のためにSwin Transformerブランチを統合する。 GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であり,クラス不均衡に対する頑健さを示し,他のCNNやSwin Transformerモデルを上回る性能を示した。 同様に、大規模なビデオカプセル内視鏡データセットであるKvasir-Capsuleでは、我々のモデルは、全体的な精度、リコール、F1スコア、精度、MCCが0.7007、0.7239、0.6900、0.7239、0.3871である。 さらに、モデルの焦点領域を説明するために、サリエンシマップを作成し、信頼性の高い意思決定プロセスを示しました。 その結果,CNN-Transformerモデルが早期かつ正確な消化管異常の検出に役立つ可能性が示唆された。

Gastrointestinal cancer is a leading cause of cancer-related incidence and death, making it crucial to develop novel computer-aided diagnosis systems for early detection and enhanced treatment. Traditional approaches rely on the expertise of gastroenterologists to identify diseases; however, this process is subjective, and interpretation can vary even among expert clinicians. Considering recent advancements in classifying gastrointestinal anomalies and landmarks in endoscopic and video capsule endoscopy images, this study proposes a hybrid model that combines the advantages of Transformers and Convolutional Neural Networks (CNNs) to enhance classification performance. Our model utilizes DenseNet201 as a CNN branch to extract local features and integrates a Swin Transformer branch for global feature understanding, combining both to perform the classification task. For the GastroVision dataset, our proposed model demonstrates excellent performance with Precision, Recall, F1 score, Accuracy, and Matthews Correlation Coefficient (MCC) of 0.8320, 0.8386, 0.8324, 0.8386, and 0.8191, respectively, showcasing its robustness against class imbalance and surpassing other CNNs as well as the Swin Transformer model. Similarly, for the Kvasir-Capsule, a large video capsule endoscopy dataset, our model outperforms all others, achieving overall Precision, Recall, F1 score, Accuracy, and MCC of 0.7007, 0.7239, 0.6900, 0.7239, and 0.3871. Moreover, we generated saliency maps to explain our model's focus areas, demonstrating its reliable decision-making process. The results underscore the potential of our hybrid CNN-Transformer model in aiding the early and accurate detection of gastrointestinal (GI) anomalies.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# PhishAgent: フィッシングWebページ検出のためのロバストマルチモーダルエージェント

PhishAgent: A Robust Multimodal Agent for Phishing Webpage Detection ( http://arxiv.org/abs/2408.10738v1 )

ライセンス: Link先を確認
Tri Cao, Chengyu Huang, Yuexin Li, Huilin Wang, Amy He, Nay Oo, Bryan Hooi, (参考訳) フィッシング攻撃はオンラインセキュリティにとって大きな脅威であり、ユーザーの脆弱性を利用して機密情報を盗む。 フィッシングに対処する様々な方法が開発されており、それぞれ異なるレベルの精度で行われているが、それらもまた顕著な限界に遭遇している。 本研究では,多モーダル大規模言語モデル(MLLM)とオンラインおよびオフラインの知識ベースを統合した多モーダルエージェントであるPhishAgentを紹介する。 この組み合わせは、ブランドの認知とリコールを強化する幅広いブランドカバレッジにつながる。 さらに、ロゴ、HTML、URLを含むWebページから利用可能な情報をすべて活用して、オフラインの知識ベースから上位k項目を抽出するマルチモーダル情報検索フレームワークを提案する。 実世界の3つのデータセットに基づく実験結果から,提案手法は検出精度を大幅に向上し,モデル効率を維持しつつ,偽陽性と偽陰性の両方を低減させることを示した。 さらに、PhishAgentは様々な種類の敵攻撃に対して強い抵抗力を示す。

Phishing attacks are a major threat to online security, exploiting user vulnerabilities to steal sensitive information. Various methods have been developed to counteract phishing, each with varying levels of accuracy, but they also encounter notable limitations. In this study, we introduce PhishAgent, a multimodal agent that combines a wide range of tools, integrating both online and offline knowledge bases with Multimodal Large Language Models (MLLMs). This combination leads to broader brand coverage, which enhances brand recognition and recall. Furthermore, we propose a multimodal information retrieval framework designed to extract the top k relevant items from offline knowledge bases, utilizing all available information from a webpage, including logos, HTML, and URLs. Our empirical results, based on three real-world datasets, demonstrate that the proposed framework significantly enhances detection accuracy and reduces both false positives and false negatives, while maintaining model efficiency. Additionally, PhishAgent shows strong resilience against various types of adversarial attacks.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# TrackNeRF: 特徴トラックによるスパースおよびノイズビューからのNeRF調整

TrackNeRF: Bundle Adjusting NeRF from Sparse and Noisy Views via Feature Tracks ( http://arxiv.org/abs/2408.10739v1 )

ライセンス: Link先を確認
Jinjie Mai, Wenxuan Zhu, Sara Rojas, Jesus Zarzar, Abdullah Hamdi, Guocheng Qian, Bing Li, Silvio Giancola, Bernard Ghanem, (参考訳) ニューラルレイディアンス場(NeRF)は、一般的に、正確な新しいビュー合成のために正確なポーズを持つ多くの画像を必要とする。 スパースビューとノイズポーズでNeRFを学習する以前のソリューションは、一対のビューとの局所的幾何整合性のみを考慮する。 SfM(Structure-from-Motion)における「textit{bundle adjust}」に続いて、より一貫した幾何再構成とより正確なポーズ最適化のためのTrackNeRFを導入する。 TrackNeRFは \textit{feature track}, \ie connected pixel trajectories across \textit{all} visible view that with the \textit{same} 3D points。 TrackNeRFは、機能トラック間の再プロジェクション一貫性を強制することにより、全体的な3D一貫性を明示的に推奨する。 広範な実験を通じて、TrackNeRFは新しいベンチマークをノイズとスパースビューの再構築で設定した。 特に、TrackNeRFは、様々なスパースでノイズの多いビュー設定の下でDTU上のPSNRで$\sim8$と$\sim1$によって、最先端のBARFとSPARFよりも大幅に改善されている。 コードは \href{https://tracknerf.github.io/} で公開されている。

Neural radiance fields (NeRFs) generally require many images with accurate poses for accurate novel view synthesis, which does not reflect realistic setups where views can be sparse and poses can be noisy. Previous solutions for learning NeRFs with sparse views and noisy poses only consider local geometry consistency with pairs of views. Closely following \textit{bundle adjustment} in Structure-from-Motion (SfM), we introduce TrackNeRF for more globally consistent geometry reconstruction and more accurate pose optimization. TrackNeRF introduces \textit{feature tracks}, \ie connected pixel trajectories across \textit{all} visible views that correspond to the \textit{same} 3D points. By enforcing reprojection consistency among feature tracks, TrackNeRF encourages holistic 3D consistency explicitly. Through extensive experiments, TrackNeRF sets a new benchmark in noisy and sparse view reconstruction. In particular, TrackNeRF shows significant improvements over the state-of-the-art BARF and SPARF by $\sim8$ and $\sim1$ in terms of PSNR on DTU under various sparse and noisy view setups. The code is available at \href{https://tracknerf.github.io/}.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# 量子コードの最小距離計算のための高速アルゴリズムと実装

Fast Algorithms and Implementations for Computing the Minimum Distance of Quantum Codes ( http://arxiv.org/abs/2408.10743v1 )

ライセンス: Link先を確認
Fernando Hernando, Gregorio Quintana-Ortí, Markus Grassl, (参考訳) 安定化器量子コードの距離は、検出および修正可能なエラーの数を決定するため、非常に重要な特徴である。 本稿では,関連する古典符号のシンプレクティック距離を計算するために,3つの新しい高速アルゴリズムと実装を提案する。 我々の新しいアルゴリズムはBrouwer-Zimmermannアルゴリズムに基づいている。 実験により、これらの新しい実装は、シングルコアプロセッサ、マルチコアプロセッサ、共有メモリマルチプロセッサ上で、最先端のライセンス実装よりもはるかに高速であることが示された。 最も計算的に要求される場合、計算時間における性能の上昇は1桁よりも大きい。 実験では、共有メモリ並列アーキテクチャのスケーラビリティも向上している。

The distance of a stabilizer quantum code is a very important feature since it determines the number of errors that can be detected and corrected. We present three new fast algorithms and implementations for computing the symplectic distance of the associated classical code. Our new algorithms are based on the Brouwer-Zimmermann algorithm. Our experimental study shows that these new implementations are much faster than current state-of-the-art licensed implementations on single-core processors, multicore processors, and shared-memory multiprocessors. In the most computationally-demanding cases, the performance gain in the computational time can be larger than one order of magnitude. The experimental study also shows a good scalability on shared-memory parallel architectures.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# PlutoとCharon:パーソナルLLMのための時間とメモリ効率の良い協調エッジAIフレームワーク

Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-Tuning ( http://arxiv.org/abs/2408.10746v1 )

ライセンス: Link先を確認
Bei Ouyang, Shengyuan Ye, Liekang Zeng, Tianyi Qian, Jingyi Li, Xu Chen, (参考訳) 大規模言語モデル(LLM)は、インテリジェントなパーソナルアシスタントなど、ネットワークエッジにおける強力なアプリケーションの多くをアンロックした。 データプライバシとセキュリティの懸念が、クラウド依存から離れて、エッジベースのパーソナルLLMの微調整へと移行した。 しかし、これは計算強度と資源不足の問題を提起し、訓練効率と実現可能性を妨げる。 本研究は,資源制約を軽減するためのパラメータ効率細調整(PEFT)技術について検討するものであるが,本手法はエッジデバイスに十分な資源効率が得られていないことを示す。 これらの課題に対処するために、Pluto and Charon(PAC)を提案する。 PACは、洗練されたアルゴリズム-システム共設計により、パーソナルLLMのリソース壁を細調整する。 1) アルゴリズム的にPACは,パラメータ,時間,メモリの点で効率のよいパーソナルLCMの微調整技術を実装している。 パラレルアダプタを使用して、LLMバックボーンを完全な後方通過する必要を回避している。 さらに、複数のエポックにまたがる繰り返しフォワードパスの必要性を否定することで、プロセスをさらに合理化するアクティベーションキャッシュ機構である。 2) PACはエッジデバイスを近接的に活用し,個人用LLMの微調整のための集合資源としてプールし,ハイブリッドデータとパイプライン並列性を利用して分散トレーニングを編成する。 アクティベーションキャッシュを使用することで、LLMバックボーンをフォワードパスする必要がなくなり、データ並列性を使用したParallel Adapterの排他的な微調整が実現される。 プロトタイプ実装に基づく大規模な評価により、PACは最先端のアプローチを著しく上回り、最大8.64倍のエンドツーエンドのスピードアップと88.16%のメモリフットプリントの削減を実現している。

Large language models (LLMs) have unlocked a plethora of powerful applications at the network edge, such as intelligent personal assistants. Data privacy and security concerns have prompted a shift towards edge-based fine-tuning of personal LLMs, away from cloud reliance. However, this raises issues of computational intensity and resource scarcity, hindering training efficiency and feasibility. While current studies investigate parameter-efficient fine-tuning (PEFT) techniques to mitigate resource constraints, our analysis indicates that these techniques are not sufficiently resource-efficient for edge devices. To tackle these challenges, we propose Pluto and Charon (PAC), a time and memory efficient collaborative edge AI framework for personal LLMs fine-tuning. PAC breaks the resource wall of personal LLMs fine-tuning with a sophisticated algorithm-system co-design. (1) Algorithmically, PAC implements a personal LLMs fine-tuning technique that is efficient in terms of parameters, time, and memory. It utilizes Parallel Adapters to circumvent the need for a full backward pass through the LLM backbone. Additionally, an activation cache mechanism further streamlining the process by negating the necessity for repeated forward passes across multiple epochs. (2) Systematically, PAC leverages edge devices in close proximity, pooling them as a collective resource for in-situ personal LLMs fine-tuning, utilizing a hybrid data and pipeline parallelism to orchestrate distributed training. The use of the activation cache eliminates the need for forward pass through the LLM backbone,enabling exclusive fine-tuning of the Parallel Adapters using data parallelism. Extensive evaluation based on prototype implementation demonstrates that PAC remarkably outperforms state-of-the-art approaches, achieving up to 8.64x end-to-end speedup and up to 88.16% reduction in memory footprint.
翻訳日:2024-08-21 14:04:52 公開日:2024-08-20
# コヒーレント状態といくつかの積分と積分表現の間の接続

Connection between coherent states and some integrals and integral representations ( http://arxiv.org/abs/2408.10749v1 )

ライセンス: Link先を確認
Dušan Popov, (参考訳) 本稿では、コヒーレント状態の形式主義と、特殊関数を含む積分と積分表現の分野との間の興味深い数学的フィードバックを示す。 これは、メイヤーの G- によって表される異なる函数の積分や積分表現を計算し、また超幾何学的一般化函数を計算するための簡単かつ高速な方法によって実現される。 フィードバックは、量子力学からのコヒーレント状態の言語におけるユニタリ作用素の分解に由来する基本積分から始まる。 このようにして、積分と積分表現が得られ、文献に現れないものや、正統法で検証できる既に知られているものなどが得られる。 すべての計算は、量子力学における生成と消滅演算子の正規順序付けの比較的新しい手法である対角演算子順序付け技術(DOOT)の特性を用いて行われる。 本稿では,特殊関数を含む可解積分の数を増やすことに寄与する。

The paper presents an interesting mathematical feedback between the formalism of coherent states and the field of integrals and integral representations involving special functions. This materializes through an easy and fast method to calculate integrals or integral representations of different functions, expressible by means of Meijer's G-, as well as hypergeometric generalized functions. The feedback starts from a fundamental integral that comes from the decomposition of the unity operator in the language of coherent states from quantum mechanics. In this way, integrals and integral representations are obtained, some that do not appear in the literature, and others already known, which can be verified by orthodox methods. All calculations are made using the properties of the diagonal operators ordering technique (DOOT), a relatively new technique of normal ordering of the creation and annihilation operators in quantum mechanics. The paper contributes to increasing the number of solvable integrals involving special functions.
翻訳日:2024-08-21 13:55:04 公開日:2024-08-20
# 階層型深層学習のセキュリティ評価

Security Assessment of Hierarchical Federated Deep Learning ( http://arxiv.org/abs/2408.10752v1 )

ライセンス: Link先を確認
D Alqattan, R Sun, H Liang, G Nicosia, V Snasel, R Ranjan, V Ojha, (参考訳) 階層的連合学習(HFL)は、有望な分散ディープラーニングモデルトレーニングパラダイムであるが、敵の攻撃による重要なセキュリティ上の懸念がある。 本研究では,HFLの安全性を新たな手法を用いて検討し,敵の攻撃予測時間と訓練時間に対するレジリエンスに着目して評価する。 多様なデータセットや攻撃シナリオにまたがる広範な実験を通じて、HFLがその階層構造のため、未目標のトレーニング時間アタックに対して堅牢性を示すことが判明した。 しかし、ターゲット攻撃、特にバックドア攻撃は、特にエッジサーバのオーバーラップするカバレッジ領域に悪意のあるクライアントが配置されている場合、このアーキテクチャを利用する。 その結果、HFLは弾力性の二重性を示し、その階層的な凝集により攻撃から回復する能力を示し、敵の訓練に適合性を高め、推論時攻撃に対する抵抗を補強する。 これらの洞察は、HFLシステムにおけるバランスのとれたセキュリティ戦略の必要性を浮き彫りにして、脆弱性を効果的に軽減しつつ、その固有の強みを活用している。

Hierarchical federated learning (HFL) is a promising distributed deep learning model training paradigm, but it has crucial security concerns arising from adversarial attacks. This research investigates and assesses the security of HFL using a novel methodology by focusing on its resilience against adversarial attacks inference-time and training-time. Through a series of extensive experiments across diverse datasets and attack scenarios, we uncover that HFL demonstrates robustness against untargeted training-time attacks due to its hierarchical structure. However, targeted attacks, particularly backdoor attacks, exploit this architecture, especially when malicious clients are positioned in the overlapping coverage areas of edge servers. Consequently, HFL shows a dual nature in its resilience, showcasing its capability to recover from attacks thanks to its hierarchical aggregation that strengthens its suitability for adversarial training, thereby reinforcing its resistance against inference-time attacks. These insights underscore the necessity for balanced security strategies in HFL systems, leveraging their inherent strengths while effectively mitigating vulnerabilities.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# ゴーストエコー:人間の評価に対する保守性メトリクスと機械学習予測のベンチマーク

Ghost Echoes Revealed: Benchmarking Maintainability Metrics and Machine Learning Predictions Against Human Assessments ( http://arxiv.org/abs/2408.10754v1 )

ライセンス: Link先を確認
Markus Borg, Marwa Ezzouhri, Adam Tornhill, (参考訳) 生成AIがグローバルコード量を増やすことが期待されているため、人間の視点による保守性の重要性はさらに高くなるだろう。 集約されたメトリクスや高度な機械学習(ML)モデルなど、最も重要な保守性の問題を特定するために、さまざまな方法が開発されている。 この研究は、State-of-the-Art (SotA) ML、SonarQube's Maintainability Rating、CodeScene's Code Health、Microsoft's Maintainability Indexなど、いくつかの保守性予測アプローチをベンチマークする。 以上の結果から,CodeScene は SotA ML の精度と一致し,平均的人間専門家よりも優れていたことが示唆された。 重要な点として、SotA MLとは異なり、CodeSceneはエンドユーザに、特定された問題を治療するための実行可能なコード臭いの詳細を提供する。 最後に、多くの偽陽性を発生させる傾向にあるため、SonarQubeには注意が必要である。 残念なことに,本研究では,SonarQubeのアウトプットにのみ依存した過去の研究の有効性を疑問視する。 将来の保守性と技術的負債研究の信頼性を高めるため、より正確なメトリクスを採用することを推奨する。 さらに、Code Healthによる以前の発見を再評価することで、この明らかな妥当性の脅威が軽減される。

As generative AI is expected to increase global code volumes, the importance of maintainability from a human perspective will become even greater. Various methods have been developed to identify the most important maintainability issues, including aggregated metrics and advanced Machine Learning (ML) models. This study benchmarks several maintainability prediction approaches, including State-of-the-Art (SotA) ML, SonarQube's Maintainability Rating, CodeScene's Code Health, and Microsoft's Maintainability Index. Our results indicate that CodeScene matches the accuracy of SotA ML and outperforms the average human expert. Importantly, unlike SotA ML, CodeScene also provides end users with actionable code smell details to remedy identified issues. Finally, caution is advised with SonarQube due to its tendency to generate many false positives. Unfortunately, our findings call into question the validity of previous studies that solely relied on SonarQube output for establishing ground truth labels. To improve reliability in future maintainability and technical debt studies, we recommend employing more accurate metrics. Moreover, reevaluating previous findings with Code Health would mitigate this revealed validity threat.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# フェア表現の学習と蒸留による合成フェア構文非依存データの生成

Generating Synthetic Fair Syntax-agnostic Data by Learning and Distilling Fair Representation ( http://arxiv.org/abs/2408.10755v1 )

ライセンス: Link先を確認
Md Fahim Sikder, Resmi Ramachandranpillai, Daniel de Leng, Fredrik Heintz, (参考訳) データフェアネス(Data Fairness)は、最近のAI駆動アプリケーションの普及による重要なトピックである。 現実世界のデータのほとんどは人や機械のバイアスで満たされており、それらのデータがAIモデルのトレーニングに使用されている場合、モデルはトレーニングデータのバイアスを反映する可能性がある。 既存のGANに基づくバイアス緩和生成手法では、ディフュージョンモデルは、計算量の多いアーキテクチャを選択しながら計算上のオーバーヘッドを考慮せず、高い計算要求、不安定性、最適化性能を損なう可能性がある。 この問題を軽減するため,本研究では,知識蒸留に基づく公正なデータ生成手法を提案する。 フェア潜在空間蒸留のアイデアは、より柔軟で安定したフェア生成モデル(FGM)の訓練を可能にする。 まず、データの構文に依存しない(どんなデータ型に対しても)公正な表現を学び、次に潜在空間でより小さなモデルに蒸留する。 蒸留後, 蒸留したフェアラテント空間を用いて高忠実度フェア合成データを生成する。 蒸留では, 品質損失 (公正蒸留用) とユーティリティ損失 (データユーティリティ用) を用いて, 蒸留された潜在空間に公平さとデータユーティリティ特性が残ることを保証する。 提案手法は, 最先端の公正生成モデルに比べて, フェアネス, 合成試料品質およびデータ有用性において, 5%, 5%, 10%の上昇を示した。

Data Fairness is a crucial topic due to the recent wide usage of AI powered applications. Most of the real-world data is filled with human or machine biases and when those data are being used to train AI models, there is a chance that the model will reflect the bias in the training data. Existing bias-mitigating generative methods based on GANs, Diffusion models need in-processing fairness objectives and fail to consider computational overhead while choosing computationally-heavy architectures, which may lead to high computational demands, instability and poor optimization performance. To mitigate this issue, in this work, we present a fair data generation technique based on knowledge distillation, where we use a small architecture to distill the fair representation in the latent space. The idea of fair latent space distillation enables more flexible and stable training of Fair Generative Models (FGMs). We first learn a syntax-agnostic (for any data type) fair representation of the data, followed by distillation in the latent space into a smaller model. After distillation, we use the distilled fair latent space to generate high-fidelity fair synthetic data. While distilling, we employ quality loss (for fair distillation) and utility loss (for data utility) to ensure that the fairness and data utility characteristics remain in the distilled latent space. Our approaches show a 5%, 5% and 10% rise in performance in fairness, synthetic sample quality and data utility, respectively, than the state-of-the-art fair generative model.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# AIアシスタントの共同開発は、より保守可能なコードに結びつくか?

Does Co-Development with AI Assistants Lead to More Maintainable Code? A Registered Report ( http://arxiv.org/abs/2408.10758v1 )

ライセンス: Link先を確認
Markus Borg, Dave Hewett, Donald Graham, Noric Couderc, Emma Söderberg, Luke Church, Dave Farley, (参考訳) GitHub CopilotのようなAIアシスタントは、ソフトウェアエンジニアリングを変革している。 しかしながら、コード品質、特に保守性への影響については、さらなる調査が必要である。 目的/目的] この研究は、AIアシスタントがソフトウェア保守性に与える影響を調べることを目的としており、特に、これらのツールが開発者がコードを進化させる能力にどのように影響するかを評価する。 [方法]プロの開発者による2段階の制御実験を実施します。 フェーズ1では、開発者はAIアシスタントの助けなしに、Javaプロジェクトに新しい機能を追加する。 ランダム化されたコントロールトライアルであるフェーズ2では、AIアシスタントなしで動作するランダムフェーズ1プロジェクトを進化させる、さまざまな開発者が参加する。 完成時間、生産性、コード品質、テストカバレッジの違いを評価するためにベイズ分析を使用します。

[Background/Context] AI assistants like GitHub Copilot are transforming software engineering; several studies have highlighted productivity improvements. However, their impact on code quality, particularly in terms of maintainability, requires further investigation. [Objective/Aim] This study aims to examine the influence of AI assistants on software maintainability, specifically assessing how these tools affect the ability of developers to evolve code. [Method] We will conduct a two-phased controlled experiment involving professional developers. In Phase 1, developers will add a new feature to a Java project, with or without the aid of an AI assistant. Phase 2, a randomized controlled trial, will involve a different set of developers evolving random Phase 1 projects - working without AI assistants. We will employ Bayesian analysis to evaluate differences in completion time, perceived productivity, code quality, and test coverage.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# SAM-COD:弱スーパービジョンのカモフラージュ物体検出のためのSAM誘導統一フレームワーク

SAM-COD: SAM-guided Unified Framework for Weakly-Supervised Camouflaged Object Detection ( http://arxiv.org/abs/2408.10760v1 )

ライセンス: Link先を確認
Huafeng Chen, Pengxu Wei, Guangqian Guo, Shan Gao, (参考訳) カモフラージュされたオブジェクト検出(COD)手法の多くは、取得するのに時間と労力を要するマスクアノテーションに大きく依存している。 既存のCODアプローチは、完全に教師された手法に比べて性能が著しく劣り、スクリブル、バウンディングボックス、ポイントを含む既存のカモフラージュされたオブジェクトラベルを同時にサポートするのに苦労している。 Segment Anything Model (SAM)でさえ、弱い監督されたCODを扱うことは問題であり、通常、スクリブルラベルの迅速な互換性、極端な応答、セマンティックな誤った応答、不安定な特徴表現といった課題に直面する。 これらの問題を緩和するために, SAM-CODと呼ばれる, 任意の弱教師付きラベルをサポート可能な統合CODフレームワークを提案する。 我々のSAM-CODは、SAMに基づくプロンプトとしてスクリブルを扱うためにプロンプトアダプタを使用している。 一方, SAMによるCODプロンプト下でのマスクの品質向上のために, 応答フィルタとセマンティックマーカモジュールを導入している。 不正確なマスク予測の負の影響を軽減するため、信頼度の高い特徴表現を確保するために、迅速適応型知識蒸留の新しい戦略を用いる。 提案手法の有効性を検証するため,3つの主要なCODベンチマークで広範な実験を行った。 その結果, 最先端の弱教師付き手法, 完全教師付き手法に対して, 提案手法の優位性が示された。

Most Camouflaged Object Detection (COD) methods heavily rely on mask annotations, which are time-consuming and labor-intensive to acquire. Existing weakly-supervised COD approaches exhibit significantly inferior performance compared to fully-supervised methods and struggle to simultaneously support all the existing types of camouflaged object labels, including scribbles, bounding boxes, and points. Even for Segment Anything Model (SAM), it is still problematic to handle the weakly-supervised COD and it typically encounters challenges of prompt compatibility of the scribble labels, extreme response, semantically erroneous response, and unstable feature representations, producing unsatisfactory results in camouflaged scenes. To mitigate these issues, we propose a unified COD framework in this paper, termed SAM-COD, which is capable of supporting arbitrary weakly-supervised labels. Our SAM-COD employs a prompt adapter to handle scribbles as prompts based on SAM. Meanwhile, we introduce response filter and semantic matcher modules to improve the quality of the masks obtained by SAM under COD prompts. To alleviate the negative impacts of inaccurate mask predictions, a new strategy of prompt-adaptive knowledge distillation is utilized to ensure a reliable feature representation. To validate the effectiveness of our approach, we have conducted extensive empirical experiments on three mainstream COD benchmarks. The results demonstrate the superiority of our method against state-of-the-art weakly-supervised and even fully-supervised methods.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# 振動せん断測定による構成モデルの発見のためのスパース回帰

Sparse Regression for Discovery of Constitutive Models from Oscillatory Shear Measurements ( http://arxiv.org/abs/2408.10762v1 )

ライセンス: Link先を確認
Sachin Shanbhag, Gordon Erlebacher, (参考訳) 振動せん断実験からパシモニアス構成モデル(CM)の発見のためのニューラルネットワークの代替としてスパース回帰を提案する。 対称性とフレーム不変性は、CMにおける未知の非線形項を分離し記述するためにテンソル基底関数を用いて厳密に課される。 GiesekusとPhan-Thien Tanner CMを用いて合成実験データを生成し、2つの異なるシナリオを考察する。 完全な情報シナリオでは, せん断応力と第1および第2の正規応力差が測定される。 これにより疎線形回帰問題が発生し、$l_1$正規化を用いて効率的に解ける。 部分的な情報シナリオでは、せん断応力データのみが利用可能であると仮定する。 これにより、より難易度の高い非線形回帰問題が発生し、2段階のグレディアルゴリズムが提案される。 どちらのシナリオでも、提案手法はトレーニングデータを極めてよく適合し、補間する。 振動せん断のトレーニングデータの範囲を超えて推定されたCMの予測は良好である。 また、CMの識別に使われない定常および一軸拡張の起動のような流れ条件に対して合理的に外挿する。 本稿では, 実験設計における影響, アルゴリズム改良の可能性, 部分的情報から推定されるCMの非特異性について論じる。

We propose sparse regression as an alternative to neural networks for the discovery of parsimonious constitutive models (CMs) from oscillatory shear experiments. Symmetry and frame-invariance are strictly imposed by using tensor basis functions to isolate and describe unknown nonlinear terms in the CMs. We generate synthetic experimental data using the Giesekus and Phan-Thien Tanner CMs, and consider two different scenarios. In the complete information scenario, we assume that the shear stress, along with the first and second normal stress differences, is measured. This leads to a sparse linear regression problem that can be solved efficiently using $l_1$ regularization. In the partial information scenario, we assume that only shear stress data is available. This leads to a more challenging sparse nonlinear regression problem, for which we propose a greedy two-stage algorithm. In both scenarios, the proposed methods fit and interpolate the training data remarkably well. Predictions of the inferred CMs extrapolate satisfactorily beyond the range of training data for oscillatory shear. They also extrapolate reasonably well to flow conditions like startup of steady and uniaxial extension that are not used in the identification of CMs. We discuss ramifications for experimental design, potential algorithmic improvements, and implications of the non-uniqueness of CMs inferred from partial information.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# 大規模言語モデルにおける効率的な推論介入のための非破壊的パラメータ挿入

Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model ( http://arxiv.org/abs/2408.10764v1 )

ライセンス: Link先を確認
Chenhan Yuan, Fei Huang, Ru Peng, Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou, (参考訳) Transformerベースの大規模言語モデル(LLM)には、安全でない応答の生成や信頼性の低い推論などの制限がある。 既存の推論介入アプローチは、LCMの復号過程を導くキャリブレーション信号(報酬など)を生成するために追加のモデルを微調整することで、これらの問題を緩和しようとする。 しかし、このソリューションは、異なるモデルを必要とするため、かなりの時間と空間のオーバーヘッドをもたらす。 本研究は非破壊的パラメータ挿入(Otter)を提案し,元のLCM出力とともにキャリブレーション信号を予測するためにトランスフォーマアーキテクチャに余分なパラメータを挿入する。 オッターは、複数の要求されたタスクに対して最先端のパフォーマンスを提供し、86.5\%の余分なスペースと98.5\%の余分な時間を節約している。 さらに、Otterは既存の推論エンジンとシームレスに統合され、1行のコードの変更しか必要とせず、元のモデル応答はパラメータ挿入後もアクセス可能である。 我々のコードは \url{https://github.com/chenhan97/Otter} で公開されている。

Transformer-based large language models (LLMs) exhibit limitations such as generating unsafe responses, unreliable reasoning, etc. Existing inference intervention approaches attempt to mitigate these issues by finetuning additional models to produce calibration signals (such as rewards) that guide the LLM's decoding process. However, this solution introduces substantial time and space overhead due to the separate models required. This work proposes Non-disruptive parameters insertion (Otter), inserting extra parameters into the transformer architecture to predict calibration signals along with the original LLM output. Otter offers state-of-the-art performance on multiple demanding tasks while saving up to 86.5\% extra space and 98.5\% extra time. Furthermore, Otter seamlessly integrates with existing inference engines, requiring only a one-line code change, and the original model response remains accessible after the parameter insertion. Our code is publicly available at \url{https://github.com/chenhan97/Otter}
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# 創発的量子メタスタビリティによる量子ニューラルネットワークの非線形分類能力

Non-linear classification capability of quantum neural networks due to emergent quantum metastability ( http://arxiv.org/abs/2408.10765v1 )

ライセンス: Link先を確認
Mario Boneberg, Federico Carollo, Igor Lesanovsky, (参考訳) ディープ・クラシック・ニューラルネットワークのパワーと表現性は非線形の入出力関係に起因する。 このような非線形性は、データ分類やパターン認識など、多くの計算タスクの中心にある。 一方、量子ニューラルネットワークは、ユニタリ演算を通じて情報を処理するため、必ずしも線形である。 ここでは、情報処理と多体量子力学の関係を利用して、これらのプラットフォームで効果的な非線形性を実現することができることを示す。 重要な点は、量子多体系が相転移の近傍で創発的な集団的挙動を示し、熱力学の極限において実質的に非線形のダイナミクスをもたらすことである。 必然的に有限である量子ニューラルネットワークの文脈では、これは過渡的な非エルゴード的振る舞いを伴う転移性に変換される。 分散多体量子スピンモデルに触発されたアーキテクチャを持つ量子ニューラルネットワークを用いることで、基礎となるダイナミクスが局所的かつ線形であるにもかかわらず、このメカニズムが実際に非線形データ分類を実現することができることを示す。 我々の実証・実証研究は、創発的な非線形特性を持つ量子ニューラルネットワークの体系的な構築の道を開くかもしれない。

The power and expressivity of deep classical neural networks can be attributed to non-linear input-output relations. Such non-linearities are at the heart of many computational tasks, such as data classification and pattern recognition. Quantum neural networks, on the other hand, are necessarily linear as they process information via unitary operations. Here we show that effective non-linearities can be implemented in these platforms by exploiting the relationship between information processing and many-body quantum dynamics. The crucial point is that quantum many-body systems can show emergent collective behavior in the vicinity of phase transitions, which leads to an effectively non-linear dynamics in the thermodynamic limit. In the context of quantum neural networks, which are necessarily finite, this translates into metastability with transient non-ergodic behavior. By using a quantum neural network whose architecture is inspired by dissipative many-body quantum spin models, we show that this mechanism indeed allows to realize non-linear data classification, despite the underlying dynamics being local and linear. Our proof-of-principle study may pave the way for the systematic construction of quantum neural networks with emergent non-linear properties.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# 感性データを匿名化するためのオープンソースのPythonライブラリ

An Open Source Python Library for Anonymizing Sensitive Data ( http://arxiv.org/abs/2408.10766v1 )

ライセンス: Link先を確認
Judith Sáinz-Pardo Díaz, Álvaro López García, (参考訳) オープンサイエンスは、オープンデータ、オープンソース、オープンアクセスの原則に基づいて、科学的進歩とコラボレーションを促進するための基本的な柱である。 しかし、オープンデータの公開と共有の要件は、厳格なデータ保護規則に従うことが困難な場合が多い。 その結果、研究者は第三者と共有することなく、データの匿名化を可能にする実証済みの方法に頼る必要がある。 そこで本稿では, センシティブな表データの匿名化のためのPythonライブラリの実装について述べる。 このフレームワークは、ユーザに対して、識別子のセット、擬似識別子、一般化階層、許容される抑圧レベルを含む、所定のデータセットに適用可能な幅広い匿名化メソッドと、センシティブな属性と匿名性レベルを含む、幅広い匿名化方法を提供する。 このライブラリは、統合と継続的開発のためのベストプラクティスと、単体/機能テストに基づいたコードカバレッジテストのためのワークフローの使用に従って実装されている。

Open science is a fundamental pillar to promote scientific progress and collaboration, based on the principles of open data, open source and open access. However, the requirements for publishing and sharing open data are in many cases difficult to meet in compliance with strict data protection regulations. Consequently, researchers need to rely on proven methods that allow them to anonymize their data without sharing it with third parties. To this end, this paper presents the implementation of a Python library for the anonymization of sensitive tabular data. This framework provides users with a wide range of anonymization methods that can be applied on the given dataset, including the set of identifiers, quasi-identifiers, generalization hierarchies and allowed level of suppression, along with the sensitive attribute and the level of anonymity required. The library has been implemented following best practices for integration and continuous development, as well as the use of workflows to test code coverage based on unit and functional tests.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# 外傷患者における頭蓋内出血の検出

Detection of Intracranial Hemorrhage for Trauma Patients ( http://arxiv.org/abs/2408.10768v1 )

ライセンス: Link先を確認
Antoine P. Sanner, Nils F. Grauhan, Marc A. Brockmann, Ahmed E. Othman, Anirban Mukhopadhyay, (参考訳) 全身CTは多発外傷患者に対して、あらゆる外傷の検索に使用される。 初期評価は急速で、全身の病変の検索を行う必要があるため、特定の解剖検査には非常に少ない時間を割くことができる。 特に頭蓋内出血は、特に臨床生が見逃している。 本研究では,診断精度を向上させるために,このような病変を強調表示するためのDeep Learningアプローチを提案する。 殆どの頭蓋内出血はセグメンテーションを行うが、検出には出血の局所化のための境界ボックスが必要である。 本稿では,Voxel-Complete IoU(VC-IoU)損失を新たに提案し,ネットワークがバウンディングボックスの3次元アスペクト比を学習し,より正確な検出を実現する。 公開データセットを用いて脳出血検出実験を行い,それぞれ0.877 AR30, 0.728 AP30, 0.653 AR30, 0.514 AP30を達成した。 これらの結果は、他の損失関数と比較して、両方のデータセットに対する平均リコールを相対的に+5%改善する。 最後に,3次元オブジェクト検出のために現在公開されているデータはほとんどなく,アノテーションリソースが臨床環境で制限されているため,異なるアノテーション手法のコストと,トレーニングデータにおける不正確なバウンディングボックスが検出性能に与える影響を評価する。

Whole-body CT is used for multi-trauma patients in the search of any and all injuries. Since an initial assessment needs to be rapid and the search for lesions is done for the whole body, very little time can be allocated for the inspection of a specific anatomy. In particular, intracranial hemorrhages are still missed, especially by clinical students. In this work, we present a Deep Learning approach for highlighting such lesions to improve the diagnostic accuracy. While most works on intracranial hemorrhages perform segmentation, detection only requires bounding boxes for the localization of the bleeding. In this paper, we propose a novel Voxel-Complete IoU (VC-IoU) loss that encourages the network to learn the 3D aspect ratios of bounding boxes and leads to more precise detections. We extensively experiment on brain bleeding detection using a publicly available dataset, and validate it on a private cohort, where we achieve 0.877 AR30, 0.728 AP30, and 0.653 AR30, 0.514 AP30 respectively. These results constitute a relative +5% improvement in Average Recall for both datasets compared to other loss functions. Finally, as there is little data currently publicly available for 3D object detection and as annotation resources are limited in the clinical setting, we evaluate the cost of different annotation methods, as well as the impact of imprecise bounding boxes in the training data on the detection performance.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# SSL-TTS: Zero-Shot Multi-Speaker TTSのためのセルフスーパーバイディングとkNN検索

SSL-TTS: Leveraging Self-Supervised Embeddings and kNN Retrieval for Zero-Shot Multi-speaker TTS ( http://arxiv.org/abs/2408.10771v1 )

ライセンス: Link先を確認
Karl El Hajal, Ajinkya Kulkarni, Enno Hermann, Mathew Magimai. -Doss, (参考訳) 最近のゼロショットマルチ話者テキスト音声(TTS)モデルは印象的な結果をもたらすが、通常は多数の話者からの広範な音声データセットと複雑な訓練パイプラインに依存している。 一方,TLSの効果的な中間表現として,自己教師付き学習(SSL)音声の特徴が出現している。 また、個々の話者識別を維持しつつ、線形に共有音声情報を持つ異なる話者のSSLが特徴であり、ストレートフォワードとロバストな音声クローンを可能にすることも観察された。 本研究では、単一話者からの音声の書き起こしに基づいて訓練された軽量で効率的なゼロショットTTSフレームワークであるSSL-TTSを紹介する。 SSL-TTSはSSLの機能と検索手法を利用して、シンプルで堅牢なゼロショットマルチスピーカー合成を行う。 客観的および主観的評価は、我々のアプローチが、より大規模なトレーニングデータセットを必要とする最先端のモデルに匹敵する性能を達成することを示す。 低トレーニングデータ要件は、SSL-TTSが低リソースドメインや言語向けのマルチスピーカーTSシステムの開発に適していることを意味する。 また、音声をブレンドすることで出力音声の微妙な制御を可能にする補間パラメータも導入する。 デモサンプルはhttps://idiap.github.io/ssl-ttsで入手できる。

While recent zero-shot multispeaker text-to-speech (TTS) models achieve impressive results, they typically rely on extensive transcribed speech datasets from numerous speakers and intricate training pipelines. Meanwhile, self-supervised learning (SSL) speech features have emerged as effective intermediate representations for TTS. It was also observed that SSL features from different speakers that are linearly close share phonetic information while maintaining individual speaker identity, which enables straight-forward and robust voice cloning. In this study, we introduce SSL-TTS, a lightweight and efficient zero-shot TTS framework trained on transcribed speech from a single speaker. SSL-TTS leverages SSL features and retrieval methods for simple and robust zero-shot multi-speaker synthesis. Objective and subjective evaluations show that our approach achieves performance comparable to state-of-the-art models that require significantly larger training datasets. The low training data requirements mean that SSL-TTS is well suited for the development of multi-speaker TTS systems for low-resource domains and languages. We also introduce an interpolation parameter which enables fine control over the output speech by blending voices. Demo samples are available at https://idiap.github.io/ssl-tts
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# Flexora: 大規模言語モデルに対するフレキシブルな低ランク適応

Flexora: Flexible Low Rank Adaptation for Large Language Models ( http://arxiv.org/abs/2408.10774v1 )

ライセンス: Link先を確認
Chenxing Wei, Yao Shu, Ying Tiffany He, Fei Richard Yu, (参考訳) 大規模言語モデル(LLM)は、モデルパラメータのスケールを拡大することで、人工知能の進歩を推進している。 しかしながら、特定の下流タスクにおけるそれらのパフォーマンスは、通常これらのタスクの知識境界によって妨げられる。 したがって、細調整技術、特に広く使われているローランド適応法(LoRA)は、これらのタスクの境界を広げるために導入され、一方LoRAは、これらのタスクに過度に適合する可能性があるため、特定のタスクで性能が低下する。 このオーバーフィッティングを克服し、LoRAの性能を向上させるために、異なる下流タスクにおいて最高のパフォーマンスを達成するために微調整が必要な最も重要なレイヤを自動的に柔軟に選択するフレキシブルな低ランク適応(Flexora)手法を提案する。 具体的には、Flexoraはまず、この層選択問題を、適切に定義されたハイパーパラメータ最適化(HPO)問題としてフレーム化し、非ローリング微分(UD)法を用いて対処し、最後に最適化されたハイパーパラメータに基づいて最も有用な層を選択する。 多くの事前訓練されたモデルと自然言語タスクに関する広範な実験は、Flexoraが既存のベースラインよりも一貫して改善できることを示し、実際にFlexoraの有効性を示している。 さらに、Flexoraを包括的に理解するために、洞察に富んだ理論的結果と多くのアブレーション研究も提供します。

Large Language Models (LLMs) are driving advancements in artificial intelligence by increasing the scale of model parameters, which has significantly enhanced generalization ability and unlocked new capabilities in practice. However, their performance in specific downstream tasks is usually hindered by their knowledge boundaries on these tasks. Thus, fine-tuning techniques, especially the widely used Low-Rank Adaptation (LoRA) method, have been introduced to expand the boundaries on these tasks, whereas LoRA would underperform on certain tasks owing to its potential overfitting on these tasks. To overcome this overfitting and improve the performance of LoRA, we propose the flexible low rank adaptation (Flexora) method to automatically and flexibly select the most important layers needing to be fine-tuned to achieve the best performance on different downstream tasks. Specifically, Flexora firstly frames this layer selection problem as a well-defined hyperparameter optimization (HPO) problem, then addresses it using the unrolled differentiation (UD) method, and finally selects the most useful layers based on the optimized hyperparameters. Our extensive experiments on many pretrained models and natural language tasks show that Flexora is able to consistently improve over the existing baselines, indicating the effectiveness of our Flexora in practice. We additionally provide insightful theoretical results and many ablation studies to deliver a comprehensive understanding of our Flexora.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# 産業機械ビジョンにおけるジェネレーティブAI - レビュー

Generative AI in Industrial Machine Vision -- A Review ( http://arxiv.org/abs/2408.10775v1 )

ライセンス: Link先を確認
Hans Aoyang Zhou, Dominik Wolfschläger, Constantinos Florides, Jonas Werheid, Hannes Behnen, Jan-Henrick Woltersmann, Tiago C. Pinto, Marco Kemmerling, Anas Abdelrazeq, Robert H. Schmitt, (参考訳) マシンビジョンは、機械が視覚データを解釈して動作させることにより、産業アプリケーションにおける自動化、品質管理、および運用効率を高める。 従来のコンピュータビジョンアルゴリズムとアプローチは依然として広く利用されているが、機械学習は現在の研究活動において重要な役割を担っている。 特に、生成的な \gls*{AI} は、データ拡張、画像解像度の向上、品質管理のための異常の同定を通じて、パターン認識能力を改善することによって、有望なポテンシャルを示す。 しかし、生成的な \gls*{AI} をマシンビジョンに適用することは、データの多様性、計算要求、堅牢な検証方法の必要性など、まだ初期段階にある。 産業機械ビジョンにおける生成型 \gls*{AI} の現状を理解するためには,最近の進歩,応用,研究動向に着目した総合的な文献レビューが不可欠である。 そこで, PRISMAガイドラインに基づく文献レビューを行い, 産業機械ビジョンにおける生成型 \gls*{AI} に関する1200以上の論文を分析した。 本研究は,データ拡張である生成型 \gls*{AI} を,分類や物体検出などのマシンビジョンタスクに主に用いながら,現在の研究における様々なパターンを明らかにした。 さらに,産業機械ビジョンにおける生成型 \gls*{AI} の適用を成功させるために,データ要件とともにアプリケーション課題の集合を収集する。 この概要は、研究者に現在の研究における様々な分野と応用についての洞察を提供することを目的としており、重要な進歩と将来の仕事の機会を明らかにすることを目的としている。

Machine vision enhances automation, quality control, and operational efficiency in industrial applications by enabling machines to interpret and act on visual data. While traditional computer vision algorithms and approaches remain widely utilized, machine learning has become pivotal in current research activities. In particular, generative \gls*{AI} demonstrates promising potential by improving pattern recognition capabilities, through data augmentation, increasing image resolution, and identifying anomalies for quality control. However, the application of generative \gls*{AI} in machine vision is still in its early stages due to challenges in data diversity, computational requirements, and the necessity for robust validation methods. A comprehensive literature review is essential to understand the current state of generative \gls*{AI} in industrial machine vision, focusing on recent advancements, applications, and research trends. Thus, a literature review based on the PRISMA guidelines was conducted, analyzing over 1,200 papers on generative \gls*{AI} in industrial machine vision. Our findings reveal various patterns in current research, with the primary use of generative \gls*{AI} being data augmentation, for machine vision tasks such as classification and object detection. Furthermore, we gather a collection of application challenges together with data requirements to enable a successful application of generative \gls*{AI} in industrial machine vision. This overview aims to provide researchers with insights into the different areas and applications within current research, highlighting significant advancements and identifying opportunities for future work.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# 時間依存性非摂動効果を有するマイクロリング共振器における高利得光子対生成

High-gain photon pair generation in a microring resonator with time-dependent non-perturbative effects ( http://arxiv.org/abs/2408.10776v1 )

ライセンス: Link先を確認
Youngbin Kim, Seongjin Jeon, Young-Ik Sohn, (参考訳) 本研究では、単一リング共振器におけるパルス光子対生成の量子論を示す。 このアプローチは、ハイゼンベルク図形入力出力形式と古典非線形光学からの池田写像を組み合わせる。 そこで我々は, 自己相変調, 相互相変調, 時間順調整などの非摂動効果を取り入れた高利得状態に対処する。 また、補助導波路の導入による光学的損失も考慮し、実験可能なシナリオのより正確な表現を可能にした。 数値シミュレーションにより,非摂動効果は伝達関数を著しく歪ませることが判明した。 ポンプ周波数の適切な調整はこれらの問題を緩和し,高利得状態における輝度とスペクトル純度の向上につながることを示した。 さらに、光損失条件下での各種性能指標を解析し、2モード圧縮器としての単一リング共振器の性能について検討する。

In this work, we present a quantum theory for pulsed photon pair generation in a single ring resonator. Our approach combines the Heisenberg picture input-output formalism with the Ikeda mapping from classical nonlinear optics. In doing so, we address the high-gain regime by incorporating non-perturbative effects, including self-phase modulation, cross-phase modulation, and time-ordering, which are roots for significantly different behaviors in the low-gain regime. We also account for optical losses by introducing an auxiliary waveguide, allowing for a more accurate representation of experimentally viable scenarios. Numerical simulations reveal that non-perturbative effects significantly distort transfer functions, making desirable operations challenging without careful optimization. We show that appropriate detuning of the pump frequency can mitigate these issues, leading to enhanced brightness and higher spectral purity in the high-gain regime. We further investigate the performance of a single ring resonator as a two-mode squeezer by analyzing various performance metrics under experimentally relevant optical loss conditions.
翻訳日:2024-08-21 13:55:03 公開日:2024-08-20
# Just a Hint: Point-Supervised Camouflaged Object Detection

Just a Hint: Point-Supervised Camouflaged Object Detection ( http://arxiv.org/abs/2408.10777v1 )

ライセンス: Link先を確認
Huafeng Chen, Dian Shao, Guangqian Guo, Shan Gao, (参考訳) カモフラージュされたオブジェクト検出(COD)は、環境にシームレスに隠蔽するオブジェクトを迅速かつ正確に識別するモデルを要求する。 微妙な違いと曖昧な境界のため、CODはモデルにとって驚くべき課題であるだけでなく、人間のアノテータにとっても重要な課題である。 重度アノテーションの負担を軽減するため,一点管理の助けを借りてこの課題を遂行することを提案する。 具体的には、各オブジェクトを素早くクリックすることで、最初に元のポイントベースのアノテーションを合理的なヒント領域に適応的に拡張する。 そこで本研究では,識別部位の周辺部分の局所化を避けるため,ラベル付き領域を部分的にマスキングすることで,対象物全体に注意を散布するアテンションレギュレータを提案する。 さらに, 点ベースアノテーションのみを用いて, カモフラージュされた物体の不安定な特徴表現を解決するために, 異なる拡張画像対(例えば色の変化や翻訳)に基づいて教師なしのコントラスト学習を行う。 3つの主要なCODベンチマークにおいて、実験結果により、我々のモデルは様々な指標に対して大きなマージンで弱教師付き手法よりも優れていることが示された。

Camouflaged Object Detection (COD) demands models to expeditiously and accurately distinguish objects which conceal themselves seamlessly in the environment. Owing to the subtle differences and ambiguous boundaries, COD is not only a remarkably challenging task for models but also for human annotators, requiring huge efforts to provide pixel-wise annotations. To alleviate the heavy annotation burden, we propose to fulfill this task with the help of only one point supervision. Specifically, by swiftly clicking on each object, we first adaptively expand the original point-based annotation to a reasonable hint area. Then, to avoid partial localization around discriminative parts, we propose an attention regulator to scatter model attention to the whole object through partially masking labeled regions. Moreover, to solve the unstable feature representation of camouflaged objects under only point-based annotation, we perform unsupervised contrastive learning based on differently augmented image pairs (e.g. changing color or doing translation). On three mainstream COD benchmarks, experimental results show that our model outperforms several weakly-supervised methods by a large margin across various metrics.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# LightMDETR:低コストオープンボキャブラリ物体検出訓練のための軽量アプローチ

LightMDETR: A Lightweight Approach for Low-Cost Open-Vocabulary Object Detection Training ( http://arxiv.org/abs/2408.10787v1 )

ライセンス: Link先を確認
Binta Sow, Bilal Faye, Hanane Azzag, Mustapha Lebbah, (参考訳) コンピュータビジョンにおける物体検出は、伝統的に画像中の物体を識別する。 テキスト記述を統合することで、このプロセスを強化し、コンテキストと精度を向上させる。 MDETRモデルは、より汎用的なオブジェクト検出と分類のために画像とテキストデータを組み合わせることで、これを著しく前進させる。 しかし、MDETRの複雑さと高い計算要求は、その実用性を妨げている。 本稿では,マルチモーダル機能を維持しつつ,計算効率を向上させるために最適化された軽量MDETR(LightMDETR)を提案する。 我々のアプローチでは、MDETRバックボーンを凍結し、画像とテキストのモダリティを表現するために唯一のコンポーネントであるDeep Fusion Encoder(DFE)をトレーニングする。 学習可能なコンテキストベクトルにより、DFEはこれらのモダリティを切り替えることができる。 RefCOCO、RefCOCO+、RefCOCOgのようなデータセットの評価は、LightMDETRが優れた精度と精度を達成することを示す。

Object detection in computer vision traditionally involves identifying objects in images. By integrating textual descriptions, we enhance this process, providing better context and accuracy. The MDETR model significantly advances this by combining image and text data for more versatile object detection and classification. However, MDETR's complexity and high computational demands hinder its practical use. In this paper, we introduce Lightweight MDETR (LightMDETR), an optimized MDETR variant designed for improved computational efficiency while maintaining robust multimodal capabilities. Our approach involves freezing the MDETR backbone and training a sole component, the Deep Fusion Encoder (DFE), to represent image and text modalities. A learnable context vector enables the DFE to switch between these modalities. Evaluation on datasets like RefCOCO, RefCOCO+, and RefCOCOg demonstrates that LightMDETR achieves superior precision and accuracy.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# 人工知能分野における英国における高等教育と産業のスキルギャップの理解

Understanding the Skills Gap between Higher Education and Industry in the UK in Artificial Intelligence Sector ( http://arxiv.org/abs/2408.10788v1 )

ライセンス: Link先を確認
Khushi Jaiswal, Ievgeniia Kuzminykh, Sanjay Modgil, (参考訳) 人工知能(AI)がビジネスの働き方を変えるにつれ、この分野で働くことができる人々のニーズが高まっている。 本稿では、イギリスの大学がAIのコースを提供し、現実世界での学生の就職準備について検討する。 大学カリキュラムと産業需要の違いを把握するために,教科内容と求人広告ポータルをレビューする。 求人広告や大学カリキュラムからの情報収集にカスタムデータスクレイピングツールを使用し、周波数とネイブベイズ分類器の分析によって、この研究はどのスキル産業が求めているのかを正確に示す。 本研究では,地図作成に用いられた12のスキルカテゴリを特定した。 この研究によると、AI領域の大学カリキュラムは、プログラミングや機械学習など、ほとんどの技術スキルでバランスが取れているが、データサイエンスと数学と統計学のスキルカテゴリーではギャップがある。

As Artificial Intelligence (AI) changes how businesses work, there is a growing need for people who can work in this sector. This paper investigates how well universities in United Kingdom offering courses in AI, prepare students for jobs in the real world. To gain insight into the differences between university curricula and industry demands we review the contents of taught courses and job advertisement portals. By using custom data scraping tools to gather information from job advertisements and university curricula, and frequency and Naive Bayes classifier analysis, this study will show exactly what skills industry is looking for. In this study we identified 12 skill categories that were used for mapping. The study showed that the university curriculum in the AI domain is well balanced in most technical skills, including Programming and Machine learning subjects, but have a gap in Data Science and Maths and Statistics skill categories.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# 2次元ガウスとスーパークワッドリックを融合した部分認識3次元表現の学習

Learning Part-aware 3D Representations by Fusing 2D Gaussians and Superquadrics ( http://arxiv.org/abs/2408.10789v1 )

ライセンス: Link先を確認
Zhirui Gao, Renjiao Yi, Yuhang Huang, Wei Chen, Chenyang Zhu, Kai Xu, (参考訳) ポイントクラウド、メッシュ、NeRF、そして3Dガウスのような低レベルの3D表現は、一般的に3Dオブジェクトやシーンを表現するために使用される。 しかしながら、人間は通常、点やボクセルではなく、部品や構造の合成として、より高いレベルで3Dオブジェクトやシーンを知覚する。 3Dをセマンティックな部分として表現することは、さらなる理解と応用に役立つ。 オブジェクトやシーンをセマンティックな部分に解析する部分認識型3D再構成の実現を目指している。 本稿では,スーパークワッドリックと2次元ガウスのハイブリッド表現を導入し,多視点画像入力から3次元構造的手がかりを掘り起こそうとする。 正確な構造的幾何再構成と高品質なレンダリングを同時に達成する。 メッシュの面にガウス中心をアタッチすることで、2次元ガウス中心にパラメトリックスーパークワッドリックをメッシュ形式に組み込む。 トレーニング中、スーパークワッドリックのパラメータは反復的に最適化され、ガウスはそれに従って変形し、効率的なハイブリッド表現をもたらす。 一方、このハイブリッド表現は、異なる形状のプリミティブを表現するためにスーパークワッドリックの利点を継承し、シーンのフレキシブルな部分分解をサポートする。 一方、2Dガウスアンは複雑なテクスチャと幾何学の詳細をモデル化し、高品質なレンダリングと幾何再構成を保証するために組み込まれている。 再建は完全に監督されていない。 我々はDTUとShapeNetのデータセットから得られたデータを広範囲に実験し、シーンを合理的な部分に分解し、既存の最先端のアプローチより優れています。

Low-level 3D representations, such as point clouds, meshes, NeRFs, and 3D Gaussians, are commonly used to represent 3D objects or scenes. However, humans usually perceive 3D objects or scenes at a higher level as a composition of parts or structures rather than points or voxels. Representing 3D as semantic parts can benefit further understanding and applications. We aim to solve part-aware 3D reconstruction, which parses objects or scenes into semantic parts. In this paper, we introduce a hybrid representation of superquadrics and 2D Gaussians, trying to dig 3D structural clues from multi-view image inputs. Accurate structured geometry reconstruction and high-quality rendering are achieved at the same time. We incorporate parametric superquadrics in mesh forms into 2D Gaussians by attaching Gaussian centers to faces in meshes. During the training, superquadrics parameters are iteratively optimized, and Gaussians are deformed accordingly, resulting in an efficient hybrid representation. On the one hand, this hybrid representation inherits the advantage of superquadrics to represent different shape primitives, supporting flexible part decomposition of scenes. On the other hand, 2D Gaussians are incorporated to model the complex texture and geometry details, ensuring high-quality rendering and geometry reconstruction. The reconstruction is fully unsupervised. We conduct extensive experiments on data from DTU and ShapeNet datasets, in which the method decomposes scenes into reasonable parts, outperforming existing state-of-the-art approaches.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# エゴ車両の視野を補完する遠隔操作車載LCMのタッピング

Tapping in a Remote Vehicle's onboard LLM to Complement the Ego Vehicle's Field-of-View ( http://arxiv.org/abs/2408.10794v1 )

ライセンス: Link先を確認
Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger, (参考訳) 今日の先進的な自動車システムは、インテリジェントなサイバー物理システム(CPS)へと変わりつつある。 このようなシステムは、その機能のために車両の周囲を観察する高度な運転支援システム(ADAS)を駆動する。 しかし、こうしたADASは、都市部のように、周囲の物体への直視線が閉鎖されている場合のシナリオにおいて明確な制限がある。 例えば、歩行者に関する場所を車両間で共有できれば、交通の安全を高めるために、そのような状況下で他の車両の視野の恩恵を受けるのが理想的な自動運転システム(AD)を想像してみてください。 現在の文献では、車両間のセンサーやオブジェクトデータをストリームする問題に対処するために、道路側ユニット(RSU)または車両間通信(V2V)を介して車両間インフラ(V2I)が提案されている。 車両システムアーキテクチャにおけるハードウェアアクセラレーションによる強力な集中処理ユニットへの継続的な革命を考えると、音声アシスタントの使用時の乗客の快適性を高めるために、大型言語モデル(LLM)の存在を予見することが現実となる。 我々は,エゴ車両の視野(FOV)と他の車両のFOVを補完する概念を提案し,評価している。 GPT-4V や GPT-4o など,ごく最近の LLM では,交通状況が極めて詳細に把握されているため,交通参加者の特定にも利用することができる。 しかし、検出品質を改善するためにはより良いプロンプトが必要であり、車両間のメッセージ交換フォーマットの標準化に向けた今後の作業が必要である。

Today's advanced automotive systems are turning into intelligent Cyber-Physical Systems (CPS), bringing computational intelligence to their cyber-physical context. Such systems power advanced driver assistance systems (ADAS) that observe a vehicle's surroundings for their functionality. However, such ADAS have clear limitations in scenarios when the direct line-of-sight to surrounding objects is occluded, like in urban areas. Imagine now automated driving (AD) systems that ideally could benefit from other vehicles' field-of-view in such occluded situations to increase traffic safety if, for example, locations about pedestrians can be shared across vehicles. Current literature suggests vehicle-to-infrastructure (V2I) via roadside units (RSUs) or vehicle-to-vehicle (V2V) communication to address such issues that stream sensor or object data between vehicles. When considering the ongoing revolution in vehicle system architectures towards powerful, centralized processing units with hardware accelerators, foreseeing the onboard presence of large language models (LLMs) to improve the passengers' comfort when using voice assistants becomes a reality. We are suggesting and evaluating a concept to complement the ego vehicle's field-of-view (FOV) with another vehicle's FOV by tapping into their onboard LLM to let the machines have a dialogue about what the other vehicle ``sees''. Our results show that very recent versions of LLMs, such as GPT-4V and GPT-4o, understand a traffic situation to an impressive level of detail, and hence, they can be used even to spot traffic participants. However, better prompts are needed to improve the detection quality and future work is needed towards a standardised message interchange format between vehicles.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# 合理化モデルの説明ロバスト性に対する逆攻撃

Adversarial Attack for Explanation Robustness of Rationalization Models ( http://arxiv.org/abs/2408.10795v1 )

ライセンス: Link先を確認
Yuankai Zhang, Lingxiao Kong, Haozhao Wang, Ruixuan Li, Jun Wang, Yuhua Li, Wei Liu, (参考訳) 入力テキストのサブセットを人間による予測の理解と信頼の合理化として選択する合理化モデルは、最近、eXplainable Artificial Intelligenceにおいて顕著な研究領域として登場した。 しかし、これまでの研究の大部分は、その強固さを悪質な攻撃に無視して、理論の質の向上に重点を置いていた。 具体的には, 合理的化モデルが相変わらず, 敵攻撃下で高品質な合理性を生み出すか否かが不明である。 そこで本研究では,これらのモデルに対する不信感を人から引き出すことなく,合理的化モデルの説明性を損なうことを目的としたUAT2Eを提案する。 UAT2Eはトリガーに勾配に基づくサーチを採用し、元の入力に挿入して非ターゲット攻撃とターゲット攻撃の両方を実行する。 5つのデータセットの実験結果は、説明の観点から合理化モデルの脆弱性を明らかにし、攻撃下でより意味のないトークンを選択する傾向がある。 これに基づいて、説明の観点から合理化モデルを改善するための一連の勧告を行う。

Rationalization models, which select a subset of input text as rationale-crucial for humans to understand and trust predictions-have recently emerged as a prominent research area in eXplainable Artificial Intelligence. However, most of previous studies mainly focus on improving the quality of the rationale, ignoring its robustness to malicious attack. Specifically, whether the rationalization models can still generate high-quality rationale under the adversarial attack remains unknown. To explore this, this paper proposes UAT2E, which aims to undermine the explainability of rationalization models without altering their predictions, thereby eliciting distrust in these models from human users. UAT2E employs the gradient-based search on triggers and then inserts them into the original input to conduct both the non-target and target attack. Experimental results on five datasets reveal the vulnerability of rationalization models in terms of explanation, where they tend to select more meaningless tokens under attacks. Based on this, we make a series of recommendations for improving rationalization models in terms of explanation.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# Honeyquest: コードベースのアンケートによるサイバー詐欺手法の意図の迅速測定

Honeyquest: Rapidly Measuring the Enticingness of Cyber Deception Techniques with Code-based Questionnaires ( http://arxiv.org/abs/2408.10796v1 )

ライセンス: Link先を確認
Mario Kahlhofer, Stefan Achleitner, Stefan Rass, René Mayrhofer, (参考訳) ハネトケンのような罠で敵を捕食することはサイバー攻撃を遅くし、妥協の強い指標を生み出す。 残念ながら、サイバー詐欺のテクニックは、しばしば不十分に特定されている。 また、それらの効果を現実的に測定するには、これらのテクニックのプロダクション対応実装とともに、十分に提示されたソフトウェアシステムが必要です。 これは急激なプロトタイピングを難しくする。 私たちの研究は、以前に研究され、12の自己定義されたテクニックを、ハイレベルでマシン可読な仕様に翻訳します。 私たちのオープンソースツールであるHoneyquestは、研究者が実装することなく、騙しテクニックの魅力を素早く評価することを可能にする。 47人の人間による実験において、25のサイバー詐欺手法と19の真のセキュリティリスクの誘惑性を検証した。 我々は、多くの一貫した知見で過去の研究の目標を再現することに成功したが、実際のコンピュータシステム上でこれらの技術を実装するのに時間がかからなかった。 また、サイバー詐欺の存在は、敵が真のセキュリティリスクを平均で約22%減少させるリスクを著しく減少させることを示した。

Fooling adversaries with traps such as honeytokens can slow down cyber attacks and create strong indicators of compromise. Unfortunately, cyber deception techniques are often poorly specified. Also, realistically measuring their effectiveness requires a well-exposed software system together with a production-ready implementation of these techniques. This makes rapid prototyping challenging. Our work translates 13 previously researched and 12 self-defined techniques into a high-level, machine-readable specification. Our open-source tool, Honeyquest, allows researchers to quickly evaluate the enticingness of deception techniques without implementing them. We test the enticingness of 25 cyber deception techniques and 19 true security risks in an experiment with 47 humans. We successfully replicate the goals of previous work with many consistent findings, but without a time-consuming implementation of these techniques on real computer systems. We provide valuable insights for the design of enticing deception and also show that the presence of cyber deception can significantly reduce the risk that adversaries will find a true security risk by about 22% on average.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# 適応的コントラスト学習によるユニバーサルノベルティ検出

Universal Novelty Detection Through Adaptive Contrastive Learning ( http://arxiv.org/abs/2408.10798v1 )

ライセンス: Link先を確認
Hossein Mirzaei, Mojtaba Nafez, Mohammad Jafari, Mohammad Bagher Soltani, Mohammad Azizmalayeri, Jafar Habibi, Mohammad Sabokrou, Mohammad Hossein Rohban, (参考訳) ノベルティ検出は、オープンな世界で機械学習モデルをデプロイするための重要なタスクである。 ノベルティ検出法の重要な性質は普遍性であり、トレーニングデータやテストデータの様々な分布にまたがる一般化と解釈できる。 より正確に言えば、ノベルティ検出には、トレーニングセットやテストセットに分散シフトが発生する可能性がある。 トレーニングセットのシフトは、新しいデータセットで新規検出器をトレーニングし、強い転送可能性を要求するケースを指す。 逆に、テストセット内の分散シフトは、トレーニングされたモデルがシフトテストサンプルに遭遇したときに、メソッドのパフォーマンスを示す。 本研究では,既存の手法が,その剛性帰納バイアスから生じる普遍性を維持することを実験的に示す。 これを動機として、より適応性のある帰納バイアスを持つより一般化された技術を目指しています。 この文脈では、対照的な学習が、負のペアを形成する際の増大の適切な選択を通じて、新しい帰納的バイアスに容易に切り替え、適応するための効率的なフレームワークを提供するという事実を活用する。 本稿では,新しい確率論的自己負対生成法であるAutoAugOODを提案する。 本実験は, 種々の画像ベンチマークデータセットにおいて, 分散シフトの異なる条件下での手法の優位性を実証する。 特に,本手法は,一級,無ラベルのマルチクラス,ラベル付きマルチクラス設定など,新規性検出の異なる設定に適応可能なレンズに普遍性を持たせる。 コード:https://github.com/mojtaba-nafez/UNODE

Novelty detection is a critical task for deploying machine learning models in the open world. A crucial property of novelty detection methods is universality, which can be interpreted as generalization across various distributions of training or test data. More precisely, for novelty detection, distribution shifts may occur in the training set or the test set. Shifts in the training set refer to cases where we train a novelty detector on a new dataset and expect strong transferability. Conversely, distribution shifts in the test set indicate the methods' performance when the trained model encounters a shifted test sample. We experimentally show that existing methods falter in maintaining universality, which stems from their rigid inductive biases. Motivated by this, we aim for more generalized techniques that have more adaptable inductive biases. In this context, we leverage the fact that contrastive learning provides an efficient framework to easily switch and adapt to new inductive biases through the proper choice of augmentations in forming the negative pairs. We propose a novel probabilistic auto-negative pair generation method AutoAugOOD, along with contrastive learning, to yield a universal novelty detector method. Our experiments demonstrate the superiority of our method under different distribution shifts in various image benchmark datasets. Notably, our method emerges universality in the lens of adaptability to different setups of novelty detection, including one-class, unlabeled multi-class, and labeled multi-class settings. Code: https://github.com/mojtaba-nafez/UNODE
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# 量子ハードウェアにおける産業関連量子化学問題の解法

Solving an Industrially Relevant Quantum Chemistry Problem on Quantum Hardware ( http://arxiv.org/abs/2408.10801v1 )

ライセンス: Link先を確認
Ludwig Nützel, Alexander Gresch, Lukas Hehn, Lucas Marti, Robert Freund, Alex Steiner, Christian D. Marciniak, Timo Eckstein, Nina Stockinger, Stefan Wolf, Thomas Monz, Michael Kühn, Michael J. Hartmann, (参考訳) 量子化学計算は量子コンピューティングの最も有望な応用の一つである。 しかし、利用可能な量子ハードウェア上での専用量子アルゴリズムの実装は、主に強い相関関係を持たない比較的単純なシステムに限られていた。 そのため、古典的に効率的な単一参照法でも対処できる。 本研究は, イオン量子ハードウェア上での高相関金属キレートの活性空間の最小エネルギー固有値を計算し, 化学的な特性に到達するために, 典型的な工業用量子化学ワークフローに統合する。 量子ハードウェア上で変分量子アルゴリズムを訓練し,次に量子回路の出力として測定された状態の部分空間における古典的対角化を施すことにより,化学的精度を実現することができる。 このアプローチは特に測定効率が良く、10量子ビットシステム上でのコスト関数評価に600発の単発計測が必要であり、誤った実行を処理するための効率的な後処理を可能にする。

Quantum chemical calculations are among the most promising applications for quantum computing. Implementations of dedicated quantum algorithms on available quantum hardware were so far, however, mostly limited to comparatively simple systems without strong correlations. As such, they can also be addressed by classically efficient single-reference methods. In this work, we calculate the lowest energy eigenvalue of active space Hamiltonians of industrially relevant and strongly correlated metal chelates on trapped ion quantum hardware, and integrate the results into a typical industrial quantum chemical workflow to arrive at chemically meaningful properties. We are able to achieve chemical accuracy by training a variational quantum algorithm on quantum hardware, followed by a classical diagonalization in the subspace of states measured as outputs of the quantum circuit. This approach is particularly measurement-efficient, requiring 600 single-shot measurements per cost function evaluation on a ten qubit system, and allows for efficient post-processing to handle erroneous runs.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# ヘリオスタット表面予測のための逆ディープラーニングレイトレーシング

Inverse Deep Learning Ray Tracing for Heliostat Surface Prediction ( http://arxiv.org/abs/2408.10802v1 )

ライセンス: Link先を確認
Jan Lewen, Max Pargmann, Mehdi Cherti, Jenia Jitsev, Robert Pitz-Paal, Daniel Maldonado Quinto, (参考訳) 太陽光発電(CSP)のプラントは、持続可能なエネルギーへの世界的移行において重要な役割を担っている。 CSPプラントの安全かつ効率的な運転を保証するための重要な要因は、受信機に集束密度を集中させることである。 しかし、個々のヘリオスタットによって生じる非理想的なフラックス密度は、発電所の安全性と効率を損なう可能性がある。 各ヘリオスタットからのフラックス密度は、キャンティングやミラーエラーなどの要因を含む表面の正確なプロファイルの影響を受けている。 手術中の多数のヘリオスタットに対して,これらの表面形状を正確に測定することは,非常に難しい課題である。 その結果、制御システムはしばしば理想的な表面条件の仮定に依存し、安全と運転効率の両方を損なう。 本研究では,ヘリオスタットキャリブレーション時に得られたターゲット画像のみに基づいて,ヘリオスタット表面の予測を行う革新的な手法である逆ディープラーニングレイトレーシング(iDLR)を提案する。 シミュレーションに基づく研究では, ヘリオスタットのフラックス密度分布にヘリオスタット表面に関する十分な情報が保持されていることを示し, 深層学習モデルにより, 大部分のヘリオスタットに対して, 偏向法のような精度で基礎表面を正確に予測できることを示した。 さらに,この手法の限界,特に表面の精度やフラックス密度の予測について評価する。 さらに,非均一なRational B-Spline (NURBS) を用いたヘリオスタットの新しい包括的ヘリオスタットモデルを提案する。 以上の結果から,iDLRはCSPプラントの操業を増強し,発電所全体の効率とエネルギー消費を増大させる可能性が示唆された。

Concentrating Solar Power (CSP) plants play a crucial role in the global transition towards sustainable energy. A key factor in ensuring the safe and efficient operation of CSP plants is the distribution of concentrated flux density on the receiver. However, the non-ideal flux density generated by individual heliostats can undermine the safety and efficiency of the power plant. The flux density from each heliostat is influenced by its precise surface profile, which includes factors such as canting and mirror errors. Accurately measuring these surface profiles for a large number of heliostats in operation is a formidable challenge. Consequently, control systems often rely on the assumption of ideal surface conditions, which compromises both safety and operational efficiency. In this study, we introduce inverse Deep Learning Ray Tracing (iDLR), an innovative method designed to predict heliostat surfaces based solely on target images obtained during heliostat calibration. Our simulation-based investigation demonstrates that sufficient information regarding the heliostat surface is retained in the flux density distribution of a single heliostat, enabling deep learning models to accurately predict the underlying surface with deflectometry-like precision for the majority of heliostats. Additionally, we assess the limitations of this method, particularly in relation to surface accuracy and resultant flux density predictions. Furthermore, we are presenting a new comprehensive heliostat model using Non-Uniform Rational B-Spline (NURBS) that has the potential to become the new State of the Art for heliostat surface parameterization. Our findings reveal that iDLR has significant potential to enhance CSP plant operations, potentially increasing the overall efficiency and energy output of the power plants.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# Kotlinの型システムは(Also)正しくない

Kotlin's Type System is (Also) Unsound ( http://arxiv.org/abs/2408.10804v1 )

ライセンス: Link先を確認
Elad Kinsbruner, Hila Peleg, Shachar Itzhaky, (参考訳) 型システムの健全性(英: Soundness of a type system)は、実行時にその値に対して、値によってサポートされない操作が実行されないことを保証する、資金的特性である。 音型システムの型チェッカーは、型エラー毎に警告を発することが期待されている。 健全性は多くの実用的なアプリケーションにとって望ましい特性であるが、2016年、Amin氏とTate氏はJavaとScalaの2つの主要な産業言語に対する最初の不健全性証明を提示した。 この証明は、使用部位の分散と暗黙のnull値に依存していた。 私たちは、これまで未知の言語機能の組み合わせに依存していた、別の新興産業言語であるKotlinに対して、不健全な証明を提示します。 Kotlinには暗黙的なnull値がないため、AminとTateによる証明はKotlinでは機能しない。 我々の新しい証明は、侵害的なコードスニペットであり、Kotlinの \emph{declaration-site} 分散仕様を利用しており、暗黙のnull値を必要としない。 各ステップの詳細な説明とともに、この反例を完全な音性に提示する。 最後に、この問題の原因となる言語機能と、Kotlinのコンパイラにパッチを当てて修正する方法について、徹底的な議論を行う。

Soundness of a type system is a fundemental property that guarantees that no operation that is not supported by a value will be performed on that value at run time. A type checker for a sound type system is expected to issue a warning on every type error. While soundness is a desirable property for many practical applications, in 2016, Amin and Tate presented the first unsoundness proof for two major industry languages: Java and Scala. This proof relied on use-site variance and implicit null values. We present an unsoundness proof for Kotlin, another emerging industry language, which relies on a previously unknown unsound combination of language features. Kotlin does not have implicit null values, meaning that the proof by Amin and Tate would not work for Kotlin. Our new proof, which is an infringing code snippet, utilizes Kotlin's \emph{declaration-site} variance specification and does not require implicit null values. We present this counterexample to soundness in full along with detailed explanations of every step. Finally, we present a thorough discussion on precisely which language features cause this issue, as well as how Kotlin's compiler can be patched to fix it.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# MPL:多視点2D画像から3D人物をリフティングする

MPL: Lifting 3D Human Pose from Multi-view 2D Poses ( http://arxiv.org/abs/2408.10805v1 )

ライセンス: Link先を確認
Seyed Abolfazl Ghasemzadeh, Alexandre Alahi, Christophe De Vleeschouwer, (参考訳) 2次元画像から3次元人間のポーズを推定することは、隠蔽と投影的獲得によって困難である。 学習ベースのアプローチは、シングルおよびマルチビューのセットアップの両方において、この問題に対処するために主に研究されている。 しかし、これらのソリューションは、トレーニングのために3Dポーズと組み合わせた(マルチビューの)"in-the-wild"イメージが欠如しているために、現実のケースに一般化することができない。 そこで本稿では,大規模で豊富なトレーニングデータセットを持つ2Dポーズ推定と,合成2D-3Dポーズペアからトレーニング可能なトランスフォーマーネットワークを用いた2D-to-3Dポーズリフトを提案する。 実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。 フレームワークのソースコードはhttps://github.com/aghasemzadeh/OpenMPL で公開されている。

Estimating 3D human poses from 2D images is challenging due to occlusions and projective acquisition. Learning-based approaches have been largely studied to address this challenge, both in single and multi-view setups. These solutions however fail to generalize to real-world cases due to the lack of (multi-view) 'in-the-wild' images paired with 3D poses for training. For this reason, we propose combining 2D pose estimation, for which large and rich training datasets exist, and 2D-to-3D pose lifting, using a transformer-based network that can be trained from synthetic 2D-3D pose pairs. Our experiments demonstrate decreases up to 45% in MPJPE errors compared to the 3D pose obtained by triangulating the 2D poses. The framework's source code is available at https://github.com/aghasemzadeh/OpenMPL .
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# DisMix:ソースレベルのピッチと音色操作のための楽器のディエンタングリングミックス

DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation ( http://arxiv.org/abs/2408.10807v1 )

ライセンス: Link先を確認
Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi, Toshimitsu Uesaka, Keisuke Toyama, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Wei-Hsiang Liao, Simon Dixon, Yuki Mitsufuji, (参考訳) 既存の音程と音色のゆがみに関する研究は、複数の楽器が提示される場合を除いて、主にシングルインストゥルメント音楽オーディオに焦点を当てている。 このギャップを埋めるために、ソースのメロディと楽器を構築するためのモジュラー構造ブロックとしてピッチと音色表現が機能する生成フレームワークであるDisMixを提案し、その集合は、観測された混合物の基盤となる、構成単位毎の潜在表現の集合を形成する。 表現の操作により, モデルサンプルは, 構成楽器のピッチと音色の組み合わせとを混合する。 音源レベル表現の集合に条件付き混合を再構成する非絡み合ったピッチ音色表現と潜時拡散変換器を共同で学習することができる。 本研究では,J.S. Bach スタイルの単純なコード集合と現実的な4パート合唱の両方を用いてモデルを評価し,アンタングルメントの成功の鍵となる要素を同定し,ソースレベルの属性操作に基づく混合変換の適用性を実証する。

Existing work on pitch and timbre disentanglement has been mostly focused on single-instrument music audio, excluding the cases where multiple instruments are presented. To fill the gap, we propose DisMix, a generative framework in which the pitch and timbre representations act as modular building blocks for constructing the melody and instrument of a source, and the collection of which forms a set of per-instrument latent representations underlying the observed mixture. By manipulating the representations, our model samples mixtures with novel combinations of pitch and timbre of the constituent instruments. We can jointly learn the disentangled pitch-timbre representations and a latent diffusion transformer that reconstructs the mixture conditioned on the set of source-level representations. We evaluate the model using both a simple dataset of isolated chords and a realistic four-part chorales in the style of J.S. Bach, identify the key components for the success of disentanglement, and demonstrate the application of mixture transformation based on source-level attribute manipulation.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# 言語モデル質問応答に対するColBERT検索とアンサンブル応答スコアリング

ColBERT Retrieval and Ensemble Response Scoring for Language Model Question Answering ( http://arxiv.org/abs/2408.10808v1 )

ライセンス: Link先を確認
Alex Gichamba, Tewodros Kederalah Idris, Brian Ebiyau, Eric Nyberg, Teruko Mitamura, (参考訳) ドメイン固有の質問応答は、質問に正しく答えるために必要な深い技術知識を考えると、言語モデルでは依然として難しい。 この困難さは、より大きなモデルと同じ量のパラメータの情報をエンコードできない、より小さな言語モデルに対して増幅される。 テレコムネットワークのための大規模言語モデル」の課題は、通信質問応答におけるPhi-2とFalcon-7Bの2つの小言語モデルの性能向上であった。 本稿では,この問題に対する質問応答システムについて述べる。 我々の解決策はPhi-2の81.9%の精度とFalcon-7Bの57.3%の精度を達成した。 コードと微調整されたモデルを公開しました。

Domain-specific question answering remains challenging for language models, given the deep technical knowledge required to answer questions correctly. This difficulty is amplified for smaller language models that cannot encode as much information in their parameters as larger models. The "Specializing Large Language Models for Telecom Networks" challenge aimed to enhance the performance of two small language models, Phi-2 and Falcon-7B in telecommunication question answering. In this paper, we present our question answering systems for this challenge. Our solutions achieved leading marks of 81.9% accuracy for Phi-2 and 57.3% for Falcon-7B. We have publicly released our code and fine-tuned models.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# 英語中心のLLMを超えて:多言語言語モデルはどう考えるか?

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? ( http://arxiv.org/abs/2408.10811v1 )

ライセンス: Link先を確認
Chengzhi Zhong, Fei Cheng, Qianying Liu, Junfeng Jiang, Zhen Wan, Chenhui Chu, Yugo Murawaki, Sadao Kurohashi, (参考訳) より正確には、「思考」とは、語彙空間に埋め込まれていない中間層の表現が、世代において支配的な言語に対して高い確率を示すことを示すものである。 内部の $\textbf{latent languages}$ のように表現する。 Llama2は英語中心のモデル、Swallowは英語中心のモデル、LLM-jpは英語と日本語のコーパスで事前訓練されたモデルである。 実験の結果,Llama2は内在言語として英語のみに依存しているのに対し,日本語固有のスワロー語とLLM-jpは日本語と英語の両方を使用し,二重内在言語を呈していることがわかった。 任意の対象言語に対して、モデルは最も密接に関連する潜在言語を優先的に活性化する。 さらに,中間層が潜在内部言語と対象出力言語間の文化的対立に関わる問題にどのように反応するかを考察する。 さらに、中間層表現に反映された一貫性のある意味を保ちながら、言語アイデンティティが層間でどのようにシフトするかを考察する。 本研究では、非英語中心の大規模言語モデルの理解を深め、中間層における言語表現の複雑なダイナミクスを強調した。

In this study, we investigate whether non-English-centric LLMs, despite their strong performance, `think' in their respective dominant language: more precisely, `think' refers to how the representations of intermediate layers, when un-embedded into the vocabulary space, exhibit higher probabilities for certain dominant languages during generation. We term such languages as internal $\textbf{latent languages}$. We examine the latent language of three typical categories of models for Japanese processing: Llama2, an English-centric model; Swallow, an English-centric model with continued pre-training in Japanese; and LLM-jp, a model pre-trained on balanced English and Japanese corpora. Our empirical findings reveal that, unlike Llama2 which relies exclusively on English as the internal latent language, Japanese-specific Swallow and LLM-jp employ both Japanese and English, exhibiting dual internal latent languages. For any given target language, the model preferentially activates the latent language most closely related to it. In addition, we explore how intermediate layers respond to questions involving cultural conflicts between latent internal and target output languages. We further explore how the language identity shifts across layers while keeping consistent semantic meaning reflected in the intermediate layer representations. This study deepens the understanding of non-English-centric large language models, highlighting the intricate dynamics of language representation within their intermediate layers.
翻訳日:2024-08-21 13:45:16 公開日:2024-08-20
# 皮質下信号の画像表現を用いた認知症の深層学習による分類

Deep Learning-based Classification of Dementia using Image Representation of Subcortical Signals ( http://arxiv.org/abs/2408.10816v1 )

ライセンス: Link先を確認
Shivani Ranjan, Ayush Tripathi, Harshal Shende, Robin Badal, Amit Kumar, Pramod Yadav, Deepak Joshi, Lalan Kumar, (参考訳) 認知症は認知機能低下を特徴とする神経症状である。 アルツハイマー病 (AD) と前頭側頭型認知症 (FTD) は認知症の一般的な形態であり、それぞれ異なる進行パターンを持つ。 脳活動を記録する非侵襲的なツールであるEEGは、ADとFTDと軽度認知障害(MCI)を区別する可能性を示している。 これまでの研究では、サブバンド電力や接続パターンなどの様々な脳波特性を利用して、これらの条件を区別してきた。 しかし、脳波信号のアーティファクトは不明瞭な重要な情報になり、高度な信号処理技術を必要とする。 本研究は,脳深部,特に海馬,扁桃体,視床のスカウト時系列信号を分析し,認知症に対する深い学習に基づく分類システムを開発することを目的とする。 この研究は、標準化された低分解能脳電磁トモグラフィー(sLORETA)技術を用いて抽出されたスカウト時系列を利用する。 時系列は連続ウェーブレット変換(CWT)を用いて画像表現に変換され、深層学習モデルへの入力として供給される。 2つの高密度脳波データセットを用いて、提案手法の有効性を確認する。オンラインBrainLatデータセット(AD、FTD、Health Control (HC))と社内IITD-AIIAデータセット(AD、MCI、HCを含む)である。 異なる分類戦略と分類器の組み合わせは、両方のデータセット上のクラスの正確なマッピングに利用されてきた。 最良の結果は、DenseNetモデルアーキテクチャとともに、左右皮質領域の分類器からの確率の積を用いて達成された。 BrainLatとIITD-AIIAデータセットでそれぞれ94.17$\%$と77.72$\%$の精度が得られる。 これは、神経変性疾患の早期かつ正確な分化に対するこのアプローチの可能性を強調している。

Dementia is a neurological syndrome marked by cognitive decline. Alzheimer's disease (AD) and Frontotemporal dementia (FTD) are the common forms of dementia, each with distinct progression patterns. EEG, a non-invasive tool for recording brain activity, has shown potential in distinguishing AD from FTD and mild cognitive impairment (MCI). Previous studies have utilized various EEG features, such as subband power and connectivity patterns to differentiate these conditions. However, artifacts in EEG signals can obscure crucial information, necessitating advanced signal processing techniques. This study aims to develop a deep learning-based classification system for dementia by analyzing scout time-series signals from deep brain regions, specifically the hippocampus, amygdala, and thalamus. The study utilizes scout time series extracted via the standardized low-resolution brain electromagnetic tomography (sLORETA) technique. The time series is converted to image representations using continuous wavelet transform (CWT) and fed as input to deep learning models. Two high-density EEG datasets are utilized to check for the efficacy of the proposed method: the online BrainLat dataset (comprising AD, FTD, and healthy controls (HC)) and the in-house IITD-AIIA dataset (including subjects with AD, MCI, and HC). Different classification strategies and classifier combinations have been utilized for the accurate mapping of classes on both datasets. The best results were achieved by using a product of probabilities from classifiers for left and right subcortical regions in conjunction with the DenseNet model architecture. It yields accuracies of 94.17$\%$ and 77.72$\%$ on the BrainLat and IITD-AIIA datasets, respectively. This highlights the potential of this approach for early and accurate differentiation of neurodegenerative disorders.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# 変圧器を用いたランダム化アルゴリズムの学習

Learning Randomized Algorithms with Transformers ( http://arxiv.org/abs/2408.10818v1 )

ライセンス: Link先を確認
Johannes von Oswald, Seijin Kobayashi, Yassir Akram, Angelika Steger, (参考訳) ランダム化はアルゴリズムに顕著な特性を与える強力なツールです。 例えば、ランダム化されたアルゴリズムは敵の設定で優れ、しばしば大きなマージンを持つ決定論的アルゴリズムの最悪の性能を上回る。 さらに、その成功確率は、繰り返しや多数決のような単純な戦略によって増幅することができる。 本稿では,深層ニューラルネットワーク,特にトランスフォーマーモデルをランダム化して拡張する。 ランダム化されたアルゴリズムは、学習を通じて、純粋にデータと客観的に駆動された方法でトランスフォーマーに組み込むことができることを初めて実証する。 まず、ランダム化アルゴリズムが決定論的アルゴリズムよりも明確な優位性をもたらす既知の対向目的を解析する。 次に、勾配降下や進化戦略のような一般的な最適化手法が、モデルに与えられたランダム性を利用する変換子パラメータを効果的に学習できることを示す。 ニューラルネットワークの強化におけるランダム化の広範な適用性を説明するために,アソシエーションリコール,グラフカラー化,グリッド世界を探索するエージェントという,3つの概念的タスクについて検討した。 学習したランダム化による難解な敵に対するロバスト性の向上に加えて、ニューラルネットワークの計算と予測の本質的にランダムな性質により、我々の実験は顕著な性能向上を示した。

Randomization is a powerful tool that endows algorithms with remarkable properties. For instance, randomized algorithms excel in adversarial settings, often surpassing the worst-case performance of deterministic algorithms with large margins. Furthermore, their success probability can be amplified by simple strategies such as repetition and majority voting. In this paper, we enhance deep neural networks, in particular transformer models, with randomization. We demonstrate for the first time that randomized algorithms can be instilled in transformers through learning, in a purely data- and objective-driven manner. First, we analyze known adversarial objectives for which randomized algorithms offer a distinct advantage over deterministic ones. We then show that common optimization techniques, such as gradient descent or evolutionary strategies, can effectively learn transformer parameters that make use of the randomness provided to the model. To illustrate the broad applicability of randomization in empowering neural networks, we study three conceptual tasks: associative recall, graph coloring, and agents that explore grid worlds. In addition to demonstrating increased robustness against oblivious adversaries through learned randomization, our experiments reveal remarkable performance improvements due to the inherently random nature of the neural networks' computation and predictions.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# 質問応答型知識グラフ補完のための静的領域と時間領域にまたがる大規模言語モデルの作成

Exploiting Large Language Models Capabilities for Question Answer-Driven Knowledge Graph Completion Across Static and Temporal Domains ( http://arxiv.org/abs/2408.10819v1 )

ライセンス: Link先を確認
Rui Yang, Jiahao Zhu, Jianping Man, Li Fang, Yi Zhou, (参考訳) 知識グラフ補完(KGC)は、知識グラフ(KG)において欠落した三つ組を特定することを目的としている。 これは典型的には、リンク予測やインスタンス補完といったタスクによって達成される。 しかしながら、これらの手法は静的知識グラフ (SKG) や時間的知識グラフ (TKG) に重点を置いており、スコープ内トリプルにのみ対応している。 本稿では,GS-KGC (Generative Subgraph-based KGC) と呼ばれる新しい生成補完フレームワークを提案する。 GS-KGCは、ターゲットエンティティを直接生成するために質問応答形式を採用し、複数の可能な答えを持つ質問の課題に対処する。 そこで我々は,KG内のエンティティと関係を中心とした部分グラフを抽出し,負のサンプルと近傍情報を別々に取得し,一対多の問題に対処する戦略を提案する。 本手法は,新たな情報発見を容易にするために,既知の事実を用いて負のサンプルを生成する。 さらに,大言語モデル (LLM) における推論を強化するための文脈情報を提供するため,既知のエンティティの近傍パスデータを収集・精査する。 提案手法を4つのSKGと2つのTKGで評価し、5つのデータセットでHits@1測定結果を得た。 その結果、GS-KGCは既存のKGの中に新しい三重項を発見でき、クローズド・ワールドとオープン・ワールドのギャップを効果的に埋めることのできるクローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クローズド・クリー (KGC) の3重項を発見できることがわかった。

Knowledge graph completion (KGC) aims to identify missing triples in a knowledge graph (KG). This is typically achieved through tasks such as link prediction and instance completion. However, these methods often focus on either static knowledge graphs (SKGs) or temporal knowledge graphs (TKGs), addressing only within-scope triples. This paper introduces a new generative completion framework called Generative Subgraph-based KGC (GS-KGC). GS-KGC employs a question-answering format to directly generate target entities, addressing the challenge of questions having multiple possible answers. We propose a strategy that extracts subgraphs centered on entities and relationships within the KG, from which negative samples and neighborhood information are separately obtained to address the one-to-many problem. Our method generates negative samples using known facts to facilitate the discovery of new information. Furthermore, we collect and refine neighborhood path data of known entities, providing contextual information to enhance reasoning in large language models (LLMs). Our experiments evaluated the proposed method on four SKGs and two TKGs, achieving state-of-the-art Hits@1 metrics on five datasets. Analysis of the results shows that GS-KGC can discover new triples within existing KGs and generate new facts beyond the closed KG, effectively bridging the gap between closed-world and open-world KGC.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# Swin-Unetによる高時間分解能グローバルレイクデータセットの構築と地域予測への応用

Constructing a High Temporal Resolution Global Lakes Dataset via Swin-Unet with Applications to Area Prediction ( http://arxiv.org/abs/2408.10821v1 )

ライセンス: Link先を確認
Yutian Han, Baoxiang Huang, He Gao, (参考訳) 湖は、水の供給、生物多様性の生息地、炭素の隔離など、様々な貴重な生態系を提供している。 しかし、湖は気候変動や人的活動によってますます脅かされている。 したがって、湖沼のダイナミクスの継続的なグローバルモニタリングは重要であるが、大規模に挑戦することは依然として困難である。 最近開発されたGlobal Lakes Area Database(GLAKES)は、世界中で340万以上の湖をマッピングしているが、急激な変化や短期的な変化をとらえるには不十分な非周期的なデータしか提供していない。 我々はSwin-Unetモデルを用いて従来の畳み込み処理を置き換え、高空間分解能衛星画像の受容場要求による課題を効果的に解決した。 二年周期の時間分解能の増大は、降水や温度変化などの気候・水文要因による湖沼領域の変化を定量的に評価するのに役立ち、湖沼領域の変化を予測するために、Long Short-Term Memory(LSTM)ニューラルネットワークと予備モデルのための拡張時系列データセットを使用した。 気候・土地利用のシナリオでは,将来の湖沼地域の変化を予測するため,本モデルは0.317km^2のRMSEを達成した。

Lakes provide a wide range of valuable ecosystem services, such as water supply, biodiversity habitats, and carbon sequestration. However, lakes are increasingly threatened by climate change and human activities. Therefore, continuous global monitoring of lake dynamics is crucial, but remains challenging on a large scale. The recently developed Global Lakes Area Database (GLAKES) has mapped over 3.4 million lakes worldwide, but it only provides data at decadal intervals, which may be insufficient to capture rapid or short-term changes.This paper introduces an expanded lake database, GLAKES-Additional, which offers biennial delineations and area measurements for 152,567 lakes globally from 1990 to 2021. We employed the Swin-Unet model, replacing traditional convolution operations, to effectively address the challenges posed by the receptive field requirements of high spatial resolution satellite imagery. The increased biennial time resolution helps to quantitatively attribute lake area changes to climatic and hydrological drivers, such as precipitation and temperature changes.For predicting lake area changes, we used a Long Short-Term Memory (LSTM) neural network and an extended time series dataset for preliminary modeling. Under climate and land use scenarios, our model achieved an RMSE of 0.317 km^2 in predicting future lake area changes.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# 時空間不均質をナビゲートするグラフ変換器による交通予測

Navigating Spatio-Temporal Heterogeneity: A Graph Transformer Approach for Traffic Forecasting ( http://arxiv.org/abs/2408.10822v1 )

ライセンス: Link先を確認
Jianxiang Zhou, Erdong Liu, Wei Chen, Siru Zhong, Yuxuan Liang, (参考訳) 交通予測はスマートシティの発展において重要な研究分野として浮上している。 複雑なアーキテクチャを持つさまざまなニューラルネットワークがこの問題を解決するために開発されたが、それでも2つの大きな課題に直面している。 一 時空間相関をモデル化するためのネットワーク設計の最近の進歩は、性能向上のリターンが低下し始めています。 ii) さらに, 交通データに固有の時空間的不均一性を考慮しないモデルが多く, 交通分布は地域によって大きく異なり, 交通フローパターンは時間帯によって変動する。 これらの課題に対処するために、時空間相関学習のためのトラフィックデータ固有の属性情報と構造情報を効果的に統合する時空間グラフ変換器(STGormer)と、時空間軸と時空間軸に沿った不均一性を取得するための試験モジュールを導入する。 具体的には、グラフ構造に基づく2つの単純かつ効果的な空間符号化法を設計し、時空間トラフィックパターンをキャプチャするためにバニラ変換器に時間位置符号化を統合する。 さらに、エキスパートの混合強化フィードフォワードニューラルネットワーク(FNN)モジュールは、時空間ゲーティングネットワークを介して、適切な専門家層を異なるパターンに適応的に割り当て、全体的な予測精度を向上する。 5つの実世界のデータセットの実験は、STGormerが最先端のパフォーマンスを達成することを示す。

Traffic forecasting has emerged as a crucial research area in the development of smart cities. Although various neural networks with intricate architectures have been developed to address this problem, they still face two key challenges: i) Recent advancements in network designs for modeling spatio-temporal correlations are starting to see diminishing returns in performance enhancements. ii) Additionally, most models do not account for the spatio-temporal heterogeneity inherent in traffic data, i.e., traffic distribution varies significantly across different regions and traffic flow patterns fluctuate across various time slots. To tackle these challenges, we introduce the Spatio-Temporal Graph Transformer (STGormer), which effectively integrates attribute and structure information inherent in traffic data for learning spatio-temporal correlations, and a mixture-of-experts module for capturing heterogeneity along spaital and temporal axes. Specifically, we design two straightforward yet effective spatial encoding methods based on the graph structure and integrate time position encoding into the vanilla transformer to capture spatio-temporal traffic patterns. Additionally, a mixture-of-experts enhanced feedforward neural network (FNN) module adaptively assigns suitable expert layers to distinct patterns via a spatio-temporal gating network, further improving overall prediction accuracy. Experiments on five real-world datasets demonstrate that STGormer achieves state-of-the-art performance.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# 信頼できる圧縮 : 法執行のためのバイオメトリックスに対するAIベースのコーデックの影響

Trustworthy Compression? Impact of AI-based Codecs on Biometrics for Law Enforcement ( http://arxiv.org/abs/2408.10823v1 )

ライセンス: Link先を確認
Sandra Bergmann, Denise Moussa, Christian Riess, (参考訳) 画像ベースのバイオメトリックスは、虹彩、指紋、ソフトバイオメトリック認識など、様々な面で法執行を助けることができる。 認識のための重要な前提条件は、画像に十分な生体情報が得られることである。 強いJPEG圧縮がそのような詳細を取り除くことは、視覚的に明らかである。 しかし、最新のAIベースの画像圧縮は、非常に強い圧縮要因であっても、多くの画像の詳細を保存しているように見える。 しかし、これらの認識された詳細は必ずしも測定に基礎を置いていないため、これらの画像が生体認証に使用できるかどうかという疑問が提起される。 本研究では,AI圧縮が虹彩,指紋,ソフトバイオメトリックス(ファブリック,タトゥー)画像に与える影響について検討する。 また,AI圧縮後の虹彩画像と指紋画像の認識性能についても検討した。 虹彩認識は強い影響を受けうるが、指紋認識は非常に堅牢である。 ディテールの喪失は、布地やタトゥー画像によく見られる。 全体として、AI圧縮は依然として多くのバイオメトリックなタスクを許容するが、センシティブなタスクにおける強い圧縮要因への注意は推奨できる。

Image-based biometrics can aid law enforcement in various aspects, for example in iris, fingerprint and soft-biometric recognition. A critical precondition for recognition is the availability of sufficient biometric information in images. It is visually apparent that strong JPEG compression removes such details. However, latest AI-based image compression seemingly preserves many image details even for very strong compression factors. Yet, these perceived details are not necessarily grounded in measurements, which raises the question whether these images can still be used for biometric recognition. In this work, we investigate how AI compression impacts iris, fingerprint and soft-biometric (fabrics and tattoo) images. We also investigate the recognition performance for iris and fingerprint images after AI compression. It turns out that iris recognition can be strongly affected, while fingerprint recognition is quite robust. The loss of detail is qualitatively best seen in fabrics and tattoos images. Overall, our results show that AI-compression still permits many biometric tasks, but attention to strong compression factors in sensitive tasks is advisable.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# CO2Wounds-V2: ハンセン病患者からの慢性結節延長データセット

CO2Wounds-V2: Extended Chronic Wounds Dataset From Leprosy Patients ( http://arxiv.org/abs/2408.10827v1 )

ライセンス: Link先を確認
Karen Sanchez, Carlos Hinojosa, Olinto Mieles, Chen Zhao, Bernard Ghanem, Henry Arguello, (参考訳) 慢性的な傷は、主に糖尿病やハンセン病などの疾患が流行しているため、世界中で進行中の健康上の懸念を引き起こしている。 これらの傷をモニターする標準的な方法は、医療専門家による視覚検査である。 これにより、傷口画像の分析と追跡のために設計されたアルゴリズムが開発され、分類、検出、セグメンテーションなどの画像処理タスクが実行された。 しかし、これらのアルゴリズムの有効性は、一般的に少ない包括的および多様な創傷画像データの可用性に大きく依存している。 本稿では,レプロシー患者からのRGB創傷画像に対応するセグメンテーションアノテーションを付加したCO2Wounds-V2データセットを提案する。

Chronic wounds pose an ongoing health concern globally, largely due to the prevalence of conditions such as diabetes and leprosy's disease. The standard method of monitoring these wounds involves visual inspection by healthcare professionals, a practice that could present challenges for patients in remote areas with inadequate transportation and healthcare infrastructure. This has led to the development of algorithms designed for the analysis and follow-up of wound images, which perform image-processing tasks such as classification, detection, and segmentation. However, the effectiveness of these algorithms heavily depends on the availability of comprehensive and varied wound image data, which is usually scarce. This paper introduces the CO2Wounds-V2 dataset, an extended collection of RGB wound images from leprosy patients with their corresponding semantic segmentation annotations, aiming to enhance the development and testing of image-processing algorithms in the medical field.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# ZebraPose: 合成データのみを用いたゼブラ検出と詩推定

ZebraPose: Zebra Detection and Pose Estimation using only Synthetic Data ( http://arxiv.org/abs/2408.10831v1 )

ライセンス: Link先を確認
Elia Bonetto, Aamir Ahmad, (参考訳) 合成データは、ディープラーニングタスクのための一般的でない領域におけるラベル付きイメージの欠如に対処するために、ますます使われてきている。 顕著な例は、動物、特にシマウマのような野生種の2Dポーズ推定であり、現実世界のデータ収集は複雑で実用的ではない。 しかし、多くのアプローチは、実際のイメージ、一貫性とスタイルの制約、洗練された動物モデル、および/または、シン・トゥ・リアルのギャップを埋めるために、強力な事前訓練ネットワークを必要とする。 さらに、野生生物のシナリオや空中画像のように、しばしば保持されない仮説である画像やビデオで、動物を確実に検出できると仮定することが多い。 この問題を解決するために、3Dフォトリアリスティックシミュレータで生成された合成データを用いて、前述のブリッジング戦略を適用することなく、ゼブラの検出と2Dポーズ推定の両方に使用できる最初の合成データセットを得る。 従来の研究とは異なり、事前学習と未学習のバックボーンを用いて、複数の実世界および合成データセット上で検出と2次元ポーズ推定モデルを広範囲にトレーニングし、ベンチマークする。 これらの実験は、スクラッチからトレーニングされたモデルと合成データのみで、両方のタスクでゼブラの実際の画像に一貫して一般化できることを示す。 さらに、これらのモデルを簡単に一般化して、ドメイン転送を考慮に入れた最小の実世界の画像で2次元の馬のポーズ推定を行うことが可能であることを示す。 コード、結果、訓練されたモデル、および104Kのラベル付きフレームを含む合成、トレーニング、検証データはhttps://zebrapose.is.tue.mpg.de/でオープンソースとして提供されている。

Synthetic data is increasingly being used to address the lack of labeled images in uncommon domains for deep learning tasks. A prominent example is 2D pose estimation of animals, particularly wild species like zebras, for which collecting real-world data is complex and impractical. However, many approaches still require real images, consistency and style constraints, sophisticated animal models, and/or powerful pre-trained networks to bridge the syn-to-real gap. Moreover, they often assume that the animal can be reliably detected in images or videos, a hypothesis that often does not hold, e.g. in wildlife scenarios or aerial images. To solve this, we use synthetic data generated with a 3D photorealistic simulator to obtain the first synthetic dataset that can be used for both detection and 2D pose estimation of zebras without applying any of the aforementioned bridging strategies. Unlike previous works, we extensively train and benchmark our detection and 2D pose estimation models on multiple real-world and synthetic datasets using both pre-trained and non-pre-trained backbones. These experiments show how the models trained from scratch and only with synthetic data can consistently generalize to real-world images of zebras in both tasks. Moreover, we show it is possible to easily generalize those same models to 2D pose estimation of horses with a minimal amount of real-world images to account for the domain transfer. Code, results, trained models; and the synthetic, training, and validation data, including 104K manually labeled frames, are provided as open-source at https://zebrapose.is.tue.mpg.de/
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# 適応有限要素に基づくパラメトリックPDEのためのマルチレベルCNN

Multilevel CNNs for Parametric PDEs based on Adaptive Finite Elements ( http://arxiv.org/abs/2408.10838v1 )

ライセンス: Link先を確認
Janina Enrica Schütte, Martin Eigel, (参考訳) ニューラルネットワークアーキテクチャは,高次元パラメータ依存偏微分方程式の多値性を利用して,パラメータ対解写像の効率的な近似を可能にする。 ニューラルネットワークは適応的に洗練された有限要素メッシュのデータで訓練されるため、データの複雑さは大幅に減少する。 ニューラルネットワークへの入力としても提供される、信頼性のある有限要素の後部誤差推定器を使用することで、エラー制御を実現する。 CNN層を用いたU-Netアーキテクチャは、古典的有限要素乗算アルゴリズムを模倣する。 CNNは、残差に基づく誤差推定器の評価を含む、解決者に必要な全ての操作を効率的に近似することを示すことができる。 CNNでは、メッシュレベルでの洗練による局所的な修正によるカリングマスクのセットアップにより、全体的な複雑さが低減され、局所化された微細な有限要素データによるネットワーク最適化が可能となる。 適応型マルチレベルスキームの完全収束と複雑性解析は,従来の非適応型マルチレベルCNNといくつかの点で異なる。 さらに、不確実性定量化による一般的なベンチマーク問題による数値実験は、アーキテクチャの実用的な性能を示している。

A neural network architecture is presented that exploits the multilevel properties of high-dimensional parameter-dependent partial differential equations, enabling an efficient approximation of parameter-to-solution maps, rivaling best-in-class methods such as low-rank tensor regression in terms of accuracy and complexity. The neural network is trained with data on adaptively refined finite element meshes, thus reducing data complexity significantly. Error control is achieved by using a reliable finite element a posteriori error estimator, which is also provided as input to the neural network. The proposed U-Net architecture with CNN layers mimics a classical finite element multigrid algorithm. It can be shown that the CNN efficiently approximates all operations required by the solver, including the evaluation of the residual-based error estimator. In the CNN, a culling mask set-up according to the local corrections due to refinement on each mesh level reduces the overall complexity, allowing the network optimization with localized fine-scale finite element data. A complete convergence and complexity analysis is carried out for the adaptive multilevel scheme, which differs in several aspects from previous non-adaptive multilevel CNN. Moreover, numerical experiments with common benchmark problems from Uncertainty Quantification illustrate the practical performance of the architecture.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# 数学推論タスクのための大規模言語モデルのベンチマーク

Benchmarking Large Language Models for Math Reasoning Tasks ( http://arxiv.org/abs/2408.10839v1 )

ライセンス: Link先を確認
Kathrin Seßler, Yao Rong, Emek Gözlüklü, Enkelejda Kasneci, (参考訳) 数学的推論におけるLarge Language Models (LLMs) の使用は、これらのモデルの知性を実証し、教育的設定などの高度なパフォーマンスを通じて潜在的に実用的な応用を可能にする、関連する研究の基盤となっている。 数学的な問題解決を自動化するLLMの能力を改善するために設計された、さまざまなデータセットとコンテキスト内学習アルゴリズムにもかかわらず、異なるデータセットにわたる包括的なベンチマークの欠如は、特定のタスクに適切なモデルを選択するのを複雑にしている。 本稿では,4つの強力な基礎モデル上で広く用いられている5つの数学的データセットの数学的問題の解法として,最先端の文脈内学習アルゴリズム7つを比較したベンチマークを提案する。 さらに、効率と性能のトレードオフについて検討し、数学的推論におけるLLMの実践的応用を強調した。 以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基礎モデルでは, 具体的なプロンプト戦略とは無関係に数学的推論を解くことができる一方で, より小さなモデルでは, 文脈内学習アプローチが性能に大きく影響することが示唆された。 さらに、最適なプロンプトは、選択された基礎モデルに依存する。 将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。

The use of Large Language Models (LLMs) in mathematical reasoning has become a cornerstone of related research, demonstrating the intelligence of these models and enabling potential practical applications through their advanced performance, such as in educational settings. Despite the variety of datasets and in-context learning algorithms designed to improve the ability of LLMs to automate mathematical problem solving, the lack of comprehensive benchmarking across different datasets makes it complicated to select an appropriate model for specific tasks. In this project, we present a benchmark that fairly compares seven state-of-the-art in-context learning algorithms for mathematical problem solving across five widely used mathematical datasets on four powerful foundation models. Furthermore, we explore the trade-off between efficiency and performance, highlighting the practical applications of LLMs for mathematical reasoning. Our results indicate that larger foundation models like GPT-4o and LLaMA 3-70B can solve mathematical reasoning independently from the concrete prompting strategy, while for smaller models the in-context learning approach significantly influences the performance. Moreover, the optimal prompt depends on the chosen foundation model. We open-source our benchmark code to support the integration of additional models in future research.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# 非マルコフレジームにおける超高密度符号化能力

Optimal Superdense Coding Capacity in the Non-Markovian Regime ( http://arxiv.org/abs/2408.10842v1 )

ライセンス: Link先を確認
Y. Aiache, S. Al-Kuwari, K. El Anouz, A. El Allati, (参考訳) 超高密度符号化は量子情報処理において広く用いられる重要な技術である。 実際、それは単一の量子ビットを使って2ビットの古典的な情報を送信し、より速くより効率的な量子通信をもたらす。 本稿では,非マルコフ力学を用いて,超高次符号化プロトコルにおけるバックフロー情報の効果を評価するモデルを提案する。 このモデルは、構造化マルコフ環境と相互作用する量子ビットを考える。 非マルコフ力学を生成するために、補助量子ビットは非マルコフ状態が誘導されるような方法でマルコフ貯水池に接触する。 中心量子ビットと補助量子ビットの結合強度を変化させることで、2つの動的状態は交換可能となる。 非マルコフ効果の増強は、この結合強度の増加に対応する。 さらに,超高密度符号化,量子フィッシャー情報,局所量子不確実性の挙動を正確に計算するために,温度重み,デコヒーレンスパラメータなどのパラメータについて検討する。 得られた結果は、古典的でない相関関係と量子フィッシャー情報との有意な関係を示す。 さらに,非古典的相関が存在することにより,非マルコフ系における最適超高次符号化能力の検出が可能となる。

Superdense coding is a significant technique widely used in quantum information processing. Indeed, it consists of sending two bits of classical information using a single qubit, leading to faster and more efficient quantum communication. In this paper, we propose a model to evaluate the effect of backflow information in a superdense coding protocol through a non-Markovian dynamics. The model considers a qubit interacting with a structured Markovian environment. In order to generate a non-Markovian dynamic, an auxiliary qubit contacts a Markovian reservoir in such a way that the non-Markovian regime can be induced. By varying the coupling strength between the central qubit and the auxiliary qubit, the two dynamical regimes can be switched interchangeably. An enhancement in non-Markovian effects corresponds to an increase in this coupling strength. Furthermore, we conduct an examination of various parameters, namely temperature weight, and decoherence parameters in order to explore the behaviors of superdense coding, quantum Fisher information, and local quantum uncertainty using an exact calculation. The obtained results show a significant relationship between non-classical correlations and quantum Fisher information since they behave similarly, allowing them to detect what is beyond entanglement. In addition, the presence of non-classical correlations enables us to detect the optimal superdense coding capacity in a non-Markovian regime.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# 人選好による物体検出器境界ボックスの調整

Aligning Object Detector Bounding Boxes with Human Preference ( http://arxiv.org/abs/2408.10844v1 )

ライセンス: Link先を確認
Ombretta Strafforello, Osman S. Kayhan, Oana Inel, Klamer Schutte, Jan van Gemert, (参考訳) 以前の研究では、人間は同じIoUを持つ小さな境界ボックスよりも大きな境界ボックスを好む傾向が示されていた。 しかし、ここでは、一般的に使われている物体検出器が、大小の箱を等しく予測していることが示されている。 本研究では,自動検出対象箱を人間の嗜好と整合させる方法について検討し,それが人間の品質知覚に及ぼす影響について検討する。 我々は,3つの一般的な物体検出器の性能をユーザスタディ(N = 123)により評価した。 人間は、対応するAPが0に近くても、1.5または2の因子でスケールアップされた物体検出を好む。 この結果により、予測される小さな有界箱よりも大きい非対称な有界箱回帰損失を提案する。 評価の結果,非対称な損失で微調整された物体検出器は,人間の嗜好に適合し,一定のスケーリング因子よりも好まれることがわかった。 定性的評価は、人間の嗜好が物体の形状のようないくつかの物体の特徴に影響される可能性があることを示している。

Previous work shows that humans tend to prefer large bounding boxes over small bounding boxes with the same IoU. However, we show here that commonly used object detectors predict large and small boxes equally often. In this work, we investigate how to align automatically detected object boxes with human preference and study whether this improves human quality perception. We evaluate the performance of three commonly used object detectors through a user study (N = 123). We find that humans prefer object detections that are upscaled with factors of 1.5 or 2, even if the corresponding AP is close to 0. Motivated by this result, we propose an asymmetric bounding box regression loss that encourages large over small predicted bounding boxes. Our evaluation study shows that object detectors fine-tuned with the asymmetric loss are better aligned with human preference and are preferred over fixed scaling factors. A qualitative evaluation shows that human preference might be influenced by some object characteristics, like object shape.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-20
# テキスト・画像モデルに対する知覚誘導型ジェイルブレイク

Perception-guided Jailbreak against Text-to-Image Models ( http://arxiv.org/abs/2408.10848v1 )

ライセンス: Link先を確認
Yihao Huang, Le Liang, Tianlin Li, Xiaojun Jia, Run Wang, Weikai Miao, Geguang Pu, Yang Liu, (参考訳) 近年,テキスト・ツー・イメージ(T2I)モデルが注目されている。 しかし、セキュリティ上の懸念は、不適切な、あるいは安全でない(Not-Safe-For-Work)イメージを生成する可能性があるため現れている。 本稿では、異なる意味を持つテキストが人間の知覚に類似する可能性があるという観察に着想を得て、LPM駆動型知覚誘導ジェイルブレイク法(PGJ)を提案する。 これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。 具体的には、人間の知覚に類似しているが、テキストのセマンティクスとターゲットの安全でない単語のセマンティクスでは矛盾する安全なフレーズを識別し、置換語として用いることを提案する。 6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。

In recent years, Text-to-Image (T2I) models have garnered significant attention due to their remarkable advancements. However, security concerns have emerged due to their potential to generate inappropriate or Not-Safe-For-Work (NSFW) images. In this paper, inspired by the observation that texts with different semantics can lead to similar human perceptions, we propose an LLM-driven perception-guided jailbreak method, termed PGJ. It is a black-box jailbreak method that requires no specific T2I model (model-free) and generates highly natural attack prompts. Specifically, we propose identifying a safe phrase that is similar in human perception yet inconsistent in text semantics with the target unsafe word and using it as a substitution. The experiments conducted on six open-source models and commercial online services with thousands of prompts have verified the effectiveness of PGJ.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# 現在のディープフェイク音声検出モデルはALMに基づくディープフェイク音声を効果的に検出するか?

Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio? ( http://arxiv.org/abs/2408.10853v1 )

ライセンス: Link先を確認
Yuankun Xie, Chenxu Xiong, Xiaopeng Wang, Zhiyong Wang, Yi Lu, Xin Qi, Ruibo Fu, Yukun Liu, Zhengqi Wen, Jianhua Tao, Guanjun Li, Long Ye, (参考訳) 現在、大規模言語モデルとオーディオニューラルコーデックの発展により、ALM(Audio Language Models)は急速に進歩している。 これらのALMは、ディープフェイクオーディオを作成するための障壁を大幅に減らし、非常に現実的で多様なディープフェイクオーディオを生成し、社会に深刻な脅威をもたらしている。 その結果、ALMに基づく音声を検出するための効果的なオーディオディープフェイク検出技術がますます重要になっている。 本稿では,ALM音声に対する電流対策(CM)の有効性について検討する。 具体的には,最新のALMベースのディープフェイク音声を12種類収集し,最新のCMを用いて評価する。 以上の結果から,最新のコーデック学習CMはALMベースの音声を効果的に検出でき,ALMテスト条件のほとんどで0%の誤差率を達成できた。 これはALMに基づくディープフェイク音声検出における将来的な研究の方向性を示す。

Currently, Audio Language Models (ALMs) are rapidly advancing due to the developments in large language models and audio neural codecs. These ALMs have significantly lowered the barrier to creating deepfake audio, generating highly realistic and diverse types of deepfake audio, which pose severe threats to society. Consequently, effective audio deepfake detection technologies to detect ALM-based audio have become increasingly critical. This paper investigate the effectiveness of current countermeasure (CM) against ALM-based audio. Specifically, we collect 12 types of the latest ALM-based deepfake audio and utilizing the latest CMs to evaluate. Our findings reveal that the latest codec-trained CM can effectively detect ALM-based audio, achieving 0% equal error rate under most ALM test conditions, which exceeded our expectations. This indicates promising directions for future research in ALM-based deepfake audio detection.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# MambaDS: 地形制約付き選択状態空間モデリングによる表面近傍の気象場ダウンスケーリング

MambaDS: Near-Surface Meteorological Field Downscaling with Topography Constrained Selective State Space Modeling ( http://arxiv.org/abs/2408.10854v1 )

ライセンス: Link先を確認
Zili Liu, Hao Chen, Lei Bai, Wenyuan Li, Wanli Ouyang, Zhengxia Zou, Zhenwei Shi, (参考訳) 極端な気象と温暖化が頻発する時代には、精密できめ細かい地表の天気予報が人間の活動にとってますます不可欠になっている。 気象予測において重要な課題であるダウンスケーリング(DS)は,地球規模の予測結果から,対象地域を対象とした高解像度気象状態の再構築を可能にする。 以前のダウンスケーリング手法はCNNやトランスフォーマーをベースとした超解像モデルにインスパイアされ、気象学のための調整された設計を欠いていた。 特に、ダウンスケーリングプロセスにおいて重要な前兆であるトポグラフィーを効率的に統合できなかった。 本稿では,選択状態空間モデルを気象場ダウンスケーリングに先駆けて,これらの制約に対処し,MambaDSと呼ばれる新しいモデルを提案する。 このモデルは、多変量相関と地形情報の利用、ダウンスケールプロセスにおけるユニークな課題、そして長距離依存モデリングと線形計算複雑性におけるMambaの利点を保ちながら強化する。 中国本土と大陸アメリカ(CONUS)の両方で広範な実験を行い、提案したマンバDSが3種類の気象フィールドダウンスケーリング設定で最先端の結果を得ることを確認した。 その後、コードを公開します。

In an era of frequent extreme weather and global warming, obtaining precise, fine-grained near-surface weather forecasts is increasingly essential for human activities. Downscaling (DS), a crucial task in meteorological forecasting, enables the reconstruction of high-resolution meteorological states for target regions from global-scale forecast results. Previous downscaling methods, inspired by CNN and Transformer-based super-resolution models, lacked tailored designs for meteorology and encountered structural limitations. Notably, they failed to efficiently integrate topography, a crucial prior in the downscaling process. In this paper, we address these limitations by pioneering the selective state space model into the meteorological field downscaling and propose a novel model called MambaDS. This model enhances the utilization of multivariable correlations and topography information, unique challenges in the downscaling process while retaining the advantages of Mamba in long-range dependency modeling and linear computational complexity. Through extensive experiments in both China mainland and the continental United States (CONUS), we validated that our proposed MambaDS achieves state-of-the-art results in three different types of meteorological field downscaling settings. We will release the code subsequently.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# マルチタスク強化学習のための集中リワードエージェントによる知識共有と伝達

Knowledge Sharing and Transfer via Centralized Reward Agent for Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2408.10858v1 )

ライセンス: Link先を確認
Haozhe Ma, Zhengding Luo, Thanh Vinh Vo, Kuankuan Sima, Tze-Yun Leong, (参考訳) 補助的な報奨を通じて即時フィードバックを提供することにより、強化学習におけるスパース・リワードの課題に対処するためには、逆整形が有効である。 本稿では、報酬形成戦略に基づいて、集中型報酬エージェント(CRA)と複数の分散ポリシーエージェントを統合した、新しいマルチタスク強化学習フレームワークを提案する。 CRAは知識プールとして機能し、様々なタスクから知識を抽出し、学習効率を向上させるために個別の政策エージェントに配布することを目的としている。 特に、形状の報酬は知識を符号化するための単純な指標として機能する。 このフレームワークは、確立されたタスク間の知識共有を強化するだけでなく、価値ある報酬信号の転送によって新しいタスクに適応する。 提案手法を離散領域と連続領域の両方で検証し,マルチタスク・スパース・リワード設定におけるロバスト性を実証し,未確認タスクに対する効果的な転送性を示す。

Reward shaping is effective in addressing the sparse-reward challenge in reinforcement learning by providing immediate feedback through auxiliary informative rewards. Based on the reward shaping strategy, we propose a novel multi-task reinforcement learning framework, that integrates a centralized reward agent (CRA) and multiple distributed policy agents. The CRA functions as a knowledge pool, which aims to distill knowledge from various tasks and distribute it to individual policy agents to improve learning efficiency. Specifically, the shaped rewards serve as a straightforward metric to encode knowledge. This framework not only enhances knowledge sharing across established tasks but also adapts to new tasks by transferring valuable reward signals. We validate the proposed method on both discrete and continuous domains, demonstrating its robustness in multi-task sparse-reward settings and its effective transferability to unseen tasks.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# N$次元球面上のPöschl-Tellerアンハーモニック振動子の類似

An analogue of the Pöschl-Teller anharmonic oscillator on an $N$-dimensional sphere ( http://arxiv.org/abs/2408.10860v1 )

ライセンス: Link先を確認
Radosław Szmytkowski, (参考訳) 半径$R$のN$次元(N\geqslant2$)超球面上の「オーディンガー粒子」を考える。 粒子はポテンシャル$V(\theta)=2m\omega_{1}^{2}R^{2}\tan^{2}(\theta/2)+2m\omega_{2}^{2}R^{2}\cot^{2}(\theta/2)$で特徴づけられる力の作用を受け、$0\leqslant\theta\leqslant\pi$は超緯度角座標である。 一般の場合、$\omega_{1}\neq\omega_{2}$ は P\"oschl-Teller アンハーモニック振動子の超球面類似のモデルである。 この系に対するエネルギー固有値と正規化固有関数は、閉解析形式に見られる。 N=2$の場合、Kazaryan et al [Physica E 52 (2013) 122] で得られた結果を再現する。 任意の$N\geqslant2と$\omega_{2}=0$の場合、等方超球面調和振動子のモデルに対するMardoyanとPetrosyan [J. Contemp. Phys. 48 (2013) 70]の結果が復元される。 問題となる非調和振動子のユークリッド極限についても論じる。

A Schr\"odinger particle on an $N$-dimensional ($N\geqslant2$) hypersphere of radius $R$ is considered. The particle is subjected to the action of a force characterized by the potential $V(\theta)=2m\omega_{1}^{2}R^{2}\tan^{2}(\theta/2)+2m\omega_{2}^{2}R^{2}\cot^{2}(\theta/2)$, where $0\leqslant\theta\leqslant\pi$ is the hyperlatitude angular coordinate. In the general case when $\omega_{1}\neq\omega_{2}$, this is a model of a hyperspherical analogue of the P\"oschl-Teller anharmonic oscillator. Energy eigenvalues and normalized eigenfunctions for this system are found in closed analytical forms. For $N=2$, our results reproduce those obtained by Kazaryan et al. [Physica E 52 (2013) 122]. For $N\geqslant2$ arbitrary and for $\omega_{2}=0$, the results of Mardoyan and Petrosyan [J. Contemp. Phys. 48 (2013) 70] for their model of an isotropic hyperspherical harmonic oscillator are recovered. The Euclidean limit for the anharmonic oscillator in question is also discussed.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# 個人差分相関による特徴選択

Feature Selection from Differentially Private Correlations ( http://arxiv.org/abs/2408.10862v1 )

ライセンス: Link先を確認
Ryan Swope, Amol Khanna, Philip Doldo, Saptarshi Roy, Edward Raff, (参考訳) データサイエンティストは、しばしば高次元データセットで最も重要な特徴を特定しようとする。 これは$L_1$-regularized regressionによって実現できるが、非常に高次元のデータセットでは非効率になる可能性がある。 さらに、高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。 本稿では,2段階選択法である差分プライバシによる特徴選択のための確立された基本手法を実証的に評価し,空間的に安定していないことを示す。 これにより、実際のデータセットではパフォーマンスが低下するので、プライベートな機能選択に対する別のアプローチを検討します。 相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化し、結果が個々のデータポイントに関する情報を漏らさないようにする。 提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。

Data scientists often seek to identify the most important features in high-dimensional datasets. This can be done through $L_1$-regularized regression, but this can become inefficient for very high-dimensional datasets. Additionally, high-dimensional regression can leak information about individual datapoints in a dataset. In this paper, we empirically evaluate the established baseline method for feature selection with differential privacy, the two-stage selection technique, and show that it is not stable under sparsity. This makes it perform poorly on real-world datasets, so we consider a different approach to private feature selection. We employ a correlations-based order statistic to choose important features from a dataset and privatize them to ensure that the results do not leak information about individual datapoints. We find that our method significantly outperforms the established baseline for private feature selection on many datasets.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# 確率的シャーパブルアーム能力を有するマルチエージェントマルチアームバンド

Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities ( http://arxiv.org/abs/2408.10865v1 )

ライセンス: Link先を確認
Hong Xie, Jinyu Mo, Defu Lian, Jie Wang, Enhong Chen, (参考訳) 分散選択問題により、各アームへの要求の確率的到着を捉えるマルチプレイヤーマルチアーム・バンディット(MAB)モデルと、プレイヤーに要求を割り当てるポリシーを新たに策定する。 課題は、プレイヤーが互いに通信することなく最適な腕引きプロファイル(腕引きプロファイルが各腕の選手数を規定している)に従って腕を選択できるように分散学習アルゴリズムを設計する方法である。 まず、最適アームの引き抜きプロファイルの1つを多項式計算の複雑度で決定するグリーディアルゴリズムを設計する。 また,プレイヤーが期待するラウンド数で最適なアーム引っ張りプロファイルにコミットするための反復分散アルゴリズムを設計する。 モデルパラメータが不明な場合にオンライン設定に対処するために、Explore then commit(ETC)フレームワークを適用します。 最適な腕引きプロファイルを推定するための探索戦略を設計する。 このような見積もりはプレイヤーによって異なるため、プレイヤーがコミットするのは困難である。 次に,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。 我々はアルゴリズムを検証するために実験を行う。

Motivated by distributed selection problems, we formulate a new variant of multi-player multi-armed bandit (MAB) model, which captures stochastic arrival of requests to each arm, as well as the policy of allocating requests to players. The challenge is how to design a distributed learning algorithm such that players select arms according to the optimal arm pulling profile (an arm pulling profile prescribes the number of players at each arm) without communicating to each other. We first design a greedy algorithm, which locates one of the optimal arm pulling profiles with a polynomial computational complexity. We also design an iterative distributed algorithm for players to commit to an optimal arm pulling profile with a constant number of rounds in expectation. We apply the explore then commit (ETC) framework to address the online setting when model parameters are unknown. We design an exploration strategy for players to estimate the optimal arm pulling profile. Since such estimates can be different across different players, it is challenging for players to commit. We then design an iterative distributed algorithm, which guarantees that players can arrive at a consensus on the optimal arm pulling profile in only M rounds. We conduct experiments to validate our algorithm.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# 散逸性単一スピンソーダにおける量子相転移への半ランダウ・ツェナーランプ

Half Landau-Zener ramp to a quantum phase transition in a dissipative single spin sodel ( http://arxiv.org/abs/2408.10869v1 )

ライセンス: Link先を確認
Sei Suzuki, (参考訳) バイアス場の傾斜によって駆動されるゼロ温度で, ボゾン浴に結合した単一スピンのダイナミクスについて検討した。 ボゾンサブオーミック浴に結合した単一スピンは、スピン-ボソン結合の一定の強さで量子相転移を示す。 この臨界結合強度でバイアス場が大きな値からゼロに上昇すると、基底状態で初期化されたシステムは、遷移付近の臨界減速により有限磁化となる。 パルス印加近似に基づいて、残留磁化とランプ速度のスケーリング則を導出する。 テンソルネットワークに基づく数値シミュレーションを用いて,得られたスケーリング関係について検討した。 データは、保持すべきスケーリング法に賛成です。 量子アニールを用いた量子シミュレーションによる理論結果の実証について論じる。

We study the dynamics of a single spin coupled to a bosonic bath at zero temperature driven by a ramp of the bias field. A single spin coupled to a bosonic sub-Ohmic bath exhibits a quantum phase transition at a certain strength of spin-boson coupling. When the bias field is ramped from a large value to zero at this critical coupling strength, the system initialized at the ground state ends up with a finite magnetization due to the critical slowing down near the transition. On the basis of the pulse-impulse approximation, we derive a scaling law between the residual magnetization and the ramp speed. The obtained scaling relation is examined using a numerical simulation based on the tensor network. The data are in favor of the scaling law to hold. We discuss the demonstration of our theoretical results by means of quantum simulation using the quantum annealer.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# 電波U-Net:銀河団等における拡散電波源を検出する畳み込みニューラルネットワーク

Radio U-Net: a convolutional neural network to detect diffuse radio sources in galaxy clusters and beyond ( http://arxiv.org/abs/2408.10871v1 )

ライセンス: Link先を確認
Chiara Stuardi, Claudio Gheller, Franco Vazza, Andrea Botteon, (参考訳) 次世代の電波望遠鏡アレイは感度と分解能の大幅な進歩を約束し、多くの新しい暗く拡散した電波源の識別と特徴付けを可能にしている。 従来の手動カタログ作成手法は,新しい無線測量の能力を利用するには不十分であると期待されている。 拡散音源の電波干渉画像は、ノイズ、アーティファクト、埋め込み電波源による画像分割の課題を示す。 これらの課題に対応するために、U-Netアーキテクチャに基づいた完全な畳み込みニューラルネットワークであるRadio U-Netを紹介する。 無線U-Netは、無線ハロ、遺物、宇宙のウェブフィラメントなどの電波調査において、暗く拡張されたソースを検出するように設計されている。 電波U-Netは、宇宙学的なシミュレーションに基づいて合成電波観測を訓練し、銀河団のサンプルでテストし、そこでは、クラスター拡散電波源の検出は、LOFAR Two Metre Sky Survey (LOTSS)データのカスタマイズされたデータ削減と視覚検査に頼っていた。 拡散電波放射を示すクラスターの83%を精度良く同定し,低画質画像においてもその源の形態を復元することができた。 246個の銀河団からなる試験試料において, 拡散放射を伴わないクラスターの識別において, 73%の精度を達成した。 この結果から,無線U-Netの無線サーベイデータセットへの適用性が確立され,最先端の高性能コンピューティングシステムにおける効率性が検証された。 このアプローチは、科学探査のための大型ラジオサーベイの活用を最適化する進歩を表している。

The forthcoming generation of radio telescope arrays promises significant advancements in sensitivity and resolution, enabling the identification and characterization of many new faint and diffuse radio sources. Conventional manual cataloging methodologies are anticipated to be insufficient to exploit the capabilities of new radio surveys. Radio interferometric images of diffuse sources present a challenge for image segmentation tasks due to noise, artifacts, and embedded radio sources. In response to these challenges, we introduce Radio U-Net, a fully convolutional neural network based on the U-Net architecture. Radio U-Net is designed to detect faint and extended sources in radio surveys, such as radio halos, relics, and cosmic web filaments. Radio U-Net was trained on synthetic radio observations built upon cosmological simulations and then tested on a sample of galaxy clusters, where the detection of cluster diffuse radio sources relied on customized data reduction and visual inspection of LOFAR Two Metre Sky Survey (LoTSS) data. The 83% of clusters exhibiting diffuse radio emission were accurately identified, and the segmentation successfully recovered the morphology of the sources even in low-quality images. In a test sample comprising 246 galaxy clusters, we achieved a 73% accuracy rate in distinguishing between clusters with and without diffuse radio emission. Our results establish the applicability of Radio U-Net to extensive radio survey datasets, probing its efficiency on cutting-edge high-performance computing systems. This approach represents an advancement in optimizing the exploitation of forthcoming large radio surveys for scientific exploration.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# V-RoAst: ビジュアルロードアセスメントのための新しいデータセット

V-RoAst: A New Dataset for Visual Road Assessment ( http://arxiv.org/abs/2408.10872v1 )

ライセンス: Link先を確認
Natchapon Jongwiriyanurak, Zichao Zeng, June Moh Goo, Xinglei Wang, Ilya Ilyankou, Kerkritt Srirrongvikrai, Meihui Wang, James Haworth, (参考訳) 道路交通事故は毎年何百万人もの死者を出し、特に低所得国や中所得国(LMIC)では経済的に重大な影響を及ぼしている。 本稿では、従来の畳み込みニューラルネットワーク(CNN)の限界を克服し、道路安全評価に視覚言語モデル(VLM)を用いたアプローチを提案する。 我々は,実世界のデータセットを用いた新しいタスク,V-RoAst(道路評価のための視覚的質問応答)を導入する。 提案手法は,Gemini-1.5-flash や GPT-4o-mini などの先進的な VLM を最適化し,評価する。 これらのモデルは,道路評価の属性を効果的に検討する。 Mapillaryのクラウドソース画像を使って、当社のスケーラブルなソリューションは、道路安全レベルを効果的に推定します。 さらに、このアプローチは、トレーニングデータを必要としないため、リソースを欠いたローカルな利害関係者向けに設計されています。 グローバルな道路安全評価のための費用効率が高く自動化された方法を提供しており、命を救う可能性があり、経済的負担を軽減している。

Road traffic crashes cause millions of deaths annually and have a significant economic impact, particularly in low- and middle-income countries (LMICs). This paper presents an approach using Vision Language Models (VLMs) for road safety assessment, overcoming the limitations of traditional Convolutional Neural Networks (CNNs). We introduce a new task ,V-RoAst (Visual question answering for Road Assessment), with a real-world dataset. Our approach optimizes prompt engineering and evaluates advanced VLMs, including Gemini-1.5-flash and GPT-4o-mini. The models effectively examine attributes for road assessment. Using crowdsourced imagery from Mapillary, our scalable solution influentially estimates road safety levels. In addition, this approach is designed for local stakeholders who lack resources, as it does not require training data. It offers a cost-effective and automated methods for global road safety assessments, potentially saving lives and reducing economic burdens.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# 膜前断裂のさらなる選択肢 : ベイズ解析

More Options for Prelabor Rupture of Membranes, A Bayesian Analysis ( http://arxiv.org/abs/2408.10876v1 )

ライセンス: Link先を確認
Ashley Klein, Edward Raff, Elisabeth Seamon, Lily Foley, Timothy Bussert, (参考訳) 産婦人科の母親にとっての産婦人科の目標は、大腹部手術(セサレア地区)のリスクを減らすことにある。 様々な医療介入は、母体と胎児の死亡率を最小限に抑えながら、この現象が起こる可能性を高めるために医師によって用いられることがある。 しかしながら、PROM(prelabor rupture of membranes)患者は、頚椎リライニング、ピトシン、ミソプロストオールの2つの選択肢しか使用していない。 PROM患者に対するこれらの2つの主要な薬物の利益とリスクについてはほとんど研究されていない。 作業者関連研究の最も大きな制限は、患者に提供された次の誘導剤を決定するために、産科的に一般的に使用される‘textit{Bishop scores’の差を考慮できないことである。 結果に偏りが生じるが、文献では実現されていない。 本研究では,専門医が伝達する関連因子間の関係をベイズモデルを用いて解析し,その影響から相反する変数を分離する。 そこで我々は, ピトシンとブカルミソプロストロールが同等に有効かつ安全であることの強い証拠を提供する。 これは、どちらの医薬品も容易に入手できない発展途上国にとって特に重要であり、事前のガイドラインは、必要な医薬品に対する人工的な障壁を生じさせる可能性がある。

An obstetric goal for a laboring mother is to achieve a vaginal delivery as it reduces the risks inherent in major abdominal surgery (i.e., a Cesarean section). Various medical interventions may be used by a physician to increase the likelihood of this occurring while minimizing maternal and fetal morbidity. However, patients with prelabor rupture of membranes (PROM) have only two commonly used options for cervical ripening, Pitocin and misoprostol. Little research exists on the benefits/risks for these two key drugs for PROM patients. A major limitation with most induction-of-labor related research is the inability to account for differences in \textit{Bishop scores} that are commonly used in obstetrical practice to determine the next induction agent offered to the patient. This creates a confounding factor, which biases the results, but has not been realized in the literature. In this work, we use a Bayesian model of the relationships between the relevant factors, informed by expert physicians, to separate the confounding variable from its actual impact. In doing so, we provide strong evidence that pitocin and buccal misoprostol are equally effective and safe; thus, physicians have more choice in clinical care than previously realized. This is particularly important for developing countries where neither medication may be readily available, and prior guidelines may create an artificial barrier to needed medication.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# DBHP:派生型ハイブリッド予測を用いた多エージェントスポーツにおける軌道インパテーション

DBHP: Trajectory Imputation in Multi-Agent Sports Using Derivative-Based Hybrid Prediction ( http://arxiv.org/abs/2408.10878v1 )

ライセンス: Link先を確認
Hanjun Choi, Hyunsung Kim, Minho Lee, Chang-Jo Kim, Jinsung Yoon, Sang-Ki Ko, (参考訳) 多くの時空間領域はマルチエージェント軌道データを扱うが、現実のシナリオでは、収集された軌道データは様々な理由により部分的に欠落することが多い。 既存の手法は軌道計算において優れた性能を示すが、現実的な軌道を統治する物理的制約の欠如によりエージェント間の複雑な力学や相互作用を捉えることの難しさに直面する。 この問題に対処するために,複数エージェントの欠落した軌跡を効果的に説明できるDBHPフレームワークを提案する。 第一に、Set Transformersを備えたニューラルネットワークは、入力エージェントの順序の順で置換等価性を満足しつつ、損失軌跡の単純予測を生成する。 そして、このフレームワークは速度と加速度情報を利用した代替予測を行い、全ての予測と適切に決定された重みを組み合わせ、最終的なインプット軌道を提供する。 このようにして、提案するフレームワークは位置、速度、加速度の値を正確に予測するだけでなく、それらの物理的関係を強制し、最終的に予測された軌道の精度と自然性の両方を改善する。 そこで,チームスポーツにおける打楽器の軌跡に関する実験結果から,我々の枠組みは既存の打楽器のベースラインを大きく上回っていることがわかった。

Many spatiotemporal domains handle multi-agent trajectory data, but in real-world scenarios, collected trajectory data are often partially missing due to various reasons. While existing approaches demonstrate good performance in trajectory imputation, they face challenges in capturing the complex dynamics and interactions between agents due to a lack of physical constraints that govern realistic trajectories, leading to suboptimal results. To address this issue, the paper proposes a Derivative-Based Hybrid Prediction (DBHP) framework that can effectively impute multiple agents' missing trajectories. First, a neural network equipped with Set Transformers produces a naive prediction of missing trajectories while satisfying the permutation-equivariance in terms of the order of input agents. Then, the framework makes alternative predictions leveraging velocity and acceleration information and combines all the predictions with properly determined weights to provide final imputed trajectories. In this way, our proposed framework not only accurately predicts position, velocity, and acceleration values but also enforces the physical relationship between them, eventually improving both the accuracy and naturalness of the predicted trajectories. Accordingly, the experiment results about imputing player trajectories in team sports show that our framework significantly outperforms existing imputation baselines.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# 自動運転車のオープン3Dワールド

Open 3D World in Autonomous Driving ( http://arxiv.org/abs/2408.10880v1 )

ライセンス: Link先を確認
Xinlong Cheng, Lei Li, (参考訳) オープン語彙認識能力は、自律運転システムにおいて重要な進歩を示し、リアルタイムに幅広いテキスト入力の理解と解釈を容易にする。 2次元コンピュータビジョン内でのオープンな語彙タスクに関する広範な研究にもかかわらず、このような方法論の大規模屋外環境での3次元環境への応用は、いまだに未発達である。 本稿では,LIDARセンサから取得した3Dポイントクラウドデータをテキスト情報と統合する手法を提案する。 主な焦点は、自律運転コンテキスト内のオブジェクトを直接ローカライズし識別するためのテキストデータの利用である。 本研究では,鳥眼領域の特徴とテキスト的特徴を融合する効率的な枠組みを導入し,新たなテキスト入力にシームレスに適応し,オープンな語彙検出タスクの堅牢性を高める。 提案手法の有効性は,新たに導入されたNuScenes-Tデータセットの広範な実験を通じて厳格に評価されている。 本研究は、3次元環境におけるオープンな語彙知覚を高めるためにマルチモーダルデータを活用することにより、自律走行技術の発展に実質的な貢献をし、自律走行と知覚において達成可能なものの境界を推し進める。

The capability for open vocabulary perception represents a significant advancement in autonomous driving systems, facilitating the comprehension and interpretation of a wide array of textual inputs in real-time. Despite extensive research in open vocabulary tasks within 2D computer vision, the application of such methodologies to 3D environments, particularly within large-scale outdoor contexts, remains relatively underdeveloped. This paper presents a novel approach that integrates 3D point cloud data, acquired from LIDAR sensors, with textual information. The primary focus is on the utilization of textual data to directly localize and identify objects within the autonomous driving context. We introduce an efficient framework for the fusion of bird's-eye view (BEV) region features with textual features, thereby enabling the system to seamlessly adapt to novel textual inputs and enhancing the robustness of open vocabulary detection tasks. The effectiveness of the proposed methodology is rigorously evaluated through extensive experimentation on the newly introduced NuScenes-T dataset, with additional validation of its zero-shot performance on the Lyft Level 5 dataset. This research makes a substantive contribution to the advancement of autonomous driving technologies by leveraging multimodal data to enhance open vocabulary perception in 3D environments, thereby pushing the boundaries of what is achievable in autonomous navigation and perception.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# ハイブリッド古典量子確率に対する一般化GleasonとKraus Theorems

Generalized Gleason and Kraus Theorems for hybrid classical-quantum probabilities ( http://arxiv.org/abs/2408.10882v1 )

ライセンス: Link先を確認
S. Camalet, (参考訳) 古典的および量子的確率測度に対して、通常のものを容易に一般化するハイブリッド古典量子確率測度に対する4つの公理を提案する。 対応するハイブリッド状態の数学的形式を与える一般化されたグリーソンの定理が示される。 この形式は、古典的なサブシステム確率が自然基準測度に関して確率密度関数によって記述されるときに単純化される。 我々は、量子演算の完全正の仮定に類似したハイブリッド確率測度の変換の要件を定式化する。 基準測度を持つハイブリッド系に対しては、適切な計量に関して連続であるとして考慮された変換を完全に決定する一般化されたクラウス定理を証明する。 これらの変換の明示的な表現は、古典的部分系と量子的部分系が相互作用しないとき、古典的部分系が離散的であるとき、または量子的部分系のヒルベルト空間が有限次元であるときに導かれる。 また、古典サブシステムと量子サブシステムの間の相関関係の量子化と、量子絡み合いの研究において通常考慮される量子演算の一般化についても論じる。

We propose four axioms for hybrid classical-quantum probability measures that readily generalize the usual ones for classical and quantum probability measures. A generalized Gleason theorem that gives the mathematical form of the corresponding hybrid states is shown. This form simplifies when the classical subsystem probabilities are described by a probability density function with respect to a natural reference measure. We formulate a requirement for the transformations of hybrid probability measures analogous to the complete positive assumption for quantum operations. For hybrid systems with reference measure, we prove a generalized Kraus theorem that fully determines the considered transformations provided they are continuous with respect to an appropriate metric. Explicit expressions for these transformations are derived when the classical and quantum subsystems are non-interacting, the classical subsystem is discrete, or the Hilbert space of the quantum subsystem is finite-dimensional. We also discuss the quantification of the correlations between the classical and quantum subsystems and a generalization of the quantum operations usually considered in the study of quantum entanglement.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-20
# DAAD:フェイクニュース検出のための動的解析と適応判別器

DAAD: Dynamic Analysis and Adaptive Discriminator for Fake News Detection ( http://arxiv.org/abs/2408.10883v1 )

ライセンス: Link先を確認
Xinqi Su, Yawen Cui, Ajian Liu, Xun Lin, Yuhao Wang, Haochen Liang, Wenhui Li, Zitong Yu, (参考訳) 現在のウェブ環境では、偽ニュースはオンラインソーシャルネットワークに急速に広まり、社会に深刻な脅威をもたらしている。 既存のマルチモーダルフェイクニュース検出(MFND)手法は知識ベースおよび意味ベースアプローチに分類される。 しかし、これらの手法は人間の専門知識やフィードバックに過度に依存し、柔軟性に欠ける。 この課題に対処するために、偽ニュース検出のための動的解析・適応識別器(DAAD)アプローチを提案する。 知識に基づく手法では,モンテカルロ木探索(MCTS)アルゴリズムを導入し,大規模言語モデル(LLM)の自己表現機能を活用し,よりリッチでドメイン固有の詳細とガイダンスをLLMに提供し,ニュースコンテンツに対するLCMコメントのより柔軟な統合を可能にする。 意味に基づく手法では、感情的誇張、論理的不整合、画像操作、意味的不整合の4つの典型的な偽造パターンを定義し、偽ニュース生成のメカニズムを明らかにする。 これらのパターンを検出するために、我々は4つの識別器を慎重に設計し、それらを深度と幅で拡張し、ソフトルーティング機構を用いて最適な検出モデルを探索する。 3つの実世界のデータセットに対する実験結果は、我々のアプローチの優位性を示している。 コードは、https://github.com/SuXinqi/DAAD.comから入手できる。

In current web environment, fake news spreads rapidly across online social networks, posing serious threats to society. Existing multimodal fake news detection (MFND) methods can be classified into knowledge-based and semantic-based approaches. However, these methods are overly dependent on human expertise and feedback, lacking flexibility. To address this challenge, we propose a Dynamic Analysis and Adaptive Discriminator (DAAD) approach for fake news detection. For knowledge-based methods, we introduce the Monte Carlo Tree Search (MCTS) algorithm to leverage the self-reflective capabilities of large language models (LLMs) for prompt optimization, providing richer, domain-specific details and guidance to the LLMs, while enabling more flexible integration of LLM comment on news content. For semantic-based methods, we define four typical deceit patterns: emotional exaggeration, logical inconsistency, image manipulation, and semantic inconsistency, to reveal the mechanisms behind fake news creation. To detect these patterns, we carefully design four discriminators and expand them in depth and breadth, using the soft-routing mechanism to explore optimal detection models. Experimental results on three real-world datasets demonstrate the superiority of our approach. The code will be available at: https://github.com/SuXinqi/DAAD.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# 階層型VAEによる低品質画像検出

Low-Quality Image Detection by Hierarchical VAE ( http://arxiv.org/abs/2408.10885v1 )

ライセンス: Link先を確認
Tomoyasu Nanaumi, Kazuhiko Kawamoto, Hiroshi Kera, (参考訳) 従業員のロスター、フォトアルバム、または生成モデルのトレーニングデータセットを作成するには、高品質な画像を収集し、低品質な画像を除外する必要がある。 本研究では,低画質画像の教師なし検出という新たな課題に対処する。 また,低画質画像に対して階層的変分オートエンコーダによる部分再構成が失敗する観察結果に基づいて,低画質画像の様々な劣化を検知するだけでなく,その視覚的手がかりを提供する手法を提案する。 実験の結果,本手法は教師なし分布検出法よりも優れており,サムネイル視でも人間の認識に役立つ低品質画像の視覚的手がかりが得られている。

To make an employee roster, photo album, or training dataset of generative models, one needs to collect high-quality images while dismissing low-quality ones. This study addresses a new task of unsupervised detection of low-quality images. We propose a method that not only detects low-quality images with various types of degradation but also provides visual clues of them based on an observation that partial reconstruction by hierarchical variational autoencoders fails for low-quality images. The experiments show that our method outperforms several unsupervised out-of-distribution detection methods and also gives visual clues for low-quality images that help humans recognize them even in thumbnail view.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# ソフトウェア要件の品質保証のためのLCMの活用

Leveraging LLMs for the Quality Assurance of Software Requirements ( http://arxiv.org/abs/2408.10886v1 )

ライセンス: Link先を確認
Sebastian Lubos, Alexander Felfernig, Thi Ngoc Trang Tran, Damian Garber, Merfat El Mansi, Seda Polat Erdeniz, Viet-Man Le, (参考訳) 成功したソフトウェアプロジェクトは、ソフトウェア要件の品質に依存します。 高品質な要件を作成することは、ソフトウェア開発を成功させるための重要なステップです。 この領域での効果的なサポートは、開発コストを大幅に削減し、ソフトウェアの品質を高めることができます。 本稿では,ISO 29148規格に従って,ソフトウェア要件の品質特性を評価するために,LLM(Large Language Model)の能力を紹介し,評価する。 我々は、要求工学(RE)に関わるステークホルダーのサポートをさらに改善することを目指しています。 本稿では,LCMが要求をどう評価するか,その意思決定プロセスを説明するとともに,要件の改良版を提案する能力について考察する。 私たちは、私たちのアプローチを検証するために、ソフトウェアエンジニアと研究をしています。 本研究は,ソフトウェア要件の品質向上のためのLCMの可能性を強調した。

Successful software projects depend on the quality of software requirements. Creating high-quality requirements is a crucial step toward successful software development. Effective support in this area can significantly reduce development costs and enhance the software quality. In this paper, we introduce and assess the capabilities of a Large Language Model (LLM) to evaluate the quality characteristics of software requirements according to the ISO 29148 standard. We aim to further improve the support of stakeholders engaged in requirements engineering (RE). We show how an LLM can assess requirements, explain its decision-making process, and examine its capacity to propose improved versions of requirements. We conduct a study with software engineers to validate our approach. Our findings emphasize the potential of LLMs for improving the quality of software requirements.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# 入力計画からの学習行動コストについて

On Learning Action Costs from Input Plans ( http://arxiv.org/abs/2408.10889v1 )

ライセンス: Link先を確認
Marianela Morales, Alberto Pozanco, Giuseppe Canonaco, Sriram Gopalakrishnan, Daniel Borrajo, Manuela Veloso, (参考訳) アクションモデルを学習する作業の多くは、入力計画からアクションのダイナミクスを学ぶことに焦点を当てている。 これにより、計画タスクの有効な計画を指定することができます。 しかしながら、アクションコストの学習に焦点を当てる作業はほとんどなく、それによって異なる計画のランク付けが可能になります。 本稿では,入力計画の集合が最適であるような行動の集合のコストを学習する新たな問題を紹介する。 この問題を解決するために、未ラベルの入力計画からアクションのコストを学習するアルゴリズムである$LACFIP^k$を提案する。 我々は、LACFIP^k$がいかにしてこの課題をうまく解決できるかを示す理論的および実証的な結果を提供する。

Most of the work on learning action models focus on learning the actions' dynamics from input plans. This allows us to specify the valid plans of a planning task. However, very little work focuses on learning action costs, which in turn allows us to rank the different plans. In this paper we introduce a new problem: that of learning the costs of a set of actions such that a set of input plans are optimal under the resulting planning model. To solve this problem we present $LACFIP^k$, an algorithm to learn action's costs from unlabeled input plans. We provide theoretical and empirical results showing how $LACFIP^k$ can successfully solve this task.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# ViLReF:中国のビジョンランゲージ網膜ファンデーションモデル

ViLReF: A Chinese Vision-Language Retinal Foundation Model ( http://arxiv.org/abs/2408.10894v1 )

ライセンス: Link先を確認
Shengzhu Yang, Jiawei Du, Jia Guo, Weihang Zhang, Hanruo Liu, Huiqi Li, Ningli Wang, (参考訳) 網膜画像とテキストデータのサブトル意味的差異は、事前学習された視覚言語モデルにとって大きな課題となる。 さらに、偽陰性サンプル、すなわち、画像とテキストのペアは、同じ意味を持つが、誤って負と見なされ、視覚言語による事前学習プロセスを妨害し、モデルの学習能力に影響を与える。 この研究は、451,956枚の網膜画像とそれに対応する診断用テキストレポートからなるペアデータセットを事前トレーニングすることで、ViLReFと呼ばれる網膜基盤モデルを開発することを目的としている。 視覚言語による事前学習戦略では、専門家の知識を活用してラベルの抽出を容易にし、新しい制約である重み付き類似性結合損失(Weighted similarity Coupling Loss)を提案し、特徴空間内でサンプルペアを動的に分割する速度を調整する。 さらに,モーメントエンコーダが保持する動的メモリキューを備えたバッチ拡張モジュールを用いて,偽陰性の除去による空洞の補充と余分なサンプルの供給を行う。 下流分類とセグメンテーションタスクのための複数のデータセットに対して大規模な実験を行う。 実験の結果,ViLReFの強力なゼロショット・トランスファー学習能力を示し,事前学習戦略の有効性を検証した。 私たちのViLReFモデルは、https://github.com/T6Yang/ViLReFで利用可能です。

Subtle semantic differences in retinal image and text data present great challenges for pre-training visual-language models. Moreover, false negative samples, i.e., image-text pairs having the same semantics but incorrectly regarded as negatives, disrupt the visual-language pre-training process and affect the model's learning ability. This work aims to develop a retinal foundation model, called ViLReF, by pre-training on a paired dataset comprising 451,956 retinal images and corresponding diagnostic text reports. In our vision-language pre-training strategy, we leverage expert knowledge to facilitate the extraction of labels and propose a novel constraint, the Weighted Similarity Coupling Loss, to adjust the speed of pushing sample pairs further apart dynamically within the feature space. Furthermore, we employ a batch expansion module with dynamic memory queues, maintained by momentum encoders, to supply extra samples and compensate for the vacancies caused by eliminating false negatives. Extensive experiments are conducted on multiple datasets for downstream classification and segmentation tasks. The experimental results demonstrate the powerful zero-shot and transfer learning capabilities of ViLReF, verifying the effectiveness of our pre-training strategy. Our ViLReF model is available at: https://github.com/T6Yang/ViLReF.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# 勧告システムにおけるハーディング効果の分析と実証的研究

Analytical and Empirical Study of Herding Effects in Recommendation Systems ( http://arxiv.org/abs/2408.10895v1 )

ライセンス: Link先を確認
Hong Xie, Mingze Zhong, Defu Lian, Zhen Wang, Enhong Chen, (参考訳) オンライン評価システムは、多くのWebアプリケーションやモバイルアプリケーション、例えばAmazonやTripAdvisorで、製品の品質を評価するためによく使われている。 シーディング効果により、歴史的評価(または歴史的集団的意見)の集計はその後の評価に大きな影響を及ぼし、誤った評価や誤った評価につながる。 評価誤差の是正を目的として、評価集計ルールとショートリスト付き代表レビューを用いて製品評価を管理する方法について検討する。 まず,製品評価における群れ効果の重要な要因を特徴付ける数学的モデルを構築した。 次に, 歴史的集団的意見がユーザ全体の基幹的集団的意見に収束する十分条件(確率近似理論)を同定する。 これらの条件は、製品の品質を明らかにするための評価集約ルールとレビュー選択メカニズムのクラスを特定する。 また、評価アグリゲーションルールとレビュー選択機構の効率を反映した収束の速度を(マルティンゲール理論を介して)定量化する。 本研究は,Herding効果が収束速度を遅くする一方で,正確なレビュー選択機構が高速化できることを実証する。 また,収束の速度を数値的に検討し,評価アグリゲーションルールとレビュー選択機構を選択する際のトレードオフを明らかにする。 フレームワークの有用性を示すため,評価からモデルパラメータを推定し,Amazon と TripAdvisor のレーティングデータセットで実験を行うための,最大限のアルゴリズムを設計した。 適切な信頼度評価アグリゲーションルールは、AmazonとTripAdvisorのコンバージェンス速度をそれぞれ41%、TripAdvisorは62%向上できることを示す。

Online rating systems are often used in numerous web or mobile applications, e.g., Amazon and TripAdvisor, to assess the ground-truth quality of products. Due to herding effects, the aggregation of historical ratings (or historical collective opinion) can significantly influence subsequent ratings, leading to misleading and erroneous assessments. We study how to manage product ratings via rating aggregation rules and shortlisted representative reviews, for the purpose of correcting the assessment error. We first develop a mathematical model to characterize important factors of herding effects in product ratings. We then identify sufficient conditions (via the stochastic approximation theory), under which the historical collective opinion converges to the ground-truth collective opinion of the whole user population. These conditions identify a class of rating aggregation rules and review selection mechanisms that can reveal the ground-truth product quality. We also quantify the speed of convergence (via the martingale theory), which reflects the efficiency of rating aggregation rules and review selection mechanisms. We prove that the herding effects slow down the speed of convergence while an accurate review selection mechanism can speed it up. We also study the speed of convergence numerically and reveal trade-offs in selecting rating aggregation rules and review selection mechanisms. To show the utility of our framework, we design a maximum likelihood algorithm to infer model parameters from ratings, and conduct experiments on rating datasets from Amazon and TripAdvisor. We show that proper recency aware rating aggregation rules can improve the speed of convergence in Amazon and TripAdvisor by 41% and 62% respectively.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# スパイキングニューラルネットワークの効率的な形式検証に向けて

Towards Efficient Formal Verification of Spiking Neural Network ( http://arxiv.org/abs/2408.10900v1 )

ライセンス: Link先を確認
Baekryun Seong, Jieung Kim, Sang-Ki Ko, (参考訳) 近年、AI研究は主に大規模言語モデル(LLM)に焦点を当てている。 この文脈では、スパイクニューラルネットワーク(SNN)が有望なソリューションを提供する。 SNNは人間の脳のようにイベント駆動で動作し、情報を時間的に圧縮する。 これらの特徴により、SNNはパーセプトロンベースの人工ニューラルネットワーク(ANN)と比較して消費電力を大幅に削減し、次世代のニューラルネットワーク技術として強調することができる。 しかし、AIに関する社会的懸念は電力消費を超えており、AIモデルの信頼性が世界的な問題となっている。 例えば、AIモデルに対する敵攻撃は、従来のニューラルネットワークの文脈でよく研究されている問題である。 その重要性にもかかわらず、SNNの安定性と特性検証は研究の初期段階にある。 ほとんどのSNN検証手法は時間を要するが、ほとんど拡張性がないため、実用的な応用は困難である。 本稿では,SNNの対角的ロバスト性を検証するために,時間符号化を導入する。 本稿では,本手法の理論的解析を行い,従来は管理不能であったSNNの検証に成功したことを示す。 我々の貢献は、SNNの検証を実用的なレベルに進め、SNNのより安全な適用を促進する。

Recently, AI research has primarily focused on large language models (LLMs), and increasing accuracy often involves scaling up and consuming more power. The power consumption of AI has become a significant societal issue; in this context, spiking neural networks (SNNs) offer a promising solution. SNNs operate event-driven, like the human brain, and compress information temporally. These characteristics allow SNNs to significantly reduce power consumption compared to perceptron-based artificial neural networks (ANNs), highlighting them as a next-generation neural network technology. However, societal concerns regarding AI go beyond power consumption, with the reliability of AI models being a global issue. For instance, adversarial attacks on AI models are a well-studied problem in the context of traditional neural networks. Despite their importance, the stability and property verification of SNNs remains in the early stages of research. Most SNN verification methods are time-consuming and barely scalable, making practical applications challenging. In this paper, we introduce temporal encoding to achieve practical performance in verifying the adversarial robustness of SNNs. We conduct a theoretical analysis of this approach and demonstrate its success in verifying SNNs at previously unmanageable scales. Our contribution advances SNN verification to a practical level, facilitating the safer application of SNNs.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# 後方崩壊による遅延拡散モデルに基づく画像編集に対するGrey-box攻撃

A Grey-box Attack against Latent Diffusion Model-based Image Editing by Posterior Collapse ( http://arxiv.org/abs/2408.10901v1 )

ライセンス: Link先を確認
Zhongliang Guo, Lei Fang, Jingyu Lin, Yifei Qian, Shuai Zhao, Zeyu Wang, Junhao Dong, Cunjian Chen, Ognjen Arandjelović, Chun Pong Lau, (参考訳) 生成AI、特に潜在拡散モデル(LDM)の最近の進歩は、画像合成と操作に革命をもたらした。 しかし、これらの生成技術は、データ不正と知的財産権侵害に関する懸念を提起する。 機械学習モデルに対する敵対的な攻撃は広く研究されており、十分に確立された研究機関は、これらのテクニックを良心的な指標として拡張し、生成AIの根底にある誤用を防ぐ。 LDMによる画像の操作から保護するための現在のアプローチは、モデル固有の知識に依存し、生成した画像のセマンティック品質を著しく低下させることができないため、制限されている。 これらの問題点に対処して,VAEが訓練中に後部崩壊に苦しむという観察に基づくPCA(Posterior Collapse Attack)を提案する。 本手法は,対象モデルのホワイトボックス情報への依存を最小限に抑え,モデル固有の知識への暗黙的な依存を取り除く。 LDMのVAEエンコーダは,ごく少量のLDMパラメータにのみアクセスすることで,特に知覚的整合性において生成品質が著しく低下し,様々なモデルアーキテクチャ間で強い伝達性を示す。 実験結果から,PCAは低ランタイムおよびVRAMのLDM画像生成に優れた摂動効果が得られた。 我々の手法は既存の手法より優れており、より堅牢で一般化可能なソリューションを提供し、生成AIの急速な発展によって引き起こされる社会技術的課題を軽減するのに役立ちます。

Recent advancements in generative AI, particularly Latent Diffusion Models (LDMs), have revolutionized image synthesis and manipulation. However, these generative techniques raises concerns about data misappropriation and intellectual property infringement. Adversarial attacks on machine learning models have been extensively studied, and a well-established body of research has extended these techniques as a benign metric to prevent the underlying misuse of generative AI. Current approaches to safeguarding images from manipulation by LDMs are limited by their reliance on model-specific knowledge and their inability to significantly degrade semantic quality of generated images. In response to these shortcomings, we propose the Posterior Collapse Attack (PCA) based on the observation that VAEs suffer from posterior collapse during training. Our method minimizes dependence on the white-box information of target models to get rid of the implicit reliance on model-specific knowledge. By accessing merely a small amount of LDM parameters, in specific merely the VAE encoder of LDMs, our method causes a substantial semantic collapse in generation quality, particularly in perceptual consistency, and demonstrates strong transferability across various model architectures. Experimental results show that PCA achieves superior perturbation effects on image generation of LDMs with lower runtime and VRAM. Our method outperforms existing techniques, offering a more robust and generalizable solution that is helpful in alleviating the socio-technical challenges posed by the rapidly evolving landscape of generative AI.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# Soda-Eval:LLM時代のオープンドメイン対話評価

Soda-Eval: Open-Domain Dialogue Evaluation in the age of LLMs ( http://arxiv.org/abs/2408.10902v1 )

ライセンス: Link先を確認
John Mendonça, Isabel Trancoso, Alon Lavie, (参考訳) オープンドメイン対話評価では,人間による評価がゴールドスタンダードとなっているが,Large Language Models (LLMs) を用いた自動評価の人気が高まっている。 しかし、ほとんどのフレームワークは、現在のモデルに関連する課題を反映していない、流布や妥当性といった側面で古いチャットボットを評価するベンチマークを活用している。 実際、GPT-3.5生成対話データセットであるSodaの質的分析では、現在のチャットボットはコヒーレンスやコモンセンスの知識にまつわるいくつかの繰り返しの問題を示す可能性があるが、一般的には高度に流動的で関連する応答を生成する。 上述の制限について,本論文では,10K対話で120K以上のターンレベルアセスメントをカバーし,GPT-4でアノテーションを生成するSoda-Evalについて紹介する。 Soda-Eval をベンチマークとして,複数のオープンアクセス命令チューニング LLM の性能を調べた結果,対話評価は依然として困難であることが判明した。 これらのモデルを微調整することで、相関と説明の両面において、数ショットの推論よりもパフォーマンスが向上する。

Although human evaluation remains the gold standard for open-domain dialogue evaluation, the growing popularity of automated evaluation using Large Language Models (LLMs) has also extended to dialogue. However, most frameworks leverage benchmarks that assess older chatbots on aspects such as fluency and relevance, which are not reflective of the challenges associated with contemporary models. In fact, a qualitative analysis on Soda, a GPT-3.5 generated dialogue dataset, suggests that current chatbots may exhibit several recurring issues related to coherence and commonsense knowledge, but generally produce highly fluent and relevant responses. Noting the aforementioned limitations, this paper introduces Soda-Eval, an annotated dataset based on Soda that covers over 120K turn-level assessments across 10K dialogues, where the annotations were generated by GPT-4. Using Soda-Eval as a benchmark, we then study the performance of several open-access instruction-tuned LLMs, finding that dialogue evaluation remains challenging. Fine-tuning these models improves performance over few-shot inferences, both in terms of correlation and explanation.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# BEYOND DIALOGUE:汎用ロールプレイング言語モデルに向けたプロファイルダイアライメントフレームワーク

BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model ( http://arxiv.org/abs/2408.10903v1 )

ライセンス: Link先を確認
Yeyong Yu, Rusheng Yu, Haojie Wei, Zhanqiu Zhang, Quan Qian, (参考訳) 大規模言語モデル(LLM)の急速な進歩はロールプレイングに革命をもたらし、一般的なロールプレイングモデルの開発を可能にした。 しかし、現在のロールプレイングトレーニングには2つの大きな問題がある: (I) 特定のシナリオに対する対話トレーニングを促すために事前に定義されたロールプロファイルを使用すると、通常、対話とプロファイルの間に矛盾や矛盾が生じ、トレーニングバイアスが生じる。 (II) モデルは、プロファイルのみに基づくロールの模倣を学び、文レベルでのプロファイル-対話アライメントを無視する。 本研究では,これらのハードルを克服するために,BEYOND DIALOGUEと呼ばれるシンプルで効果的なフレームワークを提案する。 このフレームワークは革新的に"Beyond dialogue"タスクを導入し、それぞれのシナリオに基づいて対話をプロファイル特性と整合させ、トレーニング中のバイアスを取り除く。 さらに、学習のための推論結果を生成する革新的なプロンプト機構を採用することにより、このフレームワークは、文レベルでのプロファイルと対話の微妙なアライメントを実現することができる。 上記の方法は、完全に自動化され、低コストである。 さらに、自動対話と客観的評価手法の統合は総合的な枠組みを形成し、一般的なロールプレイングの道を開く。 実験結果から,我々のモデルは役割プロファイルの様々な次元を忠実に表現し,表現する上で優れており,最もプロプライエタリな役割プレーングベースラインよりも優れていた。 すべてのコードとデータセットはhttps://github.com/yuyouyu32/BeyondDialogue.comで入手できる。

The rapid advancement of large language models (LLMs) has revolutionized role-playing, enabling the development of general role-playing models. However, current role-playing training has two significant issues: (I) Using a predefined role profile to prompt dialogue training for specific scenarios usually leads to inconsistencies and even conflicts between the dialogue and the profile, resulting in training biases. (II) The model learns to imitate the role based solely on the profile, neglecting profile-dialogue alignment at the sentence level. In this work, we propose a simple yet effective framework called BEYOND DIALOGUE, designed to overcome these hurdles. This framework innovatively introduces "beyond dialogue" tasks to align dialogue with profile traits based on each specific scenario, thereby eliminating biases during training. Furthermore, by adopting an innovative prompting mechanism that generates reasoning outcomes for training, the framework allows the model to achieve fine-grained alignment between profile and dialogue at the sentence level. The aforementioned methods are fully automated and low-cost. Additionally, the integration of automated dialogue and objective evaluation methods forms a comprehensive framework, paving the way for general role-playing. Experimental results demonstrate that our model excels in adhering to and reflecting various dimensions of role profiles, outperforming most proprietary general and specialized role-playing baselines. All code and datasets are available at https://github.com/yuyouyu32/BeyondDialogue.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# 量子力学における決定論と不決定論の境界をテストする光学ベル実験の提案

Proposal of an optical Bell's experiment to test the boundary between determinism and indeterminism in Quantum Mechanics ( http://arxiv.org/abs/2408.10904v1 )

ライセンス: Link先を確認
Alejandro Hnilo, Marcelo Kovalsky, Mónica Agüero, Myriam Nonaka, (参考訳) 量子力学において、決定論と不決定論の間に明らかに不連続な境界が存在することが最近指摘された。 本稿では,光学ベルの実験において,他のパリティの結果によって中断される任意のパリティの結果の列数を,その長さの関数として記録することにより,この境界を探索することを提案する。 これらの分布の特徴は、臨界点付近の角度設定の小さな回転に対して、基礎となる過程が非決定論的であるか否かを示す可能性がある。 したがって、境界が不連続であること、あるいはそれ以外は、決定論が滑らかに崩壊することを示せる。 実験装置が満たさなければならない条件について論じる。

It was recently noted the existence of an apparently discontinuous boundary between determinism and indeterminism in Quantum Mechanics. We propose to explore this boundary in an optical Bell's experiment by recording the distribution, of the number of strings of outcomes of a given parity interrupted by outcomes of the other parity, as a function of their length. The features of these distributions for small rotations of the angle settings near critical points may indicate whether the underlying process is in-deterministic or not. Therefore, they may show that the boundary is discontinuous, or else, that determinism decays smoothly. The conditions the experimental setup must fulfill are discussed.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# 自動車AIを「信頼できる」あるいは「信頼できる」とラベル付けすることがユーザー評価と技術受容に及ぼす影響

The impact of labeling automotive AI as "trustworthy" or "reliable" on user evaluation and technology acceptance ( http://arxiv.org/abs/2408.10905v1 )

ライセンス: Link先を確認
John Dorsch, Ophelia Deroy, (参考訳) 本研究では、AIを「信頼できる」あるいは「信頼できる」とラベル付けすることが、自動車AI技術のユーザ認識と受容に影響を及ぼすかどうかを検討する。 この研究は、一方的なオブジェクト間の設計を用いて、478人のオンライン参加者を巻き込み、信頼できるAIまたは信頼できるAIのガイドラインを提示した。 参加者は3つのヴィグネットシナリオを評価し、使いやすさ、人間らしい信頼、全体的な態度などの変数を含むTechnology Acceptance Modelの修正版を完成させた。 AIを「信頼できる」とラベル付けすることは、特定のシナリオにおける判断に大きな影響を与えなかったが、使用の容易さと人間のような信頼、特に善意が増した。 これはユーザビリティに対する肯定的な影響と,ユーザ知覚に対する人為的影響を示唆している。 この研究は、特定のラベルがAI技術に対する態度にどのように影響するかについての洞察を提供する。

This study explores whether labeling AI as "trustworthy" or "reliable" influences user perceptions and acceptance of automotive AI technologies. Using a one-way between-subjects design, the research involved 478 online participants who were presented with guidelines for either trustworthy or reliable AI. Participants then evaluated three vignette scenarios and completed a modified version of the Technology Acceptance Model, which included variables such as perceived ease of use, human-like trust, and overall attitude. Although labeling AI as "trustworthy" did not significantly influence judgments on specific scenarios, it increased perceived ease of use and human-like trust, particularly benevolence. This suggests a positive impact on usability and an anthropomorphic effect on user perceptions. The study provides insights into how specific labels can influence attitudes toward AI technology.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# ShapeSplat: ガウスプレートの大規模データセットと自己監督型事前トレーニング

ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining ( http://arxiv.org/abs/2408.10906v1 )

ライセンス: Link先を確認
Qi Ma, Yue Li, Bin Ren, Nicu Sebe, Ender Konukoglu, Theo Gevers, Luc Van Gool, Danda Pani Paudel, (参考訳) 3D Gaussian Splatting (3DGS)は多くの視覚タスクにおいて3D表現の事実上の方法となっている。 これにより、この表現空間における3D理解を直接呼び出すことができる。 この方向の研究を容易にするために、我々はまず、よく使われるShapeNetとModelNetのデータセットを用いて、3DGSの大規模データセットを構築します。 データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されており、ラベルはそれぞれのデータセットに従っている。 このデータセットの作成は、TITAN XP GPU上での2GPUの計算値を利用した。 我々はデータセットを教師なし事前学習と教師なし微調整に利用し、分類とセグメンテーションのタスクに役立てる。 この目的のために,ガウスパラメータからの表現学習の独特な利点を強調した \textbf{\textit{Gaussian-MAE}} を導入する。 徹底的な実験を通じて、我々はいくつかの貴重な洞察を提供する。 特に,(1) 最適化された GS セントロイドの分布は, (初期化に使用される) 一様にサンプリングされた点群とは大きく異なり, (2) 分布の変化は分類の低下をもたらすが, セグメンテーションタスクの改善をもたらす。

3D Gaussian Splatting (3DGS) has become the de facto method of 3D representation in many vision tasks. This calls for the 3D understanding directly in this representation space. To facilitate the research in this direction, we first build a large-scale dataset of 3DGS using the commonly used ShapeNet and ModelNet datasets. Our dataset ShapeSplat consists of 65K objects from 87 unique categories, whose labels are in accordance with the respective datasets. The creation of this dataset utilized the compute equivalent of 2 GPU years on a TITAN XP GPU. We utilize our dataset for unsupervised pretraining and supervised finetuning for classification and segmentation tasks. To this end, we introduce \textbf{\textit{Gaussian-MAE}}, which highlights the unique benefits of representation learning from Gaussian parameters. Through exhaustive experiments, we provide several valuable insights. In particular, we show that (1) the distribution of the optimized GS centroids significantly differs from the uniformly sampled point cloud (used for initialization) counterpart; (2) this change in distribution results in degradation in classification but improvement in segmentation tasks when using only the centroids; (3) to leverage additional Gaussian parameters, we propose Gaussian feature grouping in a normalized feature space, along with splats pooling layer, offering a tailored solution to effectively group and embed similar Gaussians, which leads to notable improvement in finetuning tasks.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# SWAPによる量子アルゴリズムの実装

SWAP-less Implementation of Quantum Algorithms ( http://arxiv.org/abs/2408.10907v1 )

ライセンス: Link先を確認
Berend Klaver, Stefan Rombouts, Michael Fellner, Anette Messinger, Kilian Ender, Katharina Ludwig, Wolfgang Lechner, (参考訳) クビットオーバーヘッドやSWAP操作,シャットリングを伴わない,接続性に制限のあるデバイスにアルゴリズムを実装するために,パリティ量子情報のフローを追跡するフォーマリズムを提案する。 代わりに、エンタングゲートが量子状態を操作するだけでなく、量子情報を伝達するために利用することもできるという事実を活用します。 量子フーリエ変換(QFT)と量子近似最適化アルゴリズム(QAOA)に$n$ qubitsで適用することで,本手法の有効性を示す。 これにより、QFTの隣り合う線形アーキテクチャ上での最先端実装は改善され、回路深さは$5n-3}$となり、CNOTゲートは${n^2-1}$である。 QAOAでは,線形アーキテクチャ上でのQAOAの最も効率的な実装であるSWAPネットワークよりも優れている。 さらに、回路深さの約半分を占める双方向接続を用いて、QAOAを2倍の量子ビット数で実装することにより、回路深さに対する量子ビットカウントのバランスをとる可能性を示す。

We present a formalism based on tracking the flow of parity quantum information to implement algorithms on devices with limited connectivity without qubit overhead, SWAP operations or shuttling. Instead, we leverage the fact that entangling gates not only manipulate quantum states but can also be exploited to transport quantum information. We demonstrate the effectiveness of this method by applying it to the quantum Fourier transform (QFT) and the Quantum Approximate Optimization Algorithm (QAOA) with $n$ qubits. This improves upon all state-of-the-art implementations of the QFT on a linear nearest-neighbor architecture, resulting in a total circuit depth of ${5n-3}$ and requiring ${n^2-1}$ CNOT gates. For the QAOA, our method outperforms SWAP networks, which are currently the most efficient implementation of the QAOA on a linear architecture. We further demonstrate the potential to balance qubit count against circuit depth by implementing the QAOA on twice the number of qubits using bi-linear connectivity, which approximately halves the circuit depth.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# コーディングすべきか、コーディングすべきでないか? 事前トレーニングにおけるコードの影響を探る

To Code, or Not To Code? Exploring Impact of Code in Pre-training ( http://arxiv.org/abs/2408.10914v1 )

ライセンス: Link先を確認
Viraat Aryabumi, Yixuan Su, Raymond Ma, Adrien Morisot, Ivan Zhang, Acyr Locatelli, Marzieh Fadaee, Ahmet Üstün, Sara Hooker, (参考訳) コード用に特別に設計されていないモデルであっても、事前トレーニングデータミックスにコードを含めることは、LLMの事前トレーニングにおいて一般的な慣習となっている。 一般のLLMのパフォーマンスにおいて、コードデータが重要な役割を果たすという専門家の間では、逸話的な意見の一致があるが、非コードタスクに対するコードの正確な影響を分析する作業は限られている。 本研究では,コードデータが一般性能に与える影響を系統的に検討する。 コード生成以外のさまざまなダウンストリームタスクに対する事前トレーニングで使用されるコードデータの影響はどのようなものか? 我々は,470Mから2.8Bのパラメータを持つモデルに対して,多岐にわたる自然言語推論タスク,世界知識タスク,コードベンチマーク,LLM-as-a-judgeのウィンレートについて,広範囲にわたる改善を行い,評価を行った。 設定全体にわたって、コーディングタスク以上の一般化において、コードが重要なビルディングブロックであること、コード品質の改善がすべてのタスクに大きな影響を与えていることが、一貫した結果に気付きます。 特に、テキストのみの事前学習と比較して、コードの追加は、自然言語(NL)推論で8.2%、世界知識で4.2%、生成的な勝利率で6.6%、コードパフォーマンスで12倍に向上する。 私たちの研究は、事前トレーニング中のコード品質とコード保存への投資がポジティブな影響を与えることを示唆しています。

Including code in the pre-training data mixture, even for models not specifically designed for code, has become a common practice in LLMs pre-training. While there has been anecdotal consensus among practitioners that code data plays a vital role in general LLMs' performance, there is only limited work analyzing the precise impact of code on non-code tasks. In this work, we systematically investigate the impact of code data on general performance. We ask "what is the impact of code data used in pre-training on a large variety of downstream tasks beyond code generation". We conduct extensive ablations and evaluate across a broad range of natural language reasoning tasks, world knowledge tasks, code benchmarks, and LLM-as-a-judge win-rates for models with sizes ranging from 470M to 2.8B parameters. Across settings, we find a consistent results that code is a critical building block for generalization far beyond coding tasks and improvements to code quality have an outsized impact across all tasks. In particular, compared to text-only pre-training, the addition of code results in up to relative increase of 8.2% in natural language (NL) reasoning, 4.2% in world knowledge, 6.6% improvement in generative win-rates, and a 12x boost in code performance respectively. Our work suggests investments in code quality and preserving code during pre-training have positive impacts.
翻訳日:2024-08-21 13:15:27 公開日:2024-08-20
# CHECKWHY:Argument 構造による因果関係の検証

CHECKWHY: Causal Fact Verification via Argument Structure ( http://arxiv.org/abs/2408.10918v1 )

ライセンス: Link先を確認
Jiasheng Si, Yibo Zhao, Yingjie Zhu, Haiyang Zhu, Wenpeng Lu, Deyu Zhou, (参考訳) 事実検証タスクの複雑さが増すにつれ、"思慮深い"推論能力への懸念が高まっている。 しかし、最近の事実検証ベンチマークは主にクレーム内のセマンティック・ファクトイドの狭い範囲をチェックすることに焦点を当てており、明確な論理的推論プロセスが欠如している。 本稿では,新たな因果事実検証タスクに適した課題データセットであるCheckWhyを紹介し,厳密な推論ステップを通じて,クレーム内の因果関係の真偽を確認する。 CheckWhyは19K以上の「なぜ」クレーム・エビデンス・アグメント構造三重奏団で構成されており、サポート、反響、十分な情報ラベルがない。 それぞれの議論構造は、基礎的な証拠から始まり、主張の確立へと進む推論過程を表す、連結された証拠で構成されている。 最先端モデルに関する広範な実験を通じて、因果事実検証に引数構造を組み込むことの重要性を検証した。 さらに, 議論構造生成の自動化と人為的評価により, 微調整モデルによる満足度の高い議論構造の生成が困難であること, あるいは, LLMを誘導し, 将来的な改善の余地が残されていること, などを明らかにした。

With the growing complexity of fact verification tasks, the concern with "thoughtful" reasoning capabilities is increasing. However, recent fact verification benchmarks mainly focus on checking a narrow scope of semantic factoids within claims and lack an explicit logical reasoning process. In this paper, we introduce CheckWhy, a challenging dataset tailored to a novel causal fact verification task: checking the truthfulness of the causal relation within claims through rigorous reasoning steps. CheckWhy consists of over 19K "why" claim-evidence-argument structure triplets with supports, refutes, and not enough info labels. Each argument structure is composed of connected evidence, representing the reasoning process that begins with foundational evidence and progresses toward claim establishment. Through extensive experiments on state-of-the-art models, we validate the importance of incorporating the argument structure for causal fact verification. Moreover, the automated and human evaluation of argument structure generation reveals the difficulty in producing satisfying argument structure by fine-tuned models or Chain-of-Thought prompted LLMs, leaving considerable room for future improvements.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# CrossFi: Siamese NetworkをベースにしたクロスドメインWi-Fiセンシングフレームワーク

CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network ( http://arxiv.org/abs/2408.10919v1 )

ライセンス: Link先を確認
Zijian Zhao, Tingwei Chen, Zhijie Cai, Hang Li, Xiaoyang Li, Qimei Chen, Guangxu Zhu, (参考訳) 近年、プライバシー保護、低コスト、侵入能力など多くの利点により、Wi-Fiセンシングは大きな注目を集めている。 この分野では、ジェスチャー認識、人物識別、転倒検出などの分野に焦点が当てられている。 しかし、多くのデータ駆動手法は、トレーニングデータとは異なる環境でのモデルの性能が良くないドメインシフトに関連する問題に遭遇する。 この問題に寄与する大きな要因の1つは、Wi-Fiセンシングデータセットの可用性の制限である。 残念ながら、さまざまなシナリオにまたがる大規模なWi-Fiセンシングデータセットの収集は難しい作業だ。 この問題に対処するために、私たちはCrossFiという、ドメイン内シナリオとクロスドメインシナリオの両方に優れたシアムネットワークベースのアプローチを提案します。 CrossFiのコアコンポーネントは、CSi-Netと呼ばれるサンプル類似性計算ネットワークであり、単に距離やコサイン類似性を計算するのではなく、アテンション機構を用いて類似性情報を取得することにより、サイムズネットワークの構造を改善する。 それに基づいて、私たちは、クラス毎にテンプレートを生成することができる余分なウェイトネットを開発し、CrossFiが異なるシナリオで機能できるようにします。 実験の結果、CrossFiは様々なシナリオで最先端のパフォーマンスを実現しています。 ジェスチャー認識タスクでは、ドメイン内シナリオで98.17%、ワンショットクロスドメインシナリオで91.72%、ゼロショットクロスドメインシナリオで64.81%、ワンショット新しいクラスシナリオで84.75%の精度を達成する。 今後の研究を促進するため、我々はモデルのためのコードを出版時に公開します。

In recent years, Wi-Fi sensing has garnered significant attention due to its numerous benefits, such as privacy protection, low cost, and penetration ability. Extensive research has been conducted in this field, focusing on areas such as gesture recognition, people identification, and fall detection. However, many data-driven methods encounter challenges related to domain shift, where the model fails to perform well in environments different from the training data. One major factor contributing to this issue is the limited availability of Wi-Fi sensing datasets, which makes models learn excessive irrelevant information and over-fit to the training set. Unfortunately, collecting large-scale Wi-Fi sensing datasets across diverse scenarios is a challenging task. To address this problem, we propose CrossFi, a siamese network-based approach that excels in both in-domain scenario and cross-domain scenario, including few-shot, zero-shot scenarios, and even works in few-shot new-class scenario where testing set contains new categories. The core component of CrossFi is a sample-similarity calculation network called CSi-Net, which improves the structure of the siamese network by using an attention mechanism to capture similarity information, instead of simply calculating the distance or cosine similarity. Based on it, we develop an extra Weight-Net that can generate a template for each class, so that our CrossFi can work in different scenarios. Experimental results demonstrate that our CrossFi achieves state-of-the-art performance across various scenarios. In gesture recognition task, our CrossFi achieves an accuracy of 98.17% in in-domain scenario, 91.72% in one-shot cross-domain scenario, 64.81% in zero-shot cross-domain scenario, and 84.75% in one-shot new-class scenario. To facilitate future research, we will release the code for our model upon publication.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# MTFinEval: ユーリパリン問題を伴う多ドメイン中国の金融ベンチマーク

MTFinEval:A Multi-domain Chinese Financial Benchmark with Eurypalynous questions ( http://arxiv.org/abs/2408.10921v1 )

ライセンス: Link先を確認
Xinyu Liu, Ke Jin, (参考訳) より経済的なLLMSの出現により、安全に生産に投資できるかどうかを測定する方法が問題となる。 これまでの研究は主に、特定のアプリケーションシナリオにおけるLLMの性能評価に重点を置いてきた。 しかし、これらのベンチマークは理論レベルと一般化能力を反映することができず、実際のシナリオにおける問題には後方データセットが適さない傾向にある。 本稿では, LLM の基本的経済知識に着目した新しいベンチマーク MTFinEval を作成した。 MTFinEvalは、理論的な知識のみをできるだけ精査するために、大学教科書や経済学および経営学専攻の試験論文から基礎的な質問を寄せて構築されている。 LLMの全体的な性能は、経済学の一分野にのみ依存せず、MTFinEvalは6つの主要な経済学分野から洗練され、より包括的な能力を反映する360の質問で構成されている。 実験の結果, MTFinEval では全ての LLM の性能が良くないことがわかった。 本研究は、特定のユースケースに適切なLSMを選択するためのガイダンスを提供するだけでなく、基礎からLSMの厳格な信頼性を高めるためのガイダンスも提供する。

With the emergence of more and more economy-specific LLMS, how to measure whether they can be safely invested in production becomes a problem. Previous research has primarily focused on evaluating the performance of LLMs within specific application scenarios. However, these benchmarks cannot reflect the theoretical level and generalization ability, and the backward datasets are increasingly unsuitable for problems in real scenarios. In this paper, we have compiled a new benchmark, MTFinEval, focusing on the LLMs' basic knowledge of economics, which can always be used as a basis for judgment. To examine only theoretical knowledge as much as possible, MTFinEval is build with foundational questions from university textbooks,and exam papers in economics and management major. Aware of the overall performance of LLMs do not depend solely on one subdiscipline of economics, MTFinEval comprise 360 questions refined from six major disciplines of economics, and reflect capabilities more comprehensively. Experiment result shows all LLMs perform poorly on MTFinEval, which proves that our benchmark built on basic knowledge is very successful. Our research not only offers guidance for selecting the appropriate LLM for specific use cases, but also put forward increase the rigor reliability of LLMs from the basics.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# LBC:アウトオフ変数一般化のための言語ベース分類器

LBC: Language-Based-Classifier for Out-Of-Variable Generalization ( http://arxiv.org/abs/2408.10923v1 )

ライセンス: Link先を確認
Kangjun Noh, Baekryun Seong, Hoyoon Byun, Sungjin Song, Kyungwoo Song, (参考訳) 大規模言語モデル(LLM)は、応答生成のような自然言語処理タスクにおいて大きな成功を収めている。 しかし、XGBoostのような従来の機械学習モデル(TML)と比べてパフォーマンスが劣っているため、表形式のデータでの使用は制限されている。 LLMの事前学習された知識は、追加のトレーニングなしにテストに現れる新しい変数を解釈することを可能にする。 そこで本研究では,LBC(Language-Based-Classifier)を提案する。 LBCは3つの主要な方法論戦略を採用している。 1) モデルの理解に合うようにデータを調整するためのカテゴリの変更。 2)データ表現をモデルに拡張する高度な順序と指標 3)ロジットスコアを推論中にクラスにマッピングし,モデル予測を生成する。 これらの戦略は、LBCの事前訓練された知識と組み合わせて、OOVタスクを効果的に処理するモデルの能力を強調している。 我々は,LBCの優位性を実証的,理論的に検証した。 LBC は OOV タスクに LLM ベースのモデルを適用する最初の研究である。 ソースコードはhttps://github.com/ASDASDanonymous/Language-Based-Classifier-forOOVtasksにある。

Large Language Models (LLMs) have great success in natural language processing tasks such as response generation. However, their use in tabular data has been limited due to their inferior performance compared to traditional machine learning models (TMLs) such as XGBoost. We find that the pre-trained knowledge of LLMs enables them to interpret new variables that appear in a test without additional training, a capability central to the concept of Out-of-Variable (OOV). From the findings, we propose a Language-Based-Classifier (LBC), a classifier that maximizes the benefits of LLMs to outperform TMLs on OOV tasks. LBC employs three key methodological strategies: 1) Categorical changes to adjust data to better fit the model's understanding, 2) Advanced order and indicator to enhance data representation to the model, and 3) Using verbalizer to map logit scores to classes during inference to generate model predictions. These strategies, combined with the pre-trained knowledge of LBC, emphasize the model's ability to effectively handle OOV tasks. We empirically and theoretically validate the superiority of LBC. LBC is the first study to apply an LLM-based model to OOV tasks. The source code is at https://github.com/ASDASDanonymous/Language-Based-Classifier-forOOVtasks.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# 定量的ファイナンスにおける強化学習の進化

The Evolution of Reinforcement Learning in Quantitative Finance ( http://arxiv.org/abs/2408.10932v1 )

ライセンス: Link先を確認
Nikolaos Pippas, Cagatay Turkay, Elliot A. Ludvig, (参考訳) 強化学習(RL)は過去10年間で大きな進歩を遂げており、金融分野のアプリケーションへの関心が高まっている。 この調査は167の出版物を批判的に評価し、金融における多様なRLアプリケーションとフレームワークを調査している。 金融市場は、その複雑さ、マルチエージェントの性質、情報非対称性、および固有のランダム性によって特徴付けられ、RLの興味深いテストベッドとして機能する。 従来の金融は特定のソリューションを提供しており、RLは移行学習、メタラーニング、マルチエージェントソリューションを含む機械学習手法を取り入れて、よりダイナミックなアプローチでこれを前進させる。 この調査は、定量ファイナンスのレンズを通して重要なRL成分を識別する。 新たなテーマを明らかにし,今後の研究分野を提案し,既存手法の長所と短所を批判する。

Reinforcement Learning (RL) has experienced significant advancement over the past decade, prompting a growing interest in applications within finance. This survey critically evaluates 167 publications, exploring diverse RL applications and frameworks in finance. Financial markets, marked by their complexity, multi-agent nature, information asymmetry, and inherent randomness, serve as an intriguing test-bed for RL. Traditional finance offers certain solutions, and RL advances these with a more dynamic approach, incorporating machine learning methods, including transfer learning, meta-learning, and multi-agent solutions. This survey dissects key RL components through the lens of Quantitative Finance. We uncover emerging themes, propose areas for future research, and critique the strengths and weaknesses of existing methods.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# SDI-Net:低照度ステレオ画像強調のための効果的なデュアルビューインタラクションを目指して

SDI-Net: Toward Sufficient Dual-View Interaction for Low-light Stereo Image Enhancement ( http://arxiv.org/abs/2408.10934v1 )

ライセンス: Link先を確認
Linlin Hu, Ao Sun, Shijie Hao, Richang Hong, Meng Wang, (参考訳) 現在、ほとんどの低照度画像強調法は、視線情報の相互関係を無視して、単一の視点からの情報のみを考慮している。 したがって、これらの手法による強化結果は、しばしば不満足である。 この文脈では、低照度ステレオ画像強調のための方法の開発が試みられている。 これらのメソッドは、ビュー間の格差を考慮して、左右のビュー間の相互作用を可能にし、パフォーマンスを向上させる。 しかし、これらの手法はいまだに、左右のビュー情報間の相互作用を完全に活用していない。 この問題に対処するため,低照度ステレオ画像強調(SDI-Net)のための2次元対話のためのモデルを提案する。 SDI-Netのバックボーン構造は2つのエンコーダとデコーダのペアであり、低照度画像から通常照度画像へのマッピング関数の学習に使用される。 エンコーダとデコーダのうち,注目機構を介して両眼視の相関関係をフル活用することを目的として,クロスビュー・サフィシエント・インタラクション・モジュール (CSIM) というモジュールを設計した。 公開データセットの定量的および視覚的結果は,他の関連手法に比べて,本手法の優位性を検証した。 アブレーション研究は、我々のモデルにおける重要な要素の有効性も示している。

Currently, most low-light image enhancement methods only consider information from a single view, neglecting the correlation between cross-view information. Therefore, the enhancement results produced by these methods are often unsatisfactory. In this context, there have been efforts to develop methods specifically for low-light stereo image enhancement. These methods take into account the cross-view disparities and enable interaction between the left and right views, leading to improved performance. However, these methods still do not fully exploit the interaction between left and right view information. To address this issue, we propose a model called Toward Sufficient Dual-View Interaction for Low-light Stereo Image Enhancement (SDI-Net). The backbone structure of SDI-Net is two encoder-decoder pairs, which are used to learn the mapping function from low-light images to normal-light images. Among the encoders and the decoders, we design a module named Cross-View Sufficient Interaction Module (CSIM), aiming to fully exploit the correlations between the binocular views via the attention mechanism. The quantitative and visual results on public datasets validate the superiority of our method over other related methods. Ablation studies also demonstrate the effectiveness of the key elements in our model.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# 画像から3次元生成のための大規模ポイント・ツー・ガウスモデル

Large Point-to-Gaussian Model for Image-to-3D Generation ( http://arxiv.org/abs/2408.10935v1 )

ライセンス: Link先を確認
Longfei Lu, Huachen Gao, Tao Dai, Yaohua Zha, Zhi Hou, Junta Wu, Shu-Tao Xia, (参考訳) 近年,画像から3Dへのアプローチは大規模再構成モデル,特に3次元ガウス再構成モデルに基づく3Dアセットの生成品質と速度を大幅に向上させている。 既存の3次元ガウスモデルでは2次元画像を直接3次元ガウスパラメータにマッピングする一方で、3次元ガウス表現を3次元ガウス表現に回帰することは困難である。 本稿では,2次元画像上で条件付き3次元拡散モデルから生成された初期点雲を入力し,ガウスパラメータを生成する。 点雲はガウス生成に先立って最初の3次元幾何学を提供し、画像から3次元生成を著しく促進する。 さらに,画像特徴と点雲特徴とを融合させるために,<textbf{A}ttention mechanism, \textbf{P}rojection mechanism, \textbf{P}oint feature extractor, \textbf{APP} blockを提案する。 定性的かつ定量的な実験は、提案手法がGSOおよびObjaverseデータセットに与える影響を広く示し、提案手法が最先端の性能を達成することを示す。

Recently, image-to-3D approaches have significantly advanced the generation quality and speed of 3D assets based on large reconstruction models, particularly 3D Gaussian reconstruction models. Existing large 3D Gaussian models directly map 2D image to 3D Gaussian parameters, while regressing 2D image to 3D Gaussian representations is challenging without 3D priors. In this paper, we propose a large Point-to-Gaussian model, that inputs the initial point cloud produced from large 3D diffusion model conditional on 2D image to generate the Gaussian parameters, for image-to-3D generation. The point cloud provides initial 3D geometry prior for Gaussian generation, thus significantly facilitating image-to-3D Generation. Moreover, we present the \textbf{A}ttention mechanism, \textbf{P}rojection mechanism, and \textbf{P}oint feature extractor, dubbed as \textbf{APP} block, for fusing the image features with point cloud features. The qualitative and quantitative experiments extensively demonstrate the effectiveness of the proposed approach on GSO and Objaverse datasets, and show the proposed method achieves state-of-the-art performance.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# 対称校正によるコンフォーマル化弁間算術

Conformalized Interval Arithmetic with Symmetric Calibration ( http://arxiv.org/abs/2408.10939v1 )

ライセンス: Link先を確認
Rui Luo, Zhixin Zhou, (参考訳) 不確かさの定量化は、特に確率変数の合同分布が関与する場合、意思決定において不可欠である。 共形予測は、有効なカバレッジ保証を備えた分布のない予測セットを提供するが、伝統的に単一の予測に焦点を当てている。 本稿では,未知ラベルの和や平均を特定のインデックス集合上で推定するための新しい共形予測手法を提案する。 我々は,複数の目標の和に対する予測区間に対して,単一目標に対する共形予測区間を開発する。 置換不変仮定の下では,提案手法の有効性が証明される。 また,クラス平均推定やパスコスト予測タスクにもアルゴリズムを適用し,提案手法が既存のコンフォーマル化手法や非コンフォーマルアプローチよりも優れていることを示す。

Uncertainty quantification is essential in decision-making, especially when joint distributions of random variables are involved. While conformal prediction provides distribution-free prediction sets with valid coverage guarantees, it traditionally focuses on single predictions. This paper introduces novel conformal prediction methods for estimating the sum or average of unknown labels over specific index sets. We develop conformal prediction intervals for single target to the prediction interval for sum of multiple targets. Under permutation invariant assumptions, we prove the validity of our proposed method. We also apply our algorithms on class average estimation and path cost prediction tasks, and we show that our method outperforms existing conformalized approaches as well as non-conformal approaches.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# SysBench: 大規模言語モデルはシステムメッセージをフォローできるか?

SysBench: Can Large Language Models Follow System Messages? ( http://arxiv.org/abs/2408.10943v1 )

ライセンス: Link先を確認
Yanzhao Qin, Tao Zhang, Tao Zhang, Yanjun Shen, Wenjing Luo, Haoze Sun, Yan Zhang, Yujing Qiao, Weipeng Chen, Zenan Zhou, Wentao Zhang, Bin Cui, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。 LLMの基本コンポーネントであるシステムメッセージは、意図した目標を達成するためのモデルの振る舞いをガイドする、慎重に構築された命令で構成されています。 AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、これらのシステムメッセージに異なるLLMがどの程度うまく従うかを評価するための包括的なベンチマークが存在しないことは注目すべきである。 このギャップを埋めるために、SysBenchという、制約複雑性、命令ミスアライメント、マルチターン安定性という3つの課題の観点から、システムメッセージの追従能力を体系的に解析するベンチマークを紹介した。 効果的な評価を実現するため、SysBenchは現実世界のシナリオにおけるシステムメッセージからの6つの一般的な制約に基づいて、様々なインタラクション関係をカバーするマルチターンユーザー会話を構築している。 私たちのデータセットには、さまざまなドメインからの500のシステムメッセージが含まれています。 SysBenchは様々なLLMに対して広範な評価を提供し、システムメッセージで指定された制約に従う能力を測定する。 この結果は、既存のモデルの長所と短所の両方を強調し、将来の研究に重要な洞察と方向性を提供する。 SysBenchのオープンソースライブラリはhttps://github.com/PKU-Baichuan-MLSystemLab/SysBenchで公開されている。

Large Language Models (LLMs) have become instrumental across various applications, with the customization of these models to specific scenarios becoming increasingly critical. System message, a fundamental component of LLMs, is consist of carefully crafted instructions that guide the behavior of model to meet intended goals. Despite the recognized potential of system messages to optimize AI-driven solutions, there is a notable absence of a comprehensive benchmark for evaluating how well different LLMs follow these system messages. To fill this gap, we introduce SysBench, a benchmark that systematically analyzes system message following ability in terms of three challenging aspects: constraint complexity, instruction misalignment and multi-turn stability. In order to enable effective evaluation, SysBench constructs multi-turn user conversations covering various interaction relationships, based on six common types of constraints from system messages in real-world scenarios. Our dataset contains 500 system messages from various domains, each paired with 5 turns of user conversations, which have been manually formulated and checked to guarantee high quality. SysBench provides extensive evaluation across various LLMs, measuring their ability to follow specified constraints given in system messages. The results highlight both the strengths and weaknesses of existing models, offering key insights and directions for future research. The open source library SysBench is available at https://github.com/PKU-Baichuan-MLSystemLab/SysBench.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# HiRED:資源制約環境における高分解能ビジョンランゲージモデルの効率的な推論のための注意誘導型トークンドロップ

HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments ( http://arxiv.org/abs/2408.10945v1 )

ライセンス: Link先を確認
Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji, (参考訳) 高解像度ビジョンランゲージモデル (VLM) は、詳細な画像情報を保存することで精度を高めるために多モードタスクに広く用いられている。 しかし、これらのモデルは入力画像の複数のパーティションを符号化するため、過度な視覚トークンを生成することが多い。 これらの過剰なビジュアルトークンの処理は、特にコモディティGPUによるリソース制約のある環境では、計算的に困難である。 資源制約を満たしながら高解像度画像をサポートするために,大規模言語モデル(LLM)の段階で固定トークン予算内で機能するトークンドロップ方式であるHiRED(High-Resolution Early Dropping)を提案する。 HiREDは既存の高解像度のVLMとプラグイン・アンド・プレイで統合できる。 初期層における視覚エンコーダの注意を戦略的に利用し、各画像分割の視覚的内容を評価し、それに応じてトークン予算を割り当てる。 そして、最終レイヤの注意を使って、割り当てられた予算内の各パーティションから最も重要なビジュアルトークンを選択し、残りのトークンを削除します。 経験的に、NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用されると、20%のトークン予算を持つHiREDはトークン生成のスループットを4.7向上し、ファーストトケ生成のレイテンシを15秒短縮し、単一の推論のために2.3GBのGPUメモリを節約する。

High-resolution Vision-Language Models (VLMs) have been widely used in multimodal tasks to enhance accuracy by preserving detailed image information. However, these models often generate excessive visual tokens due to encoding multiple partitions of the input image. Processing these excessive visual tokens is computationally challenging, especially in resource-constrained environments with commodity GPUs. To support high-resolution images while meeting resource constraints, we propose High-Resolution Early Dropping (HiRED), a token-dropping scheme that operates within a fixed token budget before the Large Language Model (LLM) stage. HiRED can be integrated with existing high-resolution VLMs in a plug-and-play manner, as it requires no additional training while still maintaining superior accuracy. We strategically use the vision encoder's attention in the initial layers to assess the visual content of each image partition and allocate the token budget accordingly. Then, using the attention in the final layer, we select the most important visual tokens from each partition within the allocated budget, dropping the rest. Empirically, when applied to LLaVA-Next-7B on NVIDIA TESLA P40 GPU, HiRED with a 20% token budget increases token generation throughput by 4.7, reduces first-token generation latency by 15 seconds, and saves 2.3 GB of GPU memory for a single inference.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# 大規模言語モデル駆動レコメンデーション

Large Language Model Driven Recommendation ( http://arxiv.org/abs/2408.10946v1 )

ライセンス: Link先を確認
Anton Korikov, Scott Sanner, Yashar Deldjoo, Zhankui He, Julian McAuley, Arnau Ramisa, Rene Vidal, Mahesh Sathiamoorthy, Atoosa Kasrizadeh, Silvia Milano, Francesco Ricci, (参考訳) 以前の章では、購入、ビュー、クリックなど、標準化された非言語的ユーザフィードバックに基づくレコメンデーションシステム(RS)に焦点を当てていたが、LLMの出現により、レコメンデーションのための自然言語(NL)インタラクションの使用が解き放たれた。この章では、LLMの一般的なNL推論能力が、高度にパーソナライズされたRSを構築する新しい機会である、いかにして、ナンスされた多様なユーザの好みを、対話的な対話を通じて、効果的にアイテムに結び付けることができるかを論じる。 この議論を始めるために、まず言語による推薦のための主要なデータソースの分類を示し、項目記述、ユーザ・システム間相互作用、ユーザプロファイルについて述べる。 次に,LLMレコメンデーションの基本技術について検討し,エンコーダのみのレコメンデーションと自動回帰LLMレコメンデーションを調整および未調整の両方で利用する方法について検討する。 その後、マルチステージパイプラインにおいて、LLMがレトリバーやRSなどのコンポーネントと相互作用するマルチモジュールレコメンデーションアーキテクチャに移行する。 これにより、対話型レコメンデーションシステム(CRS)のアーキテクチャが実現し、LLMは、各ターンがレコメンデーションを行うだけでなく、対話型リコメンデーション、クオリティリング、質問応答を行う機会を提示するマルチターン対話を促進する。

While previous chapters focused on recommendation systems (RSs) based on standardized, non-verbal user feedback such as purchases, views, and clicks -- the advent of LLMs has unlocked the use of natural language (NL) interactions for recommendation. This chapter discusses how LLMs' abilities for general NL reasoning present novel opportunities to build highly personalized RSs -- which can effectively connect nuanced and diverse user preferences to items, potentially via interactive dialogues. To begin this discussion, we first present a taxonomy of the key data sources for language-driven recommendation, covering item descriptions, user-system interactions, and user profiles. We then proceed to fundamental techniques for LLM recommendation, reviewing the use of encoder-only and autoregressive LLM recommendation in both tuned and untuned settings. Afterwards, we move to multi-module recommendation architectures in which LLMs interact with components such as retrievers and RSs in multi-stage pipelines. This brings us to architectures for conversational recommender systems (CRSs), in which LLMs facilitate multi-turn dialogues where each turn presents an opportunity not only to make recommendations, but also to engage with the user in interactive preference elicitation, critiquing, and question-answering.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# GAIM:逆の影響最大化によるグラフニューラルネットワークの攻撃

GAIM: Attacking Graph Neural Networks via Adversarial Influence Maximization ( http://arxiv.org/abs/2408.10948v1 )

ライセンス: Link先を確認
Xiaodong Yang, Xiaoting Li, Huiyuan Chen, Yiwei Cai, (参考訳) 近年の研究では、グラフ構造やノード機能に関するよく検討された摂動が、トレーニングされたグラフニューラルネットワーク(GNN)モデルを誤って引き起こすことが示されている。 しかし、これらの手法は、しばしば実践的な仮定を見落とし、ヒューリスティックに過度に頼りすぎ、または別の重要な攻撃要素を見落としている。 そこで我々は,厳格なブラックボックス設定を考慮しつつ,ノード特徴量に基づく統合的敵攻撃手法であるGAIMを提案する。 具体的には,ノード摂動の対角的影響を理論的に評価する対角的影響関数を定義し,GNN攻撃問題を対角的影響最大化問題に再フレーミングする。 提案手法では,目的ノードの選択と特徴摂動の構成を単一最適化問題に統一し,目的ノード毎に一貫した特徴摂動を確保する。 我々は、サロゲートモデルを利用してこの問題を解決可能な線形プログラミングタスクに変換し、最適化プロセスを合理化します。 さらに,ラベル指向攻撃に対応する手法を拡張し,適用範囲を広げた。 3つの人気モデルを対象とした5つのベンチマークデータセットの詳細な評価は、未ターゲットとラベル指向のターゲットアタックの両方において、我々の手法の有効性を裏付けるものである。 包括的分析とアブレーション研究を通じて、設計選択に固有の実用的価値と有効性を示す。

Recent studies show that well-devised perturbations on graph structures or node features can mislead trained Graph Neural Network (GNN) models. However, these methods often overlook practical assumptions, over-rely on heuristics, or separate vital attack components. In response, we present GAIM, an integrated adversarial attack method conducted on a node feature basis while considering the strict black-box setting. Specifically, we define an adversarial influence function to theoretically assess the adversarial impact of node perturbations, thereby reframing the GNN attack problem into the adversarial influence maximization problem. In our approach, we unify the selection of the target node and the construction of feature perturbations into a single optimization problem, ensuring a unique and consistent feature perturbation for each target node. We leverage a surrogate model to transform this problem into a solvable linear programming task, streamlining the optimization process. Moreover, we extend our method to accommodate label-oriented attacks, broadening its applicability. Thorough evaluations on five benchmark datasets across three popular models underscore the effectiveness of our method in both untargeted and label-oriented targeted attacks. Through comprehensive analysis and ablation studies, we demonstrate the practical value and efficacy inherent to our design choices.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# Wave-Mask/Mix:時系列予測のためのウェーブレットに基づく拡張探索

Wave-Mask/Mix: Exploring Wavelet-Based Augmentations for Time Series Forecasting ( http://arxiv.org/abs/2408.10951v1 )

ライセンス: Link先を確認
Dona Arabi, Jafar Bakhshaliyev, Ayse Coskuner, Kiran Madhusudhanan, Kami Serdar Uckardes, (参考訳) データ拡張は、限られた実世界のデータに直面した場合、機械学習モデルのパフォーマンスを改善するために重要である。 金融、医療、製造業といった分野において正確な予測が重要である時系列予測(TSF)では、時間的一貫性を維持するために伝統的な分類タスクの強化方法が不十分である。 本研究では、離散ウェーブレット変換(DWT)を用いて、時系列データの時間依存性を保ちながら周波数要素を調整する2つの拡張手法を提案する。 提案手法であるウェーブレット・マスキング(WaveMask)とウェーブレット・ミキシング(WaveMix)は,様々な予測地平線上で確立されたベースラインに対して評価される。 我々の知る限りでは、離散ウェーブレット変換を拡張手法として多変量時系列の広範な実験を行うのは、これが初めてである。 実験により,本手法は従来手法と競合する結果が得られた。 また、ダウンサンプルトレーニングデータセットを用いたコールドスタート予測についても検討し、その結果をベースライン手法と比較する。

Data augmentation is important for improving machine learning model performance when faced with limited real-world data. In time series forecasting (TSF), where accurate predictions are crucial in fields like finance, healthcare, and manufacturing, traditional augmentation methods for classification tasks are insufficient to maintain temporal coherence. This research introduces two augmentation approaches using the discrete wavelet transform (DWT) to adjust frequency elements while preserving temporal dependencies in time series data. Our methods, Wavelet Masking (WaveMask) and Wavelet Mixing (WaveMix), are evaluated against established baselines across various forecasting horizons. To the best of our knowledge, this is the first study to conduct extensive experiments on multivariate time series using Discrete Wavelet Transform as an augmentation technique. Experimental results demonstrate that our techniques achieve competitive results with previous methods. We also explore cold-start forecasting using downsampled training datasets, comparing outcomes to baseline methods.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# バングラ手書きチャレクタ認識のための組込み伝達学習を用いた多チャンネルアテンションネットワーク

Multichannel Attention Networks with Ensembled Transfer Learning to Recognize Bangla Handwritten Charecter ( http://arxiv.org/abs/2408.10955v1 )

ライセンス: Link先を確認
Farhanul Haque, Md. Al-Hasan, Sumaiya Tabssum Mou, Abu Saleh Musa Miah, Jungpil Shin, Md Abdur Rahim, (参考訳) ベンガル語は世界で5番目に話されている言語であり、7番目に話されている言語である。 しかし、英語、アラビア語、トルコ語、中国語などの他の言語は、手書き文字認識システムの開発に大きく貢献している。 それでも、ベンガル文字認識についてはほとんど研究されていないのは、文字、曲率、その他の複雑さの類似性のためである。 しかし、多くの研究者はベンガルの手書き認識を行うために、伝統的な機械学習とディープラーニングモデルを使用してきた。 この研究では、アンサンブルトランスファーラーニングとマルチチャネルアテンションネットワークを備えた畳み込みニューラルネットワーク(CNN)を用いた。 我々は、インセプションネットとResNetを含むCNNの2つのブランチからこの機能を生成し、それらを結合してアンサンブル機能融合を生成した。 その後,アテンションモジュールを適用し,アンサンブルの特徴からコンテキスト情報を生成する。 最後に,特徴と分類を洗練させるために分類モジュールを適用した。 提案手法をCAMTERdb 3.1.2データセットを用いて評価し, 原データセットの精度92\%, 前処理データセットの精度98.00\%を達成した。 我々はベンガル文字認識領域への我々の貢献が大きな発展とみなすだろうと考えている。

The Bengali language is the 5th most spoken native and 7th most spoken language in the world, and Bengali handwritten character recognition has attracted researchers for decades. However, other languages such as English, Arabic, Turkey, and Chinese character recognition have contributed significantly to developing handwriting recognition systems. Still, little research has been done on Bengali character recognition because of the similarity of the character, curvature and other complexities. However, many researchers have used traditional machine learning and deep learning models to conduct Bengali hand-written recognition. The study employed a convolutional neural network (CNN) with ensemble transfer learning and a multichannel attention network. We generated the feature from the two branches of the CNN, including Inception Net and ResNet and then produced an ensemble feature fusion by concatenating them. After that, we applied the attention module to produce the contextual information from the ensemble features. Finally, we applied a classification module to refine the features and classification. We evaluated the proposed model using the CAMTERdb 3.1.2 data set and achieved 92\% accuracy for the raw dataset and 98.00\% for the preprocessed dataset. We believe that our contribution to the Bengali handwritten character recognition domain will be considered a great development.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# 数量子系におけるアクティブステアリングプロトコルの誤差しきい値

Error threshold in active steering protocols for few-qubit systems ( http://arxiv.org/abs/2408.10960v1 )

ライセンス: Link先を確認
Nico Ackermann, Samuel Morales, Alfredo Levy Yeyati, Sebastian Diehl, Reinhold Egger, (参考訳) 振幅および位相雑音による誤差チャネルの存在下での弱測定量子ビットのアクティブステアリングプロトコルについて検討した。 エラーレートが十分に小さい場合、プロトコルは、高忠実で高純度な事前指定された純粋なターゲット状態にアプローチし、安定化し、自律的な状態安定化を実現する。 本稿では,Andreev qubit 回路を例に,1量子ビットと2量子ビットの数値シミュレーション結果を提案する。 誤差率の関数として、シャープしきい値により、目標状態に到達できない強い損傷状態からエラー訂正弱損傷状態が分離される。 しきい値において、純度ギャップは閉じる。

We study active steering protocols for weakly measured qubits in the presence of error channels due to amplitude and phase noise. If the error rate is sufficiently small, the protocol approaches and stabilizes a predesignated pure target state with high fidelity and high purity, and thus implements autonomous state stabilization. We present numerical simulation results for one and two qubits, taking Andreev qubit circuits as example. As function of the error rate, a sharp threshold separates an error-correcting weak-damping regime from a strong-damping regime where the target state cannot be reached anymore. At the threshold, the purity gap closes.
翻訳日:2024-08-21 13:05:41 公開日:2024-08-20
# NLP for the Greek Language: A Longer Survey

NLP for The Greek Language: A Longer Survey ( http://arxiv.org/abs/2408.10962v1 )

ライセンス: Link先を確認
Katerina Papantoniou, Yannis Tzitzikas, (参考訳) 自然言語処理(NLP)コミュニティは、ギリシャ語のような他の言語とともに、提供されたメソッドやツール、リソースに関して遅れを取っている。 NLPへの関心が高まっているため、本稿では過去30年間にわたるギリシア語の自動処理の研究努力を凝縮させようとする。 特に、さまざまな処理層やコンテキストに応じて分類された関連する作業、リソース、ツールをリストアップし、簡単に議論する。 我々は現代ギリシア語の形式に限らず、古代ギリシア語や様々なギリシア語の方言もカバーしている。 この調査は、ギリシャ語のNLPタスク、情報検索、知識管理に関心のある研究者や学生に有用である。

English language is in the spotlight of the Natural Language Processing (NLP) community with other languages, like Greek, lagging behind in terms of offered methods, tools and resources. Due to the increasing interest in NLP, in this paper we try to condense research efforts for the automatic processing of Greek language covering the last three decades. In particular, we list and briefly discuss related works, resources and tools, categorized according to various processing layers and contexts. We are not restricted to the modern form of Greek language but also cover Ancient Greek and various Greek dialects. This survey can be useful for researchers and students interested in NLP tasks, Information Retrieval and Knowledge Management for the Greek language.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# ISLES'24:マルチモーダル画像と臨床データを用いた虚血性脳梗塞の最終梗塞予測の改善

ISLES'24: Improving final infarct prediction in ischemic stroke using multimodal imaging and clinical data ( http://arxiv.org/abs/2408.10966v1 )

ライセンス: Link先を確認
Ezequiel de la Rosa, Ruisheng Su, Mauricio Reyes, Roland Wiest, Evamaria O. Riedel, Florian Kofler, Kaiyuan Yang, Hakim Baazaoui, David Robben, Susanne Wegener, Jan S. Kirschke, Benedikt Wiestler, Bjoern Menze, (参考訳) 虚血性脳卒中治療決定には, コア(不可逆的損傷組織)とペナムブラ量(保存可能な組織)の正確な推定が不可欠である。 臨床標準である灌流CTは、これらのボリュームを推定するが、デコンボリューションアルゴリズム、実装、しきい値のバリエーションによって影響を受ける。 コア組織は時間とともに成長し、血栓の位置、側方循環、患者固有の要因によって成長する。 この組織成長を理解することは、患者を包括的脳卒中センターに移す必要性を判断し、機械的血栓摘出術における再灌流の試みの利点を予測し、最終的な臨床結果を予測するために重要である。 本研究はISLES'24課題であり, 術前急性期脳梗塞画像と臨床データから最終治療後の脳梗塞予測に対処するものである。 ISLES'24は、全CT急性期脳梗塞画像、亜急性経過MRI、臨床表データなど、参加者がアクセス可能なすべての臨床データを利用できるような、ユニークな360度設定を確立している。 ISLES'24チャレンジを通じて、最終脳梗塞セグメンテーションアルゴリズムの標準化ベンチマークを導入し、マルチモーダルイメージングと臨床データ戦略による梗塞セグメンテーションの洞察を、細かなキュレートされたデータセット上での優れた手法を特定することによって提供する。 この課題の成果は、臨床意思決定の強化と患者の予後予測の改善に期待されている。 データ、性能評価スクリプト、主要なアルゴリズム戦略を含む全てのISLES'24素材は、研究コミュニティで利用可能である。

Accurate estimation of core (irreversibly damaged tissue) and penumbra (salvageable tissue) volumes is essential for ischemic stroke treatment decisions. Perfusion CT, the clinical standard, estimates these volumes but is affected by variations in deconvolution algorithms, implementations, and thresholds. Core tissue expands over time, with growth rates influenced by thrombus location, collateral circulation, and inherent patient-specific factors. Understanding this tissue growth is crucial for determining the need to transfer patients to comprehensive stroke centers, predicting the benefits of additional reperfusion attempts during mechanical thrombectomy, and forecasting final clinical outcomes. This work presents the ISLES'24 challenge, which addresses final post-treatment stroke infarct prediction from pre-interventional acute stroke imaging and clinical data. ISLES'24 establishes a unique 360-degree setting where all feasibly accessible clinical data are available for participants, including full CT acute stroke imaging, sub-acute follow-up MRI, and clinical tabular data. The contributions of this work are two-fold: first, we introduce a standardized benchmarking of final stroke infarct segmentation algorithms through the ISLES'24 challenge; second, we provide insights into infarct segmentation using multimodal imaging and clinical data strategies by identifying outperforming methods on a finely curated dataset. The outputs of this challenge are anticipated to enhance clinical decision-making and improve patient outcome predictions. All ISLES'24 materials, including data, performance evaluation scripts, and leading algorithmic strategies, are available to the research community following \url{https://isles-24.grand-challenge.org/}.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# 集団自然発光における光の空間的コヒーレンスに関する数値的研究

A numerical study of the spatial coherence of light in collective spontaneous emission ( http://arxiv.org/abs/2408.10975v1 )

ライセンス: Link先を確認
Deniz Yavuz, Anirudh Yadav, David Gold, Thad Walker, Mark Saffman, (参考訳) 希薄な原子集合から放射される光の空間的コヒーレンスについて数値的研究を行う。 空間コヒーレンス(空間コヒーレンス)は、原子と光の集合(協調)カップリングの結果確立され、レーザーのコヒーレンスと質的に異なる。 具体的には、集団自然放出のコヒーレンスは、集団の反転と刺激された放出に依存しず、ダイポールのアンチ・ファスティング(サブラディアンス)によって制御され、観測されたコヒーレンスの主要なフィギュア・オブ・メリットはN/(L/{\lambda})である。 ここで、N はアンサンブル中の原子の数、L はサンプルのサイズ、そして {\lambda} は発光された光の波長である。

We present a numerical study of the spatial coherence of light that is radiated from a dilute ensemble of atoms. The spatial coherence is established as a result of the collective (cooperative) coupling of the atoms to the light, and is qualitatively different from the coherence of a laser. Specifically, the coherence in collective spontaneous emission does not rely on population inversion and stimulated emission, is governed by anti-phasing of the dipoles (subradiance), and the key figure-of-merit for the observed coherence is N /(L/{\lambda}) . Here, N is the number of atoms in the ensemble, L is the size of the sample, and {\lambda} is the wavelength of the emitted light.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# 非パラメトリック非巡回グラフモデルのカーネルベース微分可能学習

Kernel-Based Differentiable Learning of Non-Parametric Directed Acyclic Graphical Models ( http://arxiv.org/abs/2408.10976v1 )

ライセンス: Link先を確認
Yurou Liang, Oleksandr Zadorozhnyi, Mathias Drton, (参考訳) 因果発見は因果モデルを符号化する有向非巡回グラフ (DAG) を学ぶことに相当する。 このモデル選択問題は、特に非パラメトリック因果モデルを扱う場合、その大きな組合せ探索空間のために困難である。 近年の研究では、因果探索を連続的な最適化問題として修正し、グラフの非巡回性を保証する制約を用いることで、組合せ探索を回避しようとしている。 非パラメトリックな設定では、既存のアプローチは一般にノード間の関係の有限次元近似に依存し、滑らかな非循環性制約を持つスコアベースの連続最適化問題をもたらす。 本研究では、再生カーネルヒルベルト空間(RKHS)を活用し、偏微分に基づく一般空間性誘導正規化項を適用することで、代替近似法を開発する。 本枠組みでは,拡張されたRKHS代表者定理を導入する。 非サイクリック性を強制するために、非サイクリック性制約の対数決定的定式化を提唱し、その安定性を示す。 最後に,RKHS-DAGMA法の性能評価を行った。

Causal discovery amounts to learning a directed acyclic graph (DAG) that encodes a causal model. This model selection problem can be challenging due to its large combinatorial search space, particularly when dealing with non-parametric causal models. Recent research has sought to bypass the combinatorial search by reformulating causal discovery as a continuous optimization problem, employing constraints that ensure the acyclicity of the graph. In non-parametric settings, existing approaches typically rely on finite-dimensional approximations of the relationships between nodes, resulting in a score-based continuous optimization problem with a smooth acyclicity constraint. In this work, we develop an alternative approximation method by utilizing reproducing kernel Hilbert spaces (RKHS) and applying general sparsity-inducing regularization terms based on partial derivatives. Within this framework, we introduce an extended RKHS representer theorem. To enforce acyclicity, we advocate the log-determinant formulation of the acyclicity constraint and show its stability. Finally, we assess the performance of our proposed RKHS-DAGMA procedure through simulations and illustrative data analyses.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# 音韻とイデオロギー文字の仮想漢字への融合--中国語と英語を基礎として-

The fusion of phonography and ideographic characters into virtual Chinese characters -- Based on Chinese and English ( http://arxiv.org/abs/2408.10979v1 )

ライセンス: Link先を確認
Hongfa Zi, Zhen Liu, (参考訳) 現代の国で使われる文字は、主にイデオロギー的文字と音声的文字に分けられ、どちらも長所と短所がある。 中国語は習得し難く、習得し易いが、英語は習得し易いが、語彙は大きい。 両方の言語の利点を組み合わせ、メモリ容量を減らし、単語を形作ることができ、習得しやすい言語は、いまだに存在しない。 したがって、結合可能な新しい文字を発明し、深い知識を広め、コミュニケーションを通じて紛争を減らすことができる。 まず、その語彙、情報内容、深層科学知識の習得の容易さなど、中国語と英語の長所と短所を観察し、新たな書記システムを構築する。 そして、比較分析を用いて、新しい言語の総得点を観察する。 この論文を通じて、新しいテキストは、ピクトグラフィとアルファベット文の両方の利点を組み合わせていると結論付けることができる: 単語に結合できる新しい文字は、学習すべき語彙を減らす; 特別な接頭辞では、初心者が、見知らぬ単語のおよそのカテゴリーと意味を素早く推測できる; 新しい文字は、人間がより高度な知識を素早く習得することができる。

The characters used in modern countries are mainly divided into ideographic characters and phonetic characters, both of which have their advantages and disadvantages. Chinese is difficult to learn and easy to master, while English is easy to learn but has a large vocabulary. There is still no language that combines the advantages of both languages and has less memory capacity, can form words, and is easy to learn. Therefore, inventing new characters that can be combined and the popularization of deep knowledge, and reduce disputes through communication. Firstly, observe the advantages and disadvantages of Chinese and English, such as their vocabulary, information content, and ease of learning in deep scientific knowledge, and create a new writing system. Then, use comparative analysis to observe the total score of the new language. Through this article, it can be concluded that the new text combines the advantages of both pictographic and alphabetical writing: new characters that can be combined into words reduces the vocabulary that needs to be learned; Special prefixes allow beginners to quickly guess the approximate category and meaning of unseen words; New characters can enable humans to quickly learn more advanced knowledge.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# モデル違反による量子誤差緩和における系統的誤差の境界

Bounding the systematic error in quantum error mitigation due to model violation ( http://arxiv.org/abs/2408.10985v1 )

ライセンス: Link先を確認
L. C. G. Govia, S. Majumder, S. V. Barron, B. Mitchell, A. Seif, Y. Kim, C. J. Wood, E. J. Pritchett, S. T. Merkel, D. C. McKay, (参考訳) 量子エラー軽減は、量子ユーティリティを達成するための有望な経路であり、短期的には潜在的に量子的優位性である。 多くの最先端のエラー軽減スキームは、量子プロセッサのエラーに関する知識を使用しており、エラーモデルにおける不正確さがエラー軽減のパフォーマンスにどの程度影響するかという疑問を提起している。 本研究では,誤りモデルの不正確さがエラー軽減に与える影響について,上界を効率的に計算する手法を開発した。 我々のプロトコルは、追加の実験を必要とせず、代わりに、エラーモデルと、モデルが生成されるエラー学習データの比較に依存する。 我々は,IBM 量子超伝導量子ビット量子プロセッサ上に実装し,標準誤差モデルの数値シミュレーションにより提案手法の有効性を実証する。 推定上界は、通常、ランダム回路上での誤差軽減の最悪の観測性能に近いことが示される。 提案手法は, 誤差モデルの品質を評価するための操作的に意味のある指標として理解することができ, さらに, 誤差モデルの比較を可能にするため, 方法論をさらに拡張する。 最後に、十分な深さのノイズのある層状回路における可観測誤差が、独立な興味を持つクリフォード回路によって常に最大化されることは、予想に反している。

Quantum error mitigation is a promising route to achieving quantum utility, and potentially quantum advantage in the near-term. Many state-of-the-art error mitigation schemes use knowledge of the errors in the quantum processor, which opens the question to what extent inaccuracy in the error model impacts the performance of error mitigation. In this work, we develop a methodology to efficiently compute upper bounds on the impact of error-model inaccuracy in error mitigation. Our protocols require no additional experiments, and instead rely on comparisons between the error model and the error-learning data from which the model is generated. We demonstrate the efficacy of our methodology by deploying it on an IBM Quantum superconducting qubit quantum processor, and through numerical simulation of standard error models. We show that our estimated upper bounds are typically close to the worst observed performance of error mitigation on random circuits. Our methodology can also be understood as an operationally meaningful metric to assess the quality of error models, and we further extend our methodology to allow for comparison between error models. Finally, contrary to what one might expect we show that observable error in noisy layered circuits of sufficient depth is not always maximized by a Clifford circuit, which may be of independent interest.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# 拡散確率モデルを用いた平面超音波画像のノイズ化

Denoising Plane Wave Ultrasound Images Using Diffusion Probabilistic Models ( http://arxiv.org/abs/2408.10987v1 )

ライセンス: Link先を確認
Hojat Asgariandehkordi, Sobhan Goudarzi, Mostafa Sharifzadeh, Adrian Basarab, Hassan Rivaz, (参考訳) 超音波平面波イメージングは、高フレームレートイメージングを可能にする最先端技術である。 しかし、高フレームレート超音波画像にかかわる1つの課題は、それらにかかわる高ノイズであり、より広範に採用されるのを妨げている。 そのため,平面波画像の品質向上には,デノナイズ法の開発が不可欠となる。 DDPM(Denoising Diffusion Probabilistic Models)からインスピレーションを得て,提案手法は平面波画像の品質向上を目的としている。 具体的には、低角複合平面波と高角複合平面波との区別をノイズとみなし、DDPMをビームフォーミング電波周波数(RF)データに適応させることにより効果的に除去する。 この手法は400枚のシミュレーション画像のみを用いて訓練を行った。 さらに,本手法では,生成した画像の強度マップとして自然画像分割マスクを用い,解剖学的形状の精度向上を図る。 提案手法は, シミュレーション, ファントム, 生体内画像間で評価した。 評価の結果,本手法はシミュレーションデータにおける画像品質を高めるだけでなく,画像品質の観点からファントムデータとインビボデータに効果を示すことが示された。 他の手法との比較分析は,提案手法の様々な評価指標における優位性を裏付けるものである。 ソースコードとトレーニングされたモデルは、データセットとともにリリースされます。

Ultrasound plane wave imaging is a cutting-edge technique that enables high frame-rate imaging. However, one challenge associated with high frame-rate ultrasound imaging is the high noise associated with them, hindering their wider adoption. Therefore, the development of a denoising method becomes imperative to augment the quality of plane wave images. Drawing inspiration from Denoising Diffusion Probabilistic Models (DDPMs), our proposed solution aims to enhance plane wave image quality. Specifically, the method considers the distinction between low-angle and high-angle compounding plane waves as noise and effectively eliminates it by adapting a DDPM to beamformed radiofrequency (RF) data. The method underwent training using only 400 simulated images. In addition, our approach employs natural image segmentation masks as intensity maps for the generated images, resulting in accurate denoising for various anatomy shapes. The proposed method was assessed across simulation, phantom, and in vivo images. The results of the evaluations indicate that our approach not only enhances image quality on simulated data but also demonstrates effectiveness on phantom and in vivo data in terms of image quality. Comparative analysis with other methods underscores the superiority of our proposed method across various evaluation metrics. The source code and trained model will be released along with the dataset at: http://code.sonography.ai
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# 画像分解保存による顔面変形

Facial Demorphing via Identity Preserving Image Decomposition ( http://arxiv.org/abs/2408.10993v1 )

ライセンス: Link先を確認
Nitish Shukla, Arun Ross, (参考訳) 通常、2つの異なるアイデンティティに関連する顔画像を組み合わせて顔形態を作成する。 目標は、顔認証システムのセキュリティを損なうために、2つのアイデンティティとマッチング可能な画像を生成することである。 この問題に対処するため、いくつかのモルヒネ攻撃検出技術が開発されている。 しかし、これらの手法は、それらの生成に使用されるボナフィドの基盤に関する情報を抽出しない。 変形はこの制限に対処する。 しかし、現在のデフォーミング技術は、主に参照ベースであり、すなわち、もう一方を回復するためには、アイデンティティの1つをイメージする必要がある。 本研究では,デモルファスを不適切な分解問題として扱う。 参照不要でボナファイドを高精度に回収する手法を提案する。 本手法では,形態をいくつかの特徴成分に分解する。 合併ネットワークは、これらのコンポーネントを重み付け、結合してボナフィドを回収する。 本手法は, 高品質なボナファイドを定義・忠実度で再構成する。 CASIA-WebFace, SMDD, AMSLデータセットを用いた実験により, 本手法の有効性が示された。

A face morph is created by combining the face images usually pertaining to two distinct identities. The goal is to generate an image that can be matched with two identities thereby undermining the security of a face recognition system. To deal with this problem, several morph attack detection techniques have been developed. But these methods do not extract any information about the underlying bonafides used to create them. Demorphing addresses this limitation. However, current demorphing techniques are mostly reference-based, i.e, they need an image of one of the identities to recover the other. In this work, we treat demorphing as an ill-posed decomposition problem. We propose a novel method that is reference-free and recovers the bonafides with high accuracy. Our method decomposes the morph into several identity-preserving feature components. A merger network then weighs and combines these components to recover the bonafides. Our method is observed to reconstruct high-quality bonafides in terms of definition and fidelity. Experiments on the CASIA-WebFace, SMDD and AMSL datasets demonstrate the effectiveness of our method.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# マイクロサテライトを用いたリアルタイム量子鍵分布

Microsatellite-based real-time quantum key distribution ( http://arxiv.org/abs/2408.10994v1 )

ライセンス: Link先を確認
Yang Li, Wen-Qi Cai, Ji-Gang Ren, Chao-Ze Wang, Meng Yang, Liang Zhang, Hui-Ying Wu, Liang Chang, Jin-Cai Wu, Biao Jin, Hua-Jian Xue, Xue-Jiao Li, Hui Liu, Guang-Wen Yu, Xue-Ying Tao, Ting Chen, Chong-Fei Liu, Wen-Bin Luo, Jie Zhou, Hai-Lin Yong, Yu-Huai Li, Feng-Zhi Li, Cong Jiang, Hao-Ze Chen, Chao Wu, Xin-Hai Tong, Si-Jiang Xie, Fei Zhou, Wei-Yue Liu, Nai-Le Liu, Li Li, Feihu Xu, Yuan Cao, Juan Yin, Rong Shu, Xiang-Bin Wang, Qiang Zhang, Jian-Yu Wang, Sheng-Kai Liao, Cheng-Zhi Peng, Jian-Wei Pan, (参考訳) 量子ネットワークは、量子デバイスと革命的コンピューティング、センシング、通信能力を結ぶインフラストラクチャを提供する。 量子ネットワークの最もよく知られた応用として、量子鍵分布(QKD)は、量子力学の法則によって保証されるセキュアな鍵を共有する。 量子衛星コンステレーションは、グローバルスケールでの量子ネットワークを促進するソリューションを提供する。 ミシウス衛星は、衛星量子通信の実現可能性を確認しているが、量子衛星の星座のスケールアップは困難であり、小型の軽量衛星、携帯型地上局、リアルタイム安全な鍵交換が必要である。 本稿では,これらの課題に取り組み,携帯型地上局を用いた空間間QKDを実現する量子マイクロサテライトの開発について報告する。 量子マイクロサテライトの重量は約23kg、携帯型地上ステーションの重量は約100kgである。 これらの重みは、ミシウス衛星と比較して、それぞれ1桁以上と2桁の減少を表す。 さらに、量子通信と双方向衛星地上光通信を多重化することにより、キー蒸留とセキュア通信をリアルタイムに実現する。 マイクロサテライトと携帯型地上局を用いて、複数の地上局で衛星ベースのQKDを実証し、単一の衛星パス中に最大0.09万ビットのセキュアキーを共有する。 コンパクトな量子ペイロードは、既存の宇宙ステーションや小さな衛星に簡単に組み立てることができる。

A quantum network provides an infrastructure connecting quantum devices with revolutionary computing, sensing, and communication capabilities. As the best-known application of a quantum network, quantum key distribution (QKD) shares secure keys guaranteed by the laws of quantum mechanics. A quantum satellite constellation offers a solution to facilitate the quantum network on a global scale. The Micius satellite has verified the feasibility of satellite quantum communications, however, scaling up quantum satellite constellations is challenging, requiring small lightweight satellites, portable ground stations and real-time secure key exchange. Here we tackle these challenges and report the development of a quantum microsatellite capable of performing space-to-ground QKD using portable ground stations. The quantum microsatellite features a payload weighing approximately 23 kg, while the portable ground station weighs about 100 kg. These weights represent reductions by more than an order and two orders of magnitude, respectively, compared to the Micius satellite. Additionally, we multiplex bidirectional satellite-ground optical communication with quantum communication, enabling key distillation and secure communication in real-time. Using the microsatellite and the portable ground stations, we demonstrate satellite-based QKD with multiple ground stations and achieve the sharing of up to 0.59 million bits of secure keys during a single satellite pass. The compact quantum payload can be readily assembled on existing space stations or small satellites, paving the way for a satellite-constellation-based quantum and classical network for widespread real-life applications.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# CTP-LLM:大規模言語モデルを用いた臨床試験相転移予測

CTP-LLM: Clinical Trial Phase Transition Prediction Using Large Language Models ( http://arxiv.org/abs/2408.10995v1 )

ライセンス: Link先を確認
Michael Reinisch, Jianfeng He, Chenxi Liao, Sauleh Ahmad Siddiqui, Bei Xiao, (参考訳) 新しい医療開発には、臨床試験の複数のフェーズが必要です。 医薬品を市場に出すための人的および財政的なコストは大きいが、テスト中の薬物の20%未満は、第1フェーズから最終承認までそれを実現する。 近年の文献では、トライアルプロトコルの設計がトライアル性能に大きく寄与していることが示されている。 臨床治験結果予測 (CTOP) を試験設計文書を用いて検討し, 自動的に相転移を予測した。 本稿では,CTOPのためのCTP-LLM(Large Language Model:LLM)モデルを提案する。 また、規制プロセスの進捗に基づいて試行をラベル付けし、CTOP評価のベンチマークとして機能するフェーズトランジション(PT)データセットについても紹介する。 GPT-3.5-based model (CTP-LLM) は,ヒトに選択された特徴を必要とせず,試験のオリジナルプロトコルテキストを解析することにより臨床治験相転移を予測する。 CTP-LLMは、全ての相にわたる試行段階の遷移を予測する場合の67%の精度率と、第III相から最終承認までの遷移を予測する場合の75%の精度率を達成する。 臨床治験結果の予測と治験設計の評価において, LLMを活用した応用の可能性を強調した。

New medical treatment development requires multiple phases of clinical trials. Despite the significant human and financial costs of bringing a drug to market, less than 20% of drugs in testing will make it from the first phase to final approval. Recent literature indicates that the design of the trial protocols significantly contributes to trial performance. We investigated Clinical Trial Outcome Prediction (CTOP) using trial design documents to predict phase transitions automatically. We propose CTP-LLM, the first Large Language Model (LLM) based model for CTOP. We also introduce the PhaseTransition (PT) Dataset; which labels trials based on their progression through the regulatory process and serves as a benchmark for CTOP evaluation. Our fine-tuned GPT-3.5-based model (CTP-LLM) predicts clinical trial phase transition by analyzing the trial's original protocol texts without requiring human-selected features. CTP-LLM achieves a 67% accuracy rate in predicting trial phase transitions across all phases and a 75% accuracy rate specifically in predicting the transition from Phase~III to final approval. Our experimental performance highlights the potential of LLM-powered applications in forecasting clinical trial outcomes and assessing trial design.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# ラドン変換によるソボレフ空間上のShallow ReLU$^k$ニューラルネットワークの近似速度

Approximation Rates for Shallow ReLU$^k$ Neural Networks on Sobolev Spaces via the Radon Transform ( http://arxiv.org/abs/2408.10996v1 )

ライセンス: Link先を確認
Tong Mao, Jonathan W. Siegel, Jinchao Xu, (参考訳) Omega\subset \mathbb{R}^d$ を有界領域とする。 我々は,ReLU$^k$アクティベーション関数がソボレフ空間$W^s(L_p(\Omega))$の関数を,$L_q(\Omega)$-normの誤差で近似できるという問題を考察する。 ラドン変換と最近の離散性理論の結果を利用して、$q\leq p$, $p\geq 2$, $s \leq k + (d+1)/2$ など、様々なケースで近似率がほぼ最適であるという簡単な証明を提供する。 我々が導出した速度は対数的因子に最適であり、既存の結果を著しく一般化する。 興味深い結果として、浅いReLU$^k$ニューラルネットワークの適応性は、固定次数$k$のピースワイズ多項式を表現したとしても、次数$s = k + (d+1)/2$までの滑らかさに対する最適近似率を得ることを可能にする。

Let $\Omega\subset \mathbb{R}^d$ be a bounded domain. We consider the problem of how efficiently shallow neural networks with the ReLU$^k$ activation function can approximate functions from Sobolev spaces $W^s(L_p(\Omega))$ with error measured in the $L_q(\Omega)$-norm. Utilizing the Radon transform and recent results from discrepancy theory, we provide a simple proof of nearly optimal approximation rates in a variety of cases, including when $q\leq p$, $p\geq 2$, and $s \leq k + (d+1)/2$. The rates we derive are optimal up to logarithmic factors, and significantly generalize existing results. An interesting consequence is that the adaptivity of shallow ReLU$^k$ neural networks enables them to obtain optimal approximation rates for smoothness up to order $s = k + (d+1)/2$, even though they represent piecewise polynomials of fixed degree $k$.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# 非母語音声理解における分節的要因と韻律的要因の相違

Disentangling segmental and prosodic factors to non-native speech comprehensibility ( http://arxiv.org/abs/2408.10997v1 )

ライセンス: Link先を確認
Waris Quamer, Ricardo Gutierrez-Osuna, (参考訳) 電流アクセント変換(AC)システムは、非ネイティブアクセントの2つの主要な源である分節的特性と韻律的特性を分離しない。 非ネイティブ話者のセグメンショナルチャネルや韻律チャネルを独立して操作できることは、これらの2つのチャンネルが音声の理解性と社会的態度にどのように貢献するかを定量化するために重要である。 本稿では,アクセントから声質を分離するだけでなく,後者を分節的・韻律的な特徴に分解するACシステムを提案する。 本システムは,(1)ソース発話からのセグメント特性,(2)ターゲット発話からの音声特性,(3)参照発話の韻律を組み合わせたアクセント変換を生成することができる。 音響埋め込みのベクトル量子化と連続的に重複するコードワードの除去により,韻律を伝達し,音声の類似性を向上させることができることを示す。 本研究では,非母語音声の知覚的理解度に係わる部分的特徴と韻律の個人的寄与を定量化するために,知覚的聴取テストを実施している。 本研究は,非母語音声の先行研究とは対照的に,分節的特徴が韻律よりも理解性に大きく影響していることを示す。 提案したACシステムは,非母国語に対する社会的態度にセグメンダルおよび韻律的手がかりがどのように影響するかを研究するためにも用いられる。

Current accent conversion (AC) systems do not disentangle the two main sources of non-native accent: segmental and prosodic characteristics. Being able to manipulate a non-native speaker's segmental and/or prosodic channels independently is critical to quantify how these two channels contribute to speech comprehensibility and social attitudes. We present an AC system that not only decouples voice quality from accent, but also disentangles the latter into its segmental and prosodic characteristics. The system is able to generate accent conversions that combine (1) the segmental characteristics from a source utterance, (2) the voice characteristics from a target utterance, and (3) the prosody of a reference utterance. We show that vector quantization of acoustic embeddings and removal of consecutive duplicated codewords allows the system to transfer prosody and improve voice similarity. We conduct perceptual listening tests to quantify the individual contributions of segmental features and prosody on the perceived comprehensibility of non-native speech. Our results indicate that, contrary to prior research in non-native speech, segmental features have a larger impact on comprehensibility than prosody. The proposed AC system may also be used to study how segmental and prosody cues affect social attitudes towards non-native speech.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# SenPa-MAE:マルチサテライト自己監督型事前学習のためのマズードオートエンコーダを意識したセンサパラメータ

SenPa-MAE: Sensor Parameter Aware Masked Autoencoder for Multi-Satellite Self-Supervised Pretraining ( http://arxiv.org/abs/2408.11000v1 )

ライセンス: Link先を確認
Jonathan Prexl, Michael Schmitt, (参考訳) 本稿では,観測されたマルチスペクトル信号のセンサパラメータを画像埋め込みに符号化するトランスフォーマーアーキテクチャであるSenPa-MAEを紹介する。 SenPa-MAEは、非マッチングスペクトルまたは幾何学的センサー特性を持つ異なる衛星の画像で事前訓練することができる。 センサパラメータを組み込んだ多目的センサパラメータ符号化モジュールと,事前学習データセットの多様化のためのデータ拡張戦略を提案する。 これにより、モデルが様々なセンサを効果的に区別し、センサパラメータと観測信号との相関を理解することができる。 地球観測衛星のミッション数の増加とセンサー仕様の多様性を考えると、我々のアプローチはセンサーに依存しない地球観測基盤モデルへの道のりをたどっている。 これにより、クロスセンサートレーニングやセンサ非依存推論といった可能性が開ける。

This paper introduces SenPa-MAE, a transformer architecture that encodes the sensor parameters of an observed multispectral signal into the image embeddings. SenPa-MAE can be pre-trained on imagery of different satellites with non-matching spectral or geometrical sensor characteristics. To incorporate sensor parameters, we propose a versatile sensor parameter encoding module as well as a data augmentation strategy for the diversification of the pre-training dataset. This enables the model to effectively differentiate between various sensors and gain an understanding of sensor parameters and the correlation to the observed signal. Given the rising number of Earth observation satellite missions and the diversity in their sensor specifications, our approach paves the way towards a sensor-independent Earth observation foundation model. This opens up possibilities such as cross-sensor training and sensor-independent inference.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# MegaFusion: さらなるチューニングを伴わない高解像度画像生成に向けた拡散モデルの拡張

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning ( http://arxiv.org/abs/2408.11001v1 )

ライセンス: Link先を確認
Haoning Wu, Shaocheng Shen, Qiang Hu, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, (参考訳) 拡散モデルは、その印象的な能力のためにテキスト・画像生成の最前線として登場した。 それでも、トレーニング中の画像の固定化は、意味的不正確さやオブジェクトの複製といった、高解像度な画像生成の課題につながることが多い。 本稿では,既存の拡散型テキスト・画像生成モデルを拡張したMegaFusionを提案する。 具体的には、様々な解像度でデノナイズ処理をブリッジするために、革新的なトランケートとリレー戦略を採用し、粗大な方法で高解像度の画像生成を可能にする。 さらに、拡張畳み込みとノイズ再スケジューリングを統合することで、モデルの事前値をより高分解能に適応させる。 MegaFusionの汎用性と有効性は、他の微分モデルとともに、潜在空間と画素空間の拡散モデルの両方に普遍的に適用することができる。 大規模な実験により、メガフュージョンは既存のモデルでメガピクセルの画像と様々なアスペクト比を生成する能力を大幅に向上させ、元の計算コストの約40%しか必要としないことを確認した。

Diffusion models have emerged as frontrunners in text-to-image generation for their impressive capabilities. Nonetheless, their fixed image resolution during training often leads to challenges in high-resolution image generation, such as semantic inaccuracies and object replication. This paper introduces MegaFusion, a novel approach that extends existing diffusion-based text-to-image generation models towards efficient higher-resolution generation without additional fine-tuning or extra adaptation. Specifically, we employ an innovative truncate and relay strategy to bridge the denoising processes across different resolutions, allowing for high-resolution image generation in a coarse-to-fine manner. Moreover, by integrating dilated convolutions and noise re-scheduling, we further adapt the model's priors for higher resolution. The versatility and efficacy of MegaFusion make it universally applicable to both latent-space and pixel-space diffusion models, along with other derivative models. Extensive experiments confirm that MegaFusion significantly boosts the capability of existing models to produce images of megapixels and various aspect ratios, while only requiring about 40% of the original computational cost.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# GitHubがコーディングでExcelをコパイロットする一方で、責任のあるアウトプットは保証されるか?

While GitHub Copilot Excels at Coding, Does It Ensure Responsible Output? ( http://arxiv.org/abs/2408.11006v1 )

ライセンス: Link先を確認
Wen Cheng, Ke Sun, Xinyu Zhang, Wei Wang, (参考訳) 大規模言語モデル(LLM)の急速な開発により、コード補完機能が大幅に向上し、LCCT(LLM-based Code Completion Tools)が新たに登場した。 汎用LLMとは異なり、これらのツールは独自のワークフローを持ち、複数の情報ソースをインプットとして統合し、自然言語のインタラクションよりもコード提案を優先する。 さらに、LCCTはトレーニングのためにプロプライエタリなコードデータセットを頼りにし、機密データの潜在的な露出に関する懸念を提起することが多い。 本稿では,LCCTのこれらの特徴を利用して,Jailbreakingとトレーニングデータ抽出攻撃の2つの重要なセキュリティリスクを標的とした攻撃手法を開発する。 実験結果は、GitHub Copilotに対するジェイルブレイク攻撃の99.4%の成功率、Amazon Qでの46.3%の成功率など、LCCT内の重大な脆弱性を明らかにしています。さらに、54のリアルメールアドレスと314の物理的アドレスを含む、GitHub Copilotから機密性の高いユーザデータを抽出しました。 また,GPTシリーズなどの汎用LLMに対して,コードベースの攻撃手法が有効であることを示すとともに,現代のLLMによるコード処理において,より広範なセキュリティ上のミスアライメントが強調されている。 これらの知見は,LCCTに関連する重要なセキュリティ上の課題を浮き彫りにし,セキュリティフレームワークの強化に不可欠な方向性を示唆している。 我々の研究のコードと攻撃サンプルは、https://github.com/Sensente/Security-Attacks-on-LCCTsで提供されている。

The rapid development of large language models (LLMs) has significantly advanced code completion capabilities, giving rise to a new generation of LLM-based Code Completion Tools (LCCTs). Unlike general-purpose LLMs, these tools possess unique workflows, integrating multiple information sources as input and prioritizing code suggestions over natural language interaction, which introduces distinct security challenges. Additionally, LCCTs often rely on proprietary code datasets for training, raising concerns about the potential exposure of sensitive data. This paper exploits these distinct characteristics of LCCTs to develop targeted attack methodologies on two critical security risks: jailbreaking and training data extraction attacks. Our experimental results expose significant vulnerabilities within LCCTs, including a 99.4% success rate in jailbreaking attacks on GitHub Copilot and a 46.3% success rate on Amazon Q. Furthermore, We successfully extracted sensitive user data from GitHub Copilot, including 54 real email addresses and 314 physical addresses associated with GitHub usernames. Our study also demonstrates that these code-based attack methods are effective against general-purpose LLMs, such as the GPT series, highlighting a broader security misalignment in the handling of code by modern LLMs. These findings underscore critical security challenges associated with LCCTs and suggest essential directions for strengthening their security frameworks. The example code and attack samples from our research are provided at https://github.com/Sensente/Security-Attacks-on-LCCTs.
翻訳日:2024-08-21 12:55:01 公開日:2024-08-20
# 水素中の電子と陽子間のエキゾチック相互作用の制限の改善

Improved constraints on exotic interactions between electron and proton in hydrogen ( http://arxiv.org/abs/2408.11009v1 )

ライセンス: Link先を確認
Lei Cong, Filip Ficek, Pavel Fadeev, Dmitry Budker, (参考訳) 原子分光法は、初等フェルミオン間のエキゾチックな力を運ぶ新しいボソンを探すために用いられる。 最近の精密測定法の比較 [Bullis \textit{et al }, Phys. Rev. Lett. 2S$_{1/2}$の電子レベルと最新の境界量子力学理論の超微細分裂の \textbf{130}, 203001 (2023)] は、それぞれ擬スカラー(軸方向)または軸方向ベクターボソンの交換に対応する次元を持たない結合強度の電子-陽子相互作用の制約を改善する。

Atomic spectroscopy can be used to search for new bosons that carry exotic forces between elementary fermions. A comparison of a recent precise measurement [Bullis \textit{et al.}, Phys. Rev. Lett. \textbf{130}, 203001 (2023)] of the hyperfine splitting of the 2S$_{1/2}$ electronic levels of hydrogen and up-to-date bound-state quantum electrodynamics theory yields improved constraints on electron-proton exotic interactions of the dimensionless coupling strengths $g_pg_p$ and $g_Ag_A$, corresponding to the exchange of a pseudoscalar (axionlike) or axial-vector boson, respectively.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# コンテキスト感性デンドライトの役割

An Overlooked Role of Context-Sensitive Dendrites ( http://arxiv.org/abs/2408.11019v1 )

ライセンス: Link先を確認
Mohsin Raza, Ahsan Adeel, (参考訳) これまで、ほとんどの樹状細胞研究は、高い知覚層からのフィードバック(FB)のみを受信し、学習に使用するピラミッド状2点ニューロン(TPN)の先端領域に主に焦点を当ててきた。 近年の細胞神経生理学と計算神経科学の研究は、フィードバックと横方向の接続から得られる触覚入力(コンテキスト)が多面的であり、より多様であり、脳の継続的な学習と処理に以前実現されたよりも大きな意味があることを示唆している。 FBに加えて、尖端タフトは、近位(P)コンテキストと同じネットワークの隣の細胞からの信号、遠位(D)コンテキストとしての脳の他の部分、ネットワーク全体のコヒーレント情報を普遍的(U)コンテキストとして受信する。 統合コンテキスト(C)は、それぞれコヒーレントなフィードフォワード(FF)信号の送信を増幅し、抑制する。 具体的には、複雑な文脈依存性(CS)-TPNは、CモーメントをソマのFFソマティック電流と柔軟に統合し、フィードフォワード(FF)とCの両方がコヒーレントであるときにソマティック電流を増幅することを示し、そうでなければ減衰する。 これにより、FF電流とC電流がコヒーレントである場合にのみイベントが生成され、FB情報に基づいて一重項またはバーストに変換される。 スパイキングシミュレーションの結果、このフレキシブルなソマティック電流とコンテキスト電流の統合により、よりコヒーレントな信号(バースト)の伝播が可能になり、より少ないニューロンで学習がより速くなることが示されている。 従来の人工ネットワークでは、バックプロパゲーション(BP)を用いてトレーニングされた大量の異種実世界のオーディオ視覚(AV)データを処理するために、ニューロンのオーダーを桁違いに少なくする必要がある。 ここでの計算結果はCS-TPNの普遍性を示し、以前は見過ごされていた樹状物語を示唆している。

To date, most dendritic studies have predominantly focused on the apical zone of pyramidal two-point neurons (TPNs) receiving only feedback (FB) connections from higher perceptual layers and using them for learning. Recent cellular neurophysiology and computational neuroscience studies suggests that the apical input (context), coming from feedback and lateral connections, is multifaceted and far more diverse, with greater implications for ongoing learning and processing in the brain than previously realized. In addition to the FB, the apical tuft receives signals from neighboring cells of the same network as proximal (P) context, other parts of the brain as distal (D) context, and overall coherent information across the network as universal (U) context. The integrated context (C) amplifies and suppresses the transmission of coherent and conflicting feedforward (FF) signals, respectively. Specifically, we show that complex context-sensitive (CS)-TPNs flexibly integrate C moment-by-moment with the FF somatic current at the soma such that the somatic current is amplified when both feedforward (FF) and C are coherent; otherwise, it is attenuated. This generates the event only when the FF and C currents are coherent, which is then translated into a singlet or a burst based on the FB information. Spiking simulation results show that this flexible integration of somatic and contextual currents enables the propagation of more coherent signals (bursts), making learning faster with fewer neurons. Similar behavior is observed when this functioning is used in conventional artificial networks, where orders of magnitude fewer neurons are required to process vast amounts of heterogeneous real-world audio-visual (AV) data trained using backpropagation (BP). The computational findings presented here demonstrate the universality of CS-TPNs, suggesting a dendritic narrative that was previously overlooked.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# Athena: 言語コントラスト学習による安全な自律エージェント

Athena: Safe Autonomous Agents with Verbal Contrastive Learning ( http://arxiv.org/abs/2408.11021v1 )

ライセンス: Link先を確認
Tanmana Sadhu, Ali Pesaranghader, Yanan Chen, Dong Hoon Yi, (参考訳) 創発的な能力のため、言語ベースのエージェントとして大規模言語モデル(LLM)が利用され、様々なタスクを実行し、より自律的な意思決定が可能になった。 これらの自律エージェントは、ハイレベルな命令を理解し、環境と対話し、利用可能なツールの選択を使用して複雑なタスクを実行することができる。 エージェントの能力が拡大するにつれて、安全性と信頼性の確保がより不可欠になる。 本研究では,過去の安全トラジェクトリを文脈内(コントラスト内)の例として用い,与えられたタスクを遂行しながらエージェントを安全に導くという,言語的コントラスト学習の概念を活用するアテナフレームワークを提案する。 このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。 さらに, LLMをベースとしたエージェントの安全性推論能力に関する既存のベンチマークが欠如しているため, 安全評価ベンチマークを提供するため, 8つのカテゴリに80のツールキットセットを180のシナリオでキュレートした。 閉鎖型およびオープンソース LLM を併用した実験により,言語的コントラスト学習と対話レベルの基準により安全性が著しく向上した。

Due to emergent capabilities, large language models (LLMs) have been utilized as language-based agents to perform a variety of tasks and make decisions with an increasing degree of autonomy. These autonomous agents can understand high-level instructions, interact with their environments, and execute complex tasks using a selection of tools available to them. As the capabilities of the agents expand, ensuring their safety and trustworthiness becomes more imperative. In this study, we introduce the Athena framework which leverages the concept of verbal contrastive learning where past safe and unsafe trajectories are used as in-context (contrastive) examples to guide the agent towards safety while fulfilling a given task. The framework also incorporates a critiquing mechanism to guide the agent to prevent risky actions at every step. Furthermore, due to the lack of existing benchmarks on the safety reasoning ability of LLM-based agents, we curate a set of 80 toolkits across 8 categories with 180 scenarios to provide a safety evaluation benchmark. Our experimental evaluation, with both closed- and open-source LLMs, indicates verbal contrastive learning and interaction-level critiquing improve the safety rate significantly.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# 学習速度アニーリングによる法則のスケーリング

Scaling Law with Learning Rate Annealing ( http://arxiv.org/abs/2408.11029v1 )

ライセンス: Link先を確認
Howe Tissue, Venus Wang, Lu Wang, (参考訳) ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップよりも熱いというスケーリング法則(s$):$$L(s) = L_0 + A\cdot S_1^{-\alpha} - C\cdot S_2$ ここでは$S_1$が前方、$S_2$が学習速度アニール領域である。 この定式化は,(1) 典型的なスケーリング法則として定義された前方スケーリング,(2) LRアニールによる損失減少の2つの要因を考慮に入れている。 したがって、この定式化は訓練終了時の単一損失点ではなく、各ステップにおける全損失曲線を記述することができる。 LRアニールによるスケーリング法則の適用により、任意のステップおよび学習速度スケジューラ(LRS)における言語モデルトレーニングの損失を正確に予測することができる。 さらに、この方程式は、トレーニング過程のダイナミクスを正確に記述し、従来の研究、特にLRスケジュールとLRアニーリングに焦点を当てた多くの実験結果に関する理論的検証と説明を提供する。 結果として得られた洞察は、我々の方程式を用いた予測によって、研究者が予め重要なLSSを選択するためのガイドとしても役立ちます。 さらに, 学習速度スケジューラを通した任意のステップにおいて, 言語モデリング損失に適合するために, チンチラスケーリング法で要求される計算コストの1/%以下を抑えながら, 学習速度スケジューラの任意のステップにおいて, 正確な損失予測を行うことができる。 このアプローチは、大規模言語モデルの開発において、スケーリング法則の適合と予測を極めて民主化する。

We find that the cross-entropy loss curves of neural language models empirically adhere to a scaling law with learning rate (LR) annealing over training steps ($s$): $$L(s) = L_0 + A\cdot S_1^{-\alpha} - C\cdot S_2$$ Where $S_1$ is forward area and $S_2$ is learning rate annealing area. This formulation takes into account two factors: (1) The forward scaling defined as typical scaling law, and (2) the additional loss drop brought by LR annealing. Therefore, this formulation can describe the full loss curve at each step, rather than the single loss point at the end of training. Applying the scaling law with LR annealing and fitting only one or two training curves, we can accurately predict the loss of language model training at any given step and across any learning rate scheduler (LRS). Furthermore, this equation accurately describes the dynamics during training process, and provides a theoretical verification and explanation for numerous experimental findings of previous studies, particularly those focusing on LR schedule and LR annealing. The resulting insights, also serve as a guide for researchers to select critical LRS in advance by prediction using our equation. Most significantly, since all the points in a full training curve follow the equation, we can achieve accurate loss prediction at any given step across any learning rate scheduler, while expending less than 1\% of the computational cost required by the chinchilla scaling law to fit language modeling loss. This approach extremely democratizes scaling law fitting and predicting in developing large language models.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# OpenScan: 一般化されたOpen-Vocabulary 3Dシーン理解のためのベンチマーク

OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding ( http://arxiv.org/abs/2408.11030v1 )

ライセンス: Link先を確認
Youjun Zhao, Jiaying Lin, Shuquan Ye, Qianshi Pang, Rynson W. H. Lau, (参考訳) Open-vocabulary 3D scene understanding (OV-3D) は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。 しかし、既存のアプローチやベンチマークは、主にオブジェクトクラスのコンテキストにおけるオープンな語彙の問題に焦点を当てており、モデルが3Dシーンをどの程度理解しているかを総合的に評価するには不十分である。 本稿では,オブジェクトクラスを超えたオープンな語彙問題を探索するために,GOV-3D(Generalized Open-Vocabulary 3D Scene Understanding)という,より困難なタスクを導入する。 オープンで多様な一般化された知識の集合を含み、細粒度とオブジェクト固有の属性の言語クエリとして表現される。 この目的のために、我々はOpenScanという名の新しいベンチマークを寄贈した。 我々はさらに,OpenScanベンチマークにおける最先端のOV-3D手法の評価を行い,これらの手法がGOV-3Dタスクの抽象語彙を理解するのに苦労していることを発見した。 既存の方法論の限界を強調し、特定された欠点を克服するための有望な方向を探る。 データとコードはhttps://github.com/YoujunZhao/OpenScanで入手できる。

Open-vocabulary 3D scene understanding (OV-3D) aims to localize and classify novel objects beyond the closed object classes. However, existing approaches and benchmarks primarily focus on the open vocabulary problem within the context of object classes, which is insufficient to provide a holistic evaluation to what extent a model understands the 3D scene. In this paper, we introduce a more challenging task called Generalized Open-Vocabulary 3D Scene Understanding (GOV-3D) to explore the open vocabulary problem beyond object classes. It encompasses an open and diverse set of generalized knowledge, expressed as linguistic queries of fine-grained and object-specific attributes. To this end, we contribute a new benchmark named OpenScan, which consists of 3D object attributes across eight representative linguistic aspects, including affordance, property, material, and more. We further evaluate state-of-the-art OV-3D methods on our OpenScan benchmark, and discover that these methods struggle to comprehend the abstract vocabularies of the GOV-3D task, a challenge that cannot be addressed by simply scaling up object classes during training. We highlight the limitations of existing methodologies and explore a promising direction to overcome the identified shortcomings. Data and code are available at https://github.com/YoujunZhao/OpenScan
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# ニューラルネットワークによるCO$_2$の大気輸送モデリング

Atmospheric Transport Modeling of CO$_2$ with Neural Networks ( http://arxiv.org/abs/2408.11032v1 )

ライセンス: Link先を確認
Vitus Benson, Ana Bastos, Christian Reimers, Alexander J. Winkler, Fanny Yang, Markus Reichstein, (参考訳) 大気中のCO$_2$の分布を大気中のトレーサー輸送モデルで正確に記述することは、温室効果ガスモニタリングおよび検証支援システムにおいて、国際気候協定の実施を支援するために不可欠である。 大きな深層ニューラルネットワークは、大気の3Dモデリングを必要とする気象予報に革命を起こす可能性がある。 この点で類似しているが、大気輸送モデリングは新しい課題に直面している。 より長い時間的地平線と大量保存のための安定な予測はどちらも達成する必要があるが、IOは計算コストよりも大きな役割を担っている。 本研究では,気象予報技術として実証された4つの異なる深層ニューラルネットワーク(UNet, GraphCast, Spherical Fourier Neural Operator, SwinTransformer)について検討し,大気トレーサー輸送モデルの有用性を評価する。 このために、ユーレリア大気輸送の機械学習エミュレータに適した、システマティックなベンチマークであるCarbonBenchデータセットを組み立てる。 建築調整を通じて,大気中のCO$2$の安定上昇に伴う分布変化からエミュレータの性能を分離する。 より具体的には、CO$_2$入力場を平均ゼロとし、次に明示的なフラックススキームと質量固定器を用いて質量バランスを確保する。 この設計により、4つのニューラルネットワークアーキテクチャすべてで6ヶ月以上にわたって安定かつ大量保存されたトランスポートが可能になる。 本研究では,SwinTransformerのエミュレーション能力は特に強い(90-day $R^2 > 0.99$)。 この研究は、ニューラルネットワークを用いた不活性トレースガスの高分解能前方および逆モデリングに向けた道を開く。

Accurately describing the distribution of CO$_2$ in the atmosphere with atmospheric tracer transport models is essential for greenhouse gas monitoring and verification support systems to aid implementation of international climate agreements. Large deep neural networks are poised to revolutionize weather prediction, which requires 3D modeling of the atmosphere. While similar in this regard, atmospheric transport modeling is subject to new challenges. Both, stable predictions for longer time horizons and mass conservation throughout need to be achieved, while IO plays a larger role compared to computational costs. In this study we explore four different deep neural networks (UNet, GraphCast, Spherical Fourier Neural Operator and SwinTransformer) which have proven as state-of-the-art in weather prediction to assess their usefulness for atmospheric tracer transport modeling. For this, we assemble the CarbonBench dataset, a systematic benchmark tailored for machine learning emulators of Eulerian atmospheric transport. Through architectural adjustments, we decouple the performance of our emulators from the distribution shift caused by a steady rise in atmospheric CO$_2$. More specifically, we center CO$_2$ input fields to zero mean and then use an explicit flux scheme and a mass fixer to assure mass balance. This design enables stable and mass conserving transport for over 6 months with all four neural network architectures. In our study, the SwinTransformer displays particularly strong emulation skill (90-day $R^2 > 0.99$), with physically plausible emulation even for forward runs of multiple years. This work paves the way forward towards high resolution forward and inverse modeling of inert trace gases with neural networks.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# トランスフュージョン:1つのマルチモーダルモデルで次のトーケンと拡散画像を予測する

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model ( http://arxiv.org/abs/2408.11039v1 )

ライセンス: Link先を確認
Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy, (参考訳) 離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。 トランスフュージョンは、言語モデリング損失関数(次のトークン予測)と拡散を組み合わせることで、混合モダリティシーケンス上で単一のトランスフォーマーをトレーニングする。 テキストと画像データの混在から最大7Bパラメータまでの複数のTransfusionモデルを事前訓練し、様々なユニモーダルおよびクロスモーダルベンチマークに関するスケーリング法則を確立する。 実験の結果,Transfusionは画像の定量化や,個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。 モダリティ固有の符号化レイヤとデコードレイヤを導入することで、Transfusionモデルの性能をさらに向上させ、各イメージを16パッチに圧縮することが可能になる。 さらに、Transfusionのレシピを7Bパラメータと2Tマルチモーダルトークンにスケールさせることで、同様のスケールの拡散モデルや言語モデルと同等に画像やテキストを生成し、両方の世界の利点を享受できるモデルが生成されることを実証した。

We introduce Transfusion, a recipe for training a multi-modal model over discrete and continuous data. Transfusion combines the language modeling loss function (next token prediction) with diffusion to train a single transformer over mixed-modality sequences. We pretrain multiple Transfusion models up to 7B parameters from scratch on a mixture of text and image data, establishing scaling laws with respect to a variety of uni- and cross-modal benchmarks. Our experiments show that Transfusion scales significantly better than quantizing images and training a language model over discrete image tokens. By introducing modality-specific encoding and decoding layers, we can further improve the performance of Transfusion models, and even compress each image to just 16 patches. We further demonstrate that scaling our Transfusion recipe to 7B parameters and 2T multi-modal tokens produces a model that can generate images and text on a par with similar scale diffusion models and language models, reaping the benefits of both worlds.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# GraphFSA: グラフによるアルゴリズム学習のための有限状態オートマトンフレームワーク

GraphFSA: A Finite State Automaton Framework for Algorithmic Learning on Graphs ( http://arxiv.org/abs/2408.11042v1 )

ライセンス: Link先を確認
Florian Grötschla, Joël Mathys, Christoffer Raun, Roger Wattenhofer, (参考訳) 多くのグラフアルゴリズムは、繰り返し適用されるルールの集合と見なすことができ、反復の回数は入力グラフのサイズと複雑さに依存する。 既存の機械学習アーキテクチャは、これらのアルゴリズム的な決定を独立した状態遷移として表現するのに苦労することが多い。 そこで我々はGraphFSA(Graph Finite State Automaton)という新しいフレームワークを提案する。 GraphFSAは、与えられたグラフの各ノード上で動作する有限状態オートマトンを学ぶように設計されている。 セルラーオートマトン問題に対してGraphFSAを試験し、その能力を簡単なアルゴリズム設定で示す。 フレームワークの総合的な経験的評価のために,我々は多種多様な合成問題を創出する。 メインのアプリケーションとして、より精巧なグラフアルゴリズムを学ぶことに集中します。 以上の結果から,GraphFSAは強力な一般化と外挿能力を示し,これらのアルゴリズムを表現するための代替手法を提案する。

Many graph algorithms can be viewed as sets of rules that are iteratively applied, with the number of iterations dependent on the size and complexity of the input graph. Existing machine learning architectures often struggle to represent these algorithmic decisions as discrete state transitions. Therefore, we propose a novel framework: GraphFSA (Graph Finite State Automaton). GraphFSA is designed to learn a finite state automaton that runs on each node of a given graph. We test GraphFSA on cellular automata problems, showcasing its abilities in a straightforward algorithmic setting. For a comprehensive empirical evaluation of our framework, we create a diverse range of synthetic problems. As our main application, we then focus on learning more elaborate graph algorithms. Our findings suggest that GraphFSA exhibits strong generalization and extrapolation abilities, presenting an alternative approach to represent these algorithms.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# ブラックボックスの内部:事前訓練された言語エンコーダでデータ漏洩を検出する

Inside the Black Box: Detecting Data Leakage in Pre-trained Language Encoders ( http://arxiv.org/abs/2408.11046v1 )

ライセンス: Link先を確認
Yuan Xin, Zheng Li, Ning Yu, Dingfan Chen, Mario Fritz, Michael Backes, Yang Zhang, (参考訳) 自然言語処理(NLP)の分野で広く普及しているにもかかわらず、事前学習された言語モデルは、大規模なWebスクラッドデータに対するトレーニングの性質から、本質的にはプライバシと著作権に関する懸念を抱いている。 本稿では,事前学習言語エンコーダに関連するリスクを体系的に調査し,既存の文献で概ね見過ごされる部分である,事前学習言語エンコーダに適応した下流モデルを通して公開される事前学習データのメンバシップリークに着目した。 本研究は,4種類の事前学習型エンコーダアーキテクチャ,3つのダウンストリームタスク,5つのベンチマークデータセットを対象とした総合的な実験を含む。 興味深いことに、我々の評価では、下流モデルのブラックボックス出力のみが露呈しても、初めてメンバーシップリークの存在を明らかにし、これまで想定されていたよりもはるかに大きなプライバシーリスクを浮き彫りにした。 同時に、事前学習言語モデルの開発におけるプライバシーの考慮事項に対処するため、将来の研究者や実践者を支援するための詳細な分析と洞察を提示する。

Despite being prevalent in the general field of Natural Language Processing (NLP), pre-trained language models inherently carry privacy and copyright concerns due to their nature of training on large-scale web-scraped data. In this paper, we pioneer a systematic exploration of such risks associated with pre-trained language encoders, specifically focusing on the membership leakage of pre-training data exposed through downstream models adapted from pre-trained language encoders-an aspect largely overlooked in existing literature. Our study encompasses comprehensive experiments across four types of pre-trained encoder architectures, three representative downstream tasks, and five benchmark datasets. Intriguingly, our evaluations reveal, for the first time, the existence of membership leakage even when only the black-box output of the downstream model is exposed, highlighting a privacy risk far greater than previously assumed. Alongside, we present in-depth analysis and insights toward guiding future researchers and practitioners in addressing the privacy considerations in developing pre-trained language models.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# 異常検出のための量子機械学習アルゴリズム:サーベイ

Quantum Machine Learning Algorithms for Anomaly Detection: a Survey ( http://arxiv.org/abs/2408.11047v1 )

ライセンス: Link先を確認
Sebastiano Corli, Lorenzo Moro, Daniele Dragoni, Massimiliano Dispenza, Enrico Prati, (参考訳) 量子コンピュータの出現は、量子ビットの形式化への機械学習の原則の適応に基づく量子機械学習アルゴリズムの開発を正当化した。 このような量子アルゴリズムの中で、異常検出はサイバーセキュリティから不正検出、粒子物理学まで、いくつかの分野にまたがる重要な問題である。 量子コンピューティングに関わる重要な概念を要約し、量子スピードアップという形式的な概念を導入する。 このサーベイは、量子機械学習に基づく異常検出の構造化マップを提供する。 我々は、それぞれ異なる学習方法、すなわち量子教師付き学習、量子教師なし学習、および量子強化学習に基づいて、既存のアルゴリズムをグループ化した。 将来、十分な計算能力を提供するため、ハードウェアリソースの推定を行う。 この調査は、各カテゴリに属するテクニックの体系的かつコンパクトな理解を提供する。 最終的に、実際のアプリケーション領域における学習手法の計算複雑性について論じる。

The advent of quantum computers has justified the development of quantum machine learning algorithms , based on the adaptation of the principles of machine learning to the formalism of qubits. Among such quantum algorithms, anomaly detection represents an important problem crossing several disciplines from cybersecurity, to fraud detection to particle physics. We summarize the key concepts involved in quantum computing, introducing the formal concept of quantum speed up. The survey provides a structured map of anomaly detection based on quantum machine learning. We have grouped existing algorithms according to the different learning methods, namely quantum supervised, quantum unsupervised and quantum reinforcement learning, respectively. We provide an estimate of the hardware resources to provide sufficient computational power in the future. The survey provides a systematic and compact understanding of the techniques belonging to each category. We eventually provide a discussion on the computational complexity of the learning methods in real application domains.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# RP1M:バイマニュアル・デクサラス・ロボット・ハンドによるピアノ演奏のための大規模モーションデータセット

RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands ( http://arxiv.org/abs/2408.11048v1 )

ライセンス: Link先を確認
Yi Zhao, Le Chen, Jan Schneider, Quankai Gao, Juho Kannala, Bernhard Schölkopf, Joni Pajarinen, Dieter Büchler, (参考訳) ロボットの手を人間レベルの器用さで支えることは、長年の研究目標だった。 バイマニュアル・ロボットピアノ演奏は、高速かつ高精度な動作、遅いが接触に富んだ操作問題など、動的タスクからの課題を組み合わせた作業である。 強化学習に基づくアプローチは、シングルタスクのパフォーマンスにおいて有望な結果を示しているが、これらの手法はマルチソング環境では苦労している。 本研究は,このギャップを埋めることを目的として,ロボットピアノの大規模演奏における模倣学習アプローチを実現する。 この目的のために,ロボットピアノ1百万(RP1M)データセットを紹介した。 指の配置を最適な移動問題として定式化し、大量の未収録曲の自動アノテーションを可能にする。 既存の模倣学習手法のベンチマークでは、RP1Mを活用することにより、最先端のロボットピアノ演奏性能に達することが示されている。

It has been a long-standing research goal to endow robot hands with human-level dexterity. Bi-manual robot piano playing constitutes a task that combines challenges from dynamic tasks, such as generating fast while precise motions, with slower but contact-rich manipulation problems. Although reinforcement learning based approaches have shown promising results in single-task performance, these methods struggle in a multi-song setting. Our work aims to close this gap and, thereby, enable imitation learning approaches for robot piano playing at scale. To this end, we introduce the Robot Piano 1 Million (RP1M) dataset, containing bi-manual robot piano playing motion data of more than one million trajectories. We formulate finger placements as an optimal transport problem, thus, enabling automatic annotation of vast amounts of unlabeled songs. Benchmarking existing imitation learning approaches shows that such approaches reach state-of-the-art robot piano playing performance by leveraging RP1M.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# MagicDec: 投機的復号化による長期コンテキスト生成のためのレイテンシ・スループトレードオフを破る

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding ( http://arxiv.org/abs/2408.11049v1 )

ライセンス: Link先を確認
Jian Chen, Vashisth Tiwari, Ranajoy Sadhukhan, Zhuoming Chen, Jinyuan Shi, Ian En-Hsu Yen, Beidi Chen, (参考訳) 大きな言語モデル(LLM)は、対話型チャットボット、ドキュメント分析、エージェントワークフローといった長文アプリケーションでは一般的になっていますが、低レイテンシと高スループットで長文リクエストを提供するのは難しいです。 投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられているが、従来の知恵は、その有効性は小さなバッチサイズに限定されていることを示唆している。 MagicDecでは、中間列から長列への高スループット推論でも驚くほどSDが高速化できることが示されている。 より興味深いことに、インテリジェントなドラフト戦略は、厳密な分析に基づいてバッチサイズを増やすことで、より良いスピードアップを達成することができます。 MagicDecはまず、バッチサイズとシーケンス長の増加に伴うボトルネックシフトを特定し、これらの洞察を使用して、高いスループット推論のために投機的デコーディングをより効果的にデプロイする。 次に、スパースKVキャッシュを備えたドラフトモデルを活用して、シーケンス長とバッチサイズの両方でスケールするKVボトルネックに対処する。

Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency without sacrificing performance but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy speculative decoding more effectively for high throughput inference. Then, it leverages draft models with sparse KV cache to address the KV bottleneck that scales with both sequence length and batch size.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# ゴール条件付きRLアルゴリズムの高速化と研究

Accelerating Goal-Conditioned RL Algorithms and Research ( http://arxiv.org/abs/2408.11052v1 )

ライセンス: Link先を確認
Michał Bortkiewicz, Władek Pałucki, Vivek Myers, Tadeusz Dziarmaga, Tomasz Arczewski, Łukasz Kuciński, Benjamin Eysenbach, (参考訳) 自己超越性は強化学習(RL)を変換する可能性があり、機械学習の他の分野で実現したブレークスルーを反映している。 他のドメインでの自己教師型学習は、固定データセットのパターンを見つけることを目的としているが、自己教師型目標条件強化学習(GCRL)エージェントは、環境との非構造化相互作用で達成された目標から学習することで、新しい行動を発見する。 しかし、これらの手法は、遅い環境からのデータの欠如、安定したアルゴリズムの欠如など、同様の成功は得られていない。 我々は、ハイパフォーマンスなコードベースと自己教師型GCRLのためのベンチマークJaxGCRLをリリースすることで、これらの問題を解決するための一歩を踏み出した。 このパフォーマンスの鍵は、GPUアクセラレーションされた環境と、この増大したデータスループットを効果的に活用するインフォNCEの目的に基づいて、対照的な強化学習アルゴリズムの安定的でバッチ化されたバージョンを組み合わせることである。 このアプローチにより、我々は、自己監督型GCRLにおける将来の研究の基盤を提供し、研究者が新しいアイデアをすばやく反復し、様々な課題のある環境でそれらを評価できるようにする。 Website + Code: https://github.com/MichalBortkiewicz/JaxGCRL

Self-supervision has the potential to transform reinforcement learning (RL), paralleling the breakthroughs it has enabled in other areas of machine learning. While self-supervised learning in other domains aims to find patterns in a fixed dataset, self-supervised goal-conditioned reinforcement learning (GCRL) agents discover new behaviors by learning from the goals achieved during unstructured interaction with the environment. However, these methods have failed to see similar success, both due to a lack of data from slow environments as well as a lack of stable algorithms. We take a step toward addressing both of these issues by releasing a high-performance codebase and benchmark JaxGCRL for self-supervised GCRL, enabling researchers to train agents for millions of environment steps in minutes on a single GPU. The key to this performance is a combination of GPU-accelerated environments and a stable, batched version of the contrastive reinforcement learning algorithm, based on an infoNCE objective, that effectively makes use of this increased data throughput. With this approach, we provide a foundation for future research in self-supervised GCRL, enabling researchers to quickly iterate on new ideas and evaluate them in a diverse set of challenging environments. Website + Code: https://github.com/MichalBortkiewicz/JaxGCRL
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# NeCo: Patch Neighbor Consistencyによる19GPU時間におけるDINOv2の空間表現の改善

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency ( http://arxiv.org/abs/2408.11054v1 )

ライセンス: Link先を確認
Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano, (参考訳) 本稿では,事前訓練された表現を改善するための新しい自己教師付き学習信号として,ビュー間のパッチ表現のソートを提案する。 この目的のために、我々はNeCo: Patch Neighbor Consistencyを導入しました。これは、参照バッチに対して、生徒と教師モデル間でパッチレベルに近い近接一貫性を強制する、新しいトレーニング損失です。 本手法は,DINOv2-Registers などの事前学習された表現の上に,学習信号をブートストラップし,さらに改良する微分可能なソート手法を利用する。 この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。 ADE20kとPascal VOCの非パラメトリックなインコンテキストセマンティックセマンティックセマンティックセマンティクスでは+5.5%と+6%、COCO-Thingsと-Stuffの線形セマンティクス評価では+7.2%と+5.7%である。

We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# Prompt-Guided Image-Adaptive Neural Implicit Lookup Tables for Interpretable Image enhance

Prompt-Guided Image-Adaptive Neural Implicit Lookup Tables for Interpretable Image Enhancement ( http://arxiv.org/abs/2408.11055v1 )

ライセンス: Link先を確認
Satoshi Kosugi, (参考訳) 本稿では,"Exposure"や"Contrast"といった分かりやすい名前でフィルタパラメータを調整し,画像の質を高める手法である,解釈可能な画像強調の概念を探求する。 事前定義された画像編集フィルタとは違い,我々のフレームワークは学習可能なフィルタを用いて,学習を通して解釈可能な名前を取得する。 私たちの貢献は2倍です。 まず、入力特徴空間から出力色空間への変換を暗黙的に定義するために多層パーセプトロンを用いる、画像適応型ニューラル暗黙検索テーブルと呼ばれる新しいフィルタアーキテクチャを導入する。 画像適応パラメータを直接入力特徴に組み込むことで,高表現性フィルタを実現する。 第二に、各フィルタに解釈可能な名前を割り当てるプロンプト誘導損失を導入する。 本研究では,視覚モデルと言語モデルを用いて,露出やコントラストなどの強調結果の視覚的印象を導出プロンプトとともに評価する。 我々は,各フィルタが他の属性に影響を与えることなく,対象の視覚的印象にのみ影響することを保証するための制約を定義し,望まれるフィルタ効果を得られるようにした。 実験の結果,提案手法は,目標値の予測に最適化されたフィルタにより,既定のフィルタ方式よりも優れていた。 ソースコードはhttps://github.com/satoshi-kosugi/PG-IA-NILUTで公開しています。

In this paper, we delve into the concept of interpretable image enhancement, a technique that enhances image quality by adjusting filter parameters with easily understandable names such as "Exposure" and "Contrast". Unlike using predefined image editing filters, our framework utilizes learnable filters that acquire interpretable names through training. Our contribution is two-fold. Firstly, we introduce a novel filter architecture called an image-adaptive neural implicit lookup table, which uses a multilayer perceptron to implicitly define the transformation from input feature space to output color space. By incorporating image-adaptive parameters directly into the input features, we achieve highly expressive filters. Secondly, we introduce a prompt guidance loss to assign interpretable names to each filter. We evaluate visual impressions of enhancement results, such as exposure and contrast, using a vision and language model along with guiding prompts. We define a constraint to ensure that each filter affects only the targeted visual impression without influencing other attributes, which allows us to obtain the desired filter effects. Experimental results show that our method outperforms existing predefined filter-based methods, thanks to the filters optimized to predict target results. Our source code is available at https://github.com/satoshi-kosugi/PG-IA-NILUT.
翻訳日:2024-08-21 12:45:00 公開日:2024-08-20
# 非線形表現を用いた時系列の保存と生成を学習するリカレントニューラルネットワーク

Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations ( http://arxiv.org/abs/2408.10920v1 )

ライセンス: Link先を確認
Róbert Csordás, Christopher Potts, Christopher D. Manning, Atticus Geiger, (参考訳) 線形表現仮説(LRH)は、ニューラルネットワークが活性化空間の方向として概念をエンコードすることを学習し、LRHの強いバージョンはモデルがそのようなエンコードのみを学ぶことを述べている。 本稿では,この強力なLRHに対する反例として,入力トークンシーケンスを繰り返すように訓練された場合,ゲート型リカレントニューラルネットワーク(RNN)は,方向ではなく,特定の順序で各位置でトークンを表現することを学習する。 これらの表現は、異なる線型部分空間を見つけることが不可能な階層的特徴を持つ。 これを示すために、各シーケンス位置に対応するスケーリング係数を学習することでトークンを予測および操作するための介入を訓練する。 これらの介入は、最小のRNNがこの等級に基づく解のみを見出すのに対して、より大きなRNNは線形表現を持つことを示している。 これらの知見は、解釈可能性の研究はLRHによって制限されるべきでないことを強く示唆している。

The Linear Representation Hypothesis (LRH) states that neural networks learn to encode concepts as directions in activation space, and a strong version of the LRH states that models learn only such encodings. In this paper, we present a counterexample to this strong LRH: when trained to repeat an input token sequence, gated recurrent neural networks (RNNs) learn to represent the token at each position with a particular order of magnitude, rather than a direction. These representations have layered features that are impossible to locate in distinct linear subspaces. To show this, we train interventions to predict and manipulate tokens by learning the scaling factor corresponding to each sequence position. These interventions indicate that the smallest RNNs find only this magnitude-based solution, while larger RNNs have linear representations. These findings strongly indicate that interpretability research should not be confined by the LRH.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# ファインタニングに基づく低/低ショット物体検出のためのデータ拡張戦略のより綿密な検討

A Closer Look at Data Augmentation Strategies for Finetuning-Based Low/Few-Shot Object Detection ( http://arxiv.org/abs/2408.10940v1 )

ライセンス: Link先を確認
Vladislav Li, Georgios Tsoumplekas, Ilias Siniosoglou, Vasileios Argyriou, Anastasios Lytos, Eleftherios Fountoukidis, Panagiotis Sarigiannidis, (参考訳) ローショットおよび少数ショットオブジェクト検出のための現在の手法は、主にオブジェクト検出のためのモデル性能の向上に焦点を当てている。 これを実現するための一般的なアプローチは、モデルの微調整とデータ拡張戦略を組み合わせることである。 しかし、データスカース体制におけるこれらのアプローチのエネルギー効率にはほとんど注意が払われていない。 本稿では,軽量物体検出器と組み合わせることで,カスタムデータ拡張のモデル性能とエネルギー効率,および自動データ拡張選択戦略を総合的に検討する。 これらの手法は, 性能とエネルギー消費の3つの異なるベンチマークデータセットで評価され, 効率係数を用いて, 性能と効率の両面から有効性について考察する。 その結果、多くの場合、データ不足に対応するためによりエネルギー効率の良いデータ拡張戦略を開発する必要があるため、データ拡張戦略の性能向上はエネルギー使用量の増加に隠れていることが明らかとなった。

Current methods for low- and few-shot object detection have primarily focused on enhancing model performance for detecting objects. One common approach to achieve this is by combining model finetuning with data augmentation strategies. However, little attention has been given to the energy efficiency of these approaches in data-scarce regimes. This paper seeks to conduct a comprehensive empirical study that examines both model performance and energy efficiency of custom data augmentations and automated data augmentation selection strategies when combined with a lightweight object detector. The methods are evaluated in three different benchmark datasets in terms of their performance and energy consumption, and the Efficiency Factor is employed to gain insights into their effectiveness considering both performance and efficiency. Consequently, it is shown that in many cases, the performance gains of data augmentation strategies are overshadowed by their increased energy usage, necessitating the development of more energy efficient data augmentation strategies to address data scarcity.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# 雑音チャネル上で通信するアンサンブルを用いたロバスト回帰

Robust Regression with Ensembles Communicating over Noisy Channels ( http://arxiv.org/abs/2408.10942v1 )

ライセンス: Link先を確認
Yuval Ben-Hur, Yuval Cassuto, (参考訳) 機械学習モデルのサイズが大きくなるにつれて、その実装要件は単一のコンピュータシステムでは満たされない。 この観察は、中央ノードが出力のみを集約する一方、中間計算が処理ユニットのネットワーク全体で実行される分散設定を動機付けている。 しかし、ノイズの多い通信チャネルのネットワーク上で動作している低精度または不良エッジデバイスに推論タスクを分散することは、重大な信頼性上の課題を引き起こす。 本研究では,共同回帰タスクを協調的に行うために,付加雑音チャネルを介して通信する回帰アルゴリズムを実装したデバイス集合の問題について検討する。 この問題を正式に定義し,チャネル内の雑音のパラメータに対するアグリゲーション係数を最適化する手法を開発した。 本研究は,バギングと勾配向上という,最先端のアンサンブル回帰手法に適用した。 合成と実世界の両方のデータセットにおけるアルゴリズムの有効性を実証する。

As machine-learning models grow in size, their implementation requirements cannot be met by a single computer system. This observation motivates distributed settings, in which intermediate computations are performed across a network of processing units, while the central node only aggregates their outputs. However, distributing inference tasks across low-precision or faulty edge devices, operating over a network of noisy communication channels, gives rise to serious reliability challenges. We study the problem of an ensemble of devices, implementing regression algorithms, that communicate through additive noisy channels in order to collaboratively perform a joint regression task. We define the problem formally, and develop methods for optimizing the aggregation coefficients for the parameters of the noise in the channels, which can potentially be correlated. Our results apply to the leading state-of-the-art ensemble regression methods: bagging and gradient boosting. We demonstrate the effectiveness of our algorithms on both synthetic and real-world datasets.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# Dr.Academy:大規模言語モデルの教育における質問能力評価のためのベンチマーク

Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models ( http://arxiv.org/abs/2408.10947v1 )

ライセンス: Link先を確認
Yuyan Chen, Chenwei Wu, Songzhou Yan, Panjun Liu, Haoyu Zhou, Yanghua Xiao, (参考訳) 教師は、知識の付与と学習指導に重要であり、潜在的教育者としての大きな言語モデル(LLM)の役割が重要な研究分野として浮上している。 教育コンテンツを生成するLLMの能力を認識することは、自動化およびパーソナライズされた学習の進歩につながる可能性がある。 LLMは理解力と問題解決能力のためにテストされてきたが、教育におけるその能力はほとんど解明されていない。 教育において、質問は学生に中核的な概念や原則を分析し、評価し、合成させるための重要なスキルである。 そこで本研究では、アンダーソンとクラスフォールの分類学を一般分野、単科領域、学際領域にまたがって評価し、LLMの教師としての教育における質問能力を評価するためのベンチマークを提案する。 学習者としてのLLMから、教育者としてのLLMに焦点を移し、質問を導き、その指導能力を評価する。 関連性, カバレッジ, 代表性, 一貫性の4つの指標を適用し, LLMのアウトプットの教育的品質を評価する。 以上の結果から, GPT-4は一般・人文・理科教育において有意な可能性を秘めていることが示唆された。 さらに、自動スコアは人間の視点と一致します。

Teachers are important to imparting knowledge and guiding learners, and the role of large language models (LLMs) as potential educators is emerging as an important area of study. Recognizing LLMs' capability to generate educational content can lead to advances in automated and personalized learning. While LLMs have been tested for their comprehension and problem-solving skills, their capability in teaching remains largely unexplored. In teaching, questioning is a key skill that guides students to analyze, evaluate, and synthesize core concepts and principles. Therefore, our research introduces a benchmark to evaluate the questioning capability in education as a teacher of LLMs through evaluating their generated educational questions, utilizing Anderson and Krathwohl's taxonomy across general, monodisciplinary, and interdisciplinary domains. We shift the focus from LLMs as learners to LLMs as educators, assessing their teaching capability through guiding them to generate questions. We apply four metrics, including relevance, coverage, representativeness, and consistency, to evaluate the educational quality of LLMs' outputs. Our results indicate that GPT-4 demonstrates significant potential in teaching general, humanities, and science courses; Claude2 appears more apt as an interdisciplinary teacher. Furthermore, the automatic scores align with human perspectives.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# 生成拡散モデルを用いたモデルエミュレーションを考慮したキロメータースケール対流

Kilometer-Scale Convection Allowing Model Emulation using Generative Diffusion Modeling ( http://arxiv.org/abs/2408.10958v1 )

ライセンス: Link先を確認
Jaideep Pathak, Yair Cohen, Piyush Garg, Peter Harrington, Noah Brenowitz, Dale Durran, Morteza Mardani, Arash Vahdat, Shaoming Xu, Karthik Kashinath, Michael Pritchard, (参考訳) ストームスケール対流許容モデル(CAM)は、雷雨とメソスケール対流システムの進化を予測する重要なツールであり、極端な天候を損なう。 大気中の対流力学を明示的に解決することで、気象学者は危険に対する展望を提供するのに必要なニュアンスを得られる。 深層学習モデルは、現在最先端のグローバルな中距離気象予報と、粗い解像度で競い合っているにもかかわらず、これまでのところ、kmスケールの大気シミュレーションではささやかでないことが証明されている。 我々は,高分解能高速リフレッシュ(HRRR)モデル-NOAAの最先端3km動作CAMをエミュレートしたStormCastと呼ばれる生成拡散モデルを提案する。 StormCastは、大気境界層に高密度の垂直分解能を持つ1時間の時間ステップを用いて、kmスケールで99の状態変数を自動回帰予測する。 本研究では, 物理的に現実的な対流性クラスターの進化, 湿潤隆起, 冷プール形態学とともに, 合成レーダ反射率の競争的1-6時間予測技術を含む, 学習可能なkmスケールのダイナミックスを示す。 StormCast予測は、複数の予測変数の現実的なパワースペクトルをマルチ時間予測で維持する。 これらの結果は、自動回帰MLがCAMをエミュレートする可能性を確立し、地域ML天気予報と将来の気候リスクの動的ダウンスケーリングのための新しいkmスケールのフロンティアを開放する。

Storm-scale convection-allowing models (CAMs) are an important tool for predicting the evolution of thunderstorms and mesoscale convective systems that result in damaging extreme weather. By explicitly resolving convective dynamics within the atmosphere they afford meteorologists the nuance needed to provide outlook on hazard. Deep learning models have thus far not proven skilful at km-scale atmospheric simulation, despite being competitive at coarser resolution with state-of-the-art global, medium-range weather forecasting. We present a generative diffusion model called StormCast, which emulates the high-resolution rapid refresh (HRRR) model-NOAA's state-of-the-art 3km operational CAM. StormCast autoregressively predicts 99 state variables at km scale using a 1-hour time step, with dense vertical resolution in the atmospheric boundary layer, conditioned on 26 synoptic variables. We present evidence of successfully learnt km-scale dynamics including competitive 1-6 hour forecast skill for composite radar reflectivity alongside physically realistic convective cluster evolution, moist updrafts, and cold pool morphology. StormCast predictions maintain realistic power spectra for multiple predicted variables across multi-hour forecasts. Together, these results establish the potential for autoregressive ML to emulate CAMs -- opening up new km-scale frontiers for regional ML weather prediction and future climate hazard dynamical downscaling.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# KeySpace:惑星間ネットワークにおける公開鍵インフラストラクチャの考察

KeySpace: Public Key Infrastructure Considerations in Interplanetary Networks ( http://arxiv.org/abs/2408.10963v1 )

ライセンス: Link先を確認
Joshua Smailes, Sebastian Köhler, Simon Birnbach, Martin Strohmeier, Ivan Martinovic, (参考訳) 衛星ネットワークが拡大し、惑星間通信を取り入れ始めるにつれ、これらの条件下でPKIにアプローチする方法に関する未解決問題への関心が高まっている。 本稿では,メガコンステレーションと惑星間ネットワークに着目し,衛星ネットワークにおける鍵管理システムの実現に向けた目標と要件について検討する。 我々は、特定のネットワークトポロジにおいて、システムとシステムを比較するのに使用できる標準化された実験のセットを設計する。 これらを用いて、高度に分散した惑星間ネットワークにおいて地球上のPKI技術が実現可能であることを実証し、効率的な低遅延接続を実現するためにPKIシステムを構成でき、効果的な再起動による攻撃の影響を最小限に抑えることができることを示した。 我々は,大規模な宇宙ネットワークの効率的なシミュレーションを目的とした新しいネットワークシミュレータであるDeep Space Network Simulator (DSNS) を構築し,これを評価した。 広範囲なPKI構成で接続確立とキーの取り消しを評価するシミュレーションを実行する。 最後に、OCSP Hybridとリレーノードをファイアウォールとして使用する2つの追加構成オプションを提案し、評価する。 これらの組み合わせにより、攻撃者が妥協鍵で到達できるネットワークの範囲を最小化し、惑星間リレーリンクに対する攻撃者の負荷を低減できる。

As satellite networks grow larger and begin to incorporate interplanetary communication, there is an increasing interest in the unsolved problem of how to approach PKI in these conditions. In this paper we explore the goals and requirements for implementing key management systems in satellite networks, focusing on megaconstellations and interplanetary networks. We design a set of standardized experiments which can be used to compare systems against one another for particular network topologies. Using these, we demonstrate that terrestrial PKI techniques are feasible in highly distributed interplanetary networks, showing that it is possible to configure PKI systems to achieve efficient low-latency connection establishment, and minimize the impact of attacks through effective revocations. We evaluate this by building the Deep Space Network Simulator (DSNS), a novel network simulator aimed at efficient simulation of large space networks. We run simulations evaluating connection establishment and key revocation under a wide range of PKI configurations. Finally, we propose and evaluate two additional configuration options: OCSP Hybrid, and the use of relay nodes as a firewall. Together these minimize the extent of the network an attacker can reach with a compromised key, and reduce the attacker's load on interplanetary relay links.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# 階層的計画と制御のための創発的記述を支援するハイブリッドリカレントモデル

Hybrid Recurrent Models Support Emergent Descriptions for Hierarchical Planning and Control ( http://arxiv.org/abs/2408.10970v1 )

ライセンス: Link先を確認
Poppy Collis, Ryan Singh, Paul F Kinghorn, Christopher L Buckley, (参考訳) 人工知能におけるオープンな問題は、システムが本質的に連続的な問題を解決するのに有用な離散的な抽象化を柔軟に学習する方法である。 従来の研究は、リカレントスイッチング線形力学系(rSLDS)として知られるハイブリッド状態空間モデルが、複素連続力学の断片的な線形分解を通して意味のある振る舞い単位を発見することを示した(Linderman et al , 2016)。 さらに、基礎となる連続状態がこれらの離散モードスイッチを駆動する方法をモデル化する。 我々は、rSLDSによって形成されたリッチな表現は、計画と制御に有用な抽象化を提供することができると提案する。 本稿では,低レベル線形二乗制御器上に離散型MDPを配置する,アクティブ推論に着想を得た新しい階層型モデルベースアルゴリズムを提案する。 rSLDSで学習した繰り返し遷移ダイナミクスは,(1)オプションフレームワークを連想させる手法で,時間的に制約されたサブゴールを指定し,(2)情報理論的な探索ボーナスを活用できるように,(2)離散空間への探索を解除し,(3)離散プランナーの低レベル問題に対する近似解を「キャッシュ」することを可能にする。 提案手法を連続マウンテンカータスクに適用し,探索の強化による高速なシステム識別と,抽象的なサブゴールの展開による非自明な計画の実証に成功している。

An open problem in artificial intelligence is how systems can flexibly learn discrete abstractions that are useful for solving inherently continuous problems. Previous work has demonstrated that a class of hybrid state-space model known as recurrent switching linear dynamical systems (rSLDS) discover meaningful behavioural units via the piecewise linear decomposition of complex continuous dynamics (Linderman et al., 2016). Furthermore, they model how the underlying continuous states drive these discrete mode switches. We propose that the rich representations formed by an rSLDS can provide useful abstractions for planning and control. We present a novel hierarchical model-based algorithm inspired by Active Inference in which a discrete MDP sits above a low-level linear-quadratic controller. The recurrent transition dynamics learned by the rSLDS allow us to (1) specify temporally-abstracted sub-goals in a method reminiscent of the options framework, (2) lift the exploration into discrete space allowing us to exploit information-theoretic exploration bonuses and (3) `cache' the approximate solutions to low-level problems in the discrete planner. We successfully apply our model to the sparse Continuous Mountain Car task, demonstrating fast system identification via enhanced exploration and non-trivial planning through the delineation of abstract sub-goals.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# 映画や動画のオーディオ・マッチ・カット:マッチング・トランジションの発見と作成

Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos ( http://arxiv.org/abs/2408.10998v1 )

ライセンス: Link先を確認
Dennis Fedorishin, Lie Lu, Srirangaraj Setlur, Venu Govindaraju, (参考訳) マッチカット」は、類似した構成を持つ一対のショットが、あるものから別のものへ流動的に遷移する、一般的なビデオ編集技法である。 マッチカットはしばしば視覚的であるが、特定のマッチカットは、異なる音源からの音が2つのショットの間で区別できない1つの遷移に融合する、オーディオの流動的な遷移を伴う。 本稿では,ビデオや映画の中で"オーディオマッチカット"を自動的に見つけ,生成する能力について検討する。 我々は、音声マッチングの自己教師型音声表現を作成し、マッチングショットを推奨する粗大な音声マッチングパイプラインを開発し、ブレンドオーディオを作成する。 さらに、提案した音声マッチングカットタスクのデータセットに注釈を付け、複数の音声表現による音声マッチング候補の検索能力を比較する。 最後に、2つの一致する音声候補をスムーズな遷移を目標にブレンドする複数の手法を評価する。 プロジェクトページとサンプルは以下の通りである。

A "match cut" is a common video editing technique where a pair of shots that have a similar composition transition fluidly from one to another. Although match cuts are often visual, certain match cuts involve the fluid transition of audio, where sounds from different sources merge into one indistinguishable transition between two shots. In this paper, we explore the ability to automatically find and create "audio match cuts" within videos and movies. We create a self-supervised audio representation for audio match cutting and develop a coarse-to-fine audio match pipeline that recommends matching shots and creates the blended audio. We further annotate a dataset for the proposed audio match cut task and compare the ability of multiple audio representations to find audio match cut candidates. Finally, we evaluate multiple methods to blend two matching audio candidates with the goal of creating a smooth transition. Project page and examples are available at: https://denfed.github.io/audiomatchcut/
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# 変化回避型マルチウィンナー時間投票

Multiwinner Temporal Voting with Aversion to Change ( http://arxiv.org/abs/2408.11017v1 )

ライセンス: Link先を確認
Valentin Zech, Niclas Boehmer, Edith Elkind, Nicholas Teh, (参考訳) 我々は、有権者が候補者よりも動的に選好する2段階の委員会選挙を調査し、各段階では、所定の投票規則の下で委員会が選ばれる。 我々は,第1段階委員会と可能な限り重複する第2段階の勝利委員会を特定することに興味があります。 この問題は、承認投票(AV)や、他のすべてのティール規則(特にProportional Approval VotingやCurberlin-Courant Ruleを含む)では困難である。 この二分法は、ティーレ則のグリーディ変種にまで拡張する。 また、この問題をいくつかの自然パラメータのパラメータ化複雑性の観点から検討する。 例えば、有権者の嗜好の変化と関係の役割の関数として、委員会における変更点数の平均を調査する。

We study two-stage committee elections where voters have dynamic preferences over candidates; at each stage, a committee is chosen under a given voting rule. We are interested in identifying a winning committee for the second stage that overlaps as much as possible with the first-stage committee. We show a full complexity dichotomy for the class of Thiele rules: this problem is tractable for Approval Voting (AV) and hard for all other Thiele rules (including, in particular, Proportional Approval Voting and the Chamberlin-Courant rule). We extend this dichotomy to the greedy variants of Thiele rules. We also explore this problem from a parameterized complexity perspective for several natural parameters. We complement the theory with experimental analysis: e.g., we investigate the average number of changes in the committee as a function of changes in voters' preferences and the role of ties.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# ケイリー樹上の非エルミート皮膚効果の多フラクタル統計

Multifractal statistics of non-Hermitian skin effect on the Cayley tree ( http://arxiv.org/abs/2408.11024v1 )

ライセンス: Link先を確認
Shu Hamanaka, Askar A. Iliasov, Titus Neupert, Tomáš Bzdušek, Tsuneya Yoshida, (参考訳) マルチフラクタル解析は波動関数の局在特性を特徴づける強力なツールである。 その実用性にもかかわらず、このツールは主に混乱したエルミート系に適用されている。 非エルミート皮膚効果に関連する多フラクタル統計はほとんど未発見のままである。 ここでは、この木形状がケイリー木上の単粒子の皮膚状態の多フラクタル統計を誘導することを示した。 これは、結晶格子における従来の単一粒子の皮膚効果に対するマルチフラクタル特性の欠如と鋭く対照的である。 我々の研究は、ケイリーツリーにおける皮膚効果のユニークな特徴を明らかにし、障害のないオープン量子系において多重フラクタル性を誘導する新しいメカニズムを提供する。

Multifractal analysis is a powerful tool for characterizing the localization properties of wave functions. Despite its utility, this tool has been predominantly applied to disordered Hermitian systems. Multifractal statistics associated with the non-Hermitian skin effect remain largely unexplored. Here, we demonstrate that the tree geometry induces multifractal statistics for the single-particle skin states on the Cayley tree. This sharply contrasts with the absence of multifractal properties for conventional single-particle skin effects in crystalline lattices. Our work uncovers the unique feature of the skin effect on the Cayley tree and provides a novel mechanism for inducing multifractality in open quantum systems without disorder.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# 半有限計画法によるN$-representability条件の分子励起状態の強調シャドウトモグラフィ

Enhanced Shadow Tomography of Molecular Excited States from Enforcing $N$-representability Conditions by Semidefinite Programming ( http://arxiv.org/abs/2408.11025v1 )

ライセンス: Link先を確認
Irma Avdic, David A. Mazziotti, (参考訳) 高相関系の励起状態特性は、光合成、発光、新しい光学材料の開発を理解する上で重要であるが、それらの相互作用を正確に捉えることは計算に費用がかかる。 本稿では,2電子還元密度行列 (2-RDM) 上の物理制約と古典的影トモグラフィーを組み合わせることで,励起状態の処理を行うアルゴリズムを提案する。 量子コンピュータにおける多電子2-RDMの測定回数を削減する方法 (i)シャドウトモグラフィーとランダムサンプリング手法による量子状態の近似 2-RDM が半定値プログラミングにより$N$-representability 制約を課すことにより$N$-電子系を表現することを保証する。 このことは、基底状態2-RDMの$N$-representability-enhanced shadow tomographyに関する最近の研究を一般化する。 我々はH$_4$鎖の励起状態エネルギーと2-RDMを計算し、円錐交差を介してガウシェ-1,3-ブタジエンからビシクロブタンへの光励起反応経路の臨界点を解析した。 その結果、一般化されたシャドウトモグラフィーは、重要な多重参照相関効果を保ちながら、必要な測定回数を大幅に削減し、量子デバイス上での電子励起状態の効率的な処理に有望な道を提供することを示した。

Excited-state properties of highly correlated systems are key to understanding photosynthesis, luminescence, and the development of novel optical materials, but accurately capturing their interactions is computationally costly. We present an algorithm that combines classical shadow tomography with physical constraints on the two-electron reduced density matrix (2-RDM) to treat excited states. The method reduces the number of measurements of the many-electron 2-RDM on quantum computers by (i) approximating the quantum state through a random sampling technique called shadow tomography and (ii) ensuring that the 2-RDM represents an $N$-electron system through imposing $N$-representability constraints by semidefinite programming. This generalizes recent work on the $N$-representability-enhanced shadow tomography of ground-state 2-RDMs. We compute excited-state energies and 2-RDMs of the H$_4$ chain and analyze the critical points along the photoexcited reaction pathway from gauche-1,3-butadiene to bicyclobutane via a conical intersection. The results show that the generalized shadow tomography retains critical multireference correlation effects while significantly reducing the number of required measurements, offering a promising avenue for the efficient treatment of electronically excited states on quantum devices.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# 量子コンピューティングデバイス上のスケーラブル分子シミュレーションにおける多相波関数のシャドウアンサッツ

Shadow Ansatz for the Many-Fermion Wave Function in Scalable Molecular Simulations on Quantum Computing Devices ( http://arxiv.org/abs/2408.11026v1 )

ライセンス: Link先を確認
Yuchen Wang, Irma Avdic, David A. Mazziotti, (参考訳) ここでは,量子デバイス上での多周波関数に対して,シャドウトモグラフィーが効率的かつ正確なアンサッツを生成することを示す。 平均場波動関数に適用した変換の積であるシャドウアンザッツを,測定と準備のクリティカルリンクを利用して導出する。 それぞれの変換は、2つの電子の空間に投影された収縮したシュリンガー方程式(CSE)、多電子シュリンガー方程式(SE)の古典的な影を測定することによって得られる。 CSE の古典的な影が消えるのは、波動関数が SE を満たす場合に限りであり、したがって、2電子空間のみをランダムにサンプリングすると、電子の総数に関係なく正確なアンザッツが得られることを示す。 我々は、シミュレータと量子デバイス上でのH$_{3}$の計算により、拡張性のあるシミュレーション -- 少ない測定値と浅い回路 -- に対するアンザッツの利点を実証する。

Here we show that shadow tomography can generate an efficient and exact ansatz for the many-fermion wave function on quantum devices. We derive the shadow ansatz -- a product of transformations applied to the mean-field wave function -- by exploiting a critical link between measurement and preparation. Each transformation is obtained by measuring a classical shadow of the residual of the contracted Schr\"odinger equation (CSE), the many-electron Schr\"odinger equation (SE) projected onto the space of two electrons. We show that the classical shadows of the CSE vanish if and only if the wave function satisfies the SE and, hence, that randomly sampling only the two-electron space yields an exact ansatz regardless of the total number of electrons. We demonstrate the ansatz's advantages for scalable simulations -- fewer measurements and shallower circuits -- by computing H$_{3}$ on simulators and a quantum device.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# 方法論パラダイムの再構築:タレントマネジメント研究における初等質的研究アシスタントとしての大規模言語モデルの利用

Reconciling Methodological Paradigms: Employing Large Language Models as Novice Qualitative Research Assistants in Talent Management Research ( http://arxiv.org/abs/2408.11043v1 )

ライセンス: Link先を確認
Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Anshul Mittal, Rutu Mulkar, (参考訳) インタビューやフォーカスグループを採用するような質的なデータ収集と分析アプローチは、顧客の態度、感情、行動に対する豊富な洞察を提供する。 しかし、質的なデータを手動で分析するには、関連するトピックやテーマの洞察を特定するのに、広範囲の時間と労力が必要である。 本研究では,RAGをベースとしたLarge Language Models (LLMs) を用いて,インタビューテキストの分析を行うことにより,この課題に対処する新しい手法を提案する。 この研究の斬新さは、初歩的な研究助手として機能するLSMによって強化された研究調査をストラテジー化することにある。 本研究は,LLMの精神モデルを用いて,人材管理分野の研究者を対象とした初歩的な質的研究支援を行う。 RAGに基づくLLMアプローチは、半構造化インタビューデータのトピックモデリングを可能にし、これらのモデルの汎用性を情報検索や検索における従来の利用を超えて示す。 以上の結果から,LLM拡張RAGアプローチは,同じデータセットから手動で生成したトピックと比較して,関心のあるトピックの抽出に有効であることが示唆された。 これにより、初級定性的研究アシスタントとしてLLMを採用することが可能となる。 さらに、このようなモデルを活用する研究者は、従来の質的な研究で使われる品質基準に大きく依存して、彼らのアプローチの厳格さと信頼性を確保することを推奨している。 最後に,LLMを確立された定性的な研究パラダイムと調和させようとする業界実践者に対して,これらの強力な初歩的なAIツールを効果的に統合するためのロードマップを提供する。

Qualitative data collection and analysis approaches, such as those employing interviews and focus groups, provide rich insights into customer attitudes, sentiment, and behavior. However, manually analyzing qualitative data requires extensive time and effort to identify relevant topics and thematic insights. This study proposes a novel approach to address this challenge by leveraging Retrieval Augmented Generation (RAG) based Large Language Models (LLMs) for analyzing interview transcripts. The novelty of this work lies in strategizing the research inquiry as one that is augmented by an LLM that serves as a novice research assistant. This research explores the mental model of LLMs to serve as novice qualitative research assistants for researchers in the talent management space. A RAG-based LLM approach is extended to enable topic modeling of semi-structured interview data, showcasing the versatility of these models beyond their traditional use in information retrieval and search. Our findings demonstrate that the LLM-augmented RAG approach can successfully extract topics of interest, with significant coverage compared to manually generated topics from the same dataset. This establishes the viability of employing LLMs as novice qualitative research assistants. Additionally, the study recommends that researchers leveraging such models lean heavily on quality criteria used in traditional qualitative research to ensure rigor and trustworthiness of their approach. Finally, the paper presents key recommendations for industry practitioners seeking to reconcile the use of LLMs with established qualitative research paradigms, providing a roadmap for the effective integration of these powerful, albeit novice, AI tools in the analysis of qualitative datasets within talent
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# FLAME:都市環境におけるマルチモーダル LLM の学習

FLAME: Learning to Navigate with Multimodal LLM in Urban Environments ( http://arxiv.org/abs/2408.11051v1 )

ライセンス: Link先を確認
Yunzhe Xu, Yiyuan Pan, Zhe Liu, Hesheng Wang, (参考訳) 大規模言語モデル(LLM)は視覚・言語ナビゲーション(VLN)タスクの可能性を実証しているが、現在のアプリケーションは課題に直面している。 LLMは一般的な会話シナリオでは優れているが、専門的なナビゲーションタスクに苦しむため、専門的なVLNモデルと比較して準最適性能が得られる。 FLAME(FLAMingo-Architected Embodied Agent)は,複数の観測を効率的に処理できる,都市VLNタスク用に設計された,新しいマルチモーダル LLM エージェントおよびアーキテクチャである。 提案手法では,路面ビュー記述のための単一知覚チューニング,軌道要約のための複数知覚チューニング,VLNデータセットのエンドツーエンドトレーニングなど,ナビゲーションタスクに効果的に適応するための3段階チューニング手法を実装している。 拡張データセットは自動的に合成される。 FLAMEは既存の手法よりも優れており、Touchdownデータセットのタスク完了率が7.3%向上している。 本研究は,複雑なナビゲーションタスクにおけるMLLM(Multimodal LLM)の可能性を示す。 プロジェクトページ: https://flame-sjtu.github.io

Large Language Models (LLMs) have demonstrated potential in Vision-and-Language Navigation (VLN) tasks, yet current applications face challenges. While LLMs excel in general conversation scenarios, they struggle with specialized navigation tasks, yielding suboptimal performance compared to specialized VLN models. We introduce FLAME (FLAMingo-Architected Embodied Agent), a novel Multimodal LLM-based agent and architecture designed for urban VLN tasks that efficiently handles multiple observations. Our approach implements a three-phase tuning technique for effective adaptation to navigation tasks, including single perception tuning for street view description, multiple perception tuning for trajectory summarization, and end-to-end training on VLN datasets. The augmented datasets are synthesized automatically. Experimental results demonstrate FLAME's superiority over existing methods, surpassing state-of-the-art methods by a 7.3% increase in task completion rate on Touchdown dataset. This work showcases the potential of Multimodal LLMs (MLLMs) in complex navigation tasks, representing an advancement towards practical applications of MLLMs in embodied AI. Project page: https://flame-sjtu.github.io
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# VerilogEvalを再考する: より新しいLLM、文脈内学習、仕様からRTLへのタスク

Revisiting VerilogEval: Newer LLMs, In-Context Learning, and Specification-to-RTL Tasks ( http://arxiv.org/abs/2408.11053v1 )

ライセンス: Link先を確認
Nathaniel Pinckney, Christopher Batten, Mingjie Liu, Haoxing Ren, Brucek Khailany, (参考訳) 大規模言語モデル(LLM)をデジタルハードウェアコード生成に適用することは、新たな分野である。 ほとんどのLLMは、主に自然言語とソフトウェアコードに基づいて訓練されている。 Verilogのようなハードウェアコードはトレーニングデータのごく一部しか表現せず、ハードウェアベンチマークはほとんど存在しない。 このギャップに対処するため、オープンソースのVerilogEvalベンチマークが2023年にリリースされた。 GPT-4を含む当時の最先端のモデルで試験された。 しかし、VerilogEvalや他のVerilog生成ベンチマークには障害解析が欠如しており、現在の形式では、プロンプト技術を探究するには適していない。 また、VerilogEvalのリリース以来、商用モデルとオープンソースモデルの両方が引き続き開発されている。 本研究では,改良されたVerilogEvalベンチマークスイートに対して,様々なサイズの商用およびオープンソースモデルの評価を行う。 エラーを自動的に分類することでVerilogEvalのインフラストラクチャとデータセットを強化し、コンテキスト内学習(ICL)の例をサポートする新しいプロンプトを導入し、サポート対象タスクを仕様からRTLへの変換に拡張する。 GPT-4 Turboは,仕様からRTLタスクにおいて59%のパスレートを達成した。 また、オープンソースおよびドメイン固有モデルの性能について検討し、モデルがICLから大きな恩恵を受けることを実証する。 最近リリースされたLlama 3.1 405B は GPT-4 Turbo のパスレート 58% を達成し、はるかに小さなドメイン固有の RTL-Coder 6.7B モデルでは37% のパスレートを達成している。 しかし、プロンプトエンジニアリングは優れたパスレートを達成するための鍵であり、モデルやタスクによって大きく異なる。 迅速なエンジニアリングと障害解析を可能にするベンチマークインフラストラクチャは、継続的なモデル開発とデプロイメントの鍵となる。

The application of large-language models (LLMs) to digital hardware code generation is an emerging field. Most LLMs are primarily trained on natural language and software code. Hardware code, such as Verilog, represents only a small portion of the training data and few hardware benchmarks exist. To address this gap, the open-source VerilogEval benchmark was released in 2023, providing a consistent evaluation framework for LLMs on code completion tasks. It was tested on state-of-the-art models at the time including GPT-4. However, VerilogEval and other Verilog generation benchmarks lack failure analysis and, in present form, are not conducive to exploring prompting techniques. Also, since VerilogEval's release, both commercial and open-source models have seen continued development. In this work, we evaluate new commercial and open-source models of varying sizes against an improved VerilogEval benchmark suite. We enhance VerilogEval's infrastructure and dataset by automatically classifying failures, introduce new prompts for supporting in-context learning (ICL) examples, and extend the supported tasks to specification-to-RTL translation. We find a measurable improvement in commercial state-of-the-art models, with GPT-4 Turbo achieving a 59% pass rate on spec-to-RTL tasks. We also study the performance of open-source and domain-specific models that have emerged, and demonstrate that models can benefit substantially from ICL. We find that recently-released Llama 3.1 405B achieves a pass rate of 58%, effectively matching that of GPT-4 Turbo, and that the much smaller domain-specific RTL-Coder 6.7B models achieve an impressive 37% pass rate. However, prompt engineering is key to achieving good pass rates, and varies widely with model and task. A benchmark infrastructure that allows for prompt engineering and failure analysis is key to continued model development and deployment.
翻訳日:2024-08-21 12:35:03 公開日:2024-08-20
# CHASE:ガウススプラッティングとコントラスト学習によるスパース入力による3次元持続型ヒトアバター

CHASE: 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning ( http://arxiv.org/abs/2408.09663v2 )

ライセンス: Link先を確認
Haoyu Zhao, Hao Wang, Chen Yang, Wei Shen, (参考訳) 近年のヒトアバター合成の進歩は、光実在性アニマタブルヒトアバターの再構成に放射場を利用した。 しかし、NeRFsと3DGSをベースとした手法はどちらも3次元の一貫性を維持し、特にスパース入力で最適な細部再構成を示すのに苦労している。 この課題に対処するために,ポーズ間の本質的な3次元一貫性と3次元幾何学的コントラスト学習の監督を導入し,スパース入力に匹敵する性能をフルインプットで実現するCHASEを提案する。 前回の研究の後、まず骨格駆動の剛性変形と非剛性布の動的変形を統合し、アニメーション中の個々のガウスの動きを調整し、粗い3次元整合性を持つ基本アバターを再構成した。 スパース入力下での3D整合性を改善するために、データセットから選択した類似のポーズ/イメージに基づいて変形したガウスを調整するための動的アバター調整(DAA)を設計する。 調整されたガウス像と類似したポーズ画像との差を最小化することは、アバターの監視の付加形態となる。 さらに,生成されたアバターの3次元大域的一貫性を維持するための3次元幾何学的コントラスト学習戦略を提案する。 CHASEはスパース入力用に設計されているが、ZJU-MoCapおよびH36Mデータセット上で、現在のSOTAメソッドであるtextbf{inを驚くほど上回っており、我々のCHASEがアバターの3D一貫性をうまく維持し、レンダリング品質を向上させることを実証している。

Recent advancements in human avatar synthesis have utilized radiance fields to reconstruct photo-realistic animatable human avatars. However, both NeRFs-based and 3DGS-based methods struggle with maintaining 3D consistency and exhibit suboptimal detail reconstruction, especially with sparse inputs. To address this challenge, we propose CHASE, which introduces supervision from intrinsic 3D consistency across poses and 3D geometry contrastive learning, achieving performance comparable with sparse inputs to that with full inputs. Following previous work, we first integrate a skeleton-driven rigid deformation and a non-rigid cloth dynamics deformation to coordinate the movements of individual Gaussians during animation, reconstructing basic avatar with coarse 3D consistency. To improve 3D consistency under sparse inputs, we design Dynamic Avatar Adjustment(DAA) to adjust deformed Gaussians based on a selected similar pose/image from the dataset. Minimizing the difference between the image rendered by adjusted Gaussians and the image with the similar pose serves as an additional form of supervision for avatar. Furthermore, we propose a 3D geometry contrastive learning strategy to maintain the 3D global consistency of generated avatars. Though CHASE is designed for sparse inputs, it surprisingly outperforms current SOTA methods \textbf{in both full and sparse settings} on the ZJU-MoCap and H36M datasets, demonstrating that our CHASE successfully maintains avatar's 3D consistency, hence improving rendering quality.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# MambaLoc: ステートスペースモデルによる効率的なカメラローカライゼーション

MambaLoc: Efficient Camera Localisation via State Space Model ( http://arxiv.org/abs/2408.09680v2 )

ライセンス: Link先を確認
Jialu Wang, Kaichen Zhou, Andrew Markham, Niki Trigoni, (参考訳) 位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。 しかし、トレーニングコストと密集したデータの必要性のため、多様なIoTアプリケーション間で信頼性の高い位置決めを実現することは依然として困難である。 これらの問題に対処するため,我々は選択状態空間(SSM)モデルを視覚的ローカライゼーションに適用し,MambaLocという新しいモデルを導入した。 提案モデルでは, 特徴抽出, 高速計算, メモリ最適化におけるSSMモデルの強みを活かし, パラメータの疎さによる疎データ環境の堅牢性を確保することにより, 例外的な訓練効率を示す。 さらに、選択SSMを利用して非局所ニューラルネットワークの効率的なグローバル特徴抽出能力を暗黙的に実現するGlobal Information Selector (GIS)を提案する。 この設計は、SSMモデルの計算効率と非局所ニューラルネットワークのキャパシティを併用して、最小層で長距離依存関係をキャプチャする。 これにより、GISは、収束を著しく加速しつつ、効果的なグローバル情報取得を可能にする。 公共の屋内および屋外のデータセットを用いた大規模な実験的検証は、まずモデルの有効性を実証し、続いて既存の様々なローカライゼーションモデルによるその汎用性を示す。 私たちのコードとモデルは、この分野のさらなる研究と開発を支援するために公開されています。

Location information is pivotal for the automation and intelligence of terminal devices and edge-cloud IoT systems, such as autonomous vehicles and augmented reality. However, achieving reliable positioning across diverse IoT applications remains challenging due to significant training costs and the necessity of densely collected data. To tackle these issues, we have innovatively applied the selective state space (SSM) model to visual localization, introducing a new model named MambaLoc. The proposed model demonstrates exceptional training efficiency by capitalizing on the SSM model's strengths in efficient feature extraction, rapid computation, and memory optimization, and it further ensures robustness in sparse data environments due to its parameter sparsity. Additionally, we propose the Global Information Selector (GIS), which leverages selective SSM to implicitly achieve the efficient global feature extraction capabilities of Non-local Neural Networks. This design leverages the computational efficiency of the SSM model alongside the Non-local Neural Networks' capacity to capture long-range dependencies with minimal layers. Consequently, the GIS enables effective global information capture while significantly accelerating convergence. Our extensive experimental validation using public indoor and outdoor datasets first demonstrates our model's effectiveness, followed by evidence of its versatility with various existing localization models. Our code and models are publicly available to support further research and development in this area.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# マルチモーダルシーケンスレコメンデーションのためのマルチモーダル大言語モデルのハーネス化

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation ( http://arxiv.org/abs/2408.09698v2 )

ライセンス: Link先を確認
Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong, (参考訳) 近年のLarge Language Models (LLMs) の進歩はレコメンデーションシステム (RSs) の分野で大きな可能性を示している。 既存の研究の多くは、ユーザの行動ログをテキストプロンプトに変換し、レコメンデーションタスクにLLMを有効にするためのプロンプトチューニングのようなテクニックを活用することに重点を置いている。 一方、近年、画像、テキスト、その他のソースからのデータをモダリティ融合技術を用いて統合するマルチモーダルレコメンデーションシステムにおいて、研究の関心が高まっている。 これは、テキストモダリティ情報のみに依存する既存のLLMベースのレコメンデーションパラダイムに、新たな課題をもたらす。 さらに、マルチモーダル入力を処理できるマルチモーダル大言語モデル(MLLM)が登場しているが、マルチモーダルレコメンデーション機能を備えたMLLMの装備方法はまだ明らかになっていない。 本稿では,MLLM-MSRモデルを提案する。 動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。 具体的には、まずMLLMをベースとしたアイテムサマリザを用いて、与えられた画像の特徴を抽出し、画像からテキストに変換する。 次に,LLMに基づくユーザ・サマリエーザに基づいて,ユーザの嗜好の動的変化を捉えるために,繰り返しユーザ・プライオリティ・サマリゼーション・ジェネレーション・パラダイムを用いる。 最後に,マルチモーダルレコメンデーションタスクにおけるMLLMを有効にするために,Supervised Fine-Tuning(SFT)技術を用いてMLLMベースのレコメンデータを微調整することを提案する。 MLLM-MSRの有効性を検証し、ユーザの好みの進化するダイナミクスを捉え、適応する優れた能力を示す。

Recent advances in Large Language Models (LLMs) have demonstrated significant potential in the field of Recommendation Systems (RSs). Most existing studies have focused on converting user behavior logs into textual prompts and leveraging techniques such as prompt tuning to enable LLMs for recommendation tasks. Meanwhile, research interest has recently grown in multimodal recommendation systems that integrate data from images, text, and other sources using modality fusion techniques. This introduces new challenges to the existing LLM-based recommendation paradigm which relies solely on text modality information. Moreover, although Multimodal Large Language Models (MLLMs) capable of processing multi-modal inputs have emerged, how to equip MLLMs with multi-modal recommendation capabilities remains largely unexplored. To this end, in this paper, we propose the Multimodal Large Language Model-enhanced Multimodaln Sequential Recommendation (MLLM-MSR) model. To capture the dynamic user preference, we design a two-stage user preference summarization method. Specifically, we first utilize an MLLM-based item-summarizer to extract image feature given an item and convert the image into text. Then, we employ a recurrent user preference summarization generation paradigm to capture the dynamic changes in user preferences based on an LLM-based user-summarizer. Finally, to enable the MLLM for multi-modal recommendation task, we propose to fine-tune a MLLM-based recommender using Supervised Fine-Tuning (SFT) techniques. Extensive evaluations across various datasets validate the effectiveness of MLLM-MSR, showcasing its superior ability to capture and adapt to the evolving dynamics of user preferences.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# ハイデン:医療画像の高ボリック密度表現と報告

HYDEN: Hyperbolic Density Representations for Medical Images and Reports ( http://arxiv.org/abs/2408.09715v2 )

ライセンス: Link先を確認
Zhi Qiao, Linbin Han, Xiantong Zhen, Jia-Hong Gao, Zhen Qian, (参考訳) 画像とテキストの係り受け関係から、双曲点ベクトル埋め込みは双曲空間の階層的モデリングの利点を生かし、視覚意味表現学習に利用されてきた。 しかし、ポイントベクトル埋め込みアプローチは、画像が複数の解釈を持つ可能性があるセマンティック不確実性の問題に対処できず、テキストは異なる画像を参照することができる。 そこで我々は, 特定の医療領域データに適した, ハイパーボリック密度埋め込みに基づく画像テキスト表現学習手法である \textbf{HYDEN} を提案する。 本手法は,ハイパーボリックな擬ガウス分布を用いて,画像のグローバルな特徴,画像のテキスト特徴と双曲空間の密度特徴とをマッピングする。 カプセル化損失関数を用いて画像-テキスト密度分布間の部分順序関係をモデル化する。 実験により, ゼロショットタスクと異なるデータセット間のベースライン手法と比較して, 提案手法の解釈可能性, 性能に優れることを示した。

In light of the inherent entailment relations between images and text, hyperbolic point vector embeddings, leveraging the hierarchical modeling advantages of hyperbolic space, have been utilized for visual semantic representation learning. However, point vector embedding approaches fail to address the issue of semantic uncertainty, where an image may have multiple interpretations, and text may refer to different images, a phenomenon particularly prevalent in the medical domain. Therefor, we propose \textbf{HYDEN}, a novel hyperbolic density embedding based image-text representation learning approach tailored for specific medical domain data. This method integrates text-aware local features alongside global features from images, mapping image-text features to density features in hyperbolic space via using hyperbolic pseudo-Gaussian distributions. An encapsulation loss function is employed to model the partial order relations between image-text density distributions. Experimental results demonstrate the interpretability of our approach and its superior performance compared to the baseline methods across various zero-shot tasks and different datasets.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# RENAS: 識別子の共改名オプションの優先順位付け

RENAS: Prioritizing Co-Renaming Opportunities of Identifiers ( http://arxiv.org/abs/2408.09716v2 )

ライセンス: Link先を確認
Naoki Doi, Yuki Osumi, Shinpei Hayashi, (参考訳) ソースコード内の識別子をリネームすることは、ソフトウェア開発において一般的なリファクタリングタスクである。 識別子をリネームする場合、リネームに関連する同じ命名意図を持つ単語を含む他の識別子を同時にリネームする必要がある。 しかし、これらの関連する識別子を特定することは困難である。 この手法はJavaアプリケーションで同時に名前を変えなければならない関連する識別子を特定し、推奨するものである。 RENASは、識別子間の関係と類似性に基づいて、候補を改名するための優先度スコアを決定する。 ソースコードに類似した語彙や関係を持つ識別子は、しばしば一緒に改名されるため、これらの因子に基づいて優先度スコアが決定される。 優先度の高い識別器は、一緒に改名することが推奨される。 変更履歴から抽出され手動で検証された実リネームインスタンスの評価を通じて、RENASは既存のリネーム推奨手法と比較してF1尺度を0.11以上改善した。

Renaming identifiers in source code is a common refactoring task in software development. When renaming an identifier, other identifiers containing words with the same naming intention related to the renaming should be renamed simultaneously. However, identifying these related identifiers can be challenging. This study introduces a technique called RENAS, which identifies and recommends related identifiers that should be renamed simultaneously in Java applications. RENAS determines priority scores for renaming candidates based on the relationships and similarities among identifiers. Since identifiers that have a relationship and/or have similar vocabulary in the source code are often renamed together, their priority scores are determined based on these factors. Identifiers with higher priority are recommended to be renamed together. Through an evaluation involving real renaming instances extracted from change histories and validated manually, RENAS demonstrated an improvement in the F1-measure by more than 0.11 compared with existing renaming recommendation approaches.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# MalLight: 交通信号故障に対する影響を考慮した協調信号制御

MalLight: Influence-Aware Coordinated Traffic Signal Control for Traffic Signal Malfunctions ( http://arxiv.org/abs/2408.09768v2 )

ライセンス: Link先を確認
Qinchen Yang, Zejun Xie, Hua Wei, Desheng Zhang, Yu Yang, (参考訳) 都市交通は、信号化された交差点で待ち時間と安全上の問題を引き起こす混乱に直面している。 多くの研究は、様々な障害の文脈でインテリジェントな交通システムの問題に対処してきたが、交通信号の故障は、大きな反響を伴う一般的な現実現象であり、比較的注目されている。 本研究の主な目的は, 交通渋滞や衝突などの交通信号障害の悪影響を軽減することであり, 隣り合う機能信号の制御を最適化することである。 この目的を達成するために,影響認識状態集約モジュール(ISAM)と影響認識リワード集約モジュール(IRAM)を活用し,周囲の交通信号の協調制御を実現する新しい交通信号制御フレームワーク(MalLight)を提案する。 本研究は,交通信号の故障による課題に対処する強化学習(RL)に基づくアプローチの先駆者となる。 実世界のデータセットで実施した実証研究は,信号障害の存在下での従来の学習法や深層学習法よりも優れた性能を実証し,スループットの低下を最大48.6$\%で緩和した。

Urban traffic is subject to disruptions that cause extended waiting time and safety issues at signalized intersections. While numerous studies have addressed the issue of intelligent traffic systems in the context of various disturbances, traffic signal malfunction, a common real-world occurrence with significant repercussions, has received comparatively limited attention. The primary objective of this research is to mitigate the adverse effects of traffic signal malfunction, such as traffic congestion and collision, by optimizing the control of neighboring functioning signals. To achieve this goal, this paper presents a novel traffic signal control framework (MalLight), which leverages an Influence-aware State Aggregation Module (ISAM) and an Influence-aware Reward Aggregation Module (IRAM) to achieve coordinated control of surrounding traffic signals. To the best of our knowledge, this study pioneers the application of a Reinforcement Learning(RL)-based approach to address the challenges posed by traffic signal malfunction. Empirical investigations conducted on real-world datasets substantiate the superior performance of our proposed methodology over conventional and deep learning-based alternatives in the presence of signal malfunction, with reduction of throughput alleviated by as much as 48.6$\%$.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# 量子相転移のプローブとしての量子気象能力

Quantum metrological capability as a probe for quantum phase transition ( http://arxiv.org/abs/2408.09783v2 )

ライセンス: Link先を確認
Xiangbei Li, Yaoming Chu, Shaoliang Zhang, Jianming Cai, (参考訳) 量子相転移(QPT)の理解は、多体物理学の分野における重要な基盤であると考えられている。 したがって、QPTを効果的に識別し、理解するプロトコルを開発することは、現在の量子シミュレーション実験において重要な課題である。 そこで本研究では,QPTハミルトニアンを単体干渉計の入力として用い,その進化状態を利用するゼロ温度QPTを探索する動的クエンチ・インターフェロメトリの枠組みを構築した。 量子フィッシャー情報によって定量化された量子論的能力は、量子臨界点付近でユニークなピークを示し、システムをその基底状態に冷却することなくQPTを探索することができる。 本研究では, 干渉計発生器の量子揺らぎを抽出し, 干渉計位相のパラメータ推定の不確かさを抽出し, 位相図の境界を同定することにより, 探索を実現できることを示す。 本研究は,QPTと量子力学の重要な関連性を確立し,現在の量子シミュレータにおける非平衡多体物理学研究のツールボックスを充実させるものである。

The comprehension of quantum phase transitions (QPTs) is considered as a critical foothold in the field of many-body physics. Developing protocols to effectively identify and understand QPTs thus represents a key but challenging task for present quantum simulation experiments. Here, we establish a dynamical quench-interferometric framework to probe a zero-temperature QPT, which utilizes the evolved state by quenching the QPT Hamiltonian as input of a unitary interferometer. The metrological capability quantified by the quantum Fisher information captivatingly shows an unique peak in the vicinity of the quantum critical point, allowing us to probe the QPT without cooling the system to its ground state. We show that the probing can be implemented by extracting quantum fluctuations of the interferometric generator as well as parameter estimation uncertainty of the interferometric phase, and subsequently allows identifying the boundary of the phase diagram. Our results establish an important link between QPTs and quantum metrology, and enrich the toolbox of studying non-equilibrium many-body physics in current quantum simulators.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# 強化学習における世界モデルによる自律性向上

World Models Increase Autonomy in Reinforcement Learning ( http://arxiv.org/abs/2408.09807v2 )

ライセンス: Link先を確認
Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat, Edward S. Hu, (参考訳) 強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムであり、エージェント自身が自律的に獲得した経験からポリシーの取得を可能にする。 しかし、RLのトレーニングプロセスは自動的ではなく、エージェントと環境をリセットするために広範囲の人的努力を必要とする。 この課題に対処するために、まずモデルベース(MB)RL手法の優位性を示す。 次に、この直接拡張に固有の制限を特定し、モデルベースリセットフリー(MoReFree)エージェントと呼ばれるソリューションを提案し、パフォーマンスをさらに向上させる。 MoReFreeは2つの重要なメカニズム、探索とポリシー学習を適用し、タスク関連状態を優先順位付けすることでリセット不要なタスクを処理する。 環境報酬やデモンストレーションにアクセスできることなく、様々なリセットのないタスクに対して優れたデータ効率を示し、監督を必要とする特権ベースラインを大幅に上回っている。 以上より,RLにおける人的労力を減らすためのモデルベース手法が有望であることが示唆された。 Webサイト: https://sites.google.com/view/morefree

Reinforcement learning (RL) is an appealing paradigm for training intelligent agents, enabling policy acquisition from the agent's own autonomously acquired experience. However, the training process of RL is far from automatic, requiring extensive human effort to reset the agent and environments. To tackle the challenging reset-free setting, we first demonstrate the superiority of model-based (MB) RL methods in such setting, showing that a straightforward adaptation of MBRL can outperform all the prior state-of-the-art methods while requiring less supervision. We then identify limitations inherent to this direct extension and propose a solution called model-based reset-free (MoReFree) agent, which further enhances the performance. MoReFree adapts two key mechanisms, exploration and policy learning, to handle reset-free tasks by prioritizing task-relevant states. It exhibits superior data-efficiency across various reset-free tasks without access to environmental reward or demonstrations while significantly outperforming privileged baselines that require supervision. Our findings suggest model-based methods hold significant promise for reducing human effort in RL. Website: https://sites.google.com/view/morefree
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# $p$SVM:$p$-norm Hinge Lossを備えたSoft-margin SVM

$p$SVM: Soft-margin SVMs with $p$-norm Hinge Loss ( http://arxiv.org/abs/2408.09908v2 )

ライセンス: Link先を確認
Haoxiang Sun, (参考訳) ヒンジ損失に基づくサポートベクトルマシン(SVM)は、様々なバイナリ分類タスクに広く議論され、適用されてきた。 これらのSVMは、マージンの最大化と、外れ値によるスラックの最小化のバランスを達成する。 ヒンジ損失を伴うSVMの性能向上に多くの努力が注がれているが、$p$SVM、$p$-normヒンジ損失を持つソフトマージンSVMの研究は比較的少ないままである。 本稿では,$p$SVMの特性,性能,トレーニングアルゴリズムについて検討する。 まず、$p$SVMの一般化境界を導出し、それから従来の手法と比較して双対最適化問題を定式化する。 さらに、$p$SVMモデルをトレーニングするために、Sequential Minimal Optimization (SMO)アルゴリズムの一般化版である$p$SMOについて論じる。 バイナリおよびマルチクラス分類タスクを含む各種データセットの比較実験は、$p$SVMモデルと$p$SMOメソッドの有効性と利点を実証する。 コードはhttps://github.com/CoderBak/pSVMで入手できる。

Support Vector Machines (SVMs) based on hinge loss have been extensively discussed and applied to various binary classification tasks. These SVMs achieve a balance between margin maximization and the minimization of slack due to outliers. Although many efforts have been dedicated to enhancing the performance of SVMs with hinge loss, studies on $p$SVMs, soft-margin SVMs with $p$-norm hinge loss, remain relatively scarce. In this paper, we explore the properties, performance, and training algorithms of $p$SVMs. We first derive the generalization bound of $p$SVMs, then formulate the dual optimization problem, comparing it with the traditional approach. Furthermore, we discuss a generalized version of the Sequential Minimal Optimization (SMO) algorithm, $p$SMO, to train our $p$SVM model. Comparative experiments on various datasets, including binary and multi-class classification tasks, demonstrate the effectiveness and advantages of our $p$SVM model and the $p$SMO method. Code is available at https://github.com/CoderBak/pSVM.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# 「画像、あなたの話を聞かせて!」視覚的誤報の本来のメタコンテキストを予言する

"Image, Tell me your story!" Predicting the original meta-context of visual misinformation ( http://arxiv.org/abs/2408.09939v2 )

ライセンス: Link先を確認
Jonathan Tonglet, Marie-Francine Moens, Iryna Gurevych, (参考訳) 人間のファクトチェックを支援するために、研究者たちは視覚的誤情報検出のための自動アプローチを開発した。 これらの方法は、画像とキャプションの矛盾を識別したり、画像中の偽物を検出することによって、精度スコアを割り当てる。 しかし、人間のファクトチェックプロセスの重要な点は無視され、画像の本来のメタコンテキストが特定される。 画像について実際に何が真実であるかを説明することで、ファクトチェッカーは誤情報を検知し、価値のあるビジュアルコンテンツに集中し、誤情報が広まる前にカウンターメッセージに取り組み、説明をより説得力のあるものにすることができる。 ここでは、自動画像文脈化のタスクを導入することで、このギャップを埋める。 この5Pilsは、1,676枚のファクトチェックされた画像のデータセットで、元のメタコンテキストに関する質問と回答のペアを作ります。 アノテーションは5 Pillarsのファクトチェックフレームワークに基づいている。 オープンウェブから検索した画像の内容とテキストによる証拠を用いて,画像を元のメタコンテキストに基盤とする第1のベースラインを実装した。 実験では,検索と推論におけるいくつかのオープンな課題を強調しながら,有望な結果を示した。 コードとデータを公開しています。

To assist human fact-checkers, researchers have developed automated approaches for visual misinformation detection. These methods assign veracity scores by identifying inconsistencies between the image and its caption, or by detecting forgeries in the image. However, they neglect a crucial point of the human fact-checking process: identifying the original meta-context of the image. By explaining what is actually true about the image, fact-checkers can better detect misinformation, focus their efforts on check-worthy visual content, engage in counter-messaging before misinformation spreads widely, and make their explanation more convincing. Here, we fill this gap by introducing the task of automated image contextualization. We create 5Pils, a dataset of 1,676 fact-checked images with question-answer pairs about their original meta-context. Annotations are based on the 5 Pillars fact-checking framework. We implement a first baseline that grounds the image in its original meta-context using the content of the image and textual evidence retrieved from the open web. Our experiments show promising results while highlighting several open challenges in retrieval and reasoning. We make our code and data publicly available.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# 大規模言語モデルの自動質問生成への応用:全国教師認定試験におけるChatGLMの構造的質問を事例として

Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams ( http://arxiv.org/abs/2408.09982v2 )

ライセンス: Link先を確認
Ling He, Yanxin Chen, Xiaoqiang Hu, (参考訳) 本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成において,大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。 念入りに設計した急進的なエンジニアリングを通じて,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の調査から得られた質問を総合的に比較した。 評価の客観性と専門性を確保するため,これらの質問と評価基準を評価するため,教育分野の専門家を招待した。 研究結果は,ChatGLMが生成した質問は,ほとんどの評価基準において,実際の試験質問と同様の合理性,科学的性,実践性を示し,モデルの精度と質問生成の信頼性を示す。 それにもかかわらず、この研究は、質問を生成する際の様々な評価基準について、モデルが考慮すべき限界を明らかにし、さらなる最適化と調整の必要性を示唆している。 本研究は、ChatGLMの教育評価分野への適用可能性を検証するだけでなく、将来より効率的でインテリジェントな教育自動生成システムを開発する上で、重要な実証的支援を提供する。

This study delves into the application potential of the large language models (LLMs) ChatGLM in the automatic generation of structured questions for National Teacher Certification Exams (NTCE). Through meticulously designed prompt engineering, we guided ChatGLM to generate a series of simulated questions and conducted a comprehensive comparison with questions recollected from past examinees. To ensure the objectivity and professionalism of the evaluation, we invited experts in the field of education to assess these questions and their scoring criteria. The research results indicate that the questions generated by ChatGLM exhibit a high level of rationality, scientificity, and practicality similar to those of the real exam questions across most evaluation criteria, demonstrating the model's accuracy and reliability in question generation. Nevertheless, the study also reveals limitations in the model's consideration of various rating criteria when generating questions, suggesting the need for further optimization and adjustment. This research not only validates the application potential of ChatGLM in the field of educational assessment but also provides crucial empirical support for the development of more efficient and intelligent educational automated generation systems in the future.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# PLUTUS:十分に訓練された大型統一トランスフォーマー

PLUTUS: A Well Pre-trained Large Unified Transformer can Unveil Financial Time Series Regularities ( http://arxiv.org/abs/2408.10111v2 )

ライセンス: Link先を確認
Yuanjian Xu, Anxian Liu, Jianing Hao, Zhenzhuo Li, Shichang Meng, Guang Zhang, (参考訳) 金融時系列モデリングは市場行動の理解と予測には不可欠であるが、非線形性、非定常性、高騒音レベルといった課題に直面している。 従来のモデルでは、計算資源の制限とモデル容量が混在するこれらの問題のために複雑なパターンを捉えるのに苦労している。 NLPにおける大きな言語モデルの成功に触発されて、$\textbf{PLUTUS}$, a $\textbf{P}$re-trained $\textbf{L}$arge $\textbf{U}$nified $\textbf{T}$ransformer-based model that $\textbf{U}$nveils regularities in financial time $\textbf{S}$eriesを紹介した。 PLUTUSは、対照的な学習とオートエンコーダ技術を備えた可逆的な埋め込みモジュールを使用して、生データとパッチの埋め込みの間の近似1対1マッピングを作成する。 注意に基づくアーキテクチャであるTimeFormerはPLUTUSのコアを形成し、高ノイズの時系列を効果的にモデル化する。 可変次元と時間次元の両方にまたがる特徴を捉えるために,新しい注意機構を組み込んだ。 PLUTUSは前例のない1000億の観測データに基づいて事前訓練されている。 我々の知る限り、PLUTUSは10億以上のパラメータを持つ最初のオープンソース、大規模、事前訓練された金融時系列モデルである。 様々なタスクにおける最先端のパフォーマンスを達成し、強力な転送可能性を示し、ファイナンスのための堅牢な基盤モデルを確立する。 本研究は、金融時系列データの事前学習のための技術的ガイダンスを提供し、この分野における新しい基準を設定している。

Financial time series modeling is crucial for understanding and predicting market behaviors but faces challenges such as non-linearity, non-stationarity, and high noise levels. Traditional models struggle to capture complex patterns due to these issues, compounded by limitations in computational resources and model capacity. Inspired by the success of large language models in NLP, we introduce $\textbf{PLUTUS}$, a $\textbf{P}$re-trained $\textbf{L}$arge $\textbf{U}$nified $\textbf{T}$ransformer-based model that $\textbf{U}$nveils regularities in financial time $\textbf{S}$eries. PLUTUS uses an invertible embedding module with contrastive learning and autoencoder techniques to create an approximate one-to-one mapping between raw data and patch embeddings. TimeFormer, an attention based architecture, forms the core of PLUTUS, effectively modeling high-noise time series. We incorporate a novel attention mechanisms to capture features across both variable and temporal dimensions. PLUTUS is pre-trained on an unprecedented dataset of 100 billion observations, designed to thrive in noisy financial environments. To our knowledge, PLUTUS is the first open-source, large-scale, pre-trained financial time series model with over one billion parameters. It achieves state-of-the-art performance in various tasks, demonstrating strong transferability and establishing a robust foundational model for finance. Our research provides technical guidance for pre-training financial time series data, setting a new standard in the field.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# 同期ゲーム, 代数グラフ Identities, 量子NP硬度低減の話題

Topics in Algebra of Synchronous Games, Algebraic Graph Identities and Quantum NP-hardness Reductions ( http://arxiv.org/abs/2408.10114v2 )

ライセンス: Link先を確認
Entong He, (参考訳) 同期ゲームとその関連ゲーム代数の対応性について検討する。 我々は代数的および局所的な可換グラフの恒等性に関する結果を提案することで、Helton et al [HMPS17] の研究を少し発展させる。 非可換Nullstellens\"atze [BWHK23]に関する理論的研究に基づいて、Gr\"obner basis methodと半定値プログラミングを含む計算ツールを構築し、特定のモデルによる完璧な戦略の存在を確認する。 我々は[HMPS17]で提案された遺伝モデルと$C^*$モデルの等価性を証明した。 また、Ji の還元 $\texttt{3-Coloring}^* \leq_p \texttt{3-SAT}^*$ [Ji13] を拡張し、量子変換 NP-ハードネス還元 $\texttt{Clique}^* \leq_p \texttt{3-SAT}^*$ の別の例を示す。

We review the correspondence between a synchronous game and its associated game algebra. We slightly develop the work of Helton et al.[HMPS17] by proposing results on algebraic and locally commuting graph identities. Based on the theoretical works on noncommutative Nullstellens\"atze [BWHK23], we build computational tools involving Gr\"obner basis method and semidefinite programming to check the existence of perfect strategies with specific models. We prove the equivalence between the hereditary and $C^*$ models proposed in [HMPS17]. We also extend Ji's reduction $\texttt{3-Coloring}^* \leq_p \texttt{3-SAT}^*$ [Ji13] and exhibit another instance of quantum-version NP-hardness reduction $\texttt{Clique}^* \leq_p \texttt{3-SAT}^*$.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# LoopSplat: 3Dガウスプレートの登録によるループ閉鎖

LoopSplat: Loop Closure by Registering 3D Gaussian Splats ( http://arxiv.org/abs/2408.10154v2 )

ライセンス: Link先を確認
Liyuan Zhu, Yue Li, Erik Sandström, Shengyu Huang, Konrad Schindler, Iro Armeni, (参考訳) 3次元ガウススプレート(3DGS)に基づく同時局所化マッピング(SLAM)は,最近より正確で高密度な3Dシーンマップの実現を約束している。 しかし、既存の3DGSベースの手法ではループ閉鎖やグローバルバンドル調整によってシーンのグローバルな整合性に対処できない。 この目的のために,RGB-D画像を入力として取り出し,3DGSサブマップとフレーム・ツー・モデル追跡を用いた高密度マッピングを行うLoopSplatを提案する。 LoopSplatはループの閉鎖をオンラインでトリガーし、3DGSの登録を通じてサブマップ間の相対ループエッジの制約を直接計算することで、従来のグローバルからローカルのポイントクラウドの登録よりも効率と精度が向上する。 堅牢なポーズグラフ最適化の定式化を使用し、グローバルな一貫性を達成するためにサブマップを厳格に整列する。 合成Replicaおよび実世界のTUM-RGBD、ScanNet、ScanNet++データセットの評価は、RGB-D SLAMの既存の方法と比較して、競合的あるいは優れた追跡、マッピング、レンダリングを示している。 コードは loopsplat.github.io で入手できる。

Simultaneous Localization and Mapping (SLAM) based on 3D Gaussian Splats (3DGS) has recently shown promise towards more accurate, dense 3D scene maps. However, existing 3DGS-based methods fail to address the global consistency of the scene via loop closure and/or global bundle adjustment. To this end, we propose LoopSplat, which takes RGB-D images as input and performs dense mapping with 3DGS submaps and frame-to-model tracking. LoopSplat triggers loop closure online and computes relative loop edge constraints between submaps directly via 3DGS registration, leading to improvements in efficiency and accuracy over traditional global-to-local point cloud registration. It uses a robust pose graph optimization formulation and rigidly aligns the submaps to achieve global consistency. Evaluation on the synthetic Replica and real-world TUM-RGBD, ScanNet, and ScanNet++ datasets demonstrates competitive or superior tracking, mapping, and rendering compared to existing methods for dense RGB-D SLAM. Code is available at loopsplat.github.io.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20
# LongVILA:ロングビデオのためのロングコンテキストビジュアル言語モデルのスケーリング

LongVILA: Scaling Long-Context Visual Language Models for Long Videos ( http://arxiv.org/abs/2408.10188v2 )

ライセンス: Link先を確認
Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han, (参考訳) マルチモーダル基礎モデルの長文化は重要である。 私たちはLongVILAを紹介します。LongVILAは、システム、モデルトレーニング、データセット開発を含む、長期コンテキストの視覚言語モデルのためのフルスタックソリューションです。 システム側では、長いトレーニングと推論を可能にし、勾配チェックポイントなしで256GPU上で2Mコンテキスト長のトレーニングを可能にするMM-SP(Long-context Multi-Modal Sequence Parallelism)システムを導入する。 MM-SPはリングシーケンスの並列性より2.1x - 5.7倍、Megatronコンテキストの並列性とテキストのみの設定におけるテンソル並列性より1.1x - 1.4倍速い。 さらに、Hugging Face Transformersとシームレスに統合される。 モデルトレーニングでは,アライメント,事前学習,短い教師付き微調整,コンテキスト拡張,長い教師付き微調整を含む5段階のパイプラインを提案する。 データセットに基づいて、大規模な視覚言語事前学習データセットと長時間のビデオ命令追従データセットを構築し、マルチステージトレーニングプロセスをサポートする。 LongVILA は VILA のフレーム数を 8 から 1024 に拡張し、長いビデオキャプションスコアを 2.00 から 3.26 (1.6x) に改善し、1400 フレームのビデオ (274k コンテキスト長) で 99.5% の精度を実現した。 LongVILA-8Bは、フレーム数が増加するにつれて、ビデオMMEベンチマークにおいて、長いビデオに対して一貫した精度の向上を示す。

Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first long-context Multi-Modal Sequence Parallelism (MM-SP) system that enables long training and inference, enabling 2M context length training on 256 GPUs without any gradient checkpointing. MM-SP is 2.1x - 5.7x faster than ring sequence parallelism and 1.1x - 1.4x faster than Megatron context parallelism + tensor parallelism in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, short supervised fine-tuning, context extension, and long supervised fine-tuning. On datasets, we construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. LongVILA extends the number of frames of VILA from 8 to 1024, and improves the long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle-in-a-haystack. LongVILA-8B demonstrates consistent accuracy improvements on long videos in the VideoMME benchmark as the number of frames increases.
翻訳日:2024-08-21 12:23:48 公開日:2024-08-20