このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241017となっている論文です。

PDF登録状況(公開日: 20241017)

TitleAuthorsAbstract論文公表日・翻訳日
# 顔行動単位検出のための対照的な特徴表現の学習

Learning Contrastive Feature Representations for Facial Action Unit Detection ( http://arxiv.org/abs/2402.06165v3 )

ライセンス: Link先を確認
Ziqiao Shang, Bin Liu, Fengmao Lv, Fei Teng, Tianrui Li, (参考訳) 顔アクションユニット(AU)検出は、AUが活性化する際の微妙な特徴差を検出するという課題に長年遭遇してきた。 既存の手法はしばしばAUのピクセルレベルの情報を符号化することに頼り、余分な情報をエンコードするだけでなく、モデルの複雑さが増し、一般化可能性も制限される。 さらに、各AUタイプのクラス不均衡問題や、ノイズや偽AUラベルの存在により、AU検出の精度が負の影響を受ける。 本稿では、自己教師付き信号と教師付き信号の両方を組み込んだAU検出を目的とした新しいコントラスト学習フレームワークを導入し、精度の高いAU検出のための識別特徴の学習を向上する。 クラス不均衡問題に対処するために、少数派および多数派のサンプルに対するパラメータの更新のステップサイズを調整する負のサンプル再重み付け戦略を用いる。 さらに,雑音や偽AUラベルによる課題に対処するために,3種類の正のサンプル対を含むサンプリング手法を用いる。 これにより、教師付き信号に自己教師付き信号を注入し、ノイズラベルの悪影響を効果的に軽減することができる。 筆者らは,4つの広く利用されているベンチマークデータセット(BP4D, DISFA, GFT, Aff-Wild2)を用いて実験を行った。 我々のコードは \url{https://github.com/Ziqiao-Shang/AUNCE} で入手できる。

Facial action unit (AU) detection has long encountered the challenge of detecting subtle feature differences when AUs activate. Existing methods often rely on encoding pixel-level information of AUs, which not only encodes additional redundant information but also leads to increased model complexity and limited generalizability. Additionally, the accuracy of AU detection is negatively impacted by the class imbalance issue of each AU type, and the presence of noisy and false AU labels. In this paper, we introduce a novel contrastive learning framework aimed for AU detection that incorporates both self-supervised and supervised signals, thereby enhancing the learning of discriminative features for accurate AU detection. To tackle the class imbalance issue, we employ a negative sample re-weighting strategy that adjusts the step size of updating parameters for minority and majority class samples. Moreover, to address the challenges posed by noisy and false AU labels, we employ a sampling technique that encompasses three distinct types of positive sample pairs. This enables us to inject self-supervised signals into the supervised signal, effectively mitigating the adverse effects of noisy labels. Our experimental assessments, conducted on four widely-utilized benchmark datasets (BP4D, DISFA, GFT and Aff-Wild2), underscore the superior performance of our approach compared to state-of-the-art methods of AU detection. Our code is available at \url{https://github.com/Ziqiao-Shang/AUNCE}.
翻訳日:2024-11-09 04:54:55 公開日:2024-10-17
# PTQ4DiT:拡散変圧器のポストトレーニング量子化

PTQ4DiT: Post-training Quantization for Diffusion Transformers ( http://arxiv.org/abs/2405.16005v2 )

ライセンス: Link先を確認
Junyi Wu, Haoxuan Wang, Yuzhang Shang, Mubarak Shah, Yan Yan, (参考訳) 最近導入されたDiffusion Transformers (DiTs)は、異なるバックボーンアーキテクチャを使用して、従来のU-Netから離れ、トランスフォーマーのスケーラブルな性質を受け入れることで、画像生成において例外的な能力を実証している。 高度な能力にもかかわらず、特にリアルタイムアプリケーション向けのDiTの広範な展開は、推論段階でのかなりの計算要求によって妨げられている。 ポストトレーニング量子化(PTQ)は、低ビット重みとアクティベーションを使用して計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。 しかし、DiTsの適用性はまだ検討されておらず、DiTsのユニークな設計のため、非自明な困難に直面している。 本稿では,DiTのPTQ法であるPTQ4DiTを提案する。 本研究では,DiTsに固有の2つの主量子化問題,特に極大な静電チャネルの存在,および複数の時間経過における静電活性化分布の時間的変動を明らかにする。 これらの課題に対処するため,チャンネルワイド・サリエンス・バランシング (CSB) とスピアメンの$\rho$-guided Salience Calibration (SSC) を提案する。 CSBはチャネルの等級の相補性を利用して極端を再分配し、活性化と重みの両方の量子化誤差を軽減する。 SSCは、バランスの取れたサリエンスを動的に調整し、アクティベーションの時間的変動を捉えることによってこのアプローチを拡張している。 さらに,推定中にPTQ4DiTが引き起こす余分な計算コストを削減するため,Ditのオフライン再パラメータ化戦略を設計する。 実験により, PTQ4DiTはDiTを8ビット精度 (W8A8) に量子化し, さらに4ビット重量精度 (W4A8) の有効定量化を可能にした。

The recent introduction of Diffusion Transformers (DiTs) has demonstrated exceptional capabilities in image generation by using a different backbone architecture, departing from traditional U-Nets and embracing the scalable nature of transformers. Despite their advanced capabilities, the wide deployment of DiTs, particularly for real-time applications, is currently hampered by considerable computational demands at the inference stage. Post-training Quantization (PTQ) has emerged as a fast and data-efficient solution that can significantly reduce computation and memory footprint by using low-bit weights and activations. However, its applicability to DiTs has not yet been explored and faces non-trivial difficulties due to the unique design of DiTs. In this paper, we propose PTQ4DiT, a specifically designed PTQ method for DiTs. We discover two primary quantization challenges inherent in DiTs, notably the presence of salient channels with extreme magnitudes and the temporal variability in distributions of salient activation over multiple timesteps. To tackle these challenges, we propose Channel-wise Salience Balancing (CSB) and Spearmen's $\rho$-guided Salience Calibration (SSC). CSB leverages the complementarity property of channel magnitudes to redistribute the extremes, alleviating quantization errors for both activations and weights. SSC extends this approach by dynamically adjusting the balanced salience to capture the temporal variations in activation. Additionally, to eliminate extra computational costs caused by PTQ4DiT during inference, we design an offline re-parameterization strategy for DiTs. Experiments demonstrate that our PTQ4DiT successfully quantizes DiTs to 8-bit precision (W8A8) while preserving comparable generation ability and further enables effective quantization to 4-bit weight precision (W4A8) for the first time.
翻訳日:2024-11-09 02:07:29 公開日:2024-10-17
# 視覚言語モデルを用いた位置情報の粒度プライバシ制御

Granular Privacy Control for Geolocation with Vision Language Models ( http://arxiv.org/abs/2407.04952v2 )

ライセンス: Link先を確認
Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter, (参考訳) 視覚言語モデル(VLM)は、情報検索の質問に答える能力において急速に進歩している。 これらのモデルはコンシューマー向けアプリケーションに広くデプロイされているため、写真内の人物を特定したり、画像の位置を測ったりすることで、新たなプライバシーリスクにつながる可能性がある。 驚くべきことに、現在のオープンソースおよびプロプライエタリなVLMは、非常に有能な画像測位器であり、VLMによる広範な位置情報は、単なる理論的な将来的な懸念ではなく、すぐにプライバシー上のリスクとなる。 この課題に対処する第一歩として,ユーザとの位置情報対話を適度に行うVLMの能力をテストするため,新しいベンチマークであるGPTGeoChatを開発した。 室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集し、各ターンに表示される位置情報の粒度にアノテートする。 新たなデータセットを用いて、位置情報が多すぎるかどうかを判断することで、様々なVLMがGPT-4vの位置情報通信を適度に行う能力を評価する。 カスタムの微調整モデルは、国や都市レベルで漏洩した位置情報を特定する際に、誘導されたAPIベースのモデルと同等に動作するが、レストランや建物の名前など、より細かい粒度を正確に調整するためには、教師付きデータによる微調整が必要である。

Vision Language Models (VLMs) are rapidly advancing in their capability to answer information-seeking questions. As these models are widely deployed in consumer applications, they could lead to new privacy risks due to emergent abilities to identify people in photos, geolocate images, etc. As we demonstrate, somewhat surprisingly, current open-source and proprietary VLMs are very capable image geolocators, making widespread geolocation with VLMs an immediate privacy risk, rather than merely a theoretical future concern. As a first step to address this challenge, we develop a new benchmark, GPTGeoChat, to test the ability of VLMs to moderate geolocation dialogues with users. We collect a set of 1,000 image geolocation conversations between in-house annotators and GPT-4v, which are annotated with the granularity of location information revealed at each turn. Using this new dataset, we evaluate the ability of various VLMs to moderate GPT-4v geolocation conversations by determining when too much location information has been revealed. We find that custom fine-tuned models perform on par with prompted API-based models when identifying leaked location information at the country or city level; however, fine-tuning on supervised data appears to be needed to accurately moderate finer granularities, such as the name of a restaurant or building.
翻訳日:2024-11-08 23:35:45 公開日:2024-10-17
# RULE:医療ビジョン言語モデルにおけるファクチュアリティのための信頼性の高いマルチモーダルRAG

RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models ( http://arxiv.org/abs/2407.05131v2 )

ライセンス: Link先を確認
Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao, (参考訳) 近年,医療用大規模視覚言語モデル (Med-LVLMs) が出現し,医学的診断が強化されている。 しかし、現在のMed-LVLMは、しばしば現実的な問題に遭遇し、確立された医療事実と一致しない応答をしばしば生み出す。 外部知識を利用した検索・拡張生成(RAG)は,これらのモデルの現実的精度を向上させるが,2つの大きな課題を提起する。 まず、限定された検索されたコンテキストは必要な情報をすべてカバーしないが、過剰な検索は無関係で不正確な参照を導入し、モデルの生成に干渉する。 第二に、モデルが元来正しく応答する場合、RAGを適用すると、取得したコンテキストに対する過度な信頼が得られ、誤った回答をもたらす可能性がある。 これらの問題に対処するために,2つのコンポーネントからなるRULEを提案する。 まず,検索したコンテキストの数を校正し,事実性リスクを制御するための有効な戦略を提案する。 第二に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整し、固有知識への依存と生成のための検索コンテキストのバランスをとる。 本稿では,医療用VQAにおけるRULEの有効性と3つのデータセットにおけるレポート生成タスクの有効性を実証し,47.4%の精度で平均的な改善を実現した。 ベンチマークとコードはhttps://github.com/richard-peng-xia/RULEで公開しています。

The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has enhanced medical diagnosis. However, current Med-LVLMs frequently encounter factual issues, often generating responses that do not align with established medical facts. Retrieval-Augmented Generation (RAG), which utilizes external knowledge, can improve the factual accuracy of these models but introduces two major challenges. First, limited retrieved contexts might not cover all necessary information, while excessive retrieval can introduce irrelevant and inaccurate references, interfering with the model's generation. Second, in cases where the model originally responds correctly, applying RAG can lead to an over-reliance on retrieved contexts, resulting in incorrect answers. To address these issues, we propose RULE, which consists of two components. First, we introduce a provably effective strategy for controlling factuality risk through the calibrated selection of the number of retrieved contexts. Second, based on samples where over-reliance on retrieved contexts led to errors, we curate a preference dataset to fine-tune the model, balancing its dependence on inherent knowledge and retrieved contexts for generation. We demonstrate the effectiveness of RULE on medical VQA and report generation tasks across three datasets, achieving an average improvement of 47.4% in factual accuracy. We publicly release our benchmark and code in https://github.com/richard-peng-xia/RULE.
翻訳日:2024-11-08 23:35:45 公開日:2024-10-17
# SaMoye:特徴分散と強調に基づくゼロショット歌声変換モデル

SaMoye: Zero-shot Singing Voice Conversion Model Based on Feature Disentanglement and Enhancement ( http://arxiv.org/abs/2407.07728v4 )

ライセンス: Link先を確認
Zihao Wang, Le Ma, Yongsheng Feng, Xin Pan, Yuhang Jin, Kejun Zhang, (参考訳) 歌唱音声変換(SVC)は、歌唱者の声を参照音声から他の歌唱者の声に変換し、本来の意味を保ちながら行うことを目的としている。 しかし、既存のSVC手法では、不完全な特徴の絡み合いや話者のルックアップテーブルへの依存のため、ゼロショットがほとんどできない。 そこで我々は,歌唱を人間と非人間の音色に変換できる,オープンソースの初の高品質ゼロショットSVCモデルSaMoyeを提案する。 SaMoyeは、歌声の特徴をコンテンツ、音色、ピッチの特徴に分解し、複数のASRモデルを組み合わせてコンテンツの特徴を圧縮し、音色漏れを減らす。 さらに, スピーカエンコーダを解凍し, スピーカーをトップ3の類似話者と混合することにより, 音色特性を向上する。 また,1,815時間以上の純歌声と6,367人の話者からなるゼロショット性能を保証するために,非並列な大規模データセットを構築した。 サモエは動物に歌う音色に変換するような極端な条件下であっても、ゼロショットのSVCタスクにおいて他のモデルよりも優れていることを確認するために、客観的かつ主観的な実験を行う。 SaMoyeのコードと重量はhttps://github.com/CarlWang China/SaMoye-SVCで確認できる。 SaMoyeの重み、コード、データセット、ドキュメントは、 \url{https://github.com/CarlWang China/SaMoye-SVC}で公開されている。

Singing voice conversion (SVC) aims to convert a singer's voice to another singer's from a reference audio while keeping the original semantics. However, existing SVC methods can hardly perform zero-shot due to incomplete feature disentanglement or dependence on the speaker look-up table. We propose the first open-source high-quality zero-shot SVC model SaMoye that can convert singing to human and non-human timbre. SaMoye disentangles the singing voice's features into content, timbre, and pitch features, where we combine multiple ASR models and compress the content features to reduce timbre leaks. Besides, we enhance the timbre features by unfreezing the speaker encoder and mixing the speaker embedding with top-3 similar speakers. We also establish an unparalleled large-scale dataset to guarantee zero-shot performance, which comprises more than 1,815 hours of pure singing voice and 6,367 speakers. We conduct objective and subjective experiments to find that SaMoye outperforms other models in zero-shot SVC tasks even under extreme conditions like converting singing to animals' timbre. The code and weight of SaMoye are available on https://github.com/CarlWangChina/SaMoye-SVC. The weights, code, dataset, and documents of SaMoye are publicly available on \url{https://github.com/CarlWangChina/SaMoye-SVC}.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-17
# 命令の追従を超えて:大言語モデルの推論規則の追従を評価する

Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models ( http://arxiv.org/abs/2407.08440v3 )

ライセンス: Link先を確認
Wangtao Sun, Chenxiang Zhang, XueYou Zhang, Xuanqing Yu, Ziyang Huang, Pei Chen, Haotian Xu, Shizhu He, Jun Zhao, Kang Liu, (参考訳) LLM(Large Language Models)は強力な能力を示していますが、安全で正確でインテリジェントな現実のシナリオによって制御され、ガイドされることが求められています。 これにより、LLMの能力の保持が要求される。 しかし, LLMの推論規則追従能力について, 事前の検証は行われていない。 LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。 そこで本研究では,まず,推論規則追従の概念を明確にし,推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。 各種LLMに関する実験結果から, 以下のルールで制限されていることが明らかとなった。 評価結果に基づく分析により,LLMの改良に関する知見が得られた。 さらに、IRFT(Inferential Rule-Following Tuning)を提案する。 実験の結果, LLMはIRFTにより, 純粋な合成データから抽象ルール追従能力を学習し, ルールベンチに一般化できることがわかった。 https://anonymous.4open.science/r/llm-rule-following-B3E3/

Although Large Language Models (LLMs) have demonstrated strong ability, they are further supposed to be controlled and guided by in real-world scenarios to be safe, accurate, and intelligent. This demands the possession of capability of LLMs. However, no prior work has made a clear evaluation of the inferential rule-following capability of LLMs. Previous studies that try to evaluate the inferential rule-following capability of LLMs fail to distinguish the inferential rule-following scenarios from the instruction-following scenarios. Therefore, this paper first clarifies the concept of inferential rule-following and proposes a comprehensive benchmark, RuleBench, to evaluate a diversified range of inferential rule-following abilities. Our experimental results on a variety of LLMs show that they are still limited in following rules. Our analysis based on the evaluation results provides insights into the improvements for LLMs toward a better inferential rule-following intelligent agent. We further propose Inferential Rule-Following Tuning (IRFT). The experimental results show that through IRFT, LLMs can learn abstract rule-following abilities from purely synthetic data and then generalize to RuleBench. The data and code can be found at: https://anonymous.4open.science/r/llm-rule-following-B3E3/
翻訳日:2024-11-08 22:29:08 公開日:2024-10-17
# 命令の追従を超えて:大言語モデルの推論規則の追従を評価する

Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models ( http://arxiv.org/abs/2407.08440v4 )

ライセンス: Link先を確認
Wangtao Sun, Chenxiang Zhang, XueYou Zhang, Xuanqing Yu, Ziyang Huang, Pei Chen, Haotian Xu, Shizhu He, Jun Zhao, Kang Liu, (参考訳) LLM(Large Language Models)は強力な能力を示していますが、安全で正確でインテリジェントな現実のシナリオによって制御され、ガイドされることが求められています。 これにより、LLMの能力の保持が要求される。 しかし, LLMの推論規則追従能力について, 事前の検証は行われていない。 LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。 そこで本研究では,まず,推論規則追従の概念を明確にし,推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。 各種LLMに関する実験結果から, 以下のルールで制限されていることが明らかとなった。 評価結果に基づく分析により,LLMの改良に関する知見が得られた。 さらに、IRFT(Inferential Rule-Following Tuning)を提案する。 実験の結果, LLMはIRFTにより, 純粋な合成データから抽象ルール追従能力を学習し, ルールベンチに一般化できることがわかった。 https://anonymous.4open.science/r/llm-rule-following-B3E3/

Although Large Language Models (LLMs) have demonstrated strong ability, they are further supposed to be controlled and guided by in real-world scenarios to be safe, accurate, and intelligent. This demands the possession of capability of LLMs. However, no prior work has made a clear evaluation of the inferential rule-following capability of LLMs. Previous studies that try to evaluate the inferential rule-following capability of LLMs fail to distinguish the inferential rule-following scenarios from the instruction-following scenarios. Therefore, this paper first clarifies the concept of inferential rule-following and proposes a comprehensive benchmark, RuleBench, to evaluate a diversified range of inferential rule-following abilities. Our experimental results on a variety of LLMs show that they are still limited in following rules. Our analysis based on the evaluation results provides insights into the improvements for LLMs toward a better inferential rule-following intelligent agent. We further propose Inferential Rule-Following Tuning (IRFT). The experimental results show that through IRFT, LLMs can learn abstract rule-following abilities from purely synthetic data and then generalize to RuleBench. The data and code can be found at: https://anonymous.4open.science/r/llm-rule-following-B3E3/
翻訳日:2024-11-08 22:29:08 公開日:2024-10-17
# 効率的な不均一並列コンパイル法:暗号ケーススタディ

A Method for Efficient Heterogeneous Parallel Compilation: A Cryptography Case Study ( http://arxiv.org/abs/2407.09333v2 )

ライセンス: Link先を確認
Zhiyuan Tan, Liutong Han, Mingjie Xing, Yanjun Wu, (参考訳) ムーアズ・ローの利益が減少する時代、不均一な計算システムが計算効率を高めるための重要なアプローチとして現れてきた。 本稿では,多様なハードウェアアーキテクチャにまたがるデータ管理と並列計算を最適化するために,ハイパーという新しいMLIRベースの方言を提案する。 ハイパー方言は、タスクを効率的にスケジュールし、データ通信を管理する統合コンパイルフレームワークを提供することによって、異種コンピューティングの複雑さを抽象化する。 HETOCompilerは,複数のハッシュアルゴリズムを実装し,ヘテロジニアスなシステム上での実行を可能にする,暗号に着目したコンパイラのプロトタイプである。 提案手法は,SHA-1, MD5, SM3アルゴリズムの平均速度は1.93x, 1.18x, 1.12xである。 本研究は, ヘテロジニアス機器の完全計算能力を活用したハイパー弁証法の可能性を強調し, ヘテロジニアスシステムのコンパイラ設計の分野を推し進めるものである。

In the era of diminishing returns from Moores Law, heterogeneous computing systems have emerged as a vital approach to enhance computational efficiency. This paper introduces a novel MLIR-based dialect, named hyper, designed to optimize data management and parallel computation across diverse hardware architectures. The hyper dialect abstracts the complexities of heterogeneous computing by providing a unified compilation framework that efficiently schedules tasks and manages data communication. To demonstrate its capabilities, we present HETOCompiler, a cryptography-focused compiler prototype that implements multiple hash algorithms and enables their execution on heterogeneous systems. The proposed approach achieves performance improvements over existing programming models for heterogeneous computing (OpenCL), offering an average speedup of 1.93x, 1.18x, and 1.12x for SHA-1, MD5, and SM3 algorithms, respectively. Our findings highlight the potential of the hyper dialect in harnessing the full computational power of heterogeneous devices, advancing the field of compiler design for heterogeneous systems.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-17
# 高品質伝送線路共振器を用いた2次元超伝導体の運動インダクタンスと超流動剛性の測定

Measuring kinetic inductance and superfluid stiffness of two-dimensional superconductors using high-quality transmission-line resonators ( http://arxiv.org/abs/2407.09916v3 )

ライセンス: Link先を確認
Mary Kreidel, Xuanjing Chu, Jesse Balgley, Abhinandan Antony, Nishchhal Verma, Julian Ingham, Leonardo Ranzani, Raquel Queiroz, Robert M. Westervelt, James Hone, Kin Chung Fong, (参考訳) 近年のファンデルワールス超伝導体の発見は、新しいペアリング機構に多くの興奮をもたらした。 しかし、それらの典型的な原子スケールの厚さとミクロスケールの側方寸法は、従来の方法によるペアリング対称性の研究に深刻な課題を課している。 本稿では, 高温超伝導共振器を用いて, 運動インダクタンス(最大100万分の1) とファンデルワールス超伝導体の損失を測定する新しい手法について述べる。 等価回路モデルを用いて, 運動インダクタンス, 超流動剛性, 浸透深さ, 複素導電率の虚部と実部の比を抽出する。 アルミニウムを計測し,BCS理論と比較した場合の0温度超伝導ギャップと複素導電率データの両方において優れた一致を見出すことにより,この技術の有効性を検証した。 次に,多層窒化ニオブの運動インダクタンスを測定し,試料の遷移温度が7.06KのNbSe$_2$,8.59KのNbプローブ共振器に近づくと,その精度の限界を議論する。この手法は超伝導回路成分のキャラクタリゼーションや,層状2次元材料やヘテロ構造に生じる新しい超伝導状態のペアリング機構の研究の手段として,超伝導物理,材料科学,量子センシングの分野における実践者にとって有用である。

The discovery of van der Waals superconductors in recent years has generated a lot of excitement for their potentially novel pairing mechanisms. However, their typical atomic-scale thickness and micrometer-scale lateral dimensions impose severe challenges to investigations of pairing symmetry by conventional methods. In this report we demonstrate a new technique that employs high-quality-factor superconducting resonators to measure the kinetic inductance -- up to a part per million -- and loss of a van der Waals superconductor. We analyze the equivalent circuit model to extract the kinetic inductance, superfluid stiffness, penetration depth, and ratio of imaginary and real parts of the complex conductivity. We validate the technique by measuring aluminum and finding excellent agreement in both the zero-temperature superconducting gap as well as the complex conductivity data when compared with BCS theory. We then demonstrate the utility of the technique by measuring the kinetic inductance of multi-layered niobium diselenide and discuss the limits to the accuracy of our technique when the transition temperature of the sample, NbSe$_2$ at 7.06 K, approaches our Nb probe resonator at 8.59 K. Our method will be useful for practitioners in the growing fields of superconducting physics, materials science, and quantum sensing, as a means of characterizing superconducting circuit components and studying pairing mechanisms of the novel superconducting states which arise in layered 2D materials and heterostructures.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-17
# 世界映画祭の国際的表現の社会経済要因--大富裕層に傾倒するが、小国が勝てる

Socioeconomic factors of national representation in the global film festival circuit: skewed toward the large and wealthy, but small countries can beat the odds ( http://arxiv.org/abs/2407.10755v3 )

ライセンス: Link先を確認
Andres Karjus, (参考訳) 本研究では,グローバル・フィルム・フェスティバル・サーキットにおいて,各国の経済・人口・地理的要因がどのように表現されるかを分析する。 カンヌ映画市場のCinandoプラットフォームからのフェスティバルプログラミング情報を含む、いくつかのオープンアクセスデータベースの組み合わせに依存している。 このデータセットは、世界中の約600のフェスティバルから10年間に2万本以上のユニークな映画で構成されており、合計で3万本以上の映画祭のエントリーがある。 大富裕国の映画が本当に祭の画面を支配しているのに対し、その偏見は大きな人口と経済の格差に完全には比例していないことが示され、いくつかの小国は予想以上にパフォーマンスが向上している。 さらなる計算シミュレーションは、小国の映画が文化の多様性にどの程度貢献するか、そして、いかに国が文化的「貿易収支」のダイナミクスに変化しているかを示し、ネット輸出者とフェスティバル映画の輸入者との違いを明らかにしている。 本研究は,映画祭における表現の重要性と文化多様性向上の公共的価値を強調するものである。 フェスティバル・プログラミングと文化イベント分析に対するデータ主導の洞察と定量的アプローチは、より包括的で多様な文化的景観を育むことを目的とした映画祭の主催者や政策立案者の両方にとって有用であることが期待されている。

This study analyzes how economic, demographic, and geographic factors predict the representation of different countries in the global film festival circuit. It relies on the combination of several open-access databases, including festival programming information from the Cinando platform of the Cannes Film Market. The dataset consists of over 20,000 unique films from almost 600 festivals across the world over a decade, a total of more than 30,000 film-festival entries. It is shown that while films from large affluent countries indeed dominate the festival screen, the bias is nevertheless not fully proportional to the large demographic and economic worldwide disparities and that several smaller countries perform better than expected. Further computational simulations demonstrate how much including films from smaller countries contributes to cultural diversity, and how countries vary in cultural "trade balance" dynamics, revealing differences between net exporters and importers of festival films. This research underscores the importance of representation in film festivals and the public value of increasing cultural diversity. The data-driven insights and quantitative approaches to festival programming and cultural event analytics are hoped to be useful for both the academic community as well as film festival organizers and policymakers aiming to foster more inclusive and diverse cultural landscapes.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-17
# InferAct: プリエンプティブ・アセスメントとヒューマンフィードバックによるLLMエージェントの安全行動の推測

InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback ( http://arxiv.org/abs/2407.11843v2 )

ライセンス: Link先を確認
Haishuo Fang, Xiaodan Zhu, Iryna Gurevych, (参考訳) LLMベースのエージェントを現実のアプリケーションにデプロイするための重要な要件は、リスクや不可逆的ミスに対する堅牢性である。 しかし, 従来の研究では, LLMエージェントによる推理軌道のプリエンプティブ評価に重点を置いておらず, 安全性と信頼性の確保にギャップが生じた。 より優れたソリューションを探求するために,リスク行動の実行前に潜在的なエラーを積極的に検出するために,LLMの信念推論能力を活用した新しいアプローチであるInferActを紹介した(例えば,オンライン取引やWebショッピングにおける'buy-now'など)。 InferActは人間のプロキシとして機能し、安全でないアクションを検出し、ユーザーの介入を警告する。 3つの広く利用されているタスクの実験は、重要な意思決定を含む環境において、LLMエージェントを安全に開発するための新しいソリューションであるInferActの有効性を示す。

A crucial requirement for deploying LLM-based agents in real-life applications is the robustness against risky or even irreversible mistakes. However, the existing research lacks a focus on preemptive evaluation of reasoning trajectories performed by LLM agents, leading to a gap in ensuring safe and reliable operations. To explore better solutions, this paper introduces InferAct, a novel approach that leverages the belief reasoning ability of LLMs, grounded in Theory-of-Mind, to proactively detect potential errors before risky actions are executed (e.g., `buy-now' in automatic online trading or web shopping). InferAct acts as a human proxy, detecting unsafe actions and alerting users for intervention, which helps prevent irreversible risks in time and enhances the actor agent's decision-making process. Experiments on three widely-used tasks demonstrate the effectiveness of InferAct, presenting a novel solution for safely developing LLM agents in environments involving critical decision-making.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-17
# 複雑な果樹園環境における果実の検出・測定におけるYOLO11, YOLOv10, YOLOv9, YOLOv8の総合的性能評価

Comprehensive Performance Evaluation of YOLO11, YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments ( http://arxiv.org/abs/2407.12040v4 )

ライセンス: Link先を確認
Ranjan Sapkota, Zhichao Meng, Martin Churuvija, Xiaoqiang Du, Zenghong Ma, Manoj Karkee, (参考訳) 本研究は, 商業果樹園における緑果検出のためのYOLOv8, YOLOv9, YOLOv10, YOLO11の全構成(Total 22)を対象に, You Only Look Once (YOLO) オブジェクト検出アルゴリズムを広範囲に評価した。 この研究は、iPhoneとマシンビジョンセンサーを使って、Scifresh、Scilate、Honeycrisp、Cosmic Crispの4種類のリンゴをフィールドで数えたことも検証した。 評価した22項目のうち、YOLO11sとYOLOv9 gelan-baseは、それぞれmAP@50スコア0.933と0.935で他より優れていた。 リコールに関しては、YOLOv9 gelan-base が 0.899 で、YOLO11m が 0.897 で YOLO11 をリードした。 YOLO11nは最速モデルとして登場し、推速は2.4msで、YOLOv10n、YOLOv9gelan-s、YOLOv8nをそれぞれ5.5ms、11.5ms、4.1msで上回った。 この比較評価は、YOLO11、YOLOv9、YOLOv10の強みを強調しており、研究者は、商業用果樹園におけるフルーツレットの検出と自動化のための最適なモデルを選択するための重要な洞察を提供する。 関連するデータセットにおけるリアルタイム自動化関連の作業に対しては,高い検出速度と画像処理速度のため,YOLO11nの使用を推奨する。 キーワード:YOLO11, YOLO11 Object Detection, YOLOv10, YOLOv9, YOLOv8, You Only Look Once, Fruitlet Detection, Greenfruit Detection, Green Apple Detection, Agricultural Automation, AI, Deep Learning, Machine Learning, Zero-shot Detection

This study extensively evaluated You Only Look Once (YOLO) object detection algorithms across all configurations (total 22) of YOLOv8, YOLOv9, YOLOv10, and YOLO11 for green fruit detection in commercial orchards. The research also validated in-field fruitlet counting using an iPhone and machine vision sensors across four apple varieties: Scifresh, Scilate, Honeycrisp and Cosmic Crisp. Among the 22 configurations evaluated, YOLO11s and YOLOv9 gelan-base outperformed others with mAP@50 scores of 0.933 and 0.935 respectively. In terms of recall, YOLOv9 gelan-base achieved the highest value among YOLOv9 configurations at 0.899, while YOLO11m led YOLO11 variants with 0.897. YOLO11n emerged as the fastest model, achieving fastest inference speed of only 2.4 ms, significantly outpacing the leading configurations of YOLOv10n, YOLOv9 gelan-s, and YOLOv8n, with speeds of 5.5, 11.5, and 4.1 ms, respectively. This comparative evaluation highlights the strengths of YOLO11, YOLOv9, and YOLOv10, offering researchers essential insights to choose the best-suited model for fruitlet detection and possible automation in commercial orchards. For real-time automation related work in relevant datasets, we recommend using YOLO11n due to its high detection and image processing speed. Keywords: YOLO11, YOLO11 Object Detection, YOLOv10, YOLOv9, YOLOv8, You Only Look Once, Fruitlet Detection, Greenfruit Detection, Green Apple Detection, Agricultural Automation, Artificial Intelligence, Deep Learning, Machine Learning, Zero-shot Detection
翻訳日:2024-11-08 20:48:00 公開日:2024-10-17
# 複雑な果樹園環境における果実の検出・測定におけるYOLO11, YOLOv10, YOLOv9, YOLOv8の総合的性能評価

Comprehensive Performance Evaluation of YOLO11, YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments ( http://arxiv.org/abs/2407.12040v5 )

ライセンス: Link先を確認
Ranjan Sapkota, Zhichao Meng, Martin Churuvija, Xiaoqiang Du, Zenghong Ma, Manoj Karkee, (参考訳) 本研究は, 商業果樹園における緑果検出のためのYOLOv8, YOLOv9, YOLOv10, YOLO11の全構成(Total 22)を対象に, You Only Look Once (YOLO) オブジェクト検出アルゴリズムを広範囲に評価した。 この研究は、iPhoneとマシンビジョンセンサーを使って、Scifresh、Scilate、Honeycrisp、Cosmic Crispの4種類のリンゴをフィールドで数えたことも検証した。 評価した22項目のうち、YOLO11sとYOLOv9 gelan-baseは、それぞれmAP@50スコア0.933と0.935で他より優れていた。 リコールに関しては、YOLOv9 gelan-base が 0.899 で、YOLO11m が 0.897 で YOLO11 をリードした。 YOLO11nは最速モデルとして登場し、推速は2.4msで、YOLOv10n、YOLOv9gelan-s、YOLOv8nをそれぞれ5.5ms、11.5ms、4.1msで上回った。 この比較評価は、YOLO11、YOLOv9、YOLOv10の強みを強調しており、研究者は、商業用果樹園におけるフルーツレットの検出と自動化のための最適なモデルを選択するための重要な洞察を提供する。 関連するデータセットにおけるリアルタイム自動化関連の作業に対しては,高い検出速度と画像処理速度のため,YOLO11nの使用を推奨する。 キーワード:YOLO11, YOLO11 Object Detection, YOLOv10, YOLOv9, YOLOv8, You Only Look Once, Fruitlet Detection, Greenfruit Detection, Green Apple Detection, Agricultural Automation, AI, Deep Learning, Machine Learning, Zero-shot Detection

This study extensively evaluated You Only Look Once (YOLO) object detection algorithms across all configurations (total 22) of YOLOv8, YOLOv9, YOLOv10, and YOLO11 for green fruit detection in commercial orchards. The research also validated in-field fruitlet counting using an iPhone and machine vision sensors across four apple varieties: Scifresh, Scilate, Honeycrisp and Cosmic Crisp. Among the 22 configurations evaluated, YOLO11s and YOLOv9 gelan-base outperformed others with mAP@50 scores of 0.933 and 0.935 respectively. In terms of recall, YOLOv9 gelan-base achieved the highest value among YOLOv9 configurations at 0.899, while YOLO11m led YOLO11 variants with 0.897. YOLO11n emerged as the fastest model, achieving fastest inference speed of only 2.4 ms, significantly outpacing the leading configurations of YOLOv10n, YOLOv9 gelan-s, and YOLOv8n, with speeds of 5.5, 11.5, and 4.1 ms, respectively. This comparative evaluation highlights the strengths of YOLO11, YOLOv9, and YOLOv10, offering researchers essential insights to choose the best-suited model for fruitlet detection and possible automation in commercial orchards. For real-time automation related work in relevant datasets, we recommend using YOLO11n due to its high detection and image processing speed. Keywords: YOLO11, YOLO11 Object Detection, YOLOv10, YOLOv9, YOLOv8, You Only Look Once, Fruitlet Detection, Greenfruit Detection, Green Apple Detection, Agricultural Automation, Artificial Intelligence, Deep Learning, Machine Learning, Zero-shot Detection
翻訳日:2024-11-08 20:48:00 公開日:2024-10-17
# 検索用拡張ジェネレーションと長期LLM : 総合的研究とハイブリッドアプローチ

Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach ( http://arxiv.org/abs/2407.16833v2 )

ライセンス: Link先を確認
Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky, (参考訳) Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。 しかし、Gemini-1.5 や GPT-4 のような最近の LLM は、長いコンテキストを直接理解する特別な能力を示している。 我々は,RAGとLong-context (LC) LLMの総合的な比較を行い,両者の強みを活用することを目的とした。 3つの最新のLCMを用いて、様々な公開データセットにわたってRAGとLCをベンチマークする。 その結果,資源が十分に確保された場合,LCは平均性能において常にRAGを上回っていることがわかった。 しかしながら、RAGの大幅なコスト削減は、依然として明らかな優位性である。 そこで本研究では,モデル自己回帰に基づいてクエリをRAGやLCにルーティングする,単純かつ効果的な手法であるSelf-Routeを提案する。 Self-RouteはLCに匹敵する性能を維持しながら計算コストを大幅に削減する。 本研究は,RAGとLCを用いたLLMの長期利用に関するガイドラインを提供する。

Retrieval Augmented Generation (RAG) has been a powerful tool for Large Language Models (LLMs) to efficiently process overly lengthy contexts. However, recent LLMs like Gemini-1.5 and GPT-4 show exceptional capabilities to understand long contexts directly. We conduct a comprehensive comparison between RAG and long-context (LC) LLMs, aiming to leverage the strengths of both. We benchmark RAG and LC across various public datasets using three latest LLMs. Results reveal that when resourced sufficiently, LC consistently outperforms RAG in terms of average performance. However, RAG's significantly lower cost remains a distinct advantage. Based on this observation, we propose Self-Route, a simple yet effective method that routes queries to RAG or LC based on model self-reflection. Self-Route significantly reduces the computation cost while maintaining a comparable performance to LC. Our findings provide a guideline for long-context applications of LLMs using RAG and LC.
翻訳日:2024-11-08 15:23:20 公開日:2024-10-17
# RECOVAR:地震イベント検出のための深部潜時空間上の表現共分散

RECOVAR: Representation Covariances on Deep Latent Spaces for Seismic Event Detection ( http://arxiv.org/abs/2407.18402v2 )

ライセンス: Link先を確認
Onur Efe, Arkadas Ozakin, (参考訳) 現代の深層学習手法は地震検出の課題において大きな可能性を秘めているが、最も成功した方法は教師付き学習に基づいており、そこでは地上構造ラベルを持つ大規模なデータセットが必要である。 このようなデータセットのキュレーションは時間がかかり、体系的なバイアスが生じる傾向があるため、クロスデータセットの一般化が困難になり、一般的な適用性が妨げられる。 本稿では,地中真理ラベルにアクセスせずに生波形から地震を検出できる地震検出手法を開発する。 パフォーマンスは、いくつかの最先端の教師付きメソッドと同等であり、場合によっては同等である。 さらに、この手法は強い \emph{cross-dataset generalization} 性能を持つ。 このアルゴリズムはディープオートエンコーダを利用して、データ圧縮ボトルネック後の波形を再現し、ラベル付けのボトルネックに単純な共分散に基づくトリガーアルゴリズムを使用する。 このアプローチは、他のドメインからの時系列データセットに有用である可能性がある。

While modern deep learning methods have shown great promise in the problem of earthquake detection, the most successful methods so far have been based on supervised learning, which requires large datasets with ground-truth labels. The curation of such datasets is both time consuming and prone to systematic biases, which result in difficulties with cross-dataset generalization, hindering general applicability. In this paper, we develop an unsupervised method for earthquake detection that learns to detect earthquakes from raw waveforms, without access to ground truth labels. The performance is comparable to, and in some cases better than, some state-of-the-art supervised methods. Moreover, the method has strong \emph{cross-dataset generalization} performance. The algorithm utilizes deep autoencoders that learn to reproduce the waveforms after a data-compressive bottleneck and uses a simple, cross-covariance-based triggering algorithm at the bottleneck for labeling. The approach has the potential to be useful for time series datasets from other domains.
翻訳日:2024-11-08 14:50:05 公開日:2024-10-17
# 対話型タスク分散生成からのロバストな高速適応

Robust Fast Adaptation from Adversarially Explicit Task Distribution Generation ( http://arxiv.org/abs/2407.19523v2 )

ライセンス: Link先を確認
Cheems Wang, Yiqin Lv, Yixiu Mao, Yun Qu, Yi Xu, Xiangyang Ji, (参考訳) メタラーニングは、いくつかの例からタスク間でスキルを伝達する実践的な学習パラダイムである。 それにもかかわらず、タスク分布シフトの存在はメタ学習者の一般化能力を弱める傾向にあり、特にタスク分布が手作業で手作りされている場合や、典型的なシナリオを十分にカバーできない単純な事前に基づいている場合である。 本稿では,タスク識別子上に配置されたタスク分布を明示的に生成するタスク分布について考察する。 我々のアプローチは、スタックルバーグゲームのモデルとして解釈できるが、明示的な生成モデルから問題解決時のタスク構造を明らかにするだけでなく、最悪の場合の適応ロバスト性も理論的に増大させる。 この研究は、特にメタラーニングにおけるタスク分散シフトの扱いにおいて実践的な意味を持ち、この分野の理論的洞察に寄与する。 本手法は,タスクサブポピュレーションシフトの存在下でのロバスト性を実証し,大規模な実験においてSOTAベースラインよりも高い性能を示した。 このプロジェクトはhttps://sites.google.com/view/ar-metalearn.comで入手できる。

Meta-learning is a practical learning paradigm to transfer skills across tasks from a few examples. Nevertheless, the existence of task distribution shifts tends to weaken meta-learners' generalization capability, particularly when the task distribution is naively hand-crafted or based on simple priors that fail to cover typical scenarios sufficiently. Here, we consider explicitly generative modeling task distributions placed over task identifiers and propose robustifying fast adaptation from adversarial training. Our approach, which can be interpreted as a model of a Stackelberg game, not only uncovers the task structure during problem-solving from an explicit generative model but also theoretically increases the adaptation robustness in worst cases. This work has practical implications, particularly in dealing with task distribution shifts in meta-learning, and contributes to theoretical insights in the field. Our method demonstrates its robustness in the presence of task subpopulation shifts and improved performance over SOTA baselines in extensive experiments. The project is available at https://sites.google.com/view/ar-metalearn.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-17
# SoK: Payment Channel Networks

SoK: Payment Channel Networks ( http://arxiv.org/abs/2407.20968v3 )

ライセンス: Link先を確認
Kartick Kolachala, Mohammed Ababneh, Roopa Vishwanathan, (参考訳) ブロックチェーントランザクションに関連するスケーラビリティ、スループット、コストオーバーヘッド問題に対する代替ソリューションとして、ペイメントチャネルネットワーク(PCN)が提案されている。 トランザクションのオフチェーン実行を容易にすることで、PCNはブロックチェーンの負担を大幅に削減し、トランザクション処理の高速化、トランザクション手数料の削減、プライバシの向上を実現した。 これらの利点にもかかわらず、PCNの現在の最先端技術は、さらなる探索を必要とする様々な課題を提示している。 本稿では,パスフィンディングやルーティング,仮想チャネル,ステートチャネル,ペイメントチャネルハブ,リバランシングプロトコルなど,PCNの基本的側面について検討する。 我々は,PCN研究の様々な側面の詳細な理解を読者に提供することを目的としており,重要な進歩を浮き彫りにしている。 さらに、この分野の様々な未解決課題を強調します。 学術・研究コミュニティからすぐに注意を払わなければならないPCN研究において、基本的なインフラ設計において、効率的なトランザクション処理につながる様々な興味深い課題と非自明な課題は何か。 この課題に対処することで、最も急進的な問題と今後の研究の方向性を特定し、研究者や実践者がこれらの課題に取り組み、PCNをより安全で多目的にすることを目指しています。

Payment Channel Networks (PCNs) have been proposed as an alternative solution to the scalability, throughput, and cost overhead problems associated with blockchain transactions. By facilitating offchain execution of transactions, PCNs significantly reduce the burden on the blockchain, leading to faster transaction processing, reduced transaction fees, and enhanced privacy. Despite these advantages, the current state-of-the-art in PCNs presents a variety of challenges that require further exploration. In this paper, we survey several fundamental aspects of PCNs, such as pathfinding and routing, virtual channels, state channels, payment channel hubs, and rebalancing protocols. We aim to provide the reader with a detailed understanding of the various aspects of PCN research, highlighting important advancements. Additionally, we highlight the various unresolved challenges in this area. Specifically, this paper seeks to answer the following crucial question: What are the various interesting and non-trivial challenges in fundamental infrastructure design leading to efficient transaction processing in PCN research that require immediate attention from the academic and research community? By addressing this question, we aim to identify the most pressing problems and future research directions, and we hope to inspire researchers and practitioners to tackle these challenges to make PCNs more secure and versatile
翻訳日:2024-11-08 14:05:00 公開日:2024-10-17
# マルチモーダル大規模言語モデルにおけるジェイルブレーキング検出のためのモード間情報チェック

Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models ( http://arxiv.org/abs/2407.21659v3 )

ライセンス: Link先を確認
Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang, (参考訳) マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張し、多くの視覚中心のタスクにおいて顕著な性能を達成する。 それにもかかわらず、最近の研究では、これらのモデルがジェイルブレイク攻撃の影響を受けやすいことが示されている。 この潜在的な脅威は、LLMの固有の脆弱性と、視覚入力によって導入されたより大きな攻撃範囲の両方によって引き起こされる。 MLLMのジェイルブレイク攻撃に対する安全性を高めるため、研究者は様々な防御技術を開発した。 しかし、これらの手法はモデルの内部構造の変更を必要とするか、推論フェーズ中に重要な計算資源を必要とするかのいずれかである。 マルチモーダル・インフォメーション(Multimodal Information)は、両刃の剣。 攻撃のリスクを増大させる一方で、安全対策を強化するための追加データも提供する。 そこで我々は,悪質な摂動画像入力を識別するプラグイン・アンド・プレイ・ジェイルブレイク検出装置であるCross-modality Information DetectoR(CIDER)を提案する。 CIDERはターゲットのMLLMとは独立であり、計算コストを削減できる。 広範囲にわたる実験結果から,CIDERの有効性と効率,およびWhite-boxおよびBlack-boxのMLLMへの転送性が確認された。

Multimodal Large Language Models (MLLMs) extend the capacity of LLMs to understand multimodal information comprehensively, achieving remarkable performance in many vision-centric tasks. Despite that, recent studies have shown that these models are susceptible to jailbreak attacks, which refer to an exploitative technique where malicious users can break the safety alignment of the target model and generate misleading and harmful answers. This potential threat is caused by both the inherent vulnerabilities of LLM and the larger attack scope introduced by vision input. To enhance the security of MLLMs against jailbreak attacks, researchers have developed various defense techniques. However, these methods either require modifications to the model's internal structure or demand significant computational resources during the inference phase. Multimodal information is a double-edged sword. While it increases the risk of attacks, it also provides additional data that can enhance safeguards. Inspired by this, we propose Cross-modality Information DEtectoR (CIDER), a plug-and-play jailbreaking detector designed to identify maliciously perturbed image inputs, utilizing the cross-modal similarity between harmful queries and adversarial images. CIDER is independent of the target MLLMs and requires less computation cost. Extensive experimental results demonstrate the effectiveness and efficiency of CIDER, as well as its transferability to both white-box and black-box MLLMs.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-17
# マルチモーダル大規模言語モデルにおけるジェイルブレーキング検出のためのモード間情報チェック

Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models ( http://arxiv.org/abs/2407.21659v4 )

ライセンス: Link先を確認
Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang, (参考訳) マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張し、多くの視覚中心のタスクにおいて顕著な性能を達成する。 それにもかかわらず、最近の研究では、これらのモデルがジェイルブレイク攻撃の影響を受けやすいことが示されている。 この潜在的な脅威は、LLMの固有の脆弱性と、視覚入力によって導入されたより大きな攻撃範囲の両方によって引き起こされる。 MLLMのジェイルブレイク攻撃に対する安全性を高めるため、研究者は様々な防御技術を開発した。 しかし、これらの手法はモデルの内部構造の変更を必要とするか、推論フェーズ中に重要な計算資源を必要とするかのいずれかである。 マルチモーダル・インフォメーション(Multimodal Information)は、両刃の剣。 攻撃のリスクを増大させる一方で、安全対策を強化するための追加データも提供する。 そこで我々は,悪質な摂動画像入力を識別するプラグイン・アンド・プレイ・ジェイルブレイク検出装置であるCross-modality Information DetectoR(CIDER)を提案する。 CIDERはターゲットのMLLMとは独立であり、計算コストを削減できる。 広範囲にわたる実験結果から,CIDERの有効性と効率,およびWhite-boxおよびBlack-boxのMLLMへの転送性が確認された。

Multimodal Large Language Models (MLLMs) extend the capacity of LLMs to understand multimodal information comprehensively, achieving remarkable performance in many vision-centric tasks. Despite that, recent studies have shown that these models are susceptible to jailbreak attacks, which refer to an exploitative technique where malicious users can break the safety alignment of the target model and generate misleading and harmful answers. This potential threat is caused by both the inherent vulnerabilities of LLM and the larger attack scope introduced by vision input. To enhance the security of MLLMs against jailbreak attacks, researchers have developed various defense techniques. However, these methods either require modifications to the model's internal structure or demand significant computational resources during the inference phase. Multimodal information is a double-edged sword. While it increases the risk of attacks, it also provides additional data that can enhance safeguards. Inspired by this, we propose Cross-modality Information DEtectoR (CIDER), a plug-and-play jailbreaking detector designed to identify maliciously perturbed image inputs, utilizing the cross-modal similarity between harmful queries and adversarial images. CIDER is independent of the target MLLMs and requires less computation cost. Extensive experimental results demonstrate the effectiveness and efficiency of CIDER, as well as its transferability to both white-box and black-box MLLMs.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-17
# 大規模言語モデルとドメイン特化標準を用いたチャットボットによるオントロジーインタラクション

Chatbot-Based Ontology Interaction Using Large Language Models and Domain-Specific Standards ( http://arxiv.org/abs/2408.00800v2 )

ライセンス: Link先を確認
Jonathan Reif, Tom Jeleniewski, Milapji Singh Gill, Felix Gehlhoff, Alexander Fay, (参考訳) 次のコントリビューションでは、大規模言語モデル(LLM)とチャットボットインターフェースを採用して、オントロジーのためのSPARQLクエリ生成を強化し、形式化された知識への直感的なアクセスを容易にするコンセプトを紹介している。 自然言語入力を利用することで、ユーザからの問い合わせを正確なSPARQLクエリに変換し、オントロジーの事実内容を厳密にクエリし、LLMによる誤情報や偽造を効果的に防止する。 結果の質と精度を高めるために、確立されたドメイン固有の標準から追加のテキスト情報をオントロジーに統合し、その概念や関係を正確に記述する。 実験によって生成されたSPARQLクエリの精度を評価し、オントロジーのクエリや今後の研究領域のハイライトにLLMを使用することによる大きなメリットを明らかにした。

The following contribution introduces a concept that employs Large Language Models (LLMs) and a chatbot interface to enhance SPARQL query generation for ontologies, thereby facilitating intuitive access to formalized knowledge. Utilizing natural language inputs, the system converts user inquiries into accurate SPARQL queries that strictly query the factual content of the ontology, effectively preventing misinformation or fabrication by the LLM. To enhance the quality and precision of outcomes, additional textual information from established domain-specific standards is integrated into the ontology for precise descriptions of its concepts and relationships. An experimental study assesses the accuracy of generated SPARQL queries, revealing significant benefits of using LLMs for querying ontologies and highlighting areas for future research.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-17
# 量子ネットワーク間の分数的状態伝達による決定論的多部絡み合い

Deterministic multipartite entanglement via fractional state transfer across quantum networks ( http://arxiv.org/abs/2408.01177v2 )

ライセンス: Link先を確認
G. F. Peñas, J. -J. García-Ripoll, R. Puebla, (参考訳) 分散量子アーキテクチャにおける異なるノード間の絡み合いの生成は、異なるアプリケーションにおいて重要な役割を果たす。 特に、決定論的で堅牢で高速なプロトコルは、真のマルチパートの絡み合った状態を作るのが非常に望ましい。 本稿では,エミッタの励起が部分的に量子通信チャネルを介して伝達され,空間的に分離されたノードで吸収される分数量子状態伝達を提案する。 このプロトコルは2つの量子レジスタ間のベル状態の高速な決定論的生成を可能にし、ネットワークのトポロジに応じて連続的または同時的に$N$ qubitsの一般的な設定に対して$W$状態を提供する。 詳細な数値シミュレーションにより, 真のマルチパーティント絡み合った状態は, 現在の実験プラットフォーム内で忠実に準備できることを示し, ネットワークトポロジに応じて, 主デコヒーレンス源, クビットデフォーカス, 緩和の役割について議論する。

The generation of entanglement across different nodes in distributed quantum architectures plays a pivotal role for different applications. In particular, deterministic, robust, and fast protocols that prepare genuine multipartite entangled states are highly desirable. In this article, we propose a fractional quantum state transfer, in which the excitation of an emitter is partially transmitted through the quantum communication channel and then absorbed at a spatially separated node. This protocol is based on wavepacket shaping allowing for a fast deterministic generation of Bell states among two quantum registers and $W$ states for a general setting of $N$ qubits, either in a sequential or simultaneous fashion, depending on the topology of the network. By means of detailed numerical simulations, we show that genuine multipartite entangled states can be faithfully prepared within current experimental platforms and discuss the role of the main decoherence sources, qubit dephasing and relaxation, depending on the network topology.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-17
# RAGEval:シナリオ固有のRAG評価データセット生成フレームワーク

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework ( http://arxiv.org/abs/2408.01262v4 )

ライセンス: Link先を確認
Kunlun Zhu, Yifan Luo, Dingling Xu, Ruobing Wang, Shi Yu, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun, (参考訳) Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)が外部知識を組み込むことを可能にする強力なアプローチである。 しかし、データ構築のコストが高く、適切な評価基準が欠如しているため、特定シナリオにおけるRAGシステムの有効性を評価することは依然として困難である。 本稿では、高品質な文書、質問、回答、参照をスキーマベースのパイプラインを通じて生成することにより、様々なシナリオでRAGシステムを評価するためのフレームワークであるRAGEvalを紹介する。 実測精度に着目して,LLM生成応答を厳密に評価するために,完全性,幻覚,不適切性の3つの新しい指標を提案する。 実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。 さらに,提案手法の評価にLLMを用いることで,人間の評価と高い整合性を示す。 RAGEvalは、現実世界のアプリケーションでRAGシステムを評価するための新しいパラダイムを確立している。

Retrieval-Augmented Generation (RAG) is a powerful approach that enables large language models (LLMs) to incorporate external knowledge. However, evaluating the effectiveness of RAG systems in specialized scenarios remains challenging due to the high costs of data construction and the lack of suitable evaluation metrics. This paper introduces RAGEval, a framework designed to assess RAG systems across diverse scenarios by generating high-quality documents, questions, answers, and references through a schema-based pipeline. With a focus on factual accuracy, we propose three novel metrics Completeness, Hallucination, and Irrelevance to rigorously evaluate LLM-generated responses. Experimental results show that RAGEval outperforms zero-shot and one-shot methods in terms of clarity, safety, conformity, and richness of generated samples. Furthermore, the use of LLMs for scoring the proposed metrics demonstrates a high level of consistency with human evaluations. RAGEval establishes a new paradigm for evaluating RAG systems in real-world applications.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-17
# 物理インフォームドニューラルネットワークによる非線形力学の部分微分代数方程式:(I)演算子分割とフレームワーク評価

Partial-differential-algebraic equations of nonlinear dynamics by Physics-Informed Neural-Network: (I) Operator splitting and framework assessment ( http://arxiv.org/abs/2408.01914v3 )

ライセンス: Link先を確認
Loc Vu-Quoc, Alexander Humer, (参考訳) 微分作用素分割に基づく偏微分代数方程式の解法として, 非線形キルヒホフロッドを実証の原型として, 新規な物理インフォームドニューラルネット(PINN)を構築するためのいくつかの形式が提案されている。 オープンソースであるDeepXDEは、おそらく多くの例で最もよくドキュメント化されたフレームワークである。 しかし,病理学的な問題に遭遇し,その解決のための新しい方法を提案した。 これらの新しい手法には PDE 形式があるが、これは未知の従属変数が少ない低レベル形式からより従属変数を持つ高レベル形式へと進化し、さらに下位レベルの形式からも進化している。 伝統的に、最上位の形式であるモメンタ形式は、連続する置換の退屈な(そしてエラーを起こしやすい)過程を通じて最下位の形式を導出する(手)出発点である。 有限要素法における次のステップは、弱い形式を形成し、適切な補間関数で線形化し、次にコードとテストで実装することで、最低レベルの形式を識別することである。 これらのステップの全てで時間を消費するテジウムは、提案された新しいPINNを最も高いレベルに直接適用することでバイパスすることができる。 私たちはJAXをベースにしたスクリプトを開発しました。 我々のJAXスクリプトはDDE-T(TensorFlowバックエンドのDDE)の病理的な問題を示さなかったが、DDE-Tよりも遅い。 DDE-T自体が低レベルの形式よりも高レベルの形式の方が効率的であることは、上述の利点に加えて、より高レベルの形式で直接動作することをより魅力的にしている。 そこで我々は,ネットワーク学習プロセスの正規化/標準化を通じて最適化を行った経験を詳細に体系化して,読者が結果を再現できるようにした。

Several forms for constructing novel physics-informed neural-networks (PINN) for the solution of partial-differential-algebraic equations based on derivative operator splitting are proposed, using the nonlinear Kirchhoff rod as a prototype for demonstration. The open-source DeepXDE is likely the most well documented framework with many examples. Yet, we encountered some pathological problems and proposed novel methods to resolve them. Among these novel methods are the PDE forms, which evolve from the lower-level form with fewer unknown dependent variables to higher-level form with more dependent variables, in addition to those from lower-level forms. Traditionally, the highest-level form, the balance-of-momenta form, is the starting point for (hand) deriving the lowest-level form through a tedious (and error prone) process of successive substitutions. The next step in a finite element method is to discretize the lowest-level form upon forming a weak form and linearization with appropriate interpolation functions, followed by their implementation in a code and testing. The time-consuming tedium in all of these steps could be bypassed by applying the proposed novel PINN directly to the highest-level form. We developed a script based on JAX. While our JAX script did not show the pathological problems of DDE-T (DDE with TensorFlow backend), it is slower than DDE-T. That DDE-T itself being more efficient in higher-level form than in lower-level form makes working directly with higher-level form even more attractive in addition to the advantages mentioned further above. Since coming up with an appropriate learning-rate schedule for a good solution is more art than science, we systematically codified in detail our experience running optimization through a normalization/standardization of the network-training process so readers can reproduce our results.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-17
# KOI: ハイブリッドキーステートガイダンスによるオンライン模倣学習の高速化

KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance ( http://arxiv.org/abs/2408.02912v3 )

ライセンス: Link先を確認
Jingxian Lu, Wenke Xia, Dong Wang, Zhigang Wang, Bin Zhao, Di Hu, Xuelong Li, (参考訳) オンライン・イミテーション・ラーニングは、広範囲のオンライン探索空間と限られた専門家の軌道とのギャップに苦慮し、不正確な報酬推定のために効率的な探索を妨げる。 認知神経科学の知見に触発されて、ターゲットタスクを「何をすべきか」の目的と「何をすべきか」のメカニズムに分解することで、エージェントが効率的なオンライン探索のための正確なタスク認識報酬を推定できるという仮説を立てた。 そこで本研究では,報酬推定のためのガイダンスとして,意味と動きのキー状態の統合を活用するハイブリッドなキーステートガイド型オンライン模倣学習手法を提案する。 当初、私たちは視覚言語モデルを用いて、専門家の軌跡から意味的キー状態を抽出し、「何をすべきか」の目的を示す。 セマンティックキー状態間の間隔内では、動作キー状態のキャプチャに光の流れを使用し、"どのように行うか"のメカニズムを理解する。 ハイブリッドキー状態の網羅的把握を統合することで、軌道整合報酬計算を洗練し、タスク認識探索によるオンライン模倣学習を加速する。 メタワールドおよびLIBERO環境におけるタスクの成功率だけでなく、オンライン模倣学習における分散傾向も評価し、本手法がより標本効率が高いことを示す。 また,本手法の有効性を検証するために実世界のロボット操作実験を行い,本手法の有効性を実証した。 ビデオとコードはhttps://gewu-lab.github.io/Keystate_Online_Imitation/.comで公開されている。

Online Imitation Learning struggles with the gap between extensive online exploration space and limited expert trajectories, hindering efficient exploration due to inaccurate reward estimation. Inspired by the findings from cognitive neuroscience, we hypothesize that an agent could estimate precise task-aware reward for efficient online exploration, through decomposing the target task into the objectives of "what to do" and the mechanisms of "how to do". In this work, we introduce the hybrid Key-state guided Online Imitation (KOI) learning method, which leverages the integration of semantic and motion key states as guidance for reward estimation. Initially, we utilize visual-language models to extract semantic key states from expert trajectory, indicating the objectives of "what to do". Within the intervals between semantic key states, optical flow is employed to capture motion key states to understand the mechanisms of "how to do". By integrating a thorough grasp of hybrid key states, we refine the trajectory-matching reward computation, accelerating online imitation learning with task-aware exploration. We evaluate not only the success rate of the tasks in the Meta-World and LIBERO environments, but also the trend of variance during online imitation learning, proving that our method is more sample efficient. We also conduct real-world robotic manipulation experiments to validate the efficacy of our method, demonstrating the practical applicability of our KOI method. Videos and code are available at https://gewu-lab.github.io/Keystate_Online_Imitation/.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-17
# PLANRL: 強化学習のための運動計画と模倣学習フレームワーク

PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning ( http://arxiv.org/abs/2408.04054v2 )

ライセンス: Link先を確認
Amisha Bhaskar, Zahiruddin Mahammad, Sachin R Jadhav, Pratap Tokekar, (参考訳) 強化学習(Reinforcement Learning, RL)は, シミュレーション環境において顕著な進歩を見せている。 これらの課題に対処するために,ロボットがいつ古典的な動作計画を使うべきか,いつポリシーを学ぶべきかを選択するフレームワークPLANRLを紹介した。 探索の効率をさらに向上するため,我々は模擬データを用いて探索をブートストラップする。 PLANRLは2つの操作モードを動的に切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに、きめ細かい操作制御のための強化学習を行う。 PLANRLアーキテクチャはモード分類のためのModeNet、ウェイポイント予測のためのNavNet、正確な操作のためのInteractNetで構成されている。 RLとImitation Learning(IL)の長所を組み合わせることで、PLANRLはサンプル効率を改善し、分散シフトを緩和し、堅牢なタスク実行を保証する。 我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。 シミュレーションでは, PLANRLは, トレーニング成功率を30kサンプルで10~15%, 評価フェーズで30~40%以上, ベースライン法を10~40%超えた。 現実のシナリオでは、ベースラインよりも単純なタスクで30~40倍の成功率を示し、複雑な2段階の操作タスクでユニークに成功します。 データセットと補足資料は、https://raaslab.org/projects/NAVINACT/} で確認できます。

Reinforcement Learning (RL) has shown remarkable progress in simulation environments, yet its application to real-world robotic tasks remains limited due to challenges in exploration and generalization. To address these issues, we introduce PLANRL, a framework that chooses when the robot should use classical motion planning and when it should learn a policy. To further improve the efficiency in exploration, we use imitation data to bootstrap the exploration. PLANRL dynamically switches between two modes of operation: reaching a waypoint using classical techniques when away from the objects and reinforcement learning for fine-grained manipulation control when about to interact with objects. PLANRL architecture is composed of ModeNet for mode classification, NavNet for waypoint prediction, and InteractNet for precise manipulation. By combining the strengths of RL and Imitation Learning (IL), PLANRL improves sample efficiency and mitigates distribution shift, ensuring robust task execution. We evaluate our approach across multiple challenging simulation environments and real-world tasks, demonstrating superior performance in terms of adaptability, efficiency, and generalization compared to existing methods. In simulations, PLANRL surpasses baseline methods by 10-15\% in training success rates at 30k samples and by 30-40\% during evaluation phases. In real-world scenarios, it demonstrates a 30-40\% higher success rate on simpler tasks compared to baselines and uniquely succeeds in complex, two-stage manipulation tasks. Datasets and supplementary materials can be found on our {https://raaslab.org/projects/NAVINACT/}.
翻訳日:2024-11-08 12:22:45 公開日:2024-10-17
# 知覚・反射・計画:指導無しのゴール指向型都市ナビゲーションのためのLLMエージェントの設計

Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions ( http://arxiv.org/abs/2408.04168v3 )

ライセンス: Link先を確認
Qingbin Zeng, Qinglong Yang, Shunan Dong, Heming Du, Liang Zheng, Fengli Xu, Yong Li, (参考訳) 本稿では、都市ナビゲーションにおけるシナリオについて考察する:AIエージェントは、よく知られたランドマークに対する目標位置の言語記述を提供する;ランドマークと道路ネットワーク接続の認識を含む周囲のシーンのみを観察することにより、エージェントは指示なしで目標位置へのナビゲーションを決定する必要がある。 この問題は、しばしばランドマークが見えない複雑な都市環境の自己配置と空間表現を取得するためにエージェントが必要であるため、非常に難しい。 ナビゲーションの指示がない場合、このような能力は、長距離都市ナビゲーションにおいて高品質な意思決定を行うために、エージェントにとって不可欠である。 大規模言語モデル(LLM)の創発的推論能力によって、誘惑のベースラインは、それぞれの観察に対してLSMに「反応」させ、それに応じて決定を下すことである。 しかし、このベースラインは非常に貧弱なパフォーマンスのため、エージェントは頻繁に同じ場所を訪れ、近視眼的で一貫性のない決定をする。 これらの課題に対処するために,本論文では,その知覚・反映・計画能力に特徴付けられる新しいエージェントワークフローを提案する。 具体的には、LLaVA-7Bは、都市のナビゲーションに十分な精度でランドマークの方向と距離を把握できるように微調整できる。 さらに、過去の体験を記憶するメモリ機構を通じてリフレクションを達成し、現在の認識で検索して効果的な意思決定の議論を行う。 計画では、リフレクション結果を使って長期計画を作成し、長距離航法における短期的な決定を避けることができる。 設計したワークフローは、最先端のベースラインと比較して、LLMエージェントのナビゲーション能力を大幅に改善する。

This paper considers a scenario in city navigation: an AI agent is provided with language descriptions of the goal location with respect to some well-known landmarks; By only observing the scene around, including recognizing landmarks and road network connections, the agent has to make decisions to navigate to the goal location without instructions. This problem is very challenging, because it requires agent to establish self-position and acquire spatial representation of complex urban environment, where landmarks are often invisible. In the absence of navigation instructions, such abilities are vital for the agent to make high-quality decisions in long-range city navigation. With the emergent reasoning ability of large language models (LLMs), a tempting baseline is to prompt LLMs to "react" on each observation and make decisions accordingly. However, this baseline has very poor performance that the agent often repeatedly visits same locations and make short-sighted, inconsistent decisions. To address these issues, this paper introduces a novel agentic workflow featured by its abilities to perceive, reflect and plan. Specifically, we find LLaVA-7B can be fine-tuned to perceive the direction and distance of landmarks with sufficient accuracy for city navigation. Moreover, reflection is achieved through a memory mechanism, where past experiences are stored and can be retrieved with current perception for effective decision argumentation. Planning uses reflection results to produce long-term plans, which can avoid short-sighted decisions in long-range navigation. We show the designed workflow significantly improves navigation ability of the LLM agent compared with the state-of-the-art baselines.
翻訳日:2024-11-08 12:22:45 公開日:2024-10-17
# 人工認知の解き放つ - 複数のAIシステムを統合する

Unleashing Artificial Cognition: Integrating Multiple AI Systems ( http://arxiv.org/abs/2408.04910v4 )

ライセンス: Link先を確認
Muntasir Adnan, Buddhi Gamage, Zhiwei Xu, Damith Herath, Carlos C. N. Kuhn, (参考訳) 本研究では,人工知能の認知を解き明かすために,言語モデルとクエリ分析技術の革新的な融合を提案する。 我々のシステムは、Chessエンジンを言語モデルとシームレスに統合し、動きを予測し、戦略的説明を提供する。 検索可能な回答生成を実現するためにベクトルデータベースを活用することで、私たちのOpenSI AIシステムは、生の計算と人間のような理解のギャップを埋めながら、意思決定プロセスを解明します。 実演環境としてのChessの選択は、私たちのアプローチの汎用性を強調します。 Chess以外にも、医療診断から財務予測まで、さまざまな応用を約束しています。

In this study, we present an innovative fusion of language models and query analysis techniques to unlock cognition in artificial intelligence. Our system seamlessly integrates a Chess engine with a language model, enabling it to predict moves and provide strategic explanations. Leveraging a vector database to achieve retrievable answer generation, our OpenSI AI system elucidates its decision-making process, bridging the gap between raw computation and human-like understanding. Our choice of Chess as the demonstration environment underscores the versatility of our approach. Beyond Chess, our system holds promise for diverse applications, from medical diagnostics to financial forecasting.
翻訳日:2024-11-08 12:11:36 公開日:2024-10-17
# 人工認知の解き放つ - 複数のAIシステムを統合する

Unleashing Artificial Cognition: Integrating Multiple AI Systems ( http://arxiv.org/abs/2408.04910v5 )

ライセンス: Link先を確認
Muntasir Adnan, Buddhi Gamage, Zhiwei Xu, Damith Herath, Carlos C. N. Kuhn, (参考訳) 本研究では,人工知能の認知を解き明かすために,言語モデルとクエリ分析技術の革新的な融合を提案する。 導入されたオープンソースのAIシステムは、Chessエンジンを言語モデルとシームレスに統合し、動きを予測し、戦略的説明を提供する。 検索可能な回答生成を実現するためにベクトルデータベースを活用することで、AIシステムは意思決定プロセスを解明し、生の計算と人間のような理解のギャップを埋める。 実演環境としてのChessの選択は、私たちのアプローチの汎用性を強調します。 Chess以外にも、医療診断から財務予測まで、さまざまな応用を約束しています。 私たちのAIシステムはhttps://github.com/TheOpenSI/CoSMIC.gitで利用可能です。

In this study, we present an innovative fusion of language models and query analysis techniques to unlock cognition in artificial intelligence. The introduced open-source AI system seamlessly integrates a Chess engine with a language model, enabling it to predict moves and provide strategic explanations. Leveraging a vector database to achieve retrievable answer generation, our AI system elucidates its decision-making process, bridging the gap between raw computation and human-like understanding. Our choice of Chess as the demonstration environment underscores the versatility of our approach. Beyond Chess, our system holds promise for diverse applications, from medical diagnostics to financial forecasting. Our AI system is available at https://github.com/TheOpenSI/CoSMIC.git
翻訳日:2024-11-08 12:11:36 公開日:2024-10-17
# 分割・並列予測符号化:構造化ベイズ推論アルゴリズム

Divide-and-Conquer Predictive Coding: a structured Bayesian inference algorithm ( http://arxiv.org/abs/2408.05834v2 )

ライセンス: Link先を確認
Eli Sennesh, Hao Wu, Tommaso Salvatori, (参考訳) 予期せぬ刺激は、脳内の「エラー」または「サプライズ」シグナルを誘導する。 予測符号化の理論は、確率的グラフィカルモデルにおいて、大脳皮質が変分推論を実装していることを示唆することによって、ベイズ的推論の観点からこれらの観測を説明することを約束する。 しかし、機械学習タスクに適用した場合、このアルゴリズムの族は、高次元構造推論問題における他の変分的アプローチと同等に動作しない。 そこで本研究では,構造生成モデルに対する新しい予測符号化アルゴリズムを導入し,その手法をDCPC(Deput-and-Conquer predictive coding)と呼ぶ。 DCPCは、生成モデルの相関構造を尊重し、生物学的確率を犠牲にすることなく、モデルパラメータの最大様態を確実に更新するので、予測符号化の他の定式化と異なる。 実証的には、DCPCは競合するアルゴリズムよりも優れた数値性能を達成し、これまで予測符号に対処していなかった多くの問題に対して正確な推論を提供する。 GithubのPyroでDCPCのオープン実装を提供しています。

Unexpected stimuli induce "error" or "surprise" signals in the brain. The theory of predictive coding promises to explain these observations in terms of Bayesian inference by suggesting that the cortex implements variational inference in a probabilistic graphical model. However, when applied to machine learning tasks, this family of algorithms has yet to perform on par with other variational approaches in high-dimensional, structured inference problems. To address this, we introduce a novel predictive coding algorithm for structured generative models, that we call divide-and-conquer predictive coding (DCPC). DCPC differs from other formulations of predictive coding, as it respects the correlation structure of the generative model and provably performs maximum-likelihood updates of model parameters, all without sacrificing biological plausibility. Empirically, DCPC achieves better numerical performance than competing algorithms and provides accurate inference in a number of problems not previously addressed with predictive coding. We provide an open implementation of DCPC in Pyro on Github.
翻訳日:2024-11-08 11:49:24 公開日:2024-10-17
# 繰り返し参照リファインメントを有するマルチマージンガルシュレーディンガー橋

Multi-marginal Schrödinger Bridges with Iterative Reference Refinement ( http://arxiv.org/abs/2408.06277v3 )

ライセンス: Link先を確認
Yunyi Shen, Renato Berlinghieri, Tamara Broderick, (参考訳) 実践者は、しばしば複数の時点のサンプルスナップショットを用いて、観測されていない人口軌道を推測することを目的としている。 例えば、単一細胞のシークエンシングデータを考えると、科学者は細胞のライフサイクルで遺伝子発現がどのように変化するかを学びたい。 しかし、どの細胞もシークエンシングすることでその細胞は破壊される。 そのため、特定のセルのデータは1つの時点でのみアクセスできますが、多くのセルにまたがるデータがあります。 ディープラーニングコミュニティは先頃、Schr\"odinger Bridges(SB)とその拡張を、同様の設定で検討した。 しかし、既存の方法は(1)2つの時間点の間を補間するか、または(2)1つの固定された参照ダイナミクスを必要とする(しばしばSBs内のブラウン運動にセットされる)。 しかし、隣接する時間ポイントから断片的に学ぶことは、長期的な依存関係を捉えるのに失敗する可能性がある。 そして、実践者は一般的に参照のダイナミックなモデルファミリを指定できますが、その中のパラメータの正確な値ではありません。 そこで本研究では,(1)複数時点にわたるサンプルスナップショットから未観測軌跡を学習する手法を提案する。 シミュレーションおよび実データに対する本手法の利点を実証する。

Practitioners often aim to infer an unobserved population trajectory using sample snapshots at multiple time points. E.g., given single-cell sequencing data, scientists would like to learn how gene expression changes over a cell's life cycle. But sequencing any cell destroys that cell. So we can access data for any particular cell only at a single time point, but we have data across many cells. The deep learning community has recently explored using Schr\"odinger bridges (SBs) and their extensions in similar settings. However, existing methods either (1) interpolate between just two time points or (2) require a single fixed reference dynamic (often set to Brownian motion within SBs). But learning piecewise from adjacent time points can fail to capture long-term dependencies. And practitioners are typically able to specify a model family for the reference dynamic but not the exact values of the parameters within it. So we propose a new method that (1) learns the unobserved trajectories from sample snapshots across multiple time points and (2) requires specification only of a family of reference dynamics, not a single fixed one. We demonstrate the advantages of our method on simulated and real data.
翻訳日:2024-11-08 11:38:16 公開日:2024-10-17
# ヘテロ親水性グラフ構造分布シフトに対する不変原理の活用

Leveraging Invariant Principle for Heterophilic Graph Structure Distribution Shifts ( http://arxiv.org/abs/2408.09490v2 )

ライセンス: Link先を確認
Jinluan Yang, Zhengyu Chen, Teng Xiao, Wenqiao Zhang, Yong Lin, Kun Kuang, (参考訳) Heterophilic Graph Neural Networks (HGNN) は、グラフ上の半教師付き学習タスクに対して有望な結果を示している。 特に、ほとんどの実世界のヘテロ親和性グラフは、異なる隣接するパターンのノードの混合で構成され、局所的なノードレベルのホモ親和性とヘテロ親和性構造を示す。 しかし、既存の研究は、ヘテロ親水性グラフベンチマークとホモ親水性グラフベンチマークのノード分類タスクのためのより良いHGNNバックボーンやアーキテクチャを同時に設計することのみに特化しており、そのノードに対するHGNN性能の分析は、このトレーニングとテストノードの構造的違いによる影響を探索することなく、決定されたデータ分布に基づいてのみ行われる。 この構造差や分布シフトを扱うために、異種グラフ上の不変ノード表現を学習する方法は、まだ解明されていない。 本稿では,データ拡張の観点から,従来のグラフに基づく不変学習手法の限界について論じる。 次に,不均一なノード表現を生成するためのフレームワークである‘textbf{HEI} を提案する。 提案手法は, ヘテロ親和性グラフ構造分布シフトにおいて, 保証された性能を実現することができることを示す。 各種ベンチマークやバックボーンの大規模な実験により,既存の最先端ベースラインと比較して,本手法の有効性が示された。

Heterophilic Graph Neural Networks (HGNNs) have shown promising results for semi-supervised learning tasks on graphs. Notably, most real-world heterophilic graphs are composed of a mixture of nodes with different neighbor patterns, exhibiting local node-level homophilic and heterophilic structures. However, existing works are only devoted to designing better HGNN backbones or architectures for node classification tasks on heterophilic and homophilic graph benchmarks simultaneously, and their analyses of HGNN performance with respect to nodes are only based on the determined data distribution without exploring the effect caused by this structural difference between training and testing nodes. How to learn invariant node representations on heterophilic graphs to handle this structure difference or distribution shifts remains unexplored. In this paper, we first discuss the limitations of previous graph-based invariant learning methods from the perspective of data augmentation. Then, we propose \textbf{HEI}, a framework capable of generating invariant node representations through incorporating heterophily information to infer latent environments without augmentation, which are then used for invariant prediction, under heterophilic graph structure distribution shifts. We theoretically show that our proposed method can achieve guaranteed performance under heterophilic graph structure distribution shifts. Extensive experiments on various benchmarks and backbones can also demonstrate the effectiveness of our method compared with existing state-of-the-art baselines.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-17
# 古典漢詩翻訳のためのLLMのベンチマーク:妥当性・頻度・エレガンスの評価

Benchmarking LLMs for Translating Classical Chinese Poetry:Evaluating Adequacy, Fluency, and Elegance ( http://arxiv.org/abs/2408.09945v2 )

ライセンス: Link先を確認
Andong Chen, Lianzhang Lou, Kehai Chen, Xuefeng Bai, Yang Xiang, Muyun Yang, Tiejun Zhao, Min Zhang, (参考訳) 大きな言語モデル(LLM)は、一般的な翻訳タスクにおいて顕著な性能を示している。 しかし、良質な翻訳の需要が増大し、適当であるばかりでなく、流麗でエレガントなものも求められている。 そこで本研究では,従来の漢詩を英語に翻訳するための適切なベンチマークを提案する。 この課題は、文化的、歴史的に重要な内容の翻訳に適当であるだけでなく、言語的な優雅さや詩的な優雅さへの厳格な固執も必要である。 我々の研究は、既存のLLMがこのタスクに欠落していることを明らかにした。 これらの問題に対処するために、古典詩に関する知識を取り入れた翻訳プロセスを強化するために、 RAT を提案する。 さらに, GPT-4に基づく自動評価尺度を提案し, 従来の指標の限界を克服し, 翻訳品質を精度よく評価する。 データセットとコードは利用可能になります。

Large language models (LLMs) have shown remarkable performance in general translation tasks. However, the increasing demand for high-quality translations that are not only adequate but also fluent and elegant. To assess the extent to which current LLMs can meet these demands, we introduce a suitable benchmark for translating classical Chinese poetry into English. This task requires not only adequacy in translating culturally and historically significant content but also a strict adherence to linguistic fluency and poetic elegance. Our study reveals that existing LLMs fall short of this task. To address these issues, we propose RAT, a \textbf{R}etrieval-\textbf{A}ugmented machine \textbf{T}ranslation method that enhances the translation process by incorporating knowledge related to classical poetry. Additionally, we propose an automatic evaluation metric based on GPT-4, which better assesses translation quality in terms of adequacy, fluency, and elegance, overcoming the limitations of traditional metrics. Our dataset and code will be made available.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-17
# 古典漢詩翻訳のためのLLMのベンチマーク:妥当性・頻度・エレガンスの評価

Benchmarking LLMs for Translating Classical Chinese Poetry:Evaluating Adequacy, Fluency, and Elegance ( http://arxiv.org/abs/2408.09945v3 )

ライセンス: Link先を確認
Andong Chen, Lianzhang Lou, Kehai Chen, Xuefeng Bai, Yang Xiang, Muyun Yang, Tiejun Zhao, Min Zhang, (参考訳) 大規模言語モデル(LLM)は翻訳タスクにおいて顕著な性能を示した。 しかし、良質な翻訳の需要が高まり、適当であるばかりでなく、流麗でエレガントなものも求められている。 そこで本研究では,従来の漢詩を英語に翻訳するための適切なベンチマーク(PoetMT)を提案する。 この課題は、文化的、歴史的に重要な内容の翻訳に適当であるだけでなく、言語的な優雅さや詩的な優雅さへの厳格な固執も必要である。 従来の評価基準の限界を克服するため,GPT-4に基づく自動評価基準を提案し,その精度,頻度,エレガンスの観点から翻訳品質を良く評価する。 評価実験により,既存の大規模言語モデルは,この課題において不足していることが明らかとなった。 これらの課題を評価するため,古典詩に関する知識を取り入れた検索型機械翻訳手法であるRATを提案する。 データセットとコードは利用可能になります。

Large language models (LLMs) have shown remarkable performance in translation tasks. However, the increasing demand for high-quality translations that are not only adequate but also fluent and elegant. To evaluate the extent to which current LLMs can meet these demands, we introduce a suitable benchmark (PoetMT) for translating classical Chinese poetry into English. This task requires not only adequacy in translating culturally and historically significant content but also a strict adherence to linguistic fluency and poetic elegance. To overcome the limitations of traditional evaluation metrics, we propose an automatic evaluation metric based on GPT-4, which better evaluates translation quality in terms of adequacy, fluency, and elegance. Our evaluation study reveals that existing large language models fall short in this task. To evaluate these issues, we propose RAT, a Retrieval-Augmented machine Translation method that enhances the translation process by incorporating knowledge related to classical poetry. Our dataset and code will be made available.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-17
# 標準多言語ニューラルマシン翻訳モデルにおける文書レベル能力の導入に向けて

Towards Inducing Document-Level Abilities in Standard Multilingual Neural Machine Translation Models ( http://arxiv.org/abs/2408.11382v2 )

ライセンス: Link先を確認
Varun Gumma, Pranjal A. Chitale, Kalika Bali, (参考訳) ニューラル機械翻訳(NMT)モデルは伝統的に、長い範囲の依存関係を捉えるのに苦慮し、拡張コンテキストや文書レベルの翻訳タスクの処理にあまり効率が良くない正弦波位置埋め込み(PE)を使用してきた。 本研究は, 絶対正弦波PEからロータリー位置埋め込み (ROPE) やアテンション・ウィズ・リニアバイアス (ALIBI) などの相対PEへ, 性能を損なうことなく, 事前学習したNMTモデルを移行するという課題に対処する。 パラメータ効率のよい微調整は,少量の高品質なデータしか利用せず,この遷移をうまく促進できることを示す。 実験結果から,正弦波から相対的なPEへの切り替えにより,文レベル評価ベンチマークの翻訳品質が向上することが示唆された。 さらに、ROPEでトレーニングされたモデルは、文字列ベースのメトリクスと定性評価の両方にわたる文書レベルのベンチマークにおいて、ALIBIとSinusoidal PEを使用したモデルよりも一貫して優れている。 さらに,少数の言語における少量の長文データが,言語間長の一般化に十分であることがわかった。

Neural Machine Translation (NMT) models have traditionally used Sinusoidal Positional Embeddings (PEs), which often struggle to capture long-range dependencies and are less efficient for handling extended context or document-level translation tasks. This work addresses the challenge of transitioning pre-trained NMT models from absolute sinusoidal PEs to relative PEs, such as Rotary Positional Embeddings (ROPE) and Attention with Linear Biases (ALIBI), without compromising performance. We demonstrate that parameter-efficient fine-tuning, using only a small amount of high-quality data, can successfully facilitate this transition. Experimental results indicate that switching from sinusoidal to relative PEs results in competitive translation quality on sentence-level evaluation benchmarks. Additionally, models trained with ROPE consistently outperform those using ALIBI and Sinusoidal PEs on document-level benchmarks across both string-based metrics and qualitative evaluations. Moreover, we find that a small amount of long-context data in a few languages is sufficient for cross-lingual length generalization, thereby inducing long-context capabilities.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-17
# AnyDesign: マスクフリー拡散によるVersatile Area FashionEditing

AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion ( http://arxiv.org/abs/2408.11553v3 )

ライセンス: Link先を確認
Yunfang Niu, Lingxiang Wu, Dong Yi, Jie Peng, Ning Jiang, Haiying Wu, Jinqiao Wang, (参考訳) ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。 既存の方法はセグメンタやキーポイント抽出器のような補助的なツールを必要とし、柔軟性と統一されたフレームワークを欠いている。 さらに、これらの手法は、多くのデータセットがクリーンな背景の人々に焦点を当てており、トップ、パンツ、ドレスなどの一般的な衣服のみを含むため、扱える服の種類に制限されている。 これらの制限は、現実世界のシナリオにおける適用性を制限します。 本稿では、まず、人間生成のための既存のデータセットを拡張し、より広い範囲のアパレルとより複雑な背景を含むようにする。 この拡張データセットでは、トップ、ズボン、ドレス、スカート、ヘッドウェア、スカーフ、靴、靴下、バッグなどのさまざまなアイテムを身に着けている。 さらに,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。 ユーザは、テキストまたは画像フォーマットで、対応するプロンプトとともに、人間のイメージを入力できる。 提案手法は,Fashion-Guidance Attention (FGA)モジュールを備えたFashion DiTを取り入れ,明示的なアパレルタイプとCLIP符号化アパレル機能を融合させる。 質的,定量的な両実験により,本手法は高品質なファッション編集を実現し,現代テキスト誘導ファッション編集方法より優れることを示した。

Fashion image editing aims to modify a person's appearance based on a given instruction. Existing methods require auxiliary tools like segmenters and keypoint extractors, lacking a flexible and unified framework. Moreover, these methods are limited in the variety of clothing types they can handle, as most datasets focus on people in clean backgrounds and only include generic garments such as tops, pants, and dresses. These limitations restrict their applicability in real-world scenarios. In this paper, we first extend an existing dataset for human generation to include a wider range of apparel and more complex backgrounds. This extended dataset features people wearing diverse items such as tops, pants, dresses, skirts, headwear, scarves, shoes, socks, and bags. Additionally, we propose AnyDesign, a diffusion-based method that enables mask-free editing on versatile areas. Users can simply input a human image along with a corresponding prompt in either text or image format. Our approach incorporates Fashion DiT, equipped with a Fashion-Guidance Attention (FGA) module designed to fuse explicit apparel types and CLIP-encoded apparel features. Both Qualitative and quantitative experiments demonstrate that our method delivers high-quality fashion editing and outperforms contemporary text-guided fashion editing methods.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-17
# AnyDesign: マスクフリー拡散によるVersatile Area FashionEditing

AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion ( http://arxiv.org/abs/2408.11553v4 )

ライセンス: Link先を確認
Yunfang Niu, Lingxiang Wu, Dong Yi, Jie Peng, Ning Jiang, Haiying Wu, Jinqiao Wang, (参考訳) ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。 既存の方法はセグメンタやキーポイント抽出器のような補助的なツールを必要とし、柔軟性と統一されたフレームワークを欠いている。 さらに、これらの手法は、多くのデータセットがクリーンな背景の人々に焦点を当てており、トップ、パンツ、ドレスなどの一般的な衣服のみを含むため、扱える服の種類に制限されている。 これらの制限は、現実世界のシナリオにおける適用性を制限します。 本稿では、まず、人間生成のための既存のデータセットを拡張し、より広い範囲のアパレルとより複雑な背景を含むようにする。 この拡張データセットでは、トップ、ズボン、ドレス、スカート、ヘッドウェア、スカーフ、靴、靴下、バッグなどのさまざまなアイテムを身に着けている。 さらに,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。 ユーザは、テキストまたは画像フォーマットで、対応するプロンプトとともに、人間のイメージを入力できる。 提案手法は,Fashion-Guidance Attention (FGA)モジュールを備えたFashion DiTを取り入れ,明示的なアパレルタイプとCLIP符号化アパレル機能を融合させる。 質的,定量的な両実験により,本手法は高品質なファッション編集を実現し,現代テキスト誘導ファッション編集方法より優れることを示した。

Fashion image editing aims to modify a person's appearance based on a given instruction. Existing methods require auxiliary tools like segmenters and keypoint extractors, lacking a flexible and unified framework. Moreover, these methods are limited in the variety of clothing types they can handle, as most datasets focus on people in clean backgrounds and only include generic garments such as tops, pants, and dresses. These limitations restrict their applicability in real-world scenarios. In this paper, we first extend an existing dataset for human generation to include a wider range of apparel and more complex backgrounds. This extended dataset features people wearing diverse items such as tops, pants, dresses, skirts, headwear, scarves, shoes, socks, and bags. Additionally, we propose AnyDesign, a diffusion-based method that enables mask-free editing on versatile areas. Users can simply input a human image along with a corresponding prompt in either text or image format. Our approach incorporates Fashion DiT, equipped with a Fashion-Guidance Attention (FGA) module designed to fuse explicit apparel types and CLIP-encoded apparel features. Both Qualitative and quantitative experiments demonstrate that our method delivers high-quality fashion editing and outperforms contemporary text-guided fashion editing methods.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-17
# 波動関数崩壊に基づく時間理論

A theory of time based on wavefunction collapse ( http://arxiv.org/abs/2408.11905v2 )

ライセンス: Link先を確認
Sung-Sik Lee, (参考訳) 時間モーメントは時相微分同相をゲージ対称性として表すのに失敗し、時間経過はゲージ不変状態に向かって崩壊する瞬間状態の連続過程であることを示す。 結果として生じる時間進化のユニタリティと指向性は、宇宙論のミニスーパースペースモデルとして実証される。

We propose that moments of time arise through the failed emergence of the temporal diffeomorphism as gauge symmetry, and that the passage of time is a continual process of an instantaneous state collapsing toward a gauge-invariant state. Unitarity and directedness of the resulting time evolution are demonstrated for a minisuperspace model of cosmology.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-17
# 波動関数崩壊に基づく時間理論

A theory of time based on wavefunction collapse ( http://arxiv.org/abs/2408.11905v3 )

ライセンス: Link先を確認
Sung-Sik Lee, (参考訳) 時間モーメントは時相微分同相をゲージ対称性として表すのに失敗し、時間経過はゲージ不変状態に向かって崩壊する瞬間状態の連続過程であることを示す。 結果として生じる時間進化のユニタリティと指向性は、宇宙論のミニスーパースペースモデルとして実証される。

We propose that moments of time arise through the failed emergence of the temporal diffeomorphism as gauge symmetry, and that the passage of time is a continual process of an instantaneous state collapsing toward a gauge-invariant state. Unitarity and directedness of the resulting time evolution are demonstrated for a minisuperspace model of cosmology.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-17
# 配位環境における双方向創発言語

Bidirectional Emergent Language in Situated Environments ( http://arxiv.org/abs/2408.14649v2 )

ライセンス: Link先を確認
Cornelius Wolff, Julius Mayer, Elia Bruni, Xenia Ohmer, (参考訳) 創発的な言語研究は近年大きな進歩を遂げているが、コミュニケーションがより複雑で位置のあるマルチエージェントシステムでどのように現れるかはいまだに解明されていない。 既存の設定では、エージェント間の単一の純粋に言語ベースの相互作用からなるため、学習可能な言語の出現現象の範囲を制限する参照ゲームが用いられる。 本稿では,これらの制約に対処し,複数段階にわたる移動・通信を通じてエージェントが環境と対話するオープンエンドマルチエージェント環境におけるトークンベースのコミュニケーションの出現と有用性を検討する。 具体的には,マルチエージェントポンとコレクターの2つの新しい協調環境を紹介する。 これらの環境は、最適な性能は通信プロトコルの出現を必要とするため興味深いが、適度な成功はそれなしで達成できる。 サリエンシマップ、摂動、診断分類器などの説明可能なAI研究の様々な方法を利用することで、エージェントの言語チャネルの使用を時間とともに追跡し、解釈することができる。 エージェントは意味のあるメッセージのみを生成し、調整なしでは成功できない状態の受信メッセージに作用する。

Emergent language research has made significant progress in recent years, but still largely fails to explore how communication emerges in more complex and situated multi-agent systems. Existing setups often employ a reference game, which limits the range of language emergence phenomena that can be studied, as the game consists of a single, purely language-based interaction between the agents. In this paper, we address these limitations and explore the emergence and utility of token-based communication in open-ended multi-agent environments, where situated agents interact with the environment through movement and communication over multiple time-steps. Specifically, we introduce two novel cooperative environments: Multi-Agent Pong and Collectors. These environments are interesting because optimal performance requires the emergence of a communication protocol, but moderate success can be achieved without one. By employing various methods from explainable AI research, such as saliency maps, perturbation, and diagnostic classifiers, we are able to track and interpret the agents' language channel use over time. We find that the emerging communication is sparse, with the agents only generating meaningful messages and acting upon incoming messages in states where they cannot succeed without coordination.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-17
# 未知の未知へ:言語モデルエージェント会話への参加を通してのヒューマンラーニング

Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations ( http://arxiv.org/abs/2408.15232v2 )

ライセンス: Link先を確認
Yucheng Jiang, Yijia Shao, Dekun Ma, Sina J. Semnani, Monica S. Lam, (参考訳) 言語モデル(LM)を利用したチャットボットと生成検索エンジンは具体的な質問に答えるのに優れているが、未知の地形の情報を見つけることはユーザにとって依然として困難である。 子どもや生徒が親や教師の会話に耳を傾け,参加することで学習する一般的な教育シナリオをエミュレートするために,協調的STORM(Co-STORM)を作成する。 ユーザがすべての質問をしなければならないQAシステムとは異なり、Co-STORMでは、複数のLMエージェント間の会話を観察し、時には操縦することができる。 エージェントはユーザの代理として質問を行い、未知の未知をセレンディピティーに発見する。 Co-STORMは、ユーザとの対話を容易にするために、発見された情報をダイナミックマインドマップに整理することで、ユーザによる会話の追跡を支援し、最終的には、テイクアウトとして包括的なレポートを生成する。 自動評価のために,実際の情報検索記録をユーザ目標として収集し,WildSeekデータセットを構築する。 Co-STORMは、談話トレースとレポート品質の両方でベースラインメソッドより優れています。 さらに人間による評価では、70%の参加者が検索エンジンよりもCo-STORMを好み、78%がRAGチャットボットよりもCo-STORMを好んでいる。

While language model (LM)-powered chatbots and generative search engines excel at answering concrete queries, discovering information in the terrain of unknown unknowns remains challenging for users. To emulate the common educational scenario where children/students learn by listening to and participating in conversations of their parents/teachers, we create Collaborative STORM (Co-STORM). Unlike QA systems that require users to ask all the questions, Co-STORM lets users observe and occasionally steer the discourse among several LM agents. The agents ask questions on the user's behalf, allowing the user to discover unknown unknowns serendipitously. To facilitate user interaction, Co-STORM assists users in tracking the discourse by organizing the uncovered information into a dynamic mind map, ultimately generating a comprehensive report as takeaways. For automatic evaluation, we construct the WildSeek dataset by collecting real information-seeking records with user goals. Co-STORM outperforms baseline methods on both discourse trace and report quality. In a further human evaluation, 70% of participants prefer Co-STORM over a search engine, and 78% favor it over a RAG chatbot.
翻訳日:2024-11-08 04:41:58 公開日:2024-10-17
# TikTokにおける攻撃的コンテンツ検出のモデル化

Modeling offensive content detection for TikTok ( http://arxiv.org/abs/2408.16857v2 )

ライセンス: Link先を確認
Kasper Cools, Gideon Mailette de Buy Wenniger, Clara Maathuis, (参考訳) ソーシャルメディアの出現は、対人コミュニケーションと情報消費のプロセスを変えた。 このデジタルランドスケープは、ユーザの意図を許容し、攻撃的な言語の増加と有害な振る舞いをもたらす。 同時に、ソーシャルメディアプラットフォームは、ユーザー生成コンテンツと行動情報からなる膨大なデータセットを収集する。 これらのデータセットは、機械学習とデータ駆動戦略をデプロイするプラットフォームに役立ち、偽情報や攻撃的コンテンツといった社会的操作メカニズムに対する顧客の洞察と対策を容易にする。 それでも、そのようなデータセットは、さまざまな機械学習技術の応用とともに、研究者や実践者が特定のイベントに関する特定のソーシャルメディアプラットフォームで利用できることは限られている。 特にTikTokは、パーソナライズされたコンテンツの作成と共有のためのユニークなツールを提供しているが、既存の知識の体系は、さまざまな包括的なデータセットと関連するデータ分析ソリューションを攻撃的コンテンツ上に持つことで恩恵を受けるだろう。 ソーシャルメディアプラットフォーム、研究、実践者コミュニティの努力がこの代表として見られているが、そのようなコンテンツは今も増え続けている。 これは、データセットを公開し、対応するインテリジェントなソリューションを構築するために必要不可欠であることを意味します。 そこで本研究では,攻撃コンテンツを含むTikTokデータの収集と解析を行い,攻撃コンテンツ検出のための一連の機械学習モデルとディープラーニングモデルを構築した。 これは「TikTok上の攻撃的コンテンツを検出する一連の計算モデルをどのように開発するか?」という質問に答えることを目的としている。 この目的のために、データサイエンスの方法論的アプローチを検討し、120.423のTikTokコメントを収集し、バランスの取れたバイナリ分類アプローチにより、0.863のF1スコアパフォーマンス結果を得る。

The advent of social media transformed interpersonal communication and information consumption processes. This digital landscape accommodates user intentions, also resulting in an increase of offensive language and harmful behavior. Concurrently, social media platforms collect vast datasets comprising user-generated content and behavioral information. These datasets are instrumental for platforms deploying machine learning and data-driven strategies, facilitating customer insights and countermeasures against social manipulation mechanisms like disinformation and offensive content. Nevertheless, the availability of such datasets, along with the application of various machine learning techniques, to researchers and practitioners, for specific social media platforms regarding particular events, is limited. In particular for TikTok, which offers unique tools for personalized content creation and sharing, the existing body of knowledge would benefit from having diverse comprehensive datasets and associated data analytics solutions on offensive content. While efforts from social media platforms, research, and practitioner communities are seen on this behalf, such content continues to proliferate. This translates to an essential need to make datasets publicly available and build corresponding intelligent solutions. On this behalf, this research undertakes the collection and analysis of TikTok data containing offensive content, building a series of machine learning and deep learning models for offensive content detection. This is done aiming at answering the following research question: "How to develop a series of computational models to detect offensive content on TikTok?". To this end, a Data Science methodological approach is considered, 120.423 TikTok comments are collected, and on a balanced, binary classification approach, F1 score performance results of 0.863 is obtained.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-17
# PrivacyLens: 行動中の言語モデルのプライバシノーム認識を評価する

PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action ( http://arxiv.org/abs/2409.00138v2 )

ライセンス: Link先を確認
Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang, (参考訳) 言語モデル(LM)は、パーソナライズされたコミュニケーションシナリオ(例えば、電子メールの送信、ソーシャルメディアの投稿の書き込みなど)で広く利用され、一定のレベルのエージェンシーによって授けられているため、コンテキストプライバシの規範に従って行動することがますます重要になる。 しかし,(1)プライバシに敏感なケースの文脈的・長期的特性,(2)現実的なアプリケーションシナリオを捉えた評価手法の欠如などにより,LMのプライバシ規範の意識の定量化や,LMを介したコミュニケーションにおけるプライバシーリスクの増大は困難である。 これらの課題に対処するために、我々はプライバシーに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張する新しいフレームワークであるPrivacyLensを提案し、LMエージェントの動作におけるプライバシー漏洩のマルチレベル評価を可能にした。 プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。 このデータセットを用いて,エージェント設定でユーザ命令を実行する際に,探索質問に対する回答におけるLM性能と実際の動作との相違を明らかにする。 GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。 また、各シードを複数のトラジェクトリに拡張することで、プライバシLensの動的な性質を赤チームLMプライバシリークリスクに示す。 データセットとコードはhttps://github.com/SALT-NLP/PrivacyLens.comで入手できる。

As language models (LMs) are widely utilized in personalized communication scenarios (e.g., sending emails, writing social media posts) and endowed with a certain level of agency, ensuring they act in accordance with the contextual privacy norms becomes increasingly critical. However, quantifying the privacy norm awareness of LMs and the emerging privacy risk in LM-mediated communication is challenging due to (1) the contextual and long-tailed nature of privacy-sensitive cases, and (2) the lack of evaluation approaches that capture realistic application scenarios. To address these challenges, we propose PrivacyLens, a novel framework designed to extend privacy-sensitive seeds into expressive vignettes and further into agent trajectories, enabling multi-level evaluation of privacy leakage in LM agents' actions. We instantiate PrivacyLens with a collection of privacy norms grounded in privacy literature and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM performance in answering probing questions and their actual behavior when executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4 and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even when prompted with privacy-enhancing instructions. We also demonstrate the dynamic nature of PrivacyLens by extending each seed into multiple trajectories to red-team LM privacy leakage risk. Dataset and code are available at https://github.com/SALT-NLP/PrivacyLens.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-17
# LinFusion:1GPU、1分、16K画像

LinFusion: 1 GPU, 1 Minute, 16K Image ( http://arxiv.org/abs/2409.02097v3 )

ライセンス: Link先を確認
Songhua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang, (参考訳) 現代の拡散モデル、特にトランスフォーマーベースのUNetをデノナイズするために利用するモデルは、複雑な空間関係を管理するための自己注意操作に大きく依存しているため、印象的な生成性能が得られる。 しかし、この既存のパラダイムは、空間トークンの数に関して2次時間とメモリの複雑さのために、高解像度の視覚コンテンツを生成する上で大きな課題に直面している。 この制限に対処するために,本論文では,新たな線形注意機構を提案する。 具体的には、最近導入された線形複雑性モデルであるMamba2、RWKV6、Gated Linear Attention等から探索を開始し、高分解能な視覚生成性能を向上するアテンション正規化と非因果推論という2つの重要な特徴を同定する。 これらの知見に基づいて、一般化された線形アテンションパラダイムを導入し、広く普及している線形トークンミキサーの低ランク近似として機能する。 トレーニングコストの削減と事前学習モデルの改善を目的として,本モデルの初期化と,事前学習されたStableDiffusion (SD) からの知識の抽出を行った。 蒸留モデルであるLinFusionは, 学習時間とメモリの複雑さを著しく低減しつつ, 従来のSDと同等以上の性能を実現していることがわかった。 SD-v1.5、SD-v2.1、SD-XLの大規模な実験により、LinFusionは1つのGPU上で16Kのような超高解像度画像を調整して、良好なゼロショットのクロスレゾリューション生成を可能にすることを示した。 さらに、プリトレーニング済みのSDコンポーネントやパイプライン(ControlNet、IP-Adapter、DemoFusion、DistriFusionなど)との互換性も高く、適応作業は不要である。 コードはhttps://github.com/Huage001/LinFusion.comで入手できる。

Modern diffusion models, particularly those utilizing a Transformer-based UNet for denoising, rely heavily on self-attention operations to manage complex spatial relationships, thus achieving impressive generation performance. However, this existing paradigm faces significant challenges in generating high-resolution visual content due to its quadratic time and memory complexity with respect to the number of spatial tokens. To address this limitation, we aim at a novel linear attention mechanism as an alternative in this paper. Specifically, we begin our exploration from recently introduced models with linear complexity, e.g., Mamba2, RWKV6, Gated Linear Attention, etc, and identify two key features--attention normalization and non-causal inference--that enhance high-resolution visual generation performance. Building on these insights, we introduce a generalized linear attention paradigm, which serves as a low-rank approximation of a wide spectrum of popular linear token mixers. To save the training cost and better leverage pre-trained models, we initialize our models and distill the knowledge from pre-trained StableDiffusion (SD). We find that the distilled model, termed LinFusion, achieves performance on par with or superior to the original SD after only modest training, while significantly reducing time and memory complexity. Extensive experiments on SD-v1.5, SD-v2.1, and SD-XL demonstrate that LinFusion enables satisfactory and efficient zero-shot cross-resolution generation, accommodating ultra-resolution images like 16K on a single GPU. Moreover, it is highly compatible with pre-trained SD components and pipelines, such as ControlNet, IP-Adapter, DemoFusion, DistriFusion, etc, requiring no adaptation efforts. Codes are available at https://github.com/Huage001/LinFusion.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-17
# 大規模言語モデルでは、どのように考えるかは気にしません: 主観的なタスクにおいて、なぜチェーン・オブ・ソートが失敗するのか

Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks ( http://arxiv.org/abs/2409.06173v3 )

ライセンス: Link先を確認
Georgios Chochlakis, Niyantha Maruthu Pandiyan, Kristina Lerman, Shrikanth Narayanan, (参考訳) In-Context Learning (ICL) in Large Language Models (LLM) は、勾配に基づく手法でモデルパラメータを更新する必要がなくなるため、自然言語タスクを実行する主要な技術として登場した。 ICLはLLMを「適応」し、計算コストのごく一部で現在のタスクを競争的または最先端レベルで実行することを約束する。 ICLは、プロンプトで最終ラベルに明示的に到達する推論プロセス、すなわちChain-of-Thought(CoT)プロンプトを組み込むことで拡張することができる。 しかし、最近の研究によると、ICLはタスク先行の検索に大きく依存しており、特に感情や道徳のような複雑な主観的領域において、前者が後続の予測を強要する「学習」にはあまり依存していない。 本研究では,LLMにおける「発声」推論が同一の振る舞いを生じさせるかどうかを考察する。 驚くべきことに、大きな言語モデルでは、CoTはICLと同じ後方崩壊に悩まされている。 code is avalaible at https://github.com/gchochla/cot-priors.com

In-Context Learning (ICL) in Large Language Models (LLM) has emerged as the dominant technique for performing natural language tasks, as it does not require updating the model parameters with gradient-based methods. ICL promises to "adapt" the LLM to perform the present task at a competitive or state-of-the-art level at a fraction of the computational cost. ICL can be augmented by incorporating the reasoning process to arrive at the final label explicitly in the prompt, a technique called Chain-of-Thought (CoT) prompting. However, recent work has found that ICL relies mostly on the retrieval of task priors and less so on "learning" to perform tasks, especially for complex subjective domains like emotion and morality, where priors ossify posterior predictions. In this work, we examine whether "enabling" reasoning also creates the same behavior in LLMs, wherein the format of CoT retrieves reasoning priors that remain relatively unchanged despite the evidence in the prompt. We find that, surprisingly, CoT indeed suffers from the same posterior collapse as ICL for larger language models. Code is avalaible at https://github.com/gchochla/cot-priors.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-17
# GeoCalib: 幾何学最適化による単一画像校正学習

GeoCalib: Learning Single-image Calibration with Geometric Optimization ( http://arxiv.org/abs/2409.06704v2 )

ライセンス: Link先を確認
Alexander Veicht, Paul-Edouard Sarlin, Philipp Lindenberger, Marc Pollefeys, (参考訳) 単一の画像から視覚的な手がかりは、焦点距離や重力方向などの内在的および外在的なカメラパラメータを推定するのに役立ちます。 このシングルイメージキャリブレーションは、画像編集や3Dマッピングなど、さまざまなダウンストリームアプリケーションに役立てることができる。 この問題に対する現在のアプローチは、行と消滅点を持つ古典幾何学か、エンドツーエンドで訓練されたディープニューラルネットワークに基づいている。 学習されたアプローチはより堅牢だが、新しい環境への一般化に苦慮し、従来のアプローチよりも正確ではない。 我々は、それらが3次元幾何学が提供する制約を欠いていると仮定する。 本研究では,最適化プロセスを通じて3次元幾何の普遍的規則を利用するディープニューラルネットワークであるGeoCalibを紹介する。 GeoCalibは、カメラパラメータを推定するためにエンドツーエンドでトレーニングされ、データから有用な視覚的手がかりを見つけることを学ぶ。 様々なベンチマーク実験により、GeoCalibは既存の古典的および学習的アプローチよりも堅牢で正確であることが示されている。 内部最適化では不確実性を見積もっているため,障害ケースのフラグ付けや,視覚的なローカライゼーションなどの下流アプリケーションへのメリットが期待できる。 コードとトレーニングされたモデルはhttps://github.com/cvg/GeoCalib.comで公開されている。

From a single image, visual cues can help deduce intrinsic and extrinsic camera parameters like the focal length and the gravity direction. This single-image calibration can benefit various downstream applications like image editing and 3D mapping. Current approaches to this problem are based on either classical geometry with lines and vanishing points or on deep neural networks trained end-to-end. The learned approaches are more robust but struggle to generalize to new environments and are less accurate than their classical counterparts. We hypothesize that they lack the constraints that 3D geometry provides. In this work, we introduce GeoCalib, a deep neural network that leverages universal rules of 3D geometry through an optimization process. GeoCalib is trained end-to-end to estimate camera parameters and learns to find useful visual cues from the data. Experiments on various benchmarks show that GeoCalib is more robust and more accurate than existing classical and learned approaches. Its internal optimization estimates uncertainties, which help flag failure cases and benefit downstream applications like visual localization. The code and trained models are publicly available at https://github.com/cvg/GeoCalib.
翻訳日:2024-11-07 22:05:05 公開日:2024-10-17
# 条件付きデノイング拡散モデルによるデジタル台風衛星画像からの大気変動の推定

Estimating Atmospheric Variables from Digital Typhoon Satellite Images via Conditional Denoising Diffusion Models ( http://arxiv.org/abs/2409.07961v3 )

ライセンス: Link先を確認
Zhangyue Ling, Pritthijit Nath, César Quilodrán-Casas, (参考訳) 本研究では,デジタル台風衛星画像から複数のERA5気象変数を同時に予測し,台風分野における拡散モデルの適用について検討した。 この研究の焦点は台湾であり、台風に非常に脆弱な地域である。 The performance of Conditional Denoising Diffusion Probability Model (CDDPM) with Convolutional Neural Networks (CNN) and Squeeze-and-Excitation Networks (SENet) results suggests that the CDDPMは正確な気象データを生成するのに最適である。 具体的には、CDDPMのPSNRは32.807で、CNNより約7.9%高く、SENetより5.5%高い。 さらにCDDPMのRMSEは0.032で、CNNは11.1%、SENetは8.6%改善した。 この研究の重要な応用は、欠落した気象データセットの計算目的と、衛星画像を用いた高品質な気象データの生成である。 この分析の結果により、より堅牢で詳細な予測が可能となり、脆弱な地域での厳しい気象事象の影響が軽減されることが期待されている。 https://github.com/TammyLing/Typhoon-forecasting.comからアクセス可能。

This study explores the application of diffusion models in the field of typhoons, predicting multiple ERA5 meteorological variables simultaneously from Digital Typhoon satellite images. The focus of this study is taken to be Taiwan, an area very vulnerable to typhoons. By comparing the performance of Conditional Denoising Diffusion Probability Model (CDDPM) with Convolutional Neural Networks (CNN) and Squeeze-and-Excitation Networks (SENet), results suggest that the CDDPM performs best in generating accurate and realistic meteorological data. Specifically, CDDPM achieved a PSNR of 32.807, which is approximately 7.9% higher than CNN and 5.5% higher than SENet. Furthermore, CDDPM recorded an RMSE of 0.032, showing a 11.1% improvement over CNN and 8.6% improvement over SENet. A key application of this research can be for imputation purposes in missing meteorological datasets and generate additional high-quality meteorological data using satellite images. It is hoped that the results of this analysis will enable more robust and detailed forecasting, reducing the impact of severe weather events on vulnerable regions. Code accessible at https://github.com/TammyLing/Typhoon-forecasting.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-17
# LLMによる携帯電話の盗聴:我々はどこに立つのか?

Combating Phone Scams with LLM-based Detection: Where Do We Stand? ( http://arxiv.org/abs/2409.11643v2 )

ライセンス: Link先を確認
Zitong Shen, Kangzhong Wang, Youqian Zhang, Grace Ngai, Eugene Y. Fu, (参考訳) 電話詐欺は個人やコミュニティに重大な脅威をもたらし、経済的損失と感情的な苦痛を引き起こしている。 これらの詐欺と闘う努力を続けているにもかかわらず、詐欺師は戦術を適応し、洗練し続けており、革新的な対策を探求することが不可欠である。 本研究では,大規模言語モデル(LLM)による不正通話の検出の可能性について検討する。 詐欺師と被害者の会話のダイナミクスを分析することで、LSMベースの検知器は潜在的な詐欺を検知し、即座にユーザーを保護することができる。 このようなアプローチは有望な結果を示す一方で、バイアス付きデータセットの課題、比較的低いリコール、そしてこの分野のさらなる進歩のために対処する必要がある幻覚も認識している。

Phone scams pose a significant threat to individuals and communities, causing substantial financial losses and emotional distress. Despite ongoing efforts to combat these scams, scammers continue to adapt and refine their tactics, making it imperative to explore innovative countermeasures. This research explores the potential of large language models (LLMs) to provide detection of fraudulent phone calls. By analyzing the conversational dynamics between scammers and victims, LLM-based detectors can identify potential scams as they occur, offering immediate protection to users. While such approaches demonstrate promising results, we also acknowledge the challenges of biased datasets, relatively low recall, and hallucinations that must be addressed for further advancement in this field
翻訳日:2024-11-07 19:50:48 公開日:2024-10-17
# LifeGPT:Topology-Agnostic Generative Pretrained Transformer Model for Cellular Automata

LifeGPT: Topology-Agnostic Generative Pretrained Transformer Model for Cellular Automata ( http://arxiv.org/abs/2409.12182v2 )

ライセンス: Link先を確認
Jaime A. Berkovich, Markus J. Buehler, (参考訳) Conway's Game of Life(人生のゲーム)は、より広範な細胞オートマトン(CA)のクラスにおいてよく知られたアルゴリズムであり、初期状態に非常に敏感な複雑な創発的ダイナミクスを示す。 このような複雑な振る舞いをシステムの基盤となるトポロジの明確な知識なしにモデル化し予測することは、様々なグリッド構成や境界条件をまたいで一般化できるアルゴリズムの開発を動機付ける重要な課題となる。 この問題を解決するために,デコーダのみを用いた生成事前学習型トランス (GPT) モデルを構築し,グリッドの大きさや周期境界条件 (LifeGPT) について事前知識のないトロイダルグリッド上でのライフをシミュレートできることを示した。 LifeGPTはトレーニングデータに対してトポロジに非依存であり,本研究の結果から,GPTモデルがチューリング完全系の決定論的ルールを十分多種多様なトレーニングデータからほぼ完全精度で把握できることが示唆された。 また,LifeGPTを用いてライフを再帰的に実装する「自己回帰型自己回帰器」のアイデアも紹介する。 この結果から,大規模言語モデルフレームワークにおける真の普遍計算への道のり,自然言語処理による数学的解析の合成,そしてそのようなアルゴリズムの進化に対する状況認識のためのAIシステムを提案する。 同様のGPTは、実際の生物学的システムからCA互換のルールセットを抽出して新しい予測モデルを作成することで、多細胞自己集合における逆問題を解決する可能性がある。

Conway's Game of Life (Life), a well known algorithm within the broader class of cellular automata (CA), exhibits complex emergent dynamics, with extreme sensitivity to initial conditions. Modeling and predicting such intricate behavior without explicit knowledge of the system's underlying topology presents a significant challenge, motivating the development of algorithms that can generalize across various grid configurations and boundary conditions. We develop a decoder-only generative pretrained transformer (GPT) model to solve this problem, showing that our model can simulate Life on a toroidal grid with no prior knowledge on the size of the grid, or its periodic boundary conditions (LifeGPT). LifeGPT is topology-agnostic with respect to its training data and our results show that a GPT model is capable of capturing the deterministic rules of a Turing-complete system with near-perfect accuracy, given sufficiently diverse training data. We also introduce the idea of an `autoregressive autoregressor' to recursively implement Life using LifeGPT. Our results pave the path towards true universal computation within a large language model framework, synthesizing of mathematical analysis with natural language processing, and probing AI systems for situational awareness about the evolution of such algorithms without ever having to compute them. Similar GPTs could potentially solve inverse problems in multicellular self-assembly by extracting CA-compatible rulesets from real-world biological systems to create new predictive models, which would have significant consequences for the fields of bioinspired materials, tissue engineering, and architected materials design.
翻訳日:2024-11-07 19:26:16 公開日:2024-10-17
# タンパク質-リガンド相互作用研究のための自然言語処理法

Natural Language Processing Methods for the Study of Protein-Ligand Interactions ( http://arxiv.org/abs/2409.13057v1 )

ライセンス: Link先を確認
James Michels, Ramya Bandarupalli, Amin Ahangar Akbari, Thai Le, Hong Xiao, Jing Li, Erik F. Y. Hom, (参考訳) 自然言語処理(NLP)の最近の進歩は、医薬品の発見とタンパク質工学の取り組みと、生化学的配列と構造データの利用量との関連性から、タンパク質-リガンド相互作用(PLI)を予測する効果的な方法の開発に関心を抱いている。 ヒト言語とタンパク質とリガンドを表現するために使われる「言語」の並列性は、PLI研究を進めるためにNLP機械学習アプローチを有効活用している。 本稿では,このようなアプローチが近年の文献にどのように適用されているかを説明し,長期記憶,トランスフォーマー,注意などの有用なメカニズムについて論じる。 我々は、PLIの研究におけるNLP手法の現在の限界と、今後の課題について論じる。

Recent advances in Natural Language Processing (NLP) have ignited interest in developing effective methods for predicting protein-ligand interactions (PLIs) given their relevance to drug discovery and protein engineering efforts and the ever-growing volume of biochemical sequence and structural data available. The parallels between human languages and the "languages" used to represent proteins and ligands have enabled the use of NLP machine learning approaches to advance PLI studies. In this review, we explain where and how such approaches have been applied in the recent literature and discuss useful mechanisms such as long short-term memory, transformers, and attention. We conclude with a discussion of the current limitations of NLP methods for the study of PLIs as well as key challenges that need to be addressed in future work.
翻訳日:2024-11-07 12:03:17 公開日:2024-10-17
# タンパク質-リガンド相互作用研究のための自然言語処理法

Natural Language Processing Methods for the Study of Protein-Ligand Interactions ( http://arxiv.org/abs/2409.13057v2 )

ライセンス: Link先を確認
James Michels, Ramya Bandarupalli, Amin Ahangar Akbari, Thai Le, Hong Xiao, Jing Li, Erik F. Y. Hom, (参考訳) 自然言語処理(NLP)の最近の進歩は、医薬品の発見とタンパク質工学の取り組みと、生化学的配列と構造データの利用量との関連性から、タンパク質-リガンド相互作用(PLI)を予測する効果的な方法の開発に関心を抱いている。 ヒト言語とタンパク質とリガンドを表現するために使われる「言語」の並列性は、PLI研究を進めるためにNLP機械学習アプローチを有効活用している。 本稿では,このようなアプローチが近年の文献にどのように適用されているかを説明し,長期記憶,トランスフォーマー,注意などの有用なメカニズムについて論じる。 我々は、PLIの研究におけるNLP手法の現在の限界と、今後の課題について論じる。

Recent advances in Natural Language Processing (NLP) have ignited interest in developing effective methods for predicting protein-ligand interactions (PLIs) given their relevance to drug discovery and protein engineering efforts and the ever-growing volume of biochemical sequence and structural data available. The parallels between human languages and the "languages" used to represent proteins and ligands have enabled the use of NLP machine learning approaches to advance PLI studies. In this review, we explain where and how such approaches have been applied in the recent literature and discuss useful mechanisms such as long short-term memory, transformers, and attention. We conclude with a discussion of the current limitations of NLP methods for the study of PLIs as well as key challenges that need to be addressed in future work.
翻訳日:2024-11-07 12:03:17 公開日:2024-10-17
# 大規模言語モデルのための時間的一貫性のあるファクチュアリティ探索

Temporally Consistent Factuality Probing for Large Language Models ( http://arxiv.org/abs/2409.14065v1 )

ライセンス: Link先を確認
Ashutosh Bajpai, Aaryan Goyal, Atif Anwer, Tanmoy Chakraborty, (参考訳) 言語モデル(LLM)を代替知識ベースとして多用するためには、実際には一貫性が必要であり、パラフレーズクエリの正確性と一貫性の両方の特性を必要とする。 近年,これらの特徴についてLLMを評価するために,データセットやメトリクスをベンチマークするための重要な試みが行われている。 しかし、そのクエリの定式化における構造的単純さ(対象-関係オブジェクト)と現代の関連性は、事実性と一貫性のより広範な定義を制限する。 本研究では,時間次元における一貫した事実性探究を拡大するために,時間的に一貫した現実性探究課題TeCFaPを紹介する。 そこで本稿では,プレフィックススタイルの英語クエリパラフレーズの高品質なデータセットであるTEMP-COFACを提案する。 その後、時間次元にまたがる一貫した事実性を表現するために、既存のメトリクスの定義を拡張した。 我々は,多種多様なLLMを用いて実験を行い,そのほとんどはTeCFaPで不十分な性能を示した。 次に,マルチタスク・インストラクション・チューニング (MT-IT) と一貫した時間依存性強化学習 (CTSRL) を組み合わせた新しいソリューション CoTSeLF (Consistent-Time-Sensitive Learning Framework) を提案する。 実験では,CoTSeLFがいくつかの基線上で有効であることを実証した。

The prolific use of Large Language Models (LLMs) as an alternate knowledge base requires them to be factually consistent, necessitating both correctness and consistency traits for paraphrased queries. Recently, significant attempts have been made to benchmark datasets and metrics to evaluate LLMs for these traits. However, structural simplicity (subject-relation-object) and contemporary association in their query formulation limit the broader definition of factuality and consistency. In this study, we introduce TeCFaP, a novel Temporally Consistent Factuality Probe task to expand the consistent factuality probe in the temporal dimension. To this end, we propose TEMP-COFAC, a high-quality dataset of prefix-style English query paraphrases. Subsequently, we extend the definitions of existing metrics to represent consistent factuality across temporal dimension. We experiment with a diverse set of LLMs and find most of them performing poorly on TeCFaP. Next, we propose a novel solution CoTSeLF (Consistent-Time-Sensitive Learning Framework) combining multi-task instruction tuning (MT-IT) with consistent-time-sensitive reinforcement learning (CTSRL) to improve temporally consistent factuality in LLMs. Our experiments demonstrate the efficacy of CoTSeLF over several baselines.
翻訳日:2024-11-07 03:55:36 公開日:2024-10-17
# 大規模言語モデルのための時間的一貫性のあるファクチュアリティ探索

Temporally Consistent Factuality Probing for Large Language Models ( http://arxiv.org/abs/2409.14065v2 )

ライセンス: Link先を確認
Ashutosh Bajpai, Aaryan Goyal, Atif Anwer, Tanmoy Chakraborty, (参考訳) 言語モデル(LLM)を代替知識ベースとして多用するためには、実際には一貫性が必要であり、パラフレーズクエリの正確性と一貫性の両方の特性を必要とする。 近年,これらの特徴についてLLMを評価するために,データセットやメトリクスをベンチマークするための重要な試みが行われている。 しかし、そのクエリの定式化における構造的単純さ(対象-関係オブジェクト)と現代の関連性は、事実性と一貫性のより広範な定義を制限する。 本研究では,時間次元における一貫した事実性探究を拡大するために,時間的に一貫した現実性探究課題TeCFaPを紹介する。 そこで本稿では,プレフィックススタイルの英語クエリパラフレーズの高品質なデータセットであるTEMP-COFACを提案する。 その後、時間次元にまたがる一貫した事実性を表現するために、既存のメトリクスの定義を拡張した。 我々は,多種多様なLLMを用いて実験を行い,そのほとんどはTeCFaPで不十分な性能を示した。 次に,マルチタスク・インストラクション・チューニング (MT-IT) と一貫した時間依存性強化学習 (CTSRL) を組み合わせた新しいソリューション CoTSeLF (Consistent-Time-Sensitive Learning Framework) を提案する。 実験では,CoTSeLFがいくつかの基線上で有効であることを実証した。

The prolific use of Large Language Models (LLMs) as an alternate knowledge base requires them to be factually consistent, necessitating both correctness and consistency traits for paraphrased queries. Recently, significant attempts have been made to benchmark datasets and metrics to evaluate LLMs for these traits. However, structural simplicity (subject-relation-object) and contemporary association in their query formulation limit the broader definition of factuality and consistency. In this study, we introduce TeCFaP, a novel Temporally Consistent Factuality Probe task to expand the consistent factuality probe in the temporal dimension. To this end, we propose TEMP-COFAC, a high-quality dataset of prefix-style English query paraphrases. Subsequently, we extend the definitions of existing metrics to represent consistent factuality across temporal dimension. We experiment with a diverse set of LLMs and find most of them performing poorly on TeCFaP. Next, we propose a novel solution CoTSeLF (Consistent-Time-Sensitive Learning Framework) combining multi-task instruction tuning (MT-IT) with consistent-time-sensitive reinforcement learning (CTSRL) to improve temporally consistent factuality in LLMs. Our experiments demonstrate the efficacy of CoTSeLF over several baselines.
翻訳日:2024-11-07 03:55:36 公開日:2024-10-17
# 効率的なRAGのためのブロックアテンション

Block-Attention for Efficient RAG ( http://arxiv.org/abs/2409.15355v3 )

ライセンス: Link先を確認
East Sun, Yan Wang, Lan Tian, (参考訳) 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。 従来のアプローチでは、コンテキスト全体をエンコードすることが多い。 代わりに、Block-Attentionは取得した文書を個別のブロックに分割し、各ブロックは最終ブロックを除いてキー値(KV)状態を独立に計算する。 RAGのシナリオでは、各パスをブロックとして定義することで、以前見たパスのKV状態の再利用を可能にします。 Block-Attentionの実装には、ブロックセグメンテーション、位置再エンコーディング、およびブロック-Attentionメカニズムに適応するためのLLMの微調整が含まれる。 4つのRAGベンチマークの実験では、ブロック微調整の後、ブロック・アテンション・モデルは自己アテンション・モデル(Llama3では68.4\%、Llama3では67.9\%、Mistralでは62.8\%、59.6\%)に匹敵する性能を達成した。 特に、Block-Attentionは、最初のトークン(TTFT)と浮動小数点演算(FLOP)の時間を非常に低くする。 入力シーケンスの最初のトークンを出力するのに45ミリ秒しかかからない。 自己注意モデルと比較して、時間消費と対応するFLOPはそれぞれ98.7\%と99.8\%に減少する。

We introduce Block-Attention, an attention mechanism designed to address the increased inference latency and cost in Retrieval-Augmented Generation (RAG) scenarios. Traditional approaches often encode the entire context. Instead, Block-Attention divides retrieved documents into discrete blocks, with each block independently calculating key-value (KV) states except for the final block. In RAG scenarios, by defining each passage as a block, Block-Attention enables us to reuse the KV states of passages that have been seen before, thereby significantly reducing the latency and the computation overhead during inference. The implementation of Block-Attention involves block segmentation, position re-encoding, and fine-tuning the LLM to adapt to the Block-Attention mechanism. Experiments on four RAG benchmarks demonstrate that after block fine-tuning, the Block-Attention model achieves performance comparable to self-attention models (68.4\% vs 67.9\% on Llama3) or even superior performance (62.8\% vs 59.6\% on Mistral). Notably, Block-Attention significantly reduces the time to first token (TTFT) and floating point operations (FLOPs) to a very low level. It only takes 45 ms to output the first token for an input sequence with a total length of 32K. Compared to the self-attention models, the time consumption and corresponding FLOPs are reduced by 98.7\% and 99.8\%, respectively.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-17
# 効率的なRAGのためのブロックアテンション

Block-Attention for Efficient RAG ( http://arxiv.org/abs/2409.15355v4 )

ライセンス: Link先を確認
East Sun, Yan Wang, Lan Tian, (参考訳) 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。 従来のアプローチでは、コンテキスト全体をエンコードすることが多い。 代わりに、Block-Attentionは取得した文書を個別のブロックに分割し、各ブロックは最終ブロックを除いてキー値(KV)状態を独立に計算する。 RAGのシナリオでは、各パスをブロックとして定義することで、以前見たパスのKV状態の再利用を可能にします。 Block-Attentionの実装には、ブロックセグメンテーション、位置再エンコーディング、およびブロック-Attentionメカニズムに適応するためのLLMの微調整が含まれる。 4つのRAGベンチマークの実験では、ブロック微調整の後、ブロック・アテンション・モデルは自己アテンション・モデル(Llama3では68.4\%、Llama3では67.9\%、Mistralでは62.8\%、59.6\%)に匹敵する性能を達成した。 特に、Block-Attentionは、最初のトークン(TTFT)と浮動小数点演算(FLOP)の時間を非常に低くする。 入力シーケンスの最初のトークンを出力するのに45ミリ秒しかかからない。 自己注意モデルと比較して、時間消費と対応するFLOPはそれぞれ98.7\%と99.8\%に減少する。

We introduce Block-Attention, an attention mechanism designed to address the increased inference latency and cost in Retrieval-Augmented Generation (RAG) scenarios. Traditional approaches often encode the entire context. Instead, Block-Attention divides retrieved documents into discrete blocks, with each block independently calculating key-value (KV) states except for the final block. In RAG scenarios, by defining each passage as a block, Block-Attention enables us to reuse the KV states of passages that have been seen before, thereby significantly reducing the latency and the computation overhead during inference. The implementation of Block-Attention involves block segmentation, position re-encoding, and fine-tuning the LLM to adapt to the Block-Attention mechanism. Experiments on four RAG benchmarks demonstrate that after block fine-tuning, the Block-Attention model achieves performance comparable to self-attention models (68.4\% vs 67.9\% on Llama3) or even superior performance (62.8\% vs 59.6\% on Mistral). Notably, Block-Attention significantly reduces the time to first token (TTFT) and floating point operations (FLOPs) to a very low level. It only takes 45 ms to output the first token for an input sequence with a total length of 32K. Compared to the self-attention models, the time consumption and corresponding FLOPs are reduced by 98.7\% and 99.8\%, respectively.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-17
# REAL: LLMに対する応答埋め込みに基づくアライメント

REAL: Response Embedding-based Alignment for LLMs ( http://arxiv.org/abs/2409.17169v1 )

ライセンス: Link先を確認
Honggen Zhang, Igor Molybog, June Zhang, Xufeng Zhao, (参考訳) 大規模な言語モデル(LLM)を人間の好みに合わせることは、補助的で安全なAIツールを構築するための重要なステップである。 Direct Preference Optimizationのような一般的なアルゴリズムは、人間のフィードバックに応じてランク付けされたAI生成レスポンスのペアに依存している。 ラベル付けプロセスはアライメントパイプラインの中で最も労働集約的で費用がかかる部分であり、その効率性の向上はAI開発に有意義な影響を及ぼすだろう。 我々は,AI生成された一連の応答からラベル付けする最も情報性の高い応答ペアを取得することに焦点を当てた,高品質なトレーニングデータセットをサンプリングする戦略を提案する。 合成HH-RLHFベンチマークによる実験結果から,異なる応答対を選択することで,LLMの直接アライメントが向上し,ラベリングエラーの低減が図られた。 また,本手法を実世界のデータセットSHP2に適用し,複数の応答から最適なペアを選択する。 模擬応答対に整列したモデルは,対話タスクにおいて最高の勝利率を得た。 以上の結果から,LLMアライメントの効率が向上し,アノテータの作業の最大65%が省力化できる可能性が示唆された。

Aligning large language models (LLMs) to human preferences is a crucial step in building helpful and safe AI tools, which usually involve training on supervised datasets. Popular algorithms such as Direct Preference Optimization rely on pairs of AI-generated responses ranked according to human feedback. The labeling process is the most labor-intensive and costly part of the alignment pipeline, and improving its efficiency would have a meaningful impact on AI development. We propose a strategy for sampling a high-quality training dataset that focuses on acquiring the most informative response pairs for labeling out of a set of AI-generated responses. Experimental results on synthetic HH-RLHF benchmarks indicate that choosing dissimilar response pairs enhances the direct alignment of LLMs while reducing inherited labeling errors. We also applied our method to the real-world dataset SHP2, selecting optimal pairs from multiple responses. The model aligned on dissimilar response pairs obtained the best win rate on the dialogue task. Our findings suggest that focusing on less similar pairs can improve the efficiency of LLM alignment, saving up to 65% of annotators' work.
翻訳日:2024-11-06 16:50:22 公開日:2024-10-17
# REAL: LLMに対する応答埋め込みに基づくアライメント

REAL: Response Embedding-based Alignment for LLMs ( http://arxiv.org/abs/2409.17169v2 )

ライセンス: Link先を確認
Honggen Zhang, Xufeng Zhao, Igor Molybog, June Zhang, (参考訳) 大規模な言語モデル(LLM)を人間の好みに合わせることは、補助的で安全なAIツールを構築するための重要なステップである。 Direct Preference Optimizationのような一般的なアルゴリズムは、人間のフィードバックに応じてランク付けされたAI生成レスポンスのペアに依存している。 ラベル付けプロセスはアライメントパイプラインの中で最も労働集約的で費用がかかる部分であり、その効率性の向上はAI開発に有意義な影響を及ぼすだろう。 我々は,AI生成された一連の応答からラベル付けする最も情報性の高い応答ペアを取得することに焦点を当てた,高品質なトレーニングデータセットをサンプリングする戦略を提案する。 合成HH-RLHFベンチマークによる実験結果から,異なる応答対を選択することで,LLMの直接アライメントが向上し,ラベリングエラーの低減が図られた。 また,本手法を実世界のデータセットSHP2に適用し,複数の応答から最適なペアを選択する。 模擬応答対に整列したモデルは,対話タスクにおいて最高の勝利率を得た。 以上の結果から,LLMアライメントの効率が向上し,アノテータの作業の最大65%が省力化できる可能性が示唆された。

Aligning large language models (LLMs) to human preferences is a crucial step in building helpful and safe AI tools, which usually involve training on supervised datasets. Popular algorithms such as Direct Preference Optimization rely on pairs of AI-generated responses ranked according to human feedback. The labeling process is the most labor-intensive and costly part of the alignment pipeline, and improving its efficiency would have a meaningful impact on AI development. We propose a strategy for sampling a high-quality training dataset that focuses on acquiring the most informative response pairs for labeling out of a set of AI-generated responses. Experimental results on synthetic HH-RLHF benchmarks indicate that choosing dissimilar response pairs enhances the direct alignment of LLMs while reducing inherited labeling errors. We also applied our method to the real-world dataset SHP2, selecting optimal pairs from multiple responses. The model aligned on dissimilar response pairs obtained the best win rate on the dialogue task. Our findings suggest that focusing on less similar pairs can improve the efficiency of LLM alignment, saving up to 65% of annotators' work.
翻訳日:2024-11-06 16:50:22 公開日:2024-10-17
# 資源制約のある環境に対する効果的な内部質問応答

Efficient In-Domain Question Answering for Resource-Constrained Environments ( http://arxiv.org/abs/2409.17648v2 )

ライセンス: Link先を確認
Isaac Chung, Phat Vo, Arman Kizilkale, Aaron Reite, (参考訳) Retrieval Augmented Generation (RAG) は、質問応答(QA)タスクの精度と関連性を高めるために、外部知識を事前訓練された大規模言語モデル(LLM)に統合する一般的な方法である。 しかし、実世界のQAアプリケーションに最適で堅牢なRAGソリューションを開発する上で、迅速なエンジニアリングと資源効率は依然として重大なボトルネックとなっている。 近年の研究では、これらの問題に対処するために微調整を用いることが成功しており、特に、より小型の7Bモデルに適用されたRetrieval Augmented Fine Tuning(RAFT)は、GPT-3.5のようなはるかに大きなモデルを持つRAGセットアップよりも優れた性能を示している。 RAFTとLow-Rank Adaptation (LoRA)のようなパラメータ効率のよい微調整(PEFT)技術の組み合わせにより、より効率的な解が期待できるが、まだ探索されていない領域である。 本研究では,RAFTとLoRAを組み合わせることで,微調整とストレージの要求を低減し,RAG性能を同等に保ちつつ,推論時間を短縮する。 これにより、より計算効率のよいRAFT(CRAFT)が実現し、インターネットアクセスが制限され、ハードウェアリソースが制限されるリソース制約のある環境での知識集約型QAタスクに特に有用である。

Retrieval Augmented Generation (RAG) is a common method for integrating external knowledge into pretrained Large Language Models (LLMs) to enhance accuracy and relevancy in question answering (QA) tasks. However, prompt engineering and resource efficiency remain significant bottlenecks in developing optimal and robust RAG solutions for real-world QA applications. Recent studies have shown success in using fine tuning to address these problems; in particular, Retrieval Augmented Fine Tuning (RAFT) applied to smaller 7B models has demonstrated superior performance compared to RAG setups with much larger models such as GPT-3.5. The combination of RAFT with parameter-efficient fine tuning (PEFT) techniques, such as Low-Rank Adaptation (LoRA), promises an even more efficient solution, yet remains an unexplored area. In this work, we combine RAFT with LoRA to reduce fine tuning and storage requirements and gain faster inference times while maintaining comparable RAG performance. This results in a more compute-efficient RAFT, or CRAFT, which is particularly useful for knowledge-intensive QA tasks in resource-constrained environments where internet access may be restricted and hardware resources limited.
翻訳日:2024-11-06 16:10:55 公開日:2024-10-17
# 資源制約のある環境に対する効果的な内部質問応答

Efficient In-Domain Question Answering for Resource-Constrained Environments ( http://arxiv.org/abs/2409.17648v3 )

ライセンス: Link先を確認
Isaac Chung, Phat Vo, Arman C. Kizilkale, Aaron Reite, (参考訳) Retrieval Augmented Generation (RAG) は、質問応答(QA)タスクの精度と関連性を高めるために、外部知識を事前訓練された大規模言語モデル(LLM)に統合する一般的な方法である。 しかし、実世界のQAアプリケーションに最適で堅牢なRAGソリューションを開発する上で、迅速なエンジニアリングと資源効率は依然として重大なボトルネックとなっている。 近年の研究では、これらの問題に対処するために微調整を用いることが成功しており、特に、より小型の7Bモデルに適用されたRetrieval Augmented Fine Tuning(RAFT)は、GPT-3.5のようなはるかに大きなモデルを持つRAGセットアップよりも優れた性能を示している。 RAFTとLow-Rank Adaptation (LoRA)のようなパラメータ効率のよい微調整(PEFT)技術の組み合わせにより、より効率的な解が期待できるが、まだ探索されていない領域である。 本研究では,RAFTとLoRAを組み合わせることで,微調整とストレージの要求を低減し,RAG性能を同等に保ちつつ,推論時間を短縮する。 これにより、より計算効率のよいRAFT(CRAFT)が実現し、インターネットアクセスが制限され、ハードウェアリソースが制限されるリソース制約のある環境での知識集約型QAタスクに特に有用である。

Retrieval Augmented Generation (RAG) is a common method for integrating external knowledge into pretrained Large Language Models (LLMs) to enhance accuracy and relevancy in question answering (QA) tasks. However, prompt engineering and resource efficiency remain significant bottlenecks in developing optimal and robust RAG solutions for real-world QA applications. Recent studies have shown success in using fine tuning to address these problems; in particular, Retrieval Augmented Fine Tuning (RAFT) applied to smaller 7B models has demonstrated superior performance compared to RAG setups with much larger models such as GPT-3.5. The combination of RAFT with parameter-efficient fine tuning (PEFT) techniques, such as Low-Rank Adaptation (LoRA), promises an even more efficient solution, yet remains an unexplored area. In this work, we combine RAFT with LoRA to reduce fine tuning and storage requirements and gain faster inference times while maintaining comparable RAG performance. This results in a more compute-efficient RAFT, or CRAFT, which is particularly useful for knowledge-intensive QA tasks in resource-constrained environments where internet access may be restricted and hardware resources limited.
翻訳日:2024-11-06 16:10:55 公開日:2024-10-17
# リアルタイムDEVSにおける定量的時間特性の検証

Verification of Quantitative Temporal Properties in RealTime-DEVS ( http://arxiv.org/abs/2409.18732v2 )

ライセンス: Link先を確認
Ariel González, Maximiliano Cristiá, Carlos Luna, (参考訳) Real-Time DEVS (RT-DEVS) は、定量的な時間的要求を持つシステムをモデル化することができる。 そのようなモデルがいくつかの時間的特性を検証するためには、シミュレーション以上のものを使用する必要がある。 本研究では,RT-DEVSモデルで繰り返し発生する定量的時間特性のクラスを検証するために,モデルチェッカーUppaalを使用する。 次に、定量的時間特性に突然変異を導入することで、RT-DEVSモデルとその実装にエラーを見つけることができる。 鉄道ドメインのケーススタディが紹介されている。

Real-Time DEVS (RT-DEVS) can model systems with quantitative temporal requirements. Ensuring that such models verify some temporal properties requires to use something beyond simulation. In this work we use the model checker Uppaal to verify a class of recurrent quantitative temporal properties appearing in RT-DEVS models. Secondly, by introducing mutations to quantitative temporal properties we are able to find errors in RT-DEVS models and their implementations. A case study from the railway domain is presented.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-17
# 汚れた経験的リスクの一般化誤差

Generalization Error of the Tilted Empirical Risk ( http://arxiv.org/abs/2409.19431v1 )

ライセンス: Link先を確認
Gholamali Aminian, Amir R. Asadi, Tian Li, Ahmad Beirami, Gesine Reinert, Samuel N. Cohen, (参考訳) 教師付き統計学習アルゴリズムの一般化誤差(リスク)は、これまで見られなかったデータに対する予測能力を定量化する。 指数的傾きにインスパイアされたLi et al (2021) は、分類や回帰問題といった機械学習応用のための非線形リスク指標として傾いた経験的リスクを提案した。 本研究では,傾いた経験的リスクの一般化誤差について検討する。 特に、傾いた一般化誤差に関する一様および情報理論的境界を、集団リスクと傾いた経験的リスクの差として定義し、収束率は$O(1/\sqrt{n})$で、$n$はトレーニングサンプルの数である。 さらに, KL-正則な傾き型傾き型リスク最小化問題の解法について検討し, 収束率$O(1/n)$で予測傾き型一般化誤差の上界を導出する。

The generalization error (risk) of a supervised statistical learning algorithm quantifies its prediction ability on previously unseen data. Inspired by exponential tilting, Li et al. (2021) proposed the tilted empirical risk as a non-linear risk metric for machine learning applications such as classification and regression problems. In this work, we examine the generalization error of the tilted empirical risk. In particular, we provide uniform and information-theoretic bounds on the tilted generalization error, defined as the difference between the population risk and the tilted empirical risk, with a convergence rate of $O(1/\sqrt{n})$ where $n$ is the number of training samples. Furthermore, we study the solution to the KL-regularized expected tilted empirical risk minimization problem and derive an upper bound on the expected tilted generalization error with a convergence rate of $O(1/n)$.
翻訳日:2024-11-05 23:19:24 公開日:2024-10-17
# 汚れた経験的リスクの一般化誤差

Generalization Error of the Tilted Empirical Risk ( http://arxiv.org/abs/2409.19431v2 )

ライセンス: Link先を確認
Gholamali Aminian, Amir R. Asadi, Tian Li, Ahmad Beirami, Gesine Reinert, Samuel N. Cohen, (参考訳) 教師付き統計学習アルゴリズムの一般化誤差(リスク)は、これまで見られなかったデータに対する予測能力を定量化する。 指数的傾きにインスパイアされたLi et al (2021) は、分類や回帰問題といった機械学習応用のための非線形リスク指標として傾いた経験的リスクを提案した。 本研究では,傾いた経験的リスクの一般化誤差について検討する。 特に、傾いた一般化誤差に関する一様および情報理論的境界を、集団リスクと傾いた経験的リスクの差として定義し、収束率は$O(1/\sqrt{n})$で、$n$はトレーニングサンプルの数である。 さらに, KL-正則な傾き型傾き型リスク最小化問題の解法について検討し, 収束率$O(1/n)$で予測傾き型一般化誤差の上界を導出する。

The generalization error (risk) of a supervised statistical learning algorithm quantifies its prediction ability on previously unseen data. Inspired by exponential tilting, Li et al. (2021) proposed the tilted empirical risk as a non-linear risk metric for machine learning applications such as classification and regression problems. In this work, we examine the generalization error of the tilted empirical risk. In particular, we provide uniform and information-theoretic bounds on the tilted generalization error, defined as the difference between the population risk and the tilted empirical risk, with a convergence rate of $O(1/\sqrt{n})$ where $n$ is the number of training samples. Furthermore, we study the solution to the KL-regularized expected tilted empirical risk minimization problem and derive an upper bound on the expected tilted generalization error with a convergence rate of $O(1/n)$.
翻訳日:2024-11-05 23:19:24 公開日:2024-10-17
# 視線追跡と大規模言語モデルで読む場所

See Where You Read with Eye Gaze Tracking and Large Language Model ( http://arxiv.org/abs/2409.19454v1 )

ライセンス: Link先を確認
Sikai Yang, Gang Yan, (参考訳) 行切替時の読み出し進行の軌跡を逸脱することはイライラすることがある。 視線追跡技術は、読み書きをハイライトし、ユーザーが間違った行スイッチを避けるのを助けることで、潜在的な解決策を提供する。 しかし、視線追跡精度(2~3cm)とテキスト線間隔(3~5mm)の差は、直接適用を不可能にする。 既存の方法はリニアリーディングパターンを利用するが、ジャンプリーディング中に失敗する。 本稿では,リニアとジャンプの両方をサポートする読み上げトラッキングとハイライトシステムを提案する。 16人のユーザの視線自然調査からの実験的な知見に基づいて、2つの視線誤差モデルが、ジャンプ読みの検出と移動の両方を可能にするように設計されている。 このシステムは、読取追跡を支援するために、大規模言語モデルの文脈認識能力をさらに活用する。 また、目視結果の動的かつ頻繁な校正を可能にするために、ドメイン固有の線画アライメント機会も活用する。 制御された実験では、信頼性の高いリニアリーディングトラッキングが示され、ジャンプリーディングの精度は84%である。 さらに,18名のボランティアによる実地試験により,読解段落の追跡・強調,読解効率の向上,ユーザエクスペリエンスの向上が実証された。

Losing track of reading progress during line switching can be frustrating. Eye gaze tracking technology offers a potential solution by highlighting read paragraphs, aiding users in avoiding wrong line switches. However, the gap between gaze tracking accuracy (2-3 cm) and text line spacing (3-5 mm) makes direct application impractical. Existing methods leverage the linear reading pattern but fail during jump reading. This paper presents a reading tracking and highlighting system that supports both linear and jump reading. Based on experimental insights from the gaze nature study of 16 users, two gaze error models are designed to enable both jump reading detection and relocation. The system further leverages the large language model's contextual perception capability in aiding reading tracking. A reading tracking domain-specific line-gaze alignment opportunity is also exploited to enable dynamic and frequent calibration of the gaze results. Controlled experiments demonstrate reliable linear reading tracking, as well as 84% accuracy in tracking jump reading. Furthermore, real field tests with 18 volunteers demonstrated the system's effectiveness in tracking and highlighting read paragraphs, improving reading efficiency, and enhancing user experience.
翻訳日:2024-11-05 23:07:28 公開日:2024-10-17
# 視線追跡と大規模言語モデルで読む場所

See Where You Read with Eye Gaze Tracking and Large Language Model ( http://arxiv.org/abs/2409.19454v2 )

ライセンス: Link先を確認
Sikai Yang, Gang Yan, (参考訳) 行切替時の読み出し進行の軌跡を逸脱することはイライラすることがある。 視線追跡技術は、読み書きをハイライトし、ユーザーが間違った行スイッチを避けるのを助けることで、潜在的な解決策を提供する。 しかし、視線追跡精度(2~3cm)とテキスト線間隔(3~5mm)の差は、直接適用を不可能にする。 既存の方法はリニアリーディングパターンを利用するが、ジャンプリーディング中に失敗する。 本稿では,リニアとジャンプの両方をサポートする読み上げトラッキングとハイライトシステムを提案する。 16人のユーザの視線自然調査からの実験的な知見に基づいて、2つの視線誤差モデルが、ジャンプ読みの検出と移動の両方を可能にするように設計されている。 このシステムは、読取追跡を支援するために、大規模言語モデルの文脈認識能力をさらに活用する。 また、目視結果の動的かつ頻繁な校正を可能にするために、ドメイン固有の線画アライメント機会も活用する。 制御された実験では、信頼性の高いリニアリーディングトラッキングが示され、ジャンプリーディングの精度は84%である。 さらに,18名のボランティアによる実地試験により,読解段落の追跡・強調,読解効率の向上,ユーザエクスペリエンスの向上が実証された。

Losing track of reading progress during line switching can be frustrating. Eye gaze tracking technology offers a potential solution by highlighting read paragraphs, aiding users in avoiding wrong line switches. However, the gap between gaze tracking accuracy (2-3 cm) and text line spacing (3-5 mm) makes direct application impractical. Existing methods leverage the linear reading pattern but fail during jump reading. This paper presents a reading tracking and highlighting system that supports both linear and jump reading. Based on experimental insights from the gaze nature study of 16 users, two gaze error models are designed to enable both jump reading detection and relocation. The system further leverages the large language model's contextual perception capability in aiding reading tracking. A reading tracking domain-specific line-gaze alignment opportunity is also exploited to enable dynamic and frequent calibration of the gaze results. Controlled experiments demonstrate reliable linear reading tracking, as well as 84% accuracy in tracking jump reading. Furthermore, real field tests with 18 volunteers demonstrated the system's effectiveness in tracking and highlighting read paragraphs, improving reading efficiency, and enhancing user experience.
翻訳日:2024-11-05 23:07:28 公開日:2024-10-17
# 視線追跡と大規模言語モデルで読む場所

See Where You Read with Eye Gaze Tracking and Large Language Model ( http://arxiv.org/abs/2409.19454v3 )

ライセンス: Link先を確認
Sikai Yang, Gang Yan, Wan Du, (参考訳) 行切替時の読み出し進行の軌跡を逸脱することはイライラすることがある。 視線追跡技術は、読み書きをハイライトし、ユーザーが間違った行スイッチを避けるのを助けることで、潜在的な解決策を提供する。 しかし、視線追跡精度(2~3cm)とテキスト線間隔(3~5mm)の差は、直接適用を不可能にする。 既存の方法はリニアリーディングパターンを利用するが、ジャンプリーディング中に失敗する。 本稿では,リニアとジャンプの両方をサポートする読み上げトラッキングとハイライトシステムを提案する。 16人のユーザの視線自然調査からの実験的な知見に基づいて、2つの視線誤差モデルが、ジャンプ読みの検出と移動の両方を可能にするように設計されている。 このシステムは、読取追跡を支援するために、大規模言語モデルの文脈認識能力をさらに活用する。 また、目視結果の動的かつ頻繁な校正を可能にするために、ドメイン固有の線画アライメント機会も活用する。 制御された実験では、信頼性の高いリニアリーディングトラッキングが示され、ジャンプリーディングの精度は84%である。 さらに,18名のボランティアによる実地試験により,読解段落の追跡・強調,読解効率の向上,ユーザエクスペリエンスの向上が実証された。

Losing track of reading progress during line switching can be frustrating. Eye gaze tracking technology offers a potential solution by highlighting read paragraphs, aiding users in avoiding wrong line switches. However, the gap between gaze tracking accuracy (2-3 cm) and text line spacing (3-5 mm) makes direct application impractical. Existing methods leverage the linear reading pattern but fail during jump reading. This paper presents a reading tracking and highlighting system that supports both linear and jump reading. Based on experimental insights from the gaze nature study of 16 users, two gaze error models are designed to enable both jump reading detection and relocation. The system further leverages the large language model's contextual perception capability in aiding reading tracking. A reading tracking domain-specific line-gaze alignment opportunity is also exploited to enable dynamic and frequent calibration of the gaze results. Controlled experiments demonstrate reliable linear reading tracking, as well as 84% accuracy in tracking jump reading. Furthermore, real field tests with 18 volunteers demonstrated the system's effectiveness in tracking and highlighting read paragraphs, improving reading efficiency, and enhancing user experience.
翻訳日:2024-11-05 23:07:28 公開日:2024-10-17
# Tri-Cam: カメラネットワークによる視線追跡

Tri-Cam: Practical Eye Gaze Tracking via Camera Network ( http://arxiv.org/abs/2409.19554v1 )

ライセンス: Link先を確認
Sikai Yang, (参考訳) 人間の目は豊かな情報、感情、意図、さらには個人の健康と全体的な健康の面まで明らかにするコンデュットとして機能するので、視線追跡はまた、様々な人間とコンピュータの相互作用の応用や、心理学や医学研究の洞察を可能にしている。 しかし、既存の視線追跡ソリューションは、自由ユーザ運動を扱うのに不足しており、システムキャリブレーションに精力的なユーザー努力も必要である。 本稿では,3つの安価なRGBウェブカメラを用いた,実用的なディープラーニングベースの視線追跡システムであるTri-Camを紹介する。 効率的なトレーニングのための分割ネットワーク構造と、分離された視線追跡タスクを処理するための指定されたネットワーク設計を備えている。 Tri-Camは暗黙のキャリブレーションモジュールも備えており、マウスクリックの機会を利用してユーザーのエンドでのキャリブレーションオーバーヘッドを削減する。 我々は、最先端の商用アイトラッカーであるTobiiに対するTri-Camの評価を行い、より広い自由移動領域をサポートしながら、同等の精度を実現した。 結論として、Tri-Camはユーザーフレンドリーで手頃で堅牢な視線追跡ソリューションを提供し、様々なアプリケーションを有効にする。

As human eyes serve as conduits of rich information, unveiling emotions, intentions, and even aspects of an individual's health and overall well-being, gaze tracking also enables various human-computer interaction applications, as well as insights in psychological and medical research. However, existing gaze tracking solutions fall short at handling free user movement, and also require laborious user effort in system calibration. We introduce Tri-Cam, a practical deep learning-based gaze tracking system using three affordable RGB webcams. It features a split network structure for efficient training, as well as designated network designs to handle the separated gaze tracking tasks. Tri-Cam is also equipped with an implicit calibration module, which makes use of mouse click opportunities to reduce calibration overhead on the user's end. We evaluate Tri-Cam against Tobii, the state-of-the-art commercial eye tracker, achieving comparable accuracy, while supporting a wider free movement area. In conclusion, Tri-Cam provides a user-friendly, affordable, and robust gaze tracking solution that could practically enable various applications.
翻訳日:2024-11-05 22:28:30 公開日:2024-10-17
# Tri-Cam: カメラネットワークによる視線追跡

Tri-Cam: Practical Eye Gaze Tracking via Camera Network ( http://arxiv.org/abs/2409.19554v2 )

ライセンス: Link先を確認
Sikai Yang, (参考訳) 人間の目は豊かな情報、感情、意図、さらには個人の健康と全体的な健康の面まで明らかにするコンデュットとして機能するので、視線追跡はまた、様々な人間とコンピュータの相互作用の応用や、心理学や医学研究の洞察を可能にしている。 しかし、既存の視線追跡ソリューションは、自由ユーザ運動を扱うのに不足しており、システムキャリブレーションに精力的なユーザー努力も必要である。 本稿では,3つの安価なRGBウェブカメラを用いた,実用的なディープラーニングベースの視線追跡システムであるTri-Camを紹介する。 効率的なトレーニングのための分割ネットワーク構造と、分離された視線追跡タスクを処理するための指定されたネットワーク設計を備えている。 Tri-Camは暗黙のキャリブレーションモジュールも備えており、マウスクリックの機会を利用してユーザーのエンドでのキャリブレーションオーバーヘッドを削減する。 我々は、最先端の商用アイトラッカーであるTobiiに対するTri-Camの評価を行い、より広い自由移動領域をサポートしながら、同等の精度を実現した。 結論として、Tri-Camはユーザーフレンドリーで手頃で堅牢な視線追跡ソリューションを提供し、様々なアプリケーションを有効にする。

As human eyes serve as conduits of rich information, unveiling emotions, intentions, and even aspects of an individual's health and overall well-being, gaze tracking also enables various human-computer interaction applications, as well as insights in psychological and medical research. However, existing gaze tracking solutions fall short at handling free user movement, and also require laborious user effort in system calibration. We introduce Tri-Cam, a practical deep learning-based gaze tracking system using three affordable RGB webcams. It features a split network structure for efficient training, as well as designated network designs to handle the separated gaze tracking tasks. Tri-Cam is also equipped with an implicit calibration module, which makes use of mouse click opportunities to reduce calibration overhead on the user's end. We evaluate Tri-Cam against Tobii, the state-of-the-art commercial eye tracker, achieving comparable accuracy, while supporting a wider free movement area. In conclusion, Tri-Cam provides a user-friendly, affordable, and robust gaze tracking solution that could practically enable various applications.
翻訳日:2024-11-05 22:28:30 公開日:2024-10-17
# Tri-Cam: カメラネットワークによる視線追跡

Tri-Cam: Practical Eye Gaze Tracking via Camera Network ( http://arxiv.org/abs/2409.19554v3 )

ライセンス: Link先を確認
Sikai Yang, Wan Du, (参考訳) 人間の目は豊かな情報、感情、意図、さらには個人の健康と全体的な健康の面まで明らかにするコンデュットとして機能するので、視線追跡はまた、様々な人間とコンピュータの相互作用の応用や、心理学や医学研究の洞察を可能にしている。 しかし、既存の視線追跡ソリューションは、自由ユーザ運動を扱うのに不足しており、システムキャリブレーションに精力的なユーザー努力も必要である。 本稿では,3つの安価なRGBウェブカメラを用いた,実用的なディープラーニングベースの視線追跡システムであるTri-Camを紹介する。 効率的なトレーニングのための分割ネットワーク構造と、分離された視線追跡タスクを処理するための指定されたネットワーク設計を備えている。 Tri-Camは暗黙のキャリブレーションモジュールも備えており、マウスクリックの機会を利用してユーザーのエンドでのキャリブレーションオーバーヘッドを削減する。 我々は、最先端の商用アイトラッカーであるTobiiに対するTri-Camの評価を行い、より広い自由移動領域をサポートしながら、同等の精度を実現した。 結論として、Tri-Camはユーザーフレンドリーで手頃で堅牢な視線追跡ソリューションを提供し、様々なアプリケーションを有効にする。

As human eyes serve as conduits of rich information, unveiling emotions, intentions, and even aspects of an individual's health and overall well-being, gaze tracking also enables various human-computer interaction applications, as well as insights in psychological and medical research. However, existing gaze tracking solutions fall short at handling free user movement, and also require laborious user effort in system calibration. We introduce Tri-Cam, a practical deep learning-based gaze tracking system using three affordable RGB webcams. It features a split network structure for efficient training, as well as designated network designs to handle the separated gaze tracking tasks. Tri-Cam is also equipped with an implicit calibration module, which makes use of mouse click opportunities to reduce calibration overhead on the user's end. We evaluate Tri-Cam against Tobii, the state-of-the-art commercial eye tracker, achieving comparable accuracy, while supporting a wider free movement area. In conclusion, Tri-Cam provides a user-friendly, affordable, and robust gaze tracking solution that could practically enable various applications.
翻訳日:2024-11-05 22:28:30 公開日:2024-10-17
# RVFLネットワークの高速化:HawkEye損失関数を用いたロバスト分類

Advancing RVFL networks: Robust classification with the HawkEye loss function ( http://arxiv.org/abs/2410.00510v1 )

ライセンス: Link先を確認
Mushir Akhtar, M. Tanveer, Mohd. Arshad, (参考訳) 単一層フィードフォワードニューラルネットワーク (SLFN) の変種であるランダムベクトル汎関数リンク (RVFL) は、計算コストの低減とオーバーフィッティングに対する堅牢性により、大きな注目を集めている。 その利点にもかかわらず、RVFLネットワークの正方形誤差損失関数への依存は、外れ値やノイズに非常に敏感であり、現実のアプリケーションではモデル性能が劣化する。 そこで本研究では,HawkeEye損失関数(H-loss)をRVFLフレームワークに組み込むことを提案する。 H-loss関数は、滑らかさと有界性を含む優れた数学的特性を特徴とし、同時に非感性ゾーンを組み込む。 それぞれの特徴は、それぞれ独自の利点をもたらします。 1) 境界性は,過度なエラーの影響を制限し,かつ,外れ値に対する堅牢性を高める。 2)スムースネスは、勾配に基づく最適化アルゴリズムの使用を促進し、安定かつ効率的な収束を保証する。 3) 感度の低いゾーンは, 微妙な相違や雑音の影響を緩和する。 H-loss関数を活用することで、RVFLフレームワークに組み込んで、H-RVFLと呼ばれる新しい堅牢なRVFLモデルを開発する。 特に、この研究は、これまでRVFLに有界損失関数が組み込まれていなかったため、大きなギャップに対処する。 提案したH-RVFLの非凸最適化は、計算複雑性を議論するネステロフ加速勾配(NAG)アルゴリズムによって効果的に処理される。 提案したH-RVFLモデルの有効性は、UCIとKEELリポジトリの40ドルのベンチマークデータセットに対して、ラベルノイズを伴わずに広範な実験によって検証される。 その結果, 強靭性や効率性が向上し, H-RVFL モデルを雑音や外乱発生環境におけるアプリケーションのための強力なツールとして確立した。

Random vector functional link (RVFL), a variant of single-layer feedforward neural network (SLFN), has garnered significant attention due to its lower computational cost and robustness to overfitting. Despite its advantages, the RVFL network's reliance on the square error loss function makes it highly sensitive to outliers and noise, leading to degraded model performance in real-world applications. To remedy it, we propose the incorporation of the HawkEye loss (H-loss) function into the RVFL framework. The H-loss function features nice mathematical properties, including smoothness and boundedness, while simultaneously incorporating an insensitive zone. Each characteristic brings its own advantages: 1) Boundedness limits the impact of extreme errors, enhancing robustness against outliers; 2) Smoothness facilitates the use of gradient-based optimization algorithms, ensuring stable and efficient convergence; and 3) The insensitive zone mitigates the effect of minor discrepancies and noise. Leveraging the H-loss function, we embed it into the RVFL framework and develop a novel robust RVFL model termed H-RVFL. Notably, this work addresses a significant gap, as no bounded loss function has been incorporated into RVFL to date. The non-convex optimization of the proposed H-RVFL is effectively addressed by the Nesterov accelerated gradient (NAG) algorithm, whose computational complexity is also discussed. The proposed H-RVFL model's effectiveness is validated through extensive experiments on $40$ benchmark datasets from UCI and KEEL repositories, with and without label noise. The results highlight significant improvements in robustness and efficiency, establishing the H-RVFL model as a powerful tool for applications in noisy and outlier-prone environments.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-17
# RVFLネットワークの高速化:HawkEye損失関数を用いたロバスト分類

Advancing RVFL networks: Robust classification with the HawkEye loss function ( http://arxiv.org/abs/2410.00510v2 )

ライセンス: Link先を確認
Mushir Akhtar, Ritik Mishra, M. Tanveer, Mohd. Arshad, (参考訳) 単一層フィードフォワードニューラルネットワーク (SLFN) の変種であるランダムベクトル汎関数リンク (RVFL) は、計算コストの低減とオーバーフィッティングに対する堅牢性により、大きな注目を集めている。 その利点にもかかわらず、RVFLネットワークの正方形誤差損失関数への依存は、外れ値やノイズに非常に敏感であり、現実のアプリケーションではモデル性能が劣化する。 そこで本研究では,HawkeEye損失関数(H-loss)をRVFLフレームワークに組み込むことを提案する。 H-loss関数は、滑らかさと有界性を含む優れた数学的特性を特徴とし、同時に非感性ゾーンを組み込む。 それぞれの特徴は、それぞれ独自の利点をもたらします。 1) 境界性は,過度なエラーの影響を制限し,かつ,外れ値に対する堅牢性を高める。 2)スムースネスは、勾配に基づく最適化アルゴリズムの使用を促進し、安定かつ効率的な収束を保証する。 3) 感度の低いゾーンは, 微妙な相違や雑音の影響を緩和する。 H-loss関数を活用することで、RVFLフレームワークに組み込んで、H-RVFLと呼ばれる新しい堅牢なRVFLモデルを開発する。 特に、この研究は、これまでRVFLに有界損失関数が組み込まれていなかったため、大きなギャップに対処する。 提案したH-RVFLの非凸最適化は、計算複雑性を議論するネステロフ加速勾配(NAG)アルゴリズムによって効果的に処理される。 提案したH-RVFLモデルの有効性は、UCIとKEELリポジトリの40ドルのベンチマークデータセットに対して、ラベルノイズを伴わずに広範な実験によって検証される。 その結果, 強靭性や効率性が向上し, H-RVFL モデルを雑音や外乱発生環境におけるアプリケーションのための強力なツールとして確立した。

Random vector functional link (RVFL), a variant of single-layer feedforward neural network (SLFN), has garnered significant attention due to its lower computational cost and robustness to overfitting. Despite its advantages, the RVFL network's reliance on the square error loss function makes it highly sensitive to outliers and noise, leading to degraded model performance in real-world applications. To remedy it, we propose the incorporation of the HawkEye loss (H-loss) function into the RVFL framework. The H-loss function features nice mathematical properties, including smoothness and boundedness, while simultaneously incorporating an insensitive zone. Each characteristic brings its own advantages: 1) Boundedness limits the impact of extreme errors, enhancing robustness against outliers; 2) Smoothness facilitates the use of gradient-based optimization algorithms, ensuring stable and efficient convergence; and 3) The insensitive zone mitigates the effect of minor discrepancies and noise. Leveraging the H-loss function, we embed it into the RVFL framework and develop a novel robust RVFL model termed H-RVFL. Notably, this work addresses a significant gap, as no bounded loss function has been incorporated into RVFL to date. The non-convex optimization of the proposed H-RVFL is effectively addressed by the Nesterov accelerated gradient (NAG) algorithm, whose computational complexity is also discussed. The proposed H-RVFL model's effectiveness is validated through extensive experiments on $40$ benchmark datasets from UCI and KEEL repositories, with and without label noise. The results highlight significant improvements in robustness and efficiency, establishing the H-RVFL model as a powerful tool for applications in noisy and outlier-prone environments.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-17
# GPTreeO:局所ガウス過程を分割した連続回帰のためのRパッケージ

GPTreeO: An R package for continual regression with dividing local Gaussian processes ( http://arxiv.org/abs/2410.01024v1 )

ライセンス: Link先を確認
Timo Braun, Anders Kvellestad, Riccardo De Bin, (参考訳) 本稿では,拡張ガウス過程(GP)回帰のための柔軟なRパッケージであるGPTreeOを紹介する。 GPTreeOはDividing Local Gaussian Processes (DLGP)アルゴリズムに基づいており、ローカルGP回帰器のバイナリツリーを入力データの連続ストリームを用いて動的に構築する。 GPTreeOでは、GPハイパーパラメータの連続最適化を可能にし、不確実な校正を取り入れ、ローカルパーティションの生成方法に関する新しい戦略を導入することで、元のDLGPアルゴリズムを拡張している。 さらに,GPTreeOでは,GPライブラリをインターフェースしてローカルGPレグレッションを実行することができる。 GPTreeOの柔軟性により、ユーザーは計算速度、精度、安定性、滑らかさのバランスを細かく制御できる。 我々は,GPTreeOの構成可能な特徴が連続学習環境における回帰性能に与える影響を示すための感度解析を行った。

We introduce GPTreeO, a flexible R package for scalable Gaussian process (GP) regression, particularly tailored to continual learning problems. GPTreeO builds upon the Dividing Local Gaussian Processes (DLGP) algorithm, in which a binary tree of local GP regressors is dynamically constructed using a continual stream of input data. In GPTreeO we extend the original DLGP algorithm by allowing continual optimisation of the GP hyperparameters, incorporating uncertainty calibration, and introducing new strategies for how the local partitions are created. Moreover, the modular code structure allows users to interface their favourite GP library to perform the local GP regression in GPTreeO. The flexibility of GPTreeO gives the user fine-grained control of the balance between computational speed, accuracy, stability and smoothness. We conduct a sensitivity analysis to show how GPTreeO's configurable features impact the regression performance in a continual learning setting.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-17
# GPTreeO:局所ガウス過程を分割した連続回帰のためのRパッケージ

GPTreeO: An R package for continual regression with dividing local Gaussian processes ( http://arxiv.org/abs/2410.01024v2 )

ライセンス: Link先を確認
Timo Braun, Anders Kvellestad, Riccardo De Bin, (参考訳) 本稿では,拡張ガウス過程(GP)回帰のための柔軟なRパッケージであるGPTreeOを紹介する。 GPTreeOはDividing Local Gaussian Processes (DLGP)アルゴリズムに基づいており、ローカルGP回帰器のバイナリツリーを入力データの連続ストリームを用いて動的に構築する。 GPTreeOでは、GPハイパーパラメータの連続最適化を可能にし、不確実な校正を取り入れ、ローカルパーティションの生成方法に関する新しい戦略を導入することで、元のDLGPアルゴリズムを拡張している。 さらに,GPTreeOでは,GPライブラリをインターフェースしてローカルGPレグレッションを実行することができる。 GPTreeOの柔軟性により、ユーザーは計算速度、精度、安定性、滑らかさのバランスを細かく制御できる。 我々は,GPTreeOの構成可能な特徴が連続学習環境における回帰性能に与える影響を示すための感度解析を行った。

We introduce GPTreeO, a flexible R package for scalable Gaussian process (GP) regression, particularly tailored to continual learning problems. GPTreeO builds upon the Dividing Local Gaussian Processes (DLGP) algorithm, in which a binary tree of local GP regressors is dynamically constructed using a continual stream of input data. In GPTreeO we extend the original DLGP algorithm by allowing continual optimisation of the GP hyperparameters, incorporating uncertainty calibration, and introducing new strategies for how the local partitions are created. Moreover, the modular code structure allows users to interface their favourite GP library to perform the local GP regression in GPTreeO. The flexibility of GPTreeO gives the user fine-grained control of the balance between computational speed, accuracy, stability and smoothness. We conduct a sensitivity analysis to show how GPTreeO's configurable features impact the regression performance in a continual learning setting.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-17
# 定悪雑音率をもつハーフスペースの効率的PAC学習

Efficient PAC Learning of Halfspaces with Constant Malicious Noise Rate ( http://arxiv.org/abs/2410.01186v1 )

ライセンス: Link先を確認
Xiaoyu Li, Jie Shen, (参考訳) 特定の条件下での学習アルゴリズムの耐雑音性を理解することは、学習理論における中心的な探求である。 本研究では,悪質な雑音が存在する場合のハーフスペースの計算効率の高いPAC学習の問題について検討する。 最もよく知られている耐雑音性は、分布的な仮定の下での目標誤差率か、大域的な条件下でのマージンパラメータに依存する。 本研究では,両条件が満たされた場合,再重み付きヒンジ損失を最小限に抑え,耐雑音性を実現することができることを示す。 主な材料は以下のとおりである。 1 劣化した試料の劣化を制御するための重みを求める効率的なアルゴリズム、及び 2) 重み付きヒンジ損失のロバスト性に関する新しい解析

Understanding noise tolerance of learning algorithms under certain conditions is a central quest in learning theory. In this work, we study the problem of computationally efficient PAC learning of halfspaces in the presence of malicious noise, where an adversary can corrupt both instances and labels of training samples. The best-known noise tolerance either depends on a target error rate under distributional assumptions or on a margin parameter under large-margin conditions. In this work, we show that when both types of conditions are satisfied, it is possible to achieve {\em constant} noise tolerance by minimizing a reweighted hinge loss. Our key ingredients include: 1) an efficient algorithm that finds weights to control the gradient deterioration from corrupted samples, and 2) a new analysis on the robustness of the hinge loss equipped with such weights.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-17
# 定悪雑音率をもつハーフスペースの効率的PAC学習

Efficient PAC Learning of Halfspaces with Constant Malicious Noise Rate ( http://arxiv.org/abs/2410.01186v2 )

ライセンス: Link先を確認
Jie Shen, Xiaoyu Li, (参考訳) 特定の条件下での学習アルゴリズムの耐雑音性を理解することは、学習理論における中心的な探求である。 本研究では,悪質な雑音が存在する場合のハーフスペースの計算効率の高いPAC学習の問題について検討する。 最もよく知られている耐雑音性は、分布的な仮定の下での目標誤差率か、大域的な条件下でのマージンパラメータに依存する。 本研究では,両条件が満たされた場合,再重み付きヒンジ損失を最小限に抑え,耐雑音性を実現することができることを示す。 主な材料は以下のとおりである。 1 劣化した試料の劣化を制御するための重みを求める効率的なアルゴリズム、及び 2) 重み付きヒンジ損失のロバスト性に関する新しい解析

Understanding noise tolerance of learning algorithms under certain conditions is a central quest in learning theory. In this work, we study the problem of computationally efficient PAC learning of halfspaces in the presence of malicious noise, where an adversary can corrupt both instances and labels of training samples. The best-known noise tolerance either depends on a target error rate under distributional assumptions or on a margin parameter under large-margin conditions. In this work, we show that when both types of conditions are satisfied, it is possible to achieve {\em constant} noise tolerance by minimizing a reweighted hinge loss. Our key ingredients include: 1) an efficient algorithm that finds weights to control the gradient deterioration from corrupted samples, and 2) a new analysis on the robustness of the hinge loss equipped with such weights.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-17
# 大規模言語モデルは優れた分類器か? : 科学的文書改訂における編集インテント分類に関する研究

Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions ( http://arxiv.org/abs/2410.02028v1 )

ライセンス: Link先を確認
Qian Ruan, Ilia Kuznetsov, Iryna Gurevych, (参考訳) 分類は、多くの潜在的なアプリケーションを持つ中核的なNLPタスクアーキテクチャである。 大規模言語モデル (LLMs) はテキスト生成に大きな進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。 このギャップに対処するために、生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に調査するフレームワークを提案する。 我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。 各種トレーニング手法とLLMの代表的選択による大規模な実験と体系的比較により,EICへの応用に関する新たな知見が得られた。 さらに5つの分類課題において,これらの知見の一般化可能性について検討した。 提案手法を実証し,実験的な編集分析のためのデータ不足に対処するため,94k以上のラベル付き編集を含む1,780の科学文書の大規模なデータセットであるRe3-Sci2.0を作成するために,ベストパフォーマンスのEICモデルを用いた。 データセットの品質は、人間の評価によって評価される。 新しいデータセットは、学術著作における人間の編集行動に関する詳細な実験的な研究を可能にする。 実験的なフレームワーク、モデル、データを公開しています。

Classification is a core NLP task architecture with many potential applications. While large language models (LLMs) have brought substantial advancements in text generation, their potential for enhancing classification tasks remains underexplored. To address this gap, we propose a framework for thoroughly investigating fine-tuning LLMs for classification, including both generation- and encoding-based approaches. We instantiate this framework in edit intent classification (EIC), a challenging and underexplored classification task. Our extensive experiments and systematic comparisons with various training approaches and a representative selection of LLMs yield new insights into their application for EIC. We investigate the generalizability of these findings on five further classification tasks. To demonstrate the proposed methods and address the data shortage for empirical edit analysis, we use our best-performing EIC model to create Re3-Sci2.0, a new large-scale dataset of 1,780 scientific document revisions with over 94k labeled edits. The quality of the dataset is assessed through human evaluation. The new dataset enables an in-depth empirical study of human editing behavior in academic writing. We make our experimental framework, models and data publicly available.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-17
# 大規模言語モデルは優れた分類器か? : 科学的文書改訂における編集インテント分類に関する研究

Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions ( http://arxiv.org/abs/2410.02028v2 )

ライセンス: Link先を確認
Qian Ruan, Ilia Kuznetsov, Iryna Gurevych, (参考訳) 分類は、多くの潜在的なアプリケーションを持つ中核的なNLPタスクアーキテクチャである。 大規模言語モデル (LLMs) はテキスト生成に大きな進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。 このギャップに対処するために、生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に調査するフレームワークを提案する。 我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。 各種トレーニング手法とLLMの代表的選択による大規模な実験と体系的比較により,EICへの応用に関する新たな知見が得られた。 さらに5つの分類課題において,これらの知見の一般化可能性について検討した。 提案手法を実証し,実験的な編集分析のためのデータ不足に対処するため,94k以上のラベル付き編集を含む1,780の科学文書の大規模なデータセットであるRe3-Sci2.0を作成するために,ベストパフォーマンスのEICモデルを用いた。 データセットの品質は、人間の評価によって評価される。 新しいデータセットは、学術著作における人間の編集行動に関する詳細な実験的な研究を可能にする。 実験的なフレームワーク、モデル、データを公開しています。

Classification is a core NLP task architecture with many potential applications. While large language models (LLMs) have brought substantial advancements in text generation, their potential for enhancing classification tasks remains underexplored. To address this gap, we propose a framework for thoroughly investigating fine-tuning LLMs for classification, including both generation- and encoding-based approaches. We instantiate this framework in edit intent classification (EIC), a challenging and underexplored classification task. Our extensive experiments and systematic comparisons with various training approaches and a representative selection of LLMs yield new insights into their application for EIC. We investigate the generalizability of these findings on five further classification tasks. To demonstrate the proposed methods and address the data shortage for empirical edit analysis, we use our best-performing EIC model to create Re3-Sci2.0, a new large-scale dataset of 1,780 scientific document revisions with over 94k labeled edits. The quality of the dataset is assessed through human evaluation. The new dataset enables an in-depth empirical study of human editing behavior in academic writing. We make our experimental framework, models and data publicly available.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-17
# 追跡失調: 右室底部における不確実性ガイド下心房細動の1例

Lost in Tracking: Uncertainty-guided Cardiac Cine MRI Segmentation at Right Ventricle Base ( http://arxiv.org/abs/2410.03320v1 )

ライセンス: Link先を確認
Yidong Zhao, Yi Zhang, Orlando Simonetti, Yuchi Han, Qian Tao, (参考訳) 心臓磁気共鳴(CMR)シネ画像の正確な心室区分けは,心機能の臨床的評価に不可欠である。 しかし,左心室 (LV) と比較して右心室 (RV) の分画は依然として困難であり再現性は低い。 RV基地では、航空機内の解剖学的構造が複雑であり(アトリア、バルブ、大動脈を含む)、強い平面間運動のために、劣化性能が頻繁に発生する。 本研究では,現在未解決のCMRセグメンテーション,特にRVベースにおいて,ACDCデータセットのRVベースを再注釈し,専門医の指導のもと右室流出路(RVOT)の高度化を図り,公共資源を補完する2つの戦略を提案する。 第二に,時間的アンコヒーレンスを利用して平面間移動時のセグメンテーションを通知する新しいデュアルエンコーダU-Netアーキテクチャを提案する。 平面間運動は、運動追跡モデルのベイズ的不確実性を介して、追跡の損失によって特徴づけられる。 実験の結果,時間的不整合を考慮したRVベースセグメンテーションは有意に改善した。 さらに,深層学習に基づくセグメンテーションの再現性について検討し,一貫したアノテーションと追跡の欠如の組み合わせがRVセグメンテーションの再現性を高め,RVに焦点を当てた多くの臨床研究を促進させる可能性が示唆された。

Accurate biventricular segmentation of cardiac magnetic resonance (CMR) cine images is essential for the clinical evaluation of heart function. However, compared to left ventricle (LV), right ventricle (RV) segmentation is still more challenging and less reproducible. Degenerate performance frequently occurs at the RV base, where the in-plane anatomical structures are complex (with atria, valve, and aorta) and vary due to the strong interplanar motion. In this work, we propose to address the currently unsolved issues in CMR segmentation, specifically at the RV base, with two strategies: first, we complemented the public resource by reannotating the RV base in the ACDC dataset, with refined delineation of the right ventricle outflow tract (RVOT), under the guidance of an expert cardiologist. Second, we proposed a novel dual encoder U-Net architecture that leverages temporal incoherence to inform the segmentation when interplanar motions occur. The inter-planar motion is characterized by loss-of-tracking, via Bayesian uncertainty of a motion-tracking model. Our experiments showed that our method significantly improved RV base segmentation taking into account temporal incoherence. Furthermore, we investigated the reproducibility of deep learning-based segmentation and showed that the combination of consistent annotation and loss of tracking could enhance the reproducibility of RV segmentation, potentially facilitating a large number of clinical studies focusing on RV.
翻訳日:2024-11-02 22:58:38 公開日:2024-10-17
# 追跡失調: 右室底部における不確実性ガイド下心房細動の1例

Lost in Tracking: Uncertainty-guided Cardiac Cine MRI Segmentation at Right Ventricle Base ( http://arxiv.org/abs/2410.03320v2 )

ライセンス: Link先を確認
Yidong Zhao, Yi Zhang, Orlando Simonetti, Yuchi Han, Qian Tao, (参考訳) 心臓磁気共鳴(CMR)シネ画像の正確な心室区分けは,心機能の臨床的評価に不可欠である。 しかし,左心室 (LV) と比較して右心室 (RV) の分画は依然として困難であり再現性は低い。 RV基地では、航空機内の解剖学的構造が複雑であり(アトリア、バルブ、大動脈を含む)、強い平面間運動のために、劣化性能が頻繁に発生する。 本研究では,現在未解決のCMRセグメンテーション,特にRVベースにおいて,ACDCデータセットのRVベースを再注釈し,専門医の指導のもと右室流出路(RVOT)の高度化を図り,公共資源を補完する2つの戦略を提案する。 第二に,時間的アンコヒーレンスを利用して平面間移動時のセグメンテーションを通知する新しいデュアルエンコーダU-Netアーキテクチャを提案する。 平面間運動は、運動追跡モデルのベイズ的不確実性を介して、追跡の損失によって特徴づけられる。 実験の結果,時間的不整合を考慮したRVベースセグメンテーションは有意に改善した。 さらに,深層学習に基づくセグメンテーションの再現性について検討し,一貫したアノテーションと追跡の欠如の組み合わせがRVセグメンテーションの再現性を高め,RVに焦点を当てた多くの臨床研究を促進させる可能性が示唆された。

Accurate biventricular segmentation of cardiac magnetic resonance (CMR) cine images is essential for the clinical evaluation of heart function. However, compared to left ventricle (LV), right ventricle (RV) segmentation is still more challenging and less reproducible. Degenerate performance frequently occurs at the RV base, where the in-plane anatomical structures are complex (with atria, valve, and aorta) and vary due to the strong interplanar motion. In this work, we propose to address the currently unsolved issues in CMR segmentation, specifically at the RV base, with two strategies: first, we complemented the public resource by reannotating the RV base in the ACDC dataset, with refined delineation of the right ventricle outflow tract (RVOT), under the guidance of an expert cardiologist. Second, we proposed a novel dual encoder U-Net architecture that leverages temporal incoherence to inform the segmentation when interplanar motions occur. The inter-planar motion is characterized by loss-of-tracking, via Bayesian uncertainty of a motion-tracking model. Our experiments showed that our method significantly improved RV base segmentation taking into account temporal incoherence. Furthermore, we investigated the reproducibility of deep learning-based segmentation and showed that the combination of consistent annotation and loss of tracking could enhance the reproducibility of RV segmentation, potentially facilitating a large number of clinical studies focusing on RV.
翻訳日:2024-11-02 22:58:38 公開日:2024-10-17
# エゴ感の世界における身体と手の動きの推定

Estimating Body and Hand Motion in an Ego-sensed World ( http://arxiv.org/abs/2410.03665v1 )

ライセンス: Link先を確認
Brent Yi, Vickie Ye, Maya Zheng, Lea Müller, Georgios Pavlakos, Yi Ma, Jitendra Malik, Angjoo Kanazawa, (参考訳) 頭部装着装置から人体の動きを推定するシステムであるEgoAlloについて述べる。 エゴセントリックなSLAMポーズとイメージのみを使用して、EgoAlloは条件付き拡散モデルからサンプリングし、3Dボディポーズ、高さ、手のパラメータを推定し、シーンのアロセント座標フレームにおける着用者のアクションをキャプチャする。 そこで我々は,モデル性能を改善するための空間的および時間的不変性基準を提案し,最大18%の見積もりを改善する頭部運動条件パラメータ化を導出する。 また,本システムにより推定された身体が手首を改良できることを示す。運動的および時間的制約の結果,ノイズ単分子推定よりも40%以上の手指推定誤差が生じる。 プロジェクトページ: https://egoallo.github.io/

We present EgoAllo, a system for human motion estimation from a head-mounted device. Using only egocentric SLAM poses and images, EgoAllo guides sampling from a conditional diffusion model to estimate 3D body pose, height, and hand parameters that capture the wearer's actions in the allocentric coordinate frame of the scene. To achieve this, our key insight is in representation: we propose spatial and temporal invariance criteria for improving model performance, from which we derive a head motion conditioning parameterization that improves estimation by up to 18%. We also show how the bodies estimated by our system can improve the hands: the resulting kinematic and temporal constraints result in over 40% lower hand estimation errors compared to noisy monocular estimates. Project page: https://egoallo.github.io/
翻訳日:2024-11-02 20:48:16 公開日:2024-10-17
# エゴ感の世界における身体と手の動きの推定

Estimating Body and Hand Motion in an Ego-sensed World ( http://arxiv.org/abs/2410.03665v2 )

ライセンス: Link先を確認
Brent Yi, Vickie Ye, Maya Zheng, Lea Müller, Georgios Pavlakos, Yi Ma, Jitendra Malik, Angjoo Kanazawa, (参考訳) 頭部装着装置から人体の動きを推定するシステムであるEgoAlloについて述べる。 エゴセントリックなSLAMポーズとイメージのみを使用して、EgoAlloは条件付き拡散モデルからサンプリングし、3Dボディポーズ、高さ、手のパラメータを推定し、シーンのアロセント座標フレームにおける着用者のアクションをキャプチャする。 そこで我々は,モデル性能を改善するための空間的および時間的不変性基準を提案し,最大18%の見積もりを改善する頭部運動条件パラメータ化を導出する。 また,本システムにより推定された身体が手首を改良できることを示す。運動的および時間的制約の結果,ノイズ単分子推定よりも40%以上の手指推定誤差が生じる。 プロジェクトページ: https://egoallo.github.io/

We present EgoAllo, a system for human motion estimation from a head-mounted device. Using only egocentric SLAM poses and images, EgoAllo guides sampling from a conditional diffusion model to estimate 3D body pose, height, and hand parameters that capture the wearer's actions in the allocentric coordinate frame of the scene. To achieve this, our key insight is in representation: we propose spatial and temporal invariance criteria for improving model performance, from which we derive a head motion conditioning parameterization that improves estimation by up to 18%. We also show how the bodies estimated by our system can improve the hands: the resulting kinematic and temporal constraints result in over 40% lower hand estimation errors compared to noisy monocular estimates. Project page: https://egoallo.github.io/
翻訳日:2024-11-02 20:48:16 公開日:2024-10-17
# AIアカウンタビリティのニュアンスを解明する - ディシプリネ間の次元の合成

Unraveling the Nuances of AI Accountability: A Synthesis of Dimensions Across Disciplines ( http://arxiv.org/abs/2410.04247v1 )

ライセンス: Link先を確認
L. H. Nguyen, S. Lins, M. Renner, A. Sunyaev, (参考訳) 人工知能(AI)ベースのシステムの普及は、個人の幸福と経済・社会の発展に貢献する多くの機会を提供する。 しかし、この拡散は個人、市場、社会に害をもたらす公的なスキャンダルと密接に関連しており、説明責任の重要性が増している。 AIの説明責任自体が概念的な曖昧さに直面しており、研究は複数の分野に分散している。 これらの課題に対処するため、我々は、複数の分野にわたる現在の研究をレビューし、AIの文脈における説明責任の重要な次元を特定します。 我々は、AIベースのシステムのコンテキストにおいて、説明責任シナリオを特定するために将来の研究が利用できるように、13の対応する次元と追加の説明責任ファシリテータを持つ6つのテーマを明らかにする。

The widespread diffusion of Artificial Intelligence (AI)-based systems offers many opportunities to contribute to the well-being of individuals and the advancement of economies and societies. This diffusion is, however, closely accompanied by public scandals causing harm to individuals, markets, or society, and leading to the increasing importance of accountability. AI accountability itself faces conceptual ambiguity, with research scattered across multiple disciplines. To address these issues, we review current research across multiple disciplines and identify key dimensions of accountability in the context of AI. We reveal six themes with 13 corresponding dimensions and additional accountability facilitators that future research can utilize to specify accountability scenarios in the context of AI-based systems.
翻訳日:2024-11-02 08:59:37 公開日:2024-10-17
# AIアカウンタビリティのニュアンスを解明する - ディシプリネ間の次元の合成

Unraveling the Nuances of AI Accountability: A Synthesis of Dimensions Across Disciplines ( http://arxiv.org/abs/2410.04247v2 )

ライセンス: Link先を確認
L. H. Nguyen, S. Lins, M. Renner, A. Sunyaev, (参考訳) 人工知能(AI)ベースのシステムの普及は、個人の幸福と経済・社会の発展に貢献する多くの機会を提供する。 しかし、この拡散は個人、市場、社会に害をもたらす公的なスキャンダルと密接に関連しており、説明責任の重要性が増している。 AIの説明責任自体が概念的な曖昧さに直面しており、研究は複数の分野に分散している。 これらの課題に対処するため、我々は、複数の分野にわたる現在の研究をレビューし、AIの文脈における説明責任の重要な次元を特定します。 我々は、AIベースのシステムのコンテキストにおいて、説明責任シナリオを特定するために将来の研究が利用できるように、13の対応する次元と追加の説明責任ファシリテータを持つ6つのテーマを明らかにする。

The widespread diffusion of Artificial Intelligence (AI)-based systems offers many opportunities to contribute to the well-being of individuals and the advancement of economies and societies. This diffusion is, however, closely accompanied by public scandals causing harm to individuals, markets, or society, and leading to the increasing importance of accountability. AI accountability itself faces conceptual ambiguity, with research scattered across multiple disciplines. To address these issues, we review current research across multiple disciplines and identify key dimensions of accountability in the context of AI. We reveal six themes with 13 corresponding dimensions and additional accountability facilitators that future research can utilize to specify accountability scenarios in the context of AI-based systems.
翻訳日:2024-11-02 08:59:37 公開日:2024-10-17
# Game of Coding: 最小信頼を前提としたSybil Resistant Decentralized Machine Learning

Game of Coding: Sybil Resistant Decentralized Machine Learning with Minimal Trust Assumption ( http://arxiv.org/abs/2410.05540v1 )

ライセンス: Link先を確認
Hanzaleh Akbari Nodehi, Viveck R. Cadambe, Mohammad Ali Maddah-Al, (参考訳) 符号化理論は、通信から計算やストレージシステムまで、さまざまな領域にわたるデータの整合性と信頼性を保証する上で重要な役割を果たす。 しかし、データリカバリに対する信頼前提への依存は、特に信頼が乏しい新興分散型システムにおいて、大きな課題を生じさせる。 これを解決するために、インセンティブ指向環境におけるデータリカバリ戦略に関する洞察を提供するコーディングフレームワークが導入された。 初期のバージョンのコーディングの焦点は、たった2つのノードを含むシナリオに限られていた。 本稿では,コーディングフレームワークのゲームにおけるノード数の増加の意味について検討し,特に1つの正直なノードと複数の逆ノードを持つシナリオに着目した。 敵ノード数の増加による敵ノードの柔軟性の増大にもかかわらず、より多くの電力を持つことは敵ノードにとって有益ではなく、データコレクターにとって有害であり、このスキームがシビル耐性を持つことを示す。 さらに、入力を受け付け、拒否するという点で、データ収集者にとって最適な戦略を概説し、敵に対する最適なノイズ分布を特徴付ける。

Coding theory plays a crucial role in ensuring data integrity and reliability across various domains, from communication to computation and storage systems. However, its reliance on trust assumptions for data recovery poses significant challenges, particularly in emerging decentralized systems where trust is scarce. To address this, the game of coding framework was introduced, offering insights into strategies for data recovery within incentive-oriented environments. The focus of the earliest version of the game of coding was limited to scenarios involving only two nodes. This paper investigates the implications of increasing the number of nodes in the game of coding framework, particularly focusing on scenarios with one honest node and multiple adversarial nodes. We demonstrate that despite the increased flexibility for the adversary with an increasing number of adversarial nodes, having more power is not beneficial for the adversary and is not detrimental to the data collector, making this scheme sybil-resistant. Furthermore, we outline optimal strategies for the data collector in terms of accepting or rejecting the inputs, and characterize the optimal noise distribution for the adversary.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-17
# Game of Coding: 最小信頼を前提としたSybil Resistant Decentralized Machine Learning

Game of Coding: Sybil Resistant Decentralized Machine Learning with Minimal Trust Assumption ( http://arxiv.org/abs/2410.05540v2 )

ライセンス: Link先を確認
Hanzaleh Akbari Nodehi, Viveck R. Cadambe, Mohammad Ali Maddah-Ali, (参考訳) 符号化理論は、通信から計算やストレージシステムまで、さまざまな領域にわたるデータの整合性と信頼性を保証する上で重要な役割を果たす。 しかし、データリカバリに対する信頼前提への依存は、特に信頼が乏しい新興分散型システムにおいて、大きな課題を生じさせる。 これを解決するために、インセンティブ指向環境におけるデータリカバリ戦略に関する洞察を提供するコーディングフレームワークが導入された。 初期のバージョンのコーディングの焦点は、たった2つのノードを含むシナリオに限られていた。 本稿では,コーディングフレームワークのゲームにおけるノード数の増加の意味について検討し,特に1つの正直なノードと複数の逆ノードを持つシナリオに着目した。 敵ノード数の増加による敵ノードの柔軟性の増大にもかかわらず、より多くの電力を持つことは敵ノードにとって有益ではなく、データコレクターにとって有害であり、このスキームがシビル耐性を持つことを示す。 さらに、入力を受け付け、拒否するという点で、データ収集者にとって最適な戦略を概説し、敵に対する最適なノイズ分布を特徴付ける。

Coding theory plays a crucial role in ensuring data integrity and reliability across various domains, from communication to computation and storage systems. However, its reliance on trust assumptions for data recovery poses significant challenges, particularly in emerging decentralized systems where trust is scarce. To address this, the game of coding framework was introduced, offering insights into strategies for data recovery within incentive-oriented environments. The focus of the earliest version of the game of coding was limited to scenarios involving only two nodes. This paper investigates the implications of increasing the number of nodes in the game of coding framework, particularly focusing on scenarios with one honest node and multiple adversarial nodes. We demonstrate that despite the increased flexibility for the adversary with an increasing number of adversarial nodes, having more power is not beneficial for the adversary and is not detrimental to the data collector, making this scheme sybil-resistant. Furthermore, we outline optimal strategies for the data collector in terms of accepting or rejecting the inputs, and characterize the optimal noise distribution for the adversary.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-17
# Cefdet:行動検出のためのファジィ推論に基づく認知効果ネットワーク

Cefdet: Cognitive Effectiveness Network Based on Fuzzy Inference for Action Detection ( http://arxiv.org/abs/2410.05771v1 )

ライセンス: Link先を確認
Zhe Luo, Weina Fu, Shuai Liu, Saeed Anwar, Muhammad Saqib, Sambit Bakshi, Khan Muhammad, (参考訳) アクション検出と理解はマルチメディアコンテンツの生成と相互作用の基礎となる。 しかし、既存の手法は主に複雑な関係推論ネットワークの構築に重点を置いており、検出の有効性の判断を見越している。 さらに、これらの手法は認知異常を伴う検出結果を頻繁に生成する。 この問題を解決するために,ファジィ推論に基づく認知効果ネットワーク(Cefdet)を提案する。 まず、ファジィ推論を行動検出に導入するために、ファジィ駆動認知効果評価モジュール(FCM)を確立する。 FCMは人間の行動特徴と組み合わせて認知に基づく検出プロセスをシミュレートし、認知異常のあるフレームの位置を明確に特定する。 次に、ファジィ論理を用いて認識に基づく検出結果を再検出し、認知異常のある結果を効果的に更新するファジィ認知更新戦略(FCS)を提案する。 実験により、Cefdetは、公開データセット上のいくつかの主流アルゴリズムに対して優れた性能を示し、その有効性と優越性を検証した。

Action detection and understanding provide the foundation for the generation and interaction of multimedia content. However, existing methods mainly focus on constructing complex relational inference networks, overlooking the judgment of detection effectiveness. Moreover, these methods frequently generate detection results with cognitive abnormalities. To solve the above problems, this study proposes a cognitive effectiveness network based on fuzzy inference (Cefdet), which introduces the concept of "cognition-based detection" to simulate human cognition. First, a fuzzy-driven cognitive effectiveness evaluation module (FCM) is established to introduce fuzzy inference into action detection. FCM is combined with human action features to simulate the cognition-based detection process, which clearly locates the position of frames with cognitive abnormalities. Then, a fuzzy cognitive update strategy (FCS) is proposed based on the FCM, which utilizes fuzzy logic to re-detect the cognition-based detection results and effectively update the results with cognitive abnormalities. Experimental results demonstrate that Cefdet exhibits superior performance against several mainstream algorithms on the public datasets, validating its effectiveness and superiority.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-17
# Cefdet:行動検出のためのファジィ推論に基づく認知効果ネットワーク

Cefdet: Cognitive Effectiveness Network Based on Fuzzy Inference for Action Detection ( http://arxiv.org/abs/2410.05771v2 )

ライセンス: Link先を確認
Zhe Luo, Weina Fu, Shuai Liu, Saeed Anwar, Muhammad Saqib, Sambit Bakshi, Khan Muhammad, (参考訳) アクション検出と理解はマルチメディアコンテンツの生成と相互作用の基礎となる。 しかし、既存の手法は主に複雑な関係推論ネットワークの構築に重点を置いており、検出の有効性の判断を見越している。 さらに、これらの手法は、認知異常を伴う検出結果を頻繁に生成する。 この問題を解決するために,ファジィ推論に基づく認知効果ネットワーク(Cefdet)を提案する。 まず、ファジィ推論を行動検出に導入するために、ファジィ駆動認知効果評価モジュール(FCM)を確立する。 FCMは人間の行動特徴と組み合わせて認知に基づく検出プロセスをシミュレートし、認知異常のあるフレームの位置を明確に特定する。 次に、ファジィ論理を用いて認識に基づく検出結果を再検出し、認知異常のある結果を効果的に更新するファジィ認知更新戦略(FCS)を提案する。 実験により、Cefdetは、公開データセット上のいくつかの主流アルゴリズムに対して優れた性能を示し、その有効性と優越性を検証した。 コードはhttps://github.com/12sakura/Cefdet.comで入手できる。

Action detection and understanding provide the foundation for the generation and interaction of multimedia content. However, existing methods mainly focus on constructing complex relational inference networks, overlooking the judgment of detection effectiveness. Moreover, these methods frequently generate detection results with cognitive abnormalities. To solve the above problems, this study proposes a cognitive effectiveness network based on fuzzy inference (Cefdet), which introduces the concept of "cognition-based detection" to simulate human cognition. First, a fuzzy-driven cognitive effectiveness evaluation module (FCM) is established to introduce fuzzy inference into action detection. FCM is combined with human action features to simulate the cognition-based detection process, which clearly locates the position of frames with cognitive abnormalities. Then, a fuzzy cognitive update strategy (FCS) is proposed based on the FCM, which utilizes fuzzy logic to re-detect the cognition-based detection results and effectively update the results with cognitive abnormalities. Experimental results demonstrate that Cefdet exhibits superior performance against several mainstream algorithms on the public datasets, validating its effectiveness and superiority. Code is available at https://github.com/12sakura/Cefdet.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-17
# FLOPS: 最適サンプリングによるフォワードラーニング

FLOPS: Forward Learning with OPtimal Sampling ( http://arxiv.org/abs/2410.05966v1 )

ライセンス: Link先を確認
Tao Ren, Zishi Zhang, Jinyang Jiang, Guanghao Li, Zeliang Zhang, Mingqian Feng, Yijie Peng, (参考訳) バックプロパゲーションの限界を考えると、摂動に基づく勾配計算法は近年、前方通過のみによる学習に焦点を絞っている(クエリとも呼ばれる)。 従来の前方学習では,モンテカルロサンプリングによる精度の高い勾配推定のために,各データポイント上の膨大なクエリを消費しているため,アルゴリズムのスケーラビリティが損なわれる。 しかし、すべてのデータポイントが勾配推定に等しいクエリに値するわけではない。 本稿では,新しい観点からの前方学習効率向上の課題について考察する:最小コストで勾配推定のばらつきを抑えるか? そこで本研究では,評価精度と計算効率のバランスを良くするために,トレーニング中の各データに対して最適なクエリ数を割り当てることを提案する。 具体的には、単純化されたプロキシ目的と再パラメータ化手法により、最小パラメータを持つ新しいプラグアンドプレイクエリアロケータを導出する。 その最適性を検証するために理論的結果が得られた。 我々は、様々なデータセット上で微調整型視覚変換器の広範な実験を行い、アロケータを2つのブラックボックスアプリケーション、即時チューニングと基礎モデルのマルチモーダルアライメントに展開する。 これらの結果から,提案したアロケータは前方学習アルゴリズムのスケーラビリティを著しく向上させ,実世界のアプリケーションへの道を開いた。

Given the limitations of backpropagation, perturbation-based gradient computation methods have recently gained focus for learning with only forward passes, also referred to as queries. Conventional forward learning consumes enormous queries on each data point for accurate gradient estimation through Monte Carlo sampling, which hinders the scalability of those algorithms. However, not all data points deserve equal queries for gradient estimation. In this paper, we study the problem of improving the forward learning efficiency from a novel perspective: how to reduce the gradient estimation variance with minimum cost? For this, we propose to allocate the optimal number of queries over each data in one batch during training to achieve a good balance between estimation accuracy and computational efficiency. Specifically, with a simplified proxy objective and a reparameterization technique, we derive a novel plug-and-play query allocator with minimal parameters. Theoretical results are carried out to verify its optimality. We conduct extensive experiments for fine-tuning Vision Transformers on various datasets and further deploy the allocator to two black-box applications: prompt tuning and multimodal alignment for foundation models. All findings demonstrate that our proposed allocator significantly enhances the scalability of forward-learning algorithms, paving the way for real-world applications.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-17
# FLOPS: 最適サンプリングによるフォワードラーニング

FLOPS: Forward Learning with OPtimal Sampling ( http://arxiv.org/abs/2410.05966v2 )

ライセンス: Link先を確認
Tao Ren, Zishi Zhang, Jinyang Jiang, Guanghao Li, Zeliang Zhang, Mingqian Feng, Yijie Peng, (参考訳) バックプロパゲーションの限界を考えると、摂動に基づく勾配計算法は近年、前方通過のみによる学習に焦点を絞っている(クエリとも呼ばれる)。 従来の前方学習では,モンテカルロサンプリングによる精度の高い勾配推定のために,各データポイント上の膨大なクエリを消費しているため,アルゴリズムのスケーラビリティが損なわれる。 しかし、すべてのデータポイントが勾配推定に等しいクエリに値するわけではない。 本稿では,新しい観点からの前方学習効率向上の課題について考察する:最小コストで勾配推定のばらつきを抑えるか? そこで本研究では,評価精度と計算効率のバランスを良くするために,トレーニング中の各データに対して最適なクエリ数を割り当てることを提案する。 具体的には、単純化されたプロキシ目的と再パラメータ化手法により、最小パラメータを持つ新しいプラグアンドプレイクエリアロケータを導出する。 その最適性を検証するために理論的結果が得られた。 我々は、様々なデータセット上で微調整型視覚変換器の広範な実験を行い、アロケータを2つのブラックボックスアプリケーション、即時チューニングと基礎モデルのマルチモーダルアライメントに展開する。 これらの結果から,提案したアロケータは前方学習アルゴリズムのスケーラビリティを著しく向上させ,実世界のアプリケーションへの道を開いた。

Given the limitations of backpropagation, perturbation-based gradient computation methods have recently gained focus for learning with only forward passes, also referred to as queries. Conventional forward learning consumes enormous queries on each data point for accurate gradient estimation through Monte Carlo sampling, which hinders the scalability of those algorithms. However, not all data points deserve equal queries for gradient estimation. In this paper, we study the problem of improving the forward learning efficiency from a novel perspective: how to reduce the gradient estimation variance with minimum cost? For this, we propose to allocate the optimal number of queries over each data in one batch during training to achieve a good balance between estimation accuracy and computational efficiency. Specifically, with a simplified proxy objective and a reparameterization technique, we derive a novel plug-and-play query allocator with minimal parameters. Theoretical results are carried out to verify its optimality. We conduct extensive experiments for fine-tuning Vision Transformers on various datasets and further deploy the allocator to two black-box applications: prompt tuning and multimodal alignment for foundation models. All findings demonstrate that our proposed allocator significantly enhances the scalability of forward-learning algorithms, paving the way for real-world applications.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-17
# 拡散型X線2MRIモデル:1つのX線から擬似MRIボリュームを生成する

A Diffusion-based Xray2MRI Model: Generating Pseudo-MRI Volumes From one Single X-ray ( http://arxiv.org/abs/2410.06997v1 )

ライセンス: Link先を確認
Zhe Wang, Rachid Jennane, Aladine Chetouani, Mohamed Jarraya, (参考訳) 変形性膝関節症 (KOA) は筋骨格障害を主訴とする疾患であり, 費用対効果からX線検査が一般的である。 一方,MRIは軟部組織を詳細に可視化し,KOAの補助的診断ツールとして有用である。 残念なことに、MRIの高コスト化とアクセシビリティの制限により、多くのKOA患者はX線画像のみに頼っている。 本研究では,1枚のX線画像から擬似MRIボリュームを生成することができる拡散型Xray2MRIモデルを提案する。 条件入力としてX線を用いるだけでなく, 対象深度, KOA確率分布, 画像強度分布モジュールを統合し, 生成したスライスを解剖学的構造に正確に対応させる。 実験により,X線からの情報を付加的な入力データと統合することにより,実際のMRIスキャンを近似した擬似MRIシーケンスを生成することができることが示された。 さらに、推論時間を増大させることで、有効な補間を実現し、生成したMRIシーケンスの連続性と滑らか性をさらに向上させ、コスト効率の良い医用イメージングソリューションの有望な最初の試みを示す。

Knee osteoarthritis (KOA) is a prevalent musculoskeletal disorder, and X-rays are commonly used for its diagnosis due to their cost-effectiveness. Magnetic Resonance Imaging (MRI), on the other hand, offers detailed soft tissue visualization and has become a valuable supplementary diagnostic tool for KOA. Unfortunately, the high cost and limited accessibility of MRI hinder its widespread use, leaving many patients with KOA reliant solely on X-ray imaging. In this study, we introduce a novel diffusion-based Xray2MRI model capable of generating pseudo-MRI volumes from one single X-ray image. In addition to using X-rays as conditional input, our model integrates target depth, KOA probability distribution, and image intensity distribution modules to guide the synthesis process, ensuring that the generated corresponding slices accurately correspond to the anatomical structures. Experimental results demonstrate that by integrating information from X-rays with additional input data, our proposed approach is capable of generating pseudo-MRI sequences that approximate real MRI scans. Moreover, by increasing the inference times, the model achieves effective interpolation, further improving the continuity and smoothness of the generated MRI sequences, representing one promising initial attempt for cost-effective medical imaging solutions.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-17
# 拡散型X線2MRIモデル:1つのX線から擬似MRIボリュームを生成する

A Diffusion-based Xray2MRI Model: Generating Pseudo-MRI Volumes From one Single X-ray ( http://arxiv.org/abs/2410.06997v2 )

ライセンス: Link先を確認
Zhe Wang, Rachid Jennane, Aladine Chetouani, Yung Hsin Chen, Fabian Bauer, Mohamed Jarraya, (参考訳) 変形性膝関節症 (KOA) は筋骨格障害を主訴とする疾患であり, 費用対効果からX線検査が一般的である。 一方,MRIは軟部組織を詳細に可視化し,KOAの補助的診断ツールとして有用である。 残念なことに、MRIの高コスト化とアクセシビリティの制限により、多くのKOA患者はX線画像のみに頼らざるを得なくなった。 本研究では,単一のX線画像から擬似MRIボリュームを生成することができる拡散型Xray2MRIモデルを提案する。 条件入力としてX線を用いるだけでなく, 対象深度, KOA確率分布, 画像強度分布モジュールを統合し, 生成したスライスを解剖学的構造に正確に対応させる。 実験により,X線からの情報を付加的な入力データと統合することにより,実際のMRIスキャンを近似した擬似MRIシーケンスを生成することができることが示された。 さらに、推論ステップの数を増やすことにより、効率的な補間を実現し、生成したMRIシーケンスの連続性と滑らか性をさらに向上させ、コスト効率の高い医用イメージングソリューションへの有望な最初の試みを示す。 この研究はhttps://zwang78.github.io/で公開されている。

Knee osteoarthritis (KOA) is a prevalent musculoskeletal disorder, and X-rays are commonly used for its diagnosis due to their cost-effectiveness. Magnetic Resonance Imaging (MRI), on the other hand, offers detailed soft tissue visualization and has become a valuable supplementary diagnostic tool for KOA. Unfortunately, the high cost and limited accessibility of MRI hinders its widespread use, leaving many patients with KOA to rely solely on X-ray imaging. In this study, we introduce a novel diffusion-based Xray2MRI model capable of generating pseudo-MRI volumes from a single X-ray image. In addition to using X-rays as conditional input, our model integrates target depth, KOA probability distribution, and image intensity distribution modules to guide the synthesis process, ensuring that the generated corresponding slices accurately correspond to the anatomical structures. Experimental results demonstrate that by integrating information from X-rays with additional input data, our proposed approach is capable of generating pseudo-MRI sequences that approximate real MRI scans. In addition, by increasing the number of inference steps, the model achieves effective interpolation, which further improves the continuity and smoothness of the generated MRI sequences, representing a promising first attempt at cost-effective medical imaging solutions. This study is available on https://zwang78.github.io/.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-17
# スパイキングGS:スパイキングニューロンを用いたガウススプラッティングによる高精度・低コスト表面再構成を目指して

Spiking GS: Towards High-Accuracy and Low-Cost Surface Reconstruction via Spiking Neuron-based Gaussian Splatting ( http://arxiv.org/abs/2410.07266v1 )

ライセンス: Link先を確認
Weixing Zhang, Zongrui Li, De Ma, Huajin Tang, Xudong Jiang, Qian Zheng, Gang Pan, (参考訳) 3Dガウシアン・スプレイティングは、数分で3Dシーンを再構築することができる。 近年, 表面の復元精度の向上が進んでいるが, 再建された結果にはまだバイアスがみられ, 保存・訓練の非効率さに悩まされている。 本稿では, ガウスの低オプティシティ部分 (LOP) の統合に起因する非効率性の原因と復元バイアスについて, 異なる考察を行った。 LOPはガウスの全体的低オプティシティ(LOG)と低オプティシティテール(LOT)から構成されていることを示す。 我々は、スパイキングニューロンをガウススプラッティングパイプラインに統合することにより、そのような2種類のLOPを減らすためのスパイキングGSを提案する。 具体的には, 平坦な3次元ガウス空間における不透明度と表現機能に対して, 局所的および局所的な完全精度統合発火ニューロンを導入する。 さらに、スパイクニューロンの閾値とガウスのスケールに関する新しい基準により密度制御戦略を強化する。 本手法はより高精度な再構成面を低コストで表現することができる。 コードは \url{https://github.com/shippoT/Spiking_GS} で公開されている。

3D Gaussian Splatting is capable of reconstructing 3D scenes in minutes. Despite recent advances in improving surface reconstruction accuracy, the reconstructed results still exhibit bias and suffer from inefficiency in storage and training. This paper provides a different observation on the cause of the inefficiency and the reconstruction bias, which is attributed to the integration of the low-opacity parts (LOPs) of the generated Gaussians. We show that LOPs consist of Gaussians with overall low-opacity (LOGs) and the low-opacity tails (LOTs) of Gaussians. We propose Spiking GS to reduce such two types of LOPs by integrating spiking neurons into the Gaussian Splatting pipeline. Specifically, we introduce global and local full-precision integrate-and-fire spiking neurons to the opacity and representation function of flattened 3D Gaussians, respectively. Furthermore, we enhance the density control strategy with spiking neurons' thresholds and an new criterion on the scale of Gaussians. Our method can represent more accurate reconstructed surfaces at a lower cost. The code is available at \url{https://github.com/shippoT/Spiking_GS}.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-17
# スパイキングGS:スパイキングニューロンを用いたガウススプラッティングによる高精度・低コスト表面再構成を目指して

Spiking GS: Towards High-Accuracy and Low-Cost Surface Reconstruction via Spiking Neuron-based Gaussian Splatting ( http://arxiv.org/abs/2410.07266v2 )

ライセンス: Link先を確認
Weixing Zhang, Zongrui Li, De Ma, Huajin Tang, Xudong Jiang, Qian Zheng, Gang Pan, (参考訳) 3Dガウシアン・スプレイティングは、数分で3Dシーンを再構築することができる。 近年, 表面の復元精度の向上が進んでいるが, 再建された結果にはまだバイアスがみられ, 保存・訓練の非効率さに悩まされている。 本稿では, ガウスの低オプティシティ部分 (LOP) の統合に起因する非効率性の原因と復元バイアスについて, 異なる考察を行った。 LOPはガウスの全体的低オプティシティ(LOG)と低オプティシティテール(LOT)から構成されていることを示す。 我々は、スパイキングニューロンをガウススプラッティングパイプラインに統合することにより、そのような2種類のLOPを減らすためのスパイキングGSを提案する。 具体的には, 平坦な3次元ガウス空間における不透明度と表現機能に対して, 局所的および局所的な完全精度統合発火ニューロンを導入する。 さらに、スパイクニューロンの閾値とガウスのスケールに関する新しい基準により密度制御戦略を強化する。 本手法はより高精度な再構成面を低コストで表現することができる。 コードはhttps://github.com/zju-bmi-lab/SpikingGSで公開されている。

3D Gaussian Splatting is capable of reconstructing 3D scenes in minutes. Despite recent advances in improving surface reconstruction accuracy, the reconstructed results still exhibit bias and suffer from inefficiency in storage and training. This paper provides a different observation on the cause of the inefficiency and the reconstruction bias, which is attributed to the integration of the low-opacity parts (LOPs) of the generated Gaussians. We show that LOPs consist of Gaussians with overall low-opacity (LOGs) and the low-opacity tails (LOTs) of Gaussians. We propose Spiking GS to reduce such two types of LOPs by integrating spiking neurons into the Gaussian Splatting pipeline. Specifically, we introduce global and local full-precision integrate-and-fire spiking neurons to the opacity and representation function of flattened 3D Gaussians, respectively. Furthermore, we enhance the density control strategy with spiking neurons' thresholds and a new criterion on the scale of Gaussians. Our method can represent more accurate reconstructed surfaces at a lower cost. The code is available at https://github.com/zju-bmi-lab/SpikingGS.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-17
# スパイキングGS:スパイキングニューロンを用いたガウススプラッティングによる高精度・低コスト表面再構成を目指して

Spiking GS: Towards High-Accuracy and Low-Cost Surface Reconstruction via Spiking Neuron-based Gaussian Splatting ( http://arxiv.org/abs/2410.07266v3 )

ライセンス: Link先を確認
Weixing Zhang, Zongrui Li, De Ma, Huajin Tang, Xudong Jiang, Qian Zheng, Gang Pan, (参考訳) 3Dガウシアン・スプレイティングは、数分で3Dシーンを再構築することができる。 近年, 表面の復元精度の向上が進んでいるが, 再建された結果にはまだバイアスがみられ, 保存・訓練の非効率さに悩まされている。 本稿では, ガウスの低オプティシティ部分 (LOP) の統合に起因する非効率性の原因と復元バイアスについて, 異なる考察を行った。 LOPはガウスの全体的低オプティシティ(LOG)と低オプティシティテール(LOT)から構成されていることを示す。 我々は、スパイキングニューロンをガウススプラッティングパイプラインに統合することにより、そのような2種類のLOPを減らすためのスパイキングGSを提案する。 具体的には, 平坦な3次元ガウス空間における不透明度と表現機能に対して, 局所的および局所的な完全精度統合発火ニューロンを導入する。 さらに、スパイクニューロンの閾値とガウスのスケールに関する新しい基準により密度制御戦略を強化する。 本手法はより高精度な再構成面を低コストで表現することができる。 追加資料とコードはhttps://github.com/zju-bmi-lab/SpikingGS.comで公開されている。

3D Gaussian Splatting is capable of reconstructing 3D scenes in minutes. Despite recent advances in improving surface reconstruction accuracy, the reconstructed results still exhibit bias and suffer from inefficiency in storage and training. This paper provides a different observation on the cause of the inefficiency and the reconstruction bias, which is attributed to the integration of the low-opacity parts (LOPs) of the generated Gaussians. We show that LOPs consist of Gaussians with overall low-opacity (LOGs) and the low-opacity tails (LOTs) of Gaussians. We propose Spiking GS to reduce such two types of LOPs by integrating spiking neurons into the Gaussian Splatting pipeline. Specifically, we introduce global and local full-precision integrate-and-fire spiking neurons to the opacity and representation function of flattened 3D Gaussians, respectively. Furthermore, we enhance the density control strategy with spiking neurons' thresholds and a new criterion on the scale of Gaussians. Our method can represent more accurate reconstructed surfaces at a lower cost. The supplementary material and code are available at https://github.com/zju-bmi-lab/SpikingGS.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-17
# 破壊・破壊的線形帯域:最小最適性とギャップ依存的ミス種別

Corruption-Robust Linear Bandits: Minimax Optimality and Gap-Dependent Misspecification ( http://arxiv.org/abs/2410.07533v1 )

ライセンス: Link先を確認
Haolin Liu, Artin Tajdini, Andrew Wagenmaker, Chen-Yu Wei, (参考訳) 線形バンディットでは、学習者が腐敗した報酬に直面するとき、効果的に学習できるのか? 重要な研究がこの問題を探求してきたが、様々な対立モデルと汚職対策の全体的理解が欠如しており、ミニマックスの後悔境界の完全な特徴付けが欠けている。 本研究は,学習者が選択した行動に依存する強い汚職と,学習者が選択した行動に依存しない弱い汚職の2種類の汚職を比較した。 これらの腐敗を分析するための統一的なフレームワークを提供する。 確率線形ブレイディットでは, 強い汚職と弱い汚職下でのミニマックス後悔のギャップを, 完全に特徴づける。 また, 汚損した対向線形包帯の研究を開始し, 汚損レベルに依存した上下境界を求める。 次に,Lou et al (2023a) が最初に研究した設定では,行動や政策の誤特定レベルがその最適度に比例する。 本稿では,任意の汚損防止アルゴリズムがギャップ依存的不特定性に対処できる一般還元法を提案する。 これにより、Lu et al (2023a) の結果をブラックボックス方式で復元し、線形MDPのような設定に著しく一般化し、強化学習におけるギャップ依存的不特定性の最初の結果が得られる。 しかし、この一般化はギャップ依存的不特定化の最適速度を達成できない。 そこで我々は,Lou et al (2023a) が提案する開問題に答えるため,線形包帯におけるギャップ依存的不特定化の最適境界を求めるアルゴリズムを開発した。

In linear bandits, how can a learner effectively learn when facing corrupted rewards? While significant work has explored this question, a holistic understanding across different adversarial models and corruption measures is lacking, as is a full characterization of the minimax regret bounds. In this work, we compare two types of corruptions commonly considered: strong corruption, where the corruption level depends on the action chosen by the learner, and weak corruption, where the corruption level does not depend on the action chosen by the learner. We provide a unified framework to analyze these corruptions. For stochastic linear bandits, we fully characterize the gap between the minimax regret under strong and weak corruptions. We also initiate the study of corrupted adversarial linear bandits, obtaining upper and lower bounds with matching dependencies on the corruption level. Next, we reveal a connection between corruption-robust learning and learning with gap-dependent mis-specification, a setting first studied by Liu et al. (2023a), where the misspecification level of an action or policy is proportional to its suboptimality. We present a general reduction that enables any corruption-robust algorithm to handle gap-dependent misspecification. This allows us to recover the results of Liu et al. (2023a) in a black-box manner and significantly generalize them to settings like linear MDPs, yielding the first results for gap-dependent misspecification in reinforcement learning. However, this general reduction does not attain the optimal rate for gap-dependent misspecification. Motivated by this, we develop a specialized algorithm that achieves optimal bounds for gap-dependent misspecification in linear bandits, thus answering an open question posed by Liu et al. (2023a).
翻訳日:2024-10-31 16:36:31 公開日:2024-10-17
# 破壊・破壊的線形帯域:最小最適性とギャップ依存的ミス種別

Corruption-Robust Linear Bandits: Minimax Optimality and Gap-Dependent Misspecification ( http://arxiv.org/abs/2410.07533v2 )

ライセンス: Link先を確認
Haolin Liu, Artin Tajdini, Andrew Wagenmaker, Chen-Yu Wei, (参考訳) 線形バンディットでは、学習者が腐敗した報酬に直面するとき、効果的に学習できるのか? 重要な研究がこの問題を探求してきたが、様々な対立モデルと汚職対策の全体的理解が欠如しており、ミニマックスの後悔境界の完全な特徴付けが欠けている。 本研究は,学習者が選択した行動に依存する強い汚職と,学習者が選択した行動に依存しない弱い汚職の2種類の汚職を比較した。 これらの腐敗を分析するための統一的なフレームワークを提供する。 確率線形ブレイディットでは, 強い汚職と弱い汚職下でのミニマックス後悔のギャップを, 完全に特徴づける。 また, 汚損した対向線形包帯の研究を開始し, 汚損レベルに依存した上下境界を求める。 次に,Lou et al (2023a) が最初に研究した設定では,行動や政策の誤特定レベルがその最適度に比例する。 本稿では,任意の汚損防止アルゴリズムがギャップ依存的不特定性に対処できる一般還元法を提案する。 これにより、Lu et al (2023a) の結果をブラックボックス方式で復元し、線形MDPのような設定に著しく一般化し、強化学習におけるギャップ依存的不特定性の最初の結果が得られる。 しかし、この一般化はギャップ依存的不特定化の最適速度を達成できない。 そこで我々は,Lou et al (2023a) が提案する開問題に答えるため,線形包帯におけるギャップ依存的不特定化の最適境界を求めるアルゴリズムを開発した。

In linear bandits, how can a learner effectively learn when facing corrupted rewards? While significant work has explored this question, a holistic understanding across different adversarial models and corruption measures is lacking, as is a full characterization of the minimax regret bounds. In this work, we compare two types of corruptions commonly considered: strong corruption, where the corruption level depends on the action chosen by the learner, and weak corruption, where the corruption level does not depend on the action chosen by the learner. We provide a unified framework to analyze these corruptions. For stochastic linear bandits, we fully characterize the gap between the minimax regret under strong and weak corruptions. We also initiate the study of corrupted adversarial linear bandits, obtaining upper and lower bounds with matching dependencies on the corruption level. Next, we reveal a connection between corruption-robust learning and learning with gap-dependent mis-specification, a setting first studied by Liu et al. (2023a), where the misspecification level of an action or policy is proportional to its suboptimality. We present a general reduction that enables any corruption-robust algorithm to handle gap-dependent misspecification. This allows us to recover the results of Liu et al. (2023a) in a black-box manner and significantly generalize them to settings like linear MDPs, yielding the first results for gap-dependent misspecification in reinforcement learning. However, this general reduction does not attain the optimal rate for gap-dependent misspecification. Motivated by this, we develop a specialized algorithm that achieves optimal bounds for gap-dependent misspecification in linear bandits, thus answering an open question posed by Liu et al. (2023a).
翻訳日:2024-10-31 16:36:31 公開日:2024-10-17
# 破壊・破壊的線形帯域:最小最適性とギャップ依存的ミス種別

Corruption-Robust Linear Bandits: Minimax Optimality and Gap-Dependent Misspecification ( http://arxiv.org/abs/2410.07533v3 )

ライセンス: Link先を確認
Haolin Liu, Artin Tajdini, Andrew Wagenmaker, Chen-Yu Wei, (参考訳) 線形バンディットでは、学習者が腐敗した報酬に直面するとき、効果的に学習できるのか? 重要な研究がこの問題を探求してきたが、様々な対立モデルと汚職対策の全体的理解が欠如しており、ミニマックスの後悔境界の完全な特徴付けが欠けている。 本研究は,学習者が選択した行動に依存する強い汚職と,学習者が選択した行動に依存しない弱い汚職の2種類の汚職を比較した。 これらの腐敗を分析するための統一的なフレームワークを提供する。 確率線形ブレイディットでは, 強い汚職と弱い汚職下でのミニマックス後悔のギャップを, 完全に特徴づける。 また, 汚損した対向線形包帯の研究を開始し, 汚損レベルに依存した上下境界を求める。 次に,Lou et al (2023a) が最初に研究した設定では,行動や政策の誤特定レベルがその最適度に比例する。 本稿では,任意の汚損防止アルゴリズムがギャップ依存的不特定性に対処できる一般還元法を提案する。 これにより、Lu et al (2023a) の結果をブラックボックス方式で復元し、線形MDPのような設定に著しく一般化し、強化学習におけるギャップ依存的不特定性の最初の結果が得られる。 しかし、この一般化はギャップ依存的不特定化の最適速度を達成できない。 そこで我々は,Lou et al (2023a) が提案する開問題に答えるため,線形包帯におけるギャップ依存的不特定化の最適境界を求めるアルゴリズムを開発した。

In linear bandits, how can a learner effectively learn when facing corrupted rewards? While significant work has explored this question, a holistic understanding across different adversarial models and corruption measures is lacking, as is a full characterization of the minimax regret bounds. In this work, we compare two types of corruptions commonly considered: strong corruption, where the corruption level depends on the action chosen by the learner, and weak corruption, where the corruption level does not depend on the action chosen by the learner. We provide a unified framework to analyze these corruptions. For stochastic linear bandits, we fully characterize the gap between the minimax regret under strong and weak corruptions. We also initiate the study of corrupted adversarial linear bandits, obtaining upper and lower bounds with matching dependencies on the corruption level. Next, we reveal a connection between corruption-robust learning and learning with gap-dependent mis-specification, a setting first studied by Liu et al. (2023a), where the misspecification level of an action or policy is proportional to its suboptimality. We present a general reduction that enables any corruption-robust algorithm to handle gap-dependent misspecification. This allows us to recover the results of Liu et al. (2023a) in a black-box manner and significantly generalize them to settings like linear MDPs, yielding the first results for gap-dependent misspecification in reinforcement learning. However, this general reduction does not attain the optimal rate for gap-dependent misspecification. Motivated by this, we develop a specialized algorithm that achieves optimal bounds for gap-dependent misspecification in linear bandits, thus answering an open question posed by Liu et al. (2023a).
翻訳日:2024-10-31 16:26:23 公開日:2024-10-17
# CL3: ハイパーコネクテッド環境におけるデータのプライバシを保証する医療データのための協調学習フレームワーク

CL3: A Collaborative Learning Framework for the Medical Data Ensuring Data Privacy in the Hyperconnected Environment ( http://arxiv.org/abs/2410.07900v1 )

ライセンス: Link先を確認
Mohamamd Zavid Parvez, Rafiqul Islam, Md Zahidul Islam, (参考訳) ハイパーコネクテッドな環境では、悪意のあるアクターが機密情報を傍受できるデータ侵害のリスクがあるため、医療機関は機密情報を共有・送信する際に、特にデータプライバシに関心を持っている。 転送、フェデレーション、インクリメンタル学習を含む協調学習フレームワークは、計算の削減、患者のデータのプライバシの維持、最新モデルの確保を必要とせず、効率的でセキュアでスケーラブルなモデルを生成することができる。 本研究の目的は、CL3と呼ばれる協調学習フレームワークを用いて、胸部X線画像を用いたCOVID-19の検出に対処することである。 最初はトランスファーラーニングが採用され、事前訓練されたモデルからの知識を出発グローバルモデルとして活用する。 異なる医療機関のローカルモデルが統合され、ローカルモデルで観測されるデータドリフトに適応するために、新しいグローバルモデルが構築される。 さらに、漸進的な学習も検討され、それまでの学習情報を忘れずに、新しい医療データへの継続的な適応が可能となった。 実験の結果, CL3フレームワークは6回の連成通信ラウンドで訓練後, バッチサイズ16のXceptionを使用する場合, 89.99\%のグローバル精度を達成した。

In a hyperconnected environment, medical institutions are particularly concerned with data privacy when sharing and transmitting sensitive patient information due to the risk of data breaches, where malicious actors could intercept sensitive information. A collaborative learning framework, including transfer, federated, and incremental learning, can generate efficient, secure, and scalable models while requiring less computation, maintaining patient data privacy, and ensuring an up-to-date model. This study aims to address the detection of COVID-19 using chest X-ray images through a proposed collaborative learning framework called CL3. Initially, transfer learning is employed, leveraging knowledge from a pre-trained model as the starting global model. Local models from different medical institutes are then integrated, and a new global model is constructed to adapt to any data drift observed in the local models. Additionally, incremental learning is considered, allowing continuous adaptation to new medical data without forgetting previously learned information. Experimental results demonstrate that the CL3 framework achieved a global accuracy of 89.99\% when using Xception with a batch size of 16 after being trained for six federated communication rounds.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-17
# CL3: ハイパーコネクテッド環境におけるデータのプライバシを保証する医療データのための協調学習フレームワーク

CL3: A Collaborative Learning Framework for the Medical Data Ensuring Data Privacy in the Hyperconnected Environment ( http://arxiv.org/abs/2410.07900v2 )

ライセンス: Link先を確認
Mohamamd Zavid Parvez, Rafiqul Islam, Md Zahidul Islam, (参考訳) ハイパーコネクテッドな環境では、悪意のあるアクターが機密情報を傍受できるデータ侵害のリスクがあるため、医療機関は機密情報を共有・送信する際に、特にデータプライバシに関心を持っている。 転送、フェデレーション、インクリメンタル学習を含む協調学習フレームワークは、計算の削減、患者のデータのプライバシの維持、最新モデルの確保を必要とせず、効率的でセキュアでスケーラブルなモデルを生成することができる。 本研究の目的は、CL3と呼ばれる協調学習フレームワークを用いて、胸部X線画像を用いたCOVID-19の検出に対処することである。 最初はトランスファーラーニングが採用され、事前訓練されたモデルからの知識を出発グローバルモデルとして活用する。 異なる医療機関のローカルモデルが統合され、ローカルモデルで観測されるデータドリフトに適応するために、新しいグローバルモデルが構築される。 さらに、漸進的な学習も検討され、それまでの学習情報を忘れずに、新しい医療データへの継続的な適応が可能となった。 実験の結果、CL3フレームワークは6回のフェデレート通信ラウンドで訓練された後、バッチサイズ16のXceptionを使用すると、89.99%の精度を達成した。 CL3フレームワークのデモがhttps://github.com/zavidparvez/CL3-Collaborative-Approachで公開されている。

In a hyperconnected environment, medical institutions are particularly concerned with data privacy when sharing and transmitting sensitive patient information due to the risk of data breaches, where malicious actors could intercept sensitive information. A collaborative learning framework, including transfer, federated, and incremental learning, can generate efficient, secure, and scalable models while requiring less computation, maintaining patient data privacy, and ensuring an up-to-date model. This study aims to address the detection of COVID-19 using chest X-ray images through a proposed collaborative learning framework called CL3. Initially, transfer learning is employed, leveraging knowledge from a pre-trained model as the starting global model. Local models from different medical institutes are then integrated, and a new global model is constructed to adapt to any data drift observed in the local models. Additionally, incremental learning is considered, allowing continuous adaptation to new medical data without forgetting previously learned information. Experimental results demonstrate that the CL3 framework achieved a global accuracy of 89.99% when using Xception with a batch size of 16 after being trained for six federated communication rounds. A demo of the CL3 framework is available at https://github.com/zavidparvez/CL3-Collaborative-Approach to ensure reproducibility.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-17
# D-Waveの非線形プログラムハイブリッドソルバー:説明と性能解析

D-Wave's Nonlinear-Program Hybrid Solver: Description and Performance Analysis ( http://arxiv.org/abs/2410.07980v1 )

ライセンス: Link先を確認
Eneko Osaba, Pablo Miranda-Rodriguez, (参考訳) 先進的な量子古典的アルゴリズムの開発は、量子コンピューティングにおいて最も顕著な戦略の一つである。 最近、多くのハイブリッド・ソルバが導入されている。 これらのメソッドの多くは、特定のユースケースに対応するためにアドホックに作成されます。 しかし、いくつかのよく確立されたスキームは最適化問題に対処するために頻繁に利用される。 この状況下で、D-Waveは2020年にHybrid Solver Serviceをローンチし、パフォーマンスと運用プロセスの最適化を目的としたユーザのためのソリューションのポートフォリオを提供する。 最近、このポートフォリオに非線形プログラムハイブリッドソルバーという新しいテクニックが追加された。 本論文は, トラベリングセールスマン問題, クナップサック問題, 最大カット問題という3つの組合せ最適化問題に対する45のインスタンスのベンチマークを用いて, その性能評価を行う。 この比較的探索されていない解法の使用を容易にするため、これらの3つの最適化問題を解くのに使用される実装の詳細について述べる。

The development of advanced quantum-classical algorithms is among the most prominent strategies in quantum computing. Numerous hybrid solvers have been introduced recently. Many of these methods are created ad hoc to address specific use cases. However, several well-established schemes are frequently utilized to address optimization problems. In this context, D-Wave launched the Hybrid Solver Service in 2020, offering a portfolio of methods designed to accelerate time-to-solution for users aiming to optimize performance and operational processes. Recently, a new technique has been added to this portfolio: the Nonlinear-Program Hybrid Solver. This paper describes this solver and evaluates its performance through a benchmark of 45 instances across three combinatorial optimization problems: the Traveling Salesman Problem, the Knapsack Problem, and the Maximum Cut Problem. To facilitate the use of this relatively unexplored solver, we provide details of the implementation used to solve these three optimization problems.
翻訳日:2024-10-31 06:15:07 公開日:2024-10-17
# D-Waveの非線形プログラムハイブリッドソルバー:説明と性能解析

D-Wave's Nonlinear-Program Hybrid Solver: Description and Performance Analysis ( http://arxiv.org/abs/2410.07980v2 )

ライセンス: Link先を確認
Eneko Osaba, Pablo Miranda-Rodriguez, (参考訳) 先進的な量子古典的アルゴリズムの開発は、量子コンピューティングにおいて最も顕著な戦略の一つである。 最近、多くのハイブリッド・ソルバが導入されている。 これらのメソッドの多くは、特定のユースケースに対応するためにアドホックに作成されます。 しかし、いくつかのよく確立されたスキームは最適化問題に対処するために頻繁に利用される。 この状況下で、D-Waveは2020年にHybrid Solver Serviceをローンチし、パフォーマンスと運用プロセスの最適化を目的としたユーザのためのソリューションのポートフォリオを提供する。 最近、このポートフォリオに非線形プログラムハイブリッドソルバーという新しいテクニックが追加された。 本論文は, トラベリングセールスマン問題, クナップサック問題, 最大カット問題という3つの組合せ最適化問題に対する45のインスタンスのベンチマークを用いて, その性能評価を行う。 この比較的探索されていない解法の使用を容易にするため、これらの3つの最適化問題を解くのに使用される実装の詳細について述べる。

The development of advanced quantum-classical algorithms is among the most prominent strategies in quantum computing. Numerous hybrid solvers have been introduced recently. Many of these methods are created ad hoc to address specific use cases. However, several well-established schemes are frequently utilized to address optimization problems. In this context, D-Wave launched the Hybrid Solver Service in 2020, offering a portfolio of methods designed to accelerate time-to-solution for users aiming to optimize performance and operational processes. Recently, a new technique has been added to this portfolio: the Nonlinear-Program Hybrid Solver. This paper describes this solver and evaluates its performance through a benchmark of 45 instances across three combinatorial optimization problems: the Traveling Salesman Problem, the Knapsack Problem, and the Maximum Cut Problem. To facilitate the use of this relatively unexplored solver, we provide details of the implementation used to solve these three optimization problems.
翻訳日:2024-10-31 06:15:07 公開日:2024-10-17
# 意味コミュニケーションのための変分音源チャネル符号化

Variational Source-Channel Coding for Semantic Communication ( http://arxiv.org/abs/2410.08222v2 )

ライセンス: Link先を確認
Yulong Feng, Jing Xu, Liujun Hu, Guanghui Yu, Xiangyang Duan, (参考訳) セマンティックコミュニケーション技術は、AIと古典的なコミュニケーションを繋ぐ重要な橋として出現する。 現在のセマンティック通信システムは一般にオートエンコーダ(AE)としてモデル化されている。 AEは、チャネルダイナミクスを効果的にキャプチャできないため、コミュニケーション戦略とAI原則の深い統合を欠いている。 このギャップは、ジョイントソースチャネルコーディング(JSCC)の必要性を正当化し、なぜパフォーマンスが改善したのかを説明するのを困難にしている。 本稿では、ロスレスでロスリーなコミュニケーションを探求し、データの歪みを含むことが、従来のコミュニケーションとセマンティックコミュニケーションを区別することを強調する。 分離定理が保持すべき条件を破り、セマンティック通信によって転送されるデータの量が減った理由を説明する。 したがって,JSCCの活用は最適な意味コミュニケーションを実現する上で必須となる。 さらに、データ歪み理論に基づく意味コミュニケーションシステムの構築や、変分推論とチャネル特性の統合のために、VSCC法を提案する。 深層学習ネットワークを用いて,VSCC法を用いた意味コミュニケーションシステムを開発し,その意味伝達能力を示す。 また,AE法とVAE法を用いて,等価複雑性のセマンティックコミュニケーションシステムを構築した。 実験結果から,VSCCモデルがAEモデルよりも優れた解釈性を提供することが明らかとなった。 さらに、VSCCモデルはVAEモデルよりも優れた意味伝達能力を示す。 PSNRで評価されたデータ歪みと同じレベルで、VSCCモデルはより強い人間の解釈可能性を示し、SSIMで部分的に評価できる。

Semantic communication technology emerges as a pivotal bridge connecting AI with classical communication. The current semantic communication systems are generally modeled as an Auto-Encoder (AE). AE lacks a deep integration of AI principles with communication strategies due to its inability to effectively capture channel dynamics. This gap makes it difficult to justify the need for joint source-channel coding (JSCC) and to explain why performance improves. This paper begins by exploring lossless and lossy communication, highlighting that the inclusion of data distortion distinguishes semantic communication from classical communication. It breaks the conditions for the separation theorem to hold and explains why the amount of data transferred by semantic communication is less. Therefore, employing JSCC becomes imperative for achieving optimal semantic communication. Moreover, a Variational Source-Channel Coding (VSCC) method is proposed for constructing semantic communication systems based on data distortion theory, integrating variational inference and channel characteristics. Using a deep learning network, we develop a semantic communication system employing the VSCC method and demonstrate its capability for semantic transmission. We also establish semantic communication systems of equivalent complexity employing the AE method and the VAE method. Experimental results reveal that the VSCC model offers superior interpretability compared to AE model, as it clearly captures the semantic features of the transmitted data, represented as the variance of latent variables in our experiments. In addition, VSCC model exhibits superior semantic transmission capabilities compared to VAE model. At the same level of data distortion evaluated by PSNR, VSCC model exhibits stronger human interpretability, which can be partially assessed by SSIM.
翻訳日:2024-10-31 04:36:03 公開日:2024-10-17
# GUS-Net: 一般化・不公平・ステレオタイプを考慮したテキストにおけるソーシャルバイアス分類

GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes ( http://arxiv.org/abs/2410.08388v1 )

ライセンス: Link先を確認
Maximus Powers, Hua Wei, Umang Mavani, Harshitha Reddy Jonala, Ansh Tiwari, (参考訳) 自然言語処理(NLP)におけるバイアスの検出は、特に様々な領域における大規模言語モデル(LLM)の利用の増加において重要な課題である。 本稿では,(G)エナライゼーション,(U)nfairness,(S)tereotypesという3つの重要なバイアスタイプに着目した,バイアス検出のための革新的なアプローチであるGAS-Netを紹介する。 GUS-Netは生成AIと自動エージェントを活用して包括的な合成データセットを作成し、堅牢なマルチラベルトークン分類を可能にする。 提案手法は,事前学習したモデルの文脈エンコーディングを組み込むことにより,従来のバイアス検出手法を強化する。 GUS-Netが最先端技術より優れ、精度、F1スコア、ハミングロスの点で優れた性能を発揮することを示す。 この発見は、GUS-Netが様々な文脈にまたがる幅広いバイアスを捕捉する効果を浮き彫りにしており、テキストにおける社会的バイアス検出に有用なツールである。 本研究は, 暗黙のバイアスに対処するためのNLPの継続的な取り組みに寄与し, 様々な分野における今後の研究や応用の道筋となる。 データセットとモデルの作成に使用されるJupyterノートブックは、https://github.com/Ethical-Spectacle/fair-ly/tree/resourcesで公開されている。 警告: 本論文は有害言語の例を含み, 読者の判断を推奨する。

The detection of bias in natural language processing (NLP) is a critical challenge, particularly with the increasing use of large language models (LLMs) in various domains. This paper introduces GUS-Net, an innovative approach to bias detection that focuses on three key types of biases: (G)eneralizations, (U)nfairness, and (S)tereotypes. GUS-Net leverages generative AI and automated agents to create a comprehensive synthetic dataset, enabling robust multi-label token classification. Our methodology enhances traditional bias detection methods by incorporating the contextual encodings of pre-trained models, resulting in improved accuracy and depth in identifying biased entities. Through extensive experiments, we demonstrate that GUS-Net outperforms state-of-the-art techniques, achieving superior performance in terms of accuracy, F1-score, and Hamming Loss. The findings highlight GUS-Net's effectiveness in capturing a wide range of biases across diverse contexts, making it a valuable tool for social bias detection in text. This study contributes to the ongoing efforts in NLP to address implicit bias, providing a pathway for future research and applications in various fields. The Jupyter notebooks used to create the dataset and model are available at: https://github.com/Ethical-Spectacle/fair-ly/tree/main/resources. Warning: This paper contains examples of harmful language, and reader discretion is recommended.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-17
# GUS-Net: 一般化・不公平・ステレオタイプを考慮したテキストにおけるソーシャルバイアス分類

GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes ( http://arxiv.org/abs/2410.08388v2 )

ライセンス: Link先を確認
Maximus Powers, Umang Mavani, Harshitha Reddy Jonala, Ansh Tiwari, Hua Wei, (参考訳) 自然言語処理(NLP)におけるバイアスの検出は、特に様々な領域における大規模言語モデル(LLM)の利用の増加において重要な課題である。 本稿では,(G)エナライゼーション,(U)nfairness,(S)tereotypesという3つの重要なバイアスタイプに着目した,バイアス検出のための革新的なアプローチであるGAS-Netを紹介する。 GUS-Netは生成AIと自動エージェントを活用して包括的な合成データセットを作成し、堅牢なマルチラベルトークン分類を可能にする。 提案手法は,事前学習したモデルの文脈エンコーディングを組み込むことにより,従来のバイアス検出手法を強化する。 GUS-Netが最先端技術より優れ、精度、F1スコア、ハミングロスの点で優れた性能を発揮することを示す。 この発見は、GUS-Netが様々な文脈にまたがる幅広いバイアスを捕捉する効果を浮き彫りにしており、テキストにおける社会的バイアス検出に有用なツールである。 本研究は, 暗黙のバイアスに対処するためのNLPの継続的な取り組みに寄与し, 様々な分野における今後の研究や応用の道筋となる。 データセットとモデルの作成に使用されるJupyterノートブックは、https://github.com/Ethical-Spectacle/fair-ly/tree/resourcesで公開されている。 警告: 本論文は有害言語の例を含み, 読者の判断を推奨する。

The detection of bias in natural language processing (NLP) is a critical challenge, particularly with the increasing use of large language models (LLMs) in various domains. This paper introduces GUS-Net, an innovative approach to bias detection that focuses on three key types of biases: (G)eneralizations, (U)nfairness, and (S)tereotypes. GUS-Net leverages generative AI and automated agents to create a comprehensive synthetic dataset, enabling robust multi-label token classification. Our methodology enhances traditional bias detection methods by incorporating the contextual encodings of pre-trained models, resulting in improved accuracy and depth in identifying biased entities. Through extensive experiments, we demonstrate that GUS-Net outperforms state-of-the-art techniques, achieving superior performance in terms of accuracy, F1-score, and Hamming Loss. The findings highlight GUS-Net's effectiveness in capturing a wide range of biases across diverse contexts, making it a valuable tool for social bias detection in text. This study contributes to the ongoing efforts in NLP to address implicit bias, providing a pathway for future research and applications in various fields. The Jupyter notebooks used to create the dataset and model are available at: https://github.com/Ethical-Spectacle/fair-ly/tree/main/resources. Warning: This paper contains examples of harmful language, and reader discretion is recommended.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-17
# LLMは民主的価値を前進させることができるか?

Can LLMs advance democratic values? ( http://arxiv.org/abs/2410.08418v1 )

ライセンス: Link先を確認
Seth Lazar, Lorenzo Manuali, (参考訳) LLMは、言語コンテンツの解析と生成のために考案された最も高度なツールの1つである。 民主的熟考と意思決定は、いくつかの異なる段階において、言語の生産と分析を含む。 したがって、言語を操作するための最良のツールが、我々の最も重要な言語課題の1つに役立つかどうかを問うのは当然です。 研究者や実践者は近年、LLMがコンテンツを要約する能力を活用して民主的熟考を支援することができるかどうかを問うとともに、要約されたコンテンツに対する意見を集約し、実際は、見当たらない選択よりも自分の好みを予測することによって有権者を代表できるかどうかを問うている。 本稿では,LSMを用いてこれらの機能を実行することが,これらの実験を刺激する民主的価値を実際に向上させるかどうかを評価する。 我々はその記録が明らかに混ざっていることを示唆している。 権力・資源の背景的不平等や深い道徳的・政治的不一致がある場合には、民主的プロセスの非実質的な価値あるコンポーネントを自動化したり、あるいは競合する利益や価値観の調整に必要な公正かつ透明な意思決定手順に取って代わることを脅かすような方法でLLMを使わないよう注意する必要がある。 しかし、我々は、LLMは形式的な民主的な意思決定プロセスから明確に守られるべきだと論じる一方で、民主的な政府と彼らが奉仕する国家間の仲介場、すなわち政治コミュニティが情報を求め、市民を形成し、指導者が責任を負う場、という非公式な公共領域の強化に有効であると考える。

LLMs are among the most advanced tools ever devised for analysing and generating linguistic content. Democratic deliberation and decision-making involve, at several distinct stages, the production and analysis of language. So it is natural to ask whether our best tools for manipulating language might prove instrumental to one of our most important linguistic tasks. Researchers and practitioners have recently asked whether LLMs can support democratic deliberation by leveraging abilities to summarise content, as well as to aggregate opinion over summarised content, and indeed to represent voters by predicting their preferences over unseen choices. In this paper, we assess whether using LLMs to perform these and related functions really advances the democratic values that inspire these experiments. We suggest that the record is decidedly mixed. In the presence of background inequality of power and resources, as well as deep moral and political disagreement, we should be careful not to use LLMs in ways that automate non-instrumentally valuable components of the democratic process, or else threaten to supplant fair and transparent decision-making procedures that are necessary to reconcile competing interests and values. However, while we argue that LLMs should be kept well clear of formal democratic decision-making processes, we think that they can be put to good use in strengthening the informal public sphere: the arena that mediates between democratic governments and the polities that they serve, in which political communities seek information, form civic publics, and hold their leaders to account.
翻訳日:2024-10-31 03:26:42 公開日:2024-10-17
# LLMは民主的価値を前進させることができるか?

Can LLMs advance democratic values? ( http://arxiv.org/abs/2410.08418v2 )

ライセンス: Link先を確認
Seth Lazar, Lorenzo Manuali, (参考訳) LLMは、言語コンテンツの解析と生成のために考案された最も高度なツールの1つである。 民主的熟考と意思決定は、いくつかの異なる段階において、言語の生産と分析を含む。 したがって、言語を操作するための最良のツールが、我々の最も重要な言語課題の1つに役立つかどうかを問うのは当然です。 研究者や実践者は近年、LLMがコンテンツを要約する能力を活用して民主的熟考を支援することができるかどうかを問うとともに、要約されたコンテンツに対する意見を集約し、実際は、見当たらない選択よりも自分の好みを予測することによって有権者を代表できるかどうかを問うている。 本稿では,LSMを用いてこれらの機能を実行することが,これらの実験を刺激する民主的価値を実際に向上させるかどうかを評価する。 我々はその記録が明らかに混ざっていることを示唆している。 権力・資源の背景的不平等や深い道徳的・政治的不一致がある場合には、民主的プロセスの非実質的な価値あるコンポーネントを自動化したり、あるいは競合する利益や価値観の調整に必要な公正かつ透明な意思決定手順に取って代わることを脅かすような方法でLLMを使わないよう注意する必要がある。 しかし、我々は、LLMは形式的な民主的な意思決定プロセスから明確に守られるべきだと論じる一方で、民主的な政府と彼らが奉仕する国家間の仲介場、すなわち政治コミュニティが情報を求め、市民を形成し、指導者が責任を負う場、という非公式な公共領域の強化に有効であると考える。

LLMs are among the most advanced tools ever devised for analysing and generating linguistic content. Democratic deliberation and decision-making involve, at several distinct stages, the production and analysis of language. So it is natural to ask whether our best tools for manipulating language might prove instrumental to one of our most important linguistic tasks. Researchers and practitioners have recently asked whether LLMs can support democratic deliberation by leveraging abilities to summarise content, as well as to aggregate opinion over summarised content, and indeed to represent voters by predicting their preferences over unseen choices. In this paper, we assess whether using LLMs to perform these and related functions really advances the democratic values that inspire these experiments. We suggest that the record is decidedly mixed. In the presence of background inequality of power and resources, as well as deep moral and political disagreement, we should be careful not to use LLMs in ways that automate non-instrumentally valuable components of the democratic process, or else threaten to supplant fair and transparent decision-making procedures that are necessary to reconcile competing interests and values. However, while we argue that LLMs should be kept well clear of formal democratic decision-making processes, we think that they can be put to good use in strengthening the informal public sphere: the arena that mediates between democratic governments and the polities that they serve, in which political communities seek information, form civic publics, and hold their leaders to account.
翻訳日:2024-10-31 03:26:42 公開日:2024-10-17
# 弱局所測定は絡み合い系の強測定時間を再現する

Weak local measurements reproduce the measurement time of strong measurements on entangled systems ( http://arxiv.org/abs/2410.08484v1 )

ライセンス: Link先を確認
Truong-Son P. Van, Andrew N. Jordan, David W. Snoke, (参考訳) 強い投射的な量子測定から始めると、弱い測定を可能にするために実験が設計され、最終的な測定結果の間をランダムに歩くことが確立されている。 しかし、逆の質問はできる:弱い測定だけから始めて、標準の強い測定結果をすべて回収できるのか? 以前の研究は、波の強度の関数として測定結果の確率に対するボルン則のようないくつかの結果が得られることを示した。 そこで本論文では,N$量子ビット間の単一励起の絡み合った状態の場合,崩壊時間はN$の二重対数(double logarithm of $N$)であることを示す。 この結果は、自然に弱い測定がすべての物理的測定の基盤にあるという仮説の自己整合性は、人間の観察者とは独立に証明される。

It is well established that starting only with strong, projective quantum measurements, experiments can be designed to allow weak measurements, which lead to random walk between the possible final measurement outcomes. However, one can ask the reverse question: starting with only weak measurements, can all the results of standard strong measurements be recovered? Prior work has shown that some results can be, such as the Born rule for the probability of measurement outcomes as a function of wave intensity. In this paper we show that another crucial result can be reproduced by purely weak measurements, namely the collapse of a many-body, nonlocally entangled wave function on a time scale comparable to the characteristic time of a single, local measurement; for an entangled state of a single excitation among $N$ qubits, we find the collapse time scales as a double logarithm of $N$. This result affirms the self-consistency of the hypothesis that spontaneous weak measurements lie at the base of all physical measurements, independent of human observers.
翻訳日:2024-10-30 23:34:54 公開日:2024-10-17
# 弱局所測定は絡み合い系の強測定時間を再現する

Weak local measurements reproduce the measurement time of strong measurements on entangled systems ( http://arxiv.org/abs/2410.08484v2 )

ライセンス: Link先を確認
Truong-Son P. Van, Andrew N. Jordan, David W. Snoke, (参考訳) 強い投射的な量子測定から始めると、弱い測定を可能にするために実験が設計され、最終的な測定結果の間をランダムに歩くことが確立されている。 しかし、逆の質問はできる:弱い測定だけから始めて、標準の強い測定結果をすべて回収できるのか? 以前の研究は、波の強度の関数として測定結果の確率に対するボルン則のようないくつかの結果が得られることを示した。 そこで本論文では,N$量子ビット間の単一励起の絡み合った状態の場合,崩壊時間はN$の二重対数(double logarithm of $N$)であることを示す。 この結果は、自然に弱い測定がすべての物理的測定の基盤にあるという仮説の自己整合性は、人間の観察者とは独立に証明される。

It is well established that starting only with strong, projective quantum measurements, experiments can be designed to allow weak measurements, which lead to random walk between the possible final measurement outcomes. However, one can ask the reverse question: starting with only weak measurements, can all the results of standard strong measurements be recovered? Prior work has shown that some results can be, such as the Born rule for the probability of measurement outcomes as a function of wave intensity. In this paper we show that another crucial result can be reproduced by purely weak measurements, namely the collapse of a many-body, nonlocally entangled wave function on a time scale comparable to the characteristic time of a single, local measurement; for an entangled state of a single excitation among $N$ qubits, we find the collapse time scales as a double logarithm of $N$. This result affirms the self-consistency of the hypothesis that spontaneous weak measurements lie at the base of all physical measurements, independent of human observers.
翻訳日:2024-10-30 23:34:54 公開日:2024-10-17
# テキスト・画像拡散モデルを用いたコンテキスト認識全体匿名化

Context-Aware Full Body Anonymization using Text-to-Image Diffusion Models ( http://arxiv.org/abs/2410.08551v1 )

ライセンス: Link先を確認
Pascl Zwick, Kevin Roesch, Marvin Klemp, Oliver Bringmann, (参考訳) 匿名化は、現実世界のデータセットにおける個人の賢明な情報を保護する上で重要な役割を担っている。 例えば自動運転車は、将来の振る舞いを予測し、それに応じて反応する人々とその視線方向を追跡するために、高解像度の顔機能を必要としている。 データセットに重要な特徴を保持しつつ、人々のプライバシを保護するためには、人物の全身を極めて詳細な匿名化で置き換えることが重要である。 顔の匿名化とは対照的に、全身の交換は、髪型や衣服で人を認識する能力を低下させる。 本稿では,Stable Diffusionを生成バックエンドとして利用する全身匿名化のためのワークフローを提案する。 安定拡散(Stable Diffusion)やOpenAIのDALL-E、Midjourney(Midjourney)といったテキスト間拡散モデルは近年非常に人気があり、単一のテキストプロンプトからフォトリアリスティックなイメージを作成することができる。 本手法は,画像品質,解像度,インセプションスコア(IS),Frechet Inception Distance(FID)に関して,最先端の匿名化パイプラインよりも優れていることを示す。 さらに,本手法は画像生成器に対して不変であり,最新のモデルで使用することができる。

Anonymization plays a key role in protecting sensible information of individuals in real world datasets. Self-driving cars for example need high resolution facial features to track people and their viewing direction to predict future behaviour and react accordingly. In order to protect people's privacy whilst keeping important features in the dataset, it is important to replace the full body of a person with a highly detailed anonymized one. In contrast to doing face anonymization, full body replacement decreases the ability of recognizing people by their hairstyle or clothes. In this paper, we propose a workflow for full body person anonymization utilizing Stable Diffusion as a generative backend. Text-to-image diffusion models, like Stable Diffusion, OpenAI's DALL-E or Midjourney, have become very popular in recent time, being able to create photorealistic images from a single text prompt. We show that our method outperforms state-of-the art anonymization pipelines with respect to image quality, resolution, Inception Score (IS) and Frechet Inception Distance (FID). Additionally, our method is invariant with respect to the image generator and thus able to be used with the latest models available.
翻訳日:2024-10-30 23:14:57 公開日:2024-10-17
# テキスト・画像拡散モデルを用いたコンテキスト認識全体匿名化

Context-Aware Full Body Anonymization using Text-to-Image Diffusion Models ( http://arxiv.org/abs/2410.08551v2 )

ライセンス: Link先を確認
Pascal Zwick, Kevin Roesch, Marvin Klemp, Oliver Bringmann, (参考訳) 匿名化は、現実世界のデータセットにおける個人の賢明な情報を保護する上で重要な役割を担っている。 例えば自動運転車は、将来の振る舞いを予測し、それに応じて反応する人々とその視線方向を追跡するために、高解像度の顔機能を必要としている。 データセットに重要な特徴を保持しつつ、人々のプライバシを保護するためには、人物の全身を極めて詳細な匿名化で置き換えることが重要である。 顔の匿名化とは対照的に、全身の交換は、髪型や衣服で人を認識する能力を低下させる。 本稿では,Stable Diffusionを生成バックエンドとして利用する全身匿名化のためのワークフローを提案する。 安定拡散(Stable Diffusion)やOpenAIのDALL-E、Midjourney(Midjourney)といったテキスト間拡散モデルは近年非常に人気があり、単一のテキストプロンプトからフォトリアリスティックなイメージを作成することができる。 本手法は,画像品質,解像度,インセプションスコア(IS),Frechet Inception Distance(FID)に関して,最先端の匿名化パイプラインよりも優れていることを示す。 さらに,本手法は画像生成器に対して不変であり,最新のモデルで使用することができる。

Anonymization plays a key role in protecting sensible information of individuals in real world datasets. Self-driving cars for example need high resolution facial features to track people and their viewing direction to predict future behaviour and react accordingly. In order to protect people's privacy whilst keeping important features in the dataset, it is important to replace the full body of a person with a highly detailed anonymized one. In contrast to doing face anonymization, full body replacement decreases the ability of recognizing people by their hairstyle or clothes. In this paper, we propose a workflow for full body person anonymization utilizing Stable Diffusion as a generative backend. Text-to-image diffusion models, like Stable Diffusion, OpenAI's DALL-E or Midjourney, have become very popular in recent time, being able to create photorealistic images from a single text prompt. We show that our method outperforms state-of-the art anonymization pipelines with respect to image quality, resolution, Inception Score (IS) and Frechet Inception Distance (FID). Additionally, our method is invariant with respect to the image generator and thus able to be used with the latest models available.
翻訳日:2024-10-30 23:14:57 公開日:2024-10-17
# マルチターゲット特性を持つ結晶構造を同時最適化するための適応的制約積分

Adaptive Constraint Integration for Simultaneously Optimizing Crystal Structures with Multiple Targeted Properties ( http://arxiv.org/abs/2410.08562v1 )

ライセンス: Link先を確認
Akihiro Fujii, Yoshitaka Ushiku, Koji Shimizu, Anh Khoa Augustin Lu, Satoshi Watanabe, (参考訳) 材料科学では、標的となる性質を持つ結晶構造を見つけることが重要である。 ベイズ最適化や深部生成モデルのような最近の手法はこの問題にいくつかの進歩をもたらしたが、これらの手法は、望まれる特定の結晶構造を維持しながら、電気的中立性や標的特性の最適化といった様々な制約を適応的に組み込むのが困難であることが多い。 これらの課題に対処するため,適応型結晶合成器 (SMOACS) を用いた同時多目的最適化法を開発した。 SMOACSは、モデル再トレーニングを必要とせずに、適応的制約を最適化プロセスに統合することを可能にする。 この特徴により、SMOACSは様々な結晶タイプで訓練されたモデルであっても、ペロブスカイト構造を維持しながら標的特性を同時に最適化することに成功している。 我々は、電気的中立性の検証が困難な135個の原子配置において、電気的中立性を維持するという挑戦的な制約を満たす中で、バンドギャップの最適化を実証した。 最も有望な材料の性質は密度汎関数理論の計算によって確認されている。

In materials science, finding crystal structures that have targeted properties is crucial. While recent methodologies such as Bayesian optimization and deep generative models have made some advances on this issue, these methods often face difficulties in adaptively incorporating various constraints, such as electrical neutrality and targeted properties optimization, while keeping the desired specific crystal structure. To address these challenges, we have developed the Simultaneous Multi-property Optimization using Adaptive Crystal Synthesizer (SMOACS), which utilizes state-of-the-art property prediction models and their gradients to directly optimize input crystal structures for targeted properties simultaneously. SMOACS enables the integration of adaptive constraints into the optimization process without necessitating model retraining. Thanks to this feature, SMOACS has succeeded in simultaneously optimizing targeted properties while maintaining perovskite structures, even with models trained on diverse crystal types. We have demonstrated the band gap optimization while meeting a challenging constraint, that is, maintaining electrical neutrality in large atomic configurations up to 135 atom sites, where the verification of the electrical neutrality is challenging. The properties of the most promising materials have been confirmed by density functional theory calculations.
翻訳日:2024-10-30 23:14:57 公開日:2024-10-17
# マルチターゲット特性を持つ結晶構造を同時最適化するための適応的制約積分

Adaptive Constraint Integration for Simultaneously Optimizing Crystal Structures with Multiple Targeted Properties ( http://arxiv.org/abs/2410.08562v2 )

ライセンス: Link先を確認
Akihiro Fujii, Yoshitaka Ushiku, Koji Shimizu, Anh Khoa Augustin Lu, Satoshi Watanabe, (参考訳) 材料科学では、標的となる性質を持つ結晶構造を見つけることが重要である。 ベイズ最適化や深部生成モデルのような最近の手法はこの問題にいくつかの進歩をもたらしたが、これらの手法は、望まれる特定の結晶構造を維持しながら、電気的中立性や標的特性の最適化といった様々な制約を適応的に組み込むのが困難であることが多い。 これらの課題に対処するため,適応型結晶合成器 (SMOACS) を用いた同時多目的最適化法を開発した。 SMOACSは、モデル再トレーニングを必要とせずに、適応的制約を最適化プロセスに統合することを可能にする。 この特徴により、SMOACSは様々な結晶タイプで訓練されたモデルであっても、ペロブスカイト構造を維持しながら標的特性を同時に最適化することに成功している。 我々は、電気的中立性の検証が困難な135個の原子配置において、電気的中立性を維持するという挑戦的な制約を満たす中で、バンドギャップの最適化を実証した。 最も有望な材料の性質は密度汎関数理論の計算によって確認されている。

In materials science, finding crystal structures that have targeted properties is crucial. While recent methodologies such as Bayesian optimization and deep generative models have made some advances on this issue, these methods often face difficulties in adaptively incorporating various constraints, such as electrical neutrality and targeted properties optimization, while keeping the desired specific crystal structure. To address these challenges, we have developed the Simultaneous Multi-property Optimization using Adaptive Crystal Synthesizer (SMOACS), which utilizes state-of-the-art property prediction models and their gradients to directly optimize input crystal structures for targeted properties simultaneously. SMOACS enables the integration of adaptive constraints into the optimization process without necessitating model retraining. Thanks to this feature, SMOACS has succeeded in simultaneously optimizing targeted properties while maintaining perovskite structures, even with models trained on diverse crystal types. We have demonstrated the band gap optimization while meeting a challenging constraint, that is, maintaining electrical neutrality in large atomic configurations up to 135 atom sites, where the verification of the electrical neutrality is challenging. The properties of the most promising materials have been confirmed by density functional theory calculations.
翻訳日:2024-10-30 23:14:57 公開日:2024-10-17
# Mahi-Mahi:低レイテンシ非同期BFT DAGベースコンセンサス

Mahi-Mahi: Low-Latency Asynchronous BFT DAG-Based Consensus ( http://arxiv.org/abs/2410.08670v1 )

ライセンス: Link先を確認
Philipp Jovanovic, Lefteris Kokoris Kogias, Bryan Kumara, Alberto Sonnino, Pasindu Tennage, Igor Zablotchi, (参考訳) 本稿では,WANにおけるサブ秒レイテンシを実現する非同期BFTコンセンサスプロトコルであるMahi-Mahiについて述べる。 マヒマヒを不確定な構造化非巡回グラフ (DAG) 上に構築することで, この顕著な性能を実現する。 明示的な認証を強制することにより、コミットに必要なメッセージの数を大幅に削減し、証明書検証に関連するCPUオーバーヘッドを最小化します。 Mahi-Mahi氏はDAGラウンド毎に複数のブロックをコミットできる新しいコミットルールを導入した。 Mahi-Mahiは、5つのメッセージ遅延でコミットしようとするか、4つのメッセージ遅延でコミットする確率を最大化する。 ビザンチンの文脈で,マヒマヒの安全と生活を実証する。 その後,Mahi-Mahiをジオレプリケートした環境で評価し,その性能を最先端の非同期コンセンサスプロトコルと比較し,Mahi-Mahiのレイテンシが著しく低いことを示す。

We present Mahi-Mahi, the first asynchronous BFT consensus protocol that achieves sub-second latency in the WAN while processing over 100,000 transactions per second. We accomplish this remarkable performance by building Mahi-Mahi on an uncertified structured Directed Acyclic Graph (DAG). By forgoing explicit certification, we significantly reduce the number of messages required to commit and minimize CPU overhead associated with certificate verification. Mahi-Mahi introduces a novel commit rule that allows committing multiple blocks in each DAG round, while ensuring liveness in the presence of an asynchronous adversary. Mahi-Mahi can be parametrized to either attempt to commit within 5 message delays, maximizing the probability of commitment under a continuously active asynchronous adversary, or within 4 message delays, which reduces latency under a more moderate and realistic asynchronous adversary. We demonstrate the safety and liveness of Mahi-Mahi in a Byzantine context. Subsequently, we evaluate Mahi-Mahi in a geo-replicated setting and compare its performance against state-of-the-art asynchronous consensus protocols, showcasing Mahi-Mahi's significantly lower latency.
翻訳日:2024-10-30 22:35:12 公開日:2024-10-17
# Mahi-Mahi:低レイテンシ非同期BFT DAGベースコンセンサス

Mahi-Mahi: Low-Latency Asynchronous BFT DAG-Based Consensus ( http://arxiv.org/abs/2410.08670v2 )

ライセンス: Link先を確認
Philipp Jovanovic, Lefteris Kokoris Kogias, Bryan Kumara, Alberto Sonnino, Pasindu Tennage, Igor Zablotchi, (参考訳) 本稿では,WANにおけるサブ秒レイテンシを実現する非同期BFTコンセンサスプロトコルであるMahi-Mahiについて述べる。 マヒマヒを不確定な構造化非巡回グラフ (DAG) 上に構築することで, この顕著な性能を実現する。 明示的な認証を強制することにより、コミットに必要なメッセージの数を大幅に削減し、証明書検証に関連するCPUオーバーヘッドを最小化します。 Mahi-Mahi氏はDAGラウンド毎に複数のブロックをコミットできる新しいコミットルールを導入した。 Mahi-Mahiは、5つのメッセージ遅延でコミットしようとするか、4つのメッセージ遅延でコミットする確率を最大化する。 ビザンチンの文脈で,マヒマヒの安全と生活を実証する。 その後,Mahi-Mahiをジオレプリケートした環境で評価し,その性能を最先端の非同期コンセンサスプロトコルと比較し,Mahi-Mahiのレイテンシが著しく低いことを示す。

We present Mahi-Mahi, the first asynchronous BFT consensus protocol that achieves sub-second latency in the WAN while processing over 100,000 transactions per second. We accomplish this remarkable performance by building Mahi-Mahi on an uncertified structured Directed Acyclic Graph (DAG). By forgoing explicit certification, we significantly reduce the number of messages required to commit and minimize CPU overhead associated with certificate verification. Mahi-Mahi introduces a novel commit rule that allows committing multiple blocks in each DAG round, while ensuring liveness in the presence of an asynchronous adversary. Mahi-Mahi can be parametrized to either attempt to commit within 5 message delays, maximizing the probability of commitment under a continuously active asynchronous adversary, or within 4 message delays, which reduces latency under a more moderate and realistic asynchronous adversary. We demonstrate the safety and liveness of Mahi-Mahi in a Byzantine context. Subsequently, we evaluate Mahi-Mahi in a geo-replicated setting and compare its performance against state-of-the-art asynchronous consensus protocols, showcasing Mahi-Mahi's significantly lower latency.
翻訳日:2024-10-30 22:35:12 公開日:2024-10-17
# 専門家の判断とアルゴリズムによる意思決定の統合:識別不能なフレームワーク

Integrating Expert Judgment and Algorithmic Decision Making: An Indistinguishability Framework ( http://arxiv.org/abs/2410.08783v1 )

ライセンス: Link先を確認
Rohan Alur, Loren Laine, Darrick K. Li, Dennis Shung, Manish Raghavan, Devavrat Shah, (参考訳) 予測と意思決定タスクにおける人間とAIの協調のための新しい枠組みを導入する。 我々の手法は人間の判断を利用して、アルゴリズム的に区別できない入力を区別する。 このフレーミングは、専門家がアルゴリズムのトレーニングデータにエンコードされていない情報を描画することによって判断を下すことがしばしばあるので、予測や決定タスクにおける人間とAIの協調の問題を明確にするものである、と我々は主張する。 アルゴリズム的不明瞭性は、専門家がこの種の「側的情報」を取り入れているかどうかを評価するための自然なテストをもたらし、さらに、人間のフィードバックをアルゴリズムの予測に選択的に組み込む単純な方法を提供する。 提案手法は,任意の実現可能なアルゴリズム予測器の性能を確実に向上し,その精度を定量的に評価する。 緊急室トリアージ決定のケーススタディにおいて,我々は,アルゴリズム的リスクスコアが医師と高い競争力を持つにもかかわらず,医師の判断が予測アルゴリズムでは再現できない信号を提供するという強い証拠があることを見出した。 この洞察は、人間の専門家と予測アルゴリズムの相補的な強みを利用する、様々な自然な決定ルールをもたらす。

We introduce a novel framework for human-AI collaboration in prediction and decision tasks. Our approach leverages human judgment to distinguish inputs which are algorithmically indistinguishable, or "look the same" to any feasible predictive algorithm. We argue that this framing clarifies the problem of human-AI collaboration in prediction and decision tasks, as experts often form judgments by drawing on information which is not encoded in an algorithm's training data. Algorithmic indistinguishability yields a natural test for assessing whether experts incorporate this kind of "side information", and further provides a simple but principled method for selectively incorporating human feedback into algorithmic predictions. We show that this method provably improves the performance of any feasible algorithmic predictor and precisely quantify this improvement. We demonstrate the utility of our framework in a case study of emergency room triage decisions, where we find that although algorithmic risk scores are highly competitive with physicians, there is strong evidence that physician judgments provide signal which could not be replicated by any predictive algorithm. This insight yields a range of natural decision rules which leverage the complementary strengths of human experts and predictive algorithms.
翻訳日:2024-10-30 22:05:43 公開日:2024-10-17
# 専門家の判断とアルゴリズムによる意思決定の統合:識別不能なフレームワーク

Integrating Expert Judgment and Algorithmic Decision Making: An Indistinguishability Framework ( http://arxiv.org/abs/2410.08783v2 )

ライセンス: Link先を確認
Rohan Alur, Loren Laine, Darrick K. Li, Dennis Shung, Manish Raghavan, Devavrat Shah, (参考訳) 予測と意思決定タスクにおける人間とAIの協調のための新しい枠組みを導入する。 我々の手法は人間の判断を利用して、アルゴリズム的に区別できない入力を区別する。 このフレーミングは、専門家がアルゴリズムのトレーニングデータにエンコードされていない情報を描画することによって判断を下すことがしばしばあるので、予測や決定タスクにおける人間とAIの協調の問題を明確にするものである、と我々は主張する。 アルゴリズム的不明瞭性は、専門家がこの種の「側的情報」を取り入れているかどうかを評価するための自然なテストをもたらし、さらに、人間のフィードバックをアルゴリズムの予測に選択的に組み込む単純な方法を提供する。 提案手法は,任意の実現可能なアルゴリズム予測器の性能を確実に向上し,その精度を定量的に評価する。 緊急室トリアージ決定のケーススタディにおいて,我々は,アルゴリズム的リスクスコアが医師と高い競争力を持つにもかかわらず,医師の判断が予測アルゴリズムでは再現できない信号を提供するという強い証拠があることを見出した。 この洞察は、人間の専門家と予測アルゴリズムの相補的な強みを利用する、様々な自然な決定ルールをもたらす。

We introduce a novel framework for human-AI collaboration in prediction and decision tasks. Our approach leverages human judgment to distinguish inputs which are algorithmically indistinguishable, or "look the same" to any feasible predictive algorithm. We argue that this framing clarifies the problem of human-AI collaboration in prediction and decision tasks, as experts often form judgments by drawing on information which is not encoded in an algorithm's training data. Algorithmic indistinguishability yields a natural test for assessing whether experts incorporate this kind of "side information", and further provides a simple but principled method for selectively incorporating human feedback into algorithmic predictions. We show that this method provably improves the performance of any feasible algorithmic predictor and precisely quantify this improvement. We demonstrate the utility of our framework in a case study of emergency room triage decisions, where we find that although algorithmic risk scores are highly competitive with physicians, there is strong evidence that physician judgments provide signal which could not be replicated by any predictive algorithm. This insight yields a range of natural decision rules which leverage the complementary strengths of human experts and predictive algorithms.
翻訳日:2024-10-30 22:05:43 公開日:2024-10-17
# ヨーロッパ言語における言語間LLM評価に向けて

Towards Cross-Lingual LLM Evaluation for European Languages ( http://arxiv.org/abs/2410.08928v1 )

ライセンス: Link先を確認
Klaudia Thellmann, Bernhard Stadler, Michael Fromm, Jasper Schulze Buschhoff, Alex Jude, Fabio Barth, Johannes Leveling, Nicolas Flores-Herr, Joachim Köhler, René Jäkel, Mehdi Ali, (参考訳) 大規模言語モデル(LLM)の台頭は、多くの言語やタスクにわたる自然言語処理に革命をもたらした。 しかし、特にマルチリンガルベンチマークが不足しているため、複数のヨーロッパ言語にまたがる一貫した有意義な評価は依然として困難である。 ヨーロッパ言語に適した言語間評価手法を提案する。 ヨーロッパ21言語にまたがる40のLLMの能力を評価するために,広く使用されている5つのベンチマークの翻訳版を採用した。 コントリビューションには、翻訳ベンチマークの有効性の検証、異なる翻訳サービスの影響の評価、新たに作成されたデータセットを含むLLMの多言語評価フレームワークの提供、EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA、EU20-GSM8Kなどが含まれています。 ベンチマークと結果が公開され、多言語LLM評価のさらなる研究が奨励されている。

The rise of Large Language Models (LLMs) has revolutionized natural language processing across numerous languages and tasks. However, evaluating LLM performance in a consistent and meaningful way across multiple European languages remains challenging, especially due to the scarcity of multilingual benchmarks. We introduce a cross-lingual evaluation approach tailored for European languages. We employ translated versions of five widely-used benchmarks to assess the capabilities of 40 LLMs across 21 European languages. Our contributions include examining the effectiveness of translated benchmarks, assessing the impact of different translation services, and offering a multilingual evaluation framework for LLMs that includes newly created datasets: EU20-MMLU, EU20-HellaSwag, EU20-ARC, EU20-TruthfulQA, and EU20-GSM8K. The benchmarks and results are made publicly available to encourage further research in multilingual LLM evaluation.
翻訳日:2024-10-30 21:06:06 公開日:2024-10-17
# 欧州言語における多言語LLM評価に向けて

Towards Multilingual LLM Evaluation for European Languages ( http://arxiv.org/abs/2410.08928v2 )

ライセンス: Link先を確認
Klaudia Thellmann, Bernhard Stadler, Michael Fromm, Jasper Schulze Buschhoff, Alex Jude, Fabio Barth, Johannes Leveling, Nicolas Flores-Herr, Joachim Köhler, René Jäkel, Mehdi Ali, (参考訳) 大規模言語モデル(LLM)の台頭は、多くの言語やタスクにわたる自然言語処理に革命をもたらした。 しかし、言語並列マルチ言語ベンチマークが不足しているため、複数のヨーロッパ言語をまたいだ一貫した有意義な評価は依然として困難である。 ヨーロッパ言語に適した多言語評価手法を提案する。 ヨーロッパ21言語にまたがる40のLLMの能力を評価するために,広く使用されている5つのベンチマークの翻訳版を採用した。 コントリビューションには、翻訳ベンチマークの有効性の検証、異なる翻訳サービスの影響の評価、新たに作成されたデータセットを含むLLMの多言語評価フレームワークの提供、EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA、EU20-GSM8Kなどが含まれています。 ベンチマークと結果が公開され、多言語LLM評価のさらなる研究が奨励されている。

The rise of Large Language Models (LLMs) has revolutionized natural language processing across numerous languages and tasks. However, evaluating LLM performance in a consistent and meaningful way across multiple European languages remains challenging, especially due to the scarcity of language-parallel multilingual benchmarks. We introduce a multilingual evaluation approach tailored for European languages. We employ translated versions of five widely-used benchmarks to assess the capabilities of 40 LLMs across 21 European languages. Our contributions include examining the effectiveness of translated benchmarks, assessing the impact of different translation services, and offering a multilingual evaluation framework for LLMs that includes newly created datasets: EU20-MMLU, EU20-HellaSwag, EU20-ARC, EU20-TruthfulQA, and EU20-GSM8K. The benchmarks and results are made publicly available to encourage further research in multilingual LLM evaluation.
翻訳日:2024-10-30 21:06:06 公開日:2024-10-17
# 量子回路上の伝達可能な信念モデル

Transferable Belief Model on Quantum Circuits ( http://arxiv.org/abs/2410.08949v1 )

ライセンス: Link先を確認
Qianli Zhou, Hao Luo, Lipeng Pan, Yong Deng, Eloi Bosse, (参考訳) 移譲可能な信念モデルは、デンプスター・シェーファー理論のセマンティック解釈として、エージェントが不正確で不完全な環境で推論と意思決定を行うことを可能にする。 このモデルは信頼できない証言を扱うための明確な意味論を提供し、ベイズ的アプローチと比較してより合理的で一般的な信念伝達のプロセスを可能にする。 しかし、信念の質量と焦点集合の構造は、推論の過程で余分な計算複雑性に導かれる信念関数を更新する際に考慮する必要がある。 本稿では,量子回路上での伝達可能な信念モデルを実装し,量子コンピューティングフレームワークにおけるベイズ的アプローチに対して,信念関数がより簡潔で効果的な代替手段を提供することを示す。 さらに,量子コンピューティングの特徴を活かして,新しい信念伝達手法を提案する。 より広範に、量子AIモデルの基本情報表現に関する新たな視点を導入し、量子回路の不確実性を扱うためのベイズ的アプローチよりも信念関数の方が適していることを示す。

The transferable belief model, as a semantic interpretation of Dempster-Shafer theory, enables agents to perform reasoning and decision making in imprecise and incomplete environments. The model offers distinct semantics for handling unreliable testimonies, allowing for a more reasonable and general process of belief transfer compared to the Bayesian approach. However, because both the belief masses and the structure of focal sets must be considered when updating belief functions-leading to extra computational complexity during reasoning-the transferable belief model has gradually lost favor among researchers in recent developments. In this paper, we implement the transferable belief model on quantum circuits and demonstrate that belief functions offer a more concise and effective alternative to Bayesian approaches within the quantum computing framework. Furthermore, leveraging the unique characteristics of quantum computing, we propose several novel belief transfer approaches. More broadly, this paper introduces a new perspective on basic information representation for quantum AI models, suggesting that belief functions are more suitable than Bayesian approach for handling uncertainty on quantum circuits.
翻訳日:2024-10-30 20:56:20 公開日:2024-10-17
# 量子回路上の伝達可能な信念モデル

Transferable Belief Model on Quantum Circuits ( http://arxiv.org/abs/2410.08949v2 )

ライセンス: Link先を確認
Qianli Zhou, Hao Luo, Lipeng Pan, Yong Deng, Eloi Bosse, (参考訳) 移譲可能な信念モデルは、デンプスター・シェーファー理論のセマンティック解釈として、エージェントが不正確で不完全な環境で推論と意思決定を行うことを可能にする。 このモデルは信頼できない証言を扱うための明確な意味論を提供し、ベイズ的アプローチと比較してより合理的で一般的な信念伝達のプロセスを可能にする。 しかし、信念の質量と焦点集合の構造は、推論の過程で余分な計算複雑性に導かれる信念関数を更新する際に考慮する必要がある。 本稿では,量子回路上での伝達可能な信念モデルを実装し,量子コンピューティングフレームワークにおけるベイズ的アプローチに対して,信念関数がより簡潔で効果的な代替手段を提供することを示す。 さらに,量子コンピューティングの特徴を活かして,新しい信念伝達手法を提案する。 より広範に、量子AIモデルの基本情報表現に関する新たな視点を導入し、量子回路の不確実性を扱うためのベイズ的アプローチよりも信念関数の方が適していることを示す。

The transferable belief model, as a semantic interpretation of Dempster-Shafer theory, enables agents to perform reasoning and decision making in imprecise and incomplete environments. The model offers distinct semantics for handling unreliable testimonies, allowing for a more reasonable and general process of belief transfer compared to the Bayesian approach. However, because both the belief masses and the structure of focal sets must be considered when updating belief functions-leading to extra computational complexity during reasoning-the transferable belief model has gradually lost favor among researchers in recent developments. In this paper, we implement the transferable belief model on quantum circuits and demonstrate that belief functions offer a more concise and effective alternative to Bayesian approaches within the quantum computing framework. Furthermore, leveraging the unique characteristics of quantum computing, we propose several novel belief transfer approaches. More broadly, this paper introduces a new perspective on basic information representation for quantum AI models, suggesting that belief functions are more suitable than Bayesian approach for handling uncertainty on quantum circuits.
翻訳日:2024-10-30 20:56:20 公開日:2024-10-17
# 漢字における視覚情報の影響:ラディカル認識・活用能力の評価

The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals ( http://arxiv.org/abs/2410.09013v1 )

ライセンス: Link先を確認
Xiaofeng Wu, Karl Stratos, Wei Xu, (参考訳) 中国語のグリフ文字体系は、意味や発音のヒントを提供する急進語など、各文字に情報に富んだ視覚的特徴を取り入れている。 しかし,現代大言語モデル (LLMs) と視覚言語モデル (VLMs) は,中国語のこれらのサブ文字をプロンプトによって活用できるかどうかについては調査されていない。 本研究では,ラディカル,構成構造,ストローク数,ストローク数など,漢字の視覚的要素に対するLLMとVLMの理解を評価するためのベンチマークを構築した。 結果から,文字のイメージが提供されたかどうかに関わらず,画像情報に関する知識が驚くほど限られていることが判明した。 モデルがラジカルを使用する能力を引き出すために、中国語理解タスクのプロンプトにラジカルを組み込むことをさらに実験する。 ラジカルについて追加情報を提供する際には,パートOf-Speechタギングにおける一貫した改善が観察され,サブキャラクタ情報の統合によるCLPの強化の可能性が示唆された。

The glyphic writing system of Chinese incorporates information-rich visual features in each character, such as radicals that provide hints about meaning or pronunciation. However, there has been no investigation into whether contemporary Large Language Models (LLMs) and Vision-Language Models (VLMs) can harness these sub-character features in Chinese through prompting. In this study, we establish a benchmark to evaluate LLMs' and VLMs' understanding of visual elements in Chinese characters, including radicals, composition structures, strokes, and stroke counts. Our results reveal that models surprisingly exhibit some, but still limited, knowledge of the visual information, regardless of whether images of characters are provided. To incite models' ability to use radicals, we further experiment with incorporating radicals into the prompts for Chinese language understanding tasks. We observe consistent improvement in Part-Of-Speech tagging when providing additional information about radicals, suggesting the potential to enhance CLP by integrating sub-character information.
翻訳日:2024-10-30 20:36:41 公開日:2024-10-17
# 漢字における視覚情報の影響:ラディカル認識・活用能力の評価

The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals ( http://arxiv.org/abs/2410.09013v2 )

ライセンス: Link先を確認
Xiaofeng Wu, Karl Stratos, Wei Xu, (参考訳) 中国語のグリフ文字体系は、意味や発音のヒントを提供する急進語など、各文字に情報に富んだ視覚的特徴を取り入れている。 しかし,現代大言語モデル (LLMs) と視覚言語モデル (VLMs) は,中国語のこれらのサブ文字をプロンプトによって活用できるかどうかについては調査されていない。 本研究では,ラディカル,構成構造,ストローク数,ストローク数など,漢字の視覚的要素に対するLLMとVLMの理解を評価するためのベンチマークを構築した。 結果から,文字のイメージが提供されたかどうかに関わらず,画像情報に関する知識が驚くほど限られていることが判明した。 モデルがラジカルを使用する能力を引き出すため、中国語処理(CLP)タスクのプロンプトにラジカルを組み込むことをさらに実験する。 ラジカルについて追加情報を提供する際には,パートOf-Speechタギングにおける一貫した改善が観察され,サブキャラクタ情報の統合によるCLPの強化の可能性が示唆された。

The glyphic writing system of Chinese incorporates information-rich visual features in each character, such as radicals that provide hints about meaning or pronunciation. However, there has been no investigation into whether contemporary Large Language Models (LLMs) and Vision-Language Models (VLMs) can harness these sub-character features in Chinese through prompting. In this study, we establish a benchmark to evaluate LLMs' and VLMs' understanding of visual elements in Chinese characters, including radicals, composition structures, strokes, and stroke counts. Our results reveal that models surprisingly exhibit some, but still limited, knowledge of the visual information, regardless of whether images of characters are provided. To incite models' ability to use radicals, we further experiment with incorporating radicals into the prompts for Chinese language processing (CLP) tasks. We observe consistent improvement in Part-Of-Speech tagging when providing additional information about radicals, suggesting the potential to enhance CLP by integrating sub-character information.
翻訳日:2024-10-30 20:36:41 公開日:2024-10-17
# 知識グラフにおけるFew-Shot関係学習のためのコンテキストアウェア・アダプタチューニング

Context-Aware Adapter Tuning for Few-Shot Relation Learning in Knowledge Graphs ( http://arxiv.org/abs/2410.09123v1 )

ライセンス: Link先を確認
Ran Liu, Zhongzhou Liu, Xiaoli Li, Yuan Fang, (参考訳) 知識グラフ(KG)は様々な現実世界の応用において有効であるが、しばしば不完全性に悩まされる。 限られた訓練例による新しい関係のインスタンスを予測するために,メタラーニングなどの手法を用いて,少数ショット関係学習アプローチが出現している。 しかし、メタテストにおける新しい関係とメタトレーニングにおける基礎関係は独立して同一に分布しており、実際には成り立たないという仮定がある。 この制限に対処するために,メタラーニングにおける適応プロセスの強化を目的とした,KGにおける少数ショット関係学習のための文脈認識型アダプタRelAdapterを提案する。 第一に、RelAdapterは、パラメータ効率のよいメタ知識の、関係性固有の、調整可能な適応を容易にする軽量なアダプタモジュールを備えている。 第2に、RelAdapterはターゲット関係に関するコンテキスト情報に富み、それぞれの異なる関係への適応性を高める。 3つのベンチマークKGの大規模な実験は、最先端の手法よりもRelAdapterの方が優れていることを検証している。

Knowledge graphs (KGs) are instrumental in various real-world applications, yet they often suffer from incompleteness due to missing relations. To predict instances for novel relations with limited training examples, few-shot relation learning approaches have emerged, utilizing techniques such as meta-learning. However, the assumption is that novel relations in meta-testing and base relations in meta-training are independently and identically distributed, which may not hold in practice. To address the limitation, we propose RelAdapter, a context-aware adapter for few-shot relation learning in KGs designed to enhance the adaptation process in meta-learning. First, RelAdapter is equipped with a lightweight adapter module that facilitates relation-specific, tunable adaptation of meta-knowledge in a parameter-efficient manner. Second, RelAdapter is enriched with contextual information about the target relation, enabling enhanced adaptation to each distinct relation. Extensive experiments on three benchmark KGs validate the superiority of RelAdapter over state-of-the-art methods.
翻訳日:2024-10-30 16:13:24 公開日:2024-10-17
# 知識グラフにおけるFew-Shot関係学習のためのコンテキストアウェア・アダプタチューニング

Context-Aware Adapter Tuning for Few-Shot Relation Learning in Knowledge Graphs ( http://arxiv.org/abs/2410.09123v2 )

ライセンス: Link先を確認
Ran Liu, Zhongzhou Liu, Xiaoli Li, Yuan Fang, (参考訳) 知識グラフ(KG)は様々な現実世界の応用において有効であるが、しばしば不完全性に悩まされる。 限られた訓練例による新しい関係のインスタンスを予測するために,メタラーニングなどの手法を用いて,少数ショット関係学習アプローチが出現している。 しかし、メタテストにおける新しい関係とメタトレーニングにおける基礎関係は独立して同一に分布しており、実際には成り立たないという仮定がある。 この制限に対処するために,メタラーニングにおける適応プロセスの強化を目的とした,KGにおける少数ショット関係学習のための文脈認識型アダプタRelAdapterを提案する。 第一に、RelAdapterは、パラメータ効率のよいメタ知識の、関係性固有の、調整可能な適応を容易にする軽量なアダプタモジュールを備えている。 第2に、RelAdapterはターゲット関係に関するコンテキスト情報に富み、それぞれの異なる関係への適応性を高める。 3つのベンチマークKGの大規模な実験は、最先端の手法よりもRelAdapterの方が優れていることを検証している。

Knowledge graphs (KGs) are instrumental in various real-world applications, yet they often suffer from incompleteness due to missing relations. To predict instances for novel relations with limited training examples, few-shot relation learning approaches have emerged, utilizing techniques such as meta-learning. However, the assumption is that novel relations in meta-testing and base relations in meta-training are independently and identically distributed, which may not hold in practice. To address the limitation, we propose RelAdapter, a context-aware adapter for few-shot relation learning in KGs designed to enhance the adaptation process in meta-learning. First, RelAdapter is equipped with a lightweight adapter module that facilitates relation-specific, tunable adaptation of meta-knowledge in a parameter-efficient manner. Second, RelAdapter is enriched with contextual information about the target relation, enabling enhanced adaptation to each distinct relation. Extensive experiments on three benchmark KGs validate the superiority of RelAdapter over state-of-the-art methods.
翻訳日:2024-10-30 16:13:24 公開日:2024-10-17
# 深層学習のための安全な集合における攻撃と防御の発見

Uncovering Attacks and Defenses in Secure Aggregation for Federated Deep Learning ( http://arxiv.org/abs/2410.09676v1 )

ライセンス: Link先を確認
Yiwei Zhang, Rouzbeh Behnia, Attila A. Yavuz, Reza Ebrahimi, Elisa Bertino, (参考訳) フェデレートラーニングは、多様なデータに対するグローバルモデルの協調学習を可能にし、データのローカリティを保ち、ユーザデータを中央サーバに転送する必要をなくす。 しかし、データのプライバシは依然として脆弱であり、各学習イテレーション中にユーザから送信されたアップデートを活用することで、攻撃がユーザトレーニングデータをターゲットにすることができる。 セキュアアグリゲーションプロトコルは、ユーザ更新をマスク/暗号化し、中央サーバがマスキングされた情報を集約できるように設計されている。 MicroSecAgg (PoPETS 2024) は,複数のトレーニングイテレーションでシークレットのワンタイムセットアップを再使用可能にすることで,既存のアプローチの通信複雑性を緩和することを目的とした,単一のサーバセキュアアグリゲーションプロトコルを提案する。 本稿では、プライバシー保証を損なうMicroSecAggのセキュリティ欠陥を特定する。 セキュリティの欠陥と攻撃について詳述し、敵が予測可能なマスキング値を利用してユーザーのプライバシーを侵害する方法を実証する。 本研究は,セキュアアグリゲーションプロトコルにおけるセキュリティ対策の強化,特に動的かつ予測不能なマスキング戦略の実装に対する重要なニーズを浮き彫りにしている。 我々は、これらの脆弱性を軽減し、セキュアなアグリゲーションフレームワークにおける堅牢なプライバシ保護を確保するための潜在的対策を提案する。

Federated learning enables the collaborative learning of a global model on diverse data, preserving data locality and eliminating the need to transfer user data to a central server. However, data privacy remains vulnerable, as attacks can target user training data by exploiting the updates sent by users during each learning iteration. Secure aggregation protocols are designed to mask/encrypt user updates and enable a central server to aggregate the masked information. MicroSecAgg (PoPETS 2024) proposes a single server secure aggregation protocol that aims to mitigate the high communication complexity of the existing approaches by enabling a one-time setup of the secret to be re-used in multiple training iterations. In this paper, we identify a security flaw in the MicroSecAgg that undermines its privacy guarantees. We detail the security flaw and our attack, demonstrating how an adversary can exploit predictable masking values to compromise user privacy. Our findings highlight the critical need for enhanced security measures in secure aggregation protocols, particularly the implementation of dynamic and unpredictable masking strategies. We propose potential countermeasures to mitigate these vulnerabilities and ensure robust privacy protection in the secure aggregation frameworks.
翻訳日:2024-10-30 08:46:35 公開日:2024-10-17
# 深層学習のための安全な集合における攻撃と防御の発見

Uncovering Attacks and Defenses in Secure Aggregation for Federated Deep Learning ( http://arxiv.org/abs/2410.09676v2 )

ライセンス: Link先を確認
Yiwei Zhang, Rouzbeh Behnia, Attila A. Yavuz, Reza Ebrahimi, Elisa Bertino, (参考訳) フェデレートラーニングは、多様なデータに対するグローバルモデルの協調学習を可能にし、データのローカリティを保ち、ユーザデータを中央サーバに転送する必要をなくす。 しかし、データのプライバシは依然として脆弱であり、各学習イテレーション中にユーザから送信されたアップデートを活用することで、攻撃がユーザトレーニングデータをターゲットにすることができる。 セキュアアグリゲーションプロトコルは、ユーザ更新をマスク/暗号化し、中央サーバがマスキングされた情報を集約できるように設計されている。 MicroSecAgg (PoPETS 2024) は,複数のトレーニングイテレーションでシークレットのワンタイムセットアップを再使用可能にすることで,既存のアプローチの通信複雑性を緩和することを目的とした,単一のサーバセキュアアグリゲーションプロトコルを提案する。 本稿では、プライバシー保証を損なうMicroSecAggのセキュリティ欠陥を特定する。 セキュリティの欠陥と攻撃について詳述し、敵が予測可能なマスキング値を利用してユーザーのプライバシーを侵害する方法を実証する。 本研究は,セキュアアグリゲーションプロトコルにおけるセキュリティ対策の強化,特に動的かつ予測不能なマスキング戦略の実装に対する重要なニーズを浮き彫りにしている。 我々は、これらの脆弱性を軽減し、セキュアなアグリゲーションフレームワークにおける堅牢なプライバシ保護を確保するための潜在的対策を提案する。

Federated learning enables the collaborative learning of a global model on diverse data, preserving data locality and eliminating the need to transfer user data to a central server. However, data privacy remains vulnerable, as attacks can target user training data by exploiting the updates sent by users during each learning iteration. Secure aggregation protocols are designed to mask/encrypt user updates and enable a central server to aggregate the masked information. MicroSecAgg (PoPETS 2024) proposes a single server secure aggregation protocol that aims to mitigate the high communication complexity of the existing approaches by enabling a one-time setup of the secret to be re-used in multiple training iterations. In this paper, we identify a security flaw in the MicroSecAgg that undermines its privacy guarantees. We detail the security flaw and our attack, demonstrating how an adversary can exploit predictable masking values to compromise user privacy. Our findings highlight the critical need for enhanced security measures in secure aggregation protocols, particularly the implementation of dynamic and unpredictable masking strategies. We propose potential countermeasures to mitigate these vulnerabilities and ensure robust privacy protection in the secure aggregation frameworks.
翻訳日:2024-10-30 08:46:35 公開日:2024-10-17
# t-READi:変圧器駆動ロバストと自律運転のための効率的なマルチモーダル推論

t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving ( http://arxiv.org/abs/2410.09747v1 )

ライセンス: Link先を確認
Pengfei Hu, Yuhang Qian, Tianyue Zheng, Ang Li, Zhe Chen, Yue Gao, Xiuzhen Cheng, Jun Luo, (参考訳) 自動運転車(AV)によるマルチモーダルセンサー(カメラ、ライダー、レーダーなど)の広範な採用を考えると、堅牢な知覚のために出力を融合させる深層分析が必須となる。 しかし、既存の融合法では2つの仮定がほとんど成立しないことが多い。 一 すべての入力について類似したデータ分布 二 すべてのセンサの常に利用できること。 例えば、ライダーは様々な解像度を持ち、レーダーの故障が起こる可能性があるため、そのような変動は核融合の性能を著しく低下させる。 そこで本研究では,マルチモーダルセンサデータの変動を考慮した適応型推論システム tREADi を提案する。 t-READiは変化に敏感だが構造固有のモデルパラメータを識別し、残りをそのまま保ちながらこれらのパラメータのみを適応する。 t-READiはまた、欠落したモダリティの損失を補うために、クロスモダリティのコントラスト学習手法も活用している。 どちらの関数も既存のマルチモーダル深層融合法との互換性を維持するために実装されている。 大規模な実験は、現状クオアプローチと比較して、t-READiは平均推論精度を6%以上改善するだけでなく、実際のデータと修正のバリエーションの下では最悪の場合において、5%余分なメモリオーバーヘッドのコストで、推論遅延を約15倍削減することを示した。

Given the wide adoption of multimodal sensors (e.g., camera, lidar, radar) by autonomous vehicles (AVs), deep analytics to fuse their outputs for a robust perception become imperative. However, existing fusion methods often make two assumptions rarely holding in practice: i) similar data distributions for all inputs and ii) constant availability for all sensors. Because, for example, lidars have various resolutions and failures of radars may occur, such variability often results in significant performance degradation in fusion. To this end, we present tREADi, an adaptive inference system that accommodates the variability of multimodal sensory data and thus enables robust and efficient perception. t-READi identifies variation-sensitive yet structure-specific model parameters; it then adapts only these parameters while keeping the rest intact. t-READi also leverages a cross-modality contrastive learning method to compensate for the loss from missing modalities. Both functions are implemented to maintain compatibility with existing multimodal deep fusion methods. The extensive experiments evidently demonstrate that compared with the status quo approaches, t-READi not only improves the average inference accuracy by more than 6% but also reduces the inference latency by almost 15x with the cost of only 5% extra memory overhead in the worst case under realistic data and modal variations.
翻訳日:2024-10-30 05:12:47 公開日:2024-10-17
# t-READi:変圧器駆動ロバストと自律運転のための効率的なマルチモーダル推論

t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving ( http://arxiv.org/abs/2410.09747v2 )

ライセンス: Link先を確認
Pengfei Hu, Yuhang Qian, Tianyue Zheng, Ang Li, Zhe Chen, Yue Gao, Xiuzhen Cheng, Jun Luo, (参考訳) 自動運転車(AV)によるマルチモーダルセンサー(カメラ、ライダー、レーダーなど)の広範な採用を考えると、堅牢な知覚のために出力を融合させる深層分析が必須となる。 しかし、既存の融合法では2つの仮定がほとんど成立しないことが多い。 一 すべての入力について類似したデータ分布 二 すべてのセンサの常に利用できること。 例えば、ライダーは様々な解像度を持ち、レーダーの故障が起こる可能性があるため、そのような変動は核融合の性能を著しく低下させる。 そこで本研究では,マルチモーダルセンサデータの変動を考慮した適応型推論システム tREADi を提案する。 t-READiは変化に敏感だが構造固有のモデルパラメータを識別し、残りをそのまま保ちながらこれらのパラメータのみを適応する。 t-READiはまた、欠落したモダリティの損失を補うために、クロスモダリティのコントラスト学習手法も活用している。 どちらの関数も既存のマルチモーダル深層融合法との互換性を維持するために実装されている。 大規模な実験は、現状クオアプローチと比較して、t-READiは平均推論精度を6%以上改善するだけでなく、実際のデータと修正のバリエーションの下では最悪の場合において、5%余分なメモリオーバーヘッドのコストで、推論遅延を約15倍削減することを示した。

Given the wide adoption of multimodal sensors (e.g., camera, lidar, radar) by autonomous vehicles (AVs), deep analytics to fuse their outputs for a robust perception become imperative. However, existing fusion methods often make two assumptions rarely holding in practice: i) similar data distributions for all inputs and ii) constant availability for all sensors. Because, for example, lidars have various resolutions and failures of radars may occur, such variability often results in significant performance degradation in fusion. To this end, we present tREADi, an adaptive inference system that accommodates the variability of multimodal sensory data and thus enables robust and efficient perception. t-READi identifies variation-sensitive yet structure-specific model parameters; it then adapts only these parameters while keeping the rest intact. t-READi also leverages a cross-modality contrastive learning method to compensate for the loss from missing modalities. Both functions are implemented to maintain compatibility with existing multimodal deep fusion methods. The extensive experiments evidently demonstrate that compared with the status quo approaches, t-READi not only improves the average inference accuracy by more than 6% but also reduces the inference latency by almost 15x with the cost of only 5% extra memory overhead in the worst case under realistic data and modal variations.
翻訳日:2024-10-30 05:12:47 公開日:2024-10-17
# ターゲットワクチン:階層的摂動による有害な微調整に対する大規模言語モデルの安全性アライメント

Targeted Vaccine: Safety Alignment for Large Language Models against Harmful Fine-Tuning via Layer-wise Perturbation ( http://arxiv.org/abs/2410.09760v1 )

ライセンス: Link先を確認
Guozhi Liu, Weiwei Lin, Tiansheng Huang, Ruichao Mo, Qi Mu, Li Shen, (参考訳) 有害な微調整攻撃は、オンラインの微調整サービスにとって深刻な脅威となる。 最近のアライメントステージディフェンスであるVacineは、モデルがシミュレーションされた埋め込みドリフトに対して堅牢になるように、埋め込みのすべての層に均一な摂動を適用している。 しかし、層単位で均一な摂動を適用すると、特定の安全性に関係のない層に過剰な摂動が生じ、防御性能が低下し、メモリ消費が不要になる可能性がある。 この制限に対処するために,モデル選択層のみに摂動を適用するメモリ効率の高い安全アライメント手法であるT-Vaccineを提案する。 T-Vaccineは2つの中核ステップに従う: まず、安全クリティカルな層を特定するために統計指標として勾配ノルムを使用する。 第2に、すべての層に均一な摂動を適用する代わりに、T-Vaccineはトレーニング中に他の層を凍結させながら、安全クリティカルな層に摂動を施すだけである。 その結果,T-バクシンは防御効果と資源効率の両方においてバクシンよりも優れていた。 他の防御基線、例えばRepNoiseやTARと比較すると、T-Vaccineの優位性が示されている。 特にT-Vaccineは、メモリ制限のあるコンシューマGPU(RTX 4090など)でトレーニングされた7Bプリトレーニング済みモデルの、有害な微調整問題に対処できる最初のディフェンスである。 私たちのコードはhttps://github.com/Lslland/T-Vaccine.comで公開されています。

Harmful fine-tuning attack poses a serious threat to the online fine-tuning service. Vaccine, a recent alignment-stage defense, applies uniform perturbation to all layers of embedding to make the model robust to the simulated embedding drift. However, applying layer-wise uniform perturbation may lead to excess perturbations for some particular safety-irrelevant layers, resulting in defense performance degradation and unnecessary memory consumption. To address this limitation, we propose Targeted Vaccine (T-Vaccine), a memory-efficient safety alignment method that applies perturbation to only selected layers of the model. T-Vaccine follows two core steps: First, it uses gradient norm as a statistical metric to identify the safety-critical layers. Second, instead of applying uniform perturbation across all layers, T-Vaccine only applies perturbation to the safety-critical layers while keeping other layers frozen during training. Results show that T-Vaccine outperforms Vaccine in terms of both defense effectiveness and resource efficiency. Comparison with other defense baselines, e.g., RepNoise and TAR also demonstrate the superiority of T-Vaccine. Notably, T-Vaccine is the first defense that can address harmful fine-tuning issues for a 7B pre-trained models trained on consumer GPUs with limited memory (e.g., RTX 4090). Our code is available at https://github.com/Lslland/T-Vaccine.
翻訳日:2024-10-30 05:02:48 公開日:2024-10-17
# ターゲットワクチン:階層的摂動による有害な微調整に対する大規模言語モデルの安全性アライメント

Targeted Vaccine: Safety Alignment for Large Language Models against Harmful Fine-Tuning via Layer-wise Perturbation ( http://arxiv.org/abs/2410.09760v2 )

ライセンス: Link先を確認
Guozhi Liu, Weiwei Lin, Tiansheng Huang, Ruichao Mo, Qi Mu, Li Shen, (参考訳) 有害な微調整攻撃は、オンラインの微調整サービスにとって深刻な脅威となる。 最近のアライメントステージディフェンスであるVacineは、モデルがシミュレーションされた埋め込みドリフトに対して堅牢になるように、埋め込みのすべての層に均一な摂動を適用している。 しかし、層単位で均一な摂動を適用すると、特定の安全性に関係のない層に過剰な摂動が生じ、防御性能が低下し、メモリ消費が不要になる可能性がある。 この制限に対処するために,モデル選択層のみに摂動を適用するメモリ効率の高い安全アライメント手法であるT-Vaccineを提案する。 T-Vaccineは2つの中核ステップに従う: まず、安全クリティカルな層を特定するために統計指標として勾配ノルムを使用する。 第2に、すべての層に均一な摂動を適用する代わりに、T-Vaccineはトレーニング中に他の層を凍結させながら、安全クリティカルな層に摂動を施すだけである。 その結果,T-バクシンは防御効果と資源効率の両方においてバクシンよりも優れていた。 他の防御基線、例えばRepNoiseやTARと比較すると、T-Vaccineの優位性が示されている。 特にT-Vaccineは、メモリ制限のあるコンシューマGPU(RTX 4090など)でトレーニングされた7Bプリトレーニング済みモデルの、有害な微調整問題に対処できる最初のディフェンスである。 私たちのコードはhttps://github.com/Lslland/T-Vaccine.comで公開されています。

Harmful fine-tuning attack poses a serious threat to the online fine-tuning service. Vaccine, a recent alignment-stage defense, applies uniform perturbation to all layers of embedding to make the model robust to the simulated embedding drift. However, applying layer-wise uniform perturbation may lead to excess perturbations for some particular safety-irrelevant layers, resulting in defense performance degradation and unnecessary memory consumption. To address this limitation, we propose Targeted Vaccine (T-Vaccine), a memory-efficient safety alignment method that applies perturbation to only selected layers of the model. T-Vaccine follows two core steps: First, it uses gradient norm as a statistical metric to identify the safety-critical layers. Second, instead of applying uniform perturbation across all layers, T-Vaccine only applies perturbation to the safety-critical layers while keeping other layers frozen during training. Results show that T-Vaccine outperforms Vaccine in terms of both defense effectiveness and resource efficiency. Comparison with other defense baselines, e.g., RepNoise and TAR also demonstrate the superiority of T-Vaccine. Notably, T-Vaccine is the first defense that can address harmful fine-tuning issues for a 7B pre-trained models trained on consumer GPUs with limited memory (e.g., RTX 4090). Our code is available at https://github.com/Lslland/T-Vaccine.
翻訳日:2024-10-30 05:02:48 公開日:2024-10-17
# Stratified Domain Adaptation: シーンテキスト認識のためのプログレッシブな自己学習アプローチ

Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text Recognition ( http://arxiv.org/abs/2410.09913v1 )

ライセンス: Link先を確認
Kha Nhat Le, Hoang-Tuan Nguyen, Hung Tien Tran, Thanh Duc Ngo, (参考訳) 非教師なしドメイン適応(UDA)は、シーンテキスト認識(STR)において、特にトレーニングやテストデータが異なるドメインに存在する場合に、ますます普及している。 既存のUDAアプローチの有効性は、ソースドメインとターゲットドメインの間に大きなギャップがある場合に低下する傾向にある。 この問題に対処するためには、徐々にドメインからドメインへシフトするか、あるいは徐々に学習することが重要な問題である。 本稿では,学習過程における領域ギャップの段階的エスカレーションを検討するStrDA(Stratified Domain Adaptation)アプローチを提案する。 目的は、トレーニングデータをサブセットに分割して、漸進的に自己学習されたモデルが段階的な変化に適応できるようにすることだ。 我々は、各データサンプルがソースドメインとターゲットドメインの両方に近接していることを評価することにより、トレーニングデータを階層化する。 本稿では,データサンプルの分布外および領域判別レベルを推定するために,領域判別器を用いる新しい手法を提案する。 ベンチマークシーンテキストデータセットの大規模な実験により,本手法はベースライン(ソーストレーニング)STRモデルの性能を大幅に改善することが示された。

Unsupervised domain adaptation (UDA) has become increasingly prevalent in scene text recognition (STR), especially where training and testing data reside in different domains. The efficacy of existing UDA approaches tends to degrade when there is a large gap between the source and target domains. To deal with this problem, gradually shifting or progressively learning to shift from domain to domain is the key issue. In this paper, we introduce the Stratified Domain Adaptation (StrDA) approach, which examines the gradual escalation of the domain gap for the learning process. The objective is to partition the training data into subsets so that the progressively self-trained model can adapt to gradual changes. We stratify the training data by evaluating the proximity of each data sample to both the source and target domains. We propose a novel method for employing domain discriminators to estimate the out-of-distribution and domain discriminative levels of data samples. Extensive experiments on benchmark scene-text datasets show that our approach significantly improves the performance of baseline (source-trained) STR models.
翻訳日:2024-10-30 04:13:22 公開日:2024-10-17
# Stratified Domain Adaptation: シーンテキスト認識のためのプログレッシブな自己学習アプローチ

Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text Recognition ( http://arxiv.org/abs/2410.09913v2 )

ライセンス: Link先を確認
Kha Nhat Le, Hoang-Tuan Nguyen, Hung Tien Tran, Thanh Duc Ngo, (参考訳) 非教師なしドメイン適応(UDA)は、シーンテキスト認識(STR)において、特にトレーニングやテストデータが異なるドメインに存在する場合に、ますます普及している。 既存のUDAアプローチの有効性は、ソースドメインとターゲットドメインの間に大きなギャップがある場合に低下する傾向にある。 この問題に対処するためには、徐々にドメインからドメインへシフトするか、あるいは徐々に学習することが重要な問題である。 本稿では,学習過程における領域ギャップの段階的エスカレーションを検討するStrDA(Stratified Domain Adaptation)アプローチを提案する。 目的は、トレーニングデータをサブセットに分割して、漸進的に自己学習されたモデルが段階的な変化に適応できるようにすることだ。 我々は、各データサンプルがソースドメインとターゲットドメインの両方に近接していることを評価することにより、トレーニングデータを階層化する。 本稿では,データサンプルの分布外および領域判別レベルを推定するために,領域判別器を用いる新しい手法を提案する。 ベンチマークシーンテキストデータセットの大規模な実験により,本手法はベースライン(ソーストレーニング)STRモデルの性能を大幅に改善することが示された。

Unsupervised domain adaptation (UDA) has become increasingly prevalent in scene text recognition (STR), especially where training and testing data reside in different domains. The efficacy of existing UDA approaches tends to degrade when there is a large gap between the source and target domains. To deal with this problem, gradually shifting or progressively learning to shift from domain to domain is the key issue. In this paper, we introduce the Stratified Domain Adaptation (StrDA) approach, which examines the gradual escalation of the domain gap for the learning process. The objective is to partition the training data into subsets so that the progressively self-trained model can adapt to gradual changes. We stratify the training data by evaluating the proximity of each data sample to both the source and target domains. We propose a novel method for employing domain discriminators to estimate the out-of-distribution and domain discriminative levels of data samples. Extensive experiments on benchmark scene-text datasets show that our approach significantly improves the performance of baseline (source-trained) STR models.
翻訳日:2024-10-30 04:13:22 公開日:2024-10-17
# 位相探索: 最適なサンプル複雑性を持つ勾配勾配勾配の大域収束

Phase retrieval: Global convergence of gradient descent with optimal sample complexity ( http://arxiv.org/abs/2410.09990v1 )

ライセンス: Link先を確認
Théodore Fougereux, Cédric Josz, Xiaopeng Li, (参考訳) 本稿では,信号ベクトル$x$を$m$から$y_i=|\langle a_i,x^{\natural}\rangle|^2$,$i=1,\ldots,m$から回収することを目的とした位相探索問題に対処する。 標準的なアプローチは、無作為な初期化を伴う勾配降下を用いた非凸最小二乗問題の解法である。 しかし、基底真理を効率的に回復するために勾配降下を測るのに$O(n)$の値が十分であるかどうかは未解決のままである。 以前の研究により、$O(n\,{\rm poly}(\log n))$測定が十分であることが証明された。 本稿では,このオープンな問題を$m=O(n)$ Gaussian random Measurement が十分であり,高い確率で目的関数が良質なグローバルな景観を持つことを保証して解決する。 このサンプルの複雑さは、正確な回復には少なくとも$\Omega(n)$の測定が必要であるため、最適である。 ランドスケープの結果は、任意の初期点から一定のステップサイズで勾配降下が基底真理に収束することをさらに示せる。

This paper addresses the phase retrieval problem, which aims to recover a signal vector $x$ from $m$ measurements $y_i=|\langle a_i,x^{\natural}\rangle|^2$, $i=1,\ldots,m$. A standard approach is to solve a nonconvex least squares problem using gradient descent with random initialization, which is known to work efficiently given a sufficient number of measurements. However, whether $O(n)$ measurements suffice for gradient descent to recover the ground truth efficiently has remained an open question. Prior work has established that $O(n\,{\rm poly}(\log n))$ measurements are sufficient. In this paper, we resolve this open problem by proving that $m=O(n)$ Gaussian random measurements are sufficient to guarantee, with high probability, that the objective function has a benign global landscape. This sample complexity is optimal because at least $\Omega(n)$ measurements are required for exact recovery. The landscape result allows us to further show that gradient descent with a constant step size converges to the ground truth from almost any initial point.
翻訳日:2024-10-30 03:43:37 公開日:2024-10-17
# 位相探索のための勾配勾配勾配の大域収束

Global convergence of gradient descent for phase retrieval ( http://arxiv.org/abs/2410.09990v2 )

ライセンス: Link先を確認
Théodore Fougereux, Cédric Josz, Xiaopeng Li, (参考訳) 位相探索におけるベニグアランドスケープのテンソルに基づく基準を提案し,勾配軌道の有界性を確立する。 これは、勾配降下がほとんどすべての初期点に対して大域最小値に収束することを意味する。

We propose a tensor-based criterion for benign landscape in phase retrieval and establish boundedness of gradient trajectories. This implies that gradient descent will converge to a global minimum for almost every initial point.
翻訳日:2024-10-30 03:43:37 公開日:2024-10-17
# FairMindSim: 倫理的ジレンマの中での人間とLLMエージェントの行動・感情・信念のアライメント

FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas ( http://arxiv.org/abs/2410.10398v1 )

ライセンス: Link先を確認
Yu Lei, Hao Liu, Chengxing Xie, Songjia Liu, Zhiyu Yin, Canyu chen, Guohao Li, Philip Torr, Zhen Wu, (参考訳) AIのアライメントは、AIの制御と安全性に関する重要な問題である。 価値中立的な人間の嗜好だけでなく、道徳的・倫理的考察も考慮すべきである。 本研究では,不公平なシナリオを通じて道徳的ジレンマをシミュレートするFairMindSimを紹介した。 我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。 そこで我々は,人間とLLMエージェントの双方を,他者を含む不公平な状況に介入させる信念と,これらの信念が個人の行動にどう影響するかを考察するため,関連する社会学分野から知識を取り入れ,再帰報酬モデル(RRM)に基づくBREM(Breief-Reward Alignment Behavior Evolution Model)を提案した。 以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。 さらに,感情が行動に与える影響についても検討した。 本研究は、LLMを利他的値に整合させるための理論的基礎を提供する。

AI alignment is a pivotal issue concerning AI control and safety. It should consider not only value-neutral human preferences but also moral and ethical considerations. In this study, we introduced FairMindSim, which simulates the moral dilemma through a series of unfair scenarios. We used LLM agents to simulate human behavior, ensuring alignment across various stages. To explore the various socioeconomic motivations, which we refer to as beliefs, that drive both humans and LLM agents as bystanders to intervene in unjust situations involving others, and how these beliefs interact to influence individual behavior, we incorporated knowledge from relevant sociological fields and proposed the Belief-Reward Alignment Behavior Evolution Model (BREM) based on the recursive reward model (RRM). Our findings indicate that, behaviorally, GPT-4o exhibits a stronger sense of social justice, while humans display a richer range of emotions. Additionally, we discussed the potential impact of emotions on behavior. This study provides a theoretical foundation for applications in aligning LLMs with altruistic values.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-17
# FairMindSim: 倫理的ジレンマの中での人間とLLMエージェントの行動・感情・信念のアライメント

FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas ( http://arxiv.org/abs/2410.10398v2 )

ライセンス: Link先を確認
Yu Lei, Hao Liu, Chengxing Xie, Songjia Liu, Zhiyu Yin, Canyu Chen, Guohao Li, Philip Torr, Zhen Wu, (参考訳) AIのアライメントは、AIの制御と安全性に関する重要な問題である。 価値中立的な人間の嗜好だけでなく、道徳的・倫理的考察も考慮すべきである。 本研究では,不公平なシナリオを通じて道徳的ジレンマをシミュレートするFairMindSimを紹介した。 我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。 そこで我々は,人間とLLMエージェントの双方を,他者を含む不公平な状況に介入させる信念と,これらの信念が個人の行動にどう影響するかを考察するため,関連する社会学分野から知識を取り入れ,再帰報酬モデル(RRM)に基づくBREM(Breief-Reward Alignment Behavior Evolution Model)を提案した。 以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。 さらに,感情が行動に与える影響についても検討した。 本研究は、LLMを利他的値に整合させるための理論的基礎を提供する。

AI alignment is a pivotal issue concerning AI control and safety. It should consider not only value-neutral human preferences but also moral and ethical considerations. In this study, we introduced FairMindSim, which simulates the moral dilemma through a series of unfair scenarios. We used LLM agents to simulate human behavior, ensuring alignment across various stages. To explore the various socioeconomic motivations, which we refer to as beliefs, that drive both humans and LLM agents as bystanders to intervene in unjust situations involving others, and how these beliefs interact to influence individual behavior, we incorporated knowledge from relevant sociological fields and proposed the Belief-Reward Alignment Behavior Evolution Model (BREM) based on the recursive reward model (RRM). Our findings indicate that, behaviorally, GPT-4o exhibits a stronger sense of social justice, while humans display a richer range of emotions. Additionally, we discussed the potential impact of emotions on behavior. This study provides a theoretical foundation for applications in aligning LLMs with altruistic values.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-17
# 2Dを超える地元のハミルトン市民の通勤

Commuting Local Hamiltonians Beyond 2D ( http://arxiv.org/abs/2410.10495v1 )

ライセンス: Link先を確認
John Bostanci, Yeongwoo Hwang, (参考訳) 局所ハミルトニアンは量子情報理論において、量子PCP予想や領域法則の存在など、最も興味深いオープンな問題の多くを研究するための試験場を提供する。 量子計算の単純化されたモデルであるが、通勤する局所ハミルトン問題の現状はほとんど不明である。 多くの研究が、通勤する地元のハミルトン人の表現力に富んだ族が、完全に古典的な検証を認めていることを示してきた。 厳密な研究にもかかわらず、NP に置ける最大の通勤的局所ハミルトニアン類は正方格子上のものであり、各格子部位は四角形である。 さらに悪いことに、これらの問題を解析するために使われる技法の多くは、平方格子の幾何学と局所次元として数 2 と 3 の性質に大きく依存している。 本研究では,通勤するハミルトンの様々な家族の複雑さを解析する新しい手法を提案する。 直感的には、これらは典型的な還元の一般化であり、証明者はより単純なハミルトニアンを構成することができるようにガイドを提供する。 我々の削減の核心は、ジョルダンのレムマと構造レムマの組み合わせに基づく新しい丸め技術である。 我々のラウンドリング手法は以前の研究よりもはるかに柔軟であり、すべての項がランク1であるという制限を条件に、通勤する局所ハミルトンのより大きな族がNPに属することを示すことができる。 具体的には、次の2つの結果が証明される: 1) ランク-1の2次元の局所ハミルトニアンの交換は、クディット次元とは独立にNPに含まれる。 通勤する局所ハミルトニアンのこの族は、局所次元や局所性に制限を持たない。 2. 辺に四重項を持つハミルトニアンの階数-1, 3D が NP に含まれることを証明する。 我々の知る限り、局所ハミルトニアンを通勤する3Dの族がNPに含まれるのはこれが初めてである。

Commuting local Hamiltonians provide a testing ground for studying many of the most interesting open questions in quantum information theory, including the quantum PCP conjecture and the existence of area laws. Although they are a simplified model of quantum computation, the status of the commuting local Hamiltonian problem remains largely unknown. A number of works have shown that increasingly expressive families of commuting local Hamiltonians admit completely classical verifiers. Despite intense work, the largest class of commuting local Hamiltonians we can place in NP are those on a square lattice, where each lattice site is a qutrit. Even worse, many of the techniques used to analyze these problems rely heavily on the geometry of the square lattice and the properties of the numbers 2 and 3 as local dimensions. In this work, we present a new technique to analyze the complexity of various families of commuting local Hamiltonians: guided reductions. Intuitively, these are a generalization of typical reduction where the prover provides a guide so that the verifier can construct a simpler Hamiltonian. The core of our reduction is a new rounding technique based on a combination of Jordan's Lemma and the Structure Lemma. Our rounding technique is much more flexible than previous work, and allows us to show that a larger family of commuting local Hamiltonians is in NP, albiet with the restriction that all terms are rank-1. Specifically, we prove the following two results: 1. Commuting local Hamiltonians in 2D that are rank-1 are contained in NP, independent of the qudit dimension. Note that this family of commuting local Hamiltonians has no restriction on the local dimension or the locality. 2. We prove that rank-1, 3D commuting Hamiltonians with qudits on edges are in NP. To our knowledge this is the first time a family of 3D commuting local Hamiltonians has been contained in NP.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-17
# 2Dを超える地元のハミルトン市民の通勤

Commuting Local Hamiltonians Beyond 2D ( http://arxiv.org/abs/2410.10495v2 )

ライセンス: Link先を確認
John Bostanci, Yeongwoo Hwang, (参考訳) 局所ハミルトニアンは量子情報理論において、量子PCP予想や領域法則の存在など、最も興味深いオープンな問題の多くを研究するための試験場を提供する。 量子計算の単純化されたモデルであるが、通勤する局所ハミルトン問題の現状はほとんど不明である。 多くの研究が、通勤する地元のハミルトン人の表現力に富んだ族が、完全に古典的な検証を認めていることを示してきた。 厳密な研究にもかかわらず、NP に置ける最大の通勤的局所ハミルトニアン類は正方格子上のものであり、各格子部位は四角形である。 さらに悪いことに、これらの問題を解析するために使われる技法の多くは、平方格子の幾何学と局所次元として数 2 と 3 の性質に大きく依存している。 本研究では,通勤するハミルトンの様々な家族の複雑さを解析する新しい手法を提案する。 直感的には、これらは典型的な還元の一般化であり、証明者はより単純なハミルトニアンを構成することができるようにガイドを提供する。 我々の削減の核心は、ジョルダンのレムマと構造レムマの組み合わせに基づく新しい丸め技術である。 我々のラウンドリング手法は以前の研究よりもはるかに柔軟であり、すべての項がランク1であるという制限を条件に、通勤する局所ハミルトンのより大きな族がNPに属することを示すことができる。 具体的には、次の2つの結果が証明される: 1) ランク-1の2次元の局所ハミルトニアンの交換は、クディット次元とは独立にNPに含まれる。 通勤する局所ハミルトニアンのこの族は、局所次元や局所性に制限を持たない。 2. 辺に四重項を持つハミルトニアンの階数-1, 3D が NP に含まれることを証明する。 我々の知る限り、局所ハミルトニアンを通勤する3Dの族がNPに含まれるのはこれが初めてである。

Commuting local Hamiltonians provide a testing ground for studying many of the most interesting open questions in quantum information theory, including the quantum PCP conjecture and the existence of area laws. Although they are a simplified model of quantum computation, the status of the commuting local Hamiltonian problem remains largely unknown. A number of works have shown that increasingly expressive families of commuting local Hamiltonians admit completely classical verifiers. Despite intense work, the largest class of commuting local Hamiltonians we can place in NP are those on a square lattice, where each lattice site is a qutrit. Even worse, many of the techniques used to analyze these problems rely heavily on the geometry of the square lattice and the properties of the numbers 2 and 3 as local dimensions. In this work, we present a new technique to analyze the complexity of various families of commuting local Hamiltonians: guided reductions. Intuitively, these are a generalization of typical reduction where the prover provides a guide so that the verifier can construct a simpler Hamiltonian. The core of our reduction is a new rounding technique based on a combination of Jordan's Lemma and the Structure Lemma. Our rounding technique is much more flexible than previous work, and allows us to show that a larger family of commuting local Hamiltonians is in NP, albiet with the restriction that all terms are rank-1. Specifically, we prove the following two results: 1. Commuting local Hamiltonians in 2D that are rank-1 are contained in NP, independent of the qudit dimension. Note that this family of commuting local Hamiltonians has no restriction on the local dimension or the locality. 2. We prove that rank-1, 3D commuting Hamiltonians with qudits on edges are in NP. To our knowledge this is the first time a family of 3D commuting local Hamiltonians has been contained in NP.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-17
# 2Dを超える地元のハミルトン市民の通勤

Commuting Local Hamiltonians Beyond 2D ( http://arxiv.org/abs/2410.10495v3 )

ライセンス: Link先を確認
John Bostanci, Yeongwoo Hwang, (参考訳) 局所ハミルトニアンは量子情報理論において、量子PCP予想や領域法則の存在など、最も興味深いオープンな問題の多くを研究するための試験場を提供する。 量子計算の単純化されたモデルであるが、通勤する局所ハミルトン問題の現状はほとんど不明である。 多くの研究が、通勤する地元のハミルトン人の表現力に富んだ族が、完全に古典的な検証を認めていることを示してきた。 厳密な研究にもかかわらず、NP に置ける最大の通勤的局所ハミルトニアン類は正方格子上のものであり、各格子部位は四角形である。 さらに悪いことに、これらの問題を解析するために使われる技法の多くは、平方格子の幾何学と局所次元として数 2 と 3 の性質に大きく依存している。 本研究では,通勤するハミルトンの様々な家族の複雑さを解析する新しい手法を提案する。 直感的には、これらは典型的な還元の一般化であり、証明者はより単純なハミルトニアンを構成することができるようにガイドを提供する。 我々の削減の核心は、ジョルダンのレムマと構造レムマの組み合わせに基づく新しい丸め技術である。 我々のラウンドリング手法は以前の研究よりもはるかに柔軟であり、すべての項がランク1であるという制限を条件に、通勤する局所ハミルトンのより大きな族がNPに属することを示すことができる。 具体的には、次の2つの結果が証明される: 1) ランク-1の2次元の局所ハミルトニアンの交換は、クディット次元とは独立にNPに含まれる。 通勤する局所ハミルトニアンのこの族は、局所次元や局所性に制限を持たない。 2. 辺に四重項を持つハミルトニアンの階数-1, 3D が NP に含まれることを証明する。 我々の知る限り、局所ハミルトニアンを通勤する3Dの族がNPに含まれるのはこれが初めてである。

Commuting local Hamiltonians provide a testing ground for studying many of the most interesting open questions in quantum information theory, including the quantum PCP conjecture and the existence of area laws. Although they are a simplified model of quantum computation, the status of the commuting local Hamiltonian problem remains largely unknown. A number of works have shown that increasingly expressive families of commuting local Hamiltonians admit completely classical verifiers. Despite intense work, the largest class of commuting local Hamiltonians we can place in NP are those on a square lattice, where each lattice site is a qutrit. Even worse, many of the techniques used to analyze these problems rely heavily on the geometry of the square lattice and the properties of the numbers 2 and 3 as local dimensions. In this work, we present a new technique to analyze the complexity of various families of commuting local Hamiltonians: guided reductions. Intuitively, these are a generalization of typical reduction where the prover provides a guide so that the verifier can construct a simpler Hamiltonian. The core of our reduction is a new rounding technique based on a combination of Jordan's Lemma and the Structure Lemma. Our rounding technique is much more flexible than previous work, and allows us to show that a larger family of commuting local Hamiltonians is in NP, albiet with the restriction that all terms are rank-1. Specifically, we prove the following two results: 1. Commuting local Hamiltonians in 2D that are rank-1 are contained in NP, independent of the qudit dimension. Note that this family of commuting local Hamiltonians has no restriction on the local dimension or the locality. 2. We prove that rank-1, 3D commuting Hamiltonians with qudits on edges are in NP. To our knowledge this is the first time a family of 3D commuting local Hamiltonians has been contained in NP.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-17
# 心臓の整合性保存 : トポロジーを応用した全心セグメンテーション法

Preserving Cardiac Integrity: A Topology-Infused Approach to Whole Heart Segmentation ( http://arxiv.org/abs/2410.10551v1 )

ライセンス: Link先を確認
Chenyu Zhang, Wenxue Guan, Xiaodan Xing, Guan Yang, (参考訳) 全心セグメンテーション(WHS)は、心血管疾患(CVD)の診断、疾患のモニタリング、治療計画、予後をサポートする。 近年、深層学習はWHSアプリケーションにおいて最も広く使われている手法となっている。 しかし、心拍周期における心拍変動、運動やコントラスト/ノイズ比の低下、マルチセンターデータの領域シフト、CTとMRIの相違など、多くの課題に直面している。 これらの制限に対処し、セグメンテーションの品質を向上させるために、ディープニューラルネットワークに統合された新しいトポロジ保存モジュールを導入する。 この実装は、学習したトポロジ保存フィールドを用いて、完全に3次元の畳み込みに基づいており、3次元のボクセルデータに対して非常に効果的である、解剖学的に妥当なセグメンテーションを実現する。 構造間の自然な制約をエンドツーエンドのトレーニングに組み込んで、ニューラルネットワークの特徴表現を強化します。 提案手法の有効性を,WHS++データを用いたオープンソース医療心臓データセットを用いて検証した。 その結果, 性能は極めて良好であり, 試験中のDice係数は0.939であることがわかった。 これは、個々の構造に対する完全なトポロジー保存を示し、シーントポロジー全体の保存において他のベースラインを著しく上回っていることを示している。

Whole heart segmentation (WHS) supports cardiovascular disease (CVD) diagnosis, disease monitoring, treatment planning, and prognosis. Deep learning has become the most widely used method for WHS applications in recent years. However, segmentation of whole-heart structures faces numerous challenges including heart shape variability during the cardiac cycle, clinical artifacts like motion and poor contrast-to-noise ratio, domain shifts in multi-center data, and the distinct modalities of CT and MRI. To address these limitations and improve segmentation quality, this paper introduces a new topology-preserving module that is integrated into deep neural networks. The implementation achieves anatomically plausible segmentation by using learned topology-preserving fields, which are based entirely on 3D convolution and are therefore very effective for 3D voxel data. We incorporate natural constraints between structures into the end-to-end training and enrich the feature representation of the neural network. The effectiveness of the proposed method is validated on an open-source medical heart dataset, specifically using the WHS++ data. The results demonstrate that the architecture performs exceptionally well, achieving a Dice coefficient of 0.939 during testing. This indicates full topology preservation for individual structures and significantly outperforms other baselines in preserving the overall scene topology.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-17
# 心臓の整合性保存 : トポロジーを応用した全心セグメンテーション法

Preserving Cardiac Integrity: A Topology-Infused Approach to Whole Heart Segmentation ( http://arxiv.org/abs/2410.10551v2 )

ライセンス: Link先を確認
Chenyu Zhang, Wenxue Guan, Xiaodan Xing, Guang Yang, (参考訳) 全心セグメンテーション(WHS)は、心血管疾患(CVD)の診断、疾患のモニタリング、治療計画、予後をサポートする。 近年、深層学習はWHSアプリケーションにおいて最も広く使われている手法となっている。 しかし、心拍周期における心拍変動、運動やコントラスト/ノイズ比の低下、マルチセンターデータの領域シフト、CTとMRIの相違など、多くの課題に直面している。 これらの制限に対処し、セグメンテーションの品質を向上させるために、ディープニューラルネットワークに統合された新しいトポロジ保存モジュールを導入する。 この実装は、学習したトポロジ保存フィールドを用いて、完全に3次元の畳み込みに基づいており、3次元のボクセルデータに対して非常に効果的である、解剖学的に妥当なセグメンテーションを実現する。 構造間の自然な制約をエンドツーエンドのトレーニングに組み込んで、ニューラルネットワークの特徴表現を強化します。 提案手法の有効性を,WHS++データを用いたオープンソース医療心臓データセットを用いて検証した。 その結果, 性能は極めて良好であり, 試験中のDice係数は0.939であることがわかった。 これは、個々の構造に対する完全なトポロジー保存を示し、シーントポロジー全体の保存において他のベースラインを著しく上回っていることを示している。

Whole heart segmentation (WHS) supports cardiovascular disease (CVD) diagnosis, disease monitoring, treatment planning, and prognosis. Deep learning has become the most widely used method for WHS applications in recent years. However, segmentation of whole-heart structures faces numerous challenges including heart shape variability during the cardiac cycle, clinical artifacts like motion and poor contrast-to-noise ratio, domain shifts in multi-center data, and the distinct modalities of CT and MRI. To address these limitations and improve segmentation quality, this paper introduces a new topology-preserving module that is integrated into deep neural networks. The implementation achieves anatomically plausible segmentation by using learned topology-preserving fields, which are based entirely on 3D convolution and are therefore very effective for 3D voxel data. We incorporate natural constraints between structures into the end-to-end training and enrich the feature representation of the neural network. The effectiveness of the proposed method is validated on an open-source medical heart dataset, specifically using the WHS++ data. The results demonstrate that the architecture performs exceptionally well, achieving a Dice coefficient of 0.939 during testing. This indicates full topology preservation for individual structures and significantly outperforms other baselines in preserving the overall scene topology.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-17
# 心臓の整合性保存 : トポロジーを応用した全心セグメンテーション法

Preserving Cardiac Integrity: A Topology-Infused Approach to Whole Heart Segmentation ( http://arxiv.org/abs/2410.10551v3 )

ライセンス: Link先を確認
Chenyu Zhang, Wenxue Guan, Xiaodan Xing, Guang Yang, (参考訳) 全心セグメンテーション(WHS)は、心血管疾患(CVD)の診断、疾患のモニタリング、治療計画、予後をサポートする。 近年、深層学習はWHSアプリケーションにおいて最も広く使われている手法となっている。 しかし、心拍周期における心拍変動、運動やコントラスト/ノイズ比の低下、マルチセンターデータの領域シフト、CTとMRIの相違など、多くの課題に直面している。 これらの制限に対処し、セグメンテーションの品質を向上させるために、ディープニューラルネットワークに統合された新しいトポロジ保存モジュールを導入する。 この実装は、学習したトポロジ保存フィールドを用いて、完全に3次元の畳み込みに基づいており、3次元のボクセルデータに対して非常に効果的である、解剖学的に妥当なセグメンテーションを実現する。 構造間の自然な制約をエンドツーエンドのトレーニングに組み込んで、ニューラルネットワークの特徴表現を強化します。 提案手法の有効性を,WHS++データを用いたオープンソース医療心臓データセットを用いて検証した。 その結果, 性能は極めて良好であり, 試験中のDice係数は0.939であることがわかった。 これは、個々の構造に対する完全なトポロジー保存を示し、シーントポロジー全体の保存において他のベースラインを著しく上回っていることを示している。

Whole heart segmentation (WHS) supports cardiovascular disease (CVD) diagnosis, disease monitoring, treatment planning, and prognosis. Deep learning has become the most widely used method for WHS applications in recent years. However, segmentation of whole-heart structures faces numerous challenges including heart shape variability during the cardiac cycle, clinical artifacts like motion and poor contrast-to-noise ratio, domain shifts in multi-center data, and the distinct modalities of CT and MRI. To address these limitations and improve segmentation quality, this paper introduces a new topology-preserving module that is integrated into deep neural networks. The implementation achieves anatomically plausible segmentation by using learned topology-preserving fields, which are based entirely on 3D convolution and are therefore very effective for 3D voxel data. We incorporate natural constraints between structures into the end-to-end training and enrich the feature representation of the neural network. The effectiveness of the proposed method is validated on an open-source medical heart dataset, specifically using the WHS++ data. The results demonstrate that the architecture performs exceptionally well, achieving a Dice coefficient of 0.939 during testing. This indicates full topology preservation for individual structures and significantly outperforms other baselines in preserving the overall scene topology.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-17