このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20241012となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# LLaMAX:100言語を越える翻訳能力向上によるLLMの言語的ホライズン拡大
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages ( http://arxiv.org/abs/2407.05975v2 ) ライセンス: Link先を確認 | Yinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan, | (参考訳) 大規模言語モデル(LLM)は、高リソース言語タスクにおいて顕著な翻訳能力を示すが、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられる。
この問題を解決するために、LLaMAシリーズモデルで多言語連続事前学習を行い、100言語以上にわたる翻訳サポートを可能にした。
語彙拡張やデータ拡張といった学習戦略の包括的分析を通じて,LLaMAXを開発した。
注目すべきは、LLaMAXは、その一般化能力を犠牲にすることなく、既存のオープンソースLLM(10spBLEUポイント以上)と比較してはるかに高い翻訳性能を達成し、Flores-101ベンチマークで特別な翻訳モデル(M2M-100-12B)をオンパーで実行することである。
大規模な実験により、LLaMAXは頑健な多言語基盤モデルとして機能することが示された。
コード名 \footnote{\url{https://github.com/CONE-MT/LLaMAX/。
および、モデル \footnote{\url{https://huggingface.co/LLaMAX/。
が公開されている。
Large Language Models (LLMs) demonstrate remarkable translation capabilities in high-resource language tasks, yet their performance in low-resource languages is hindered by insufficient multilingual data during pre-training. To address this, we conduct extensive multilingual continual pre-training on the LLaMA series models, enabling translation support across more than 100 languages. Through a comprehensive analysis of training strategies, such as vocabulary expansion and data augmentation, we develop LLaMAX. Remarkably, without sacrificing its generalization ability, LLaMAX achieves significantly higher translation performance compared to existing open-source LLMs (by more than 10 spBLEU points) and performs on-par with specialized translation model (M2M-100-12B) on the Flores-101 benchmark. Extensive experiments indicate that LLaMAX can serve as a robust multilingual foundation model. The code \footnote{\url{https://github.com/CONE-MT/LLaMAX/.}} and the models \footnote{\url{https://huggingface.co/LLaMAX/.}} are publicly available. | 翻訳日:2024-11-08 23:13:33 公開日:2024-10-12 |
# FedLog: コミュニケーションの少ないパーソナライズされたフェデレーション分類と柔軟性向上
FedLog: Personalized Federated Classification with Less Communication and More Flexibility ( http://arxiv.org/abs/2407.08337v2 ) ライセンス: Link先を確認 | Haolin Yu, Guojun Zhang, Pascal Poupart, | (参考訳) フェデレーション表現学習(FRL)は、ローカルデータから効果的な特徴抽出によるパーソナライズされたフェデレーションモデルを学習することを目的としている。
モデルパラメータの大部分を共有するFRLアルゴリズムは、通信オーバーヘッドの大きな問題に直面している。
このオーバーヘッドは、数百万のニューラルネットワークパラメータと、平均的なヒューリスティックのスローアグリゲーション進歩に起因しています。
オーバヘッドを低減するため、生モデルパラメータの代わりに十分なデータサマリーを共有することを提案する。
データサマリーは指数族の最小の十分な統計を符号化し、ベイズ推論はグローバルアグリゲーションに利用される。
メッセージサイズと通信頻度を減らすのに役立ちます。
さらに、正式なプライバシー保証を確保するために、差分プライバシーフレームワークで拡張します。
実験により,本手法の通信オーバヘッドが低く,高い学習精度を示す。
Federated representation learning (FRL) aims to learn personalized federated models with effective feature extraction from local data. FRL algorithms that share the majority of the model parameters face significant challenges with huge communication overhead. This overhead stems from the millions of neural network parameters and slow aggregation progress of the averaging heuristic. To reduce the overhead, we propose to share sufficient data summaries instead of raw model parameters. The data summaries encode minimal sufficient statistics of an exponential family, and Bayesian inference is utilized for global aggregation. It helps to reduce message sizes and communication frequency. To further ensure formal privacy guarantee, we extend it with differential privacy framework. Empirical results demonstrate high learning accuracy with low communication overhead of our method. | 翻訳日:2024-11-08 22:29:08 公開日:2024-10-12 |
# リーマン幾何学に基づく知性と意識の数学的枠組み
A mathematical framework of intelligence and consciousness based on Riemannian Geometry ( http://arxiv.org/abs/2407.11024v4 ) ライセンス: Link先を確認 | Meng Lu, | (参考訳) 知性を理解することは神経科学、認知科学、人工知能の中心的な研究である。
知性は学習、問題解決、創造性、さらには意識まで含んでいる。
幾何解析の最近の進歩は、高次元情報表現と組織に対する新たな洞察を明らかにし、ニューラルシステムと人工システムにおける本質的なデータ構造と動的プロセスを明らかにする。
しかし、インテリジェンスの静的および動的側面を統一する包括的なフレームワークはまだ欠けている。
この写本は、知性と意識の構造と力学を記述するためにリーマン幾何学に基づく数学的枠組みを提案する。
知能要素は高次元空間に埋め込まれたトークンとして概念化される。
学習されたトークン埋め込みは、さまざまなシナリオやタスクにわたるトークンの相互接続をキャプチャし、インテリジェンス空間で多様体を形成する。
思考フローは、これらの多様体内の測地線に沿ったトークンの逐次活性化として描かれる。
測地学のナビゲーションにおいて、自己参照過程としての意識は思考の流れを知覚し、予測に対して評価し、予測誤差を通じてフィードバックを提供し、ジオデシックを調整する。
この動的相互作用は、新しい情報を統合し、幾何学を進化させ、学習を促進する。
知能の幾何学は意識を導き、意識は知能の幾何学を構造化する。
幾何学的概念を統合することにより、この理論は知性と意識の構造と力学を記述するための統一された数学的枠組みを提供する。
生物学的および人工知能に適用できるこの枠組みは、将来の研究と実証的な検証の道を開くかもしれない。
Understanding intelligence is a central pursuit in neuroscience, cognitive science, and artificial intelligence. Intelligence encompasses learning, problem-solving, creativity, and even consciousness. Recent advancements in geometric analysis have revealed new insights into high-dimensional information representation and organisation, exposing intrinsic data structures and dynamic processes within neural and artificial systems. However, a comprehensive framework that unifies the static and dynamic aspects of intelligence is still lacking. This manuscript proposes a mathematical framework based on Riemannian geometry to describe the structure and dynamics of intelligence and consciousness. Intelligence elements are conceptualised as tokens embedded in a high-dimensional space. The learned token embeddings capture the interconnections of tokens across various scenarios and tasks, forming manifolds in the intelligence space. Thought flow is depicted as the sequential activation of tokens along geodesics within these manifolds. During the navigation of geodesics, consciousness, as a self-referential process, perceives the thought flow, evaluates it against predictions, and provides feedback through prediction errors, adjusting the geodesic: non-zero prediction errors, such as learning, lead to the restructuring of the curved manifolds, thus changing the geodesic of thought flow. This dynamic interaction integrates new information, evolves the geometry and facilitates learning. The geometry of intelligence guides consciousness, and consciousness structures the geometry of intelligence. By integrating geometric concepts, this proposed theory offers a unified, mathematically framework for describing the structure and dynamics of intelligence and consciousness. Applicable to biological and artificial intelligence, this framework may pave the way for future research and empirical validation. | 翻訳日:2024-11-08 21:21:36 公開日:2024-10-12 |
# qMRIディフューザ: denoising Diffusion Probabilistic Model を用いた脳の定量的T1マッピング
qMRI Diffuser: Quantitative T1 Mapping of the Brain using a Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2407.16477v2 ) ライセンス: Link先を確認 | Shishuai Wang, Hua Ma, Juan A. Hernandez-Tamames, Stefan Klein, Dirk H. J. Poot, | (参考訳) 定量的MRI(qMRI)は、組織特性に関連する客観的パラメータを提供することにより、重み付け画像よりも大きな利点を提供する。
深層学習に基づく手法は、一連の重み付き画像から定量的マップを推定する効果を実証している。
本研究では, 深部生成モデルを用いた新しい qMRI Diffuser を提案する。
具体的には,脳内におけるT1定量化のための拡散確率モデル(DDPM)を実装し,条件生成タスクとしての定量的マップの推定をフレーミングした。
提案手法は, ファントムおよび生体内データの残差ニューラルネットワーク (ResNet) とRIM (Recurrent Inference Machine) を比較した。
その結果,パラメータ推定の精度と精度が向上し,視覚性能も向上することが示唆された。
さらに,本手法は本質的に確率性を取り入れ,不確実性の簡易定量化を可能にする。
したがって,提案手法は定量的MRマッピングに有意な可能性を秘めている。
Quantitative MRI (qMRI) offers significant advantages over weighted images by providing objective parameters related to tissue properties. Deep learning-based methods have demonstrated effectiveness in estimating quantitative maps from series of weighted images. In this study, we present qMRI Diffuser, a novel approach to qMRI utilising deep generative models. Specifically, we implemented denoising diffusion probabilistic models (DDPM) for T1 quantification in the brain, framing the estimation of quantitative maps as a conditional generation task. The proposed method is compared with the residual neural network (ResNet) and the recurrent inference machine (RIM) on both phantom and in vivo data. The results indicate that our method achieves improved accuracy and precision in parameter estimation, along with superior visual performance. Moreover, our method inherently incorporates stochasticity, enabling straightforward quantification of uncertainty. Hence, the proposed method holds significant promise for quantitative MR mapping. | 翻訳日:2024-11-08 15:34:26 公開日:2024-10-12 |
# 言語誘導軌道生成のための運動マニフォールドフロープリミティブ
Motion Manifold Flow Primitives for Language-Guided Trajectory Generation ( http://arxiv.org/abs/2407.19681v2 ) ライセンス: Link先を確認 | Yonghyeon Lee, Byeongho Lee, Seungyeon Kim, Frank C. Park, | (参考訳) テキストベースのロボット軌道生成モデルの開発は、小さなデータセットのサイズ、軌道空間の高次元性、およびテキスト条件運動分布の本質的な複雑さにより、特に困難である。
近年の多様体学習法は, 次元とデータセットサイズの問題に部分的に対処しているが, 複雑なテキスト条件分布に苦慮している。
本稿では,3つの課題すべてに対処する上で,少数の実演軌跡データのみに依存したテキストベーストラジェクトリ生成モデルを提案する。
我々のキーとなる考え方は、高次元軌跡空間ではなく、運動多様体の低次元潜在座標空間において、複雑な条件分布を捉えることができる最近のフローベースモデルを活用することである。
動作マニフォールドフロープリミティブ(MMFP)フレームワークは,幅広いテキスト入力に対して,定性的に異なる動作を正確に生成し,既存の手法を著しく上回ることを示す。
Developing text-based robot trajectory generation models is made particularly difficult by the small dataset size, high dimensionality of the trajectory space, and the inherent complexity of the text-conditional motion distribution. Recent manifold learning-based methods have partially addressed the dimensionality and dataset size issues, but struggle with the complex text-conditional distribution. In this paper we propose a text-based trajectory generation model that attempts to address all three challenges while relying on only a handful of demonstration trajectory data. Our key idea is to leverage recent flow-based models capable of capturing complex conditional distributions, not directly in the high-dimensional trajectory space, but rather in the low-dimensional latent coordinate space of the motion manifold, with deliberately designed regularization terms to ensure smoothness of motions and robustness to text variations. We show that our Motion Manifold Flow Primitive (MMFP) framework can accurately generate qualitatively distinct motions for a wide range of text inputs, significantly outperforming existing methods. | 翻訳日:2024-11-08 14:27:29 公開日:2024-10-12 |
# デバイス不完全性に対するセキュリティ証明のための相互情報連鎖ルール
Mutual information chain rules for security proofs robust against device imperfections ( http://arxiv.org/abs/2407.20396v2 ) ライセンス: Link先を確認 | Amir Arqand, Tony Metger, Ernest Y. -Z. Tan, | (参考訳) 本研究では、敵に追加情報を漏らす不完全な装置を用いて量子暗号を分析するのに適した、相互情報量に関する多くの連鎖ルールを導出する。
まず、スムーズな最小エントロピーとスムーズな最大情報の間の連鎖則を導出し、追加条件レジスタによるワンショット情報漏洩を特徴付ける以前のチェーン規則よりも改善する。
第二に、エントロピーの累積定理と同様の個々のチャネル出力のR'enyi相互情報の観点から、一連のチャネルによって生成される状態のR'enyi相互情報をバウンドする'information bounding theorem''を導出する。
特に、これは前の連鎖則の滑らかな極大情報に単純な境界を与える。
第3に、R'enyiエントロピーとR'enyi相互情報の間の連鎖規則を導出し、これはエントロピー累積定理を修正して、プロトコルの各ラウンドで相手に送信されるリークレジスタに適合させることができる。
これらの結果は、ランダムネス生成や量子鍵分布など、デバイスに依存しない、デバイスに依存しない様々なプロトコルにおいて、デバイス不完全性を扱うために使用できることを示す。
In this work we derive a number of chain rules for mutual information quantities, suitable for analyzing quantum cryptography with imperfect devices that leak additional information to an adversary. First, we derive a chain rule between smooth min-entropy and smooth max-information, which improves over previous chain rules for characterizing one-shot information leakage caused by an additional conditioning register. Second, we derive an ''information bounding theorem'' that bounds the R\'enyi mutual information of a state produced by a sequence of channels, in terms of the R\'enyi mutual information of the individual channel outputs, similar to entropy accumulation theorems. In particular, this yields simple bounds on the smooth max-information in the preceding chain rule. Third, we derive chain rules between R\'enyi entropies and R\'enyi mutual information, which can be used to modify the entropy accumulation theorem to accommodate leakage registers sent to the adversary in each round of a protocol. We show that these results can be used to handle some device imperfections in a variety of device-dependent and device-independent protocols, such as randomness generation and quantum key distribution. | 翻訳日:2024-11-08 14:05:01 公開日:2024-10-12 |
# 画像分類のための忠実でプラウジブルな自然言語記述:パイプラインアプローチ
Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach ( http://arxiv.org/abs/2407.20899v2 ) ライセンス: Link先を確認 | Adam Wojciechowski, Mateusz Lango, Ondrej Dusek, | (参考訳) 画像分類のための既存の説明法は、忠実で妥当な説明を提供するのに苦労している。
本稿では,CNNをベースとした分類器に対して,学習過程を変更したり,予測性能に影響を与えることなく適用可能な,ポストホックな自然言語説明手法を提案する。
影響力のあるニューロンと対応するアクティベーションマップを分析して、構造化された意味表現の形で分類者の決定過程を忠実に記述し、言語モデルによりテキストに変換する。
このパイプラインアプローチを通じて、生成された説明はニューラルネットワークアーキテクチャに基礎を置いており、非専門家にアクセスできるまま、分類プロセスに関する正確な洞察を提供する。
実験の結果,提案手法により構築されたNLEは,より信頼性が高く,忠実であることがわかった。
特に、ニューラルネットワーク構造(ニューロンのマスキング)のユーザ介入は、ベースラインの3倍の効果がある。
Existing explanation methods for image classification struggle to provide faithful and plausible explanations. This paper addresses this issue by proposing a post-hoc natural language explanation method that can be applied to any CNN-based classifier without altering its training process or affecting predictive performance. By analysing influential neurons and the corresponding activation maps, the method generates a faithful description of the classifier's decision process in the form of a structured meaning representation, which is then converted into text by a language model. Through this pipeline approach, the generated explanations are grounded in the neural network architecture, providing accurate insight into the classification process while remaining accessible to non-experts. Experimental results show that the NLEs constructed by our method are significantly more plausible and faithful. In particular, user interventions in the neural network structure (masking of neurons) are three times more effective than the baselines. | 翻訳日:2024-11-08 14:05:01 公開日:2024-10-12 |
# TransferTOD: 転送機能を備えた汎用的な中国語マルチドメインタスク指向対話システム
TransferTOD: A Generalizable Chinese Multi-Domain Task-Oriented Dialogue System with Transfer Capabilities ( http://arxiv.org/abs/2407.21693v3 ) ライセンス: Link先を確認 | Ming Zhang, Caishuang Huang, Yilong Wu, Shichun Liu, Huiyuan Zheng, Yurui Dong, Yujiong Shen, Shihan Dou, Jun Zhao, Junjie Ye, Qi Zhang, Tao Gui, Xuanjing Huang, | (参考訳) タスク指向対話(TOD)システムは、情報収集を含むタスク指向の会話を効率的に処理することを目的としている。
情報収集にTODを正確に、効率的に効果的に活用する方法は、常に重要かつ困難な課題であった。
近年,Large Language Models (LLMs) は対話,命令生成,推論において優れており,微調整によりTODの性能を大幅に向上させることができることが実証されている。
しかし、現在のデータセットはユーザー主導のシステムに特化しており、事前に定義された特定のシナリオやスロットに限定されているため、TODの積極性、多様性、能力の改善が必要である。
本研究では,会話のためのマルチドメインタスク指向データ構築プロセスと,このプロセスに基づいて生成された中国語対話データセットであるTransferTODについて述べる。
このデータセットを利用して、フルパラメータの微調整を用いてTransferTOD-7Bと呼ばれるモデルを訓練し、スロットフィリングや質問における顕著な能力を示しました。
我々の研究は、様々なダウンストリームシナリオにおいて強力な一般化能力を示し、データ利用効率とシステム性能の両方を大幅に向上させた。
データはhttps://github.com/KongLongGeFDU/TransferTODで公開されている。
Task-oriented dialogue (TOD) systems aim to efficiently handle task-oriented conversations, including information collection. How to utilize TOD accurately, efficiently and effectively for information collection has always been a critical and challenging task. Recent studies have demonstrated that Large Language Models (LLMs) excel in dialogue, instruction generation, and reasoning, and can significantly enhance the performance of TOD through fine-tuning. However, current datasets primarily cater to user-led systems and are limited to predefined specific scenarios and slots, thereby necessitating improvements in the proactiveness, diversity, and capabilities of TOD. In this study, we present a detailed multi-domain task-oriented data construction process for conversations, and a Chinese dialogue dataset generated based on this process, TransferTOD, which authentically simulates human-computer dialogues in 30 popular life service scenarios. Leveraging this dataset, we trained a model called TransferTOD-7B using full-parameter fine-tuning, showcasing notable abilities in slot filling and questioning. Our work has demonstrated its strong generalization capabilities in various downstream scenarios, significantly enhancing both data utilization efficiency and system performance. The data is released in https://github.com/KongLongGeFDU/TransferTOD. | 翻訳日:2024-11-08 13:40:32 公開日:2024-10-12 |
# 論証生成のための論理的誤り表現型フレームワーク
A Logical Fallacy-Informed Framework for Argument Generation ( http://arxiv.org/abs/2408.03618v2 ) ライセンス: Link先を確認 | Luca Mouchel, Debjit Paul, Shaobo Cui, Robert West, Antoine Bosselut, Boi Faltings, | (参考訳) 自然言語処理タスクにおけるLarge Language Models(LLM)の顕著なパフォーマンスにもかかわらず、彼らは論理的に健全な引数の生成に苦慮し、誤報の拡散などの潜在的なリスクをもたらす。
この問題に対処するために,LLMを論理的に健全な議論に向かわせるために,好み最適化手法を活用する誤検出インフォームドフレームワークであるFIPOを導入する。
FIPOには分類損失が含まれており、誤用タイプに関するきめ細かい情報をキャプチャする。
議論データセットの結果から,提案手法は誤り率を最大17.5%削減することを示した。
さらに,提案手法により生成した議論の質は,DPOなどの選好最適化手法と同様に,微調整ベースラインよりも優れていた。
これらの知見は、効果的な議論生成のための論理的誤りをモデルが認識することの重要性を強調している。
私たちのコードはgithub.com/lucamouchel/Logical-Fallaciesで利用可能です。
Despite the remarkable performance of Large Language Models (LLMs) in natural language processing tasks, they still struggle with generating logically sound arguments, resulting in potential risks such as spreading misinformation. To address this issue, we introduce FIPO, a fallacy-informed framework that leverages preference optimization methods to steer LLMs toward logically sound arguments. FIPO includes a classification loss, to capture the fine-grained information on fallacy types. Our results on argumentation datasets show that our method reduces the fallacy errors by up to 17.5%. Furthermore, our human evaluation results indicate that the quality of the generated arguments by our method significantly outperforms the fine-tuned baselines, as well as other preference optimization methods, such as DPO. These findings highlight the importance of ensuring models are aware of logical fallacies for effective argument generation. Our code is available at github.com/lucamouchel/Logical-Fallacies. | 翻訳日:2024-11-08 12:33:46 公開日:2024-10-12 |
# ストラテジスト:二層木探索によるLSMによる戦略スキルの学習
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search ( http://arxiv.org/abs/2408.10635v2 ) ライセンス: Link先を確認 | Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu, | (参考訳) 本稿では,LLMを利用して,自己改善プロセスを通じてマルチエージェントゲームを行うための新たなスキルを取得する新しい手法STRATEGISTを提案する。
提案手法はモンテカルロ木探索とLLMリフレクションを用いた自己再生シミュレーションにより品質フィードバックを収集し,低レベルの実行を導く状態の評価方法などの高レベルの戦略スキルを学習する。
本稿では,ゲームにおけるアクションプランニングと対話生成の両面での手法の活用方法を紹介する。
具体的には,ゲーム・オブ・プル・ストラテジー(GOPS)やレジスタンス・アバロンといったゲームにおいて,従来の強化学習に基づくアプローチや,その他のLLMベースのスキル学習アプローチよりも優れたパフォーマンスでエージェントを訓練できることを示す。
STRATEGISTは、2段階のアプローチを通じて財団モデルと象徴的な意思決定方法のギャップを埋め、より堅牢な意思決定につながる。
In this paper, we propose a new method STRATEGIST that utilizes LLMs to acquire new skills for playing multi-agent games through a self-improvement process. Our method gathers quality feedback through self-play simulations with Monte Carlo tree search and LLM-based reflection, which can then be used to learn high-level strategic skills such as how to evaluate states that guide the low-level execution. We showcase how our method can be used in both action planning and dialogue generation in the context of games, achieving good performance on both tasks. Specifically, we demonstrate that our method can help train agents with better performance than both traditional reinforcement learning-based approaches and other LLM-based skill learning approaches in games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon. STRATEGIST helps bridge the gap between foundation models and symbolic decision-making methods through its bi-level approach, leading to more robust decision-making. | 翻訳日:2024-11-08 06:33:41 公開日:2024-10-12 |
# UniFashion:マルチモーダルファッション検索と生成のための統合ビジョンランゲージモデル
UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation ( http://arxiv.org/abs/2408.11305v2 ) ライセンス: Link先を確認 | Xiangyu Zhao, Yuehan Zhang, Wenlong Zhang, Xiao-Ming Wu, | (参考訳) ファッションドメインは、マルチモーダル検索やマルチモーダル生成を含む、様々な実世界のマルチモーダルタスクを含んでいる。
人工知能が生成するコンテンツの急速な進歩、特にテキスト生成のための大規模言語モデルや視覚生成のための拡散モデルのような技術は、これらのマルチモーダルモデルをファッション分野に適用することに対する幅広い研究の関心を喚起している。
しかし,マルチモーダル・ファッション・ドメインの多様性から,画像からテキストへの埋め込みやテキスト・ツー・イメージ検索といったタスクは,この観点から見過ごされている。
マルチタスクシングルモデルに関する現在の研究は、画像生成に重点を置いていない。
本研究では、ファッション領域におけるマルチモーダル生成と検索タスクの課題を同時に解決し、画像生成と検索タスクとテキスト生成タスクを統合した統合フレームワークUniFashionを提案する。
UniFashionは拡散モデルとLLMを統合することで埋め込みタスクと生成タスクを統一し、制御可能かつ高忠実な生成を可能にする。
我々のモデルは、様々なファッションタスクにまたがる従来の単一タスクモデルよりも大幅に優れており、複雑な視覚言語タスクの管理に容易に適応できる。
この研究は、マルチモーダル生成と検索の間の潜在的な学習相乗効果を実証し、ファッション分野における将来の研究に有望な方向性を提供する。
ソースコードはhttps://github.com/xiangyu-mm/UniFashion.comで入手できる。
The fashion domain encompasses a variety of real-world multimodal tasks, including multimodal retrieval and multimodal generation. The rapid advancements in artificial intelligence generated content, particularly in technologies like large language models for text generation and diffusion models for visual generation, have sparked widespread research interest in applying these multimodal models in the fashion domain. However, tasks involving embeddings, such as image-to-text or text-to-image retrieval, have been largely overlooked from this perspective due to the diverse nature of the multimodal fashion domain. And current research on multi-task single models lack focus on image generation. In this work, we present UniFashion, a unified framework that simultaneously tackles the challenges of multimodal generation and retrieval tasks within the fashion domain, integrating image generation with retrieval tasks and text generation tasks. UniFashion unifies embedding and generative tasks by integrating a diffusion model and LLM, enabling controllable and high-fidelity generation. Our model significantly outperforms previous single-task state-of-the-art models across diverse fashion tasks, and can be readily adapted to manage complex vision-language tasks. This work demonstrates the potential learning synergy between multimodal generation and retrieval, offering a promising direction for future research in the fashion domain. The source code is available at https://github.com/xiangyu-mm/UniFashion. | 翻訳日:2024-11-08 06:22:37 公開日:2024-10-12 |
# 量子ガウス状態間のトレースノーム距離の推定について
On estimates of trace-norm distance between quantum Gaussian states ( http://arxiv.org/abs/2408.11400v3 ) ライセンス: Link先を確認 | A. S. Holevo, | (参考訳) F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431 の論文では、平均ベクトルと共分散行列を用いて2つの量子ガウス状態間のトレースノーム距離を推定し、エネルギー制約されたガウス状態の集合における$\varepsilon -$netの要素数の評価に使用した。
本論文では, 重なり合う状態と呼ばれる忠実度のような量に基づいて, 特に純粋あるいはゲージ不変状態の場合において, より直接的な推定結果を得る。
それらはモードの数に依存しないので、無限のモードを持つボゾン場にまで拡張することができる。
これらの導出は、ArXiv:2405.01431から有用な不等式を置き換えることを目的としていない。
本稿では, CAR の一般フェルミオン型ガウス状態の重なり合いの推定結果について概説し, 古典確率論におけるガウス確率分布間の全分散距離推定の非可換的類似とみなすことができる。
In the paper of F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431, estimates for the trace-norm distance between two quantum Gaussian states in terms of the mean vectors and covariance matrices were derived and used to evaluate the number of elements in the $\varepsilon -$net in the set of energy-constrained Gaussian states. In the present paper we obtain different estimates; our proof is based on a fidelity-like quantity which we call states overlap, and is more straightforward leading to estimates which are sometimes even more stringent, especially in the cases of pure or gauge-invariant states. They do not depend on number of modes and hence can be extended to the case of bosonic field with infinite number of modes. These derivations are not aimed to replace the useful inequalities from ArXiv:2405.01431; they just show an alternative approach to the problem leading to different results. In the Appendix we briefly recall our results concerning estimates of the overlap for general fermionic Gaussian states of CAR.The problem studied in this paper can be considered as a noncommutative analog of estimation of the total variance distance between Gaussian probability distributions in the classical probability theory. | 翻訳日:2024-11-08 06:11:36 公開日:2024-10-12 |
# 量子ガウス状態間のトレースノーム距離の推定について
On estimates of trace-norm distance between quantum Gaussian states ( http://arxiv.org/abs/2408.11400v4 ) ライセンス: Link先を確認 | A. S. Holevo, | (参考訳) F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431 の論文では、平均ベクトルと共分散行列を用いて2つの量子ガウス状態間のトレースノーム距離を推定し、エネルギー制約されたガウス状態の集合における$\varepsilon -$netの要素数の評価に使用した。
本論文では, 重なり合う状態と呼ばれる忠実度のような量に基づいて, 特に純粋あるいはゲージ不変状態の場合において, より直接的な推定結果を得る。
それらはモードの数に依存しないので、無限のモードを持つボゾン場にまで拡張することができる。
これらの導出は、ArXiv:2405.01431から有用な不等式を置き換えることを目的としていない。
Appendixでは、CARの一般フェルミオンガウス状態の重なり合いの推定について、我々の結果を簡潔に思い出す。
本稿では,古典的確率論におけるガウス確率分布間の全分散距離の推定の非可換的類似として考察する。
In the paper of F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431, estimates for the trace-norm distance between two quantum Gaussian states in terms of the mean vectors and covariance matrices were derived and used to evaluate the number of elements in the $\varepsilon -$net in the set of energy-constrained Gaussian states. In the present paper we obtain different estimates; our proof is based on a fidelity-like quantity which we call states overlap, and is more straightforward leading to estimates which are sometimes even more stringent, especially in the cases of pure or gauge-invariant states. They do not depend on number of modes and hence can be extended to the case of bosonic field with infinite number of modes. These derivations are not aimed to replace the useful inequalities from ArXiv:2405.01431; they just show an alternative approach to the problem leading to different results. In the Appendix we briefly recall our results concerning estimates of the overlap for general fermionic Gaussian states of CAR. The problem studied in this paper can be considered as a noncommutative analog of estimation of the total variance distance between Gaussian probability distributions in the classical probability theory. | 翻訳日:2024-11-08 06:11:36 公開日:2024-10-12 |
# ランダム森林の確率的予測の簡易化
Simplifying Random Forests' Probabilistic Forecasts ( http://arxiv.org/abs/2408.12332v2 ) ライセンス: Link先を確認 | Nils Koster, Fabian Krüger, | (参考訳) Breimanによる導入以来、ランダムフォレスト(RF)は分類と回帰の両方に有用であることが証明されている。
未確認観測のRF予測は、すべてのトレーニングサンプル観測の重み付け和として表すことができる。
この近傍型表現は、予測分布の構築に特に有用である(Meinshausen, 2006)。
本稿では,RFを用いた予測分布の簡易化について検討する。
すなわち、最も近い隣人の小さな部分集合に焦点をあて、残りの重みを 0 に設定する。
このスペーシフィケーションステップは、RF予測の解釈可能性を大幅に改善する。
既存のRFモデルを再訓練することなく、任意の予測タスクに適用することができる。
実証実験では、単純化された予測は、予測性能の点で元の予測と似ているか、あるいは上回っているかを示す。
RFのスタイリング解析モデルを用いて,この発見の統計的源泉を探究する。
モデルは、未知の真の予測分布が不正確に推定される多くの小さな重みを含む場合、単純化が特に有望であることを示唆している。
Since their introduction by Breiman, Random Forests (RFs) have proven to be useful for both classification and regression tasks. The RF prediction of a previously unseen observation can be represented as a weighted sum of all training sample observations. This nearest-neighbor-type representation is useful, among other things, for constructing forecast distributions (Meinshausen, 2006). In this paper, we consider simplifying RF-based forecast distributions by sparsifying them. That is, we focus on a small subset of nearest neighbors while setting the remaining weights to zero. This sparsification step greatly improves the interpretability of RF predictions. It can be applied to any forecasting task without re-training existing RF models. In empirical experiments, we document that the simplified predictions can be similar to or exceed the original ones in terms of forecasting performance. We explore the statistical sources of this finding via a stylized analytical model of RFs. The model suggests that simplification is particularly promising if the unknown true forecast distribution contains many small weights that are estimated imprecisely. | 翻訳日:2024-11-08 05:37:29 公開日:2024-10-12 |
# ランダム森林の確率的予測の簡易化
Simplifying Random Forests' Probabilistic Forecasts ( http://arxiv.org/abs/2408.12332v3 ) ライセンス: Link先を確認 | Nils Koster, Fabian Krüger, | (参考訳) Breimanによる導入以来、ランダムフォレスト(RF)は分類と回帰の両方に有用であることが証明されている。
未確認観測のRF予測は、すべてのトレーニングサンプル観測の重み付け和として表すことができる。
この近傍型表現は、予測分布の構築に特に有用である(Meinshausen, 2006)。
本稿では,RFを用いた予測分布の簡易化について検討する。
すなわち、最も近い隣人の小さな部分集合に焦点をあて、残りの重みを 0 に設定する。
このスペーシフィケーションステップは、RF予測の解釈可能性を大幅に改善する。
既存のRFモデルを再訓練することなく、任意の予測タスクに適用することができる。
実証実験では、単純化された予測は、予測性能の点で元の予測と似ているか、あるいは上回っているかを示す。
RFのスタイリング解析モデルを用いて,この発見の統計的源泉を探究する。
モデルは、未知の真の予測分布が不正確に推定される多くの小さな重みを含む場合、単純化が特に有望であることを示唆している。
Since their introduction by Breiman, Random Forests (RFs) have proven to be useful for both classification and regression tasks. The RF prediction of a previously unseen observation can be represented as a weighted sum of all training sample observations. This nearest-neighbor-type representation is useful, among other things, for constructing forecast distributions (Meinshausen, 2006). In this paper, we consider simplifying RF-based forecast distributions by sparsifying them. That is, we focus on a small subset of nearest neighbors while setting the remaining weights to zero. This sparsification step greatly improves the interpretability of RF predictions. It can be applied to any forecasting task without re-training existing RF models. In empirical experiments, we document that the simplified predictions can be similar to or exceed the original ones in terms of forecasting performance. We explore the statistical sources of this finding via a stylized analytical model of RFs. The model suggests that simplification is particularly promising if the unknown true forecast distribution contains many small weights that are estimated imprecisely. | 翻訳日:2024-11-08 05:37:29 公開日:2024-10-12 |
# 自動運転の世界における運転:世界モデルによる視覚中心の4D運転予測と計画
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving ( http://arxiv.org/abs/2408.14197v2 ) ライセンス: Link先を確認 | Yu Yang, Jianbiao Mei, Yukai Ma, Siliang Du, Wenqing Chen, Yijie Qian, Yuxiang Feng, Yong Liu, | (参考訳) 世界モデルは、様々なエゴ行動に基づいて将来の状態を想定している。
それらは、運転環境に関する広範な知識を埋め込んで、安全でスケーラブルな自動運転を促進する。
既存のほとんどの手法は、主にデータ生成または世界モデルの事前学習パラダイムに焦点を当てている。
上記と異なり、我々はビジョン中心の4D予測世界モデルに自律運転のエンド・ツー・エンド計画を適用するDrive-OccWorldを提案する。
具体的には、まず、メモリモジュールに意味的および運動条件の正規化を導入し、歴史的BEV埋め込みから意味的および動的情報を蓄積する。
これらのBEV機能は、幾何学と時空間モデリングの両方を考慮して、将来の占有とフロー予測のために世界デコーダに伝達される。
さらに、速度、操舵角度、軌道、指令などの柔軟な動作条件を世界モデルに注入し、制御可能な生成を可能にし、より広範囲の下流アプリケーションを容易にする。
さらに,4次元世界モデルの生成機能とエンド・ツー・エンド・プランニングの統合,将来状態の連続予測,および占有型コスト関数を用いた最適軌道の選択について検討する。
nuScenesデータセットの大規模な実験により、我々の手法が可塑性で制御可能な4D占有率を生成できることが示され、次世代とエンド・ツー・エンド・プランニングのための新たな道が開かれた。
World models envision potential future states based on various ego actions. They embed extensive knowledge about the driving environment, facilitating safe and scalable autonomous driving. Most existing methods primarily focus on either data generation or the pretraining paradigms of world models. Unlike the aforementioned prior works, we propose Drive-OccWorld, which adapts a vision-centric 4D forecasting world model to end-to-end planning for autonomous driving. Specifically, we first introduce a semantic and motion-conditional normalization in the memory module, which accumulates semantic and dynamic information from historical BEV embeddings. These BEV features are then conveyed to the world decoder for future occupancy and flow forecasting, considering both geometry and spatiotemporal modeling. Additionally, we propose injecting flexible action conditions, such as velocity, steering angle, trajectory, and commands, into the world model to enable controllable generation and facilitate a broader range of downstream applications. Furthermore, we explore integrating the generative capabilities of the 4D world model with end-to-end planning, enabling continuous forecasting of future states and the selection of optimal trajectories using an occupancy-based cost function. Extensive experiments on the nuScenes dataset demonstrate that our method can generate plausible and controllable 4D occupancy, opening new avenues for driving world generation and end-to-end planning. | 翻訳日:2024-11-08 05:04:12 公開日:2024-10-12 |
# 一般フェデレーション学習のための収束型微分プライバシー分析:$f$-DP
Convergent Differential Privacy Analysis for General Federated Learning: the $f$-DP Perspective ( http://arxiv.org/abs/2408.15621v2 ) ライセンス: Link先を確認 | Yan Sun, Li Shen, Dacheng Tao, | (参考訳) フェデレーテッド・ラーニング(Federated Learning, FL)は、ローカルプライバシを重視した効率的な協調トレーニングパラダイムであり、差分プライバシ(DP)は、プライベートセキュリティの信頼性を捕捉し、確実にするための古典的なアプローチである。
彼らの強力な協力は、大規模なプライベートクライアントにとって有望なパラダイムを提供する。
主要な実装として、ノイズの摂動が広く研究され、理論上重要な保護を提供することが証明されている。
しかし、FL-DPの既存の分析は主に構成定理に依存しており、いくつかの通信ラウンドで厳密なプライバシー漏洩の問題を厳格に定量化することはできない。
これはまた、FL-DPが長期トレーニング中に適切なプライバシー支援を提供していないことを示唆する直感的な判断を示唆している。
本稿では,FL-DPフレームワークの収束したプライバシと信頼性について,F$-DP分析に基づいて,非凸および滑らかな目的の下での2つの古典的手法の最悪のプライバシを包括的に評価する。
シフト補間法の助けを借りて、tt Family Noisy-FedAvg {\displaystyle {\tt Family Noisy-FedAvg} のプライバシーが密収束境界を持つことを示すことに成功した。
さらに、プロキシ項の正規化により、tt Family Noisy-FedProx} のプライバシは安定な定数の低いバウンドを持つ。
さらに,FL-DPにおけるプライバシーの信頼性に関する理論的根拠を考察した。
一方、我々の結論は、他の古典DP分析フレームワーク、例えば、g $(\epsilon,\delta)$-DPとR$\acute{\text{e}}$nyi-DP(RDP)に損失なく変換できる。
Federated learning (FL) is an efficient collaborative training paradigm extensively developed with a focus on local privacy, and differential privacy (DP) is a classical approach to capture and ensure the reliability of private security. Their powerful cooperation provides a promising paradigm for the large-scale private clients. As a predominant implementation, the noisy perturbation has been widely studied, being theoretically proven to offer significant protections. However, existing analyses in FL-DP mostly rely on the composition theorem and cannot tightly quantify the privacy leakage challenges, which is tight for a few communication rounds but yields an arbitrarily loose and divergent bound eventually. This also implies a counterintuitive judgment, suggesting that FL-DP may not provide adequate privacy support during long-term training. To further investigate the convergent privacy and reliability of the FL-DP framework, in this paper, we comprehensively evaluate the worst privacy of two classical methods under the non-convex and smooth objectives based on the $f$-DP analysis. With the aid of the shifted interpolation technique, we successfully prove that privacy in {\ttfamily Noisy-FedAvg} has a tight convergent bound. Moreover, with the regularization of the proxy term, privacy in {\ttfamily Noisy-FedProx} has a stable constant lower bound. Our analysis further demonstrates a solid theoretical foundation for the reliability of privacy in FL-DP. Meanwhile, our conclusions can also be losslessly converted to other classical DP analytical frameworks, e.g. $(\epsilon,\delta)$-DP and R$\acute{\text{e}}$nyi-DP (RDP). | 翻訳日:2024-11-08 04:30:58 公開日:2024-10-12 |
# LogicGame: 大規模言語モデルのルールベースの推論能力のベンチマーク
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models ( http://arxiv.org/abs/2408.15778v4 ) ライセンス: Link先を確認 | Jiayi Gui, Yiming Liu, Jiale Cheng, Xiaotao Gu, Xiao Liu, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
複雑なルールの理解と実行は、多段階計画とともに、論理的推論の基本であり、実用的なLCMエージェントや意思決定システムにとって重要である。
しかし、LSMを効果的なルールベースの実行者およびプランナーとして評価することは未定である。
本稿では,LLMの包括的なルール理解,実行,計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
従来のベンチマークとは異なり、LogicGameは初期状態の一連のルールを含む多様なゲームを提供しており、モデルの理解と問題を解決するために事前定義された規則を適用する必要がある。
モデルが特定の結果を達成するためにオペレーションを実行または計画するシミュレーションシナリオを作成します。
これらのゲームシナリオは、予め定義されたルールにのみ依存することで、論理的推論と単なる知識を区別するように特別に設計されている。
この分離により、ルールベースの推論能力を純粋に評価できる。
評価は最終結果だけでなく中間段階も考慮し、モデル性能の総合的な評価を提供する。
さらに、これらの中間ステップは決定論的であり、自動的に検証することができる。
LogicGameは、ルール理解とマルチステップ実行におけるモデルパフォーマンスの正確な評価を提供するために、単純なルールアプリケーションから複雑な推論チェーンまで、さまざまな難易度を持つゲームシナリオを定義している。
LogicGameを利用することで、様々なLCMをテストし、ルールベースの論理的推論能力において顕著な欠点を識別する。
Large Language Models (LLMs) have demonstrated notable capabilities across various tasks, showcasing complex problem-solving abilities. Understanding and executing complex rules, along with multi-step planning, are fundamental to logical reasoning and critical for practical LLM agents and decision-making systems. However, evaluating LLMs as effective rule-based executors and planners remains underexplored. In this paper, we introduce LogicGame, a novel benchmark designed to evaluate the comprehensive rule understanding, execution, and planning capabilities of LLMs. Unlike traditional benchmarks, LogicGame provides diverse games that contain a series of rules with an initial state, requiring models to comprehend and apply predefined regulations to solve problems. We create simulated scenarios in which models execute or plan operations to achieve specific outcomes. These game scenarios are specifically designed to distinguish logical reasoning from mere knowledge by relying exclusively on predefined rules. This separation allows for a pure assessment of rule-based reasoning capabilities. The evaluation considers not only final outcomes but also intermediate steps, providing a comprehensive assessment of model performance. Moreover, these intermediate steps are deterministic and can be automatically verified. LogicGame defines game scenarios with varying difficulty levels, from simple rule applications to complex reasoning chains, in order to offer a precise evaluation of model performance on rule understanding and multi-step execution. Utilizing LogicGame, we test various LLMs and identify notable shortcomings in their rule-based logical reasoning abilities. | 翻訳日:2024-11-08 04:30:58 公開日:2024-10-12 |
# T.R.ハルドの科学キャリアの簡潔な合成
Brief Synopsis of the Scientific Career of T. R. Hurd ( http://arxiv.org/abs/2408.16891v2 ) ライセンス: Link先を確認 | Matheus R. Grasselli, Lane P. Hughston, | (参考訳) トーマス・ロバート・ハードの名誉を称える国際理論・応用財務ジャーナル」特集の紹介として、トム・ハードの科学的経歴と彼の科学的出版物の伝記を簡潔にまとめた。
As an introduction to a Special Issue of International Journal of Theoretical and Applied Finance in Honour of the Memory of Thomas Robert Hurd we present a brief synopsis of Tom Hurd's scientific career and a bibliography of his scientific publications. | 翻訳日:2024-11-08 04:08:49 公開日:2024-10-12 |
# トポロジポリシのためのOpenFlow Link Discovery Packetのフォワード操作
Manipulating OpenFlow Link Discovery Packet Forwarding for Topology Poisoning ( http://arxiv.org/abs/2408.16940v2 ) ライセンス: Link先を確認 | Mingming Chen, Thomas La Porta, Teryl Taylor, Frederico Araujo, Trent Jaeger, | (参考訳) Software-Defined Network (SDN) は、柔軟なトラフィック制御とスケーラビリティを実現する集中型、動的、プログラム可能なネットワーク管理技術である。
SDNは、基盤となる物理的トポロジの集中的なビューを通じて、ネットワーク管理を促進する。
この問題を明らかにするために,OpenFlowリンク発見パケット転送を操作してトポロジ情報を変更する新しいトポロジ中毒手法であるMarionetteを紹介する。
我々のアプローチは、見落とされながら広く使われている攻撃ベクトルを公開し、データプレーンで発見パケットを改ざん、スプーフ、リレーする従来のリンク作成攻撃と区別する。
従来の手法と異なり,制御特権を利用したグローバルなトポロジ中毒攻撃が提案されている。
Marionetteは、有毒なトポロジーターゲットを計算するために強化学習アルゴリズムを実装し、フローエントリを注入して長期間のステルス攻撃を実現する。
評価の結果,Marionetteは5つのオープンソースコントローラと9つのOpenFlowベースのディスカバリプロトコルを攻撃した。
Marionetteは、最先端のトポロジー中毒防御を克服し、コントロールプレーンで開始する新しい種類のトポロジー中毒を示す。
この脆弱性はOpenDaylightに倫理的に開示され、CVE-2024-37018が割り当てられた。
Software-defined networking (SDN) is a centralized, dynamic, and programmable network management technology that enables flexible traffic control and scalability. SDN facilitates network administration through a centralized view of the underlying physical topology; tampering with this topology view can result in catastrophic damage to network management and security. To underscore this issue, we introduce Marionette, a new topology poisoning technique that manipulates OpenFlow link discovery packet forwarding to alter topology information. Our approach exposes an overlooked yet widespread attack vector, distinguishing itself from traditional link fabrication attacks that tamper, spoof, or relay discovery packets at the data plane. Unlike localized attacks observed in existing methods, our technique introduces a globalized topology poisoning attack that leverages control privileges. Marionette implements a reinforcement learning algorithm to compute a poisoned topology target, and injects flow entries to achieve a long-lived stealthy attack. Our evaluation shows that Marionette successfully attacks five open-source controllers and nine OpenFlow-based discovery protocols. Marionette overcomes the state-of-the-art topology poisoning defenses, showcasing a new class of topology poisoning that initiates on the control plane. This security vulnerability was ethically disclosed to OpenDaylight, and CVE-2024-37018 has been assigned. | 翻訳日:2024-11-08 04:08:49 公開日:2024-10-12 |
# 不完全検出器を用いたQKDの位相誤差率推定
Phase error rate estimation in QKD with imperfect detectors ( http://arxiv.org/abs/2408.17349v2 ) ライセンス: Link先を確認 | Devashish Tupkary, Shlok Nahar, Pulkit Sinha, Norbert Lütkenhaus, | (参考訳) 本稿では,不完全検出器に対する不完全な不確実性関係を用いて,コヒーレント攻撃に対するデコイ状態BB84QKDプロトコルの有限サイズセキュリティ証明を提案する。
本結果は,不完全特徴の基底効率ミスマッチ検出装置に適用する。
我々の証明は、プロトコルステップやハードウェアに新たな変更を加えることなく、位相誤差率の適切なバウンダリを取得することで機能する。
これは不完全な特徴を持つ検出器に適用可能であり、検出効率の最大相対差と、特徴付ける検出器の暗カウント率だけを必要とする。
さらに、Eveは各ラウンドにおいて許容範囲における検出効率と暗カウント率を選択できるので、検出側チャネルの重要な問題に対処できる。
可変長フレームワークでは,ユーザが生成するキーの長さや誤り訂正に使用するビットの数を,プロトコル中の観察に基づいて適応的に決定することができる。
BB84プロトコルにこの結果を適用することで, 基礎効率のミスマッチの効果を定量的に示す。
We present a finite-size security proof of the decoy-state BB84 QKD protocol against coherent attacks, using entropic uncertainty relations, for imperfect detectors. We apply this result to the case of detectors with imperfectly characterized basis-efficiency mismatch. Our proof works by obtaining a suitable bound on the phase error rate, without requiring any new modifications to the protocol steps or hardware. It is applicable to imperfectly characterized detectors, and only requires the maximum relative difference in detection efficiencies and dark count rates of the detectors to be characterized. Moreover, our proof allows Eve to choose detector efficiencies and dark count rates in their allowed ranges in each round, thereby addressing an important problem of detector side channels. We prove security in the variable-length framework, where users are allowed to adaptively determine the length of key to be produced, and number of bits to be used for error-correction, based on observations made during the protocol. We quantitatively demonstrate the effect of basis-efficiency mismatch by applying our results to the decoy-state BB84 protocol. | 翻訳日:2024-11-08 03:57:28 公開日:2024-10-12 |
# 分散型サービス攻撃分類のための自己保持型重み付きアンサンブルに基づく畳み込みニューラルネットワークフレームワーク
A Novel Self-Attention-Enabled Weighted Ensemble-Based Convolutional Neural Network Framework for Distributed Denial of Service Attack Classification ( http://arxiv.org/abs/2409.00810v2 ) ライセンス: Link先を確認 | Kanthimathi S, Shravan Venkatraman, Jayasankar K S, Pranay Jiljith T, Jashwanth R, | (参考訳) 分散サービス拒否(DDoS)攻撃は、過度のトラフィックでシステムを圧倒し、機密データを侵害し、ネットワークサービスを破壊しているため、ネットワークセキュリティにおいて大きな関心事である。
これらの攻撃を正確に検出することは、ネットワークインフラストラクチャを保護するのに不可欠である。
単一畳み込みニューラルネットワーク(CNN)や、Decision Trees(DT)やSupport Vector Machines(SVM)のような従来の機械学習(ML)アルゴリズムのような伝統的なアプローチは、正確な分類に必要な多様な特徴を抽出するのに苦労し、結果として準最適パフォーマンスをもたらす。
本研究は、DDoS攻撃検出の新しいアプローチを導入することで、このギャップに対処する。
提案手法は,SA-Enabled CNNとXGBoost,SA-Enabled CNNとLSTM,SA-Enabled CNNとランダムフォレストという3つの異なるCNNアーキテクチャを組み合わせる。
各モデルは複数のスケールで機能を抽出し、自己注意機構は機能統合と関連性を高めます。
重み付けされたアンサンブルアプローチは、目立った特徴と微妙な特徴の両方が最終分類に寄与し、進化する攻撃パターンや新しい脅威への適応性を向上させる。
提案手法は、98.71%の精度、98.66%のF1スコア、98.63%のリコール、98.69%の精度を達成し、従来の手法より優れ、DDoS攻撃検出における新たなベンチマークを設定する。
この革新的なアプローチは、現在のモデルにおける重要な制限に対処し、ネットワークセキュリティの最先端を前進させる。
Distributed Denial of Service (DDoS) attacks are a major concern in network security, as they overwhelm systems with excessive traffic, compromise sensitive data, and disrupt network services. Accurately detecting these attacks is crucial to protecting network infrastructure. Traditional approaches, such as single Convolutional Neural Networks (CNNs) or conventional Machine Learning (ML) algorithms like Decision Trees (DTs) and Support Vector Machines (SVMs), struggle to extract the diverse features needed for precise classification, resulting in suboptimal performance. This research addresses this gap by introducing a novel approach for DDoS attack detection. The proposed method combines three distinct CNN architectures: SA-Enabled CNN with XGBoost, SA-Enabled CNN with LSTM, and SA-Enabled CNN with Random Forest. Each model extracts features at multiple scales, while self-attention mechanisms enhance feature integration and relevance. The weighted ensemble approach ensures that both prominent and subtle features contribute to the final classification, improving adaptability to evolving attack patterns and novel threats. The proposed method achieves a precision of 98.71%, an F1-score of 98.66%, a recall of 98.63%, and an accuracy of 98.69%, outperforming traditional methods and setting a new benchmark in DDoS attack detection. This innovative approach addresses critical limitations in current models and advances the state of the art in network security. | 翻訳日:2024-11-08 03:35:26 公開日:2024-10-12 |
# ドメイン分解に基づくシュワルツ交替法による演算子推論還元次数モデルの結合
Domain Decomposition-based coupling of Operator Inference reduced order models via the Schwarz alternating method ( http://arxiv.org/abs/2409.01433v3 ) ライセンス: Link先を確認 | Ian Moore, Christopher Wentland, Anthony Gruber, Irina Tezaur, | (参考訳) 本稿では, 与えられた偏微分方程式(PDE)が表される空間幾何学の領域分解に続いて, 非侵入的作用素推論(OpInf)とサブドメイン局所フルオーダーモデル(FOM)を併用して構築したサブドメイン局所縮小順序モデル(ROM)を結合する手法を提案し, 評価する。
サブドメイン局所モデルの結合は、重複するシュワルツ交互化法(Shwarz alternating method)を用いて達成される。これは、モノリシック問題をサブドメイン局所問題列に変換し、サブドメイン界面に課される伝達境界条件を介して通信する、最小限のマルチスケール結合技術である。
OpInf-Schwarzと呼ばれるOpInf ROMの重なり合うシュワルツ交互法を定式化した後、2つの空間次元における熱方程式を含むいくつかのテストケースにおける手法の精度と効率を評価する。
提案手法は,OpInf ROMとFOMの任意の組み合わせを結合でき,モノリシックなFOM上での高速化が可能であることを実証する。
This paper presents and evaluates an approach for coupling together subdomain-local reduced order models (ROMs) constructed via non-intrusive operator inference (OpInf) with each other and with subdomain-local full order models (FOMs), following a domain decomposition of the spatial geometry on which a given partial differential equation (PDE) is posed. Joining subdomain-local models is accomplished using the overlapping Schwarz alternating method, a minimally-intrusive multiscale coupling technique that works by transforming a monolithic problem into a sequence of subdomain-local problems, which communicate through transmission boundary conditions imposed on the subdomain interfaces. After formulating the overlapping Schwarz alternating method for OpInf ROMs, termed OpInf-Schwarz, we evaluate the method's accuracy and efficiency on several test cases involving the heat equation in two spatial dimensions. We demonstrate that the method is capable of coupling together arbitrary combinations of OpInf ROMs and FOMs, and that speed-ups over a monolithic FOM are possible when performing OpInf ROM coupling. | 翻訳日:2024-11-08 03:23:46 公開日:2024-10-12 |
# 量子力学におけるベルの不等式入門
Introduction to Bell's inequality in Quantum Mechanics ( http://arxiv.org/abs/2409.07597v2 ) ライセンス: Link先を確認 | M. S. Guimaraes, I. Roditi, S. P. Sorella, | (参考訳) ベルの量子力学における不等式について、教育学的に紹介する。
スピン1/2$からコヒーレントで圧縮された状態まで、いくつかの例が研究されている。
メルミンの不等式とGHZ状態への一般化についても概説する。
A pedagogical introduction to Bell's inequality in Quantum Mechanics is presented. Several examples, ranging from spin $1/2$ to coherent and squeezed states are worked out. The generalization to Mermin's inequalities and to GHZ states is also outlined. | 翻訳日:2024-11-07 21:42:46 公開日:2024-10-12 |
# 人間ロボットのコラボレーションの関連性
Relevance for Human Robot Collaboration ( http://arxiv.org/abs/2409.07753v2 ) ライセンス: Link先を確認 | Xiaotong Zhang, Dingcheng Huang, Kamal Youcef-Toumi, | (参考訳) 効果的な人間ロボットコラボレーション(HRC)は、ロボットに人間のような知性を持つことを要求する。
複雑な環境下で要素を選択的に処理・フィルタリングする人間の認知能力に触発された本研究では,「関連性」と呼ばれる新たな概念とシーン理解アプローチを提案する。
「シーン内の関連要素を識別する。」
関連性決定を選択的にトリガするイベントベースのフレームワークと,構造化シーン表現に基づく確率論的手法を,正確かつ効率的に定量化する。
シミュレーションの結果,一般HRCセットアップの妥当性を正確に予測し,精度0.99,リコール0.94を達成した。
関連性は、シリアルタスクの純粋な計画に比べて79.56%改善し、物体検出器の知覚遅延を26.53%削減し、HRCの安全性を13.50%改善し、HRCの照会回数を80.84%削減するために、HRCのいくつかの領域に広く適用することができる。
実世界のデモでは、人間を日々のタスクでインテリジェントに支援する関連フレームワークの能力が紹介されている。
Effective human-robot collaboration (HRC) requires the robots to possess human-like intelligence. Inspired by the human's cognitive ability to selectively process and filter elements in complex environments, this paper introduces a novel concept and scene-understanding approach termed `relevance.' It identifies relevant components in a scene. To accurately and efficiently quantify relevance, we developed an event-based framework that selectively triggers relevance determination, along with a probabilistic methodology built on a structured scene representation. Simulation results demonstrate that the relevance framework and methodology accurately predict the relevance of a general HRC setup, achieving a precision of 0.99 and a recall of 0.94. Relevance can be broadly applied to several areas in HRC to improve task planning time by 79.56% compared with pure planning for a cereal task, reduce perception latency by up to 26.53% for an object detector, improve HRC safety by up to 13.50% and reduce the number of inquiries for HRC by 80.84%. A real-world demonstration showcases the relevance framework's ability to intelligently assist humans in everyday tasks. | 翻訳日:2024-11-07 21:42:46 公開日:2024-10-12 |
# 制御のためのマルチステップ埋め込み:貯水池シミュレーションにおけるサーロゲートモデリングのための新しい深層学習に基づくアプローチ
Multi-Step Embed to Control: A Novel Deep Learning-based Approach for Surrogate Modelling in Reservoir Simulation ( http://arxiv.org/abs/2409.09920v2 ) ライセンス: Link先を確認 | Jungang Chen, Eduardo Gildin, John Killough, | (参考訳) 縮小次数モデル(英: Reduced-order model)またはプロキシモデル(英: proxy model)またはサロゲートモデル(英: surrogate model)は、完全な記述モデルとは対照的に計算コストの低い近似モデルである。
機械学習の統合により、これらのモデルは近年研究の関心を集めている。
しかし, 予測誤差の蓄積による長期予測では, 組込み制御 (E2C) や組込み制御 (E2CO) など, 既存の縮小順序モデリング手法の多くが不足している。
この問題の一部は、E2CとE2COアーキテクチャに固有の一段階の予測フレームワークから生じている。
本稿では,長期予測性能を向上したプロキシモデル構築のための,多段階組込み制御モデルと呼ばれる深層学習に基づく代理モデルを提案する。
E2CやE2COとは異なり、提案するネットワークは、Koopman演算子を使用して、遅延空間における複数の前方遷移を一度に検討し、トレーニングフレーズ中に状態スナップショットのシーケンスを組み込むことができる。
さらに、この新しいアプローチの損失関数は、これらの複数の遷移に対応し、基礎となる物理原理を尊重するために再設計された。
提案手法の有効性を検証するため, 提案手法を2相(油および水)貯留層モデルに実装した。
比較分析により,提案モデルが長期シミュレーションシナリオにおいて従来のE2Cモデルよりも有意に優れていることが示された。
特に飽和プロファイルの予測において時間誤差が大幅に減少し,圧力予測精度が向上した。
Reduced-order models, also known as proxy model or surrogate model, are approximate models that are less computational expensive as opposed to fully descriptive models. With the integration of machine learning, these models have garnered increasing research interests recently. However, many existing reduced-order modeling methods, such as embed to control (E2C) and embed to control and observe (E2CO), fall short in long-term predictions due to the accumulation of prediction errors over time. This issue arises partly from the one-step prediction framework inherent in E2C and E2CO architectures. This paper introduces a deep learning-based surrogate model, referred as multi-step embed-to-control model, for the construction of proxy models with improved long-term prediction performance. Unlike E2C and E2CO, the proposed network considers multiple forward transitions in the latent space at a time using Koopman operator, allowing the model to incorporate a sequence of state snapshots during training phrases. Additionally, the loss function of this novel approach has been redesigned to accommodate these multiple transitions and to respect the underlying physical principles. To validate the efficacy of the proposed method, the developed framework was implemented within two-phase (oil and water) reservoir model under a waterflooding scheme. Comparative analysis demonstrate that the proposed model significantly outperforms the conventional E2C model in long-term simulation scenarios. Notably, there was a substantial reduction in temporal errors in the prediction of saturation profiles and a decent improvement in pressure forecasting accuracy. | 翻訳日:2024-11-07 20:35:12 公開日:2024-10-12 |
# オンライン言語処理における予測と応答性の一般的な対策
Generalized Measures of Anticipation and Responsivity in Online Language Processing ( http://arxiv.org/abs/2409.10728v2 ) ライセンス: Link先を確認 | Mario Giulianelli, Andreas Opedal, Ryan Cotterell, | (参考訳) 本稿では,オンライン言語処理における予測不確実性に関する古典的情報理論の一般化について,漸進的言語文脈の予測継続のシミュレーションに基づいて紹介する。
本フレームワークは,予測および応答性尺度の形式的定義を提供するとともに,実験者に対して,標準の次シンボルエントロピーや仮定を超えた,新しい,より表現力のある尺度を定義するためのツールを提供する。
言語モデルからこれらの標準量を抽出することは有用であるが,モンテカルロシミュレーションを用いて代替応答性および予測的対策を推定することは実証的に有益である。
We introduce a generalization of classic information-theoretic measures of predictive uncertainty in online language processing, based on the simulation of expected continuations of incremental linguistic contexts. Our framework provides a formal definition of anticipatory and responsive measures, and it equips experimenters with the tools to define new, more expressive measures beyond standard next-symbol entropy and surprisal. While extracting these standard quantities from language models is convenient, we demonstrate that using Monte Carlo simulation to estimate alternative responsive and anticipatory measures pays off empirically: New special cases of our generalized formula exhibit enhanced predictive power compared to surprisal for human cloze completion probability as well as ELAN, LAN, and N400 amplitudes, and greater complementarity with surprisal in predicting reading times. | 翻訳日:2024-11-07 20:24:10 公開日:2024-10-12 |
# 量子コンピューティングと完全同型暗号化によるフェデレートラーニング:プライバシ保護MLにおける新しいコンピューティングパラダイムシフト
Federated Learning with Quantum Computing and Fully Homomorphic Encryption: A Novel Computing Paradigm Shift in Privacy-Preserving ML ( http://arxiv.org/abs/2409.11430v3 ) ライセンス: Link先を確認 | Siddhant Dutta, Pavana P Karanth, Pedro Maciel Xavier, Iago Leal de Freitas, Nouhaila Innan, Sadok Ben Yahia, Muhammad Shafique, David E. Bernal Neira, | (参考訳) 機械学習モデルを利用したプロダクトの広範な展開は、世界中のデータプライバシと情報セキュリティに関する懸念を高めている。
この問題に対処するため、フェデレートラーニングは、複数の学習クライアントがプライベートデータを開示することなくモデル知識を共有できるようにする従来の方法に代わるプライバシー保護手段として最初に提案された。
FHE(Fully Homomorphic Encryption)は、量子セーフな暗号システムであり、暗号化された重みで操作を実行できる。
しかし、このようなメカニズムを実際に実装することは、しばしば計算上のオーバーヘッドが大きくなり、潜在的なセキュリティ脅威を露呈する可能性がある。
アナログ、量子、特殊デジタルハードウェアなどの新しいコンピューティングパラダイムは、セキュリティを強化し、パフォーマンス損失を軽減するとともに、プライバシ保護機械学習システムを実装する機会を提供する。
この研究は、古典層と量子層の両方を統合するフェデレートラーニングニューラルネットワークアーキテクチャにFHEスキームを適用することで、これらのアイデアをインスタンス化する。
The widespread deployment of products powered by machine learning models is raising concerns around data privacy and information security worldwide. To address this issue, Federated Learning was first proposed as a privacy-preserving alternative to conventional methods that allow multiple learning clients to share model knowledge without disclosing private data. A complementary approach known as Fully Homomorphic Encryption (FHE) is a quantum-safe cryptographic system that enables operations to be performed on encrypted weights. However, implementing mechanisms such as these in practice often comes with significant computational overhead and can expose potential security threats. Novel computing paradigms, such as analog, quantum, and specialized digital hardware, present opportunities for implementing privacy-preserving machine learning systems while enhancing security and mitigating performance loss. This work instantiates these ideas by applying the FHE scheme to a Federated Learning Neural Network architecture that integrates both classical and quantum layers. | 翻訳日:2024-11-07 20:01:55 公開日:2024-10-12 |
# テンソルネットワークと信念伝播を用いた大規模量子アニールシミュレーション
Large-scale quantum annealing simulation with tensor networks and belief propagation ( http://arxiv.org/abs/2409.12240v1 ) ライセンス: Link先を確認 | Ilia A. Luchnikov, Egor S. Tiunov, Tobias Haug, Leandro Aolita, | (参考訳) 量子アニールと量子近似最適化アルゴリズムは、最適化問題を高速化する大きな可能性を秘めている。
これは、多くのアプリケーションにとって、ゲーム変更になるかもしれない。
しかし、古典的な解法を破るためには、量子回路は現在のハードウェアを超える大きさと性能にスケールする必要がある。
この探索において、最近3つの正則グラフの最適化に激しい実験努力が注がれている。
しかし、量子解くのに必要な量子リソースの量と質が古典的よりも優れているかどうかは不明である。
ここでは,3つの正則グラフに対する量子アニールが,全接続性を持つ1000量子ビットと50000002量子ゲートのスケールにおいても古典的にシミュレート可能であることを示す。
この目的のために, ほぼ断熱進化のトロッター回路の高精度なシミュレーションが可能なグラフテンソル-ネットワーク量子アニール (GTQA) を開発した。
GTQAは、最近提案されたテンソル正準化の信念伝播技術に基づいて、回路がかなりの絡み合いを生じているにもかかわらず近似誤差を小さく抑える再ゲージとトランケーションプリミティブを備えている。
その結果、最大結合次元が 4 である場合でも、GTQA は最先端の古典的解法と競合する解を生成する。
非退化インスタンスの場合、一意解は最後の縮小された単一量子状態から読み出すことができる。
対照的に、MaxCutのような退化問題に対して、グラフテンソル-ネットワーク状態に対する近似測定シミュレーションアルゴリズムを導入する。
一方,GTQAは量子にインスパイアされた強力なオプティマイザとしての可能性を示した。
一方、組合せ最適化における量子スピードアップの実験的なデモンストレーションに必要なバーは大幅に高められた。
Quantum annealing and quantum approximate optimization algorithms hold a great potential to speed-up optimization problems. This could be game-changing for a plethora of applications. Yet, in order to hope to beat classical solvers, quantum circuits must scale up to sizes and performances much beyond current hardware. In that quest, intense experimental effort has been recently devoted to optimizations on 3-regular graphs, which are computationally hard but experimentally relatively amenable. However, even there, the amount and quality of quantum resources required for quantum solvers to outperform classical ones is unclear. Here, we show that quantum annealing for 3-regular graphs can be classically simulated even at scales of 1000 qubits and 5000000 two-qubit gates with all-to-all connectivity. To this end, we develop a graph tensor-network quantum annealer (GTQA) able of high-precision simulations of Trotterized circuits of near-adiabatic evolutions. Based on a recently proposed belief-propagation technique for tensor canonicalization, GTQA is equipped with re-gauging and truncation primitives that keep approximation errors small in spite of the circuits generating significant amounts of entanglement. As a result, even with a maximal bond dimension as low as 4, GTQA produces solutions competitive with those of state-of-the-art classical solvers. For non-degenerate instances, the unique solution can be read out from the final reduced single-qubit states. In contrast, for degenerate problems, such as MaxCut, we introduce an approximate measurement simulation algorithm for graph tensor-network states. On one hand, our findings showcase the potential of GTQA as a powerful quantum-inspired optimizer. On the other hand, they considerably raise the bar required for experimental demonstrations of quantum speed-ups in combinatorial optimizations. | 翻訳日:2024-11-07 15:49:40 公開日:2024-10-12 |
# テンソルネットワークと信念伝播を用いた大規模量子アニールシミュレーション
Large-scale quantum annealing simulation with tensor networks and belief propagation ( http://arxiv.org/abs/2409.12240v2 ) ライセンス: Link先を確認 | Ilia A. Luchnikov, Egor S. Tiunov, Tobias Haug, Leandro Aolita, | (参考訳) 量子アニールと量子近似最適化アルゴリズムは、最適化問題を高速化する大きな可能性を秘めている。
これは、多くのアプリケーションにとって、ゲーム変更になるかもしれない。
しかし、古典的な解法を破るためには、量子回路は現在のハードウェアを超える大きさと性能にスケールする必要がある。
この探索において、最近3つの正則グラフの最適化に激しい実験努力が注がれている。
しかし、量子解くのに必要な量子リソースの量と質が古典的よりも優れているかどうかは不明である。
ここでは,3つの正則グラフに対する量子アニールが,全接続性を持つ1000量子ビットと50000002量子ゲートのスケールにおいても古典的にシミュレート可能であることを示す。
この目的のために, ほぼ断熱進化のトロッター回路の高精度なシミュレーションが可能なグラフテンソル-ネットワーク量子アニール (GTQA) を開発した。
GTQAは、最近提案されたテンソル正準化の信念伝播技術に基づいて、回路がかなりの絡み合いを生じているにもかかわらず近似誤差を小さく抑える再ゲージとトランケーションプリミティブを備えている。
その結果、最大結合次元が 4 である場合でも、GTQA は最先端の古典的解法と競合する解を生成する。
非退化インスタンスの場合、一意解は最後の縮小された単一量子状態から読み出すことができる。
対照的に、MaxCutのような退化問題に対して、グラフテンソル-ネットワーク状態に対する近似測定シミュレーションアルゴリズムを導入する。
一方,GTQAは量子にインスパイアされた強力なオプティマイザとしての可能性を示した。
一方、組合せ最適化における量子スピードアップの実験的なデモンストレーションに必要なバーは大幅に高められた。
Quantum annealing and quantum approximate optimization algorithms hold a great potential to speed-up optimization problems. This could be game-changing for a plethora of applications. Yet, in order to hope to beat classical solvers, quantum circuits must scale up to sizes and performances much beyond current hardware. In that quest, intense experimental effort has been recently devoted to optimizations on 3-regular graphs, which are computationally hard but experimentally relatively amenable. However, even there, the amount and quality of quantum resources required for quantum solvers to outperform classical ones is unclear. Here, we show that quantum annealing for 3-regular graphs can be classically simulated even at scales of 1000 qubits and 5000000 two-qubit gates with all-to-all connectivity. To this end, we develop a graph tensor-network quantum annealer (GTQA) able of high-precision simulations of Trotterized circuits of near-adiabatic evolutions. Based on a recently proposed belief-propagation technique for tensor canonicalization, GTQA is equipped with re-gauging and truncation primitives that keep approximation errors small in spite of the circuits generating significant amounts of entanglement. As a result, even with a maximal bond dimension as low as 4, GTQA produces solutions competitive with those of state-of-the-art classical solvers. For non-degenerate instances, the unique solution can be read out from the final reduced single-qubit states. In contrast, for degenerate problems, such as MaxCut, we introduce an approximate measurement simulation algorithm for graph tensor-network states. On one hand, our findings showcase the potential of GTQA as a powerful quantum-inspired optimizer. On the other hand, they considerably raise the bar required for experimental demonstrations of quantum speed-ups in combinatorial optimizations. | 翻訳日:2024-11-07 15:49:40 公開日:2024-10-12 |
# 物理埋め込み移動学習による翼の高速空力予測
Rapid aerodynamic prediction of swept wings via physics-embedded transfer learning ( http://arxiv.org/abs/2409.12711v1 ) ライセンス: Link先を確認 | Yunjia Yang, Runze Li, Yufei Zhang, Lu Lu, Haixin Chen, | (参考訳) 機械学習ベースのモデルは、超音速旋回翼の流れ場を迅速に取得する有望な方法を提供するが、トレーニングデータセットを確立する上で大きな計算コストに悩まされている。
本稿では,翼まわりの3次元流れ場を断面翼まわりの2次元流れ場で解析できるという考えを生かして,モデルを効率的に訓練する物理埋め込み移動学習フレームワークを提案する。
エアフォイルの空気力学予測モデルは、エアフォイルのサンプルで事前訓練される。
そして、翼間移動モデルに数個の翼サンプルを微調整し、各断面の2次元結果に基づいて3次元流れ場を予測する。
対応する翼形状と動作条件を決定する際には,スイープ理論が組み込まれ,動作条件の一つである断面翼リフト係数,低忠実渦格子法,およびデータ駆動法が提案され,評価されている。
非参照モデルと比較して、事前訓練されたモデルの導入はエラーを30%削減する一方、スイープ理論の導入はエラーをさらに9%削減する。
データセットのサイズを減らすためには、ウィングトレーニングサンプルの半分未満は、非トランスファーフレームワークと同じエラーレベルに達する必要がある。
Machine learning-based models provide a promising way to rapidly acquire transonic swept wing flow fields but suffer from large computational costs in establishing training datasets. Here, we propose a physics-embedded transfer learning framework to efficiently train the model by leveraging the idea that a three-dimensional flow field around wings can be analyzed with two-dimensional flow fields around cross-sectional airfoils. An airfoil aerodynamics prediction model is pretrained with airfoil samples. Then, an airfoil-to-wing transfer model is fine-tuned with a few wing samples to predict three-dimensional flow fields based on two-dimensional results on each spanwise cross section. Sweep theory is embedded when determining the corresponding airfoil geometry and operating conditions, and to obtain the sectional airfoil lift coefficient, which is one of the operating conditions, the low-fidelity vortex lattice method and data-driven methods are proposed and evaluated. Compared to a nontransfer model, introducing the pretrained model reduces the error by 30%, while introducing sweep theory further reduces the error by 9%. When reducing the dataset size, less than half of the wing training samples are need to reach the same error level as the nontransfer framework, which makes establishing the model much easier. | 翻訳日:2024-11-07 13:45:42 公開日:2024-10-12 |
# 物理埋め込み移動学習による翼の高速空力予測
Rapid aerodynamic prediction of swept wings via physics-embedded transfer learning ( http://arxiv.org/abs/2409.12711v2 ) ライセンス: Link先を確認 | Yunjia Yang, Runze Li, Yufei Zhang, Lu Lu, Haixin Chen, | (参考訳) 機械学習ベースのモデルは、超音速旋回翼の流れ場を迅速に取得する有望な方法を提供するが、トレーニングデータセットを確立する上で大きな計算コストに悩まされている。
本稿では,翼まわりの3次元流れ場を断面翼まわりの2次元流れ場で解析できるという考えを生かして,モデルを効率的に訓練する物理埋め込み移動学習フレームワークを提案する。
エアフォイルの空気力学予測モデルは、エアフォイルのサンプルで事前訓練される。
そして、翼間移動モデルに数個の翼サンプルを微調整し、各断面の2次元結果に基づいて3次元流れ場を予測する。
対応する翼形状と動作条件を決定する際には,スイープ理論が組み込まれ,動作条件の一つである断面翼リフト係数,低忠実渦格子法,およびデータ駆動法が提案され,評価されている。
非参照モデルと比較して、事前訓練されたモデルの導入はエラーを30%削減する一方、スイープ理論の導入はエラーをさらに9%削減する。
データセットのサイズを減らすためには、ウィングトレーニングサンプルの半分未満は、非トランスファーフレームワークと同じエラーレベルに達する必要がある。
Machine learning-based models provide a promising way to rapidly acquire transonic swept wing flow fields but suffer from large computational costs in establishing training datasets. Here, we propose a physics-embedded transfer learning framework to efficiently train the model by leveraging the idea that a three-dimensional flow field around wings can be analyzed with two-dimensional flow fields around cross-sectional airfoils. An airfoil aerodynamics prediction model is pretrained with airfoil samples. Then, an airfoil-to-wing transfer model is fine-tuned with a few wing samples to predict three-dimensional flow fields based on two-dimensional results on each spanwise cross section. Sweep theory is embedded when determining the corresponding airfoil geometry and operating conditions, and to obtain the sectional airfoil lift coefficient, which is one of the operating conditions, the low-fidelity vortex lattice method and data-driven methods are proposed and evaluated. Compared to a nontransfer model, introducing the pretrained model reduces the error by 30%, while introducing sweep theory further reduces the error by 9%. When reducing the dataset size, less than half of the wing training samples are need to reach the same error level as the nontransfer framework, which makes establishing the model much easier. | 翻訳日:2024-11-07 13:45:42 公開日:2024-10-12 |
# 画像記述における言語間・言語間差異
Cross-Lingual and Cross-Cultural Variation in Image Descriptions ( http://arxiv.org/abs/2409.16646v2 ) ライセンス: Link先を確認 | Uri Berger, Edoardo M. Ponti, | (参考訳) 異なる言語の話者は、彼らが見ているものについて異なる方法で話しますか?
行動・認知研究は文化的な影響が知覚に与える影響を報告しているが、これらはほとんどスコープに限られており、複製が困難である。
本研究では,画像記述における言語間変化に関する大規模な実証的研究を行う。
本研究は,31の言語と多様な場所からの画像からなるマルチモーダルデータセットを用いて,キャプションに記述されたエンティティを正確に識別し,画像中に存在するエンティティを識別し,言語間でどのように異なるかを測定する手法を開発した。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向にある。
また,サリエンシが普遍的に高いエンティティカテゴリ(アニメート・アソシエイトなど)や低い(クロース・アクセサリ),言語(ランドスケープ)間でのばらつきの大きいエンティティカテゴリも識別する。
ケーススタディでは、特定の言語対の違い(例えば、日本語では、英語よりもはるかに頻繁に衣服に言及する)を測定する。
さらに,本手法は,従来の小規模研究と相関する。
1) Rosch et al (1976)'s theory of basic-level category, demonstrate a preference for entity that is too generic and too specific, and and。
2) 宮本ら (2006) の仮説では, 環境には実体数などの知覚パターンが存在する。
全体として、私たちの研究は、エンティティの言及における普遍的パターンと文化特有のパターンの両方の存在を明らかにしています。
Do speakers of different languages talk differently about what they see? Behavioural and cognitive studies report cultural effects on perception; however, these are mostly limited in scope and hard to replicate. In this work, we conduct the first large-scale empirical study of cross-lingual variation in image descriptions. Using a multimodal dataset with 31 languages and images from diverse locations, we develop a method to accurately identify entities mentioned in captions and present in the images, then measure how they vary across languages. Our analysis reveals that pairs of languages that are geographically or genetically closer tend to mention the same entities more frequently. We also identify entity categories whose saliency is universally high (such as animate beings), low (clothing accessories) or displaying high variance across languages (landscape). In a case study, we measure the differences in a specific language pair (e.g., Japanese mentions clothing far more frequently than English). Furthermore, our method corroborates previous small-scale studies, including 1) Rosch et al. (1976)'s theory of basic-level categories, demonstrating a preference for entities that are neither too generic nor too specific, and 2) Miyamoto et al. (2006)'s hypothesis that environments afford patterns of perception, such as entity counts. Overall, our work reveals the presence of both universal and culture-specific patterns in entity mentions. | 翻訳日:2024-11-06 17:20:02 公開日:2024-10-12 |
# 画像記述における言語間・言語間差異
Cross-Lingual and Cross-Cultural Variation in Image Descriptions ( http://arxiv.org/abs/2409.16646v3 ) ライセンス: Link先を確認 | Uri Berger, Edoardo M. Ponti, | (参考訳) 異なる言語の話者は、彼らが見ているものについて異なる方法で話しますか?
行動・認知研究は文化的な影響が知覚に与える影響を報告しているが、これらはほとんどスコープに限られており、複製が困難である。
本研究では,画像記述における言語間変化に関する大規模な実証的研究を行う。
本研究は,31の言語と多様な場所からの画像からなるマルチモーダルデータセットを用いて,キャプションに記述されたエンティティを正確に識別し,画像中に存在するエンティティを識別し,言語間でどのように異なるかを測定する手法を開発した。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向にある。
また,サリエンシが普遍的に高いエンティティカテゴリ(アニメート・アソシエイトなど)や低い(クロース・アクセサリ),言語(ランドスケープ)間でのばらつきの大きいエンティティカテゴリも識別する。
ケーススタディでは、特定の言語対の違い(例えば、日本語では、英語よりもはるかに頻繁に衣服に言及する)を測定する。
さらに,本手法は,従来の小規模研究と相関する。
1) Rosch et al (1976)'s theory of basic-level category, demonstrate a preference for entity that is too generic and too specific, and and。
2) 宮本ら (2006) の仮説では, 環境には実体数などの知覚パターンが存在する。
全体として、私たちの研究は、エンティティの言及における普遍的パターンと文化特有のパターンの両方の存在を明らかにしています。
Do speakers of different languages talk differently about what they see? Behavioural and cognitive studies report cultural effects on perception; however, these are mostly limited in scope and hard to replicate. In this work, we conduct the first large-scale empirical study of cross-lingual variation in image descriptions. Using a multimodal dataset with 31 languages and images from diverse locations, we develop a method to accurately identify entities mentioned in captions and present in the images, then measure how they vary across languages. Our analysis reveals that pairs of languages that are geographically or genetically closer tend to mention the same entities more frequently. We also identify entity categories whose saliency is universally high (such as animate beings), low (clothing accessories) or displaying high variance across languages (landscape). In a case study, we measure the differences in a specific language pair (e.g., Japanese mentions clothing far more frequently than English). Furthermore, our method corroborates previous small-scale studies, including 1) Rosch et al. (1976)'s theory of basic-level categories, demonstrating a preference for entities that are neither too generic nor too specific, and 2) Miyamoto et al. (2006)'s hypothesis that environments afford patterns of perception, such as entity counts. Overall, our work reveals the presence of both universal and culture-specific patterns in entity mentions. | 翻訳日:2024-11-06 17:20:02 公開日:2024-10-12 |
# 長期検索と推論の多言語的評価
Multilingual Evaluation of Long Context Retrieval and Reasoning ( http://arxiv.org/abs/2409.18006v2 ) ライセンス: Link先を確認 | Ameeta Agrawal, Andy Dang, Sina Bagheri Nezhad, Rhitabrat Pokharel, Russell Scheinberg, | (参考訳) 最近の大規模言語モデル (LLM) は、長い文脈を扱う際、顕著な能力を示し、そのうちのいくつかは、合成検索タスクにおけるほぼ完璧なリコールを示している。
しかし、これらの評価は主に英語のテキストに焦点を合わせており、長い文脈で1つのターゲット文が関係している。
本研究は,LLMの性能が複数の目的文を隠蔽した多言語設定にどのように一般化するかを考察する。
我々は、英語、ベトナム語、インドネシア語、スワヒリ語、ソマリ語という5つの言語における検索と推論のタスクについて、いくつかの長文LLMを包括的に評価した。
これらの言語はラテン文字を共有しているが、異なる言語ファミリーとリソースレベルに属している。
分析の結果,言語間の性能差が顕著であることがわかった。
Gemini-1.5やGPT-4oのような最高のパフォーマンスモデルは、英語で約96%の精度を達成し、ソマリ語では約36%の精度を目標文で達成している。
しかし、この精度は英語では40%、ソマリでは0%にまで低下する。
以上の結果から,LLMの長文処理における課題,目的文数の増加,リソースレベルの低い言語の増加が浮き彫りになった。
Recent large language models (LLMs) demonstrate impressive capabilities in handling long contexts, some exhibiting near-perfect recall on synthetic retrieval tasks. However, these evaluations have mainly focused on English text and involved a single target sentence within lengthy contexts. Our work investigates how LLM performance generalizes to multilingual settings with multiple hidden target sentences. We comprehensively evaluate several long-context LLMs on retrieval and reasoning tasks across five languages: English, Vietnamese, Indonesian, Swahili, and Somali. These languages share the Latin script but belong to distinct language families and resource levels. Our analysis reveals a significant performance gap between languages. The best-performing models such as Gemini-1.5 and GPT-4o, achieve around 96% accuracy in English to around 36% in Somali with a single target sentence. However, this accuracy drops to 40% in English and 0% in Somali when dealing with three target sentences. Our findings highlight the challenges long-context LLMs face when processing longer contexts, an increase in the number of target sentences, or languages of lower resource levels. | 翻訳日:2024-11-06 16:00:56 公開日:2024-10-12 |
# 検索と推論のための多言語長文脈モデルの評価
Evaluating Multilingual Long-Context Models for Retrieval and Reasoning ( http://arxiv.org/abs/2409.18006v3 ) ライセンス: Link先を確認 | Ameeta Agrawal, Andy Dang, Sina Bagheri Nezhad, Rhitabrat Pokharel, Russell Scheinberg, | (参考訳) 最近の大規模言語モデル (LLM) は、長い文脈を扱う際、顕著な能力を示し、そのうちのいくつかは、合成検索タスクにおけるほぼ完璧なリコールを示している。
しかし、これらの評価は主に英語のテキストに焦点を合わせており、長い文脈で1つのターゲット文が関係している。
本研究は,LLMの性能が複数の目的文を隠蔽した多言語設定にどのように一般化するかを考察する。
我々はmLongRRという新しいデータセットを作成し、英語、ベトナム語、インドネシア語、スワヒリ語、ソマリ語という5つの言語にわたる検索と推論タスクに関する複数の多言語LLMを包括的に評価する。
これらの言語はラテン文字を共有しているが、異なる言語ファミリーとリソースレベルに属している。
分析の結果,言語間の性能差が顕著であることがわかった。
Gemini-1.5やGPT-4oのような最高のパフォーマンスモデルは、英語で約96%の精度を達成し、ソマリ語では約36%の精度を目標文で達成している。
しかし、この精度は英語では40%、ソマリでは0%にまで低下する。
以上の結果から,LLMの長文処理における課題,目的文数の増加,リソースレベルの低い言語の増加が浮き彫りになった。
Recent large language models (LLMs) demonstrate impressive capabilities in handling long contexts, some exhibiting near-perfect recall on synthetic retrieval tasks. However, these evaluations have mainly focused on English text and involved a single target sentence within lengthy contexts. Our work investigates how LLM performance generalizes to multilingual settings with multiple hidden target sentences. We create a new dataset -- mLongRR -- to comprehensively evaluate several multilingual long-context LLMs on retrieval and reasoning tasks across five languages: English, Vietnamese, Indonesian, Swahili, and Somali. These languages share the Latin script but belong to distinct language families and resource levels. Our analysis reveals a significant performance gap between languages. The best-performing models such as Gemini-1.5 and GPT-4o, achieve around 96% accuracy in English to around 36% in Somali with a single target sentence. However, this accuracy drops to 40% in English and 0% in Somali when dealing with three target sentences. Our findings highlight the challenges long-context LLMs face when processing longer contexts, an increase in the number of target sentences, or languages of lower resource levels. | 翻訳日:2024-11-06 15:51:02 公開日:2024-10-12 |
# リモートセンシング画像キャプション改善のためのTextGCNに基づくデコード手法
A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning ( http://arxiv.org/abs/2409.18467v1 ) ライセンス: Link先を確認 | Swadhin Das, Raksha Sharma, | (参考訳) リモートセンシング画像は、リスク管理、セキュリティ、気象学といった複雑な現実世界の問題に対処する能力が高い。
しかし、これらの画像の字幕化は困難であり、諸藩の専門知識を必要とする。
このレターは、リモートセンシング画像を自動的に記述(カプセル化)するためのアプローチを示す。
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
さらに,最終キャプションを生成するための探索戦略の公平性を確保するために,比較ベースのビームサーチ手法を用いてアプローチを進めた。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
我々は, BLEU-1からBLEU-4, METEOR, ROUGE-L, CIDErの3つの指標を用いて, 評価を行った。
その結果,本手法は他のエンコーダ・デコーダ法よりも優れていることがわかった。
Remote sensing images are highly valued for their ability to address complex real-world issues such as risk management, security, and meteorology. However, manually captioning these images is challenging and requires specialized knowledge across various domains. This letter presents an approach for automatically describing (captioning) remote sensing images. We propose a novel encoder-decoder setup that deploys a Text Graph Convolutional Network (TextGCN) and multi-layer LSTMs. The embeddings generated by TextGCN enhance the decoder's understanding by capturing the semantic relationships among words at both the sentence and corpus levels. Furthermore, we advance our approach with a comparison-based beam search method to ensure fairness in the search strategy for generating the final caption. We present an extensive evaluation of our approach against various other state-of-the-art encoder-decoder frameworks. We evaluated our method across three datasets using seven metrics: BLEU-1 to BLEU-4, METEOR, ROUGE-L, and CIDEr. The results demonstrate that our approach significantly outperforms other state-of-the-art encoder-decoder methods. | 翻訳日:2024-11-06 06:02:07 公開日:2024-10-12 |
# リモートセンシング画像キャプション改善のためのTextGCNに基づくデコード手法
A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning ( http://arxiv.org/abs/2409.18467v2 ) ライセンス: Link先を確認 | Swadhin Das, Raksha Sharma, | (参考訳) リモートセンシング画像は、リスク管理、セキュリティ、気象学といった複雑な現実世界の問題に対処する能力が高い。
しかし、これらの画像の字幕化は困難であり、諸藩の専門知識を必要とする。
このレターは、リモートセンシング画像を自動的に記述(カプセル化)するためのアプローチを示す。
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
さらに,最終キャプションを生成するための探索戦略の公平性を確保するために,比較ベースのビームサーチ手法を用いてアプローチを進めた。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
我々は, BLEU-1からBLEU-4, METEOR, ROUGE-L, CIDErの3つの指標を用いて, 評価を行った。
その結果,本手法は他のエンコーダ・デコーダ法よりも優れていることがわかった。
Remote sensing images are highly valued for their ability to address complex real-world issues such as risk management, security, and meteorology. However, manually captioning these images is challenging and requires specialized knowledge across various domains. This letter presents an approach for automatically describing (captioning) remote sensing images. We propose a novel encoder-decoder setup that deploys a Text Graph Convolutional Network (TextGCN) and multi-layer LSTMs. The embeddings generated by TextGCN enhance the decoder's understanding by capturing the semantic relationships among words at both the sentence and corpus levels. Furthermore, we advance our approach with a comparison-based beam search method to ensure fairness in the search strategy for generating the final caption. We present an extensive evaluation of our approach against various other state-of-the-art encoder-decoder frameworks. We evaluated our method across three datasets using seven metrics: BLEU-1 to BLEU-4, METEOR, ROUGE-L, and CIDEr. The results demonstrate that our approach significantly outperforms other state-of-the-art encoder-decoder methods. | 翻訳日:2024-11-06 06:02:07 公開日:2024-10-12 |
# リモートセンシング画像キャプション改善のためのTextGCNに基づくデコード手法
A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning ( http://arxiv.org/abs/2409.18467v3 ) ライセンス: Link先を確認 | Swadhin Das, Raksha Sharma, | (参考訳) リモートセンシング画像は、リスク管理、セキュリティ、気象学といった複雑な現実世界の問題に対処する能力が高い。
しかし、これらの画像の字幕化は困難であり、諸藩の専門知識を必要とする。
このレターは、リモートセンシング画像を自動的に記述(カプセル化)するためのアプローチを示す。
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
さらに,最終キャプションを生成するための探索戦略の公平性を確保するために,比較ベースのビームサーチ手法を用いてアプローチを進めた。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
我々は, BLEU-1からBLEU-4, METEOR, ROUGE-L, CIDErの3つの指標を用いて, 評価を行った。
その結果,本手法は他のエンコーダ・デコーダ法よりも優れていることがわかった。
Remote sensing images are highly valued for their ability to address complex real-world issues such as risk management, security, and meteorology. However, manually captioning these images is challenging and requires specialized knowledge across various domains. This letter presents an approach for automatically describing (captioning) remote sensing images. We propose a novel encoder-decoder setup that deploys a Text Graph Convolutional Network (TextGCN) and multi-layer LSTMs. The embeddings generated by TextGCN enhance the decoder's understanding by capturing the semantic relationships among words at both the sentence and corpus levels. Furthermore, we advance our approach with a comparison-based beam search method to ensure fairness in the search strategy for generating the final caption. We present an extensive evaluation of our approach against various other state-of-the-art encoder-decoder frameworks. We evaluated our method across three datasets using seven metrics: BLEU-1 to BLEU-4, METEOR, ROUGE-L, and CIDEr. The results demonstrate that our approach significantly outperforms other state-of-the-art encoder-decoder methods. | 翻訳日:2024-11-06 06:02:07 公開日:2024-10-12 |
# 特許ワークフローの自動化に向けて - 知的財産管理と分析のためのAI組織型マルチエージェントフレームワーク
Towards Automated Patent Workflows: AI-Orchestrated Multi-Agent Framework for Intellectual Property Management and Analysis ( http://arxiv.org/abs/2409.19006v1 ) ライセンス: Link先を確認 | Sakhinana Sagar Srinivas, Vijay Sri Vaikunth, Venkataramana Runkana, | (参考訳) 特許はイノベーションの通貨であり、あらゆる通貨と同様に、管理され保護される必要がある(Gavin Potenza)。
知的財産権を確保する法的文書としての特許は、技術革新において重要な役割を果たす。
特許文書の複雑さの増大と特許出願の急増により、特許分析における自動化されたソリューションの必要性が生まれている。
本稿では,特許関連タスクの合理化と最適化を目的とした,自律型マルチエージェント対話フレームワークPatExpertを紹介する。
このフレームワークは、さまざまな特許関連のタスクに対してタスク固有の専門家エージェントをコーディネートするメタエージェントと、エラーハンドリングとフィードバックプロビジョニングのための批判エージェントで構成されている。
メタエージェントは専門の専門家エージェントを編成し、それぞれが特許分類、受理、クレーム生成、抽象的な要約、多面的分析、科学的仮説生成などの特定のタスクのために微調整される。
マルチパタント分析のために、このフレームワークはグラフ検索拡張生成(GRAG)のような高度な手法を導入し、知識グラフと意味的類似性を組み合わせることで応答精度と妥当性を高める。
エラー処理は批判エージェント(Gold-LLM-as-a-JudgeおよびReward-LLM-as-a-Judge)によって管理され、正確さの出力応答を評価し、反復的なフィードバックを提供する。
また、このフレームワークは説明可能性も優先し、特許分析中になされた決定を透明に正当化する。
その包括的な能力は、複雑な特許ワークフローの自動化、効率性、正確性、および特許関連タスクのコンプライアンスの強化に有用なツールである。
実証的な証拠は、特許処理タスクの大幅な改善を示し、このフレームワークは特許分析の自動化と最適化のための堅牢なソリューションを提供する、と結論付けている。
Patents are the currency of innovation, and like any currency, they need to be managed and protected (Gavin Potenza). Patents, as legal documents that secure intellectual property rights, play a critical role in technological innovation. The growing complexity of patent documents and the surge in patent applications have created a need for automated solutions in patent analysis. In this work, we present PatExpert, an autonomous multi-agent conversational framework designed to streamline and optimize patent-related tasks. The framework consists of a metaagent that coordinates task-specific expert agents for various patent-related tasks and a critique agent for error handling and feedback provision. The meta-agent orchestrates specialized expert agents, each fine-tuned for specific tasks such as patent classification, acceptance, claim generation, abstractive summarization, multi-patent analysis, and scientific hypothesis generation. For multi-patent analysis, the framework incorporates advanced methods like Graph Retrieval-Augmented Generation (GRAG) to enhance response accuracy and relevance by combining semantic similarity with knowledge graphs. Error handling is managed by critique agents (Gold-LLM-as-a-Judge and Reward-LLM-as-a-Judge), which evaluate output responses for accuracy and provide iterative feedback. The framework also prioritizes explainability, ensuring transparent justifications for decisions made during patent analysis. Its comprehensive capabilities make it a valuable tool for automating complex patent workflows, enhancing efficiency, accuracy, and compliance in patent-related tasks. Empirical evidence demonstrates significant improvements in patent processing tasks, concluding that the framework offers a robust solution for automating and optimizing patent analysis. | 翻訳日:2024-11-06 05:00:47 公開日:2024-10-12 |
# 特許ワークフローの自動化に向けて - 知的財産管理と分析のためのAI組織型マルチエージェントフレームワーク
Towards Automated Patent Workflows: AI-Orchestrated Multi-Agent Framework for Intellectual Property Management and Analysis ( http://arxiv.org/abs/2409.19006v2 ) ライセンス: Link先を確認 | Sakhinana Sagar Srinivas, Vijay Sri Vaikunth, Venkataramana Runkana, | (参考訳) 特許はイノベーションの通貨であり、あらゆる通貨と同様に、管理され保護される必要がある(Gavin Potenza)。
知的財産権を確保する法的文書としての特許は、技術革新において重要な役割を果たす。
特許文書の複雑さの増大と特許出願の急増により、特許分析における自動化されたソリューションの必要性が生まれている。
本稿では,特許関連タスクの合理化と最適化を目的とした,自律型マルチエージェント対話フレームワークPatExpertを紹介する。
このフレームワークは、さまざまな特許関連のタスクに対してタスク固有の専門家エージェントをコーディネートするメタエージェントと、エラーハンドリングとフィードバックプロビジョニングのための批判エージェントで構成されている。
メタエージェントは専門の専門家エージェントを編成し、それぞれが特許分類、受理、クレーム生成、抽象的な要約、多面的分析、科学的仮説生成などの特定のタスクのために微調整される。
マルチパタント分析のために、このフレームワークはグラフ検索拡張生成(GRAG)のような高度な手法を導入し、知識グラフと意味的類似性を組み合わせることで応答精度と妥当性を高める。
エラー処理は批判エージェント(Gold-LLM-as-a-JudgeおよびReward-LLM-as-a-Judge)によって管理され、正確さの出力応答を評価し、反復的なフィードバックを提供する。
また、このフレームワークは説明可能性も優先し、特許分析中になされた決定を透明に正当化する。
その包括的な能力は、複雑な特許ワークフローの自動化、効率性、正確性、および特許関連タスクのコンプライアンスの強化に有用なツールである。
実証的な証拠は、特許処理タスクの大幅な改善を示し、このフレームワークは特許分析の自動化と最適化のための堅牢なソリューションを提供する、と結論付けている。
Patents are the currency of innovation, and like any currency, they need to be managed and protected (Gavin Potenza). Patents, as legal documents that secure intellectual property rights, play a critical role in technological innovation. The growing complexity of patent documents and the surge in patent applications have created a need for automated solutions in patent analysis. In this work, we present PatExpert, an autonomous multi-agent conversational framework designed to streamline and optimize patent-related tasks. The framework consists of a metaagent that coordinates task-specific expert agents for various patent-related tasks and a critique agent for error handling and feedback provision. The meta-agent orchestrates specialized expert agents, each fine-tuned for specific tasks such as patent classification, acceptance, claim generation, abstractive summarization, multi-patent analysis, and scientific hypothesis generation. For multi-patent analysis, the framework incorporates advanced methods like Graph Retrieval-Augmented Generation (GRAG) to enhance response accuracy and relevance by combining semantic similarity with knowledge graphs. Error handling is managed by critique agents (Gold-LLM-as-a-Judge and Reward-LLM-as-a-Judge), which evaluate output responses for accuracy and provide iterative feedback. The framework also prioritizes explainability, ensuring transparent justifications for decisions made during patent analysis. Its comprehensive capabilities make it a valuable tool for automating complex patent workflows, enhancing efficiency, accuracy, and compliance in patent-related tasks. Empirical evidence demonstrates significant improvements in patent processing tasks, concluding that the framework offers a robust solution for automating and optimizing patent analysis. | 翻訳日:2024-11-06 05:00:47 公開日:2024-10-12 |
# 安全で高品質なコード生成のためのロードマップ
Artificial-Intelligence Generated Code Considered Harmful: A Road Map for Secure and High-Quality Code Generation ( http://arxiv.org/abs/2409.19182v1 ) ライセンス: Link先を確認 | Chun Jie Chong, Zhihao, Yao, Iulian Neamtiu, | (参考訳) LLMによるコード生成(スクラッチからコードを書くのではなく)は、人気を博している。
しかし、LLM生成コードのセキュリティへの影響はいまだ不明である。
我々は、データ構造、アルゴリズム、暗号ルーチン、LeetCode質問など、幅広いプログラミングタスクに対して、人間の書いたコードとLLM生成コードのセキュリティと品質を比較した。
コードのセキュリティを評価するために、ユニットテスト、ファジィ、静的分析を使用しました。
コード品質に関しては、複雑さとサイズに重点を置いています。
LLMは、特に複雑なタスクのために、必要な機能を実装するのに失敗する間違ったコードを生成することができる。
例えば、暗号アルゴリズムのSHA1では、LLMは不正な実装を生成した。
その機能が正しい場合、LLM生成コードは安全性が低く、主に防御的なプログラミング構造がないため、バッファオーバーフローや整数オーバーフローといったセキュリティ上の問題を招いている。
ファジングは、LLMの生成したコードは、人間が書いたコードよりもハングやクラッシュしやすいことを明らかにした。
品質面では、LLMは防御的なプログラミング構造が欠如しており、典型的には人間の書いたコードよりも複雑(一行あたりのコード)であるベアボーンコードを生成する。
次に、フィードバックループを構築し、LCMにコードを再生成し、見いだされた問題(例えば、maloc overflow、境界から配列インデックス、nullの参照)を取り除くように要求しました。
いくつかのケースでは、再生成された、よりセキュアと思われるコードが新しい問題を含むケースが見つかりました。
Generating code via a LLM (rather than writing code from scratch), has exploded in popularity. However, the security implications of LLM-generated code are still unknown. We performed a study that compared the security and quality of human-written code with that of LLM-generated code, for a wide range of programming tasks, including data structures, algorithms, cryptographic routines, and LeetCode questions. To assess code security we used unit testing, fuzzing, and static analysis. For code quality, we focused on complexity and size. We found that LLM can generate incorrect code that fails to implement the required functionality, especially for more complicated tasks; such errors can be subtle. For example, for the cryptographic algorithm SHA1, LLM generated an incorrect implementation that nevertheless compiles. In cases where its functionality was correct, we found that LLM-generated code is less secure, primarily due to the lack of defensive programming constructs, which invites a host of security issues such as buffer overflows or integer overflows. Fuzzing has revealed that LLM-generated code is more prone to hangs and crashes than human-written code. Quality-wise, we found that LLM generates bare-bones code that lacks defensive programming constructs, and is typically more complex (per line of code) compared to human-written code. Next, we constructed a feedback loop that asked the LLM to re-generate the code and eliminate the found issues (e.g., malloc overflow, array index out of bounds, null dereferences). We found that the LLM fails to eliminate such issues consistently: while succeeding in some cases, we found instances where the re-generated, supposedly more secure code, contains new issues; we also found that upon prompting, LLM can introduce issues in files that were issues-free before prompting. | 翻訳日:2024-11-06 04:01:11 公開日:2024-10-12 |
# 安全で高品質なコード生成のためのロードマップ
Artificial-Intelligence Generated Code Considered Harmful: A Road Map for Secure and High-Quality Code Generation ( http://arxiv.org/abs/2409.19182v2 ) ライセンス: Link先を確認 | Chun Jie Chong, Zhihao Yao, Iulian Neamtiu, | (参考訳) LLMによるコード生成(スクラッチからコードを書くのではなく)は、人気を博している。
しかし、LLM生成コードのセキュリティへの影響はいまだ不明である。
我々は、データ構造、アルゴリズム、暗号ルーチン、LeetCode質問など、幅広いプログラミングタスクに対して、人間の書いたコードとLLM生成コードのセキュリティと品質を比較した。
コードのセキュリティを評価するために、ユニットテスト、ファジィ、静的分析を使用しました。
コード品質に関しては、複雑さとサイズに重点を置いています。
LLMは、特に複雑なタスクのために、必要な機能を実装するのに失敗する間違ったコードを生成することができる。
例えば、暗号アルゴリズムのSHA1では、LLMは不正な実装を生成した。
その機能が正しい場合、LLM生成コードは安全性が低く、主に防御的なプログラミング構造がないため、バッファオーバーフローや整数オーバーフローといったセキュリティ上の問題を招いている。
ファジングは、LLMの生成したコードは、人間が書いたコードよりもハングやクラッシュしやすいことを明らかにした。
品質面では、LLMは防御的なプログラミング構造が欠如しており、典型的には人間の書いたコードよりも複雑(一行あたりのコード)であるベアボーンコードを生成する。
次に、フィードバックループを構築し、LCMにコードを再生成し、見いだされた問題(例えば、maloc overflow、境界から配列インデックス、nullの参照)を取り除くように要求しました。
いくつかのケースでは、再生成された、よりセキュアと思われるコードが新しい問題を含むケースが見つかりました。
Generating code via a LLM (rather than writing code from scratch), has exploded in popularity. However, the security implications of LLM-generated code are still unknown. We performed a study that compared the security and quality of human-written code with that of LLM-generated code, for a wide range of programming tasks, including data structures, algorithms, cryptographic routines, and LeetCode questions. To assess code security we used unit testing, fuzzing, and static analysis. For code quality, we focused on complexity and size. We found that LLM can generate incorrect code that fails to implement the required functionality, especially for more complicated tasks; such errors can be subtle. For example, for the cryptographic algorithm SHA1, LLM generated an incorrect implementation that nevertheless compiles. In cases where its functionality was correct, we found that LLM-generated code is less secure, primarily due to the lack of defensive programming constructs, which invites a host of security issues such as buffer overflows or integer overflows. Fuzzing has revealed that LLM-generated code is more prone to hangs and crashes than human-written code. Quality-wise, we found that LLM generates bare-bones code that lacks defensive programming constructs, and is typically more complex (per line of code) compared to human-written code. Next, we constructed a feedback loop that asked the LLM to re-generate the code and eliminate the found issues (e.g., malloc overflow, array index out of bounds, null dereferences). We found that the LLM fails to eliminate such issues consistently: while succeeding in some cases, we found instances where the re-generated, supposedly more secure code, contains new issues; we also found that upon prompting, LLM can introduce issues in files that were issues-free before prompting. | 翻訳日:2024-11-06 04:01:11 公開日:2024-10-12 |
# フォトニック結晶導波路のバンドエッジに結合した原子二量体による波長可変光子散乱
Tunable photon scattering by an atom dimer coupled to a band edge of a photonic crystal waveguide ( http://arxiv.org/abs/2409.20300v2 ) ライセンス: Link先を確認 | Guo-Zhu Song, Lin-Xiong Wang, Jing-Xue Zhang, Hai-Rui Wei, | (参考訳) フォトニック結晶の導波路の近くに閉じ込められた量子放出体は、新しい量子物質-光インターフェースを実現するためのエキサイティングなプラットフォームとして最近登場した。
ここでは、任意の空間分離を伴う原子二量体に結合したフォトニック結晶導波路における波長可変光子散乱について検討する。
弱い励起状態では、2つの原子間の距離に依存する波形モードにエネルギーレベルと崩壊率を与える。
サブラディアント状態とスーパーラディアント状態が生成され、共鳴で$\pi$の位相シフトを伴う完全透過が生じるブラッグ症例と抗ブラッグ症例に焦点を当てた。
反ブラッグの場合,反射場における光子-光子相関関数の量子ビートを観測した。
さらに、量子ビートの周波数は、構造体の分散工学を通して境界状態のチューニング性によって制御できる。
また、2つの原子間の距離のずれや、原子崩壊速度の非対称性による導波路モードへの偏差を含む、系の不完全性の影響を定量化する。
超伝導マイクロ波伝送線路の最近の実験的進歩により、我々の成果はすぐに実現できるはずである。
Quantum emitters trapped near photonic crystal waveguides have recently emerged as an exciting platform for realizing novel quantum matter-light interfaces. Here we study tunable photon scattering in a photonic crystal waveguide coupled to an atom dimer with an arbitrary spatial separation. In the weak-excitation regime, we give the energy levels and their decay rates into the waveguide modes in the dressed basis, which both depend on the distance between the two atoms. We focus on the Bragg case and anti-Bragg case, where subradiant and superradiant states are produced and perfect transmission with a $\pi$ phase shift may occur on resonance. We observe quantum beats in the photon-photon correlation function of the reflected field in the anti-Bragg case. Moreover, the frequencies of quantum beats can be controlled due to the tunability of the bound states via the dispersion engineering of the structure. We also quantify the effects of the system imperfections, including the deviation in the distance between the two atoms and the asymmetry in the atomic decay rates into the waveguide modes. With recent experimental advances in the superconducting microwave transmission lines, our results should soon be realizable. | 翻訳日:2024-11-05 15:58:31 公開日:2024-10-12 |
# データのエネルギー・プライバシー・正確性間のトレードオフに関する学際的研究
An interdisciplinary exploration of trade-offs between energy, privacy and accuracy aspects of data ( http://arxiv.org/abs/2410.00069v1 ) ライセンス: Link先を確認 | Pepijn de Reus, Kyra Dresen, Ana Oprescu, Kristina Irion, Ans Kolk, | (参考訳) デジタル時代は、ICTのエネルギー消費の増加やパーソナルデータ処理のプライバシー保護など、多くの社会的課題を提起してきた。
本稿では,学際探索における機械学習の精度に関する両側面について考察する。
まず,プライバシ向上技術がデータ有用性やエネルギー消費に与える影響を計測する手法を提案する。
環境プライバシーと精度のトレードオフは、実験的なセットアップによって発見されます。
我々はその後、これらの技術発見をICT以外の分野の専門家に翻訳するためにストーリーテリングアプローチを採っている。
我々は、その結果を文脈化するために、政府および監査設定のための2つの例を作成した。
究極的には、ユーザーは、エネルギー、プライバシ、そして意思決定の影響が文脈に敏感である場合の正確性の間のトレードオフの中で、データ処理操作を最適化するタスクに直面します。
The digital era has raised many societal challenges, including ICT's rising energy consumption and protecting privacy of personal data processing. This paper considers both aspects in relation to machine learning accuracy in an interdisciplinary exploration. We first present a method to measure the effects of privacy-enhancing techniques on data utility and energy consumption. The environmental-privacy-accuracy trade-offs are discovered through an experimental set-up. We subsequently take a storytelling approach to translate these technical findings to experts in non-ICT fields. We draft two examples for a governmental and auditing setting to contextualise our results. Ultimately, users face the task of optimising their data processing operations in a trade-off between energy, privacy, and accuracy considerations where the impact of their decisions is context-sensitive. | 翻訳日:2024-11-05 15:09:43 公開日:2024-10-12 |
# データのエネルギー・プライバシー・正確性間のトレードオフに関する学際的研究
An interdisciplinary exploration of trade-offs between energy, privacy and accuracy aspects of data ( http://arxiv.org/abs/2410.00069v2 ) ライセンス: Link先を確認 | Pepijn de Reus, Kyra Dresen, Ana Oprescu, Kristina Irion, Ans Kolk, | (参考訳) デジタル時代は、ICTのエネルギー消費の増加やパーソナルデータ処理のプライバシー保護など、多くの社会的課題を提起してきた。
本稿では,学際探索における機械学習の精度に関する両側面について考察する。
まず,プライバシ向上技術がデータ有用性やエネルギー消費に与える影響を計測する手法を提案する。
環境プライバシーと精度のトレードオフは、実験的なセットアップによって発見されます。
我々はその後、これらの技術発見をICT以外の分野の専門家に翻訳するためにストーリーテリングアプローチを採っている。
我々は、その結果を文脈化するために、政府および監査設定のための2つの例を作成した。
究極的には、ユーザーは、エネルギー、プライバシ、そして意思決定の影響が文脈に敏感である場合の正確性の間のトレードオフの中で、データ処理操作を最適化するタスクに直面します。
The digital era has raised many societal challenges, including ICT's rising energy consumption and protecting privacy of personal data processing. This paper considers both aspects in relation to machine learning accuracy in an interdisciplinary exploration. We first present a method to measure the effects of privacy-enhancing techniques on data utility and energy consumption. The environmental-privacy-accuracy trade-offs are discovered through an experimental set-up. We subsequently take a storytelling approach to translate these technical findings to experts in non-ICT fields. We draft two examples for a governmental and auditing setting to contextualise our results. Ultimately, users face the task of optimising their data processing operations in a trade-off between energy, privacy, and accuracy considerations where the impact of their decisions is context-sensitive. | 翻訳日:2024-11-05 15:09:43 公開日:2024-10-12 |
# STanH : 可変レート学習画像圧縮のためのパラメトリック量子化
STanH : Parametric Quantization for Variable Rate Learned Image Compression ( http://arxiv.org/abs/2410.00557v1 ) ライセンス: Link先を確認 | Alberto Presta, Enzo Tartaglione, Attilio Fiandrotti, Marco Grangetto, | (参考訳) エンドツーエンドの学習画像圧縮では、エンコーダとデコーダは、$R + {\lambda}D$コスト関数を最小化するために共同で訓練される。
残念ながら、数百万のパラメータを持つ異なるエンコーダとデコーダのペアは、${\lambda}$ごとにトレーニングされなければならないため、エンコーダを切り替えたり、ターゲットレート毎に複数のエンコーダとデコーダをユーザデバイスに格納する必要がある。
本稿では, 段階的量子化関数を緩和する, 双曲的接点のパラメトリック和STanHを用いて, 微分可能な量子化器を提案する。
STanHは、学習可能な量子化パラメータを事前訓練された固定レートモデルにプラグインし、異なるターゲットビットレートを達成するための改良が可能な、微分可能なアクティベーション層として実装されている。
実験結果から,本手法は,展開の容易さ,トレーニング時間,ストレージコストといった面で,最先端技術に匹敵する効率で可変レートの符号化が可能でありながら,大幅な節約が可能であることが示唆された。
In end-to-end learned image compression, encoder and decoder are jointly trained to minimize a $R + {\lambda}D$ cost function, where ${\lambda}$ controls the trade-off between rate of the quantized latent representation and image quality. Unfortunately, a distinct encoder-decoder pair with millions of parameters must be trained for each ${\lambda}$, hence the need to switch encoders and to store multiple encoders and decoders on the user device for every target rate. This paper proposes to exploit a differentiable quantizer designed around a parametric sum of hyperbolic tangents, called STanH , that relaxes the step-wise quantization function. STanH is implemented as a differentiable activation layer with learnable quantization parameters that can be plugged into a pre-trained fixed rate model and refined to achieve different target bitrates. Experimental results show that our method enables variable rate coding with comparable efficiency to the state-of-the-art, yet with significant savings in terms of ease of deployment, training time, and storage costs | 翻訳日:2024-11-05 04:57:03 公開日:2024-10-12 |
# STanH : 可変レート学習画像圧縮のためのパラメトリック量子化
STanH : Parametric Quantization for Variable Rate Learned Image Compression ( http://arxiv.org/abs/2410.00557v2 ) ライセンス: Link先を確認 | Alberto Presta, Enzo Tartaglione, Attilio Fiandrotti, Marco Grangetto, | (参考訳) エンドツーエンドの学習画像圧縮では、エンコーダとデコーダは、$R + {\lambda}D$コスト関数を最小化するために共同で訓練される。
残念ながら、数百万のパラメータを持つ異なるエンコーダとデコーダのペアは、${\lambda}$ごとにトレーニングされなければならないため、エンコーダを切り替えたり、ターゲットレート毎に複数のエンコーダとデコーダをユーザデバイスに格納する必要がある。
本稿では, 段階的量子化関数を緩和する, 双曲的接点のパラメトリック和STanHを用いて, 微分可能な量子化器を提案する。
STanHは、学習可能な量子化パラメータを事前訓練された固定レートモデルにプラグインし、異なるターゲットビットレートを達成するための改良が可能な、微分可能なアクティベーション層として実装されている。
実験結果から,本手法は,展開の容易さ,トレーニング時間,ストレージコストといった面で,最先端技術に匹敵する効率で可変レートの符号化が可能でありながら,大幅な節約が可能であることが示唆された。
In end-to-end learned image compression, encoder and decoder are jointly trained to minimize a $R + {\lambda}D$ cost function, where ${\lambda}$ controls the trade-off between rate of the quantized latent representation and image quality. Unfortunately, a distinct encoder-decoder pair with millions of parameters must be trained for each ${\lambda}$, hence the need to switch encoders and to store multiple encoders and decoders on the user device for every target rate. This paper proposes to exploit a differentiable quantizer designed around a parametric sum of hyperbolic tangents, called STanH , that relaxes the step-wise quantization function. STanH is implemented as a differentiable activation layer with learnable quantization parameters that can be plugged into a pre-trained fixed rate model and refined to achieve different target bitrates. Experimental results show that our method enables variable rate coding with comparable efficiency to the state-of-the-art, yet with significant savings in terms of ease of deployment, training time, and storage costs | 翻訳日:2024-11-05 04:57:03 公開日:2024-10-12 |
# Fira: LLMのフルランクトレーニングを低ランク制約下で達成できるか?
Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint? ( http://arxiv.org/abs/2410.01623v1 ) ライセンス: Link先を確認 | Xi Chen, Kaituo Feng, Changsheng Li, Xunhao Lai, Xiangyu Yue, Ye Yuan, Guoren Wang, | (参考訳) 低ランクトレーニングは、大規模言語モデル(LLM)のトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
従来の手法では、重量行列(例えばLoRA)を分解するか、勾配行列(例えばGaLore)を分解してメモリ消費を減らそうとしていた。
しかし、どちらも低ランクのサブスペースでのトレーニングを制限しており、必然的に準最適性能につながる。
これは、低ランクのメモリ効率の制約を一貫して維持できるかどうかという疑問を提起する一方で、劣悪な結果を避けるためにフルランクのトレーニング(フルランクのウェイト勾配でのトレーニング)を行うことができるのか?
本稿では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニングフレームワークを提案する。
適応オプティマイザ(例えばAdam)の勾配ノルムへのスケーリング効果は、低ランクからフルランクのトレーニングに類似している。
そこで本研究では,低ランクオプティマイザのスケーリング効果を,オリジナルフルランクオプティマイザのスケーリング効果の代替として活用し,フルランクトレーニングを実現するための標準スケーリング手法を提案する。
このようにして、オプティマイザの低ランク制約を保ちつつ、フルランクトレーニングを達成し、パフォーマンスを向上させることができる。
さらに,最適化プロセス中に突然勾配が上昇し,損失のスパイクが発生する可能性が示唆された。
これを解決するために、勾配ノルムの相対的な増加を規制し、勾配を滑らかにするためにノルム成長制限器をさらに推進した。
LLMの事前トレーニングと微調整に関する大規模な実験は、FiraがLoRAとGaLoreの両方を上回り、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを達成したことを示している。
Low-rank training has emerged as a promising approach for reducing memory usage in training Large Language Models (LLMs). Previous methods either rely on decomposing weight matrices (e.g., LoRA), or seek to decompose gradient matrices (e.g., GaLore) to ensure reduced memory consumption. However, both of them constrain the training in a low-rank subspace, thus inevitably leading to sub-optimal performance. This raises a question: whether it is possible to consistently preserve the low-rank constraint for memory efficiency, while achieving full-rank training (i.e., training with full-rank gradients of full-rank weights) to avoid inferior outcomes? In this paper, we propose a new plug-and-play training framework for LLMs called Fira, as the first attempt to achieve this goal. First, we observe an interesting phenomenon during LLM training: the scaling impact of adaptive optimizers (e.g., Adam) on the gradient norm remains similar from low-rank to full-rank training. Based on this observation, we propose a norm-based scaling method, which utilizes the scaling impact of low-rank optimizers as substitutes for that of original full-rank optimizers to enable full-rank training. In this way, we can preserve the low-rank constraint in the optimizer while achieving full-rank training for better performance. Moreover, we find that there are sudden gradient rises during the optimization process, potentially causing loss spikes. To address this, we further put forward a norm-growth limiter to smooth the gradient via regulating the relative increase of gradient norms. Extensive experiments on the pre-training and fine-tuning of LLMs show that Fira outperforms both LoRA and GaLore, achieving performance that is comparable to or even better than full-rank training. | 翻訳日:2024-11-04 16:34:50 公開日:2024-10-12 |
# Fira: LLMのフルランクトレーニングを低ランク制約下で達成できるか?
Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint? ( http://arxiv.org/abs/2410.01623v2 ) ライセンス: Link先を確認 | Xi Chen, Kaituo Feng, Changsheng Li, Xunhao Lai, Xiangyu Yue, Ye Yuan, Guoren Wang, | (参考訳) 低ランクトレーニングは、大規模言語モデル(LLM)のトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
従来の手法では、重量行列(例えばLoRA)を分解するか、勾配行列(例えばGaLore)を分解してメモリ消費を減らそうとしていた。
しかし、どちらも低ランクのサブスペースでのトレーニングを制限しており、必然的に準最適性能につながる。
これは、低ランクのメモリ効率の制約を一貫して維持できるかどうかという疑問を提起する一方で、劣悪な結果を避けるためにフルランクのトレーニング(フルランクのウェイト勾配でのトレーニング)を行うことができるのか?
本稿では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニングフレームワークを提案する。
適応オプティマイザ(例えばAdam)の勾配ノルムへのスケーリング効果は、低ランクからフルランクのトレーニングに類似している。
そこで本研究では,低ランクオプティマイザのスケーリング効果を,オリジナルフルランクオプティマイザのスケーリング効果の代替として活用し,フルランクトレーニングを実現するための標準スケーリング手法を提案する。
このようにして、オプティマイザの低ランク制約を保ちつつ、フルランクトレーニングを達成し、パフォーマンスを向上させることができる。
さらに,最適化プロセス中に突然勾配が上昇し,損失のスパイクが発生する可能性が示唆された。
これを解決するために、勾配ノルムの相対的な増加を規制し、勾配を滑らかにするためにノルム成長制限器をさらに推進した。
LLMの事前トレーニングと微調整に関する大規模な実験は、FiraがLoRAとGaLoreの両方を上回り、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを達成したことを示している。
Low-rank training has emerged as a promising approach for reducing memory usage in training Large Language Models (LLMs). Previous methods either rely on decomposing weight matrices (e.g., LoRA), or seek to decompose gradient matrices (e.g., GaLore) to ensure reduced memory consumption. However, both of them constrain the training in a low-rank subspace, thus inevitably leading to sub-optimal performance. This raises a question: whether it is possible to consistently preserve the low-rank constraint for memory efficiency, while achieving full-rank training (i.e., training with full-rank gradients of full-rank weights) to avoid inferior outcomes? In this paper, we propose a new plug-and-play training framework for LLMs called Fira, as the first attempt to achieve this goal. First, we observe an interesting phenomenon during LLM training: the scaling impact of adaptive optimizers (e.g., Adam) on the gradient norm remains similar from low-rank to full-rank training. Based on this observation, we propose a norm-based scaling method, which utilizes the scaling impact of low-rank optimizers as substitutes for that of original full-rank optimizers to enable full-rank training. In this way, we can preserve the low-rank constraint in the optimizer while achieving full-rank training for better performance. Moreover, we find that there are sudden gradient rises during the optimization process, potentially causing loss spikes. To address this, we further put forward a norm-growth limiter to smooth the gradient via regulating the relative increase of gradient norms. Extensive experiments on the pre-training and fine-tuning of LLMs show that Fira outperforms both LoRA and GaLore, achieving performance that is comparable to or even better than full-rank training. | 翻訳日:2024-11-04 16:34:50 公開日:2024-10-12 |
# LLMポストトライニングにおける合成データの理論的理解に向けて:リバース・ブートネックの視点から
Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective ( http://arxiv.org/abs/2410.01720v1 ) ライセンス: Link先を確認 | Zeyu Gan, Yong Liu, | (参考訳) 合成データは、高品質な特定のデータの不足により、大規模言語モデル(LLM)のポストトレーニングタスクにおいて重要なリソースとなっている。
合成データを生成するための様々な方法が開発されているが、合成データの実践的効果と理論的理解との間には、明確なギャップが残っている。
この課題に対処するために、我々は、一般的な合成データ生成プロセスの詳細なモデリングを提示し始める。
このモデルに基づいて, 学習後モデルの一般化能力は, 生成モデルから得られる情報ゲインによって決定されることを示す。
さらに、相互情報(GGMI)を介して一般化ゲインの概念を導入し、一般化ゲインと情報ゲインの関係を明らかにする。
この分析は、合成データ生成の理論基盤として機能し、ポストトレーニング後のモデルの一般化能力との関係をさらに強調し、合成データ生成技術の設計とポストトレーニングプロセスの最適化に関する理解を提供する。
私たちはコードをhttps://anonymous.4open.science/r/Understanding-Synthetic.comの匿名GitHubリポジトリを通じてオープンソースにしています。
Synthetic data has become a pivotal resource in post-training tasks for large language models (LLMs) due to the scarcity of high-quality, specific data. While various methods have been developed to generate synthetic data, there remains a discernible gap between the practical effects of synthetic data and our theoretical comprehension. To address this challenge, we commence by presenting a detailed modeling of the prevalent synthetic data generation process. Building upon this modeling, we demonstrate that the generalization capability of the post-trained model is critically determined by the information gain derived from the generative model, as analyzed from a novel reverse-bottleneck perspective. Moreover, we introduce the concept of Generalization Gain via Mutual Information (GGMI) and elucidate the relationship between generalization gain and information gain. This analysis serves as a theoretical foundation for synthetic data generation and further highlights its connection with the generalization capability of post-trained models, offering an understanding about the design of synthetic data generation techniques and the optimization of the post-training process. We open source our code through an anonymous GitHub repository at https://anonymous.4open.science/r/Understanding-Synthetic. | 翻訳日:2024-11-04 15:43:48 公開日:2024-10-12 |
# LLMポストトライニングにおける合成データの理論的理解に向けて:リバース・ブートネックの視点から
Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective ( http://arxiv.org/abs/2410.01720v2 ) ライセンス: Link先を確認 | Zeyu Gan, Yong Liu, | (参考訳) 合成データは、高品質な特定のデータの不足により、大規模言語モデル(LLM)のポストトレーニングタスクにおいて重要なリソースとなっている。
合成データを生成するための様々な方法が開発されているが、合成データの実践的効果と理論的理解との間には、明確なギャップが残っている。
この課題に対処するために、我々は、一般的な合成データ生成プロセスの詳細なモデリングを提示し始める。
このモデルに基づいて, 学習後モデルの一般化能力は, 生成モデルから得られる情報ゲインによって決定されることを示す。
さらに、相互情報(GGMI)を介して一般化ゲインの概念を導入し、一般化ゲインと情報ゲインの関係を明らかにする。
この分析は、合成データ生成の理論基盤として機能し、ポストトレーニング後のモデルの一般化能力との関係をさらに強調し、合成データ生成技術の設計とポストトレーニングプロセスの最適化に関する理解を提供する。
ソースコードはhttps://github.com/ZyGan 1999/Towards-a-theoretical-Understanding-of-Synthetic-Data-in-LLM-Post-Trainingで公開しています。
Synthetic data has become a pivotal resource in post-training tasks for large language models (LLMs) due to the scarcity of high-quality, specific data. While various methods have been developed to generate synthetic data, there remains a discernible gap between the practical effects of synthetic data and our theoretical comprehension. To address this challenge, we commence by presenting a detailed modeling of the prevalent synthetic data generation process. Building upon this modeling, we demonstrate that the generalization capability of the post-trained model is critically determined by the information gain derived from the generative model, as analyzed from a novel reverse-bottleneck perspective. Moreover, we introduce the concept of Generalization Gain via Mutual Information (GGMI) and elucidate the relationship between generalization gain and information gain. This analysis serves as a theoretical foundation for synthetic data generation and further highlights its connection with the generalization capability of post-trained models, offering an understanding about the design of synthetic data generation techniques and the optimization of the post-training process. We open source our code at https://github.com/ZyGan1999/Towards-a-Theoretical-Understanding-of-Synthetic-Data-in-LLM-Post-Train ing. | 翻訳日:2024-11-04 15:43:48 公開日:2024-10-12 |
# LLMは人間の学習行動を確実にシミュレートできるか? オープンエンド学習環境のためのシミュレーションオーサリングフレームワーク
Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments ( http://arxiv.org/abs/2410.02110v1 ) ライセンス: Link先を確認 | Amogh Mannekote, Adam Davies, Jina Kang, Kristy Elizabeth Boyer, | (参考訳) 学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
近年の研究では、人間の振る舞いをシミュレートするために大きな言語モデル(LLM)を使用することが約束されているが、そのようなアプローチは、鍵となる制約のため、初歩的な概念実証段階を超えていない。
第一に、LSMはマイナーなプロンプト変動に非常に敏感であり、広範なプロンプトエンジニアリングを伴わずに新しいシナリオに一般化する能力に疑問を呈している。
さらに、ドメインの専門家が故意にLLMに予測された結果をもたらすように誘導し、自己充足的予言を導いたり、LLMはそのトレーニングデータで非常に類似したシナリオに遭遇しているため、モデルが記憶されたコンテンツを再現するほど振舞いをシミュレートしていないためである。
これらの課題に対処するために、専門家が学習者行動に関する検証可能な仮説を組み合わせることでシミュレーションを開発・評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
このフレームワークを物理学習環境でテストした結果,基礎となる学習モデルが変化しても,GPT-4 Turboは校正動作を維持していることがわかった。
Simulating learner actions helps stress-test open-ended interactive learning environments and prototype new adaptations before deployment. While recent studies show the promise of using large language models (LLMs) for simulating human behavior, such approaches have not gone beyond rudimentary proof-of-concept stages due to key limitations. First, LLMs are highly sensitive to minor prompt variations, raising doubts about their ability to generalize to new scenarios without extensive prompt engineering. Moreover, apparently successful outcomes can often be unreliable, either because domain experts unintentionally guide LLMs to produce expected results, leading to self-fulfilling prophecies; or because the LLM has encountered highly similar scenarios in its training data, meaning that models may not be simulating behavior so much as regurgitating memorized content. To address these challenges, we propose Hyp-Mix, a simulation authoring framework that allows experts to develop and evaluate simulations by combining testable hypotheses about learner behavior. Testing this framework in a physics learning environment, we found that GPT-4 Turbo maintains calibrated behavior even as the underlying learner model changes, providing the first evidence that LLMs can be used to simulate realistic behaviors in open-ended interactive learning environments, a necessary prerequisite for useful LLM behavioral simulation. | 翻訳日:2024-11-04 08:45:48 公開日:2024-10-12 |
# LLMは人間の学習行動を確実にシミュレートできるか? オープンエンド学習環境のためのシミュレーションオーサリングフレームワーク
Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments ( http://arxiv.org/abs/2410.02110v2 ) ライセンス: Link先を確認 | Amogh Mannekote, Adam Davies, Jina Kang, Kristy Elizabeth Boyer, | (参考訳) 学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
近年の研究では、人間の振る舞いをシミュレートするために大きな言語モデル(LLM)を使用することが約束されているが、そのようなアプローチは、鍵となる制約のため、初歩的な概念実証段階を超えていない。
第一に、LSMはマイナーなプロンプト変動に非常に敏感であり、広範なプロンプトエンジニアリングを伴わずに新しいシナリオに一般化する能力に疑問を呈している。
さらに、ドメインの専門家が故意にLLMに予測された結果をもたらすように誘導し、自己充足的予言を導いたり、LLMはそのトレーニングデータで非常に類似したシナリオに遭遇しているため、モデルが記憶されたコンテンツを再現するほど振舞いをシミュレートしていないためである。
これらの課題に対処するために、専門家が学習者行動に関する検証可能な仮説を組み合わせることでシミュレーションを開発・評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
このフレームワークを物理学習環境でテストした結果,基礎となる学習モデルが変化しても,GPT-4 Turboは校正動作を維持していることがわかった。
Simulating learner actions helps stress-test open-ended interactive learning environments and prototype new adaptations before deployment. While recent studies show the promise of using large language models (LLMs) for simulating human behavior, such approaches have not gone beyond rudimentary proof-of-concept stages due to key limitations. First, LLMs are highly sensitive to minor prompt variations, raising doubts about their ability to generalize to new scenarios without extensive prompt engineering. Moreover, apparently successful outcomes can often be unreliable, either because domain experts unintentionally guide LLMs to produce expected results, leading to self-fulfilling prophecies; or because the LLM has encountered highly similar scenarios in its training data, meaning that models may not be simulating behavior so much as regurgitating memorized content. To address these challenges, we propose Hyp-Mix, a simulation authoring framework that allows experts to develop and evaluate simulations by combining testable hypotheses about learner behavior. Testing this framework in a physics learning environment, we found that GPT-4 Turbo maintains calibrated behavior even as the underlying learner model changes, providing the first evidence that LLMs can be used to simulate realistic behaviors in open-ended interactive learning environments, a necessary prerequisite for useful LLM behavioral simulation. | 翻訳日:2024-11-04 08:45:48 公開日:2024-10-12 |
# DivScene: 多様なシーンとオブジェクトによるオブジェクトナビゲーションのためのLVLMのベンチマーク
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects ( http://arxiv.org/abs/2410.02730v1 ) ライセンス: Link先を確認 | Zhaowei Wang, Hongming Zhang, Tianqing Fang, Ye Tian, Yue Yang, Kaixin Ma, Xiaoman Pan, Yangqiu Song, Dong Yu, | (参考訳) 未知の環境でのオブジェクトナビゲーションは、現実世界のアプリケーションにエンボディエージェントを配置するのに不可欠である。
大規模なシーンデータセット、より高速なシミュレータ、より強力なモデルによる大きな進歩を目の当たりにしてきたが、これまでの研究は主に限られたシーンタイプとターゲットオブジェクトに焦点を当てていた。
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
問題をベンチマークするために,81種類の異なる4,614シーンを含む大規模シーンデータセットDivSceneを提案する。
このデータセットを用いて、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築する。
LVLMは、環境から以前の観測を行い、次のアクションを生成するように訓練されている。
また,LVLMのチューニング時の動作予測のCoT説明トレースも導入した。
我々は,BFSプランナーが構築した最短経路を人間の監督なしに模倣学習することで,実演的なLVLMエージェントを構築できることを見出した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
一方,エージェントの一般化能力について様々な分析を行った。
Object navigation in unknown environments is crucial for deploying embodied agents in real-world applications. While we have witnessed huge progress due to large-scale scene datasets, faster simulators, and stronger models, previous studies mainly focus on limited scene types and target objects. In this paper, we study a new task of navigating to diverse target objects in a large number of scene types. To benchmark the problem, we present a large-scale scene dataset, DivScene, which contains 4,614 scenes across 81 different types. With the dataset, we build an end-to-end embodied agent, NatVLM, by fine-tuning a Large Vision Language Model (LVLM) through imitation learning. The LVLM is trained to take previous observations from the environment and generate the next actions. We also introduce CoT explanation traces of the action prediction for better performance when tuning LVLMs. Our extensive experiments find that we can build a performant LVLM-based agent through imitation learning on the shortest paths constructed by a BFS planner without any human supervision. Our agent achieves a success rate that surpasses GPT-4o by over 20%. Meanwhile, we carry out various analyses showing the generalization ability of our agent. | 翻訳日:2024-11-04 01:13:18 公開日:2024-10-12 |
# DivScene: 多様なシーンとオブジェクトによるオブジェクトナビゲーションのためのLVLMのベンチマーク
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects ( http://arxiv.org/abs/2410.02730v2 ) ライセンス: Link先を確認 | Zhaowei Wang, Hongming Zhang, Tianqing Fang, Ye Tian, Yue Yang, Kaixin Ma, Xiaoman Pan, Yangqiu Song, Dong Yu, | (参考訳) 未知の環境でのオブジェクトナビゲーションは、現実世界のアプリケーションにエンボディエージェントを配置するのに不可欠である。
大規模なシーンデータセット、より高速なシミュレータ、より強力なモデルによる大きな進歩を目の当たりにしてきたが、これまでの研究は主に限られたシーンタイプとターゲットオブジェクトに焦点を当てていた。
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
問題をベンチマークするために,81種類の異なる4,614シーンを含む大規模シーンデータセットDivSceneを提案する。
このデータセットを用いて、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築する。
LVLMは、環境から以前の観測を行い、次のアクションを生成するように訓練されている。
また,LVLMのチューニング時の動作予測のCoT説明トレースも導入した。
我々は,BFSプランナーが構築した最短経路を人間の監督なしに模倣学習することで,実演的なLVLMエージェントを構築できることを見出した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
一方,エージェントの一般化能力について様々な分析を行った。
私たちのコードとデータはhttps://github.com/zhaowei-wang-nlp/DivScene.comで公開されています。
Object navigation in unknown environments is crucial for deploying embodied agents in real-world applications. While we have witnessed huge progress due to large-scale scene datasets, faster simulators, and stronger models, previous studies mainly focus on limited scene types and target objects. In this paper, we study a new task of navigating to diverse target objects in a large number of scene types. To benchmark the problem, we present a large-scale scene dataset, DivScene, which contains 4,614 scenes across 81 different types. With the dataset, we build an end-to-end embodied agent, NatVLM, by fine-tuning a Large Vision Language Model (LVLM) through imitation learning. The LVLM is trained to take previous observations from the environment and generate the next actions. We also introduce CoT explanation traces of the action prediction for better performance when tuning LVLMs. Our extensive experiments find that we can build a performant LVLM-based agent through imitation learning on the shortest paths constructed by a BFS planner without any human supervision. Our agent achieves a success rate that surpasses GPT-4o by over 20%. Meanwhile, we carry out various analyses showing the generalization ability of our agent. Our code and data are available at https://github.com/zhaowei-wang-nlp/DivScene. | 翻訳日:2024-11-04 01:13:18 公開日:2024-10-12 |
# ロボットマニピュレーションのための自己回帰行動系列学習
Autoregressive Action Sequence Learning for Robotic Manipulation ( http://arxiv.org/abs/2410.03132v1 ) ライセンス: Link先を確認 | Xinyu Zhang, Yuhan Liu, Haonan Chang, Liam Schramm, Abdeslam Boularias, | (参考訳) 自己回帰モデルは自然言語処理において顕著な成功を収めた。
本研究では,ロボット操作タスクのための簡易かつ効果的な自己回帰型アーキテクチャを設計する。
本稿では,CCT(Chunking Causal Transformer)を提案する。
さらに,教師の力でCCTを効果的に訓練できる新しい注意インターリーブ戦略を設計する。
CCTに基づく自己回帰政策(ARP)モデルを提案し,自己回帰的に行動列を生成することを学習する。
動作シーケンス学習は,ロボット作業における因果関係をよりよく活用できることがわかった。
我々は、Push-T、ALOHA、RLBenchを含む多様なロボット操作環境におけるARPを評価し、計算やパラメータサイズにおいてより効率的でありながら、すべてのテスト環境で最先端の手法よりも優れていることを示す。
ビデオデモ、ソースコード、およびARPのモデルについては、http://github.com/mlzxy/arp.orgで見ることができる。
Autoregressive models have demonstrated remarkable success in natural language processing. In this work, we design a simple yet effective autoregressive architecture for robotic manipulation tasks. We propose the Chunking Causal Transformer (CCT), which extends the next-single-token prediction of causal transformers to support multi-token prediction in a single pass. Further, we design a novel attention interleaving strategy that allows CCT to be trained efficiently with teacher-forcing. Based on CCT, we propose the Autoregressive Policy (ARP) model, which learns to generate action sequences autoregressively. We find that action sequence learning enables better leverage of the underlying causal relationships in robotic tasks. We evaluate ARP across diverse robotic manipulation environments, including Push-T, ALOHA, and RLBench, and show that it outperforms the state-of-the-art methods in all tested environments, while being more efficient in computation and parameter sizes. Video demonstrations, our source code, and the models of ARP can be found at http://github.com/mlzxy/arp. | 翻訳日:2024-11-03 03:36:45 公開日:2024-10-12 |
# ロボットマニピュレーションのための自己回帰行動系列学習
Autoregressive Action Sequence Learning for Robotic Manipulation ( http://arxiv.org/abs/2410.03132v2 ) ライセンス: Link先を確認 | Xinyu Zhang, Yuhan Liu, Haonan Chang, Liam Schramm, Abdeslam Boularias, | (参考訳) 自己回帰モデルは自然言語処理において顕著な成功を収めた。
本研究では,ロボット操作タスクのための簡易かつ効果的な自己回帰型アーキテクチャを設計する。
本稿では,CCT(Chunking Causal Transformer)を提案する。
さらに,教師の力でCCTを効果的に訓練できる新しい注意インターリーブ戦略を設計する。
CCTに基づく自己回帰政策(ARP)モデルを提案し,自己回帰的に行動列を生成することを学習する。
動作シーケンス学習は,ロボット作業における因果関係をよりよく活用できることがわかった。
我々は、Push-T、ALOHA、RLBenchを含む多様なロボット操作環境におけるARPを評価し、計算やパラメータサイズにおいてより効率的でありながら、すべてのテスト環境で最先端の手法よりも優れていることを示す。
ビデオデモ、ソースコード、およびARPのモデルについては、http://github.com/mlzxy/arp.orgで見ることができる。
Autoregressive models have demonstrated remarkable success in natural language processing. In this work, we design a simple yet effective autoregressive architecture for robotic manipulation tasks. We propose the Chunking Causal Transformer (CCT), which extends the next-single-token prediction of causal transformers to support multi-token prediction in a single pass. Further, we design a novel attention interleaving strategy that allows CCT to be trained efficiently with teacher-forcing. Based on CCT, we propose the Autoregressive Policy (ARP) model, which learns to generate action sequences autoregressively. We find that action sequence learning enables better leverage of the underlying causal relationships in robotic tasks. We evaluate ARP across diverse robotic manipulation environments, including Push-T, ALOHA, and RLBench, and show that it outperforms the state-of-the-art methods in all tested environments, while being more efficient in computation and parameter sizes. Video demonstrations, our source code, and the models of ARP can be found at http://github.com/mlzxy/arp. | 翻訳日:2024-11-03 03:36:45 公開日:2024-10-12 |
# ECHOPulse:心電図による心エコー図生成
ECHOPulse: ECG controlled echocardio-grams video generation ( http://arxiv.org/abs/2410.03143v1 ) ライセンス: Link先を確認 | Yiwei Li, Sekeun Kim, Zihao Wu, Hanqi Jiang, Yi Pan, Pengfei Jin, Sifan Song, Yucheng Shi, Tianze Yang, Tianming Liu, Quanzheng Li, Xiang Li, | (参考訳) 心エコー法(ECHO)は心臓評価に必須であるが、ビデオの品質と解釈は手作業の専門知識に大きく依存しており、臨床および携帯機器の矛盾した結果をもたらす。
ECHOビデオ生成は、合成データによる自動監視を改善し、通常の健康データから高品質なビデオを生成することで、ソリューションを提供する。
しかし、既存のモデルは高い計算コストに直面し、推論が遅く、専門家のアノテーションを必要とする複雑な条件付きプロンプトに依存していることが多い。
これらの課題に対処するため、ECG条件付きECHOビデオ生成モデルであるECHOPULSEを提案する。
ECHOPULSEは,1)VQ-VAEトークン化とマスク付き視覚トークンモデリングを利用してECHOビデオ生成を高速化し,2)複雑な条件付きプロンプトを回避し,ECHOビデオと高度に整合したECG信号の条件付けを行う。
私たちの知る限りでは、ECHOビデオ生成にECG信号のような時系列プロンプトを使うのはこれが初めてです。
ECHOPULSEは、制御可能な合成ECHOデータ生成を可能にするだけでなく、心疾患のモニタリングや心電図以外の予測のための更新された心機能情報も提供する。
3つのパブリックデータセットとプライベートデータセットの評価は、質的および量的尺度の両面でECHOビデオ生成における最先端のパフォーマンスを示す。
さらに、ECHOPULSEは、心臓MRI、fMRI、三次元CT生成などの他のモダリティ生成タスクに容易に一般化できる。
デモは \url{https://github.com/levyisthebest/ECHOPulse_Prelease} から見ることができる。
Echocardiography (ECHO) is essential for cardiac assessments, but its video quality and interpretation heavily relies on manual expertise, leading to inconsistent results from clinical and portable devices. ECHO video generation offers a solution by improving automated monitoring through synthetic data and generating high-quality videos from routine health data. However, existing models often face high computational costs, slow inference, and rely on complex conditional prompts that require experts' annotations. To address these challenges, we propose ECHOPULSE, an ECG-conditioned ECHO video generation model. ECHOPULSE introduces two key advancements: (1) it accelerates ECHO video generation by leveraging VQ-VAE tokenization and masked visual token modeling for fast decoding, and (2) it conditions on readily accessible ECG signals, which are highly coherent with ECHO videos, bypassing complex conditional prompts. To the best of our knowledge, this is the first work to use time-series prompts like ECG signals for ECHO video generation. ECHOPULSE not only enables controllable synthetic ECHO data generation but also provides updated cardiac function information for disease monitoring and prediction beyond ECG alone. Evaluations on three public and private datasets demonstrate state-of-the-art performance in ECHO video generation across both qualitative and quantitative measures. Additionally, ECHOPULSE can be easily generalized to other modality generation tasks, such as cardiac MRI, fMRI, and 3D CT generation. Demo can seen from \url{https://github.com/levyisthebest/ECHOPulse_Prelease}. | 翻訳日:2024-11-03 03:24:16 公開日:2024-10-12 |
# ECHOPulse:心電図による心エコー図生成
ECHOPulse: ECG controlled echocardio-grams video generation ( http://arxiv.org/abs/2410.03143v2 ) ライセンス: Link先を確認 | Yiwei Li, Sekeun Kim, Zihao Wu, Hanqi Jiang, Yi Pan, Pengfei Jin, Sifan Song, Yucheng Shi, Tianming Liu, Quanzheng Li, Xiang Li, | (参考訳) 心エコー法(ECHO)は心臓評価に必須であるが、ビデオの品質と解釈は手作業の専門知識に大きく依存しており、臨床および携帯機器の矛盾した結果をもたらす。
ECHOビデオ生成は、合成データによる自動監視を改善し、通常の健康データから高品質なビデオを生成することで、ソリューションを提供する。
しかし、既存のモデルは高い計算コストに直面し、推論が遅く、専門家のアノテーションを必要とする複雑な条件付きプロンプトに依存していることが多い。
これらの課題に対処するため、ECG条件付きECHOビデオ生成モデルであるECHOPULSEを提案する。
ECHOPULSEは,1)VQ-VAEトークン化とマスク付き視覚トークンモデリングを利用してECHOビデオ生成を高速化し,2)複雑な条件付きプロンプトを回避し,ECHOビデオと高度に整合したECG信号の条件付けを行う。
私たちの知る限りでは、ECHOビデオ生成にECG信号のような時系列プロンプトを使うのはこれが初めてです。
ECHOPULSEは、制御可能な合成ECHOデータ生成を可能にするだけでなく、心疾患のモニタリングや心電図以外の予測のための更新された心機能情報も提供する。
3つのパブリックデータセットとプライベートデータセットの評価は、質的および量的尺度の両面でECHOビデオ生成における最先端のパフォーマンスを示す。
さらに、ECHOPULSEは、心臓MRI、fMRI、三次元CT生成などの他のモダリティ生成タスクに容易に一般化できる。
デモは \url{https://github.com/levyisthebest/ECHOPulse_Prelease} から見ることができる。
Echocardiography (ECHO) is essential for cardiac assessments, but its video quality and interpretation heavily relies on manual expertise, leading to inconsistent results from clinical and portable devices. ECHO video generation offers a solution by improving automated monitoring through synthetic data and generating high-quality videos from routine health data. However, existing models often face high computational costs, slow inference, and rely on complex conditional prompts that require experts' annotations. To address these challenges, we propose ECHOPULSE, an ECG-conditioned ECHO video generation model. ECHOPULSE introduces two key advancements: (1) it accelerates ECHO video generation by leveraging VQ-VAE tokenization and masked visual token modeling for fast decoding, and (2) it conditions on readily accessible ECG signals, which are highly coherent with ECHO videos, bypassing complex conditional prompts. To the best of our knowledge, this is the first work to use time-series prompts like ECG signals for ECHO video generation. ECHOPULSE not only enables controllable synthetic ECHO data generation but also provides updated cardiac function information for disease monitoring and prediction beyond ECG alone. Evaluations on three public and private datasets demonstrate state-of-the-art performance in ECHO video generation across both qualitative and quantitative measures. Additionally, ECHOPULSE can be easily generalized to other modality generation tasks, such as cardiac MRI, fMRI, and 3D CT generation. Demo can seen from \url{https://github.com/levyisthebest/ECHOPulse_Prelease}. | 翻訳日:2024-11-03 03:24:16 公開日:2024-10-12 |
# 非定常スパーススペクトル永久過程
Nonstationary Sparse Spectral Permanental Process ( http://arxiv.org/abs/2410.03581v1 ) ライセンス: Link先を確認 | Zicheng Sun, Yixuan Zhang, Zenan Ling, Xuhui Fan, Feng Zhou, | (参考訳) 既存の永続的なプロセスは、しばしばカーネルタイプや定常性に制約を課し、モデルの表現性を制限する。
これらの制限を克服するために,非定常カーネルのスパーススペクトル表現を利用した新しい手法を提案する。
この手法は、カーネルタイプと定常性の制約を緩和し、より柔軟なモデリングを可能にし、計算の複雑さを線形レベルに減らした。
さらに,複数のスペクトル特徴写像を階層的に積み重ねたディープカーネルバリアントを導入し,データの複雑なパターンを捉えるためのモデル表現性をさらに強化する。
合成と実世界の両方のデータセットに対する実験結果は、特にデータ非定常性の顕著なシナリオにおいて、我々のアプローチの有効性を示す。
さらに,様々なハイパーパラメータがモデル性能に与える影響について,アブレーション研究を行った。
Existing permanental processes often impose constraints on kernel types or stationarity, limiting the model's expressiveness. To overcome these limitations, we propose a novel approach utilizing the sparse spectral representation of nonstationary kernels. This technique relaxes the constraints on kernel types and stationarity, allowing for more flexible modeling while reducing computational complexity to the linear level. Additionally, we introduce a deep kernel variant by hierarchically stacking multiple spectral feature mappings, further enhancing the model's expressiveness to capture complex patterns in data. Experimental results on both synthetic and real-world datasets demonstrate the effectiveness of our approach, particularly in scenarios with pronounced data nonstationarity. Additionally, ablation studies are conducted to provide insights into the impact of various hyperparameters on model performance. | 翻訳日:2024-11-02 21:17:55 公開日:2024-10-12 |
# 非定常スパーススペクトル永久過程
Nonstationary Sparse Spectral Permanental Process ( http://arxiv.org/abs/2410.03581v2 ) ライセンス: Link先を確認 | Zicheng Sun, Yixuan Zhang, Zenan Ling, Xuhui Fan, Feng Zhou, | (参考訳) 既存の永続的なプロセスは、しばしばカーネルタイプや定常性に制約を課し、モデルの表現性を制限する。
これらの制限を克服するために,非定常カーネルのスパーススペクトル表現を利用した新しい手法を提案する。
この手法は、カーネルタイプと定常性の制約を緩和し、より柔軟なモデリングを可能にし、計算の複雑さを線形レベルに減らした。
さらに,複数のスペクトル特徴写像を階層的に積み重ねたディープカーネルバリアントを導入し,データの複雑なパターンを捉えるためのモデル表現性をさらに強化する。
合成と実世界の両方のデータセットに対する実験結果は、特にデータ非定常性の顕著なシナリオにおいて、我々のアプローチの有効性を示す。
さらに,様々なハイパーパラメータがモデル性能に与える影響について,アブレーション研究を行った。
Existing permanental processes often impose constraints on kernel types or stationarity, limiting the model's expressiveness. To overcome these limitations, we propose a novel approach utilizing the sparse spectral representation of nonstationary kernels. This technique relaxes the constraints on kernel types and stationarity, allowing for more flexible modeling while reducing computational complexity to the linear level. Additionally, we introduce a deep kernel variant by hierarchically stacking multiple spectral feature mappings, further enhancing the model's expressiveness to capture complex patterns in data. Experimental results on both synthetic and real-world datasets demonstrate the effectiveness of our approach, particularly in scenarios with pronounced data nonstationarity. Additionally, ablation studies are conducted to provide insights into the impact of various hyperparameters on model performance. | 翻訳日:2024-11-02 21:17:55 公開日:2024-10-12 |
# TimeBridge: 時系列予測の非定常性
TimeBridge: Non-Stationarity Matters for Long-term Time Series Forecasting ( http://arxiv.org/abs/2410.04442v1 ) ライセンス: Link先を確認 | Peiyuan Liu, Beiliang Wu, Yifan Hu, Naiqi Li, Tao Dai, Jigang Bao, Shu-tao Xia, | (参考訳) 非定常性は、本質的に短期的な変動と、急激な回帰や不明瞭な長期的関係をもたらす可能性のある長期的傾向のために、多変量時系列予測に重大な課題を生じさせる。
既存のほとんどの手法は、短期および長期のモデリングにおいて、その明確な影響を適切に解決することなく、非定常性を排除または維持する。
非定常性を排除することは、急激な回帰を避け、短期的なモデリングにおいて局所的な依存を捉えるのに不可欠である。
本稿では,時系列予測における非定常性と依存性モデリングのギャップを埋める新しいフレームワークであるTimeBridgeを提案する。
入力シリーズを小さなパッチに分割することで、TimeBridgeは短期的な非定常性を緩和し、各変数内の安定した依存関係をキャプチャするためにIntegrated Attentionを適用する。
大規模な実験により、TimeBridgeは短期および長期の予測において、常に最先端のパフォーマンスを達成することが示された。
さらに、TimeBridgeはCSI 500およびS&P 500指数の財務予測において例外的なパフォーマンスを示し、その堅牢性と有効性を検証する。
コードは \url{https://github.com/Hank0626/TimeBridge} で入手できる。
Non-stationarity poses significant challenges for multivariate time series forecasting due to the inherent short-term fluctuations and long-term trends that can lead to spurious regressions or obscure essential long-term relationships. Most existing methods either eliminate or retain non-stationarity without adequately addressing its distinct impacts on short-term and long-term modeling. Eliminating non-stationarity is essential for avoiding spurious regressions and capturing local dependencies in short-term modeling, while preserving it is crucial for revealing long-term cointegration across variates. In this paper, we propose TimeBridge, a novel framework designed to bridge the gap between non-stationarity and dependency modeling in long-term time series forecasting. By segmenting input series into smaller patches, TimeBridge applies Integrated Attention to mitigate short-term non-stationarity and capture stable dependencies within each variate, while Cointegrated Attention preserves non-stationarity to model long-term cointegration across variates. Extensive experiments show that TimeBridge consistently achieves state-of-the-art performance in both short-term and long-term forecasting. Additionally, TimeBridge demonstrates exceptional performance in financial forecasting on the CSI 500 and S&P 500 indices, further validating its robustness and effectiveness. Code is available at \url{https://github.com/Hank0626/TimeBridge}. | 翻訳日:2024-11-02 07:25:54 公開日:2024-10-12 |
# TimeBridge: 時系列予測の非定常性
TimeBridge: Non-Stationarity Matters for Long-term Time Series Forecasting ( http://arxiv.org/abs/2410.04442v2 ) ライセンス: Link先を確認 | Peiyuan Liu, Beiliang Wu, Yifan Hu, Naiqi Li, Tao Dai, Jigang Bao, Shu-tao Xia, | (参考訳) 非定常性は、本質的に短期的な変動と、急激な回帰や不明瞭な長期的関係をもたらす可能性のある長期的傾向のために、多変量時系列予測に重大な課題を生じさせる。
既存のほとんどの手法は、短期および長期のモデリングにおいて、その明確な影響を適切に解決することなく、非定常性を排除または維持する。
非定常性を排除することは、急激な回帰を避け、短期的なモデリングにおいて局所的な依存を捉えるのに不可欠である。
本稿では,時系列予測における非定常性と依存性モデリングのギャップを埋める新しいフレームワークであるTimeBridgeを提案する。
入力シリーズを小さなパッチに分割することで、TimeBridgeは短期的な非定常性を緩和し、各変数内の安定した依存関係をキャプチャするためにIntegrated Attentionを適用する。
大規模な実験により、TimeBridgeは短期および長期の予測において、常に最先端のパフォーマンスを達成することが示された。
さらに、TimeBridgeはCSI 500およびS&P 500指数の財務予測において例外的なパフォーマンスを示し、その堅牢性と有効性を検証する。
コードは \url{https://github.com/Hank0626/TimeBridge} で入手できる。
Non-stationarity poses significant challenges for multivariate time series forecasting due to the inherent short-term fluctuations and long-term trends that can lead to spurious regressions or obscure essential long-term relationships. Most existing methods either eliminate or retain non-stationarity without adequately addressing its distinct impacts on short-term and long-term modeling. Eliminating non-stationarity is essential for avoiding spurious regressions and capturing local dependencies in short-term modeling, while preserving it is crucial for revealing long-term cointegration across variates. In this paper, we propose TimeBridge, a novel framework designed to bridge the gap between non-stationarity and dependency modeling in long-term time series forecasting. By segmenting input series into smaller patches, TimeBridge applies Integrated Attention to mitigate short-term non-stationarity and capture stable dependencies within each variate, while Cointegrated Attention preserves non-stationarity to model long-term cointegration across variates. Extensive experiments show that TimeBridge consistently achieves state-of-the-art performance in both short-term and long-term forecasting. Additionally, TimeBridge demonstrates exceptional performance in financial forecasting on the CSI 500 and S&P 500 indices, further validating its robustness and effectiveness. Code is available at \url{https://github.com/Hank0626/TimeBridge}. | 翻訳日:2024-11-02 07:25:54 公開日:2024-10-12 |
# 知識表現と推論のための次世代言語モデルに関する第1回国際ワークショップ(NeLaMKRR 2024)の開催報告
Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) ( http://arxiv.org/abs/2410.05339v1 ) ライセンス: Link先を確認 | Ken Satoh, Ha-Thanh Nguyen, Francesca Toni, Randy Goebel, Kostas Stathis, | (参考訳) 推論は人間の知性の本質的な要素であり、批判的に考え、責任ある決定を支持し、挑戦的な問題を解決する能力において、基本的な役割を担います。
伝統的に、AIは知識の論理に基づく表現の文脈における推論に対処してきた。
しかし、自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。
言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
このワークショップの目的は、異なる分野や/またはAIの観点からの研究者のためのプラットフォームを構築し、トランスフォーマーとロジックベースの表現を使用して言語モデル間の推論を整合させることを目的として、アプローチとテクニックを探求することである。
具体的な目的は、KR法と共に測定された言語モデルの推論能力の分析、KRスタイルの推論能力を言語モデルに注入すること(ニューロシンボリックな手段を含む)、そして、実行される言語モデルの種類を形式化することである。
この調査は、言語モデルが知識と推論を効果的に統合し、活用する方法を明らかにすることを目的としている。
Reasoning is an essential component of human intelligence as it plays a fundamental role in our ability to think critically, support responsible decisions, and solve challenging problems. Traditionally, AI has addressed reasoning in the context of logic-based representations of knowledge. However, the recent leap forward in natural language processing, with the emergence of language models based on transformers, is hinting at the possibility that these models exhibit reasoning abilities, particularly as they grow in size and are trained on more data. Despite ongoing discussions about what reasoning is in language models, it is still not easy to pin down to what extent these models are actually capable of reasoning. The goal of this workshop is to create a platform for researchers from different disciplines and/or AI perspectives, to explore approaches and techniques with the aim to reconcile reasoning between language models using transformers and using logic-based representations. The specific objectives include analyzing the reasoning abilities of language models measured alongside KR methods, injecting KR-style reasoning abilities into language models (including by neuro-symbolic means), and formalizing the kind of reasoning language models carry out. This exploration aims to uncover how language models can effectively integrate and leverage knowledge and reasoning with it, thus improving their application and utility in areas where precision and reliability are a key requirement. | 翻訳日:2024-11-01 19:17:28 公開日:2024-10-12 |
# 知識表現と推論のための次世代言語モデルに関する第1回国際ワークショップ(NeLaMKRR 2024)の開催報告
Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) ( http://arxiv.org/abs/2410.05339v2 ) ライセンス: Link先を確認 | Ken Satoh, Ha-Thanh Nguyen, Francesca Toni, Randy Goebel, Kostas Stathis, | (参考訳) 推論は人間の知性の本質的な要素であり、批判的に考え、責任ある決定を支持し、挑戦的な問題を解決する能力において、基本的な役割を担います。
伝統的に、AIは知識の論理に基づく表現の文脈における推論に対処してきた。
しかし、自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。
言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
このワークショップの目的は、異なる分野や/またはAIの観点からの研究者のためのプラットフォームを構築し、トランスフォーマーとロジックベースの表現を使用して言語モデル間の推論を整合させることを目的として、アプローチとテクニックを探求することである。
具体的な目的は、KR法と共に測定された言語モデルの推論能力の分析、KRスタイルの推論能力を言語モデルに注入すること(ニューロシンボリックな手段を含む)、そして、実行される言語モデルの種類を形式化することである。
この調査は、言語モデルが知識と推論を効果的に統合し、活用する方法を明らかにすることを目的としている。
Reasoning is an essential component of human intelligence as it plays a fundamental role in our ability to think critically, support responsible decisions, and solve challenging problems. Traditionally, AI has addressed reasoning in the context of logic-based representations of knowledge. However, the recent leap forward in natural language processing, with the emergence of language models based on transformers, is hinting at the possibility that these models exhibit reasoning abilities, particularly as they grow in size and are trained on more data. Despite ongoing discussions about what reasoning is in language models, it is still not easy to pin down to what extent these models are actually capable of reasoning. The goal of this workshop is to create a platform for researchers from different disciplines and/or AI perspectives, to explore approaches and techniques with the aim to reconcile reasoning between language models using transformers and using logic-based representations. The specific objectives include analyzing the reasoning abilities of language models measured alongside KR methods, injecting KR-style reasoning abilities into language models (including by neuro-symbolic means), and formalizing the kind of reasoning language models carry out. This exploration aims to uncover how language models can effectively integrate and leverage knowledge and reasoning with it, thus improving their application and utility in areas where precision and reliability are a key requirement. | 翻訳日:2024-11-01 19:17:28 公開日:2024-10-12 |
# 未知の事前情報設計
Information Design with Unknown Prior ( http://arxiv.org/abs/2410.05533v1 ) ライセンス: Link先を確認 | Tao Lin, Ce Li, | (参考訳) 古典的な情報デザインモデル(例えばベイジアン説得と安価な話し方)は、プレイヤーに世界の以前の分布について完全な知識を持つことを要求する。
本稿は,情報デザイナーが事前を知らないという,繰り返しの説得問題について考察する。
インフォメーションデザイナは、レシーバとの繰り返しのインタラクションからシグナリングスキームの設計を学ぶ。
我々は,情報設計者の学習アルゴリズムを,受信者の意思決定の2つのモデルの下で,既知の最適シグナリング方式を使用する場合と比較して,後悔しないよう設計する。
1)第1モデルは、受信者が事前を知っていると仮定し、後続更新を行い、信号に最も反応する。
本モデルでは, 一般的な場合では$O(\log T)$後悔する情報デザイナのための学習アルゴリズムを設計し, 受信側が2つのアクションしか持たない場合には$\Theta(\log \log T)$後悔する別のアルゴリズムを設計する。
2)第2のモデルは、受信側が事前を知らないと仮定し、アクションを取るために非回帰学習アルゴリズムを用いる。
情報デザイナが後悔する$O(\sqrt{\mathrm{rReg}(T) T})$, $\mathrm{rReg}(T)=o(T)$はレシーバの学習後悔の上限であることを示す。
そこで本研究は,未知の事前情報設計問題に対する学習基盤を提供する。
Classical information design models (e.g., Bayesian persuasion and cheap talk) require players to have perfect knowledge of the prior distribution of the state of the world. Our paper studies repeated persuasion problems in which the information designer does not know the prior. The information designer learns to design signaling schemes from repeated interactions with the receiver. We design learning algorithms for the information designer to achieve no regret compared to using the optimal signaling scheme with known prior, under two models of the receiver's decision-making. (1) The first model assumes that the receiver knows the prior and can perform posterior update and best respond to signals. In this model, we design a learning algorithm for the information designer with $O(\log T)$ regret in the general case, and another algorithm with $\Theta(\log \log T)$ regret in the case where the receiver has only two actions. (2) The second model assumes that the receiver does not know the prior and employs a no-regret learning algorithm to take actions. We show that the information designer can achieve regret $O(\sqrt{\mathrm{rReg}(T) T})$, where $\mathrm{rReg}(T)=o(T)$ is an upper bound on the receiver's learning regret. Our work thus provides a learning foundation for the problem of information design with unknown prior. | 翻訳日:2024-11-01 18:08:20 公開日:2024-10-12 |
# 未知の事前情報設計
Information Design with Unknown Prior ( http://arxiv.org/abs/2410.05533v2 ) ライセンス: Link先を確認 | Tao Lin, Ce Li, | (参考訳) 古典的な情報デザインモデル(例えばベイジアン説得と安価な話し方)は、プレイヤーに世界の以前の分布について完全な知識を持つことを要求する。
本稿は,情報デザイナーが事前を知らないという,繰り返しの説得問題について考察する。
インフォメーションデザイナは、レシーバとの繰り返しのインタラクションからシグナリングスキームの設計を学ぶ。
我々は,情報設計者の学習アルゴリズムを,受信者の意思決定の2つのモデルの下で,既知の最適シグナリング方式を使用する場合と比較して,後悔しないよう設計する。
1)第1モデルは、受信者が事前を知っていると仮定し、後続更新を行い、信号に最も反応する。
本モデルでは, 一般的な場合では$O(\log T)$後悔する情報デザイナのための学習アルゴリズムを設計し, 受信側が2つのアクションしか持たない場合には$\Theta(\log \log T)$後悔する別のアルゴリズムを設計する。
2)第2のモデルは、受信側が事前を知らないと仮定し、アクションを取るために非回帰学習アルゴリズムを用いる。
情報デザイナが後悔する$O(\sqrt{\mathrm{rReg}(T) T})$, $\mathrm{rReg}(T)=o(T)$はレシーバの学習後悔の上限であることを示す。
そこで本研究は,未知の事前情報設計問題に対する学習基盤を提供する。
Classical information design models (e.g., Bayesian persuasion and cheap talk) require players to have perfect knowledge of the prior distribution of the state of the world. Our paper studies repeated persuasion problems in which the information designer does not know the prior. The information designer learns to design signaling schemes from repeated interactions with the receiver. We design learning algorithms for the information designer to achieve no regret compared to using the optimal signaling scheme with known prior, under two models of the receiver's decision-making. (1) The first model assumes that the receiver knows the prior and can perform posterior update and best respond to signals. In this model, we design a learning algorithm for the information designer with $O(\log T)$ regret in the general case, and another algorithm with $\Theta(\log \log T)$ regret in the case where the receiver has only two actions. (2) The second model assumes that the receiver does not know the prior and employs a no-regret learning algorithm to take actions. We show that the information designer can achieve regret $O(\sqrt{\mathrm{rReg}(T) T})$, where $\mathrm{rReg}(T)=o(T)$ is an upper bound on the receiver's learning regret. Our work thus provides a learning foundation for the problem of information design with unknown prior. | 翻訳日:2024-11-01 18:08:20 公開日:2024-10-12 |
# 電子商取引における情報発見
Information Discovery in e-Commerce ( http://arxiv.org/abs/2410.05763v1 ) ライセンス: Link先を確認 | Zhaochun Ren, Xiangnan He, Dawei Yin, Maarten de Rijke, | (参考訳) 電子商取引(Electronic Commerce、Eコマース)は、商品やサービスの売買、あるいはオンラインでの資金やデータのやりとりである。
Amazon、Airbnb、Alibaba、Booking.com、eBay、JD.comなどのグローバルなプレイヤーや、Bol.comやFlipkart.comといった特定の地域をターゲットにしたプラットフォームなど、eコマースプラットフォームはさまざまな種類がある。
eコマースにおける情報発見は、さまざまなタイプの検索(探索検索とルックアップタスク)、レコメンダシステム、eコマースポータルにおける自然言語処理に関するものだ。
電子商取引サイトの人気が高まり、電子商取引における情報発見の研究が活発な研究分野となっている。
これは、この分野における出版物や専門のワークショップの増加によって見受けられる。
電子商取引における情報発見手法は主に、eコマース検索とレコメンデーションシステムの有効性の向上、eコマースを支援するための知識グラフの充実と利用、そして人々が商品やサービスに接続するのに役立つ革新的な質問応答とボットベースのソリューションの開発に焦点を当てている。
本調査では,eコマースにおける情報発見のための基盤,アルゴリズム,技術的ソリューションについて概説する。
対象となったトピックは、Eコマースにおけるユーザー行動とプロファイリング、検索、レコメンデーション、言語技術である。
Electronic commerce, or e-commerce, is the buying and selling of goods and services, or the transmitting of funds or data online. E-commerce platforms come in many kinds, with global players such as Amazon, Airbnb, Alibaba, Booking.com, eBay, JD.com and platforms targeting specific geographic regions such as Bol.com and Flipkart.com.Information retrieval has a natural role to play in e-commerce, especially in connecting people to goods and services. Information discovery in e-commerce concerns different types of search (e.g., exploratory search vs. lookup tasks), recommender systems, and natural language processing in e-commerce portals. The rise in popularity of e-commerce sites has made research on information discovery in e-commerce an increasingly active research area. This is witnessed by an increase in publications and dedicated workshops in this space. Methods for information discovery in e-commerce largely focus on improving the effectiveness of e-commerce search and recommender systems, on enriching and using knowledge graphs to support e-commerce, and on developing innovative question answering and bot-based solutions that help to connect people to goods and services. In this survey, an overview is given of the fundamental infrastructure, algorithms, and technical solutions for information discovery in e-commerce. The topics covered include user behavior and profiling, search, recommendation, and language technology in e-commerce. | 翻訳日:2024-11-01 12:59:37 公開日:2024-10-12 |
# 電子商取引における情報発見
Information Discovery in e-Commerce ( http://arxiv.org/abs/2410.05763v2 ) ライセンス: Link先を確認 | Zhaochun Ren, Xiangnan He, Dawei Yin, Maarten de Rijke, | (参考訳) 電子商取引(Electronic Commerce、Eコマース)は、商品やサービスの売買、あるいはオンラインでの資金やデータのやりとりである。
Eコマースプラットフォームにはさまざまな種類があり、Amazon、Airbnb、Alibaba、eBayなどのグローバルなプレイヤーや、特定の地域をターゲットにしたプラットフォームがある。
情報検索は、特に商品やサービスとの接続において、eコマースにおいて自然な役割を担っている。
eコマースにおける情報発見は、さまざまなタイプの検索(探索検索とルックアップタスク)、レコメンダシステム、eコマースポータルにおける自然言語処理に関するものだ。
電子商取引サイトの人気が高まり、電子商取引における情報発見の研究が活発な研究分野となっている。
これは、この分野における出版物や専門のワークショップの増加によって見受けられる。
電子商取引における情報発見手法は主に、eコマース検索とレコメンデーションシステムの有効性の向上、eコマースを支援するための知識グラフの充実と利用、そして人々が商品やサービスに接続するのに役立つ革新的な質問応答とボットベースのソリューションの開発に焦点を当てている。
本調査では,eコマースにおける情報発見のための基盤,アルゴリズム,技術的ソリューションについて概説する。
対象となったトピックは、Eコマースにおけるユーザー行動とプロファイリング、検索、レコメンデーション、言語技術である。
Electronic commerce, or e-commerce, is the buying and selling of goods and services, or the transmitting of funds or data online. E-commerce platforms come in many kinds, with global players such as Amazon, Airbnb, Alibaba, eBay and platforms targeting specific geographic regions. Information retrieval has a natural role to play in e-commerce, especially in connecting people to goods and services. Information discovery in e-commerce concerns different types of search (e.g., exploratory search vs. lookup tasks), recommender systems, and natural language processing in e-commerce portals. The rise in popularity of e-commerce sites has made research on information discovery in e-commerce an increasingly active research area. This is witnessed by an increase in publications and dedicated workshops in this space. Methods for information discovery in e-commerce largely focus on improving the effectiveness of e-commerce search and recommender systems, on enriching and using knowledge graphs to support e-commerce, and on developing innovative question answering and bot-based solutions that help to connect people to goods and services. In this survey, an overview is given of the fundamental infrastructure, algorithms, and technical solutions for information discovery in e-commerce. The topics covered include user behavior and profiling, search, recommendation, and language technology in e-commerce. | 翻訳日:2024-11-01 12:59:37 公開日:2024-10-12 |
# 可変ビットレート残差ベクトル量子化によるオーディオ符号化
Variable Bitrate Residual Vector Quantization for Audio Coding ( http://arxiv.org/abs/2410.06016v1 ) ライセンス: Link先を確認 | Yunkee Chae, Woosung Choi, Yuhta Takida, Junghyun Koo, Yukara Ikemiya, Zhi Zhong, Kin Wai Cheuk, Marco A. Martínez-Ramírez, Kyogu Lee, Wei-Hsiang Liao, Yuki Mitsufuji, | (参考訳) 最近の最先端のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている。
この成功にもかかわらず、これらのモデルはフレームごとに一定数のコードブックを使用し、特にサイレントのような単純な入力オーディオのシナリオにおいて、レート歪みのトレードオフの点では最適である。
この制限に対処するため,オーディオコーデックの可変ビットレートRVQ(VRVQ)を提案する。
さらに、重要度マップから二項重要度マスクへ変換する非微分不可能マスキング動作の勾配推定法を提案し、ストレートスルー推定器によるモデルトレーニングを改善する。
提案するトレーニングフレームワークは,ベースライン法と比較して優れた結果が得られ,現在の最先端コーデックに適用した場合にさらなる改善が期待できることを示す。
Recent state-of-the-art neural audio compression models have progressively adopted residual vector quantization (RVQ). Despite this success, these models employ a fixed number of codebooks per frame, which can be suboptimal in terms of rate-distortion tradeoff, particularly in scenarios with simple input audio, such as silence. To address this limitation, we propose variable bitrate RVQ (VRVQ) for audio codecs, which allows for more efficient coding by adapting the number of codebooks used per frame. Furthermore, we propose a gradient estimation method for the non-differentiable masking operation that transforms from the importance map to the binary importance mask, improving model training via a straight-through estimator. We demonstrate that the proposed training framework achieves superior results compared to the baseline method and shows further improvement when applied to the current state-of-the-art codec. | 翻訳日:2024-11-01 11:40:34 公開日:2024-10-12 |
# VRVQ:オーディオ圧縮のための可変ビットレート残差ベクトル量子化
VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression ( http://arxiv.org/abs/2410.06016v2 ) ライセンス: Link先を確認 | Yunkee Chae, Woosung Choi, Yuhta Takida, Junghyun Koo, Yukara Ikemiya, Zhi Zhong, Kin Wai Cheuk, Marco A. Martínez-Ramírez, Kyogu Lee, Wei-Hsiang Liao, Yuki Mitsufuji, | (参考訳) 最近の最先端のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている。
この成功にもかかわらず、これらのモデルはフレームごとに一定数のコードブックを使用し、特にサイレントのような単純な入力オーディオのシナリオにおいて、レート歪みのトレードオフの点では最適である。
この制限に対処するため,オーディオコーデックの可変ビットレートRVQ(VRVQ)を提案する。
さらに、重要度マップから二項重要度マスクへ変換する非微分不可能マスキング動作の勾配推定法を提案し、ストレートスルー推定器によるモデルトレーニングを改善する。
提案するトレーニングフレームワークは,ベースライン法と比較して優れた結果が得られ,現在の最先端コーデックに適用した場合にさらなる改善が期待できることを示す。
Recent state-of-the-art neural audio compression models have progressively adopted residual vector quantization (RVQ). Despite this success, these models employ a fixed number of codebooks per frame, which can be suboptimal in terms of rate-distortion tradeoff, particularly in scenarios with simple input audio, such as silence. To address this limitation, we propose variable bitrate RVQ (VRVQ) for audio codecs, which allows for more efficient coding by adapting the number of codebooks used per frame. Furthermore, we propose a gradient estimation method for the non-differentiable masking operation that transforms from the importance map to the binary importance mask, improving model training via a straight-through estimator. We demonstrate that the proposed training framework achieves superior results compared to the baseline method and shows further improvement when applied to the current state-of-the-art codec. | 翻訳日:2024-11-01 11:40:34 公開日:2024-10-12 |
# コンフォーマル予測:データ・パースペクティブ
Conformal Prediction: A Data Perspective ( http://arxiv.org/abs/2410.06494v1 ) ライセンス: Link先を確認 | Xiaofan Zhou, Baiting Chen, Yu Gui, Lu Cheng, | (参考訳) 分布のない不確実性定量化(UQ)フレームワークであるコンフォーマル予測(CP)は、ブラックボックスモデルに対して有効な予測推論を確実に提供する。
CPは、特定の確率で真の出力を含む予測セットを構成する。
しかし、現代のデータサイエンスは、データとモデルの複雑さの増大とともに、従来のCPメソッドに挑戦する多様なモダリティを持っている。
これらの発展は、進化するシナリオに対処するための新しいアプローチを刺激してきた。
この調査は、CPの基本概念と、構造化、非構造化、動的データへのアプリケーションを含む、データ中心の観点からの最近の進歩についてレビューする。
また、CPが大規模データやモデルで直面する課題や機会についても論じる。
Conformal prediction (CP), a distribution-free uncertainty quantification (UQ) framework, reliably provides valid predictive inference for black-box models. CP constructs prediction sets that contain the true output with a specified probability. However, modern data science diverse modalities, along with increasing data and model complexity, challenge traditional CP methods. These developments have spurred novel approaches to address evolving scenarios. This survey reviews the foundational concepts of CP and recent advancements from a data-centric perspective, including applications to structured, unstructured, and dynamic data. We also discuss the challenges and opportunities CP faces in large-scale data and models. | 翻訳日:2024-11-01 05:18:55 公開日:2024-10-12 |
# コンフォーマル予測:データ・パースペクティブ
Conformal Prediction: A Data Perspective ( http://arxiv.org/abs/2410.06494v2 ) ライセンス: Link先を確認 | Xiaofan Zhou, Baiting Chen, Yu Gui, Lu Cheng, | (参考訳) 分布のない不確実性定量化(UQ)フレームワークであるコンフォーマル予測(CP)は、ブラックボックスモデルに対して有効な予測推論を確実に提供する。
CPは、特定の確率で真の出力を含む予測セットを構成する。
しかし、現代のデータサイエンスは、データとモデルの複雑さの増大とともに、従来のCPメソッドに挑戦する多様なモダリティを持っている。
これらの発展は、進化するシナリオに対処するための新しいアプローチを刺激してきた。
この調査は、CPの基本概念と、構造化、非構造化、動的データへのアプリケーションを含む、データ中心の観点からの最近の進歩についてレビューする。
また、CPが大規模データやモデルで直面する課題や機会についても論じる。
Conformal prediction (CP), a distribution-free uncertainty quantification (UQ) framework, reliably provides valid predictive inference for black-box models. CP constructs prediction sets that contain the true output with a specified probability. However, modern data science diverse modalities, along with increasing data and model complexity, challenge traditional CP methods. These developments have spurred novel approaches to address evolving scenarios. This survey reviews the foundational concepts of CP and recent advancements from a data-centric perspective, including applications to structured, unstructured, and dynamic data. We also discuss the challenges and opportunities CP faces in large-scale data and models. | 翻訳日:2024-11-01 05:18:55 公開日:2024-10-12 |
# 高レベルプログラミング, 逐次実行, 条件分岐のための量子ISA
A Quantum ISA for High-Level Programming, Enabling Sequential Execution and Conditional Branching ( http://arxiv.org/abs/2410.06779v1 ) ライセンス: Link先を確認 | Francesco Junior De Gregorio, | (参考訳) 本稿では、逐次実行や分岐を含む高レベルプログラミングパラダイムをサポートするために量子回路を抽象化する新しい量子命令セットアーキテクチャを提案する。
ハードウェアとソフトウェアの間の懸念を分離することで、提案されたアーキテクチャは量子アルゴリズムの開発を単純化し、プログラマは量子固有の振る舞いを活用しながら、古典的な構造を扱うことができる。
この抽象化により、開発者は低レベルの回路構成に負担をかけずにアルゴリズム設計に集中することができ、ハードウェア最適化とソフトウェア革新の両方を容易にできる。
提案したアーキテクチャは、古典プログラミングと量子プログラミングのギャップを埋めるための一歩である。
This paper introduces a novel quantum instruction set architecture that abstracts quantum circuits to support high-level programming paradigms, including sequential execution and branching. By separating concerns between hardware and software, the proposed architecture simplifies quantum algorithm development, allowing programmers to work with classical structures while still being able to exploit quantum-specific behavior . This abstraction enables developers to focus on algorithm design without being burdened by low-level circuit construction, thus facilitating both hardware optimization and software innovation. The proposed architecture represents a step forward in bridging the gap between classical and quantum programming. | 翻訳日:2024-11-01 03:40:32 公開日:2024-10-12 |
# 高レベルプログラミング, 逐次実行, 条件分岐のための量子ISA
A Quantum ISA for High-Level Programming, Enabling Sequential Execution and Conditional Branching ( http://arxiv.org/abs/2410.06779v2 ) ライセンス: Link先を確認 | Francesco Junior De Gregorio, | (参考訳) 本稿では、逐次実行や分岐を含む高レベルプログラミングパラダイムをサポートするために量子回路を抽象化する新しい量子命令セットアーキテクチャを提案する。
ハードウェアとソフトウェアの間の懸念を分離することで、提案されたアーキテクチャは量子アルゴリズムの開発を単純化し、プログラマは量子固有の振る舞いを活用しながら、古典的な構造を扱うことができる。
この抽象化により、開発者は低レベルの回路構成に負担をかけずにアルゴリズム設計に集中することができ、ハードウェア最適化とソフトウェア革新の両方を容易にできる。
提案したアーキテクチャは、古典プログラミングと量子プログラミングのギャップを埋めるための一歩である。
This paper introduces a novel quantum instruction set architecture that abstracts quantum circuits to support high-level programming paradigms, including sequential execution and branching. By separating concerns between hardware and software, the proposed architecture simplifies quantum algorithm development, allowing programmers to work with classical structures while still being able to exploit quantum-specific behavior . This abstraction enables developers to focus on algorithm design without being burdened by low-level circuit construction, thus facilitating both hardware optimization and software innovation. The proposed architecture represents a step forward in bridging the gap between classical and quantum programming. | 翻訳日:2024-11-01 03:40:32 公開日:2024-10-12 |
# 効率的な画像生成のための関係拡散蒸留
Relational Diffusion Distillation for Efficient Image Generation ( http://arxiv.org/abs/2410.07679v1 ) ライセンス: Link先を確認 | Weilun Feng, Chuanguang Yang, Zhulin An, Libo Huang, Boyu Diao, Fei Wang, Yongjun Xu, | (参考訳) 拡散モデルは画像生成の分野では顕著な性能を達成しているが、その高い推論遅延は、計算資源の少ないエッジデバイスにおいて、その広範な応用を妨げる。
そのため,拡散モデルに必要なサンプリングステップ数を削減すべく,多くのトレーニング不要サンプリング手法が提案されている。
しかし、ごく少数のサンプリングステップでは性能が良くない。
知識蒸留技術の出現により、既存の訓練方法は非常に少ないステップ数で優れた成果を上げている。
しかし,本手法は主に知識蒸留を用いた新しい拡散モデルサンプリング法の設計に重点を置いている。
教師モデルからより良い拡散知識を伝達する方法は、より価値のある問題であるが、研究されることはめったにない。
そこで本研究では,拡散モデルの蒸留に適した新しい蒸留法であるRelational Diffusion Distillation (RDD)を提案する。
教師モデルと生徒モデルを簡単に画素レベルや特徴分布に整列させる既存の方法とは異なり,本手法では蒸留プロセス中にクロスサンプル関係の相互作用を導入し,複数のサンプル相互作用によって引き起こされるメモリ制約を緩和する。
我々のRDDは拡散モデルにおける進行蒸留フレームワークの有効性を著しく向上させる。
複数のデータセット(例えば CIFAR-10 や ImageNet など)の大規模な実験により,提案した RDD は1回の採取工程で1.47 FID を減少させ,DDIM の手法に比べて256倍の高速化を実現していることがわかった。
コードはhttps://github.com/cantbebetter2/RDDで入手できる。
Although the diffusion model has achieved remarkable performance in the field of image generation, its high inference delay hinders its wide application in edge devices with scarce computing resources. Therefore, many training-free sampling methods have been proposed to reduce the number of sampling steps required for diffusion models. However, they perform poorly under a very small number of sampling steps. Thanks to the emergence of knowledge distillation technology, the existing training scheme methods have achieved excellent results at very low step numbers. However, the current methods mainly focus on designing novel diffusion model sampling methods with knowledge distillation. How to transfer better diffusion knowledge from teacher models is a more valuable problem but rarely studied. Therefore, we propose Relational Diffusion Distillation (RDD), a novel distillation method tailored specifically for distilling diffusion models. Unlike existing methods that simply align teacher and student models at pixel level or feature distributions, our method introduces cross-sample relationship interaction during the distillation process and alleviates the memory constraints induced by multiple sample interactions. Our RDD significantly enhances the effectiveness of the progressive distillation framework within the diffusion model. Extensive experiments on several datasets (e.g., CIFAR-10 and ImageNet) demonstrate that our proposed RDD leads to 1.47 FID decrease under 1 sampling step compared to state-of-the-art diffusion distillation methods and achieving 256x speed-up compared to DDIM strategy. Code is available at https://github.com/cantbebetter2/RDD. | 翻訳日:2024-10-31 15:36:27 公開日:2024-10-12 |
# 効率的な画像生成のための関係拡散蒸留
Relational Diffusion Distillation for Efficient Image Generation ( http://arxiv.org/abs/2410.07679v2 ) ライセンス: Link先を確認 | Weilun Feng, Chuanguang Yang, Zhulin An, Libo Huang, Boyu Diao, Fei Wang, Yongjun Xu, | (参考訳) 拡散モデルは画像生成の分野では顕著な性能を達成しているが、その高い推論遅延は、計算資源の少ないエッジデバイスにおいて、その広範な応用を妨げる。
そのため,拡散モデルに必要なサンプリングステップ数を削減すべく,多くのトレーニング不要サンプリング手法が提案されている。
しかし、ごく少数のサンプリングステップでは性能が良くない。
知識蒸留技術の出現により、既存の訓練方法は非常に少ないステップ数で優れた成果を上げている。
しかし,本手法は主に知識蒸留を用いた新しい拡散モデルサンプリング法の設計に重点を置いている。
教師モデルからより良い拡散知識を伝達する方法は、より価値のある問題であるが、研究されることはめったにない。
そこで本研究では,拡散モデルの蒸留に適した新しい蒸留法であるRelational Diffusion Distillation (RDD)を提案する。
教師モデルと生徒モデルを簡単に画素レベルや特徴分布に整列させる既存の方法とは異なり,本手法では蒸留プロセス中にクロスサンプル関係の相互作用を導入し,複数のサンプル相互作用によって引き起こされるメモリ制約を緩和する。
我々のRDDは拡散モデルにおける進行蒸留フレームワークの有効性を著しく向上させる。
複数のデータセット(例えば CIFAR-10 や ImageNet など)の大規模な実験により,提案した RDD は1回の採取工程で1.47 FID を減少させ,DDIM の手法に比べて256倍の高速化を実現していることがわかった。
コードはhttps://github.com/cantbebetter2/RDDで入手できる。
Although the diffusion model has achieved remarkable performance in the field of image generation, its high inference delay hinders its wide application in edge devices with scarce computing resources. Therefore, many training-free sampling methods have been proposed to reduce the number of sampling steps required for diffusion models. However, they perform poorly under a very small number of sampling steps. Thanks to the emergence of knowledge distillation technology, the existing training scheme methods have achieved excellent results at very low step numbers. However, the current methods mainly focus on designing novel diffusion model sampling methods with knowledge distillation. How to transfer better diffusion knowledge from teacher models is a more valuable problem but rarely studied. Therefore, we propose Relational Diffusion Distillation (RDD), a novel distillation method tailored specifically for distilling diffusion models. Unlike existing methods that simply align teacher and student models at pixel level or feature distributions, our method introduces cross-sample relationship interaction during the distillation process and alleviates the memory constraints induced by multiple sample interactions. Our RDD significantly enhances the effectiveness of the progressive distillation framework within the diffusion model. Extensive experiments on several datasets (e.g., CIFAR-10 and ImageNet) demonstrate that our proposed RDD leads to 1.47 FID decrease under 1 sampling step compared to state-of-the-art diffusion distillation methods and achieving 256x speed-up compared to DDIM strategy. Code is available at https://github.com/cantbebetter2/RDD. | 翻訳日:2024-10-31 15:36:27 公開日:2024-10-12 |
# Kullback-Leibler分散を用いた直交非負行列分解
Orthogonal Nonnegative Matrix Factorization with the Kullback-Leibler divergence ( http://arxiv.org/abs/2410.07786v1 ) ライセンス: Link先を確認 | Jean Pacifique Nkurunziza, Fulgence Nahayo, Nicolas Gillis, | (参考訳) 直交非負行列分解(ONMF)はクラスタリングの標準的なアプローチとなっている。
私たちが知る限り、ONMFに関するほとんどの研究は近似の質を評価するためにフロベニウスノルムに依存している。
本稿では,KL(Kulback-Leibler)の発散を最小限に抑えたONMFの新しいモデルとアルゴリズムを提案する。
ガウスノイズを仮定するフロベニウスのノルムとは対照的に、KL偏差はポアソン分布データに対する最大確率推定器であり、文書データセットや画像における写真カウントプロセスにおいて、ワードカウントのより良いベクトルをモデル化することができる。
我々は,KL-ONMFの交互最適化に基づくアルゴリズムを開発し,文書分類とハイパースペクトル画像アンミックスのためのFrobenius-normベースのONMFで良好に動作することを示す。
Orthogonal nonnegative matrix factorization (ONMF) has become a standard approach for clustering. As far as we know, most works on ONMF rely on the Frobenius norm to assess the quality of the approximation. This paper presents a new model and algorithm for ONMF that minimizes the Kullback-Leibler (KL) divergence. As opposed to the Frobenius norm which assumes Gaussian noise, the KL divergence is the maximum likelihood estimator for Poisson-distributed data, which can model better vectors of word counts in document data sets and photo counting processes in imaging. We have developed an algorithm based on alternating optimization, KL-ONMF, and show that it performs favorably with the Frobenius-norm based ONMF for document classification and hyperspectral image unmixing. | 翻訳日:2024-10-31 14:56:00 公開日:2024-10-12 |
# Kullback-Leibler分散を用いた直交非負行列分解
Orthogonal Nonnegative Matrix Factorization with the Kullback-Leibler divergence ( http://arxiv.org/abs/2410.07786v2 ) ライセンス: Link先を確認 | Jean Pacifique Nkurunziza, Fulgence Nahayo, Nicolas Gillis, | (参考訳) 直交非負行列分解(ONMF)はクラスタリングの標準的なアプローチとなっている。
私たちが知る限り、ONMFに関するほとんどの研究は近似の質を評価するためにフロベニウスノルムに依存している。
本稿では,KL(Kulback-Leibler)の発散を最小限に抑えたONMFの新しいモデルとアルゴリズムを提案する。
ガウスノイズを仮定するフロベニウスのノルムとは対照的に、KL偏差はポアソン分布データに対する最大確率推定器であり、文書データセットや画像における写真カウントプロセスにおいて、ワードカウントのよりまばらなベクトルをモデル化することができる。
我々は,KL-ONMFの交互最適化に基づくアルゴリズムを開発し,文書分類とハイパースペクトル画像のアンミックスのためのFrobenius-normベースのONMFで良好に動作することを示す。
Orthogonal nonnegative matrix factorization (ONMF) has become a standard approach for clustering. As far as we know, most works on ONMF rely on the Frobenius norm to assess the quality of the approximation. This paper presents a new model and algorithm for ONMF that minimizes the Kullback-Leibler (KL) divergence. As opposed to the Frobenius norm which assumes Gaussian noise, the KL divergence is the maximum likelihood estimator for Poisson-distributed data, which can model better sparse vectors of word counts in document data sets and photo counting processes in imaging. We develop an algorithm based on alternating optimization, KL-ONMF, and show that it performs favorably with the Frobenius-norm based ONMF for document classification and hyperspectral image unmixing. | 翻訳日:2024-10-31 14:56:00 公開日:2024-10-12 |
# Doob's Lagrangian: トランジッションパスサンプリングのためのサンプル効率の良い変分アプローチ
Doob's Lagrangian: A Sample-Efficient Variational Approach to Transition Path Sampling ( http://arxiv.org/abs/2410.07974v1 ) ライセンス: Link先を確認 | Yuanqi Du, Michael Plainer, Rob Brekelmans, Chenru Duan, Frank Noé, Carla P. Gomes, Alan Apsuru-Guzik, Kirill Neklyudov, | (参考訳) 力学系における希少事象のサンプリングは、自然科学における基本的な問題であり、指数的に大きな軌道の空間のために計算上の問題を引き起こす。
興味のある力学系が既知のドリフトを持つブラウン運動に従うような場合、与えられた終点や所望の稀な事象に到達させる過程を条件付けるという問題は、Doobのh-変換によって決定的に答えられる。
しかし、この変換の単純な推定は、稀な事象の確率を推定するために十分な多くの前方軌道をシミュレートする必要があるため、実現不可能である。
本研究では,与えられた始点と所望の終点の間の軌道上の最適化問題として,Doobの$h$-transformの変分定式化を提案する。
この最適化のために,設計により所望の境界条件を課すモデルパラメータ化を用いたシミュレーション不要な学習目標を提案する。
提案手法はトラジェクトリ上での探索空間を大幅に削減し,既存の手法で必要とされる高価なトラジェクトリシミュレーションと非効率な重要度サンプリング推定器を回避する。
実世界の分子シミュレーションとタンパク質折り畳みタスクにおいて,本手法が実現可能な遷移経路を見つける能力を示す。
Rare event sampling in dynamical systems is a fundamental problem arising in the natural sciences, which poses significant computational challenges due to an exponentially large space of trajectories. For settings where the dynamical system of interest follows a Brownian motion with known drift, the question of conditioning the process to reach a given endpoint or desired rare event is definitively answered by Doob's h-transform. However, the naive estimation of this transform is infeasible, as it requires simulating sufficiently many forward trajectories to estimate rare event probabilities. In this work, we propose a variational formulation of Doob's $h$-transform as an optimization problem over trajectories between a given initial point and the desired ending point. To solve this optimization, we propose a simulation-free training objective with a model parameterization that imposes the desired boundary conditions by design. Our approach significantly reduces the search space over trajectories and avoids expensive trajectory simulation and inefficient importance sampling estimators which are required in existing methods. We demonstrate the ability of our method to find feasible transition paths on real-world molecular simulation and protein folding tasks. | 翻訳日:2024-10-31 06:15:07 公開日:2024-10-12 |
# Doob's Lagrangian: トランジッションパスサンプリングのためのサンプル効率の良い変分アプローチ
Doob's Lagrangian: A Sample-Efficient Variational Approach to Transition Path Sampling ( http://arxiv.org/abs/2410.07974v2 ) ライセンス: Link先を確認 | Yuanqi Du, Michael Plainer, Rob Brekelmans, Chenru Duan, Frank Noé, Carla P. Gomes, Alán Aspuru-Guzik, Kirill Neklyudov, | (参考訳) 力学系における希少事象のサンプリングは、自然科学における基本的な問題であり、指数的に大きな軌道の空間のために計算上の問題を引き起こす。
興味のある力学系が既知のドリフトを持つブラウン運動に従うような場合、与えられた終点や所望の稀な事象に到達させる過程を条件付けるという問題は、Doobのh-変換によって決定的に答えられる。
しかし、この変換の単純な推定は、稀な事象の確率を推定するために十分な多くの前方軌道をシミュレートする必要があるため、実現不可能である。
本研究では,与えられた始点と所望の終点の間の軌道上の最適化問題として,Doobのh-変換の変分定式化を提案する。
この最適化のために,設計により所望の境界条件を課すモデルパラメータ化を用いたシミュレーション不要な学習目標を提案する。
提案手法はトラジェクトリ上での探索空間を大幅に削減し,既存の手法で必要とされる高価なトラジェクトリシミュレーションと非効率な重要度サンプリング推定器を回避する。
実世界の分子シミュレーションとタンパク質折り畳みタスクにおいて,本手法が実現可能な遷移経路を見つける能力を示す。
Rare event sampling in dynamical systems is a fundamental problem arising in the natural sciences, which poses significant computational challenges due to an exponentially large space of trajectories. For settings where the dynamical system of interest follows a Brownian motion with known drift, the question of conditioning the process to reach a given endpoint or desired rare event is definitively answered by Doob's h-transform. However, the naive estimation of this transform is infeasible, as it requires simulating sufficiently many forward trajectories to estimate rare event probabilities. In this work, we propose a variational formulation of Doob's h-transform as an optimization problem over trajectories between a given initial point and the desired ending point. To solve this optimization, we propose a simulation-free training objective with a model parameterization that imposes the desired boundary conditions by design. Our approach significantly reduces the search space over trajectories and avoids expensive trajectory simulation and inefficient importance sampling estimators which are required in existing methods. We demonstrate the ability of our method to find feasible transition paths on real-world molecular simulation and protein folding tasks. | 翻訳日:2024-10-31 06:15:07 公開日:2024-10-12 |
# 内在的Voice: 内在的リアルタイム音声対話能力を備えたLLMの実現
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities ( http://arxiv.org/abs/2410.08035v1 ) ライセンス: Link先を確認 | Xin Zhang, Xiang Lyu, Zhihao Du, Qian Chen, Dong Zhang, Hangrui Hu, Chaohong Tan, Tianyu Zhao, Yuxuan Wang, Bin Zhang, Heng Lu, Yaqian Zhou, Xipeng Qiu, | (参考訳) 音声対話機能を備えたLLMを構築する現在の手法は、コンテンツ品質を維持するために、音声応答生成の前や中における明示的なテキスト自動回帰生成に大きく依存している。
そこで本研究では,内在型リアルタイム音声対話機能を備えたLLMであるIntrinsicVoicを紹介する。
IntrinsicVoiceは、テキストと音声のモダリティギャップを緩和することにより、事前学習されたLLMのテキスト能力の音声モダリティへの移行を容易にすることを目的としている。
我々の新規アーキテクチャであるGroupFormerは、高品質な音声を生成しながら、テキストシーケンスに匹敵する長さまで音声シーケンスを減らし、音声とテキストの長さの差を大幅に減らし、推論を高速化し、長文モデリング問題を緩和する。
さらに,500k近い音声と音声の対話と,音声とテキストのセマンティックアライメントを高めるためのモダリティ学習戦略を含む,音声と音声の多ターン対話データセットである<method-500k>を構築した。
IntrinsicVoiceは,マルチターン対話シナリオにおいて,100ms未満のレイテンシで高品質な音声応答を生成可能であることを示す。
デモはhttps://instrinsicvoice.github.io/.comで公開されている。
Current methods of building LLMs with voice interaction capabilities rely heavily on explicit text autoregressive generation before or during speech response generation to maintain content quality, which unfortunately brings computational overhead and increases latency in multi-turn interactions. To address this, we introduce IntrinsicVoic,e an LLM designed with intrinsic real-time voice interaction capabilities. IntrinsicVoice aims to facilitate the transfer of textual capabilities of pre-trained LLMs to the speech modality by mitigating the modality gap between text and speech. Our novelty architecture, GroupFormer, can reduce speech sequences to lengths comparable to text sequences while generating high-quality audio, significantly reducing the length difference between speech and text, speeding up inference, and alleviating long-text modeling issues. Additionally, we construct a multi-turn speech-to-speech dialogue dataset named \method-500k which includes nearly 500k turns of speech-to-speech dialogues, and a cross-modality training strategy to enhance the semantic alignment between speech and text. Experimental results demonstrate that IntrinsicVoice can generate high-quality speech response with latency lower than 100ms in multi-turn dialogue scenarios. Demos are available at https://instrinsicvoice.github.io/. | 翻訳日:2024-10-31 05:55:13 公開日:2024-10-12 |
# 内在的Voice: 内在的リアルタイム音声対話能力を備えたLLMの実現
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities ( http://arxiv.org/abs/2410.08035v2 ) ライセンス: Link先を確認 | Xin Zhang, Xiang Lyu, Zhihao Du, Qian Chen, Dong Zhang, Hangrui Hu, Chaohong Tan, Tianyu Zhao, Yuxuan Wang, Bin Zhang, Heng Lu, Yaqian Zhou, Xipeng Qiu, | (参考訳) 音声対話機能を備えたLLMを構築する現在の手法は、コンテンツ品質を維持するために、音声応答生成の前や中における明示的なテキスト自動回帰生成に大きく依存している。
そこで本研究では,内在型リアルタイム音声対話機能を備えたLLMであるIntrinsicVoicを紹介する。
IntrinsicVoiceは、テキストと音声のモダリティギャップを緩和することにより、事前学習されたLLMのテキスト能力の音声モダリティへの移行を容易にすることを目的としている。
我々の新規アーキテクチャであるGroupFormerは、高品質な音声を生成しながら、テキストシーケンスに匹敵する長さまで音声シーケンスを減らし、音声とテキストの長さの差を大幅に減らし、推論を高速化し、長文モデリング問題を緩和する。
さらに,500k近い音声と音声の対話と,音声とテキストのセマンティックアライメントを高めるためのモダリティ学習戦略を含む,音声と音声の多ターン対話データセットである<method-500k>を構築した。
IntrinsicVoiceは,マルチターン対話シナリオにおいて,100ms未満のレイテンシで高品質な音声応答を生成可能であることを示す。
デモはhttps://instrinsicvoice.github.io/.comで公開されている。
Current methods of building LLMs with voice interaction capabilities rely heavily on explicit text autoregressive generation before or during speech response generation to maintain content quality, which unfortunately brings computational overhead and increases latency in multi-turn interactions. To address this, we introduce IntrinsicVoic,e an LLM designed with intrinsic real-time voice interaction capabilities. IntrinsicVoice aims to facilitate the transfer of textual capabilities of pre-trained LLMs to the speech modality by mitigating the modality gap between text and speech. Our novelty architecture, GroupFormer, can reduce speech sequences to lengths comparable to text sequences while generating high-quality audio, significantly reducing the length difference between speech and text, speeding up inference, and alleviating long-text modeling issues. Additionally, we construct a multi-turn speech-to-speech dialogue dataset named \method-500k which includes nearly 500k turns of speech-to-speech dialogues, and a cross-modality training strategy to enhance the semantic alignment between speech and text. Experimental results demonstrate that IntrinsicVoice can generate high-quality speech response with latency lower than 100ms in multi-turn dialogue scenarios. Demos are available at https://instrinsicvoice.github.io/. | 翻訳日:2024-10-31 05:45:06 公開日:2024-10-12 |
# ハミルトン相状態からの効率的な量子擬似ランダム性
Efficient Quantum Pseudorandomness from Hamiltonian Phase States ( http://arxiv.org/abs/2410.08073v1 ) ライセンス: Link先を確認 | John Bostanci, Jonas Haferkamp, Dominik Hangleiter, Alexander Poremba, | (参考訳) 量子擬似ランダムネスは、絡み合い理論からカオス量子系のスクランブル現象のモデル、そして最近では量子暗号の基礎において、多くの領域の量子情報に適用されている。
Kretschmer (TQC '21) は、古典的な一方的機能を持たない世界においても擬似ランダム状態と擬似ランダム統一の両方が存在することを示した。
しかし、今日まですべての既知の構成は、それ自体が一方向関数の存在と同義であり、現実的な量子ハードウェア上でも実現が困難である古典的な暗号ビルディングブロックを必要とする。
本研究では、量子擬似ランダム性を古典暗号から完全に切り離すことにより、これらの両面を同時に前進させようとする。
我々は、ランダム瞬時量子多項式時間(IQP)回路の出力状態を復号するハミルトニアン位相状態(HPS)問題という量子硬度仮定を導入する。
ハミルトニアンの位相状態は、アダマールゲート、単一量子Z回転、CNOT回路のみを用いて非常に効率的に生成できる。
問題の難しさが問題の最悪のバージョンに還元されることを示し、我々の仮定が少なくとも完全に量子的であることを示す。
アンサンブルの約$t$-design特性を証明し,HPSのコピー数が少ない場合にも,情報理論の硬さを示す。
最後に、HPSの仮定とその変種により、擬似乱数状態から量子擬似絡み合い、擬似乱数ユニタリ、さらには量子鍵を用いた公開鍵暗号のようなプリミティブまで、多くの擬似乱数量子プリミティブを効率的に構築できることを示す。
Quantum pseudorandomness has found applications in many areas of quantum information, ranging from entanglement theory, to models of scrambling phenomena in chaotic quantum systems, and, more recently, in the foundations of quantum cryptography. Kretschmer (TQC '21) showed that both pseudorandom states and pseudorandom unitaries exist even in a world without classical one-way functions. To this day, however, all known constructions require classical cryptographic building blocks which are themselves synonymous with the existence of one-way functions, and which are also challenging to realize on realistic quantum hardware. In this work, we seek to make progress on both of these fronts simultaneously -- by decoupling quantum pseudorandomness from classical cryptography altogether. We introduce a quantum hardness assumption called the Hamiltonian Phase State (HPS) problem, which is the task of decoding output states of a random instantaneous quantum polynomial-time (IQP) circuit. Hamiltonian phase states can be generated very efficiently using only Hadamard gates, single-qubit Z-rotations and CNOT circuits. We show that the hardness of our problem reduces to a worst-case version of the problem, and we provide evidence that our assumption is plausibly fully quantum; meaning, it cannot be used to construct one-way functions. We also show information-theoretic hardness when only few copies of HPS are available by proving an approximate $t$-design property of our ensemble. Finally, we show that our HPS assumption and its variants allow us to efficiently construct many pseudorandom quantum primitives, ranging from pseudorandom states, to quantum pseudoentanglement, to pseudorandom unitaries, and even primitives such as public-key encryption with quantum keys. | 翻訳日:2024-10-31 05:35:21 公開日:2024-10-12 |
# ハミルトン相状態からの効率的な量子擬似ランダム性
Efficient Quantum Pseudorandomness from Hamiltonian Phase States ( http://arxiv.org/abs/2410.08073v2 ) ライセンス: Link先を確認 | John Bostanci, Jonas Haferkamp, Dominik Hangleiter, Alexander Poremba, | (参考訳) 量子擬似ランダムネスは、絡み合い理論からカオス量子系のスクランブル現象のモデル、そして最近では量子暗号の基礎において、多くの領域の量子情報に適用されている。
Kretschmer (TQC '21) は、古典的な一方的機能を持たない世界においても擬似ランダム状態と擬似ランダム統一の両方が存在することを示した。
しかし、今日まですべての既知の構成は、それ自体が一方向関数の存在と同義であり、現実的な量子ハードウェア上でも実現が困難である古典的な暗号ビルディングブロックを必要とする。
本研究では、量子擬似ランダム性を古典暗号から完全に切り離すことにより、これらの両面を同時に前進させようとする。
我々は、ランダム瞬時量子多項式時間(IQP)回路の出力状態を復号するハミルトニアン位相状態(HPS)問題という量子硬度仮定を導入する。
ハミルトニアンの位相状態は、アダマールゲート、単一量子Z回転、CNOT回路のみを用いて非常に効率的に生成できる。
問題の難しさが問題の最悪のバージョンに還元されることを示し、我々の仮定が少なくとも完全に量子的であることを示す。
アンサンブルの約$t$-design特性を証明し,HPSのコピー数が少ない場合にも,情報理論の硬さを示す。
最後に、HPSの仮定とその変種により、擬似乱数状態から量子擬似絡み合い、擬似乱数ユニタリ、さらには量子鍵を用いた公開鍵暗号のようなプリミティブまで、多くの擬似乱数量子プリミティブを効率的に構築できることを示す。
Quantum pseudorandomness has found applications in many areas of quantum information, ranging from entanglement theory, to models of scrambling phenomena in chaotic quantum systems, and, more recently, in the foundations of quantum cryptography. Kretschmer (TQC '21) showed that both pseudorandom states and pseudorandom unitaries exist even in a world without classical one-way functions. To this day, however, all known constructions require classical cryptographic building blocks which are themselves synonymous with the existence of one-way functions, and which are also challenging to realize on realistic quantum hardware. In this work, we seek to make progress on both of these fronts simultaneously -- by decoupling quantum pseudorandomness from classical cryptography altogether. We introduce a quantum hardness assumption called the Hamiltonian Phase State (HPS) problem, which is the task of decoding output states of a random instantaneous quantum polynomial-time (IQP) circuit. Hamiltonian phase states can be generated very efficiently using only Hadamard gates, single-qubit Z-rotations and CNOT circuits. We show that the hardness of our problem reduces to a worst-case version of the problem, and we provide evidence that our assumption is plausibly fully quantum; meaning, it cannot be used to construct one-way functions. We also show information-theoretic hardness when only few copies of HPS are available by proving an approximate $t$-design property of our ensemble. Finally, we show that our HPS assumption and its variants allow us to efficiently construct many pseudorandom quantum primitives, ranging from pseudorandom states, to quantum pseudoentanglement, to pseudorandom unitaries, and even primitives such as public-key encryption with quantum keys. | 翻訳日:2024-10-31 05:35:21 公開日:2024-10-12 |
# CrackSegDiff:拡散確率モデルに基づくマルチモーダルき裂分離
CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation ( http://arxiv.org/abs/2410.08100v1 ) ライセンス: Link先を確認 | Xiaoyan Jiang, Licheng Jiang, Anjie Wang, Kaiying Zhu, Yongbin Gao, | (参考訳) 道路検査ロボットにおけるグレースケールおよび深度データの統合は、道路状況評価の正確性、信頼性、包括性を向上し、メンテナンス戦略の改善とインフラの安全性の向上につながる。
しかし、これらのデータソースは、しばしば舗装からのかなりのバックグラウンドノイズによって妥協される。
拡散確率モデル(DPM)の最近の進歩は、SegDiff \cite{amit2021segdiff}のような研究で証明されているように、画像分割タスクにおいて顕著な成功を見せている。
これらの進歩にもかかわらず、現在のDPMベースのセグメンタは、元の画像データの可能性を完全には生かしていない。
本稿では, フラクチャーセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。
本手法は,DPMによる局所特徴抽出とグローバル特徴抽出との相互作用を強化することにより,逆拡散過程を強化する。
グローバルな特徴のためにTransformerを利用する従来の方法とは異なり,本手法ではVm-unet \cite{ruan2024vm}を用いて,元のデータの長距離情報を効率的に取得する。
機能の統合は、Channel Fusion Module (CFM)とShallow Feature Compensation Module (SFCM)の2つの革新的なモジュールによってさらに洗練されている。
FINDデータセット内の3種類のき裂画像セグメンテーションタスクに関する実験的評価は、き裂SegDiffが最先端の手法、特に浅いき裂の検出に優れることを示す。
コードはhttps://github.com/sky-visionX/CrackSegDiffで入手できる。
Integrating grayscale and depth data in road inspection robots could enhance the accuracy, reliability, and comprehensiveness of road condition assessments, leading to improved maintenance strategies and safer infrastructure. However, these data sources are often compromised by significant background noise from the pavement. Recent advancements in Diffusion Probabilistic Models (DPM) have demonstrated remarkable success in image segmentation tasks, showcasing potent denoising capabilities, as evidenced in studies like SegDiff \cite{amit2021segdiff}. Despite these advancements, current DPM-based segmentors do not fully capitalize on the potential of original image data. In this paper, we propose a novel DPM-based approach for crack segmentation, named CrackSegDiff, which uniquely fuses grayscale and range/depth images. This method enhances the reverse diffusion process by intensifying the interaction between local feature extraction via DPM and global feature extraction. Unlike traditional methods that utilize Transformers for global features, our approach employs Vm-unet \cite{ruan2024vm} to efficiently capture long-range information of the original data. The integration of features is further refined through two innovative modules: the Channel Fusion Module (CFM) and the Shallow Feature Compensation Module (SFCM). Our experimental evaluation on the three-class crack image segmentation tasks within the FIND dataset demonstrates that CrackSegDiff outperforms state-of-the-art methods, particularly excelling in the detection of shallow cracks. Code is available at https://github.com/sky-visionX/CrackSegDiff. | 翻訳日:2024-10-31 05:25:16 公開日:2024-10-12 |
# CrackSegDiff:拡散確率モデルに基づくマルチモーダルき裂分離
CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation ( http://arxiv.org/abs/2410.08100v2 ) ライセンス: Link先を確認 | Xiaoyan Jiang, Licheng Jiang, Anjie Wang, Kaiying Zhu, Yongbin Gao, | (参考訳) 道路検査ロボットにおけるグレースケールおよび深度データの統合は、道路条件評価の正確性、信頼性、包括性を向上し、メンテナンス戦略の改善とインフラの安全性の向上につながる。
しかし、これらのデータソースは、しばしば舗装からのかなりのバックグラウンドノイズによって妥協される。
拡散確率モデル(DPM)の最近の進歩は、SegDiffのような研究で証明されているように、画像分割タスクにおいて顕著な成功を見せている。
これらの進歩にもかかわらず、現在のDPMベースのセグメンタは、元の画像データの可能性を完全には生かしていない。
本稿では, フラクチャーセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。
本手法は,DPMによる局所特徴抽出とグローバル特徴抽出との相互作用を強化することにより,逆拡散過程を強化する。
グローバルな特徴のためにTransformerを利用する従来の方法とは異なり、我々の手法はVm-unetを使って元のデータの長距離情報を効率的にキャプチャする。
機能の統合は、Channel Fusion Module (CFM)とShallow Feature Compensation Module (SFCM)の2つの革新的なモジュールによってさらに洗練されている。
FINDデータセット内の3種類のき裂画像セグメンテーションタスクに関する実験的評価は、き裂SegDiffが最先端の手法、特に浅いき裂の検出に優れることを示す。
コードはhttps://github.com/sky-visionX/CrackSegDiffで入手できる。
Integrating grayscale and depth data in road inspection robots could enhance the accuracy, reliability, and comprehensiveness of road condition assessments, leading to improved maintenance strategies and safer infrastructure. However, these data sources are often compromised by significant background noise from the pavement. Recent advancements in Diffusion Probabilistic Models (DPM) have demonstrated remarkable success in image segmentation tasks, showcasing potent denoising capabilities, as evidenced in studies like SegDiff. Despite these advancements, current DPM-based segmentors do not fully capitalize on the potential of original image data. In this paper, we propose a novel DPM-based approach for crack segmentation, named CrackSegDiff, which uniquely fuses grayscale and range/depth images. This method enhances the reverse diffusion process by intensifying the interaction between local feature extraction via DPM and global feature extraction. Unlike traditional methods that utilize Transformers for global features, our approach employs Vm-unet to efficiently capture long-range information of the original data. The integration of features is further refined through two innovative modules: the Channel Fusion Module (CFM) and the Shallow Feature Compensation Module (SFCM). Our experimental evaluation on the three-class crack image segmentation tasks within the FIND dataset demonstrates that CrackSegDiff outperforms state-of-the-art methods, particularly excelling in the detection of shallow cracks. Code is available at https://github.com/sky-visionX/CrackSegDiff. | 翻訳日:2024-10-31 05:25:16 公開日:2024-10-12 |
# Multi-Turn)コード生成における大規模言語モデルの役割
What Makes Large Language Models Reason in (Multi-Turn) Code Generation? ( http://arxiv.org/abs/2410.08105v1 ) ライセンス: Link先を確認 | Kunhao Zheng, Juliette Decugis, Jonas Gehring, Taco Cohen, Benjamin Negrevergne, Gabriel Synnaeve, | (参考訳) チェーンオブシンクのようなプロンプティング技術は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。
しかし、コード生成では、その正確な力学と有効性は未解明である。
そこで本稿では,複数回にまたがる自動再プロンプトと計算的要求に焦点をあてて,幅広いプロンプト戦略の効果について検討する。
推論,命令,実行のフィードバックプロンプトを体系的に分解した後,複数のLLMファミリーやサイズ(Llama 3.0,3.1,8B,70B,405B,GPT-4o)の競合プログラミングベンチマークであるCodeContestsとTACOを網羅的に検索する。
本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
そして、このような最適構成による微調整によって、モデルが引き起こされる推論プロセスの内部化が可能になり、マルチターンコード生成の性能とスケーラビリティが向上することを示す。
Prompting techniques such as chain-of-thought have established themselves as a popular vehicle for improving the outputs of large language models (LLMs). For code generation, however, their exact mechanics and efficacy are under-explored. We thus investigate the effects of a wide range of prompting strategies with a focus on automatic re-prompting over multiple turns and computational requirements. After systematically decomposing reasoning, instruction, and execution feedback prompts, we conduct an extensive grid search on the competitive programming benchmarks CodeContests and TACO for multiple LLM families and sizes (Llama 3.0 and 3.1, 8B, 70B, 405B, and GPT-4o). Our study reveals strategies that consistently improve performance across all models with small and large sampling budgets. We then show how finetuning with such an optimal configuration allows models to internalize the induced reasoning process and obtain improvements in performance and scalability for multi-turn code generation. | 翻訳日:2024-10-31 05:25:16 公開日:2024-10-12 |
# Multi-Turn)コード生成における大規模言語モデルの役割
What Makes Large Language Models Reason in (Multi-Turn) Code Generation? ( http://arxiv.org/abs/2410.08105v2 ) ライセンス: Link先を確認 | Kunhao Zheng, Juliette Decugis, Jonas Gehring, Taco Cohen, Benjamin Negrevergne, Gabriel Synnaeve, | (参考訳) チェーンオブシンクのようなプロンプティング技術は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。
しかし、コード生成では、その正確な力学と有効性は未解明である。
そこで本稿では,複数回にまたがる自動再プロンプトと計算的要求に焦点をあてて,幅広いプロンプト戦略の効果について検討する。
推論,命令,実行のフィードバックプロンプトを体系的に分解した後,複数のLLMファミリーやサイズ(Llama 3.0,3.1,8B,70B,405B,GPT-4o)の競合プログラミングベンチマークであるCodeContestsとTACOを網羅的に検索する。
本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
そして、このような最適構成による微調整によって、モデルが引き起こされる推論プロセスの内部化が可能になり、マルチターンコード生成の性能とスケーラビリティが向上することを示す。
Prompting techniques such as chain-of-thought have established themselves as a popular vehicle for improving the outputs of large language models (LLMs). For code generation, however, their exact mechanics and efficacy are under-explored. We thus investigate the effects of a wide range of prompting strategies with a focus on automatic re-prompting over multiple turns and computational requirements. After systematically decomposing reasoning, instruction, and execution feedback prompts, we conduct an extensive grid search on the competitive programming benchmarks CodeContests and TACO for multiple LLM families and sizes (Llama 3.0 and 3.1, 8B, 70B, 405B, and GPT-4o). Our study reveals strategies that consistently improve performance across all models with small and large sampling budgets. We then show how finetuning with such an optimal configuration allows models to internalize the induced reasoning process and obtain improvements in performance and scalability for multi-turn code generation. | 翻訳日:2024-10-31 05:25:16 公開日:2024-10-12 |
# Graph Neural Alchemist: 時系列-グラフ分類のための革新的な完全モジュラーアーキテクチャ
Graph Neural Alchemist: An innovative fully modular architecture for time series-to-graph classification ( http://arxiv.org/abs/2410.09307v1 ) ライセンス: Link先を確認 | Paulo Coelho, Raul Araju, Luís Ramos, Samir Saliba, Renato Vimieiro, | (参考訳) 本稿では、可視性グラフ表現に基づく時系列分類のための新しいグラフニューラルネットワーク(GNN)アーキテクチャを提案する。
伝統的な時系列分類法は、しばしば高い計算複雑性と時空間力学の不十分な捕獲に苦しむ。
時系列を可視グラフとして表現することにより、時系列データに固有の空間的および時間的依存関係の両方を、計算的に効率よく符号化することができる。
私たちのアーキテクチャは完全にモジュール化されており、異なるモデルと表現で柔軟な実験を可能にします。
In-degree と PageRank の機能をエンコードした有向可視グラフを用い、時系列の表現を改善し、データ内の長距離依存関係をキャプチャするモデルの能力を高めながら、効率的な計算を確実にする。
提案するアーキテクチャのロバスト性と一般化能力は,多様な分類課題と従来のモデルに比較して示す。
我々の研究は、時系列分析にGNNを応用し、将来の研究と実践のための強力で柔軟なフレームワークを提供しています。
This paper introduces a novel Graph Neural Network (GNN) architecture for time series classification, based on visibility graph representations. Traditional time series classification methods often struggle with high computational complexity and inadequate capture of spatio-temporal dynamics. By representing time series as visibility graphs, it is possible to encode both spatial and temporal dependencies inherent to time series data, while being computationally efficient. Our architecture is fully modular, enabling flexible experimentation with different models and representations. We employ directed visibility graphs encoded with in-degree and PageRank features to improve the representation of time series, ensuring efficient computation while enhancing the model's ability to capture long-range dependencies in the data. We show the robustness and generalization capability of the proposed architecture across a diverse set of classification tasks and against a traditional model. Our work represents a significant advancement in the application of GNNs for time series analysis, offering a powerful and flexible framework for future research and practical implementations. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-12 |
# 部分特定宣言型ディジタル双晶を用いたORANの直接試験
Directed Testing of ORAN using a Partially Specified Declarative Digital Twin ( http://arxiv.org/abs/2410.09310v1 ) ライセンス: Link先を確認 | Alan Gatherer, Chaitali Sengupta, Sudipta Sen, Jeffery H. Reed, | (参考訳) リアルタイムパフォーマンステストは、システムテストとアルゴリズムテストの2つの異なる部分に分けられる。
システムテストは、すべての条件下で、適切な関数が電力、レイテンシ、その他の制約の中で適切なデータ上で動作することをチェックする。
主要なRAN OEMは、競争力のある製品を保証するために、システムテストとデバッグに、アルゴリズムテストと同じくらい多くの労力を割いた。
アルゴリズムテスタは、システム実装に気づいていないため、リアルタイムおよびハードウェア・ソフトウェア(HW-SW)の能力についての洞察をほとんど提供しない。
本稿では,DDT(Declaative Digital Twin)と呼ぶ,革新的なDigital Twin技術を提案する。
DDTはRANのシステム要件を記述できるので、クリティカルコーナーのケースは自動化によって見つけられるが、通常は従来のテストで見逃される。
これは、RAN要求が部分的にのみ指定されている場合でも可能である。
我々は、RANの宣言的記述のためのドメイン固有言語(DSL)を提案し、ORAN DUのDDTからHW-SW実装に関連するコーナーケースをいかに特定できるかを示す自動解法の結果を示す。
Real Time performance testing can be divided into two distinct parts: system test and algorithm test. System test checks that the right functions operate on the right data within power, latency, and other constraints under all conditions. Major RAN OEMs, put as much effort into system test and debug as they do into algorithm test, to ensure a competitive product. An algorithm tester will provide little insight into real time and hardware-software (HW-SW) capacity as it is unaware of the system implementation. In this paper we present an innovative Digital Twin technology, which we call Declarative Digital Twin (DDT). A DDT can describe the system requirements of the RAN such that critical corner cases can be found via automation, that would normally be missed by conventional testing. This is possible even when the RAN requirements are only partially specified. We present a Domain Specific Language (DSL) for declarative description of the RAN and show results from an automated solver that demonstrate how potential HW-SW implementation related corner cases can be identified from the DDT of an ORAN DU. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-12 |
# 雑音SGDを用いた線形回帰データ削除
Data Deletion for Linear Regression with Noisy SGD ( http://arxiv.org/abs/2410.09311v1 ) ライセンス: Link先を確認 | Zhangjie Xia, Chi-Hua Wang, Guang Cheng, | (参考訳) ビッグデータと機械学習の現在の時代には、トレーニングパフォーマンスを保ち、効率を向上させるためにトレーニングデータセットのサイズを縮小する方法を見つけることが不可欠です。
しかし、その背景にある課題は、トレーニング結果を著しく損なうことなく削除できる点を見つけるための実践的な方法を提供することと、不適合のような問題に悩まされることである。
そこで, 古典線形回帰タスクにおいて, 1ステップノイズの多いSGDの完全削除点問題を提案する。これは, 削除したデータセットから得られたモデルが, 削除せずに訓練したものと同一となるように, トレーニングデータセットの完全削除点を見つけることを目的としている。
いわゆる信号対雑音比を適用し、その値が完全削除点の選択と密接に関連していることを示唆する。
また、これに基づいてアルゴリズムを実装し、その効果を人工データセットで実証的に示す。
最後に、完全に削除されたポイントの結果、特にトレーニングのパフォーマンスとプライバシ予算にどのように影響するかを分析し、その可能性を強調します。
本研究は,データ削除の重要性を浮き彫りにして,この分野におけるさらなる研究の必要性を緊急に求めるものである。
In the current era of big data and machine learning, it's essential to find ways to shrink the size of training dataset while preserving the training performance to improve efficiency. However, the challenge behind it includes providing practical ways to find points that can be deleted without significantly harming the training result and suffering from problems like underfitting. We therefore present the perfect deleted point problem for 1-step noisy SGD in the classical linear regression task, which aims to find the perfect deleted point in the training dataset such that the model resulted from the deleted dataset will be identical to the one trained without deleting it. We apply the so-called signal-to-noise ratio and suggest that its value is closely related to the selection of the perfect deleted point. We also implement an algorithm based on this and empirically show the effectiveness of it in a synthetic dataset. Finally we analyze the consequences of the perfect deleted point, specifically how it affects the training performance and privacy budget, therefore highlighting its potential. This research underscores the importance of data deletion and calls for urgent need for more studies in this field. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-12 |
# マルチモーダル動物ポンド推定に向けて--インディース分析
Towards Multi-Modal Animal Pose Estimation: An In-Depth Analysis ( http://arxiv.org/abs/2410.09312v1 ) ライセンス: Link先を確認 | Qianyi Deng, Oishi Deb, Amir Patel, Christian Rupprecht, Philip Torr, Niki Trigoni, Andrew Markham, | (参考訳) 動物ポーズ推定(英: Animal pose Estimation、APE)は、神経科学、バイオメカニクス、獣医学の研究に欠かせない様々なセンサーとモダリティの入力を用いて、動物の身体の部位を特定することを目的としている。
2013年以降の178の論文を評価することで、APEの手法は、センサとモダリティのタイプ、学習パラダイム、実験的なセットアップ、アプリケーションドメインによって分類され、単一および多モードのAPEシステムにおける現在のトレンド、課題、今後の方向性に関する詳細な分析を提示する。
この分析はまた、人間と動物のポーズ推定の遷移を強調している。
さらに、異なるセンサとモダリティに基づく2Dおよび3D APEデータセットと評価指標も提供される。
定期的に更新されたプロジェクトページは以下の通りである。
Animal pose estimation (APE) aims to locate the animal body parts using a diverse array of sensor and modality inputs, which is crucial for research across neuroscience, biomechanics, and veterinary medicine. By evaluating 178 papers since 2013, APE methods are categorised by sensor and modality types, learning paradigms, experimental setup, and application domains, presenting detailed analyses of current trends, challenges, and future directions in single- and multi-modality APE systems. The analysis also highlights the transition between human and animal pose estimation. Additionally, 2D and 3D APE datasets and evaluation metrics based on different sensors and modalities are provided. A regularly updated project page is provided here: https://github.com/ChennyDeng/MM-APE. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-12 |
# \llinstruct: 英語の習熟度評価のための指導訓練モデル
\llinstruct: An Instruction-tuned model for English Language Proficiency Assessments ( http://arxiv.org/abs/2410.09314v1 ) ライセンス: Link先を確認 | Debanjan Ghosh, Sophia Chan, | (参考訳) 本稿では,英語習熟度評価(ELPA)とその関連アプリケーションのためのコンテンツを生成する8B命令調整モデルを提案する。
我々の研究は、ELPAドメインで70K命令と説明の新しいデータセットを作成し、これらを使用して異なるサイズのLlama-3 8Bモデル(例えば、SFT-17K、SFT-50K、SFT-70K)を微調整する。
これらのSFTモデルとSOTAモデル(例えば、Dolly-2、Mistral、Llama-3ベースバージョン、GPT-3.5)を比較して、人間の評価を行う。
この結果から、3つのSFTモデル全てが相容れない性能を示したが、最大の命令データセット(SFT-70K)で訓練されたモデルは、評価の準備ができている最も有効なアウトプットにつながった。
しかしながら、SFTモデルは、出力の説明の観点から、より大きなモデル、例えば、GPT 3.5よりも優れた性能を発揮するが、多くの出力は、現実のアセスメントに実際に備えるために、人間の介入を必要としている。
We present \llinstruct: An 8B instruction-tuned model that is designed to generate content for English Language Proficiency Assessments (ELPA) and related applications. Our work involves creating a new dataset of 70K instructions and explanations in the ELPA domain and using these to fine-tune Llama-3 8B models (SFT) of different sizes (e.g., SFT-17K, SFT-50K and SFT-70K). Human evaluations are conducted over unseen instructions to compare these SFT models against SOTA models (e.g., Dolly-2, Mistral, Llama-3 base version, and GPT-3.5). The findings show although all three SFT models perform comparably, the model trained on largest instruction dataset -- SFT-70K - leads to the most valid outputs ready for assessments. However, although the SFT models perform better than larger model, e.g., GPT 3.5 on the aspect of explanations of outputs, many outputs still need human interventions to make them actual ready for real world assessments. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-12 |
# 決定係数の組合せ最適化
Combinatorial optimization of the coefficient of determination ( http://arxiv.org/abs/2410.09316v1 ) ライセンス: Link先を確認 | Marc Harary, | (参考訳) 統計学において、ロバスト相関分析は最も重要な課題の一つである。
ここでは、決定係数が$\left(R^2 \right)$の最も高い平面上の$n$点の$k$-部分集合を選択する効率的なアルゴリズムを開発する。
組合せ幾何学から,2つのステップからなる「textit{quadratic sweep}」という手法を提案する。
i) データポイントを$\mathbb R^5$に投影し、それから
(ii) 線形分離可能な各$k$-subset を反復する。
その根拠は、最適値の集合が、円錐部分によって$\mathbb R^2$ の補集合から分離可能であり、$\mathbb R^5$ のとき、$\Theta \left(n^5 \log n \right)$ の位相スイープによって見つけることができることである。
二次分離性の鍵となる証明はまだ進行中であるが、予想に対する強い数学的直観を発達させ、数万回の試行において、誤りなく$n=30$までメソッドの最適性を実験的に実証する。
Juliaの実装と完全にシードされた再現可能な実験はhttps://github.com/marc-harary/QuadraticSweep.comで公開されている。
Robust correlation analysis is among the most critical challenges in statistics. Herein, we develop an efficient algorithm for selecting the $k$- subset of $n$ points in the plane with the highest coefficient of determination $\left( R^2 \right)$. Drawing from combinatorial geometry, we propose a method called the \textit{quadratic sweep} that consists of two steps: (i) projectively lifting the data points into $\mathbb R^5$ and then (ii) iterating over each linearly separable $k$-subset. Its basis is that the optimal set of outliers is separable from its complement in $\mathbb R^2$ by a conic section, which, in $\mathbb R^5$, can be found by a topological sweep in $\Theta \left( n^5 \log n \right)$ time. Although key proofs of quadratic separability remain underway, we develop strong mathematical intuitions for our conjectures, then experimentally demonstrate our method's optimality over several million trials up to $n=30$ without error. Implementations in Julia and fully seeded, reproducible experiments are available at https://github.com/marc-harary/QuadraticSweep. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-12 |
# AIは私のエッセイを格付けできるのか? - 自動エッセイグラフィー
Hey AI Can You Grade My Essay?: Automatic Essay Grading ( http://arxiv.org/abs/2410.09319v1 ) ライセンス: Link先を確認 | Maisha Maliha, Vishal Pramanik, | (参考訳) 自動エッセイグレーディング(AEG)は,エッセイ評価や短い回答など,いくつかの教育応用への応用から,NLPコミュニティの注目を集めている。
AEGシステムはエッセイを格付けする際にかなりの時間とお金を節約できる。
既存の研究では、エッセイは1つのネットワークがプロセス全体に対して責任を負うように格付けされているが、これは1つのネットワークが人間の書いたエッセイのすべての特徴を学べないため、効果がない可能性がある。
本研究では,AEG分野における最先端モデルよりも優れた新モデルを提案する。
我々は,エッセイの文の文法的特徴と構造的特徴のチェックにひとつのネットワークが責任を持ち,エッセイに含まれる全体概念のスコアリングに他のネットワークが責任を持つという,協調的・伝達的学習という概念を用いてきた。
これらの学習はエッセイを採点するために別のネットワークに転送される。
また,本研究で言及した異なるモデルの性能を比較し,提案モデルが85.50%の精度を示した。
Automatic essay grading (AEG) has attracted the the attention of the NLP community because of its applications to several educational applications, such as scoring essays, short answers, etc. AEG systems can save significant time and money when grading essays. In the existing works, the essays are graded where a single network is responsible for the whole process, which may be ineffective because a single network may not be able to learn all the features of a human-written essay. In this work, we have introduced a new model that outperforms the state-of-the-art models in the field of AEG. We have used the concept of collaborative and transfer learning, where one network will be responsible for checking the grammatical and structural features of the sentences of an essay while another network is responsible for scoring the overall idea present in the essay. These learnings are transferred to another network to score the essay. We also compared the performances of the different models mentioned in our work, and our proposed model has shown the highest accuracy of 85.50%. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-12 |
# プロプライエタリなソフトウェアエコシステムにおけるインシデント管理フレームワーク
Towards an Incident Management Framework in Proprietary Software Ecosystems ( http://arxiv.org/abs/2410.09320v1 ) ライセンス: Link先を確認 | L. A. Costa, A. Fontão, R. P. Santos, A. Serebrenik, | (参考訳) ソフトウェアエンジニアリングの進化する展望の中で、ソフトウェアエコシステムのパラダイムが出現し、プロプライエタリなソフトウェアエコシステム(PSECO)が生まれ、その中心となる組織はキーストーンとして知られるようになった。
PSECOは、知的財産権や秘密保持協定(英語版)によって保護され、共通の技術プラットフォームを中心とした様々な技術への貢献が特徴である。
これらのPSECO技術プラットフォームを維持することは、あらゆる出来事が相当な反響を起こす可能性があるため、不可欠である。
この作業では、IM Frameworkと呼ばれるPSECOコンテキストで組織の管理チームをサポートするインシデント管理のためのフレームワークを紹介します。
IM Frameworkは、大規模な国際組織全体にわたる実践者と密接なコラボレーションで開発された。
本研究は,293件を検索し,その内23件を審査手順適用後に選定した。
このフレームワークは,組織目標,プラクティス,成功要因,関連するメリット,一般的な障壁という,5つの中核的なカテゴリで構成されています。
IM Frameworkは、PSECO管理チームに実践的なガイダンスを提供し、複雑で動的なソフトウェア環境における信頼性とレジリエンスを高めるために、現実世界のアプリケーションに焦点を当てています。
PSECOの経営チームを支援し、ビジネスの需要と市場のプレッシャーの高まりの中で、堅牢な技術プラットフォームを維持することで、インシデント管理ガバナンスのギャップを埋めることも約束します。
In the evolving landscape of Software Engineering, the paradigm of software ecosystems has emerged, giving rise to proprietary software ecosystems (PSECO), with their central organizations known as keystones. PSECO is characterized by the contribution of various technologies produced as private and protected by intellectual property and confidentiality agreements, centered on common technological platforms. Sustaining these PSECO technological platforms is vital, as any incident can have substantial repercussions. This work introduces a framework for incident management to support the organizations' management teams in the PSECO context, called IM Framework. The IM Framework was developed in close collaboration with practitioners across a large international organization. We grounded the IM Framework based on the results of a rapid review study that retrieved 293 studies, of which 23 were selected after applying review procedures. This framework comprises five core categories: organizational goals, practices, success factors, associated benefits, and prevalent barriers. The IM Framework offers practical guidance for the PSECO management team, focusing on real-world applications to enhance reliability and resilience in a complex and dynamic software environment. Our study also promises to fill the gap in incident management governance by supporting the PSECO organization's management team and maintaining robust technological platforms amidst evolving business demands and market pressures. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-12 |
# 軽量背景認識型視覚変換器を用いたトーケンプルーニング
Token Pruning using a Lightweight Background Aware Vision Transformer ( http://arxiv.org/abs/2410.09324v1 ) ライセンス: Link先を確認 | Sudhakar Sah, Ravish Kumar, Honnesh Rohmetra, Ehsan Saboori, | (参考訳) 高ランタイムメモリと高レイテンシは、特にエッジデバイスにおいて、Vision Transformerのトレーニングと推論に大きな制約を与える。
トークンプルーニングは、各トークンの重要基準に基づいて、ViTへの入力トークンの数を減少させる。
画像中の背景トークンを識別するための新しいアプローチを用いて,実行時のメモリ削減とスループット向上を目的とした,DeTR/YOLOSなどのオブジェクト検出モデルに対する前処理ブロックである背景認識ビジョン変換器(BAViT)モデルを提案する。
背景トークンは、ViTベースのオブジェクト検出器に供給する前に、完全にまたは部分的にプルーニングすることができる。
セグメンテーションマップと/またはバウンディングボックスアノテーションによって提供されるセグメンテーション情報を使用して、ViTのいくつかのレイヤをトレーニングし、トークンを前景または背景に分類します。
BAViTの2層と10層を使用して、VOCデータセットでは75%と88%、COCOデータセットでは71%と80%の精度で、バックグラウンドトークンとフォアグラウンドトークンを分離することができる。
また,YOLOSのプリプロセッサとして2層BAViT-小モデルを用いると,mAPが3%減少しても,スパース微調整が不要で,スパース微調整が2%でスループットが30%~40%向上することを示した。
当社のアプローチは、Edge AIユースケースを特に対象としています。
High runtime memory and high latency puts significant constraint on Vision Transformer training and inference, especially on edge devices. Token pruning reduces the number of input tokens to the ViT based on importance criteria of each token. We present a Background Aware Vision Transformer (BAViT) model, a pre-processing block to object detection models like DETR/YOLOS aimed to reduce runtime memory and increase throughput by using a novel approach to identify background tokens in the image. The background tokens can be pruned completely or partially before feeding to a ViT based object detector. We use the semantic information provided by segmentation map and/or bounding box annotation to train a few layers of ViT to classify tokens to either foreground or background. Using 2 layers and 10 layers of BAViT, background and foreground tokens can be separated with 75% and 88% accuracy on VOC dataset and 71% and 80% accuracy on COCO dataset respectively. We show a 2 layer BAViT-small model as pre-processor to YOLOS can increase the throughput by 30% - 40% with a mAP drop of 3% without any sparse fine-tuning and 2% with sparse fine-tuning. Our approach is specifically targeted for Edge AI use cases. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-12 |
# ワイトマン相関器による強弱対称性破断の診断
Diagnosing Strong-to-Weak Symmetry Breaking via Wightman Correlators ( http://arxiv.org/abs/2410.09327v1 ) ライセンス: Link先を確認 | Zeyu Liu, Langxuan Chen, Yuke Zhang, Shuyan Zhou, Pengfei Zhang, | (参考訳) 対称性は量子多体物理学において基本的な役割を担い、中心的な概念は自発対称性の破れであり、量子相とその遷移に決定的な制約を課す。
近年の進歩は対称性と混合状態への破れに関する議論を拡大し、純粋状態に反する新しい量子相の理解を深めている。
強い対称密度行列が自発対称性を弱対称性に破り、忠実度相関が特徴のシナリオに特に注意が払われている。
本研究では,Wightman correlator を代替診断ツールとして提案する。
この構成は、密度行列の強い対称性を純粋状態の二重対称性にマッピングする一般密度行列に対する熱場二重状態の導入に依存しており、ワイトマン相関器は対称性破れの標準プローブとして自然に現れる。
強弱対称性の破れを定義する際にワイトマン関数とフィデリティ相関器の等価性を証明し、スピングラス、熱密度行列、デコヒードイジングモデルを含む明示的な例を検証した。
さらに,ワイトマン相関器の感受性解釈についても論じる。
Symmetry plays a fundamental role in quantum many-body physics, and a central concept is spontaneous symmetry breaking, which imposes crucial constraints on the possible quantum phases and their transitions. Recent developments have extended the discussion of symmetry and its breaking to mixed states, enhancing our understanding of novel quantum phases that have no counterpart in pure states. Specific attention has been paid to scenarios where a strongly symmetric density matrix exhibits spontaneous symmetry breaking to weak symmetry, characterized by the fidelity correlator. In this work, we propose the Wightman correlator as an alternative diagnostic tool. This construction relies on the introduction of the thermofield double state for a generic density matrix, which maps the strong symmetry of the density matrix to the doubled symmetry of the pure state, allowing the Wightman correlator to emerge naturally as a standard probe of symmetry breaking. We prove the equivalence between the Wightman function and the fidelity correlator in defining strong-to-weak symmetry breaking, and examine explicit examples involving spin glasses, thermal density matrices, and the decohered Ising model. Additionally, we discuss a susceptibility interpretation of the Wightman correlator. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-12 |
# ゼロショットコモンセンスの機械イマジネーションに対する推論
Zero-shot Commonsense Reasoning over Machine Imagination ( http://arxiv.org/abs/2410.09329v1 ) ライセンス: Link先を確認 | Hyuntae Park, Yeachan Kim, Jun-Hyung Park, SangKeun Lee, | (参考訳) ゼロショットコモンセンス推論への最近のアプローチにより、プレトレーニング言語モデル(PLM)は、特定の状況に合わせて調整されることなく、幅広いコモンセンス知識を学習できるようになった。
しかし、それらはテキストコモンセンスの知識に固有の人間の報告バイアスに悩まされ、PLMと人間の理解の相違をもたらす。
本研究では,PLMに付加的な情報チャネルを導入することで,このギャップを埋めることを目的とする。
機械生成画像から得られる視覚信号とテキスト入力を補完する新しいゼロショットコモンセンス推論フレームワークであるImagine (Machine Imagination-based Reasoning)を提案する。
これを実現するために、画像生成装置を推論プロセスに組み込むことで、想像力でPLMを強化する。
PLMを機械の想像力を効果的に活用するために、視覚的質問応答をシミュレートする合成事前学習データセットを作成する。
多様な推論ベンチマークと分析に関する広範な実験により、Imagineは既存の手法を大きなマージンで上回り、報告バイアスの軽減と一般化能力の向上における機械的想像力の強さを強調した。
Recent approaches to zero-shot commonsense reasoning have enabled Pre-trained Language Models (PLMs) to learn a broad range of commonsense knowledge without being tailored to specific situations. However, they often suffer from human reporting bias inherent in textual commonsense knowledge, leading to discrepancies in understanding between PLMs and humans. In this work, we aim to bridge this gap by introducing an additional information channel to PLMs. We propose Imagine (Machine Imagination-based Reasoning), a novel zero-shot commonsense reasoning framework designed to complement textual inputs with visual signals derived from machine-generated images. To achieve this, we enhance PLMs with imagination capabilities by incorporating an image generator into the reasoning process. To guide PLMs in effectively leveraging machine imagination, we create a synthetic pre-training dataset that simulates visual question-answering. Our extensive experiments on diverse reasoning benchmarks and analysis show that Imagine outperforms existing methods by a large margin, highlighting the strength of machine imagination in mitigating reporting bias and enhancing generalization capabilities. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-12 |
# スピン-5/2原子の微小スケールSchr{ö}dinger-cat状態
Minutes-scale Schr{ö}dinger-cat state of spin-5/2 atoms ( http://arxiv.org/abs/2410.09331v1 ) ライセンス: Link先を確認 | Y. A. Yang, W. -T. Luo, J. -L. Zhang, S. -Z. Wang, Chang-Ling Zou, T. Xia, Z. -T. Lu, | (参考訳) 非古典状態の量子メートル法は、物理測定の精度を向上させるための有望な経路を提供する。
Schr{\"o} ディンガー・キャットの重ね合わせや絡み合いの量子効果は、測定の不確実性が標準量子限界以下に達することを可能にする。
しかし、そのような古典的でない状態に対する長いコヒーレンス時間を維持するという課題は、しばしばメトロジーにおける量子的優位性の完全な活用を妨げている。
ここでは、光学的に閉じ込められた$^{173}$Yb (\textit{I}\ =\ 5/2)原子のSchr{\「o}dinger-cat状態を示す。
2つの反対方向とファテスト部分のスピン状態の重畳である猫状態は、非線形のスピン回転によって生成される。
光学格子の不均一光シフトに対してデコヒーレンスのない部分空間で保護され、猫状態は1.4(1)\times 10^3$ sというコヒーレンス時間を達成する。
磁場はラムゼー干渉計を用いて測定され、原子磁気メトリー、量子情報処理、および標準モデルを超えた新しい物理の探索のためのハイゼンベルク制限気象学のスキームを実証する。
Quantum metrology with nonclassical states offers a promising route to improved precision in physical measurements. The quantum effects of Schr{\"o}dinger-cat superpositions or entanglements allow measurement uncertainties to reach below the standard quantum limit. However, the challenge in keeping a long coherence time for such nonclassical states often prevents full exploitation of the quantum advantage in metrology. Here we demonstrate a long-lived Schr{\"o}dinger-cat state of optically trapped $^{173}$Yb (\textit{I}\ =\ 5/2) atoms. The cat state, a superposition of two oppositely-directed and furthest-apart spin states, is generated by a non-linear spin rotation. Protected in a decoherence-free subspace against inhomogeneous light shifts of an optical lattice, the cat state achieves a coherence time of $1.4(1)\times 10^3$ s. A magnetic field is measured with Ramsey interferometry, demonstrating a scheme of Heisenberg-limited metrology for atomic magnetometry, quantum information processing, and searching for new physics beyond the Standard Model. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-12 |
# データ選択を大規模に再考する - ランダム選択は必要なすべて
Rethinking Data Selection at Scale: Random Selection is Almost All You Need ( http://arxiv.org/abs/2410.09335v1 ) ライセンス: Link先を確認 | Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin, | (参考訳) Supervised Fine-tuning (SFT) は、Large Language Models (LLM) とヒューマンインストラクションの整合に不可欠である。
SFTの第一の目的は、このサブセットによる微調整がデータセット全体を使用した結果と同等かそれ以上の結果が得られるように、より大きなプールから、トレーニングデータの小さいが代表的なサブセットを選択することである。
しかし、既存のデータ選択技術のほとんどは、現実のSFTシナリオの要求を満たさない小規模のデータプール用に設計されている。
本稿では,200万の大規模データセットに外部モデル支援を依存しない複数の自己スコア手法を再現し,このような大規模データプールを扱う場合,ほとんどすべての手法がランダム選択を大幅に上回ることに苦慮していることを確認した。
さらに,SFTでは,データ選択の多様性が,単に高品質なデータに注目するよりも重要であることが示唆された。
また、大規模データセットに不適合な理由と、このような状況に適さない理由について、現在のいくつかのアプローチの限界を分析した。
最後に、トークン長によるデータフィルタリングは、結果を改善するための安定かつ効率的な方法であることがわかった。
このアプローチ、特に長いテキストデータでトレーニングする場合、Llama3のような比較的弱いベースモデルにとって非常に有益である。
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models (LLMs) with human instructions. The primary goal during SFT is to select a small yet representative subset of training data from the larger pool, such that fine-tuning with this subset achieves results comparable to or even exceeding those obtained using the entire dataset. However, most existing data selection techniques are designed for small-scale data pools, which fail to meet the demands of real-world SFT scenarios. In this paper, we replicated several self-scoring methods those that do not rely on external model assistance on two million scale datasets, and found that nearly all methods struggled to significantly outperform random selection when dealing with such large-scale data pools. Moreover, our comparisons suggest that, during SFT, diversity in data selection is more critical than simply focusing on high quality data. We also analyzed the limitations of several current approaches, explaining why they perform poorly on large-scale datasets and why they are unsuitable for such contexts. Finally, we found that filtering data by token length offers a stable and efficient method for improving results. This approach, particularly when training on long text data, proves highly beneficial for relatively weaker base models, such as Llama3. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-12 |
# ロバスト編集の鍵:理論的視点から実践的進歩へ
Keys to Robust Edits: from Theoretical Insights to Practical Advances ( http://arxiv.org/abs/2410.09338v1 ) ライセンス: Link先を確認 | Jianhao Yan, Futing Wang, Yun Luo, Yafu Li, Yue Zhang, | (参考訳) 大規模言語モデル(LLM)は知識の記憶と検索に革命をもたらしたが、矛盾や時代遅れな情報に対する課題に直面している。
これらの問題に対処するために知識編集技術が提案されているが、長い文脈、言い換えた主題、継続的な編集を含む堅牢性テストに苦慮している。
本研究では、位置・編集法におけるこれらの失敗の原因を調査し、そのキー・バリュー・モデリングに関する理論的知見を提供し、ロバスト・特定の編集のための数学的境界を導出し、位置・編集法のための新しい「グループ・ディスカッション」概念モデルを生み出す。
経験的分析により、現在のメソッドで使われるキーは堅牢性と特異性要件を満たすことができないことが明らかになった。
そこで我々は,LLMの内部表現から鍵をアンタングルするロバスト編集経路(REP)を提案する。
CounterFact データセットを用いた LLaMA2-7B と Mistral-7B の評価では、REP は成功率とローカリティのトレードオフを最小限に抑えて、ドメイン内およびドメイン外の両方において、さまざまなメトリクス間の堅牢性を著しく改善している。
LLMにおける信頼性・柔軟な知識更新の進展について検討した。
Large language models (LLMs) have revolutionized knowledge storage and retrieval, but face challenges with conflicting and outdated information. Knowledge editing techniques have been proposed to address these issues, yet they struggle with robustness tests involving long contexts, paraphrased subjects, and continuous edits. This work investigates the cause of these failures in locate-and-edit methods, offering theoretical insights into their key-value modeling and deriving mathematical bounds for robust and specific edits, leading to a novel 'group discussion' conceptual model for locate-and-edit methods. Empirical analysis reveals that keys used by current methods fail to meet robustness and specificity requirements. To address this, we propose a Robust Edit Pathway (REP) that disentangles editing keys from LLMs' inner representations. Evaluations on LLaMA2-7B and Mistral-7B using the CounterFact dataset show that REP significantly improves robustness across various metrics, both in-domain and out-of-domain, with minimal trade-offs in success rate and locality. Our findings advance the development of reliable and flexible knowledge updating in LLMs. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-12 |
# 自閉症における高度なジェスチャー認識:ビデオ分析のためのYOLOv7, Video Augmentation, VideoMAEの統合
Advanced Gesture Recognition in Autism: Integrating YOLOv7, Video Augmentation and VideoMAE for Video Analysis ( http://arxiv.org/abs/2410.09339v1 ) ライセンス: Link先を確認 | Amit Kumar Singh, Trapti Shrivastava, Vrijendra Singh, | (参考訳) コンタクトレスセンサーの深層学習と進歩により、医療環境における複雑な人間の活動を理解する能力が大幅に向上した。
特に、コンピュータビジョンを利用したディープラーニングモデルは、人間のジェスチャー認識、特に自閉症児の行動によく見られる反復的なジェスチャーの詳細な分析を可能にするために開発された。
本研究は, 子どもが日常活動を行う際に, 自然環境下で撮影した映像を分析し, 自閉症を示唆する反復行動を特定することを目的とする。
焦点は、回転、ヘッドバンピング、腕の羽ばたきといったリアルタイムの反復的なジェスチャーを正確に分類することである。
この目的のために,これらのステレオタイプの動きを分類するために,パブリックアクセス可能な自己刺激行動データセット(SSBD)を利用する。
提案手法の重要な構成要素は,マスキングと再構成機構を通じて映像データの空間的・時間的分析を改善するモデルである,‘textbf{VideoMAE} の利用である。
このモデルは従来の手法を大きく上回り、97.7\%の精度を達成し、以前の最先端よりも14.7\%改善した。
Deep learning and advancements in contactless sensors have significantly enhanced our ability to understand complex human activities in healthcare settings. In particular, deep learning models utilizing computer vision have been developed to enable detailed analysis of human gesture recognition, especially repetitive gestures which are commonly observed behaviors in children with autism. This research work aims to identify repetitive behaviors indicative of autism by analyzing videos captured in natural settings as children engage in daily activities. The focus is on accurately categorizing real-time repetitive gestures such as spinning, head banging, and arm flapping. To this end, we utilize the publicly accessible Self-Stimulatory Behavior Dataset (SSBD) to classify these stereotypical movements. A key component of the proposed methodology is the use of \textbf{VideoMAE}, a model designed to improve both spatial and temporal analysis of video data through a masking and reconstruction mechanism. This model significantly outperformed traditional methods, achieving an accuracy of 97.7\%, a 14.7\% improvement over the previous state-of-the-art. | 翻訳日:2024-10-30 15:03:37 公開日:2024-10-12 |
# LLM$\times$MapReduce:大規模言語モデルを用いた単純化されたロングシーケンス処理
LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models ( http://arxiv.org/abs/2410.09342v1 ) ライセンス: Link先を確認 | Zihan Zhou, Chong Li, Xinyi Chen, Shuo Wang, Yu Chao, Zhili Li, Haoyu Wang, Rongqiao An, Qi Shi, Zhixing Tan, Xu Han, Xiaodong Shi, Zhiyuan Liu, Maosong Sun, | (参考訳) 大規模言語モデル(LLM)のコンテキストウィンドウの拡大は、特に非常に長いテキストを含むアプリケーションにおいて重要な研究領域となっている。
そこで本研究では,文書理解を包括的に行うための分割・クエリ戦略を用いて,長文処理のための新たな学習自由フレームワークを提案する。
提案された LLM$\times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
分割・分散長文処理フレームワークの最大の課題は、文書を分割する際に必須の長距離情報を失うリスクにある。
混乱した長距離情報は、チャンク間の依存性とチャンク間の競合の2つのカテゴリに分類される。
我々は、チャンク間の依存に対処するための構造化情報プロトコルと、チャンク間の競合を解決するためのコンテキスト内信頼度調整機構を設計する。
実験により, LLM$\times$MapReduce はオープンソースおよび商用の長文 LLM よりも優れており, 様々なモデルに適用可能であることが示された。
Enlarging the context window of large language models (LLMs) has become a crucial research area, particularly for applications involving extremely long texts. In this work, we propose a novel training-free framework for processing long texts, utilizing a divide-and-conquer strategy to achieve comprehensive document understanding. The proposed LLM$\times$MapReduce framework splits the entire document into several chunks for LLMs to read and then aggregates the intermediate answers to produce the final output. The main challenge for divide-and-conquer long text processing frameworks lies in the risk of losing essential long-range information when splitting the document, which can lead the model to produce incomplete or incorrect answers based on the segmented texts. Disrupted long-range information can be classified into two categories: inter-chunk dependency and inter-chunk conflict. We design a structured information protocol to better cope with inter-chunk dependency and an in-context confidence calibration mechanism to resolve inter-chunk conflicts. Experimental results demonstrate that LLM$\times$MapReduce can outperform representative open-source and commercial long-context LLMs, and is applicable to several different models. | 翻訳日:2024-10-30 15:03:37 公開日:2024-10-12 |
# ELICIT: 外部インコンテキスト機能によるLLM拡張
ELICIT: LLM Augmentation via External In-Context Capability ( http://arxiv.org/abs/2410.09343v1 ) ライセンス: Link先を確認 | Futing Wang, Jianhao Yan, Yue Zhang, Tao Lin, | (参考訳) 大規模言語モデルの適応性を高めることは、研究と応用の両方において重要な追求である。
従来の微調整手法は、特に特定の能力を高めるために、データや計算資源を必要とするが、適切なデモンストレーションと効率的なトークンの使用によって、コンテキスト内学習は制限される。
タスクベクトルによるコンテキスト内学習能力の表現とモジュール化の概念から着想を得て,タスクベクトルを効率的に保存・再利用するための2つのモジュールからなるフレームワークである \alg を提案する。
我々の包括的な実験と分析は、パイプラインが異なる入力形式、タスク、モデルアーキテクチャ間で非常に伝達可能であることを示している。
ELICITは、モデル機能の適応的な適用を可能にするプラグイン・アンド・プレイパフォーマンス・ブースターとして機能する。
コンテキスト内学習能力を表すベクトルを外部に格納して再利用することにより、 \algはモジュラー機能を操作する可能性を示すだけでなく、大規模言語モデルのパフォーマンス、汎用性、適応性、スケーラビリティを大幅に向上させる。
私たちのコードはhttps://github.com/LINs-lab/ELICIT.comで公開されます。
Enhancing the adaptive capabilities of large language models is a critical pursuit in both research and application. Traditional fine-tuning methods require substantial data and computational resources, especially for enhancing specific capabilities, while in-context learning is limited by the need for appropriate demonstrations and efficient token usage. Inspired by the expression of in-context learned capabilities through task vectors and the concept of modularization, we propose \alg, a framework consisting of two modules designed to effectively store and reuse task vectors to elicit the diverse capabilities of models without additional training or inference tokens. Our comprehensive experiments and analysis demonstrate that our pipeline is highly transferable across different input formats, tasks, and model architectures. ELICIT serves as a plug-and-play performance booster to enable adaptive elicitation of model capabilities. By externally storing and reusing vectors that represent in-context learned capabilities, \alg not only demonstrates the potential to operate modular capabilities but also significantly enhances the performance, versatility, adaptability, and scalability of large language models. Our code will be publicly available at https://github.com/LINs-lab/ELICIT. | 翻訳日:2024-10-30 15:03:37 公開日:2024-10-12 |
# Delta-Parameter Pruning for Fine-Tuned Models(動画あり)
DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models ( http://arxiv.org/abs/2410.09344v1 ) ライセンス: Link先を確認 | Wenlong Deng, Yize Zhao, Vala Vakilian, Minghui Chen, Xiaoxiao Li, Christos Thrampoulidis, | (参考訳) オープンソースで微調整されたモデルをストアすることは、冗長性を別々に導入し、複数のモデルを利用するアプリケーションの応答時間を増加させる。
デルタパラメータ・プルーニング(DPP)、特にYuらによって提案されたランダム・ドロップ・アンド・リスケール(DARE)法は、デルタパラメータの大部分をプルーニングすることでこの問題に対処する。
しかし、DAREはプルーニング率またはデルタパラメータの大きさが大きい場合に失敗する。
この失敗の主な理由として,(1)プルーニング率の増加に伴う過大な再スケーリング係数,(2)デルタパラメータの平均値とばらつきがあげられる。
DAREの限界を推し進めるために,(1) DAREx-q(DAREx-q),(2) DAREx-L2(DAREとDPP前のデルタ正則化を適切に適用した訓練手法)の2つのアルゴリズム改良を特徴とするDAREx-L2を導入する。
また、DAREx-qは、LoRAのようなバニラパラメータ効率の良い微調整技術とシームレスに結合でき、構造的DPPを容易にできることを示した。
さらに、DPPにおける重要度に基づくプルーニング手法の適用を再検討し、デルタパラメータが大きい場合のランダムな手法よりも優れていることを示す。
この包括的研究を通じて,様々なシナリオにおいて最適な DPP 法を選択するパイプラインを開発した。
Storing open-source fine-tuned models separately introduces redundancy and increases response times in applications utilizing multiple models. Delta-parameter pruning (DPP), particularly the random drop and rescale (DARE) method proposed by Yu et al., addresses this by pruning the majority of delta parameters--the differences between fine-tuned and pre-trained model weights--while typically maintaining minimal performance loss. However, DARE fails when either the pruning rate or the magnitude of the delta parameters is large. We highlight two key reasons for this failure: (1) an excessively large rescaling factor as pruning rates increase, and (2) high mean and variance in the delta parameters. To push DARE's limits, we introduce DAREx (DARE the eXtreme), which features two algorithmic improvements: (1) DAREx-q, a rescaling factor modification that significantly boosts performance at high pruning rates (e.g., >30 % on COLA and SST2 for encoder models, with even greater gains in decoder models), and (2) DAREx-L2, which combines DARE with AdamR, an in-training method that applies appropriate delta regularization before DPP. We also demonstrate that DAREx-q can be seamlessly combined with vanilla parameter-efficient fine-tuning techniques like LoRA and can facilitate structural DPP. Additionally, we revisit the application of importance-based pruning techniques within DPP, demonstrating that they outperform random-based methods when delta parameters are large. Through this comprehensive study, we develop a pipeline for selecting the most appropriate DPP method under various practical scenarios. | 翻訳日:2024-10-30 15:03:37 公開日:2024-10-12 |
# ソーシャルメディア人気予測における社会的要因のコントラスト学習
Contrastive Learning for Implicit Social Factors in Social Media Popularity Prediction ( http://arxiv.org/abs/2410.09345v1 ) ライセンス: Link先を確認 | Zhizhen Zhang, Ruihong Qiu, Xiaohui Xie, | (参考訳) ソーシャルメディアの共有プラットフォームでは、一部の投稿は本質的に人気のために運命づけられている。
したがって、この現象の背景にある理由を理解し、出版前の人気を予測することは、かなりの実用的価値を持っている。
以前の研究は主に、より良い予測結果を得るために、ポストコンテンツ抽出の強化に重点を置いている。
しかし、社会プラットフォームによってもたらされた要因はポストの人気にも影響を与えており、広く研究されていない。
例えば、ユーザーはフォローしている個人からの投稿に関わりやすく、これらの投稿の人気に影響を与える可能性がある。
我々はこれらの要因を、内容の明示的な魅力とは無関係に、暗黙の社会的要因として表現する。
ユーザのポストブラウジング行動(パブリックデータセットでも検証される)の分析を通じて,コンテンツ関連性,ユーザ影響の類似性,ユーザアイデンティティなど,人気に関する3つの暗黙的な社会的要因を提案する。
提案する社会的要因をモデル化するために,教師付きコントラスト学習タスクを3つ導入する。
タスクの目的やデータタイプによって異なるエンコーダに割り当て、それらの勾配流を制御し、共同最適化を実現する。
また、比較学習の有効性を向上させるために、対応するサンプリングおよび拡張アルゴリズムを設計する。
ソーシャルメディア人気度データセットの大規模実験により,提案手法の優越性を検証し,人気予測における暗黙的社会的要因の重要性を検証した。
ソースコードはhttps://github.com/Daisy-zzz/PPCL.git.comで公開しています。
On social media sharing platforms, some posts are inherently destined for popularity. Therefore, understanding the reasons behind this phenomenon and predicting popularity before post publication holds significant practical value. The previous work predominantly focuses on enhancing post content extraction for better prediction results. However, certain factors introduced by social platforms also impact post popularity, which has not been extensively studied. For instance, users are more likely to engage with posts from individuals they follow, potentially influencing the popularity of these posts. We term these factors, unrelated to the explicit attractiveness of content, as implicit social factors. Through the analysis of users' post browsing behavior (also validated in public datasets), we propose three implicit social factors related to popularity, including content relevance, user influence similarity, and user identity. To model the proposed social factors, we introduce three supervised contrastive learning tasks. For different task objectives and data types, we assign them to different encoders and control their gradient flows to achieve joint optimization. We also design corresponding sampling and augmentation algorithms to improve the effectiveness of contrastive learning. Extensive experiments on the Social Media Popularity Dataset validate the superiority of our proposed method and also confirm the important role of implicit social factors in popularity prediction. We open source the code at https://github.com/Daisy-zzz/PPCL.git. | 翻訳日:2024-10-30 15:03:37 公開日:2024-10-12 |
# コンディションコントラストアライメントによる誘導自由AR視覚生成に向けて
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment ( http://arxiv.org/abs/2410.09347v1 ) ライセンス: Link先を確認 | Huayu Chen, Hang Su, Peize Sun, Jun Zhu, | (参考訳) 分類自由誘導(CFG)は視覚生成モデルのサンプル品質を高める重要な手法である。
しかし、自己回帰(AR)マルチモーダル生成において、CFGは言語と視覚コンテンツ間の設計の不整合を導入し、視覚ARの異なるモダリティを統一する設計哲学と矛盾する。
言語モデルアライメント法により,誘導不要なAR視覚生成を高速に支援し,ガイド付きサンプリング手法との理論的関連性を分析するために,CCA(textit{Condition Contrastive Alignment})を提案する。
理想的なサンプリング分布を達成するためにサンプリングプロセスを変更するガイダンス方法とは異なり、CAAはトレーニング済みモデルを直接微調整して同じ分布ターゲットに適合させる。
実験結果から, CCAは, 事前学習データセット上での微調整(事前学習期間の1\%)を, ガイド付きサンプリング手法と同等に行うことで, 全試験モデルのガイダンスフリー性能を著しく向上させることができることがわかった。
これにより、ARビジュアル生成におけるガイド付きサンプリングの必要性を大きく取り除き、サンプリングコストを半分に削減できる。
さらに, トレーニングパラメータの調整により, CCAはCFGと同様の多様性と忠実度とのトレードオフを達成できる。
このことは、言語的アライメントと視覚的アライメントの強い関係を実験的に確認し、これまで独立していた2つの研究分野を統一する。
コードとモデルウェイト:https://github.com/thu-ml/CCA。
Classifier-Free Guidance (CFG) is a critical technique for enhancing the sample quality of visual generative models. However, in autoregressive (AR) multi-modal generation, CFG introduces design inconsistencies between language and visual content, contradicting the design philosophy of unifying different modalities for visual AR. Motivated by language model alignment methods, we propose \textit{Condition Contrastive Alignment} (CCA) to facilitate guidance-free AR visual generation with high performance and analyze its theoretical connection with guided sampling methods. Unlike guidance methods that alter the sampling process to achieve the ideal sampling distribution, CCA directly fine-tunes pretrained models to fit the same distribution target. Experimental results show that CCA can significantly enhance the guidance-free performance of all tested models with just one epoch of fine-tuning ($\sim$ 1\% of pretraining epochs) on the pretraining dataset, on par with guided sampling methods. This largely removes the need for guided sampling in AR visual generation and cuts the sampling cost by half. Moreover, by adjusting training parameters, CCA can achieve trade-offs between sample diversity and fidelity similar to CFG. This experimentally confirms the strong theoretical connection between language-targeted alignment and visual-targeted guidance methods, unifying two previously independent research fields. Code and model weights: https://github.com/thu-ml/CCA. | 翻訳日:2024-10-30 15:03:37 公開日:2024-10-12 |
# BANGS:グラフ自己学習のためのゲーム理論ノード選択
BANGS: Game-Theoretic Node Selection for Graph Self-Training ( http://arxiv.org/abs/2410.09348v1 ) ライセンス: Link先を確認 | Fangxin Wang, Kay Liu, Sourav Medya, Philip S. Yu, | (参考訳) グラフ自己学習は、ラベルなしデータの集合を反復的に選択して、基礎となるグラフニューラルネットワーク(GNN)モデルをトレーニングし、予測性能を向上させる半教師付き学習手法である。
信頼性の高いノードを選択することは、自己学習に有効であることが証明されているが、この擬似ラベル方式は、ノード間の組合せ依存を無視し、分布の局所的なビューに苦しむ。
そこで我々は,ノード選択の目的として,条件付き相互情報とラベル戦略を統一する新しいフレームワークであるBANGSを提案する。
ゲーム理論に基づく我々のアプローチは、組み合わせ方式でノードを選択し、ノイズのある目的の下でロバスト性に関する理論的保証を提供する。
具体的には、独立してノードをランク付けして選択する従来の方法とは異なり、BANGSはノードを自己学習プロセスにおける集合集合とみなしている。
提案手法は, 各種データセット, ベースモデル, ハイパーパラメータ設定において, 優れた性能とロバスト性を示し, 既存の手法よりも優れた性能を示す。
コードベースはhttps://github.com/fangxin-wang/BANGSで公開されている。
Graph self-training is a semi-supervised learning method that iteratively selects a set of unlabeled data to retrain the underlying graph neural network (GNN) model and improve its prediction performance. While selecting highly confident nodes has proven effective for self-training, this pseudo-labeling strategy ignores the combinatorial dependencies between nodes and suffers from a local view of the distribution. To overcome these issues, we propose BANGS, a novel framework that unifies the labeling strategy with conditional mutual information as the objective of node selection. Our approach -- grounded in game theory -- selects nodes in a combinatorial fashion and provides theoretical guarantees for robustness under noisy objective. More specifically, unlike traditional methods that rank and select nodes independently, BANGS considers nodes as a collective set in the self-training process. Our method demonstrates superior performance and robustness across various datasets, base models, and hyperparameter settings, outperforming existing techniques. The codebase is available on https://github.com/fangxin-wang/BANGS . | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# 文脈内学習における推論と言語機能
Inference and Verbalization Functions During In-Context Learning ( http://arxiv.org/abs/2410.09349v1 ) ライセンス: Link先を確認 | Junyi Tao, Xiaoyin Chen, Nelson F. Liu, | (参考訳) 大規模言語モデル(LM)は、推論中に新しいタスクを解くためのいくつかのデモ(サンプルラベルペア)から、コンテキスト内での学習を可能にする。
高品質なデモの直感的な重要性にもかかわらず、以前の研究では、いくつかの設定では、ICLのパフォーマンスは無関係なラベル(Min et al , 2022)の影響を最小限に受けている。
我々は、LMが2つのシーケンシャルなプロセスを通して無関係なラベルでICLを実行すると仮定する:タスクを解く推論関数と、ラベル空間に推論された回答をマッピングする動詞化関数である。
重要なことは、推論関数がラベル空間のリマッピング(例: "true"/"false" から "cat"/"dog")に不変であると仮定することで、LMが異なるラベル語で同じ推論関数を共有することができる。
我々は,この仮説を制御層間相互干渉実験により実証的に検証した。
本研究は,複数のデータセットとタスク(自然言語推論,感情分析,トピック分類)の仮説を検証し,GEMMA-7B,MISTRAL-7B-V0.3,GEMMA-2-27B,LAMA-3.1-70Bなど,様々なオープンソースモデルにまたがる特定の層に2つの関数が局在できることを示唆している。
Large language models (LMs) are capable of in-context learning from a few demonstrations (example-label pairs) to solve new tasks during inference. Despite the intuitive importance of high-quality demonstrations, previous work has observed that, in some settings, ICL performance is minimally affected by irrelevant labels (Min et al., 2022). We hypothesize that LMs perform ICL with irrelevant labels via two sequential processes: an inference function that solves the task, followed by a verbalization function that maps the inferred answer to the label space. Importantly, we hypothesize that the inference function is invariant to remappings of the label space (e.g., "true"/"false" to "cat"/"dog"), enabling LMs to share the same inference function across settings with different label words. We empirically validate this hypothesis with controlled layer-wise interchange intervention experiments. Our findings confirm the hypotheses on multiple datasets and tasks (natural language inference, sentiment analysis, and topic classification) and further suggest that the two functions can be localized in specific layers across various open-sourced models, including GEMMA-7B, MISTRAL-7B-V0.3, GEMMA-2-27B, and LLAMA-3.1-70B. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# 知識グラフを用いた対話生成のための生成サブグラフ検索
Generative Subgraph Retrieval for Knowledge Graph-Grounded Dialog Generation ( http://arxiv.org/abs/2410.09350v1 ) ライセンス: Link先を確認 | Jinyoung Park, Minseok Joo, Joo-Kyung Kim, Hyunwoo J. Kim, | (参考訳) 知識グラフ基底ダイアログ生成には、与えられた知識ベースグラフからダイアログ関連サブグラフを取得し、ダイアログ履歴と統合する必要がある。
従来の研究は、グラフニューラルネットワークのような外部エンコーダを使用してグラフを表現し、トリプレットの単一ベクトル表現とダイアログ履歴との類似性に基づいて関連するトリプレットを検索する。
しかし、これらの外部エンコーダは、事前訓練された言語モデルの豊富な知識を活用できず、ダイアログ履歴の単一ベクトル抽象化によって引き起こされる情報のボトルネックのため、検索プロセスも最適ではない。
本稿では,言語モデル上で直接トークンシーケンスを生成することにより,関連知識のサブグラフを検索するダイアログ生成手法を提案する。
効率的な生成サブグラフ検索には,2つの重要な方法を導入する。
(i)自己監督型グラフ固有トークンと構造認識型知識グラフ線形化
二 グラフ構造的近接性に基づく実体情報度スコアを用いたグラフ制約復号法により、妥当性及び関連性のある生成検索を行う。
DialogGSRは、OpenDialKGとKOMODISデータセットで示されるように、知識グラフ基底ダイアログ生成における最先端のパフォーマンスを実現する。
Knowledge graph-grounded dialog generation requires retrieving a dialog-relevant subgraph from the given knowledge base graph and integrating it with the dialog history. Previous works typically represent the graph using an external encoder, such as graph neural networks, and retrieve relevant triplets based on the similarity between single-vector representations of triplets and the dialog history. However, these external encoders fail to leverage the rich knowledge of pretrained language models, and the retrieval process is also suboptimal due to the information bottleneck caused by the single-vector abstraction of the dialog history. In this work, we propose Dialog generation with Generative Subgraph Retrieval (DialogGSR), which retrieves relevant knowledge subgraphs by directly generating their token sequences on top of language models. For effective generative subgraph retrieval, we introduce two key methods: (i) structure-aware knowledge graph linearization with self-supervised graph-specific tokens and (ii) graph-constrained decoding utilizing graph structural proximity-based entity informativeness scores for valid and relevant generative retrieval. DialogGSR achieves state-of-the-art performance in knowledge graph-grounded dialog generation, as demonstrated on OpenDialKG and KOMODIS datasets. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# LogLM:タスクベースからインストラクションベースの自動ログ分析
LogLM: From Task-based to Instruction-based Automated Log Analysis ( http://arxiv.org/abs/2410.09352v1 ) ライセンス: Link先を確認 | Yilun Liu, Yuhe Ji, Shimin Tao, Minggui He, Weibin Meng, Shenglin Zhang, Yongqian Sun, Yuming Xie, Boxing Chen, Hao Yang, | (参考訳) 自動ログ分析は、ソフトウェアシステムの効率的な運用と保守(O&M)に不可欠であり、システムの振る舞いに関する重要な洞察を提供する。
しかし、既存のアプローチは主に、タスク固有のログラベルペアを使用して、独立したタスクを実行するためのモデルをトレーニングするものとしてログ分析を扱います。
これらのタスクベースのアプローチは、複雑なシナリオを一般化するには柔軟性がなく、タスク固有のトレーニングデータに依存する。
本稿では,ログラベルペアを複数のタスクやドメインから命令応答ペアの統一形式に変換する,命令ベースのトレーニング手法を提案する。
トレーニングされたモデルであるLogLMは、複雑なユーザ命令に従って、さまざまなタスクをまたいだより優れた一般化が可能になり、柔軟性が向上し、タスク固有のトレーニングデータへの依存が軽減される。
主要なログ分析タスクをひとつのモデルに統合することで、当社のアプローチはモデルデプロイメントの負担を軽減します。
実験的に、LogLMは5つのログ解析能力で既存のアプローチより優れており、複雑な命令や目に見えないタスクに対して強力な一般化能力を示している。
Automatic log analysis is essential for the efficient Operation and Maintenance (O&M) of software systems, providing critical insights into system behaviors. However, existing approaches mostly treat log analysis as training a model to perform an isolated task, using task-specific log-label pairs. These task-based approaches are inflexible in generalizing to complex scenarios, depend on task-specific training data, and cost significantly when deploying multiple models. In this paper, we propose an instruction-based training approach that transforms log-label pairs from multiple tasks and domains into a unified format of instruction-response pairs. Our trained model, LogLM, can follow complex user instructions and generalize better across different tasks, thereby increasing flexibility and reducing the dependence on task-specific training data. By integrating major log analysis tasks into a single model, our approach also relieves model deployment burden. Experimentally, LogLM outperforms existing approaches across five log analysis capabilities, and exhibits strong generalization abilities on complex instructions and unseen tasks. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# Fusion Matrix Promptによる自己注意型時空間対話型トラフィック予測フレームワーク
Fusion Matrix Prompt Enhanced Self-Attention Spatial-Temporal Interactive Traffic Forecasting Framework ( http://arxiv.org/abs/2410.09356v1 ) ライセンス: Link先を確認 | Mu Liu, MingChen Sun YingJi Li, Ying Wang, | (参考訳) 近年,交通管理や旅行計画の需要が高まり,時空間予測技術が急速に発展している。
しかし、既存の交通予測モデルは以下の制限に直面している。
一方、これまでのほとんどの研究は、現実世界の地理的情報に重きを置きすぎ、異なる地域間の潜在的な交通相関を無視したり、地理的な位置を見落とし、交通フローの関係をモデル化したりしている。
一方、時間モデリングにおいて異なる時間スライスの重要性は無視される。
そこで本稿では,FMPESTF(Fusion Matrix Prompt Enhanced Self-Attention Space-Temporal Interactive Traffic Forecasting Framework)を提案する。
このネットワークは、空間的時間的不均一性を考慮し、データ駆動動的トラフィックデータ構造を再構築するクエリとしてトラフィック融合行列を確立し、トラフィックネットワーク内のノードのフロー関係を正確に明らかにするように設計されている。
さらに、時間モデリングにおける注意機構を導入し、様々な交通シナリオに適応するための階層型時空間対話型学習を設計する。
実世界の6つの交通データセットの広範な実験を通して,本手法は他のベースラインモデルよりもはるかに優れており,交通予測問題に対処する際の効率と正確性を示している。
Recently, spatial-temporal forecasting technology has been rapidly developed due to the increasing demand for traffic management and travel planning. However, existing traffic forecasting models still face the following limitations. On one hand, most previous studies either focus too much on real-world geographic information, neglecting the potential traffic correlation between different regions, or overlook geographical position and only model the traffic flow relationship. On the other hand, the importance of different time slices is ignored in time modeling. Therefore, we propose a Fusion Matrix Prompt Enhanced Self-Attention Spatial-Temporal Interactive Traffic Forecasting Framework (FMPESTF), which is composed of spatial and temporal modules for down-sampling traffic data. The network is designed to establish a traffic fusion matrix considering spatial-temporal heterogeneity as a query to reconstruct a data-driven dynamic traffic data structure, which accurately reveal the flow relationship of nodes in the traffic network. In addition, we introduce attention mechanism in time modeling, and design hierarchical spatial-temporal interactive learning to help the model adapt to various traffic scenarios. Through extensive experimental on six real-world traffic datasets, our method is significantly superior to other baseline models, demonstrating its efficiency and accuracy in dealing with traffic forecasting problems. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# グリーンレコメンダシステム:エネルギー効率の良いアルゴリズム性能のためのデータセットサイズ最適化
Green Recommender Systems: Optimizing Dataset Size for Energy-Efficient Algorithm Performance ( http://arxiv.org/abs/2410.09359v1 ) ライセンス: Link先を確認 | Ardalan Arabzadeh, Tobias Vente, Joeran Beel, | (参考訳) 推薦システムがますます普及するにつれて、大規模モデルの訓練における環境影響とエネルギー効率が精査されている。
本稿では,グリーン・レコメンダ・システム(Green Recommender Systems)の文脈におけるダウンサンプリング手法を用いて,データセットサイズを最適化することで,エネルギー効率の高いアルゴリズム性能を実現する可能性について検討する。
The MovieLens 100K, 1M, 10M, and Amazon Toys and Gamesのデータセットで実験を行い、データセットサイズが異なる部分で様々な推奨アルゴリズムのパフォーマンスを分析した。
以上の結果から,FunkSVDやBiasedMFなどのアルゴリズム,特にAmazon ToysやGamesのような不均衡でスパースなデータセットでは,トレーニングデータの最大50%の削減で高品質なレコメンデーションを維持し,nDCG@10スコアを全データセットのパフォーマンスの約13%で達成する,という結果が得られた。
これらの結果から, 戦略的データセットの削減は, 推奨品質を著しく損なうことなく, 計算コストや環境コストを低減できることが示唆された。
本研究は, 有効性を維持しつつ, エネルギー消費削減のための洞察を提供することにより, 持続的, グリーンなレコメンデータシステムを構築した。
As recommender systems become increasingly prevalent, the environmental impact and energy efficiency of training large-scale models have come under scrutiny. This paper investigates the potential for energy-efficient algorithm performance by optimizing dataset sizes through downsampling techniques in the context of Green Recommender Systems. We conducted experiments on the MovieLens 100K, 1M, 10M, and Amazon Toys and Games datasets, analyzing the performance of various recommender algorithms under different portions of dataset size. Our results indicate that while more training data generally leads to higher algorithm performance, certain algorithms, such as FunkSVD and BiasedMF, particularly with unbalanced and sparse datasets like Amazon Toys and Games, maintain high-quality recommendations with up to a 50% reduction in training data, achieving nDCG@10 scores within approximately 13% of full dataset performance. These findings suggest that strategic dataset reduction can decrease computational and environmental costs without substantially compromising recommendation quality. This study advances sustainable and green recommender systems by providing insights for reducing energy consumption while maintaining effectiveness. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# 非音声ボカライゼーションの合成に向けて
Towards the Synthesis of Non-speech Vocalizations ( http://arxiv.org/abs/2410.09360v1 ) ライセンス: Link先を確認 | Enjamamul Hoq, Ifeoma Nwogu, | (参考訳) 本稿では,DiffWaveフレームワークを用いた幼児の泣き声の無条件生成に着目し,ノイズから高品質な音声を生成できることを示す。
乳児の泣き声のデータセットはBaby ChillantoとDeBarbaro cryデータセットの2つです。
これらのデータセットは、DiffWaveモデルをトレーニングして、高い忠実度と多様性を維持する新しい泣き音を生成するために使用される。
ここでの焦点は、条件のない生成タスクを処理するDiffWaveの機能である。
In this report, we focus on the unconditional generation of infant cry sounds using the DiffWave framework, which has shown great promise in generating high-quality audio from noise. We use two distinct datasets of infant cries: the Baby Chillanto and the deBarbaro cry dataset. These datasets are used to train the DiffWave model to generate new cry sounds that maintain high fidelity and diversity. The focus here is on DiffWave's capability to handle the unconditional generation task. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# 意思決定ポイントガイドによる安全政策の改善
Decision-Point Guided Safe Policy Improvement ( http://arxiv.org/abs/2410.09361v1 ) ライセンス: Link先を確認 | Abhishek Sharma, Leo Benac, Sonali Parbhoo, Finale Doshi-Velez, | (参考訳) バッチ強化学習において、安全なポリシー改善(SPI)は、学習したポリシーがデータセットを生成する行動ポリシーと同様に、少なくとも実行することを保証する。
SPIの中核的な課題は、多くのステートアクションペアが頻繁に訪れる場合のリスクのバランスを保ちながら改善を求めることである。
本研究では,改良を目的とした状態-作用対(あるいは連続状態の領域)のセットを制限するアルゴリズムである決定点RL(DPRL)を紹介する。
DPRLは、密接な訪問状態(すなわち、決定点)において、少ない訪問状態のデータを引き続き活用しながら、高い信頼度の向上を保証する。
動作ポリシーから逸脱する場所と方法を適切に制限することにより、以前の作業よりも厳密なバウンダリを実現します。
この分析に加えて、DPRLは、合成データセットと実データセットの両方において安全かつ高性能であることを示す。
Within batch reinforcement learning, safe policy improvement (SPI) seeks to ensure that the learnt policy performs at least as well as the behavior policy that generated the dataset. The core challenge in SPI is seeking improvements while balancing risk when many state-action pairs may be infrequently visited. In this work, we introduce Decision Points RL (DPRL), an algorithm that restricts the set of state-action pairs (or regions for continuous states) considered for improvement. DPRL ensures high-confidence improvement in densely visited states (i.e. decision points) while still utilizing data from sparsely visited states. By appropriately limiting where and how we may deviate from the behavior policy, we achieve tighter bounds than prior work; specifically, our data-dependent bounds do not scale with the size of the state and action spaces. In addition to the analysis, we demonstrate that DPRL is both safe and performant on synthetic and real datasets. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# SeRA: インシシット・リワード・マージンを用いた大規模言語モデルの自己レビューとアライメント
SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins ( http://arxiv.org/abs/2410.09362v1 ) ライセンス: Link先を確認 | Jongwoo Ko, Saket Dingliwal, Bhavana Ganesh, Sailik Sengupta, Sravan Bodapati, Aram Galstyan, | (参考訳) 直接選好最適化(DPO)のようなDAAアルゴリズムは、その単純さ、効率、安定性のために、人間フィードバックからの強化学習(RLHF)の代替として人気がある。
しかしながら、DAAで使用される嗜好は通常、アライメントトレーニングが始まる前に収集され、変化しない(非政治)。
これは,(1) 政策モデルがデータセット内の素早い相関関係(人選好ラベルで表現されたアライメントを学習するのとは対照的に)を拾い上げ,(2) 政策モデルが生成する可能性の低い政策外の軌道に対するフィードバックに過度に適合する,という2つの問題を引き起こす可能性がある。
これらの課題に対処するために,既存のDAAと容易に組み合わせられる費用効率が高く効果的な方法であるSeRA(Self-Reviewing and Alignment)を導入する。
SeRAは,(1)暗黙の報酬マージンを用いたサンプル選択,(2)暗黙の報酬を用いた選好ブートストラッピング,の2つのコンポーネントから構成される。
命令追従タスクを含む大規模な実験は、DAAを用いたオフラインの嗜好データセット上でのLDMのトレーニングにおけるSeRAの有効性と汎用性を示す。
Direct alignment algorithms (DAAs), such as direct preference optimization (DPO), have become popular alternatives for Reinforcement Learning from Human Feedback (RLHF) due to their simplicity, efficiency, and stability. However, the preferences used in DAAs are usually collected before the alignment training begins and remain unchanged (off-policy). This can lead to two problems where the policy model (1) picks up on spurious correlations in the dataset (as opposed to learning the intended alignment expressed in the human preference labels), and (2) overfits to feedback on off-policy trajectories that have less likelihood of being generated by an updated policy model. To address these issues, we introduce Self-Reviewing and Alignment (SeRA), a cost-efficient and effective method that can be readily combined with existing DAAs. SeRA comprises of two components: (1) sample selection using implicit reward margins, which helps alleviate over-fitting to some undesired features, and (2) preference bootstrapping using implicit rewards to augment preference data with updated policy models in a cost-efficient manner. Extensive experimentation, including some on instruction-following tasks, demonstrate the effectiveness and generality of SeRA in training LLMs on offline preference datasets with DAAs. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# テキストオンリートレーニングによるバイソン・ランゲージモデルのデバイアス化
Debiasing Vison-Language Models with Text-Only Training ( http://arxiv.org/abs/2410.09365v1 ) ライセンス: Link先を確認 | Yunfan Yang, Chaoquan Jiang, Zhiyu Lin, Jinlin Xiao, Jiaming Zhang, Jitao Sang, | (参考訳) CLIPのような事前学習された視覚言語モデル(VLM)は、テキストとイメージを統一的な埋め込み空間に整列させることで、様々な下流タスクで顕著なパフォーマンスを示した。
しかし、事前トレーニングされたデータセットの不均衡のため、CLIPは現実世界のアプリケーションのバイアス問題に悩まされる。
既存のデバイアス法は、少数派の画像サンプルを得るのに苦労し、グループラベリングには高いコストがかかる。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
具体的には,テキストエンコーダを画像エンコーダとして機能させ,画像データの必要性を解消する。
同時に、大きな言語モデル(LLM)を使用してバランスの取れたテキストデータセットを生成し、即時チューニングに使用する。
しかし,本モデルがテキストモダリティに過度に適合することが確認された。
この問題に対処するために、我々はさらに、複雑なコンテキストに焦点をあて、ターゲット情報とバイアス情報の区別をモデルに動機付けるマルチターゲット予測(MTP)タスクを導入する。
Waterbirds と CelebA データセットの大規模な実験により,提案手法はグループロバスト性を大幅に向上し,画像のない手法の最先端化,さらには画像教師付き手法と比較して競争性能も向上することが示された。
さらに,提案手法は,複数のあるいは未知のバイアス特性を持つ難解なシナリオに適応し,その強い一般化とロバスト性を示す。
Pre-trained vision-language models (VLMs), such as CLIP, have exhibited remarkable performance across various downstream tasks by aligning text and images in a unified embedding space. However, due to the imbalanced distribution of pre-trained datasets, CLIP suffers from the bias problem in real-world applications. Existing debiasing methods struggle to obtain sufficient image samples for minority groups and incur high costs for group labeling. To address the limitations, we propose a Text-Only Debiasing framework called TOD, leveraging a text-as-image training paradigm to mitigate visual biases. Specifically, this approach repurposes the text encoder to function as an image encoder, thereby eliminating the need for image data. Simultaneously, it utilizes a large language model (LLM) to generate a balanced text dataset, which is then used for prompt tuning. However, we observed that the model overfits to the text modality because label names, serving as supervision signals, appear explicitly in the texts. To address this issue, we further introduce a Multi-Target Prediction (MTP) task that motivates the model to focus on complex contexts and distinguish between target and biased information. Extensive experiments on the Waterbirds and CelebA datasets show that our method significantly improves group robustness, achieving state-of-the-art results among image-free methods and even competitive performance compared to image-supervised methods. Furthermore, the proposed method can be adapted to challenging scenarios with multiple or unknown bias attributes, demonstrating its strong generalization and robustness. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-12 |
# 強化学習のためのドメイン特化モデリング環境を目指して
Towards a Domain-Specific Modelling Environment for Reinforcement Learning ( http://arxiv.org/abs/2410.09368v1 ) ライセンス: Link先を確認 | Natalie Sinani, Sahil Salma, Paul Boutot, Sadaf Mustafiz, | (参考訳) 近年、機械学習技術は広く普及し、幅広い領域で使われている。
しかし、機械学習アルゴリズムに関連する複雑さのため、ユーザフレンドリで、理解しやすく、適用しやすいものにすることは難しい。
機械学習アプリケーションは、この分野に熟練していないユーザーにとって特に困難である。
本稿では、ドメイン固有のモデリング環境を開発するためのMDE(Model-Driven Engineering)手法とツールを用いて、この問題に対するソリューションの提供に貢献する。
機械学習領域からの強化学習を対象とし,提案言語である強化学習モデリング言語(RLML)を複数のアプリケーションで評価した。
このツールは構文指向の編集、制約チェック、RLMLモデルからのコードの自動生成をサポートする。
この環境はまた、複数のRLアルゴリズムで生成された結果を比較するためのサポートも提供する。
提案手法により,強化学習技術を抽象化し,RLユーザの学習曲線を改善することができた。
In recent years, machine learning technologies have gained immense popularity and are being used in a wide range of domains. However, due to the complexity associated with machine learning algorithms, it is a challenge to make it user-friendly, easy to understand and apply. Machine learning applications are especially challenging for users who do not have proficiency in this area. In this paper, we use model-driven engineering (MDE) methods and tools for developing a domain-specific modelling environment to contribute towards providing a solution for this problem. We targeted reinforcement learning from the machine learning domain, and evaluated the proposed language, reinforcement learning modelling language (RLML), with multiple applications. The tool supports syntax-directed editing, constraint checking, and automatic generation of code from RLML models. The environment also provides support for comparing results generated with multiple RL algorithms. With our proposed MDE approach, we were able to help in abstracting reinforcement learning technologies and improve the learning curve for RL users. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# ESVO2:ステレオイベントカメラを用いた直接視覚慣性オドメトリー
ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras ( http://arxiv.org/abs/2410.09374v1 ) ライセンス: Link先を確認 | Junkai Niu, Sheng Zhong, Xiuyuan Lu, Shaojie Shen, Guillermo Gallego, Yi Zhou, | (参考訳) イベントベース・ビジュアル・オドメトリー(英: Event-based visual odometry)は、ニューロモルフィック(すなわち、イベントベース)カメラの特別な動作原理を活用することで、サブプロブレムの追跡とマッピングを並列に解決することを目的とした、視覚的局所マッピング(SLAM)技術の特定の分野である。
イベントデータの動作に依存した性質のため、明示的なデータアソシエーション、大きなベースラインの視点変化による特徴マッチングがほとんど確立されず、直接メソッドがより合理的な選択となる。
しかし、現在最先端の直接手法は、マッピングサブプロブレムの計算複雑性の高さと、回転中の一定の自由度(DoF)におけるカメラポーズ追跡の縮退によって制限されている。
本稿では、イベントベースのステレオビジュアル慣性オドメトリーシステムを構築し、イベントベースのステレオビジュアルオドメトリーの課題を解決する。
具体的には、マッピング操作を高速化するために、イベントの局所的ダイナミクスに応じて輪郭点をサンプリングする効率的な戦略を提案する。
また、時間的ステレオと静的ステレオを融合することにより、構造的完全性および局所的滑らか性の観点からマッピング性能を向上する。
一般的な6自由度運動のピッチとヨー成分を回復する際のカメラポーズ追跡の縮退を回避するために,IMU測定を事前積分による動作先行として導入する。
この目的のために、IMUバイアスを継続的に更新し、線形速度を予測するためのコンパクトなバックエンドを提案し、カメラポーズトラッキングの正確な動き予測を可能にする。
結果として得られるシステムは、現代の高解像度のイベントカメラとよく一致し、大規模屋外環境でのグローバルな位置決め精度が向上する。
さまざまな解像度とシナリオを備えた5つの公開データセットに対する大規模な評価は、5つの最先端手法に対する提案システムの優れたパフォーマンスを正当化する。
Event-based visual odometry is a specific branch of visual Simultaneous Localization and Mapping (SLAM) techniques, which aims at solving tracking and mapping sub-problems in parallel by exploiting the special working principles of neuromorphic (ie, event-based) cameras. Due to the motion-dependent nature of event data, explicit data association ie, feature matching under large-baseline view-point changes is hardly established, making direct methods a more rational choice. However, state-of-the-art direct methods are limited by the high computational complexity of the mapping sub-problem and the degeneracy of camera pose tracking in certain degrees of freedom (DoF) in rotation. In this paper, we resolve these issues by building an event-based stereo visual-inertial odometry system on top of our previous direct pipeline Event-based Stereo Visual Odometry. Specifically, to speed up the mapping operation, we propose an efficient strategy for sampling contour points according to the local dynamics of events. The mapping performance is also improved in terms of structure completeness and local smoothness by merging the temporal stereo and static stereo results. To circumvent the degeneracy of camera pose tracking in recovering the pitch and yaw components of general six-DoF motion, we introduce IMU measurements as motion priors via pre-integration. To this end, a compact back-end is proposed for continuously updating the IMU bias and predicting the linear velocity, enabling an accurate motion prediction for camera pose tracking. The resulting system scales well with modern high-resolution event cameras and leads to better global positioning accuracy in large-scale outdoor environments. Extensive evaluations on five publicly available datasets featuring different resolutions and scenarios justify the superior performance of the proposed system against five state-of-the-art methods. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# ループしたReLU MLPは、プログラム可能なコンピュータとして必要なもの
Looped ReLU MLPs May Be All You Need as Practical Programmable Computers ( http://arxiv.org/abs/2410.09375v1 ) ライセンス: Link先を確認 | Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou, | (参考訳) これまでの研究は、注意機構がチューリング完全であることを実証してきた。
最近では、ループ型13層トランスフォーマーが普遍的なプログラマブルコンピュータとして機能することが示されている。
対照的に、ニューラルネットワークの最も基本的な構成要素の1つである$\mathsf{ReLU}$Activation$\mathsf{ReLU}$-$\mathsf{MLP}$の多層パーセプトロンは表現力があることが知られている。
しかし、$\mathsf{ReLU}$-$\mathsf{MLP}$が実用的な重みを使って普遍的にプログラム可能なコンピュータにできるかどうかは不明である。
本研究では,ループ化された23層の$\mathsf{ReLU}$-$\mathsf{MLP}$が,プログラム可能なコンピュータとして機能し,基本的な操作を行うことができることを示す。
このことは、単純な加群が以前予想されていたよりも強い表現力を持ち、完全には探索されていないことを示している。
私たちの研究は、ニューラルネットワークのメカニズムに関する洞察を提供し、プログラム可能なコンピュータとして機能するといった複雑なタスクが、トランスフォーマーのような高度なアーキテクチャを必ずしも必要としないことを示した。
Previous work has demonstrated that attention mechanisms are Turing complete. More recently, it has been shown that a looped 13-layer Transformer can function as a universal programmable computer. In contrast, the multi-layer perceptrons with $\mathsf{ReLU}$ activation ($\mathsf{ReLU}$-$\mathsf{MLP}$), one of the most fundamental components of neural networks, is known to be expressive; specifically, a two-layer neural network is a universal approximator given an exponentially large number of hidden neurons. However, it remains unclear whether a $\mathsf{ReLU}$-$\mathsf{MLP}$ can be made into a universal programmable computer using a practical number of weights. In this work, we provide an affirmative answer that a looped 23-layer $\mathsf{ReLU}$-$\mathsf{MLP}$ is capable to perform the basic necessary operations, effectively functioning as a programmable computer. This indicates that simple modules have stronger expressive power than previously expected and have not been fully explored. Our work provides insights into the mechanisms of neural networks and demonstrates that complex tasks, such as functioning as a programmable computer, do not necessarily require advanced architectures like Transformers. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# GEM-VPC:ビデオパラグラフキャプションのためのグラフ強化マルチモーダル統合
GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning ( http://arxiv.org/abs/2410.09377v1 ) ライセンス: Link先を確認 | Eileen Wang, Caren Han, Josiah Poon, | (参考訳) Video Paragraph Captioning (VPC) は、ビデオ内の重要な出来事を要約する段落を生成することを目的としている。
近年の進歩にもかかわらず、特にビデオに固有のマルチモーダル信号を効果的に活用し、単語の長い尾の分布に対処する上で、課題は続いている。
本稿では、様々なモダリティや外部知識ベースからの情報を活用した、VPCのための新しいマルチモーダル統合キャプション生成フレームワークを提案する。
本フレームワークは,多モーダル情報とコモンセンス知識の相互作用をキャプチャする「ビデオ固有」時間グラフと,特定のテーマの単語間の相関を表す「テーマグラフ」という2つのグラフを構築する。
これらのグラフは、共有エンコーダ-デコーダアーキテクチャを持つトランスフォーマーネットワークの入力として機能する。
グラフから最も関連性の高いノードを選択することでデコード効率を向上させるノード選択モジュールも導入する。
本結果は,ベンチマークデータセット間での優れた性能を示す。
Video Paragraph Captioning (VPC) aims to generate paragraph captions that summarises key events within a video. Despite recent advancements, challenges persist, notably in effectively utilising multimodal signals inherent in videos and addressing the long-tail distribution of words. The paper introduces a novel multimodal integrated caption generation framework for VPC that leverages information from various modalities and external knowledge bases. Our framework constructs two graphs: a 'video-specific' temporal graph capturing major events and interactions between multimodal information and commonsense knowledge, and a 'theme graph' representing correlations between words of a specific theme. These graphs serve as input for a transformer network with a shared encoder-decoder architecture. We also introduce a node selection module to enhance decoding efficiency by selecting the most relevant nodes from the graphs. Our results demonstrate superior performance across benchmark datasets. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# エンド・ツー・エンドのビデオ質問応答のためのマルチグラニュラリティコントラストクロスモーダル協調生成
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering ( http://arxiv.org/abs/2410.09379v1 ) ライセンス: Link先を確認 | Ting Yu, Kunhao Fu, Jian Zhang, Qingming Huang, Jun Yu, | (参考訳) ビデオQA(Long-term Video Question Answering)は、未編集の長期ビデオと多様な自由形式の質問のセマンティック理解に焦点を当てた、視覚的および言語的なブリッジングタスクである。
標準的アプローチは、しばしば高価な計算オーバーヘッドを抑えるためにオフザシェルフ特徴抽出器に依存するが、ドメイン非依存のモダリティ非関連表現をもたらす。
さらに、一元的理解と相互モーダル相互作用の固有の勾配ブロックは、信頼性の高い回答生成を妨げている。
対照的に、最近のビデオ言語事前学習モデルの成功により、コスト効率のよいエンドツーエンドモデリングが可能になったが、ドメイン固有の比率付けでは不足し、タスクの定式化における相違が見られる。
この目的のために我々は,Multi-granularity Contrastive cross-modal collaborative Generation (MCG)モデルという,ビデオQAの完全なエンドツーエンドソリューションを提案する。
高い視覚的概念を持つ識別表現を導出するために、クリップボーンアーキテクチャにJUM(Joint Unimodal Modeling)を導入し、MCL(Multi-granularity Contrastive Learning)を活用し、本質的または明示的な意味対応を活用する。
タスク定式化の相違を緩和するために,従来の分類方式ではなく,ビデオQAを生成タスクとして再構成するクロスモーダル協調生成(CCG)モジュールを提案する。
公開されている6つのビデオQAデータセットに対して行われた大規模な実験は、提案手法の優位性を裏付けるものである。
Long-term Video Question Answering (VideoQA) is a challenging vision-and-language bridging task focusing on semantic understanding of untrimmed long-term videos and diverse free-form questions, simultaneously emphasizing comprehensive cross-modal reasoning to yield precise answers. The canonical approaches often rely on off-the-shelf feature extractors to detour the expensive computation overhead, but often result in domain-independent modality-unrelated representations. Furthermore, the inherent gradient blocking between unimodal comprehension and cross-modal interaction hinders reliable answer generation. In contrast, recent emerging successful video-language pre-training models enable cost-effective end-to-end modeling but fall short in domain-specific ratiocination and exhibit disparities in task formulation. Toward this end, we present an entirely end-to-end solution for long-term VideoQA: Multi-granularity Contrastive cross-modal collaborative Generation (MCG) model. To derive discriminative representations possessing high visual concepts, we introduce Joint Unimodal Modeling (JUM) on a clip-bone architecture and leverage Multi-granularity Contrastive Learning (MCL) to harness the intrinsically or explicitly exhibited semantic correspondences. To alleviate the task formulation discrepancy problem, we propose a Cross-modal Collaborative Generation (CCG) module to reformulate VideoQA as a generative task instead of the conventional classification scheme, empowering the model with the capability for cross-modal high-semantic fusion and generation so as to rationalize and answer. Extensive experiments conducted on six publicly available VideoQA datasets underscore the superiority of our proposed method. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# ビデオ質問応答のためのドメイン固有きめ細かいヒューリスティックを用いたビデオ言語基礎モデルの提案
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering ( http://arxiv.org/abs/2410.09380v1 ) ライセンス: Link先を確認 | Ting Yu, Kunhao Fu, Shuhui Wang, Qingming Huang, Jun Yu, | (参考訳) ビデオ質問回答(Video Question Answering, VideoQA)は、ビデオ理解と言語処理の間の重要な交差点であり、正確な推論のために、識別的ユニモーダル理解と洗練された相互モーダル相互作用の両方を必要とする。
マルチモーダルな事前学習モデルやビデオ言語基礎モデルの進歩にもかかわらず、これらのシステムは一般化された事前学習の目的のためにドメイン固有のビデオQAと競合することが多い。
このギャップに対処するには、広義のクロスモーダルな知識と、ビデオQAタスクの特定の推論要求のギャップを埋める必要がある。
この目的のために、ドメイン固有のエンティティアクションヒューリスティックスを活用して、事前学習されたビデオ言語基盤モデルを洗練するフレームワークであるHeurVidQAを紹介する。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
詳細なヒューリスティックスを提供することで、重要なエンティティとアクションを識別および解釈するモデルの能力を改善し、それによって推論能力を向上させる。
複数のビデオQAデータセットにまたがる広範囲な評価結果から,本手法は既存のモデルよりもはるかに優れており,より正確でコンテキストを意識したビデオQAを実現するために,ドメイン固有知識をビデオ言語モデルに統合することの重要性が強調されている。
Video Question Answering (VideoQA) represents a crucial intersection between video understanding and language processing, requiring both discriminative unimodal comprehension and sophisticated cross-modal interaction for accurate inference. Despite advancements in multi-modal pre-trained models and video-language foundation models, these systems often struggle with domain-specific VideoQA due to their generalized pre-training objectives. Addressing this gap necessitates bridging the divide between broad cross-modal knowledge and the specific inference demands of VideoQA tasks. To this end, we introduce HeurVidQA, a framework that leverages domain-specific entity-action heuristics to refine pre-trained video-language foundation models. Our approach treats these models as implicit knowledge engines, employing domain-specific entity-action prompters to direct the model's focus toward precise cues that enhance reasoning. By delivering fine-grained heuristics, we improve the model's ability to identify and interpret key entities and actions, thereby enhancing its reasoning capabilities. Extensive evaluations across multiple VideoQA datasets demonstrate that our method significantly outperforms existing models, underscoring the importance of integrating domain-specific knowledge into video-language models for more accurate and context-aware VideoQA. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# LLM-SmartAudit:高度なスマートコントラクト脆弱性検出
LLM-SmartAudit: Advanced Smart Contract Vulnerability Detection ( http://arxiv.org/abs/2410.09381v1 ) ライセンス: Link先を確認 | Zhiyuan Wei, Jing Sun, Zijiang Zhang, Xianhao Zhang, | (参考訳) ブロックチェーン技術の不変性は、革命的ではあるが、特にスマートコントラクトにおいて、重大なセキュリティ上の課題をもたらしている。
これらのセキュリティ問題は大きな損失をもたらす可能性がある。
現在のツールとアプローチは、しばしば特定のタイプの脆弱性に焦点を当てている。
しかし、広範囲の脆弱性を高い精度で検出できる包括的なツールが欠如している。
本稿では,LLM-SmartAuditについて紹介する。LLM-SmartAuditは,Large Language Models(LLMs)の高度な機能を活用して,スマートコントラクトの脆弱性を検出し解析するフレームワークである。
LLM-SmartAuditは、マルチエージェントの会話アプローチを用いて、監査プロセスを強化するために、特殊なエージェントとの協調システムを採用している。
LLM-SmartAuditの有効性を評価するために,従来のツールに対してベンチマークを行うラベル付きデータセットと,実用的なアプリケーションを評価する実世界のデータセットの2つの異なるデータセットをコンパイルした。
実験の結果,我々のソリューションは従来のスマートコントラクト監査ツールよりも優れており,精度が高く,効率も高いことがわかった。
さらに、従来のツールがこれまで見落としていた複雑なロジックの脆弱性も検出できる。
以上の結果から,LLMエージェントの活用がスマートコントラクト自動監査に有効であることが示唆された。
The immutable nature of blockchain technology, while revolutionary, introduces significant security challenges, particularly in smart contracts. These security issues can lead to substantial financial losses. Current tools and approaches often focus on specific types of vulnerabilities. However, a comprehensive tool capable of detecting a wide range of vulnerabilities with high accuracy is lacking. This paper introduces LLM-SmartAudit, a novel framework leveraging the advanced capabilities of Large Language Models (LLMs) to detect and analyze vulnerabilities in smart contracts. Using a multi-agent conversational approach, LLM-SmartAudit employs a collaborative system with specialized agents to enhance the audit process. To evaluate the effectiveness of LLM-SmartAudit, we compiled two distinct datasets: a labeled dataset for benchmarking against traditional tools and a real-world dataset for assessing practical applications. Experimental results indicate that our solution outperforms all traditional smart contract auditing tools, offering higher accuracy and greater efficiency. Furthermore, our framework can detect complex logic vulnerabilities that traditional tools have previously overlooked. Our findings demonstrate that leveraging LLM agents provides a highly effective method for automated smart contract auditing. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# CLIP-SCGI: 人物再同定のための合成キャプションガイドインバージョン
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification ( http://arxiv.org/abs/2410.09382v1 ) ライセンス: Link先を確認 | Qianru Han, Xinwei He, Zhi Liu, Sannyuya Liu, Ying Zhang, Jinhai Xiang, | (参考訳) 人物再識別(ReID)は、最近、Contrastive Language-Image Pre-Training (CLIP)のような、事前訓練された視覚言語モデルの恩恵を受けている。
しかし、具体的な記述がないため、暗黙のテキスト埋め込みを使う必要があり、それは複雑で非効率な訓練戦略を必要とする。
まず、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成し、その結果、大きな視覚言語モデルによる人物の再識別を促進する。
LLAVA(Large Language and Vision Assistant)のようなモデルを用いて、性別、衣服、年齢などの重要な意味的属性をキャプチャする固定テンプレートに基づいて高品質なキャプションを生成する。
一様性(画像とテキスト)から二様性(画像とテキスト)へのReIDトレーニングセットの拡大により、合成キャプションを活用するシンプルで効果的なフレームワークであるCLIP-SCGIを導入し、差別的かつ堅牢な表現の学習を指導する。
CLIPで構築されたCLIP-SCGIは、イメージとテキストの埋め込みを2つのモジュールを通じて融合して、トレーニングプロセスを強化する。
生成したキャプションの品質問題に対処するため,画像から意味的属性をキャプチャするキャプション誘導型インバージョンモジュールを導入する。
このアプローチは、モデルがキー情報をよりよくキャプチャし、関連する領域に集中するのに役立ちます。
抽出した特徴は, クロスモーダル融合モジュールで利用され, モデルがキャプションにセマンティックに整合した領域に焦点を合わせることによって, 視覚エンコーダの最適化が容易になり, 識別的かつロバストな表現が抽出される。
4つの人気のあるReIDベンチマークに関する大規模な実験は、CLIP-SCGIが最先端よりも大きなマージンで優れていることを示している。
Person re-identification (ReID) has recently benefited from large pretrained vision-language models such as Contrastive Language-Image Pre-Training (CLIP). However, the absence of concrete descriptions necessitates the use of implicit text embeddings, which demand complicated and inefficient training strategies. To address this issue, we first propose one straightforward solution by leveraging existing image captioning models to generate pseudo captions for person images, and thereby boost person re-identification with large vision language models. Using models like the Large Language and Vision Assistant (LLAVA), we generate high-quality captions based on fixed templates that capture key semantic attributes such as gender, clothing, and age. By augmenting ReID training sets from uni-modality (image) to bi-modality (image and text), we introduce CLIP-SCGI, a simple yet effective framework that leverages synthesized captions to guide the learning of discriminative and robust representations. Built on CLIP, CLIP-SCGI fuses image and text embeddings through two modules to enhance the training process. To address quality issues in generated captions, we introduce a caption-guided inversion module that captures semantic attributes from images by converting relevant visual information into pseudo-word tokens based on the descriptions. This approach helps the model better capture key information and focus on relevant regions. The extracted features are then utilized in a cross-modal fusion module, guiding the model to focus on regions semantically consistent with the caption, thereby facilitating the optimization of the visual encoder to extract discriminative and robust representations. Extensive experiments on four popular ReID benchmarks demonstrate that CLIP-SCGI outperforms the state-of-the-art by a significant margin. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# Deep Transfer Learning: モデルフレームワークとエラー解析
Deep Transfer Learning: Model Framework and Error Analysis ( http://arxiv.org/abs/2410.09383v1 ) ライセンス: Link先を確認 | Yuling Jiao, Huazhen Lin, Yuchen Luo, Jerry Zhijian Yang, | (参考訳) 本稿では,大量のサンプル$n$を単一ドメインダウンストリームタスクに適用し,より少ないサンプル$m$でダウンストリームタスクの性能を高めることを目的とした,多ドメインアップストリームデータからの情報を活用するディープトランスファー学習フレームワークを提案する。
私たちのフレームワークにはいくつかの興味深い機能があります。
第一に、マルチドメインデータ間での共有機能と特定の機能の両方の存在を可能にし、情報の正確な転送と利用を実現する自動識別のためのフレームワークを提供する。
第2に、我々のモデルフレームワークは、下流タスクに寄与する上流機能を明確に示し、上流ドメインと下流タスクの関係を確立し、解釈可能性を高める。
誤り解析により、我々のフレームワークの下の変換は、下流教師付きタスクにおけるリプシッツ関数の学習の収束率を著しく向上させ、$\tilde{O}(m^{-\frac{1}{2(d+2)}}+n^{-\frac{1}{2(d+2)}})$(no transfer)から$\tilde{O}(m^{-\frac{1}{2(d^*+3)}} +n^{-\frac{1}{2(d+2)}})$(partial transfer)、$\tilde{O}(m^{-1/2}+n^{-\frac{1}{2(d+2)}})$(complete transfer)へ還元する。
画像分類データセットと回帰データセットを用いて実験を行った。
This paper presents a framework for deep transfer learning, which aims to leverage information from multi-domain upstream data with a large number of samples $n$ to a single-domain downstream task with a considerably smaller number of samples $m$, where $m \ll n$, in order to enhance performance on downstream task. Our framework has several intriguing features. First, it allows the existence of both shared and specific features among multi-domain data and provides a framework for automatic identification, achieving precise transfer and utilization of information. Second, our model framework explicitly indicates the upstream features that contribute to downstream tasks, establishing a relationship between upstream domains and downstream tasks, thereby enhancing interpretability. Error analysis demonstrates that the transfer under our framework can significantly improve the convergence rate for learning Lipschitz functions in downstream supervised tasks, reducing it from $\tilde{O}(m^{-\frac{1}{2(d+2)}}+n^{-\frac{1}{2(d+2)}})$ ("no transfer") to $\tilde{O}(m^{-\frac{1}{2(d^*+3)}} + n^{-\frac{1}{2(d+2)}})$ ("partial transfer"), and even to $\tilde{O}(m^{-1/2}+n^{-\frac{1}{2(d+2)}})$ ("complete transfer"), where $d^* \ll d$ and $d$ is the dimension of the observed data. Our theoretical findings are substantiated by empirical experiments conducted on image classification datasets, along with a regression dataset. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# Mamba4Cast: ステートスペースモデルによる効率的なゼロショット時系列予測
Mamba4Cast: Efficient Zero-Shot Time Series Forecasting with State Space Models ( http://arxiv.org/abs/2410.09385v1 ) ライセンス: Link先を確認 | Sathya Kamesh Bhethanabhotla, Omar Swelam, Julien Siems, David Salinas, Frank Hutter, | (参考訳) 本稿では,時系列予測のためのゼロショット基礎モデルであるMamba4Castを紹介する。
Mambaアーキテクチャをベースとし、PFN(Presideed-data Fitted Networks)にインスパイアされたMamba4Castは、データセット固有の微調整を必要とせずに、さまざまな時系列タスクを堅牢に一般化する。
Mamba4Castの重要なイノベーションは、リアルタイムデータセット上で強力なゼロショットパフォーマンスを実現する能力であると同時に、トランスフォーマーアーキテクチャに基づいた時系列基盤モデルよりもはるかに低い推論時間を持つことだ。
合成データのみに基づいてトレーニングされたこのモデルは、1回のパスで水平線全体の予測を生成し、従来の自己回帰的アプローチを上回る。
実験の結果,Mamba4Castは様々なデータセットにおいて,他の最先端基盤モデルと競合して動作し,予測長のスケーリングも大幅に向上した。
ソースコードはhttps://github.com/automl/Mamba4Cast.comからアクセスすることができる。
This paper introduces Mamba4Cast, a zero-shot foundation model for time series forecasting. Based on the Mamba architecture and inspired by Prior-data Fitted Networks (PFNs), Mamba4Cast generalizes robustly across diverse time series tasks without the need for dataset specific fine-tuning. Mamba4Cast's key innovation lies in its ability to achieve strong zero-shot performance on real-world datasets while having much lower inference times than time series foundation models based on the transformer architecture. Trained solely on synthetic data, the model generates forecasts for entire horizons in a single pass, outpacing traditional auto-regressive approaches. Our experiments show that Mamba4Cast performs competitively against other state-of-the-art foundation models in various data sets while scaling significantly better with the prediction length. The source code can be accessed at https://github.com/automl/Mamba4Cast. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# ExpGest:拡散モデルとハイブリッドオーディオテキスト誘導を用いた表現型話者生成
ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance ( http://arxiv.org/abs/2410.09396v1 ) ライセンス: Link先を確認 | Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Jifeng Ning, Wei Liu, | (参考訳) 既存のジェスチャー生成手法は主に、音声特徴に基づく上半身ジェスチャー、音声内容、感情、移動を無視することに焦点を当てている。
これらの制限は硬く機械的なジェスチャーをもたらすため、オーディオコンテンツの真の意味を伝えられない。
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、逆方向雑音を最適化し、メロディ歪みを回避し、特定の感情に対して結果を導くノイズ感情分類器を設計する。
さらに、潜在空間におけるセマンティックスとジェスチャの整合性は、より優れた一般化機能を提供する。
ExpGestは拡散モデルに基づくジェスチャー生成フレームワークで、音声駆動ジェスチャーやテキスト形式の動きを含む混合生成モードを提供する最初の試みである。
実験により,本フレームワークはテキスト駆動型動作と音声誘導型ジェスチャーデータセットの組み合わせから効果的に学習できることが確認された。
Existing gesture generation methods primarily focus on upper body gestures based on audio features, neglecting speech content, emotion, and locomotion. These limitations result in stiff, mechanical gestures that fail to convey the true meaning of audio content. We introduce ExpGest, a novel framework leveraging synchronized text and audio information to generate expressive full-body gestures. Unlike AdaIN or one-hot encoding methods, we design a noise emotion classifier for optimizing adversarial direction noise, avoiding melody distortion and guiding results towards specified emotions. Moreover, aligning semantic and gestures in the latent space provides better generalization capabilities. ExpGest, a diffusion model-based gesture generation framework, is the first attempt to offer mixed generation modes, including audio-driven gestures and text-shaped motion. Experiments show that our framework effectively learns from combined text-driven motion and audio-induced gesture datasets, and preliminary results demonstrate that ExpGest achieves more expressive, natural, and controllable global motion in speakers compared to state-of-the-art models. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# 微細な注意I/O複雑度:後方進路の包括的解析
Fine-grained Attention I/O Complexity: Comprehensive Analysis for Backward Passes ( http://arxiv.org/abs/2410.09397v1 ) ライセンス: Link先を確認 | Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song, Yufa Zhou, | (参考訳) LLM(Large Language Models)は、長いコンテキスト情報を処理する際、顕著な能力を示す。
しかし、列長に対する注意計算の二次的な複雑さは、重要な計算課題を引き起こし、I/O認識アルゴリズムが提案されている。
本稿では,小規模・大規模キャッシュシナリオに分類することで,下位パスに着目した注意機構のI/O複雑性を包括的に解析する。
赤青のゲームフレームワークを使用して、すべてのキャッシュサイズにまたがるI/O複雑性を厳格に制限する。
我々は,デファクト標準I/O認識アルゴリズムであるFlashAttentionが,キャッシュサイズの大きなシナリオに対して,前方および後方の両方に最適であることを確認した。
キャッシュサイズを小さくするために、既存のメソッドを改良し、タイトなバウンドを実現するアルゴリズムを提供する。
さらに、我々は分析をスパース・アテンション、主流のスピードアップ・アプローチに拡張し、前と後の両方の細粒度の低い境界と、小と大の両方のキャッシュを導出する。
注意機構におけるI/O複雑性の理論的基礎を完成し,LLM学習と推論の効率的なアルゴリズムを設計するための洞察を提供する。
Large Language Models (LLMs) have demonstrated remarkable capabilities in processing long-context information. However, the quadratic complexity of attention computation with respect to sequence length poses significant computational challenges, and I/O aware algorithms have been proposed. This paper presents a comprehensive analysis of the I/O complexity for attention mechanisms, focusing on backward passes by categorizing into small and large cache scenarios. Using the red-blue pebble game framework, we establish tight bounds on I/O complexity across all cache sizes. We confirm that the de facto standard I/O aware algorithm FlashAttention is optimal for both forward and backward passes for the large cache size scenario. For small cache sizes, we provide an algorithm that improves over existing methods and achieves the tight bounds. Additionally, we extend our analysis to sparse attention, a mainstream speeding-up approach, deriving fine-grained lower bounds for both forward and backward passes and both small and large caches. Our findings complete the theoretical foundation for I/O complexity in attention mechanisms, offering insights for designing efficient algorithms of LLM training and inference. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-12 |
# MITA: テスト時間適応のためのモデルとデータ間のギャップを埋める
MITA: Bridging the Gap between Model and Data for Test-time Adaptation ( http://arxiv.org/abs/2410.09398v1 ) ライセンス: Link先を確認 | Yige Yuan, Bingbing Xu, Teng Xiao, Liang Hou, Fei Sun, Huawei Shen, Xueqi Cheng, | (参考訳) テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
しかしながら、バッチレベルで運用される既存のメインストリームのTTAメソッドは、複雑な現実世界のシナリオ、特にアウトレーヤや混合分布に直面する場合において、最適以下のパフォーマンスを示すことが多い。
この現象は、個々のインスタンスの異なる特性に対する統計パターンの過度な依存から来ており、結果として、モデルが取得した分布とデータ特性の相違が生じる。
この課題に対処するため、我々はMeet-In-The-Middle based Test-Time Adaptation (\textbf{MITA}$)を提案する。
MITAは、モデルとデータとの整合性にのみ焦点をあてる従来のアプローチから、モデルの分散とデータ特性のギャップをより効果的に埋めることに集中する、という、大きな脱却の先駆者だ。
3つの異なるシナリオ(Outlier、Mixture、Pure)にわたるMITAによる総合的な実験は、SOTAメソッドよりも優れた性能を示し、実用アプリケーションにおける一般化可能性を大幅に向上させる可能性を強調している。
Test-Time Adaptation (TTA) has emerged as a promising paradigm for enhancing the generalizability of models. However, existing mainstream TTA methods, predominantly operating at batch level, often exhibit suboptimal performance in complex real-world scenarios, particularly when confronting outliers or mixed distributions. This phenomenon stems from a pronounced over-reliance on statistical patterns over the distinct characteristics of individual instances, resulting in a divergence between the distribution captured by the model and data characteristics. To address this challenge, we propose Meet-In-The-Middle based Test-Time Adaptation ($\textbf{MITA}$), which introduces energy-based optimization to encourage mutual adaptation of the model and data from opposing directions, thereby meeting in the middle. MITA pioneers a significant departure from traditional approaches that focus solely on aligning the model to the data, facilitating a more effective bridging of the gap between model's distribution and data characteristics. Comprehensive experiments with MITA across three distinct scenarios (Outlier, Mixture, and Pure) demonstrate its superior performance over SOTA methods, highlighting its potential to significantly enhance generalizability in practical applications. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# グラフ畳み込みネットワークを用いたテキスト分類:包括的調査
Text Classification using Graph Convolutional Networks: A Comprehensive Survey ( http://arxiv.org/abs/2410.09399v1 ) ライセンス: Link先を確認 | Syed Mustafa Haider Rizvi, Ramsha Imran, Arif Mahmood, | (参考訳) テキスト分類は、感情分析、偽ニュースの検出、医学的診断、文書分類など、さまざまな分野に応用された自然言語処理における重要な、実践的な問題である。
研究者は様々な角度からテキスト分類を研究・取り組んだが、成功の度合いは様々である。
グラフ畳み込みネットワーク(GCN)ベースのアプローチは、最近の文献で最先端のパフォーマンスを達成する多くの実装によって、この領域で過去10年間で大きな注目を集めており、最新の調査の必要性を保証している。
本研究の目的は,GCNをベースとしたテキスト分類手法をアーキテクチャや監視方法に関して要約し,分類することである。
強度と制限を識別し、さまざまなベンチマークデータセットのパフォーマンスを比較する。
また,本領域における今後の研究の方向性と課題についても論じる。
Text classification is a quintessential and practical problem in natural language processing with applications in diverse domains such as sentiment analysis, fake news detection, medical diagnosis, and document classification. A sizable body of recent works exists where researchers have studied and tackled text classification from different angles with varying degrees of success. Graph convolution network (GCN)-based approaches have gained a lot of traction in this domain over the last decade with many implementations achieving state-of-the-art performance in more recent literature and thus, warranting the need for an updated survey. This work aims to summarize and categorize various GCN-based Text Classification approaches with regard to the architecture and mode of supervision. It identifies their strengths and limitations and compares their performance on various benchmark datasets. We also discuss future research directions and the challenges that exist in this domain. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# CtrLoRA: 制御可能な画像生成のための拡張可能で効率的なフレームワーク
CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation ( http://arxiv.org/abs/2410.09400v1 ) ライセンス: Link先を確認 | Yifeng Xu, Zhenliang He, Shiguang Shan, Xilin Chen, | (参考訳) 近年,テキスト・ツー・イメージ(T2I)生成において,大規模な拡散モデルが顕著に進展している。
これらのT2Iモデルを微粒な空間制御でさらに装備するために、ControlNetのようなアプローチでは、条件画像に従うことを学習する余分なネットワークが導入されている。
しかし、すべての条件タイプに対して、ControlNetは数百のGPU時間を持つ数百万のデータペアの独立したトレーニングを必要とします。
この問題に対処するために,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するためにベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
トレーニング済みのBase ControlNetを利用することで、ユーザーはそれを新しい条件に容易に適応することができ、ほとんどのシナリオで満足な結果を得るためには、1,000のデータペアと1時間未満のシングルGPUトレーニングが必要です。
さらに、我々のCtrLoRAは、ControlNetと比較して学習可能なパラメータを90%削減し、モデルの重み付けを分散および展開するしきい値を大幅に下げます。
各種条件に対する広範囲な実験により,本手法の有効性と有効性を示した。
コードとモデルの重み付けはhttps://github.com/xyfJASON/ctrlora.comで公開される。
Recently, large-scale diffusion models have made impressive progress in text-to-image (T2I) generation. To further equip these T2I models with fine-grained spatial control, approaches like ControlNet introduce an extra network that learns to follow a condition image. However, for every single condition type, ControlNet requires independent training on millions of data pairs with hundreds of GPU hours, which is quite expensive and makes it challenging for ordinary users to explore and develop new types of conditions. To address this problem, we propose the CtrLoRA framework, which trains a Base ControlNet to learn the common knowledge of image-to-image generation from multiple base conditions, along with condition-specific LoRAs to capture distinct characteristics of each condition. Utilizing our pretrained Base ControlNet, users can easily adapt it to new conditions, requiring as few as 1,000 data pairs and less than one hour of single-GPU training to obtain satisfactory results in most scenarios. Moreover, our CtrLoRA reduces the learnable parameters by 90% compared to ControlNet, significantly lowering the threshold to distribute and deploy the model weights. Extensive experiments on various types of conditions demonstrate the efficiency and effectiveness of our method. Codes and model weights will be released at https://github.com/xyfJASON/ctrlora. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# CNN-BiLSTMと特徴融合を用いた誤り検出の新しいアプローチ
A Novel Approach to Malicious Code Detection Using CNN-BiLSTM and Feature Fusion ( http://arxiv.org/abs/2410.09401v1 ) ライセンス: Link先を確認 | Lixia Zhang, Tianxu Liu, Kaihui Shen, Cheng Chen, | (参考訳) インターネット技術の急速な進歩により、コンピュータシステムへのマルウェアの脅威とネットワークセキュリティが強まりつつある。
マルウェアは個人のプライバシーとセキュリティに影響を与え、企業や国の重要なインフラにリスクをもたらす。
マルウェアの量と複雑さの増大と、その隠蔽と多様性は、従来の検出技術に挑戦する。
静的検出手法は変種と満載のマルウェアに対抗し、動的手法はアプリケーションを制限する高いコストとリスクに直面している。
そのため、精度と堅牢性を向上させるために、新規で効率的なマルウェア検出技術が緊急に必要である。
本研究はまず、マルウェアのバイナリファイルをグレースケールのイメージに変換するためにminhashアルゴリズムを使用し、続いてGISTアルゴリズムとLPPアルゴリズムを用いてグローバルおよびローカルテクスチャの特徴を抽出する。
さらに、IDA Proを用いてオペコード配列をデコンパイルし抽出し、特徴ベクトル化にN-gramとtf-idfアルゴリズムを適用した。
これらの特徴の融合により、モデルはマルウェアの行動特性を包括的に捉えることができる。
モデル構築に関して、CNN-BiLSTM融合モデルは、画像の特徴とオプコードシーケンスを同時に処理し、分類性能を向上させるように設計されている。
複数の公開データセットに対する実験的な検証により、提案手法は、精度、リコール、F1スコアにおいて従来の検出手法よりも著しく優れており、特に、より安定性の高い変種や難読マルウェアの検出において顕著であることが示された。
本稿では,マルウェア検出技術開発における新たな知見を提供し,特徴量とモデル融合の有効性を検証し,期待できる応用可能性を示す。
With the rapid advancement of Internet technology, the threat of malware to computer systems and network security has intensified. Malware affects individual privacy and security and poses risks to critical infrastructures of enterprises and nations. The increasing quantity and complexity of malware, along with its concealment and diversity, challenge traditional detection techniques. Static detection methods struggle against variants and packed malware, while dynamic methods face high costs and risks that limit their application. Consequently, there is an urgent need for novel and efficient malware detection techniques to improve accuracy and robustness. This study first employs the minhash algorithm to convert binary files of malware into grayscale images, followed by the extraction of global and local texture features using GIST and LBP algorithms. Additionally, the study utilizes IDA Pro to decompile and extract opcode sequences, applying N-gram and tf-idf algorithms for feature vectorization. The fusion of these features enables the model to comprehensively capture the behavioral characteristics of malware. In terms of model construction, a CNN-BiLSTM fusion model is designed to simultaneously process image features and opcode sequences, enhancing classification performance. Experimental validation on multiple public datasets demonstrates that the proposed method significantly outperforms traditional detection techniques in terms of accuracy, recall, and F1 score, particularly in detecting variants and obfuscated malware with greater stability. The research presented in this paper offers new insights into the development of malware detection technologies, validating the effectiveness of feature and model fusion, and holds promising application prospects. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# 逆攻撃下での非パラメトリック回帰に対する収束の最小値
Minimax rates of convergence for nonparametric regression under adversarial attacks ( http://arxiv.org/abs/2410.09402v1 ) ライセンス: Link先を確認 | Jingfu Peng, Yuhong Yang, | (参考訳) 近年の研究では、敵攻撃に対する機械学習モデルの感受性が示されており、入力のマイナーだが悪意的に選択された摂動は、モデルの性能を著しく低下させる可能性がある。
本稿では,非パラメトリック回帰条件下での攻撃に対するロバスト性の限界を理論的に解析し,逆超ノルムにおける収束の最小値を調べる。
本研究により, 入力中の敵攻撃時の最小最大値は, 敵攻撃を伴わない標準設定における最小値と同一であり, 入力摂動を受けると, ターゲット関数クラス内の真の回帰関数値の最大偏差を反映していることがわかった。
最適速度は、対応する標準設定におけるミニマックス最適推定器から構築されたプラグイン手順により達成できる。
確立されたミニマックスの結果を説明するための2つの具体例が与えられる。
Recent research shows the susceptibility of machine learning models to adversarial attacks, wherein minor but maliciously chosen perturbations of the input can significantly degrade model performance. In this paper, we theoretically analyse the limits of robustness against such adversarial attacks in a nonparametric regression setting, by examining the minimax rates of convergence in an adversarial sup-norm. Our work reveals that the minimax rate under adversarial attacks in the input is the same as sum of two terms: one represents the minimax rate in the standard setting without adversarial attacks, and the other reflects the maximum deviation of the true regression function value within the target function class when subjected to the input perturbations. The optimal rates under the adversarial setup can be achieved by a plug-in procedure constructed from a minimax optimal estimator in the corresponding standard setting. Two specific examples are given to illustrate the established minimax results. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# マルチエージェントシステムは科学的なアイデアを生み出す可能性を秘めている
Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation ( http://arxiv.org/abs/2410.09403v1 ) ライセンス: Link先を確認 | Haoyang Su, Renqi Chen, Shixiang Tang, Xinzhe Zheng, Jingzhe Li, Zhenfei Yin, Wanli Ouyang, Nanqing Dong, | (参考訳) 科学的進歩の急速な進歩には、発見を加速する革新的なツールが必要である。
最近のAI手法、特に大きな言語モデル(LLM)は仮説生成や実験設計のようなタスクにおいて有望であるが、様々な専門家チームが複雑な問題に取り組むために協力して働く現実世界の科学的プラクティスの協調的な性質を複製するには不足している。
この制限に対処するため,LLMベースのマルチエージェントシステム,すなわちVirSci(VirSci)を提案する。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
総合的な実験を通じて、このマルチエージェントアプローチは、新しい、インパクトのある科学的アイデアを生み出す上で最先端の手法よりも優れており、サイエンス・オブ・サイエンスの分野における重要な洞察と整合する可能性を示している。
我々の研究結果は、協調エージェントを統合することで、より革新的な科学的成果が得られ、自律的な科学的発見のための堅牢なシステムを提供できることを示唆している。
The rapid advancement of scientific progress requires innovative tools that can accelerate discovery. While recent AI methods, particularly large language models (LLMs), have shown promise in tasks such as hypothesis generation and experimental design, they fall short in replicating the collaborative nature of real-world scientific practices, where diverse teams of experts work together to tackle complex problems. To address the limitation, we propose an LLM-based multi-agent system, i.e., Virtual Scientists (VirSci), designed to mimic the teamwork inherent in scientific research. VirSci organizes a team of agents to collaboratively generate, evaluate, and refine research ideas. Through comprehensive experiments, we demonstrate that this multi-agent approach outperforms the state-of-the-art method in producing novel and impactful scientific ideas, showing potential in aligning with key insights in the Science of Science field. Our findings suggest that integrating collaborative agents can lead to more innovative scientific outputs, offering a robust system for autonomous scientific discovery. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# 加速磁気共鳴イメージングのための量子ニューラルネットワーク
Quantum Neural Network for Accelerated Magnetic Resonance Imaging ( http://arxiv.org/abs/2410.09406v1 ) ライセンス: Link先を確認 | Shuo Zhou, Yihang Zhou, Congcong Liu, Yanjie Zhu, Hairong Zheng, Dong Liang, Haifeng Wang, | (参考訳) アンサンプされたk空間データから始まる磁気共鳴画像再構成は、多くの潜在的な非線形特徴の回復を必要とするが、アルゴリズムがこれらの特徴を復元するのは非常に困難である。
近年、量子コンピューティングの発展により、量子畳み込みによってネットワークの精度が向上することが判明している。
本稿では、高速磁気共鳴イメージングのための量子および古典的ネットワークを含むハイブリッドニューラルネットワークを提案し、量子コンピュータシミュレーションシステムで実験を行う。
実験結果から, ハイブリット・ネットワークは優れた再構成結果を得たことが示唆され, 高速磁気共鳴イメージングの画像再構成におけるハイブリッド量子古典ニューラルネットワークの適用可能性が確認された。
Magnetic resonance image reconstruction starting from undersampled k-space data requires the recovery of many potential nonlinear features, which is very difficult for algorithms to recover these features. In recent years, the development of quantum computing has discovered that quantum convolution can improve network accuracy, possibly due to potential quantum advantages. This article proposes a hybrid neural network containing quantum and classical networks for fast magnetic resonance imaging, and conducts experiments on a quantum computer simulation system. The experimental results indicate that the hybrid network has achieved excellent reconstruction results, and also confirm the feasibility of applying hybrid quantum-classical neural networks into the image reconstruction of rapid magnetic resonance imaging. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# CAMPHOR:デバイス上での多入力計画と高次推論のための協調エージェント
CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device ( http://arxiv.org/abs/2410.09407v1 ) ライセンス: Link先を確認 | Yicheng Fu, Raviteja Anantha, Jianpeng Cheng, | (参考訳) サーバサイドのLarge Language Models(LLM)は関数呼び出しや複雑な推論の習熟度を示すが、SLM(Small Language Models)を直接デバイスにデプロイすることで、レイテンシとプライバシを改善するだけでなく、正確性とメモリに関するユニークな課題も持ち込む。
CAMPHORは、複数のユーザ入力を処理し、パーソナルコンテキストをローカルに処理し、プライバシの維持を保証するために設計された、革新的なデバイス上でのマルチエージェントフレームワークである。
CAMPHORは階層的アーキテクチャを採用しており、高階推論エージェントは複雑なタスクを分解し、個人のコンテキスト検索、ツールインタラクション、動的プラン生成に責任を持つ専門家エージェントを調整する。
エージェント間でパラメータ共有を実装し、即時圧縮を活用することにより、モデルサイズ、レイテンシ、メモリ使用量を大幅に削減する。
提案手法の有効性を検証するために,個人化されたモバイルアシスタントのユースケースを中心としたマルチエージェントタスクトラジェクトリをキャプチャする新しいデータセットを提案する。
実験の結果,細調整されたSLMエージェントがタスク補完F1のクローズドソースLLMを超えるだけでなく,サーバデバイス通信の必要性も排除し,プライバシの向上を実現していることがわかった。
While server-side Large Language Models (LLMs) demonstrate proficiency in function calling and complex reasoning, deploying Small Language Models (SLMs) directly on devices brings opportunities to improve latency and privacy but also introduces unique challenges for accuracy and memory. We introduce CAMPHOR, an innovative on-device SLM multi-agent framework designed to handle multiple user inputs and reason over personal context locally, ensuring privacy is maintained. CAMPHOR employs a hierarchical architecture where a high-order reasoning agent decomposes complex tasks and coordinates expert agents responsible for personal context retrieval, tool interaction, and dynamic plan generation. By implementing parameter sharing across agents and leveraging prompt compression, we significantly reduce model size, latency, and memory usage. To validate our approach, we present a novel dataset capturing multi-agent task trajectories centered on personalized mobile assistant use-cases. Our experiments reveal that fine-tuned SLM agents not only surpass closed-source LLMs in task completion F1 by~35\% but also eliminate the need for server-device communication, all while enhancing privacy. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# C-Adapter: 効率的な等角予測集合に対する深部分類器の適応
C-Adapter: Adapting Deep Classifiers for Efficient Conformal Prediction Sets ( http://arxiv.org/abs/2410.09408v1 ) ライセンス: Link先を確認 | Kangdao Liu, Hao Zeng, Jianguo Huang, Huiping Zhuang, Chi-Man Vong, Hongxin Wei, | (参考訳) コンフォーマル予測は、新しい不確実な定量化技術として、訓練された分類器の出力に対するポストホック処理として機能する。
分類器を最大予測効率に最適化するために、コンフォーマルトレーニングは、特定のエラー率における平均予測セットサイズを最小化する正規化によりトレーニング目標を修正する。
しかし、正規化項は必然的に分類精度を低下させ、共形予測器の最適下限効率をもたらす。
この問題に対処するために, 精度を犠牲にすることなく共形予測器の効率を向上させるアダプタベースのチューニング手法である \textbf{Conformal Adapter} (C-Adapter) を導入する。
特に,このアダプタを順序保存関数のクラスとして実装し,非整合性スコアの正当性とランダムに一致したデータラベルペア間の識別性を最大化できるような損失に調整する。
C-Adapterを用いて、モデルは非常に高い非整合性スコアを不正ラベルに対して生成する傾向にあり、それによって異なるカバレッジレートでの予測セットの効率が向上する。
大規模な実験により、C-Adapterは効率的な予測セットに様々な分類器を効果的に適応し、コンフォメーショントレーニング法を強化することができることが示された。
Conformal prediction, as an emerging uncertainty quantification technique, typically functions as post-hoc processing for the outputs of trained classifiers. To optimize the classifier for maximum predictive efficiency, Conformal Training rectifies the training objective with a regularization that minimizes the average prediction set size at a specific error rate. However, the regularization term inevitably deteriorates the classification accuracy and leads to suboptimal efficiency of conformal predictors. To address this issue, we introduce \textbf{Conformal Adapter} (C-Adapter), an adapter-based tuning method to enhance the efficiency of conformal predictors without sacrificing accuracy. In particular, we implement the adapter as a class of intra order-preserving functions and tune it with our proposed loss that maximizes the discriminability of non-conformity scores between correctly and randomly matched data-label pairs. Using C-Adapter, the model tends to produce extremely high non-conformity scores for incorrect labels, thereby enhancing the efficiency of prediction sets across different coverage rates. Extensive experiments demonstrate that C-Adapter can effectively adapt various classifiers for efficient prediction sets, as well as enhance the conformal training method. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# 分布を考慮したノイズラベルき裂分離
Distribution-aware Noisy-label Crack Segmentation ( http://arxiv.org/abs/2410.09409v1 ) ライセンス: Link先を確認 | Xiaoyan Jiang, Xinlong Wan, Kaiying Zhu, Xihe Qiu, Zhijun Fang, | (参考訳) 道路ひび割れのセグメンテーションは、道路インフラの検査、整備、監視を行うロボットシステムにとって重要である。
既存のディープラーニングベースのクラックセグメンテーションの方法は、通常、特定のデータセットでトレーニングされる。
そこで本研究では,Segment Anything Model(SAM)の一般的な知識をひび割れセグメンテーションに組み込んだSAM-Adapterを提案する。
しかし,SAM-Adapterの有効性は,咬合やひび割れの誤ラベルなど,小規模なトレーニングセットにおいてノイズラベルによって制約される。
本稿では,SAM-Adapterの識別学習プロセスを導くために,分布認識ドメイン固有の意味知識を活用する,革新的な共同学習フレームワークを提案する。
我々の知る限り、これはSAM-Adapterの教師付き学習に対するノイズラベルの悪影響を効果的に最小化する最初のアプローチである。
2つの公共舗装クラックセグメンテーションデータセットによる実験結果から,本手法が既存の最先端技術よりも優れていたことが確認された。
さらに, 完全に見えないCFDデータセットの評価は, クラックセグメンテーションの実用化の可能性を示すとともに, モデルの高クロスドメイン一般化能力を示すものである。
Road crack segmentation is critical for robotic systems tasked with the inspection, maintenance, and monitoring of road infrastructures. Existing deep learning-based methods for crack segmentation are typically trained on specific datasets, which can lead to significant performance degradation when applied to unseen real-world scenarios. To address this, we introduce the SAM-Adapter, which incorporates the general knowledge of the Segment Anything Model (SAM) into crack segmentation, demonstrating enhanced performance and generalization capabilities. However, the effectiveness of the SAM-Adapter is constrained by noisy labels within small-scale training sets, including omissions and mislabeling of cracks. In this paper, we present an innovative joint learning framework that utilizes distribution-aware domain-specific semantic knowledge to guide the discriminative learning process of the SAM-Adapter. To our knowledge, this is the first approach that effectively minimizes the adverse effects of noisy labels on the supervised learning of the SAM-Adapter. Our experimental results on two public pavement crack segmentation datasets confirm that our method significantly outperforms existing state-of-the-art techniques. Furthermore, evaluations on the completely unseen CFD dataset demonstrate the high cross-domain generalization capability of our model, underscoring its potential for practical applications in crack segmentation. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# 実例がインテクスト学習に及ぼす影響--理論的ケーススタディ
Towards the Effect of Examples on In-Context Learning: A Theoretical Case Study ( http://arxiv.org/abs/2410.09411v1 ) ライセンス: Link先を確認 | Pengfei He, Yingqian Cui, Han Xu, Hui Liu, Makoto Yamada, Jiliang Tang, Yue Xing, | (参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)がダウンストリームタスクに適応するための強力な機能として、いくつかの例(デモ)を活用することで登場した。
有効性にもかかわらず、ICLの背後にあるメカニズムは未解明のままである。
ICLが事前学習中に学習した知識(事前学習知識)と実例をどのように統合するか、また、実例がICLにどう影響するかをよりよく理解するために、二分分類タスクの理論的研究を行う。
特に,ガウス混合モデルから拡張した確率モデルを導入し,事前学習知識,ラベル周波数,ラベルノイズが予測精度に与える影響を正確に定量化する。
我々の分析から,事前学習知識が実例の知識と矛盾する場合,ICL予測が事前学習知識に依存しているか,実例が実例数に依存しているかが示唆された。
さらに,実例のラベル周波数とラベルノイズがICL予測の精度に影響を及ぼし,マイナークラスが低い精度でラベルノイズが精度に与える影響は,2種類の特定のノイズレベルによって決定される。
理論結果の正当性を検証するために大規模なシミュレーションが行われ、実データ実験も理論的な洞察と一致している。
我々の研究は、ICLにおける事前学習の知識と実例の役割を明らかにし、分類タスクにおけるLLMの振る舞いをより深く理解する。
In-context learning (ICL) has emerged as a powerful capability for large language models (LLMs) to adapt to downstream tasks by leveraging a few (demonstration) examples. Despite its effectiveness, the mechanism behind ICL remains underexplored. To better understand how ICL integrates the examples with the knowledge learned by the LLM during pre-training (i.e., pre-training knowledge) and how the examples impact ICL, this paper conducts a theoretical study in binary classification tasks. In particular, we introduce a probabilistic model extending from the Gaussian mixture model to exactly quantify the impact of pre-training knowledge, label frequency, and label noise on the prediction accuracy. Based on our analysis, when the pre-training knowledge contradicts the knowledge in the examples, whether ICL prediction relies more on the pre-training knowledge or the examples depends on the number of examples. In addition, the label frequency and label noise of the examples both affect the accuracy of the ICL prediction, where the minor class has a lower accuracy, and how the label noise impacts the accuracy is determined by the specific noise level of the two classes. Extensive simulations are conducted to verify the correctness of the theoretical results, and real-data experiments also align with the theoretical insights. Our work reveals the role of pre-training knowledge and examples in ICL, offering a deeper understanding of LLMs' behaviors in classification tasks. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# FB-Bench: LLMの人間フィードバックに対する応答性評価のための微粒化マルチタスクベンチマーク
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback ( http://arxiv.org/abs/2410.09412v1 ) ライセンス: Link先を確認 | Youquan Li, Miao Zheng, Fan Yang, Guosheng Dong, Bin Cui, Weipeng Chen, Zenan Zhou, Wentao Zhang, | (参考訳) 人間のフィードバックは、人間と大規模言語モデル(LLM)の相互作用において不可欠である。
しかし、既存の研究は主にシングルターン対話におけるLCMのベンチマークに焦点を当てている。
マルチターン対話用に設計されたベンチマークであっても、ユーザ入力はしばしば独立しており、実際の使用シナリオにおける人間のフィードバックの微妙で複雑な性質を無視している。
この研究ギャップを埋めるために、実世界のシナリオにおけるLLMの人間のフィードバックに対する応答性を評価するために設計された、きめ細かいマルチタスクベンチマークであるFB-Benchを紹介する。
2つの主要な相互作用シナリオから、FB-Benchは、734の精巧にキュレートされたサンプルからなり、8つのタスクタイプ、5つの応答タイプ、9つのフィードバックタイプを含んでいる。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
さらなる分析は、タスク、人間のフィードバック、以前の応答の欠如がLLMの応答性に大きな影響を及ぼすことを示している。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
FB-Benchのツールキットとデータセットはhttps://github.com/PKU-Baichuan-MLSystemLab/FB-Benchで入手できる。
Human feedback is crucial in the interactions between humans and Large Language Models (LLMs). However, existing research primarily focuses on benchmarking LLMs in single-turn dialogues. Even in benchmarks designed for multi-turn dialogues, the user inputs are often independent, neglecting the nuanced and complex nature of human feedback within real-world usage scenarios. To fill this research gap, we introduce FB-Bench, a fine-grained, multi-task benchmark designed to evaluate LLMs' responsiveness to human feedback in real-world usage scenarios. Drawing from the two main interaction scenarios, FB-Bench comprises 734 meticulously curated samples, encompassing eight task types, five deficiency types of response, and nine feedback types. We extensively evaluate a broad array of popular LLMs, revealing significant variations in their performance across different interaction scenarios. Further analysis indicates that task, human feedback, and deficiencies of previous responses can also significantly impact LLMs' responsiveness. Our findings underscore both the strengths and limitations of current models, providing valuable insights and directions for future research. Both the toolkits and the dataset of FB-Bench are available at https://github.com/PKU-Baichuan-MLSystemLab/FB-Bench. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# ボゾン量子気体中の不純物とポーラロン--最近の進歩を振り返って
Impurities and polarons in bosonic quantum gases: a review on recent progress ( http://arxiv.org/abs/2410.09413v1 ) ライセンス: Link先を確認 | F. Grusdt, N. Mostaan, E. Demler, Luis A. Peña Ardila, | (参考訳) このレビューでは、ボゾン量子ガスに不純物が浸漬されたときに生じるボースポラロンの場について記述する。
後者は超低温原子のボース・アインシュタイン凝縮(BEC)や半導体中のエキシトン偏光子によって実現され、フェシュバッハ共鳴の種間近傍でのボース・ポーラロンの一連の実験的な観察に繋がった。
このトピックの紹介に続いて、その歴史的ルーツとボース・ポーラロン・ハミルトンのプレゼンテーションに言及し、最先端の実験を要約する。
次に、弱いカップリングに適用されるユビキタス Fr\"ohlich Hamiltonian から始まるポーラロンモデルについて詳細な議論を行う。
我々は、強く相互作用するボース・ポーラロン問題を解くために用いられる並行理論の手法を調査する。
その後のセクションでは、超低温原子実験で得られた電波周波数(RF)スペクトルとの詳細な比較、原子混合物中のフェシュバッハ共鳴に伴う普遍的な小天体とエフィモフ状態の研究、平衡状態の量子力学とポーラロンの研究、低次元でのボースポーラロンの研究、ポーラロンとバイポーラロン生成の誘導相互作用、非ゼロ温度でのボースポーラロンの研究など、ボースポーラロンの強い結合を調査する大規模な研究に費やされている。
我々は、イオン不純物、強い光-物質相互作用を持つ系、ボース・ポーラロンの概念のバリエーションと拡張、例えば、トポロジカル秩序を持つ浴場、あるいは相関電子に関連する強い相互作用を含む、密接に関連する実験装置とシステムに関する詳細な議論によって、レビューを終了する。
最後に、将来の研究の方向性と、この分野全体でのオープンな質問を強調した展望が提示される。
This review describes the field of Bose polarons, arising when mobile impurities are immersed into a bosonic quantum gas. The latter can be realized by a Bose-Einstein condensate (BEC) of ultracold atoms, or of exciton polaritons in a semiconductor, which has led to a series of experimental observations of Bose polarons near inter-species Feshbach resonances that we survey. Following an introduction to the topic, with references to its historic roots and a presentation of the Bose polaron Hamiltonian, we summarize state-of-the-art experiments. Next we provide a detailed discussion of polaron models, starting from the ubiquitous Fr\"ohlich Hamiltonian that applies at weak couplings. We proceed by a survey of concurrent theoretical methods used for solving strongly interacting Bose polaron problems. The subsequent sections are devoted to the large bodies of work investigating strong coupling Bose polarons, including detailed comparisons with radio-frequency (RF) spectra obtained in ultracold atom experiments; to investigations of universal few-body and Efimov states associated with a Feshbach resonance in atomic mixtures; to studies of quantum dynamics and polarons out of equilibrium; Bose polarons in low-dimensional; induced interactions among polarons and bipolaron formation; and to Bose polarons at non-zero temperatures. We end our review by detailed discussions of closely related experimental setups and systems, including ionic impurities, systems with strong light-matter interactions, and variations and extensions of the Bose polaron concepts e.g. to baths with topological order or strong interactions relevant for correlated electrons. Finally, an outlook is presented, highlighting possible future research directions and open questions in the field as a whole. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# 大規模言語モデルによる単体テスト生成を用いたFastjson2におけるバグ検出の高速化
Advancing Bug Detection in Fastjson2 with Large Language Models Driven Unit Test Generation ( http://arxiv.org/abs/2410.09414v1 ) ライセンス: Link先を確認 | Zhiyuan Zhong, Sinan Wang, Hailong Wang, Shaojin Wen, Hao Guan, Yida Tao, Yepang Liu, | (参考訳) データシリアライズライブラリはソフトウェア開発において必須のツールであり、プログラマブルなデータ構造とデータ永続化フォーマットの変換に責任がある。
その中でもJSONは、さまざまなシステムとプログラミング言語間でデータを交換する最も一般的な選択肢であり、JSONライブラリは、このタスクのプログラミングツールキットとして機能します。
広く使われているにもかかわらず、JSONライブラリのバグはデータ不整合やセキュリティ脆弱性などの深刻な問題を引き起こす可能性がある。
ユニットテスト生成技術は、様々なライブラリのバグを特定するために広く採用されている。
しかし、業界では、特にJSONライブラリ内のバグを公開するための体系的なテストの取り組みが制限されている。
本稿では,大規模な言語モデル(LLM)を活用して,Alibabaから人気のオープンソースJSONライブラリであるfastjson2のユニットテストを生成するアプローチであるJSONTestGenを提案する。
数十億のオープンソーステキストとコードコーパスに基づいて事前訓練されたLLMは、プログラミングタスクにおいて顕著な能力を示した。
歴史的バグトリガリング単体テストに基づいて、JSONドメイン固有の突然変異ルールを組み込むことで、LSMを使用してより多様なテストケースを生成する。
潜在的なバグを系統的かつ効率的に識別するために、生成した単体テストの結果に差分テストを採用する。
評価の結果,JSONTestGenは未知の欠陥検出において既存のテスト生成ツールよりも優れていることがわかった。
JSONTestGenでは、Fastjson2で34の本当のバグを発見しました。
手動検査では, LLM 生成テストは, 特に自己矛盾性アサーションで誤認する可能性があるが, LLM が偽陽性テスト失敗を分類する可能性を実証する。
これは、将来テストオラクルの自動化を改善するための有望な方向性を示唆している。
Data-serialization libraries are essential tools in software development, responsible for converting between programmable data structures and data persistence formats. Among them, JSON is the most popular choice for exchanging data between different systems and programming languages, while JSON libraries serve as the programming toolkit for this task. Despite their widespread use, bugs in JSON libraries can cause severe issues such as data inconsistencies and security vulnerabilities. Unit test generation techniques are widely adopted to identify bugs in various libraries. However, there is limited systematic testing effort specifically for exposing bugs within JSON libraries in industrial practice. In this paper, we propose JSONTestGen, an approach leveraging large language models (LLMs) to generate unit tests for fastjson2, a popular open source JSON library from Alibaba. Pre-trained on billions of open-source text and code corpora, LLMs have demonstrated remarkable abilities in programming tasks. Based on historical bug-triggering unit tests, we utilize LLMs to generate more diverse test cases by incorporating JSON domain-specific mutation rules. To systematically and efficiently identify potential bugs, we adopt differential testing on the results of the generated unit tests. Our evaluation shows that JSONTestGen outperforms existing test generation tools in unknown defect detection. With JSONTestGen, we found 34 real bugs in fastjson2, 30 of which have already been fixed, including 12 non-crashing bugs. While manual inspection reveals that LLM-generated tests can be erroneous, particularly with self-contradictory assertions, we demonstrate that LLMs have the potential for classifying false-positive test failures. This suggests a promising direction for improved test oracle automation in the future. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# 視覚言語モデルが人間のアノテーションを置き換える:CelebAデータセットを用いたケーススタディ
Can Vision-Language Models Replace Human Annotators: A Case Study with CelebA Dataset ( http://arxiv.org/abs/2410.09416v1 ) ライセンス: Link先を確認 | Haoming Lu, Feifei Zhong, | (参考訳) 本研究では,画像データアノテーションにおける視覚言語モデル(VLM)の有効性を,手動アノテーションに対する品質と費用対効果の観点から,CelebAデータセット上での性能を比較することによって評価する。
1000 CelebA画像上の最先端のLLaVA-NeXTモデルからのアノテーションは、オリジナルの人間のアノテーションと79.5%の一致である。
不一致事例の再注釈を多数決に組み込むことで、AIアノテーションの一貫性が89.1%に向上し、より客観的なラベルがさらに高くなる。
コストアセスメントは、CelebAデータセットにおける手動アノテーションのコストの1%未満である従来の手動メソッドと比較して、AIアノテーションが費用を大幅に削減することを示している。
これらの知見は、VLMが特定のアノテーションタスクの実用的で費用効果の高い代替手段となる可能性を支持し、大規模手動データアノテーションに関連する金銭的負担と倫理的懸念の軽減を図っている。
この研究で使用されるAIアノテーションと再アノテーションはhttps://github.com/evev2024/EVEV2024_CelebAで公開されている。
This study evaluates the capability of Vision-Language Models (VLMs) in image data annotation by comparing their performance on the CelebA dataset in terms of quality and cost-effectiveness against manual annotation. Annotations from the state-of-the-art LLaVA-NeXT model on 1000 CelebA images are in 79.5% agreement with the original human annotations. Incorporating re-annotations of disagreed cases into a majority vote boosts AI annotation consistency to 89.1% and even higher for more objective labels. Cost assessments demonstrate that AI annotation significantly reduces expenditures compared to traditional manual methods -- representing less than 1% of the costs for manual annotation in the CelebA dataset. These findings support the potential of VLMs as a viable, cost-effective alternative for specific annotation tasks, reducing both financial burden and ethical concerns associated with large-scale manual data annotation. The AI annotations and re-annotations utilized in this study are available on https://github.com/evev2024/EVEV2024_CelebA. | 翻訳日:2024-10-30 14:34:09 公開日:2024-10-12 |
# 進化領域における微分弾性のためのニューラルネットワーク統合有限要素
Neurally Integrated Finite Elements for Differentiable Elasticity on Evolving Domains ( http://arxiv.org/abs/2410.09417v1 ) ライセンス: Link先を確認 | Gilles Daviet, Tianchang Shen, Nicholas Sharp, David I. W. Levin, | (参考訳) 本稿では,進化的暗黙関数として定義された領域に対する弾性シミュレータについて述べる。
このシミュレータは、3次元再構成の応用によって動機付けられており、観察された画像から暗黙の関数として幾何を復元することはますます効果的である。
私たちの重要な技術的革新は、暗黙の格子セル上で堅牢な数値積分のために、二次的な点に適合するように、小さなニューラルネットワークをトレーニングすることです。
混合有限要素の定式化と組み合わせると、基礎となる暗示面の進化とその弾性応答を繋ぐ滑らかで完全に微分可能なシミュレーションモデルが得られる。
提案手法は, 暗黙の前方シミュレーション, 編集中の3次元形状の直接シミュレーション, 物理に基づく新しい形状とトポロジーの最適化と, 微分可能レンダリングの併用における有効性を示す。
We present an elastic simulator for domains defined as evolving implicit functions, which is efficient, robust, and differentiable with respect to both shape and material. This simulator is motivated by applications in 3D reconstruction: it is increasingly effective to recover geometry from observed images as implicit functions, but physical applications require accurately simulating and optimizing-for the behavior of such shapes under deformation, which has remained challenging. Our key technical innovation is to train a small neural network to fit quadrature points for robust numerical integration on implicit grid cells. When coupled with a Mixed Finite Element formulation, this yields a smooth, fully differentiable simulation model connecting the evolution of the underlying implicit surface to its elastic response. We demonstrate the efficacy of our approach on forward simulation of implicits, direct simulation of 3D shapes during editing, and novel physics-based shape and topology optimizations in conjunction with differentiable rendering. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# Beyond Exact Match: 大規模言語モデルによるイベント抽出を意味的に再評価する
Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models ( http://arxiv.org/abs/2410.09418v1 ) ライセンス: Link先を確認 | Yi-Fan Lu, Xian-Ling Mao, Tian Lan, Chen Xu, Heyan Huang, | (参考訳) イベント抽出は広範囲の応用により、広範囲の研究が注目されている。
しかし、イベント抽出の現在の主流評価手法はトークンレベルの正確な一致に依存しており、多くの意味レベルの正しいケースを誤認している。
この依存は、正確な一致基準の下で評価されたモデルの性能と実際の性能との間に大きな相違をもたらす。
この問題を解決するために,トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
具体的には,Large Language Models (LLMs) を自動評価エージェントとして活用し,トリガと引数の精度とリコールに対する解釈的かつ適応的な評価を実現するためのチェーン・オブ・シークレット・プロンプトと適応的なメカニズムを取り入れた。
1) RAEEは人間の平均値と非常に高い相関を達成し, (2) 高度なLCMを含む14のモデルを再評価した結果, RAEEとRAEEの精度差は顕著であった。
正確なマッチング評価は、既存のイベント抽出モデルの性能を著しく過小評価し、特にLLMの性能を過小評価する。
提案したRAEEの評価ツールキットを公開します。
Event extraction has gained extensive research attention due to its broad range of applications. However, the current mainstream evaluation method for event extraction relies on token-level exact match, which misjudges numerous semantic-level correct cases. This reliance leads to a significant discrepancy between the evaluated performance of models under exact match criteria and their real performance. To address this problem, we propose RAEE, an automatic evaluation framework that accurately assesses event extraction results at semantic-level instead of token-level. Specifically, RAEE leverages Large Language Models (LLMs) as automatic evaluation agents, incorporating chain-of-thought prompting and an adaptive mechanism to achieve interpretable and adaptive evaluations for precision and recall of triggers and arguments. Extensive experimental results demonstrate that: (1) RAEE achieves a very high correlation with the human average; (2) after reassessing 14 models, including advanced LLMs, on 10 datasets, there is a significant performance gap between exact match and RAEE. The exact match evaluation significantly underestimates the performance of existing event extraction models, particularly underestimating the capabilities of LLMs; (3) fine-grained analysis under RAEE evaluation reveals insightful phenomena worth further exploration. The evaluation toolkit of our proposed RAEE will be publicly released. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# FlatQuant: LLM量子化における平坦性
FlatQuant: Flatness Matters for LLM Quantization ( http://arxiv.org/abs/2410.09426v1 ) ライセンス: Link先を確認 | Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao, | (参考訳) 近年,大規模言語モデルの圧縮と加速に量子化が広く用いられている。
LLMの外れ値のため、等間隔の量子化点を持つ量子化誤差を最小限に抑えるために、重みとアクティベーションを平らにすることが重要である。
以前の研究では、チャネルごとのスケーリングやアダマール変換といった、外れ値を抑制するための様々な事前量子化変換が検討されていた。
しかし、これらの変化した重量と活性化はいまだに急勾配で拡散している可能性があることを観察する。
本稿では、重みとアクティベーションの平坦性を高めるための新しい学習後量子化手法であるFlatQuant(Fast and Learnable Affine Transformation)を提案する。
提案手法では, 線形層ごとに調整された最適アフィン変換を, 軽量な目的により数時間で調整する。
ランタイムオーバーヘッドを低減するため、変換行列にKronecker分解を適用し、FlatQuantのすべての操作を単一のカーネルに融合する。
大規模な実験は、FlatQuantが新しい最先端の量子化ベンチマークをセットアップしていることを示している。
例えば、LLaMA-3-70BモデルでW4A4量子化の精度低下を$\textbf{1}\%$で達成し、SpinQuantを$\textbf{7.5}\%$で上回る。
推論遅延について、FlatQuantはプリ量子化変換によって引き起こされる遅延をQuaRotの0.26xから単に$\textbf{0.07x}$に減らし、プリフィルの$\textbf{2.3x}$スピードアップと$\textbf{1.7x}$デコードのための$\textbf{1.7x}$スピードアップをもたらす。
コードは: \url{https://github.com/ruikangliu/FlatQuant}で入手できる。
Recently, quantization has been widely used for the compression and acceleration of large language models~(LLMs). Due to the outliers in LLMs, it is crucial to flatten weights and activations to minimize quantization error with the equally spaced quantization points. Prior research explores various pre-quantization transformations to suppress outliers, such as per-channel scaling and Hadamard transformation. However, we observe that these transformed weights and activations can still remain steep and outspread. In this paper, we propose FlatQuant (Fast and Learnable Affine Transformation), a new post-training quantization approach to enhance flatness of weights and activations. Our approach identifies optimal affine transformations tailored to each linear layer, calibrated in hours via a lightweight objective. To reduce runtime overhead, we apply Kronecker decomposition to the transformation matrices, and fuse all operations in FlatQuant into a single kernel. Extensive experiments show that FlatQuant sets up a new state-of-the-art quantization benchmark. For instance, it achieves less than $\textbf{1}\%$ accuracy drop for W4A4 quantization on the LLaMA-3-70B model, surpassing SpinQuant by $\textbf{7.5}\%$. For inference latency, FlatQuant reduces the slowdown induced by pre-quantization transformation from 0.26x of QuaRot to merely $\textbf{0.07x}$, bringing up to $\textbf{2.3x}$ speedup for prefill and $\textbf{1.7x}$ speedup for decoding, respectively. Code is available at: \url{https://github.com/ruikangliu/FlatQuant}. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# 視覚的質問応答データセットのための大規模言語モデルからの宣言的知識蒸留
Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets ( http://arxiv.org/abs/2410.09428v1 ) ライセンス: Link先を確認 | Thomas Eiter, Jan Hadl, Nelson Higuera, Johannes Oetsch, | (参考訳) VQA(Visual Question Answering)は、画像に関する質問に答えるタスクであり、その答えを得るためにはマルチモーダルな入力と推論を処理する必要がある。
推論コンポーネント内で宣言表現を使用するモジュール型ソリューションは、解釈可能性に関するエンドツーエンドのトレーニングシステムに対して明確な優位性を持つ。
欠点は、そのようなコンポーネントのルールを作成することは、開発者にとってさらに負担になる可能性があることです。
本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案することで,この問題に対処する。
本手法は,VQAタスクの要求を満たすために,解集合プログラムとして与えられるVQA推論の初期理論を拡張することを LLM に促すことである。
VQAデータセットの例は、LLMをガイドし、結果を検証するために使用され、ASPソルバからのフィードバックを使用して、それが正しくない場合のルールを強制する。
当社のアプローチは,CLEVRとGQAのデータセット上で有効であることを示す。
以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
Visual Question Answering (VQA) is the task of answering a question about an image and requires processing multimodal input and reasoning to obtain the answer. Modular solutions that use declarative representations within the reasoning component have a clear advantage over end-to-end trained systems regarding interpretability. The downside is that crafting the rules for such a component can be an additional burden on the developer. We address this challenge by presenting an approach for declarative knowledge distillation from Large Language Models (LLMs). Our method is to prompt an LLM to extend an initial theory on VQA reasoning, given as an answer-set program, to meet the requirements of the VQA task. Examples from the VQA dataset are used to guide the LLM, validate the results, and mend rules if they are not correct by using feedback from the ASP solver. We demonstrate that our approach works on the prominent CLEVR and GQA datasets. Our results confirm that distilling knowledge from LLMs is in fact a promising direction besides data-driven rule learning approaches. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# ファウンデーションモデルのフェデレーションと効率的な微調整のための厳密な集約
Exact Aggregation for Federated and Efficient Fine-Tuning of Foundation Models ( http://arxiv.org/abs/2410.09432v1 ) ライセンス: Link先を確認 | Raghav Singhal, Kaustubh Ponkshe, Praneeth Vepakomma, | (参考訳) Low-Rank Adaptation (LoRA) は基礎モデルの効率的な微調整技術として人気がある。
しかし、複数のクライアントに分散するフェデレーション学習環境におけるLoRAの適用には、ユニークな課題がある。
既存の手法は従来のLoRAアダプタのフェデレーション平均化に依存しており、不正確な更新をもたらす。
この問題に対処するため,Federated Exact LoRA(FedEx-LoRA)を提案する。
提案手法は,LoRAの効率を保ちながら,計算と通信のオーバーヘッドを最小限に抑えた正確な更新を実現する。
本研究では,様々な自然言語理解(NLU)タスクと自然言語生成(NLG)タスクについて評価し,複数の設定にまたがる最先端手法よりも一貫した性能向上を示す。
広範な分析を通じて、理想的な解からの更新のずれが重要であり、正確な集計の必要性が強調される。
提案手法の簡易性,効率性,広範囲な適用性は,基礎モデルの高精度かつ効果的なフェデレーションファインタニングのための有望なソリューションとして位置づける。
Low-Rank Adaptation (LoRA) is a popular technique for efficient fine-tuning of foundation models. However, applying LoRA in federated learning environments, where data is distributed across multiple clients, presents unique challenges. Existing methods rely on traditional federated averaging of LoRA adapters, resulting in inexact updates. To address this, we propose Federated Exact LoRA, or FedEx-LoRA, which adds a residual error term to the pretrained frozen weight matrix. Our approach achieves exact updates with minimal computational and communication overhead, preserving LoRA's efficiency. We evaluate the method on various Natural Language Understanding (NLU) and Natural Language Generation (NLG) tasks, showing consistent performance gains over state-of-the-art methods across multiple settings. Through extensive analysis, we quantify that the deviations in updates from the ideal solution are significant, highlighting the need for exact aggregation. Our method's simplicity, efficiency, and broad applicability position it as a promising solution for accurate and effective federated fine-tuning of foundation models. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# 視覚SLAMとセマンティックセグメンテーションを用いた空間平均放射温度マッピングフレームワーク
An Expeditious Spatial Mean Radiant Temperature Mapping Framework using Visual SLAM and Semantic Segmentation ( http://arxiv.org/abs/2410.09443v1 ) ライセンス: Link先を確認 | Wei Liang, Yiting Zhang, Ji Zhang, Erica Cochran Hameen, | (参考訳) 建築環境における個人の幸福と生産性のためには、熱的快適さの確保が不可欠である。
種々の熱的快適度指標のうち、平均放射温度(MRT)は測定が非常に困難である。
ほとんどの一般的な測定手法は時間を要するが、ユーザフレンドリーではない。
そこで本研究では,視覚的局所化とマッピング(SLAM)とセマンティックセグメンテーション技術を用いた新しいMRT計測フレームワークを提案する。
提案手法は、表面温度とビューファクターを用いた従来のMRT計算法の親指規則に従う。
しかし、視界SLAMを使用し、表面温度情報に富んだ3次元熱点雲を生成する。
このフレームワークは、新しいオブジェクト検出とセグメンテーションツールであるGrounded SAMを実装し、建物表面の異なる温度プロファイルを持つ特徴を抽出する。
熱的特徴の詳細なセグメンテーションは,MRT計算における潜在的な誤差を低減させるだけでなく,室内環境における空間的MRT分布の効率的な再構成も提供する。
また,基準測定手法を用いて計算結果を検証した。
このデータ駆動フレームワークは、従来の手法よりも高速で効率的なMRT測定と空間マッピングを提供する。
MRT測定における研究者や実践者の直接的な関与を可能にし、熱快適性や放射能冷却・加熱システムの研究に貢献することができる。
Ensuring thermal comfort is essential for the well-being and productivity of individuals in built environments. Of the various thermal comfort indicators, the mean radiant temperature (MRT) is very challenging to measure. Most common measurement methodologies are time-consuming and not user-friendly. To address this issue, this paper proposes a novel MRT measurement framework that uses visual simultaneous localization and mapping (SLAM) and semantic segmentation techniques. The proposed approach follows the rule of thumb of the traditional MRT calculation method using surface temperature and view factors. However, it employs visual SLAM and creates a 3D thermal point cloud with enriched surface temperature information. The framework then implements Grounded SAM, a new object detection and segmentation tool to extract features with distinct temperature profiles on building surfaces. The detailed segmentation of thermal features not only reduces potential errors in the calculation of the MRT but also provides an efficient reconstruction of the spatial MRT distribution in the indoor environment. We also validate the calculation results with the reference measurement methodology. This data-driven framework offers faster and more efficient MRT measurements and spatial mapping than conventional methods. It can enable the direct engagement of researchers and practitioners in MRT measurements and contribute to research on thermal comfort and radiant cooling and heating systems. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# GreenBenデータ拡張に基づく糖尿病網膜症画像分類法
Diabetic retinopathy image classification method based on GreenBen data augmentation ( http://arxiv.org/abs/2410.09444v1 ) ライセンス: Link先を確認 | Yutong Liu, Jie Gao, Haijiang Zhu, | (参考訳) 糖尿病網膜症(DR)画像の診断のために,人工知能を用いた分類法を提案する。
このコアは、網膜画像からグリーンチャネルのグレースケール画像を抽出し、次にベンエンハンスメントを実行する、新しいデータ拡張手法であるGreenBenに組み込まれている。
糖尿病黄斑浮腫(DME)はDRと密接に関連する合併症であると考え,多タスク学習と注意モジュールに基づくDRとDMEの複合分類フレームワークを構築し,GlobalBenを用いてDR画像の違いを低減し,モデル分類の精度を向上させる。
公開されている3つのデータセットについて広範囲に実験を行い,本手法が最適な結果を得た。
グリーンベンでは、ResNet50ネットワークやSwin Transformerネットワークをベースとして、個々の分類や共同DME分類を他のデータ拡張手法と比較して、グリーンベンはDR分類結果の安定性と大幅な改善を達成し、精度は10%向上した。
For the diagnosis of diabetes retinopathy (DR) images, this paper proposes a classification method based on artificial intelligence. The core lies in a new data augmentation method, GreenBen, which first extracts the green channel grayscale image from the retinal image and then performs Ben enhancement. Considering that diabetes macular edema (DME) is a complication closely related to DR, this paper constructs a joint classification framework of DR and DME based on multi task learning and attention module, and uses GreenBen to enhance its data to reduce the difference of DR images and improve the accuracy of model classification. We conducted extensive experiments on three publicly available datasets, and our method achieved the best results. For GreenBen, whether based on the ResNet50 network or the Swin Transformer network, whether for individual classification or joint DME classification, compared with other data augmentation methods, GreenBen achieved stable and significant improvements in DR classification results, with an accuracy increase of 10%. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# 課題を解決しない課題セットの解決--固有基準の検証としてのウィノグラード・スキーマについて
Solving the Challenge Set without Solving the Task: On Winograd Schemas as a Test of Pronominal Coreference Resolution ( http://arxiv.org/abs/2410.09448v1 ) ライセンス: Link先を確認 | Ian Porada, Jackie Chi Kit Cheung, | (参考訳) Winograd Schema Challenge (WSC)のようなチャレンジセットは、自然言語の曖昧さを解決するシステムの能力をベンチマークするために使用される。
与えられた課題セットの解決が、より一般的なタスクの解決と同じくらい難しいと仮定した場合、課題セットのハイパフォーマンスは、全体的なタスクにおけるハイパフォーマンスを示すべきである。
しかし、この困難という仮定が常に成り立つとは限らないことを実証的に示している。
特に,WSCの言語モデル(LM)の性能は高いが,これらのモデリング手法は,OntoNotesや関連するデータセットで証明された特定の固有曖昧性を解決するのに,比較的不十分であることを示す。
これらの知見に感化されて,本研究では,データセット間のプロノミナルコアスを解く上で,全体的な精度が向上した,教師付きタスク固有システムを用いて,誘導型LMをアンサンブルする方法を提案する。
最後に、同じ言語現象を含むデータセットは、異なる、しかし重複する、能力、評価のいずれかのデータセットだけでは、システム全体の能力の完全なイメージを提供していないことを強調する。
Challenge sets such as the Winograd Schema Challenge (WSC) are used to benchmark systems' ability to resolve ambiguities in natural language. If one assumes as in existing work that solving a given challenge set is at least as difficult as solving some more general task, then high performance on the challenge set should indicate high performance on the general task overall. However, we show empirically that this assumption of difficulty does not always hold. In particular, we demonstrate that despite the strong performance of prompted language models (LMs) on the WSC and its variants, these same modeling techniques perform relatively poorly at resolving certain pronominal ambiguities attested in OntoNotes and related datasets that are perceived to be easier. Motivated by these findings, we propose a method for ensembling a prompted LM with a supervised, task-specific system that is overall more accurate at resolving pronominal coreference across datasets. Finally, we emphasize that datasets involving the same linguistic phenomenon draw on distinct, but overlapping, capabilities, and evaluating on any one dataset alone does not provide a complete picture of a system's overall capability. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# 自己決定型連鎖推論による解釈可能なビデオベースストレス検出
Interpretable Video based Stress Detection with Self-Refine Chain-of-thought Reasoning ( http://arxiv.org/abs/2410.09449v1 ) ライセンス: Link先を確認 | Yi Dai, | (参考訳) ストレス検出は、健康モニタリングや介入システムに重要な意味を持つ重要な研究領域である。
本稿では, 自己決定連鎖推論を利用して, 意思決定過程における精度と透明性を向上させる, ビデオベースストレス検出のための新しい解釈可能なアプローチを提案する。
本手法は,ストレスレベルを示すビデオシーケンスから微妙な行動・生理的手がかりを抽出することに焦点を当てる。
連鎖推論機構を組み込むことで、システムは予測を反復的に洗練し、意思決定プロセスのトレースと説明を可能にする。
モデルはまた、フィードバックループを通じて自己定義を学び、時間の経過とともに推論能力を改善する。
我々は、従来のビデオベースストレス検出法と比較して、その優れた性能を示すために、いくつかのパブリックおよびプライベートなデータセットに対するアプローチを評価した。
さらに、モデルの予測の解釈可能性に関する総合的な洞察を提供し、医療分野と人間とコンピュータの相互作用領域の両方におけるアプリケーションに非常に価値の高いシステムを提供する。
Stress detection is a critical area of research with significant implications for health monitoring and intervention systems. In this paper, we propose a novel interpretable approach for video-based stress detection, leveraging self-refine chain-of-thought reasoning to enhance both accuracy and transparency in decision-making processes. Our method focuses on extracting subtle behavioral and physiological cues from video sequences that indicate stress levels. By incorporating a chain-of-thought reasoning mechanism, the system refines its predictions iteratively, ensuring that the decision-making process can be traced and explained. The model also learns to self-refine through feedback loops, improving its reasoning capabilities over time. We evaluate our approach on several public and private datasets, demonstrating its superior performance in comparison to traditional video-based stress detection methods. Additionally, we provide comprehensive insights into the interpretability of the model's predictions, making the system highly valuable for applications in both healthcare and human-computer interaction domains. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-12 |
# MMAD:産業異常検出における多モーダル大言語モデルの初回総合ベンチマーク
MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection ( http://arxiv.org/abs/2410.09453v1 ) ライセンス: Link先を確認 | Xi Jiang, Jian Li, Hanqiu Deng, Yong Liu, Bin-Bin Gao, Yifeng Zhou, Jialin Li, Chengjie Wang, Feng Zheng, | (参考訳) 産業検査の分野では、マルチモーダル大言語モデル(MLLM)は、堅牢な言語能力と一般化能力により、実用上のパラダイムを更新する可能性が高い。
しかし, MLLMの工業的異常検出能力は, 多くの領域において目覚ましい問題解決技術にもかかわらず, 体系的に研究されていない。
このギャップを埋めるために,産業異常検出における最初のフルスペクトルMLLMベンチマークであるMMADを提案する。
産業検査におけるMLLMの7つの重要なサブタスクを定義し,8,366の産業画像に対して,39,672問のMMADデータセットを生成する新しいパイプラインを設計した。
MMADを用いて,様々な最先端MLLMの包括的,定量的評価を行った。
GPT-4oモデルの平均精度は74.9%に達した。
しかし、この結果は工業的な要求には程遠い。
分析の結果,現在のMLLMには,産業上の異常や欠陥に関する疑問に答える上で,大きな改善の余地があることが判明した。
さらに、産業シナリオにおけるモデルの改善を支援するための2つのトレーニングフリーパフォーマンス向上戦略について検討し、今後の研究の可能性を明らかにする。
In the field of industrial inspection, Multimodal Large Language Models (MLLMs) have a high potential to renew the paradigms in practical applications due to their robust language capabilities and generalization abilities. However, despite their impressive problem-solving skills in many domains, MLLMs' ability in industrial anomaly detection has not been systematically studied. To bridge this gap, we present MMAD, the first-ever full-spectrum MLLMs benchmark in industrial Anomaly Detection. We defined seven key subtasks of MLLMs in industrial inspection and designed a novel pipeline to generate the MMAD dataset with 39,672 questions for 8,366 industrial images. With MMAD, we have conducted a comprehensive, quantitative evaluation of various state-of-the-art MLLMs. The commercial models performed the best, with the average accuracy of GPT-4o models reaching 74.9%. However, this result falls far short of industrial requirements. Our analysis reveals that current MLLMs still have significant room for improvement in answering questions related to industrial anomalies and defects. We further explore two training-free performance enhancement strategies to help models improve in industrial scenarios, highlighting their promising potential for future research. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# マルチモーダルLDMにおけるスキッピング計算
Skipping Computations in Multimodal LLMs ( http://arxiv.org/abs/2410.09454v1 ) ライセンス: Link先を確認 | Mustafa Shukor, Matthieu Cord, | (参考訳) 大規模言語モデル(LLM)は、テキストとマルチモーダルドメインの両方で顕著な成功を収めている。
しかし、この成功は、特にマルチモーダル入力の長いシーケンスを扱う場合、かなりの計算コストが伴うことが多い。
これにより、トレーニングや推論の効率向上に重点を置く多くの取り組みが引き起こされた。
本研究では,マルチモーダル言語モデル(MLLM)における推論時の計算冗長性について検討する。
ブロック全体,FFN層,自己注意層(SA層)をスキップするなど,計算をスキップするさまざまな手法を提案する。
さらに、FFNやSAといった特定のレイヤの並列化についても検討する。
その結果,(1)視覚質問応答 (VQA) などのタスクにおいて, 推論時に大量の計算を回避できることが確認された。
2) ブロックの半分をスキップしたり重量の70%を取り除いたりしても, トレーニング中のスキャッピング計算は元のパフォーマンスの97%を回復することができる。
あるいは、(3) より小さな LLM で適切にトレーニングすることで、LLM の 2 倍または 3 倍の性能が得られる。
結論として,LLaVA-1.5 などの最近の MLLM にも同様の観測結果が得られた。
本研究は,MLLMの内部に冗長計算が存在することを示し,性能を犠牲にすることなく,推論コストを大幅に改善する可能性を示した。
コードは、https://github.com/mshukor/ima-lmms.com/で入手できる。
Large Language Models (LLMs) have demonstrated remarkable success in both textual and multimodal domains. However, this success often comes with substantial computational costs, particularly when handling lengthy sequences of multimodal inputs. This has sparked many efforts focusing on enhancing efficiency during training and inference. In this study, we investigate the computation redundancy in Multimodal Large Language Models (MLLMs) during inference. We propose different methods to skip computations, such as skipping entire blocks, FFN or self-attention (SA) layers. Additionally, we explore parallelizing certain layers, such as FFN and SA layers. Our findings validate that (1) significant amount of computations can be avoided at inference time, especially for tasks such as Visual Question Answering (VQA). (2) Skipping computations during training can recover 97% of the original performance, even when skipping half of the blocks or removing 70% of the weights. Alternatively, (3) properly training with smaller LLMs can yield comparable performance to LLMs 2 or 3 times larger. To conclude, we extend our investigation to recent MLLMs, such as LLaVA-1.5, showing similar observations. Our work show that there is redundant computations inside MLLMs and thus the potential for significantly improving inference costs without sacrificing performance. The code is available here: https://github.com/mshukor/ima-lmms. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# VERITAS-NLI : 自動ストラップと自然言語推論による信頼性情報の検証と抽出
VERITAS-NLI : Validation and Extraction of Reliable Information Through Automated Scraping and Natural Language Inference ( http://arxiv.org/abs/2410.09455v1 ) ライセンス: Link先を確認 | Arjun Shah, Hetansh Shah, Vedica Bafna, Charmi Khandor, Sindhu Nair, | (参考訳) オンラインプラットフォームを通じて情報を急速に広める現代や時代において、フェイクニュースの台頭は、大衆の言論の完全性、社会的信頼、評判のニュースソースに対する脅威となる。
古典的な機械学習とトランスフォーマーベースのモデルは、偽ニュース検出のタスクのために広く研究されてきたが、トレーニングデータへの依存によって妨げられ、目に見えない見出しを一般化することができない。
これらの課題に対処するために,Webスクラッピング技術と自然言語推論(NLI)モデルを利用して,見出しの精度を検証するのに必要な外部知識を検索する新しい手法を提案する。
本システムは,複数のニュースチャンネルと広域ドメインにまたがる多種多様な自己計算評価データセットを用いて評価する。
我々の最高のパフォーマンスパイプラインは、最高の古典的機械学習モデルを上回る84.3%の精度を33.3%、トランスフォーマー(BERT)からの双方向エンコーダ表現を31.0%の精度で達成しています。
このことは、動的Webスクラッピングと自然言語推論を組み合わせることで、偽ニュース検出のタスクに対して、対応する外部検索された知識において、クレームの見出しに対するサポートを見つけることの有効性を強調している。
In today's day and age where information is rapidly spread through online platforms, the rise of fake news poses an alarming threat to the integrity of public discourse, societal trust, and reputed news sources. Classical machine learning and Transformer-based models have been extensively studied for the task of fake news detection, however they are hampered by their reliance on training data and are unable to generalize on unseen headlines. To address these challenges, we propose our novel solution, leveraging web-scraping techniques and Natural Language Inference (NLI) models to retrieve external knowledge necessary for verifying the accuracy of a headline. Our system is evaluated on a diverse self-curated evaluation dataset spanning over multiple news channels and broad domains. Our best performing pipeline achieves an accuracy of 84.3% surpassing the best classical Machine Learning model by 33.3% and Bidirectional Encoder Representations from Transformers (BERT) by 31.0% . This highlights the efficacy of combining dynamic web-scraping with Natural Language Inference to find support for a claimed headline in the corresponding externally retrieved knowledge for the task of fake news detection. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# BERTとCTC変換器による音声認識
Automatic Speech Recognition with BERT and CTC Transformers: A Review ( http://arxiv.org/abs/2410.09456v1 ) ライセンス: Link先を確認 | Noussaiba Djeffal, Hamza Kheddar, Djamel Addou, Ahmed Cherif Mazari, Yassine Himeur, | (参考訳) 本稿では,変換器BERTの双方向エンコーダ表現とコネクショニスト時間分類(CTC)変換器を用いた音声認識(ASR)の最近の進歩を包括的に分析する。
本稿はまず、ASRの基本概念を紹介し、それに関連する課題について論じる。
その後、BERTとCTC変換器のアーキテクチャと、ASRにおけるそれらの潜在的な応用について説明する。
本稿では,これらのモデルを音声認識タスクに用いたいくつかの研究をレビューし,得られた結果について考察する。
さらに,本論文では,これらのモデルの限界を強調し,今後の研究の可能性について概説する。
全体として、このレビューは、BERT と CTC トランスフォーマーで ASR に興味がある研究者や実践者に貴重な洞察を提供する。
This review paper provides a comprehensive analysis of recent advances in automatic speech recognition (ASR) with bidirectional encoder representations from transformers BERT and connectionist temporal classification (CTC) transformers. The paper first introduces the fundamental concepts of ASR and discusses the challenges associated with it. It then explains the architecture of BERT and CTC transformers and their potential applications in ASR. The paper reviews several studies that have used these models for speech recognition tasks and discusses the results obtained. Additionally, the paper highlights the limitations of these models and outlines potential areas for further research. All in all, this review provides valuable insights for researchers and practitioners who are interested in ASR with BERT and CTC transformers. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# Power-Softmax:暗号化データに対するセキュアLLM推論を目指して
Power-Softmax: Towards Secure LLM Inference over Encrypted Data ( http://arxiv.org/abs/2410.09457v1 ) ライセンス: Link先を確認 | Itamar Zimerman, Allon Adir, Ehud Aharoni, Matan Avitan, Moran Baruch, Nir Drucker, Jenny Lerner, Ramy Masalha, Reut Meiri, Omri Soceanu, | (参考訳) ホモモルフィック暗号化(HE)のようなプライバシー保護LLMを実装する現代の暗号法では、LLMには多項式形式が必要である。
このような表現を形成することは、TransformerにはSoftmaxやLayer normalizationのような非ポリノミカルなコンポーネントが含まれているため、難しい。
従来のアプローチでは、HEよりも効率が低い大次多項式を持つ事前学習されたモデルを直接近似するか、訓練前は非ポリノミカル成分をより容易で近似的なプリミティブ(例えば、ソフトマックス)に置き換えた。
後者のアプローチはスケーラビリティの課題をもたらすかもしれない。
我々は、訓練のための安定な形式を提供し、セキュアな推論のために多項式と近似し易い新しいHEフレンドリーな自己アテンションの変種を提案する。
本研究は,32層および10億以上のパラメータを持つ最初の多項式 LLM を導入し,従来のモデルのサイズを10倍以上にした。
結果として得られたモデルは、同じ大きさの標準トランスフォーマーに匹敵する推論とインコンテキスト学習(ICL)能力を示し、この分野におけるブレークスルーを表している。
最後に、暗号化されたデータに対する各計算の遅延分解の詳細を提供し、さらなる最適化の道を開き、HEフレンドリーな変種と標準変圧器に依存する変圧器間の帰納バイアスの違いについて検討する。
私たちのコードは補足として添付されています。
Modern cryptographic methods for implementing privacy-preserving LLMs such as Homomorphic Encryption (HE) require the LLMs to have a polynomial form. Forming such a representation is challenging because Transformers include non-polynomial components, such as Softmax and layer normalization. Previous approaches have either directly approximated pre-trained models with large-degree polynomials, which are less efficient over HE, or replaced non-polynomial components with easier-to-approximate primitives before training, e.g., Softmax with pointwise attention. The latter approach might introduce scalability challenges. We present a new HE-friendly variant of self-attention that offers a stable form for training and is easy to approximate with polynomials for secure inference. Our work introduces the first polynomial LLMs with 32 layers and over a billion parameters, exceeding the size of previous models by more than tenfold. The resulting models demonstrate reasoning and in-context learning (ICL) capabilities comparable to standard transformers of the same size, representing a breakthrough in the field. Finally, we provide a detailed latency breakdown for each computation over encrypted data, paving the way for further optimization, and explore the differences in inductive bias between transformers relying on our HE-friendly variant and standard transformers. Our code is attached as a supplement. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# トラップしたイオン結晶における光子相関のコヒーレント制御
Coherent Control of Photon Correlations in Trapped Ion Crystals ( http://arxiv.org/abs/2410.09465v1 ) ライセンス: Link先を確認 | K. Singh, A. Cidrim, A. Kovalenko, T. Pham, O. Číp, L. Slodička, R. Bachelard, | (参考訳) 独立放出体からの自然放出は、空間的に非相関な光子(量子ランダム性の典型的な表現)を提供するが、コヒーレント散乱の干渉は、線形光学によって記述される、明確に定義された強度パターンをもたらす。
ここでは、量子エミッタの大きな系における2つのメカニズム間の相互作用が、光子相関の空間的変化にどのように影響するかを実験的に示す。
固定されたイオン結晶を自由空間に実装することにより、最大18イオンの鎖における光子数分布の光子速度と分散の反相関を観測することができる。
4つのイオンの小さな結晶については、サブポアソニアンから散乱光における光子数の超ポアソニアン分散への遷移を報告する。
散乱器の数が増えると、光子統計は完全不整合散乱の場合と強い偏差を示す。
この結果から,コヒーレント散乱の干渉と自然放出が組み合わさり,光統計学の制御機構について考察した。
While the spontaneous emission from independent emitters provides spatially uncorrelated photons - a typical manifestation of quantum randomness, the interference of the coherent scattering leads to a well-defined intensity pattern - a feature described by linear optics. We here demonstrate experimentally how the interplay between the two mechanisms in large systems of quantum emitters leads to spatial variations of photon correlations. The implementation with trapped ion crystals in free space allows us to observe the anti-correlation between photon rates and variance of the photon number distributions in chains of up to 18 ions. For smaller crystals of four ions, the transition from a sub-Poissonian to a super-Poissonian variance of the photon number in the scattered light is reported. For higher numbers of scatterers, the photon statistics still display a strong deviation from the fully incoherent scattering case. Our results illustrate how the interference of coherent scattering, combined with spontaneous emission, provides a control mechanism for the light statistics. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# 双曲空間における強化学習:モデルと実験
Reinforcement Learning in Hyperbolic Spaces: Models and Experiments ( http://arxiv.org/abs/2410.09466v1 ) ライセンス: Link先を確認 | Vladimir Jaćimović, Zinaid Kapić, Aladin Crnkić, | (参考訳) エージェント(または2つのエージェント)が事前情報なしで未知の環境を探索しようとする5つの設定について検討する。
一見非常に異なるように見えるが、これらは全て双曲空間における強化学習(Reinforcement Learning, RL)問題として定式化することができる。
より正確には、作用空間に双曲計量を与えるのは自然である。
この種の問題に対処するために必要な統計モデルと力学モデルを導入し,この枠組みに基づくアルゴリズムを実装した。
論文全体を通して、我々はブラックボックス最適化のレンズを通してRLを見る。
We examine five setups where an agent (or two agents) seeks to explore unknown environment without any prior information. Although seemingly very different, all of them can be formalized as Reinforcement Learning (RL) problems in hyperbolic spaces. More precisely, it is natural to endow the action spaces with the hyperbolic metric. We introduce statistical and dynamical models necessary for addressing problems of this kind and implement algorithms based on this framework. Throughout the paper we view RL through the lens of the black-box optimization. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# ガウススプラッティングとハイブリッド拡散プリミティブを用いた1次元画像から3次元画像へのエンハンス
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors ( http://arxiv.org/abs/2410.09467v1 ) ライセンス: Link先を確認 | Hritam Basak, Hadi Tabatabaee, Shreekant Gayaka, Ming-Feng Li, Xin Yang, Cheng-Hao Kuo, Arnie Sen, Min Sun, Zhaozheng Yin, | (参考訳) 単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
オブジェクトの完全な3D構造とテクスチャを正確に再構築することは、ロボット操作、把握、3Dシーン理解、AR/VRなど、現実のシナリオに多くの応用をもたらす。
近年の3次元オブジェクト生成技術は、事前訓練された2次元または3次元拡散モデルで導かれるガウス散乱の効率的な表現を最適化することにより、物体の3次元形状とテクスチャを再構築する技術を導入している。
しかし、これらのモデルのトレーニングデータセットの間には顕著な相違があり、出力に違いが生じる。
2Dモデルは高精細なヴィジュアルを生成するが、幾何学やテクスチャにおけるクロスビューの整合性は欠如している。
対照的に、3Dモデルは異なるビュー間で一貫性を確保するが、しばしば過度に滑らかなテクスチャをもたらす。
本稿では,2段階の周波数ベース蒸留損失をガウススメッティングに統合することにより,この限界に対応するために,2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
具体的には、3次元拡散モデルからの低周波スペクトルの幾何的先行を利用して、一貫した幾何を維持するとともに、2次元拡散モデルを用いて、生成された3次元構造の高周波スペクトルの忠実度とテクスチャを洗練し、より詳細できめ細かな結果をもたらす。
我々のアプローチは、現在のSOTAよりも優れた幾何学的整合性と視覚的品質を向上させる。
さらに,効率的なオブジェクトポーズ推定と追跡のために,提案手法の適応性を示す。
3D object generation from a single image involves estimating the full 3D geometry and texture of unseen views from an unposed RGB image captured in the wild. Accurately reconstructing an object's complete 3D structure and texture has numerous applications in real-world scenarios, including robotic manipulation, grasping, 3D scene understanding, and AR/VR. Recent advancements in 3D object generation have introduced techniques that reconstruct an object's 3D shape and texture by optimizing the efficient representation of Gaussian Splatting, guided by pre-trained 2D or 3D diffusion models. However, a notable disparity exists between the training datasets of these models, leading to distinct differences in their outputs. While 2D models generate highly detailed visuals, they lack cross-view consistency in geometry and texture. In contrast, 3D models ensure consistency across different views but often result in overly smooth textures. We propose bridging the gap between 2D and 3D diffusion models to address this limitation by integrating a two-stage frequency-based distillation loss with Gaussian Splatting. Specifically, we leverage geometric priors in the low-frequency spectrum from a 3D diffusion model to maintain consistent geometry and use a 2D diffusion model to refine the fidelity and texture in the high-frequency spectrum of the generated 3D structure, resulting in more detailed and fine-grained outcomes. Our approach enhances geometric consistency and visual quality, outperforming the current SOTA. Additionally, we demonstrate the easy adaptability of our method for efficient object pose estimation and tracking. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# 量子ニューラルネットワークにおけるモデル空間近傍のチャネルの識別可能性の探索
Exploring Channel Distinguishability in Local Neighborhoods of the Model Space in Quantum Neural Networks ( http://arxiv.org/abs/2410.09470v1 ) ライセンス: Link先を確認 | Sabrina Herbst, Sandeep Suresh Cranganore, Vincenzo De Maio, Ivona Brandic, | (参考訳) 量子機械学習への関心が高まり、量子ニューラルネットワーク(QNN)が登場し、注目を集めている。
しかし、これらのモデルは訓練が難しいことで知られており、この時点ではほとんど研究されていないアンサツェと呼ばれるアーキテクチャが原因だと仮説を立てている。
そこで,本論文では一歩後退して,無菌類を解析する。
最初はそれらの表現性、すなわち表現できる操作空間を考察し、主に使用される測度である2-設計への近さが、この性質を捉えることに失敗することを示す。
したがって、モデル空間の局所的近傍、特にパラメータの小さな摂動によるモデル判別可能性の分析を考慮し、アンサーゼを特徴づける別の方法を模索する。
パラメータが少ないQNNが更新時にほとんど識別できないことを示す。
我々の数値実験は、我々の限界を支持し、また、温かい開始や巧妙な初期化の必要性を強く強調する、大きなばらつきがあることをさらに示している。
さらに、我々の研究は、QNNにおけるトレーニング力学と困難に関するアンザッツ中心の視点を提供し、究極的には、小さな量子モデルの反復的トレーニングは、その初期のモチベーションとは対照的であるかもしれないことを示唆している。
With the increasing interest in Quantum Machine Learning, Quantum Neural Networks (QNNs) have emerged and gained significant attention. These models have, however, been shown to be notoriously difficult to train, which we hypothesize is partially due to the architectures, called ansatzes, that are hardly studied at this point. Therefore, in this paper, we take a step back and analyze ansatzes. We initially consider their expressivity, i.e., the space of operations they are able to express, and show that the closeness to being a 2-design, the primarily used measure, fails at capturing this property. Hence, we look for alternative ways to characterize ansatzes by considering the local neighborhood of the model space, in particular, analyzing model distinguishability upon small perturbation of parameters. We derive an upper bound on their distinguishability, showcasing that QNNs with few parameters are hardly discriminable upon update. Our numerical experiments support our bounds and further indicate that there is a significant degree of variability, which stresses the need for warm-starting or clever initialization. Altogether, our work provides an ansatz-centric perspective on training dynamics and difficulties in QNNs, ultimately suggesting that iterative training of small quantum models may not be effective, which contrasts their initial motivation. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# DRCap:Zero-shot Audio Captioningのための検索拡張生成によるCLAPラテントデコード
DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning ( http://arxiv.org/abs/2410.09472v1 ) ライセンス: Link先を確認 | Xiquan Li, Wenxi Chen, Ziyang Ma, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Qiuqiang Kong, Xie Chen, | (参考訳) 自動音声キャプション(AAC)は目覚ましい進歩を遂げているが、従来の完全教師付きAACモデルは、トレーニングのための高価なオーディオテキストペアデータと、ドメイン間の転送時のパフォーマンス劣化という、2つの重要な課題に直面している。
これらの制限を克服するために、DRCapはデータ効率が高く柔軟なゼロショット音声キャプションシステムで、トレーニング用にテキストのみのデータを必要とする。
DRCapは、CLAP(Language-audio pre-training)モデルとLLM(Large-Language Model)をバックボーンとして統合している。
トレーニング中、モデルはCLAPから固定テキストエンコーダで接地トラスキャプションを予測し、推論中はテキストエンコーダをオーディオエンコーダに置き換え、ゼロショットでオーディオクリップのキャプションを生成する。
CLAPモデルのモダリティギャップを軽減するために,エンコーダ側からの投影戦略とデコーダ側からの検索拡張生成戦略の両方を用いる。
具体的には、まずテキスト埋め込み支援に音声埋め込みを投影し、CLAPのジョイントマルチモーダル空間内で広範囲な意味情報を吸収する。
同時に、データストアから取得した類似のキャプションをLSMに指示するプロンプトとして送り、外部知識を取り入れて、その強力な生成能力を最大限に活用する。
予測されたCLAP埋め込みと検索された類似のキャプションの両方に基づいて、モデルはより正確で意味的にリッチなテキスト記述を生成することができる。
テキスト埋め込みサポートとキャプションデータストアをターゲットドメインに調整することにより、DRCapはトレーニング不要な方法で新しいドメインに適応する堅牢な能力を得る。
実験の結果、DRCapはドメイン内シナリオにおける他のゼロショットモデルよりも優れており、ドメイン間シナリオにおける最先端のパフォーマンスを実現している。
While automated audio captioning (AAC) has made notable progress, traditional fully supervised AAC models still face two critical challenges: the need for expensive audio-text pair data for training and performance degradation when transferring across domains. To overcome these limitations, we present DRCap, a data-efficient and flexible zero-shot audio captioning system that requires text-only data for training and can quickly adapt to new domains without additional fine-tuning. DRCap integrates a contrastive language-audio pre-training (CLAP) model and a large-language model (LLM) as its backbone. During training, the model predicts the ground-truth caption with a fixed text encoder from CLAP, whereas, during inference, the text encoder is replaced with the audio encoder to generate captions for audio clips in a zero-shot manner. To mitigate the modality gap of the CLAP model, we use both the projection strategy from the encoder side and the retrieval-augmented generation strategy from the decoder side. Specifically, audio embeddings are first projected onto a text embedding support to absorb extensive semantic information within the joint multi-modal space of CLAP. At the same time, similar captions retrieved from a datastore are fed as prompts to instruct the LLM, incorporating external knowledge to take full advantage of its strong generative capability. Conditioned on both the projected CLAP embedding and the retrieved similar captions, the model is able to produce a more accurate and semantically rich textual description. By tailoring the text embedding support and the caption datastore to the target domain, DRCap acquires a robust ability to adapt to new domains in a training-free manner. Experimental results demonstrate that DRCap outperforms all other zero-shot models in in-domain scenarios and achieves state-of-the-art performance in cross-domain scenarios. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# Dual Augmentation を用いた蒸留不変表現
Distilling Invariant Representations with Dual Augmentation ( http://arxiv.org/abs/2410.09474v1 ) ライセンス: Link先を確認 | Nikolaos Giakoumoglou, Tania Stathaki, | (参考訳) 知識蒸留(KD)は、大規模で正確なモデル(教師)からより小さく効率的なモデル(学生)に知識を伝達するために広く用いられている。
最近の方法では、因果解釈を取り入れて、不変表現を蒸留することで一貫性を高める方法が検討されている。
本研究では,教師モデルと学生モデルの両方において,不変な特徴学習を促進するための2つの拡張戦略を導入することで,この研究線を拡大する。
我々の手法は、蒸留中に両方のモデルに適用された異なる拡張を活用し、学生に堅牢で伝達可能な特徴をつかむよう促す。
この二重増強戦略は、学習された表現がより広い範囲のデータバリエーションと変換で安定であることを保証することによって、不変な因果蒸留を補完する。
CIFAR-100の大規模な実験は、この手法の有効性を示し、同じアーキテクチャのKDで競争結果を達成する。
Knowledge distillation (KD) has been widely used to transfer knowledge from large, accurate models (teachers) to smaller, efficient ones (students). Recent methods have explored enforcing consistency by incorporating causal interpretations to distill invariant representations. In this work, we extend this line of research by introducing a dual augmentation strategy to promote invariant feature learning in both teacher and student models. Our approach leverages different augmentations applied to both models during distillation, pushing the student to capture robust, transferable features. This dual augmentation strategy complements invariant causal distillation by ensuring that the learned representations remain stable across a wider range of data variations and transformations. Extensive experiments on CIFAR-100 demonstrate the effectiveness of this approach, achieving competitive results in same-architecture KD. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# 非因果グラフモデルの同定
Identification of Non-causal Graphical Models ( http://arxiv.org/abs/2410.09480v1 ) ライセンス: Link先を確認 | Junyao You, Mattia Zorzi, | (参考訳) 本稿では,変数間のスムーズな関係を符号化したエッジを持つ非因果的グラフィカルモデルの推定問題について考察する。
本研究では,ホワイトノイズ処理における移動距離を最小化する解が,両面の自己回帰的非因果的グラフィカルモデルであることを示す。
そして、このパラダイムをグラフィカルな自己回帰移動平均モデルのクラスに一般化する。
最後に,提案手法の性能を数値実験により検証する。
The paper considers the problem to estimate non-causal graphical models whose edges encode smoothing relations among the variables. We propose a new covariance extension problem and show that the solution minimizing the transportation distance with respect to white noise process is a double-sided autoregressive non-causal graphical model. Then, we generalize the paradigm to a class of graphical autoregressive moving-average models. Finally, we test the performance of the proposed method through some numerical experiments. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# ブリッジングギャップ:異種ハイブリッドビューにおけるフェデレーションマルチビュークラスタリング
Bridging Gaps: Federated Multi-View Clustering in Heterogeneous Hybrid Views ( http://arxiv.org/abs/2410.09484v1 ) ライセンス: Link先を確認 | Xinyue Chen, Yazhou Ren, Jie Xu, Fangfei Lin, Xiaorong Pu, Yang Yang, | (参考訳) 近年,フェデレートされたマルチビュークラスタリング(FedMVC)が出現し,複数のクライアントに分散したマルチビューデータのクラスタ構造を探索している。
既存のアプローチでは、クライアントは同型であり、それらすべてがシングルビュークライアントまたはマルチビュークライアントに属していると仮定することが多い。
それらの成功にもかかわらず、これらの手法は、単一ビューと複数ビューのクライアントの混合が異種性を示す異種ハイブリッドビューを含む実践的なFedMVCシナリオを扱う際の制限も提示する。
本稿では、異種ハイブリッドビュー、すなわちクライアントギャップとビューギャップに関連する2つの課題を同時に解決する新しいFedMVCフレームワークを提案する。
クライアントのギャップに対処するため,各クライアント間の不均一性を緩和するための一対一のビュークライアントと多対一のビュークライアントの整合性を実現するための,ローカル・シネジスティックなコントラスト学習アプローチを設計する。
ビューギャップに対処するために,ハイブリッドビューから補完的な特徴を学習するグローバルモデルを支援する,グローバル固有重み付けアグリゲーション手法を開発した。
ローカル・シネルジスティック・コントラスト学習とグローバルな重み付けアグリゲーションの相互作用は、複数のクライアントに分散したデータクラスタ構造の探索を強化する。
理論的解析と広範な実験により,FedMVCにおける異種ハイブリッドビューの処理が可能であり,最先端の手法より優れていることが示された。
コードは \url{https://github.com/5Martina5/FMCSC} で公開されている。
Recently, federated multi-view clustering (FedMVC) has emerged to explore cluster structures in multi-view data distributed on multiple clients. Existing approaches often assume that clients are isomorphic and all of them belong to either single-view clients or multi-view clients. Despite their success, these methods also present limitations when dealing with practical FedMVC scenarios involving heterogeneous hybrid views, where a mixture of both single-view and multi-view clients exhibit varying degrees of heterogeneity. In this paper, we propose a novel FedMVC framework, which concurrently addresses two challenges associated with heterogeneous hybrid views, i.e., client gap and view gap. To address the client gap, we design a local-synergistic contrastive learning approach that helps single-view clients and multi-view clients achieve consistency for mitigating heterogeneity among all clients. To address the view gap, we develop a global-specific weighting aggregation method, which encourages global models to learn complementary features from hybrid views. The interplay between local-synergistic contrastive learning and global-specific weighting aggregation mutually enhances the exploration of the data cluster structures distributed on multiple clients. Theoretical analysis and extensive experiments demonstrate that our method can handle the heterogeneous hybrid views in FedMVC and outperforms state-of-the-art methods. The code is available at \url{https://github.com/5Martina5/FMCSC}. | 翻訳日:2024-10-30 14:14:38 公開日:2024-10-12 |
# ActSafe: 強化学習のための安全制約付きアクティブ探索
ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning ( http://arxiv.org/abs/2410.09486v1 ) ライセンス: Link先を確認 | Yarden As, Bhavya Sukhija, Lenart Treven, Carmelo Sferrazza, Stelian Coros, Andreas Krause, | (参考訳) 強化学習(Reinforcement Learning, RL)は、現代のAIシステムの開発において、ユビキタスである。
しかし、最先端のRLエージェントは、環境との広範囲で潜在的に安全でない相互作用を必要とし、効果的に学習する。
これらの制限はRLエージェントをシミュレーション環境に限定し、現実世界の環境で直接学習する能力を妨げている。
本研究では,安全かつ効率的な探索のための新しいモデルベースRLアルゴリズムであるActSafeを提案する。
ActSafeは、システムのよく校正された確率モデルを学び、未知のダイナミクスに関する疫学的な不確実性を楽観的にw.r.t.に計画し、安全性の制約に悲観主義を強制する。
制約と力学の規則性仮定により,ActSafeは学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩を基盤として,視覚的制御などの高次元設定においても安全な探索を可能にする,ActSafeの実用版を提案する。
本稿では,ActSafeが,学習中の安全性を確保しつつ,標準安全深度RLベンチマーク上での困難な探索作業において,最先端のパフォーマンスが得られることを実証的に示す。
Reinforcement learning (RL) is ubiquitous in the development of modern AI systems. However, state-of-the-art RL agents require extensive, and potentially unsafe, interactions with their environments to learn effectively. These limitations confine RL agents to simulated environments, hindering their ability to learn directly in real-world settings. In this work, we present ActSafe, a novel model-based RL algorithm for safe and efficient exploration. ActSafe learns a well-calibrated probabilistic model of the system and plans optimistically w.r.t. the epistemic uncertainty about the unknown dynamics, while enforcing pessimism w.r.t. the safety constraints. Under regularity assumptions on the constraints and dynamics, we show that ActSafe guarantees safety during learning while also obtaining a near-optimal policy in finite time. In addition, we propose a practical variant of ActSafe that builds on latest model-based RL advancements and enables safe exploration even in high-dimensional settings such as visual control. We empirically show that ActSafe obtains state-of-the-art performance in difficult exploration tasks on standard safe deep RL benchmarks while ensuring safety during learning. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# 視覚推論タスクのためのQ-Formerの効率的な視覚言語アライメントに向けて
Towards Efficient Visual-Language Alignment of the Q-Former for Visual Reasoning Tasks ( http://arxiv.org/abs/2410.09489v1 ) ライセンス: Link先を確認 | Sungkyung Kim, Adam Lee, Junyoung Park, Andrew Chung, Jusang Oh, Jay-Yoon Lee, | (参考訳) 大規模言語モデルの最近の進歩は、異なるモダリティを整合させるエンコーダを付加することにより、視覚的推論タスクにおける機能強化を実証している。
Q-Formerは、画像、ビデオ、オーディオ、および3Dを大きな言語モデルと整合させる汎用エンコーダとして広く使われているが、これまでは、その効率的なトレーニングと個々のコンポーネントの分析が限られていた。
本研究では,視覚的推論ベンチマークScienceQA と IconQA を用いた InstructBLIP を用いたQ-Former のパラメータ効率的な微調整(PEFT)の有効性について検討する。
PEFTをQ-Formerに適用すると、トレーニング可能なパラメータの2%以下で完全な微調整に匹敵する性能が得られる。
さらに,4つの異なるベンチマークを持つQ-Formerのサブレイヤの相対的重要性を検討するために,動的パラメータ予算再配置にAdaLoRAを用いる。
本研究は,視覚言語推論タスクにおいて,自己注意層の方が顕著に重要であり,FFN層の相対的重要性は,タスクに関わる視覚言語パターンの複雑さに依存することを明らかにした。
コードはhttps://github.com/AttentionX/InstructBLIP_PEFTで公開されている。
Recent advancements in large language models have demonstrated enhanced capabilities in visual reasoning tasks by employing additional encoders for aligning different modalities. While the Q-Former has been widely used as a general encoder for aligning several modalities including image, video, audio, and 3D with large language models, previous works on its efficient training and the analysis of its individual components have been limited. In this work, we investigate the effectiveness of parameter efficient fine-tuning (PEFT) the Q-Former using InstructBLIP with visual reasoning benchmarks ScienceQA and IconQA. We observe that applying PEFT to the Q-Former achieves comparable performance to full fine-tuning using under 2% of the trainable parameters. Additionally, we employ AdaLoRA for dynamic parameter budget reallocation to examine the relative importance of the Q-Former's sublayers with 4 different benchmarks. Our findings reveal that the self-attention layers are noticeably more important in perceptual visual-language reasoning tasks, and relative importance of FFN layers depends on the complexity of visual-language patterns involved in tasks. The code is available at https://github.com/AttentionX/InstructBLIP_PEFT. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# Dying Clustersは必要なものすべて - 未知の数のクラスタによるディープクラスタリング
Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters ( http://arxiv.org/abs/2410.09491v1 ) ライセンス: Link先を確認 | Collin Leiber, Niklas Strauß, Matthias Schubert, Thomas Seidl, | (参考訳) 画像やテキストなどの高次元データに有意義なグループ、すなわちクラスタを見つけることは、データマイニングにおいて重要な課題である。
近年,深層クラスタリング手法はこれらの課題において顕著な成果を上げている。
しかし,これらの手法の多くは,事前にクラスタ数を指定する必要がある。
これは、ラベル付きデータが利用できない場合、クラスタの数は通常不明であるため、大きな制限となる。
そのため、この問題に対処する研究領域が出現した。
これらのアプローチのほとんどは、クラスタリングプロセスから分離されたクラスタの数を見積もっています。
これにより、クラスタリングの結果が初期埋め込みの品質に強く依存する。
他のアプローチは特定のクラスタリングプロセスに合わせており、他のシナリオへの適応が難しい。
本稿では、与えられた上限から始まる一般的なフレームワークであるUNSEENを提案し、クラスタ数を推定できる。
我々の知る限りでは、これは様々な深層クラスタリングアルゴリズムと簡単に組み合わせられる最初の方法である。
我々は、UNSEENと一般的なディープクラスタリングアルゴリズムDCN、DEC、DKMを組み合わせることで、我々のアプローチの適用性を実証し、その有効性を検証する。
さらに、我々のアプローチを分析し、そのコンポーネントの重要性を示すために、多数のアブリケーションを実行します。
コードは、https://github.com/collinleiber/UNSEENで入手できる。
Finding meaningful groups, i.e., clusters, in high-dimensional data such as images or texts without labeled data at hand is an important challenge in data mining. In recent years, deep clustering methods have achieved remarkable results in these tasks. However, most of these methods require the user to specify the number of clusters in advance. This is a major limitation since the number of clusters is typically unknown if labeled data is unavailable. Thus, an area of research has emerged that addresses this problem. Most of these approaches estimate the number of clusters separated from the clustering process. This results in a strong dependency of the clustering result on the quality of the initial embedding. Other approaches are tailored to specific clustering processes, making them hard to adapt to other scenarios. In this paper, we propose UNSEEN, a general framework that, starting from a given upper bound, is able to estimate the number of clusters. To the best of our knowledge, it is the first method that can be easily combined with various deep clustering algorithms. We demonstrate the applicability of our approach by combining UNSEEN with the popular deep clustering algorithms DCN, DEC, and DKM and verify its effectiveness through an extensive experimental evaluation on several image and tabular datasets. Moreover, we perform numerous ablations to analyze our approach and show the importance of its components. The code is available at: https://github.com/collinleiber/UNSEEN | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# エアリアル・ビュー・スリーパー検出に基づく簡易かつ効果的な地下鉄自己配置法
A Simple yet Effective Subway Self-positioning Method based on Aerial-view Sleeper Detection ( http://arxiv.org/abs/2410.09492v1 ) ライセンス: Link先を確認 | Jiajie Song, Ningfang Song, Xiong Pan, Xiaoxin Liu, Can Chen, Jingchun Cheng, | (参考訳) 近年,都市部における地下鉄道車両の急速な発展に伴い,交通航法・衝突回避システムの基本的役割を担う地下位置決めが研究ホットスポットとなっている。
現在の地下鉄の配置法の多くは、鉄道線路に沿って密にプレインストールされたローカライゼーションビーコンに依存しており、インフラや保守に莫大なコストを必要とするが、通常は柔軟性と対干渉能力に欠けていた。
本稿では,地下鉄のロバストかつ便利な位置決め問題に対処するために,低コストでリアルタイムな視覚支援型自己位置決めフレームワークを提案する。
まず, 高速かつ効率的なYOLOv8nネットワークに基づく空中視線スリーパー検出を行う。
検出結果を用いて、距離値のリアルタイムな補正と幾何学的位置決め情報を組み合わせて、正確な地下鉄の位置を求める。
提案手法の検証のために,地下鉄の走行シーンを6.9kmの経路に沿って撮影し,シミュレータから注釈を付けている。
実験結果から,F1スコアが111 fpsでF1スコアの睡眠者位置を効率よく検出できること,提案した位置決めフレームワークが0.1 %の誤差を達成し,その連続的かつ高精度な自己局所化能力を示した。
With the rapid development of urban underground rail vehicles,subway positioning, which plays a fundamental role in the traffic navigation and collision avoidance systems, has become a research hot-spot these years. Most current subway positioning methods rely on localization beacons densely pre-installed alongside the railway tracks, requiring massive costs for infrastructure and maintenance, while commonly lacking flexibility and anti-interference ability. In this paper, we propose a low-cost and real-time visual-assisted self-localization framework to address the robust and convenient positioning problem for subways. Firstly, we perform aerial view rail sleeper detection based on the fast and efficient YOLOv8n network. The detection results are then used to achieve real-time correction of mileage values combined with geometric positioning information, obtaining precise subway locations. Front camera Videos for subway driving scenes along a 6.9 km route are collected and annotated from the simulator for validation of the proposed method. Experimental results show that our aerial view sleeper detection algorithm can efficiently detect sleeper positions with F1-score of 0.929 at 1111 fps, and that the proposed positioning framework achieves a mean percentage error of 0.1\%, demonstrating its continuous and high-precision self-localization capability. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# 高忠実度圧縮画像の微粒な主観的品質評価
Fine-grained subjective visual quality assessment for high-fidelity compressed images ( http://arxiv.org/abs/2410.09501v1 ) ライセンス: Link先を確認 | Michela Testolina, Mohsen Jenadeleh, Shima Mohammadi, Shaolin Su, Joao Ascenso, Touradj Ebrahimi, Jon Sneyers, Dietmar Saupe, | (参考訳) 画像圧縮、ストレージ、ディスプレイ技術の進歩により、高品質の画像やビデオが広くアクセスできるようになった。
このレベルの品質では、圧縮されたコンテンツとオリジナルコンテンツの区別が難しくなり、最小の視覚的品質の違いにも敏感な評価方法の必要性が強調される。
従来の主観的視覚的品質評価では、「優れた」から「悪い」まで、絶対的なカテゴリー評価尺度を用いることが多い。
より顕著な歪みを評価するには適しているが、これらの尺度は微妙な視覚的差異を検出するには不十分である。
JPEG標準化プロジェクトであるAICは、現在、高忠実度画像に対する主観的な画質評価手法を開発している。
本稿では,提案手法,高品質な圧縮画像のデータセット,およびそれに対応するクラウドソースによる視覚的品質評価について述べる。
また、単に目立った差分(JND)単位で品質スケールの値を再構築するデータ分析のアプローチも概説している。
この評価法は、視覚刺激の強化技術を用いて、観察者が圧縮品をより明確に検出するのに役立つ。
続いて、拡張された品質値を元の知覚スケールに戻す、再スケーリングプロセスが続きます。
この再構成により、JNDユニットの微細で高精度な品質スケールが得られ、実用上より有益な結果が得られる。
結果を再現するデータセットとコードはhttps://github.com/jpeg-aic/dataset-BTC-PTC-24.comから入手できる。
Advances in image compression, storage, and display technologies have made high-quality images and videos widely accessible. At this level of quality, distinguishing between compressed and original content becomes difficult, highlighting the need for assessment methodologies that are sensitive to even the smallest visual quality differences. Conventional subjective visual quality assessments often use absolute category rating scales, ranging from ``excellent'' to ``bad''. While suitable for evaluating more pronounced distortions, these scales are inadequate for detecting subtle visual differences. The JPEG standardization project AIC is currently developing a subjective image quality assessment methodology for high-fidelity images. This paper presents the proposed assessment methods, a dataset of high-quality compressed images, and their corresponding crowdsourced visual quality ratings. It also outlines a data analysis approach that reconstructs quality scale values in just noticeable difference (JND) units. The assessment method uses boosting techniques on visual stimuli to help observers detect compression artifacts more clearly. This is followed by a rescaling process that adjusts the boosted quality values back to the original perceptual scale. This reconstruction yields a fine-grained, high-precision quality scale in JND units, providing more informative results for practical applications. The dataset and code to reproduce the results will be available at https://github.com/jpeg-aic/dataset-BTC-PTC-24. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# HG2P:HippocampusにインスパイアされたハイリワードグラフとモデルフリーQ-グラディエントペナルティによる経路計画と運動制御
HG2P: Hippocampus-inspired High-reward Graph and Model-Free Q-Gradient Penalty for Path Planning and Motion Control ( http://arxiv.org/abs/2410.09505v1 ) ライセンス: Link先を確認 | Haoran Wang, Yaoru Sun, Zeshen Tang, | (参考訳) 目標条件付き階層強化学習(HRL)は、複雑な到達タスクを単純なサブゴール条件付きタスクのシーケンスに分解し、大規模環境における長期計画に対処するための重要な可能性を示す。
本稿では,脳機構をグラフベースで計画するHRLを橋渡しし,海馬-線条体様の二重制御系仮説を提案する。
生物の脳機構(すなわち海馬のリプレイで見られるハイリワードの嗜好)と事例ベース理論に着想を得て, メモリグラフ構築のためのハイリターンサンプリング戦略を提案し, サンプル効率を向上する。
さらに, モデルフリーな低レベルQ関数勾配ペナルティを導出し, 先行研究におけるモデル依存性問題を解消し, アプリケーションにおけるリプシッツ制約の一般化を改善する。
最後に, この2つの拡張, High-Reward Graph と Model-free Gradient Penalty (HG2P) を最先端フレームワーク ACLG に統合し, 新たな目標条件付き HRL フレームワーク HG2P+ACLG を提案する。
実験により,本手法は,様々な長距離ナビゲーションタスクやロボット操作タスクにおいて,最先端の目標条件付きHRLアルゴリズムよりも優れていることが示された。
Goal-conditioned hierarchical reinforcement learning (HRL) decomposes complex reaching tasks into a sequence of simple subgoal-conditioned tasks, showing significant promise for addressing long-horizon planning in large-scale environments. This paper bridges the goal-conditioned HRL based on graph-based planning to brain mechanisms, proposing a hippocampus-striatum-like dual-controller hypothesis. Inspired by the brain mechanisms of organisms (i.e., the high-reward preferences observed in hippocampal replay) and instance-based theory, we propose a high-return sampling strategy for constructing memory graphs, improving sample efficiency. Additionally, we derive a model-free lower-level Q-function gradient penalty to resolve the model dependency issues present in prior work, improving the generalization of Lipschitz constraints in applications. Finally, we integrate these two extensions, High-reward Graph and model-free Gradient Penalty (HG2P), into the state-of-the-art framework ACLG, proposing a novel goal-conditioned HRL framework, HG2P+ACLG. Experimentally, the results demonstrate that our method outperforms state-of-the-art goal-conditioned HRL algorithms on a variety of long-horizon navigation tasks and robotic manipulation tasks. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# ユーザレベルのローカル差分プライバシに基づく分布認識平均推定
Distribution-Aware Mean Estimation under User-level Local Differential Privacy ( http://arxiv.org/abs/2410.09506v1 ) ライセンス: Link先を確認 | Corentin Pla, Hugo Richard, Maxime Vono, | (参考訳) ユーザレベルのローカル差分プライバシに基づく平均推定の問題について考察する。
以前の作業では、データサンプルの数はユーザ間で同じであると仮定していた。
対照的に、各ユーザ$u \in [n]$が、ある生成的分布から引き出されたデータサンプルを$\mu$; $m_u$が統計学者に未知だが、既知の分布から$M$ over $\mathbb{N}^\star$を持つ、より一般的で現実的なシナリオを考える。
分布認識平均推定アルゴリズムに基づき、平均推定のタスクに対して、最悪の場合のリスクに対して$M$依存上界を確立する。
その後、下限を導出する。
2つの境界は漸近的に対数的因子に一致し、$m_u = m$ for any user $u$ のとき、既知の境界に減少する。
We consider the problem of mean estimation under user-level local differential privacy, where $n$ users are contributing through their local pool of data samples. Previous work assume that the number of data samples is the same across users. In contrast, we consider a more general and realistic scenario where each user $u \in [n]$ owns $m_u$ data samples drawn from some generative distribution $\mu$; $m_u$ being unknown to the statistician but drawn from a known distribution $M$ over $\mathbb{N}^\star$. Based on a distribution-aware mean estimation algorithm, we establish an $M$-dependent upper bounds on the worst-case risk over $\mu$ for the task of mean estimation. We then derive a lower bound. The two bounds are asymptotically matching up to logarithmic factors and reduce to known bounds when $m_u = m$ for any user $u$. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# AERA Chat: 説明可能な学生回答自動評価のためのインタラクティブプラットフォーム
AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment ( http://arxiv.org/abs/2410.09507v1 ) ライセンス: Link先を確認 | Jiazheng Li, Artem Bobrov, David West, Cesare Aloisi, Yulan He, | (参考訳) スコアリング決定を正当化する合理性を生成することは、自動スコアリングシステムの開発における説明可能性を高めるための有望なアプローチとして現れている。
しかし、公開されている有理数データの不足と注釈のコストの高騰により、既存の手法は大きな言語モデル(LLM)によって生成されるノイズの多い有理数に依存している。
これらの課題に対処するため,対話型プラットフォームであるAERA Chatを開発した。
ユーザは質問や学生の回答を入力して、LLMから自動で説明可能な評価結果を得ることができる。
このプラットフォームの革新的な視覚化機能と堅牢な評価ツールは、教育者がマーキングプロセスを支援するのに役立ち、研究者が異なるLLMによって生成された合理性の評価と品質を評価するのに役立ちます。
我々は、その能力を示すために、プラットフォーム上で3つの合理的な生成アプローチを評価した。
Generating rationales that justify scoring decisions has emerged as a promising approach to enhance explainability in the development of automated scoring systems. However, the scarcity of publicly available rationale data and the high cost of annotation have resulted in existing methods typically relying on noisy rationales generated by large language models (LLMs). To address these challenges, we have developed AERA Chat, an interactive platform, to provide visually explained assessment of student answers and streamline the verification of rationales. Users can input questions and student answers to obtain automated, explainable assessment results from LLMs. The platform's innovative visualization features and robust evaluation tools make it useful for educators to assist their marking process, and for researchers to evaluate assessment performance and quality of rationales generated by different LLMs, or as a tool for efficient annotation. We evaluated three rationale generation approaches on our platform to demonstrate its capability. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# CollabEdit: 非破壊的なコラボレーション知識編集を目指して
CollabEdit: Towards Non-destructive Collaborative Knowledge Editing ( http://arxiv.org/abs/2410.09508v1 ) ライセンス: Link先を確認 | Jiamu Zheng, Jinghuai Zhang, Tianyu Du, Xuhong Zhang, Jianwei Yin, Tao Lin, | (参考訳) 大規模言語モデル(LLM)の協調学習は、効率性とプライバシを保証するために、異なるパーティからのプライベートデータを活用するための新しいパラダイムとして登場した。
一方、LLMの動作を明示的に操作する能力から、知識編集(KE)にも注目が集まっているが、協調的なKEケース(複数のパーティの知識編集がプライバシー保護と継続的な方法で集約される)は未検討のままである。
この目的のために,本書は,知識の重複,知識の矛盾,知識の忘れなど,その3つの課題を慎重に識別することから始められた,共同KEに関する最初の研究である。
次に,非破壊的協調型KEフレームワークであるCOLLABEDITを提案する。
2つの標準データセットに対する大規模な実験は、他の破壊的ベースラインと比較して、COLLABEDITの優位性を示しており、3つの共同KE課題と将来の応用に光を当てている。
Collaborative learning of large language models (LLMs) has emerged as a new paradigm for utilizing private data from different parties to guarantee efficiency and privacy. Meanwhile, Knowledge Editing (KE) for LLMs has also garnered increased attention due to its ability to manipulate the behaviors of LLMs explicitly, yet leaves the collaborative KE case (in which knowledge edits of multiple parties are aggregated in a privacy-preserving and continual manner) unexamined. To this end, this manuscript dives into the first investigation of collaborative KE, in which we start by carefully identifying the unique three challenges therein, including knowledge overlap, knowledge conflict, and knowledge forgetting. We then propose a non-destructive collaborative KE framework, COLLABEDIT, which employs a novel model merging mechanism to mimic the global KE behavior while preventing the severe performance drop. Extensive experiments on two canonical datasets demonstrate the superiority of COLLABEDIT compared to other destructive baselines, and results shed light on addressing three collaborative KE challenges and future applications. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# Scito2M: 時間的サイエントメトリック分析のための200万年30年のクロスディシプリナデータセット
Scito2M: A 2 Million, 30-Year Cross-disciplinary Dataset for Temporal Scientometric Analysis ( http://arxiv.org/abs/2410.09510v1 ) ライセンス: Link先を確認 | Yiqiao Jin, Yijia Xiao, Yiyang Wang, Jindong Wang, | (参考訳) 科学的知識の作成、進化、普及を理解することは、多様な分野をブリッジし、パンデミック、気候変動、倫理的AIといった複雑なグローバルな課題に対処するために重要である。
科学文献の量的および質的な研究であるサイエントメトリックスは、これらのプロセスに関する貴重な洞察を提供する。
学術出版物200万件を超える縦断的サイエントメトリック・データセットであるScyto2Mを導入し、総合的な内容情報と引用グラフを提供し、学際的分析を支援する。
学術用語の進化, 引用パターン, 学際的知識交換など, サイエントメトリックスにおける重要な課題について30年以上にわたる時間的研究を行った。
以上の結果から, 疫学文化の格差, 知識生産様式, 引用実践など, 重要な知見が得られた。
例えば、急速に発展するLSMのようなアプリケーション駆動の分野は、口頭史のような伝統的な理論分野(9.71年)に比べて、引用年齢(2.48年)がかなり短い。
Understanding the creation, evolution, and dissemination of scientific knowledge is crucial for bridging diverse subject areas and addressing complex global challenges such as pandemics, climate change, and ethical AI. Scientometrics, the quantitative and qualitative study of scientific literature, provides valuable insights into these processes. We introduce Scito2M, a longitudinal scientometric dataset with over two million academic publications, providing comprehensive contents information and citation graphs to support cross-disciplinary analyses. Using Scito2M, we conduct a temporal study spanning over 30 years to explore key questions in scientometrics: the evolution of academic terminology, citation patterns, and interdisciplinary knowledge exchange. Our findings reveal critical insights, such as disparities in epistemic cultures, knowledge production modes, and citation practices. For example, rapidly developing, application-driven fields like LLMs exhibit significantly shorter citation age (2.48 years) compared to traditional theoretical disciplines like oral history (9.71 years). | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# あらゆる分野における WKB の排他 I: 縮退サドルによるポテンシャル
Exact WKB in all sectors I: Potentials with degenerate saddles ( http://arxiv.org/abs/2410.09511v1 ) ライセンス: Link先を確認 | Tatsuhiro Misumi, Cihan Pazarbaşı, | (参考訳) 本研究では,複数のセクターにおける局所調和ポテンシャルの正確な量子化に着目し,エアリー型とウェーバー型の分析を通して,正確なWKB(EWKB)法を検討する。
我々の研究の中核的な革新はエネルギーパラメータ$u$に新しい複素化アプローチを導入することである。
この新手法は、中央値和の前であっても正確な量子化条件を維持しつつ、ポテンシャルの異なるセクターにわたって連続的な解析的連続を可能にする。
ポテンシャル障壁トップの上の$A$サイクルを再定義することにより、量子化条件が本物であることを保証するとともに、ストークス自己同型(英語版)と中央値再仮定(英語版)を用いることで、復活構造がセクター間の遷移にわたって保存されることを示す。
さらに、Weber-type exact-WKB法を拡張し、サドル点のあらゆる種類の量子行動の正確な推定を行い、前の結果を一般化する。
これらの量子的作用の解析を通じて、摂動行動と非摂動行動の交換を容易にする$S$-dualityの存在を明らかにし、双対理論間のP-NP関係のマッピングを予想する。
我々の研究は、周期的および対称的な二重井戸ポテンシャルを包含し、正確なWKB法は、マルチインスタントコントリビューションや量子アクションの復活を含む全てのセクターの量子系の複雑な構造をキャプチャすることを示した。
We explore the exact-WKB (EWKB) method through the analysis of Airy and Weber types, with an emphasis on the exact quantization of locally harmonic potentials in multiple sectors. The core innovation of our work lies in introducing a novel complexification approach to the energy parameter $u$, distinct from the common complexification of the (semi-classical) expansion parameter used in Borel summability. This new technique allows for continuous analytical continuation across different sectors of a potential while maintaining the exact quantization condition, even before median summation. By redefining the $A$-cycle above the potential barrier top, we ensure the quantization condition remains real and, by use of the Stokes automorphism and the median resummation, show that the resurgence structure is preserved across transitions between sectors. Furthermore, we extend the Weber-type exact-WKB method, offering exact estimates for quantum actions around all types of saddle points, generalizing previous results. Through the analysis of these quantum actions, we reveal the presence of $S$-duality, facilitating the exchange between perturbative and non-perturbative behaviors, and we conjecture the mapping of the P-NP relations between dual theories. Our study encompasses periodic and symmetric double-well potentials, demonstrating that the exact-WKB method captures intricate structures in quantum systems in all sectors, including multi-instanton contributions and the resurgence of quantum actions. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# 持続可能なレコメンデーションのためのEco-Aware Graph Neural Networks
Eco-Aware Graph Neural Networks for Sustainable Recommendations ( http://arxiv.org/abs/2410.09514v1 ) ライセンス: Link先を確認 | Antonio Purificato, Fabrizio Silvestri, | (参考訳) リコメンダシステムは、ユーザの好みや関心に合わせたパーソナライズされたレコメンデーションを提供することによって、情報の過負荷を軽減する上で重要な役割を果たす。
近年,グラフニューラルネットワーク(GNN)は,ユーザとアイテム間の複雑な関係や依存関係を,グラフ構造内のノードとして表現することで効果的にキャプチャする能力を活用して,レコメンダシステムに有望なアプローチとして出現している。
本研究では,GNNをベースとしたレコメンデーションシステムの環境影響について検討する。
具体的には、GNNモデルのトレーニングおよびデプロイに関連する炭素排出量の包括的分析を行い、リコメンデーションタスクを行う。
モデル複雑度,トレーニング期間,ハードウェア仕様,組込みサイズなどの要因を考慮し,異なるGNNアーキテクチャと構成のエネルギー消費と炭素フットプリントを評価した。
推薦システムにおける資源集約型アルゴリズムの環境影響に対処することにより、持続的で責任ある人工知能への継続的な取り組みに寄与し、パフォーマンスと環境配慮のバランスをとるエコフレンドリーなレコメンデーション技術の開発を促進する。
コードは、https://github.com/antoniopurificato/gnn_recommendation_and_environmentで入手できる。
Recommender systems play a crucial role in alleviating information overload by providing personalized recommendations tailored to users' preferences and interests. Recently, Graph Neural Networks (GNNs) have emerged as a promising approach for recommender systems, leveraging their ability to effectively capture complex relationships and dependencies between users and items by representing them as nodes in a graph structure. In this study, we investigate the environmental impact of GNN-based recommender systems, an aspect that has been largely overlooked in the literature. Specifically, we conduct a comprehensive analysis of the carbon emissions associated with training and deploying GNN models for recommendation tasks. We evaluate the energy consumption and carbon footprint of different GNN architectures and configurations, considering factors such as model complexity, training duration, hardware specifications and embedding size. By addressing the environmental impact of resource-intensive algorithms in recommender systems, this study contributes to the ongoing efforts towards sustainable and responsible artificial intelligence, promoting the development of eco-friendly recommendation technologies that balance performance and environmental considerations. Code is available at: https://github.com/antoniopurificato/gnn_recommendation_and_environment. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# Pic@Point: ローカル・グローバル・ポイント・ピクチャー対応によるクロスモーダル・ラーニング
Pic@Point: Cross-Modal Learning by Local and Global Point-Picture Correspondence ( http://arxiv.org/abs/2410.09519v1 ) ライセンス: Link先を確認 | Vencia Herzog, Stefan Suwelack, | (参考訳) 自己監督型事前訓練はNLPと2Dビジョンにおいて顕著な成功を収めた。
しかし、これらの進歩は3Dデータにはまだ翻訳されていない。
マスクされた再構築のようなテクニックは、非構造的なポイントクラウドに固有の課題に直面しますが、多くの対照的な学習タスクは複雑さと情報的価値に欠けています。
本稿では,構造的2D-3D対応に基づく効果的なコントラスト学習手法であるPic@Pointを提案する。
我々は、意味と文脈の知識に富んだイメージキューを活用し、様々な抽象レベルでポイントクラウド表現のガイド信号を提供する。
我々の軽量なアプローチは、いくつかの3Dベンチマークで最先端の事前学習方法より優れています。
Self-supervised pre-training has achieved remarkable success in NLP and 2D vision. However, these advances have yet to translate to 3D data. Techniques like masked reconstruction face inherent challenges on unstructured point clouds, while many contrastive learning tasks lack in complexity and informative value. In this paper, we present Pic@Point, an effective contrastive learning method based on structural 2D-3D correspondences. We leverage image cues rich in semantic and contextual knowledge to provide a guiding signal for point cloud representations at various abstraction levels. Our lightweight approach outperforms state-of-the-art pre-training methods on several 3D benchmarks. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# モンゴルの貧困マップとAIベースのGer検出、新型コロナウイルスのパンデミック後に都市スラムが存続
Poverty mapping in Mongolia with AI-based Ger detection reveals urban slums persist after the COVID-19 pandemic ( http://arxiv.org/abs/2410.09522v1 ) ライセンス: Link先を確認 | Jeasurk Yang, Sumin Lee, Sungwon Park, Minjun Lee, Meeyoung Cha, | (参考訳) モンゴルは都市化が急速に進んでいる国の一つであり、ガーハーブとして知られる仮設遊牧民の住居は都市部に拡大している。
都市におけるゲルの居住地は、社会経済的損失によってスラムとして認識されがちである。
ガーの特徴的な円形のテントのような形状は、非常に高解像度の衛星画像を通して検出することができる。
我々は,2015年から2023年にかけて収集された衛星画像を利用して,モンゴルの首都ウランバタールのガーを検出するコンピュータビジョンアルゴリズムを開発した。
その結果、ガーの居住地は首都の周辺地域に移されたことが明らかとなった。
この結果に基づいて予測されたスラム比は、世界銀行の地域レベルの貧困データと有意な相関(r = 0.84)を示した。
新型コロナウイルスのパンデミック後の人口の5分の1をスラムが占める可能性も示唆している。
本稿では,衛星画像における機械学習の可能性について考察し,都市化パターンの洞察と持続可能な開発目標のモニタリングについて述べる。
Mongolia is among the countries undergoing rapid urbanization, and its temporary nomadic dwellings-known as Ger-have expanded into urban areas. Ger settlements in cities are increasingly recognized as slums by their socio-economic deprivation. The distinctive circular, tent-like shape of gers enables their detection through very-high-resolution satellite imagery. We develop a computer vision algorithm to detect gers in Ulaanbaatar, the capital of Mongolia, utilizing satellite images collected from 2015 to 2023. Results reveal that ger settlements have been displaced towards the capital's peripheral areas. The predicted slum ratio based on our results exhibits a significant correlation (r = 0.84) with the World Bank's district-level poverty data. Our nationwide extrapolation suggests that slums may continue to take up one-fifth of the population after the COVID-19 pandemic, contrary to other official predictions that anticipated a decline. We discuss the potential of machine learning on satellite imagery in providing insights into urbanization patterns and monitoring the Sustainable Development Goals. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# マルチモーダルなマルチスケールコンテキストモデリングによる会話テキスト音声の強調レンダリング
Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling ( http://arxiv.org/abs/2410.09524v1 ) ライセンス: Link先を確認 | Rui Liu, Zhenqi Jia, Jie Yang, Yifan Hu, Haizhou Li, | (参考訳) 会話テキスト音声(CTTS)は,会話環境において適切なスタイルで発話を正確に表現することを目的としており,近年注目されている。
CTTSタスクの重要性を認識しつつ、従来の研究では、会話強調データセットの不足と文脈理解の難しさにより、人間と機械の相互作用シナリオにおける基礎となる意図と態度を伝えるのに不可欠な、音声強調表現を徹底的に研究していない。
本稿では, ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
1)会話の文脈を包括的に理解するために,グローバル・ローカル・セマンティック・モデリングとテキスト・アコースティック・コンテキストを同時に考慮する。
2) マルチモーダル・マルチスケールの文脈を深く統合し, 現在の発話の強調表現に対する文脈の影響を学習する。
最後に、推論強調機能をニューラル音声合成装置に入力し、会話音声を生成する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
主観的評価と主観的評価の両方により,本モデルは会話環境下での強調レンダリングにおいて,ベースラインモデルよりも優れていることが示唆された。
コードとオーディオサンプルはhttps://github.com/CodeStoreTTS/ER-CTTSで公開されている。
Conversational Text-to-Speech (CTTS) aims to accurately express an utterance with the appropriate style within a conversational setting, which attracts more attention nowadays. While recognizing the significance of the CTTS task, prior studies have not thoroughly investigated speech emphasis expression, which is essential for conveying the underlying intention and attitude in human-machine interaction scenarios, due to the scarcity of conversational emphasis datasets and the difficulty in context understanding. In this paper, we propose a novel Emphasis Rendering scheme for the CTTS model, termed ER-CTTS, that includes two main components: 1) we simultaneously take into account textual and acoustic contexts, with both global and local semantic modeling to understand the conversation context comprehensively; 2) we deeply integrate multi-modal and multi-scale context to learn the influence of context on the emphasis expression of the current utterance. Finally, the inferred emphasis feature is fed into the neural speech synthesizer to generate conversational speech. To address data scarcity, we create emphasis intensity annotations on the existing conversational dataset (DailyTalk). Both objective and subjective evaluations suggest that our model outperforms the baseline models in emphasis rendering within a conversational setting. The code and audio samples are available at https://github.com/CodeStoreTTS/ER-CTTS. | 翻訳日:2024-10-30 14:04:51 公開日:2024-10-12 |
# LexSummとLexT5: 英語の法定要約タスクのベンチマークとモデリング
LexSumm and LexT5: Benchmarking and Modeling Legal Summarization Tasks in English ( http://arxiv.org/abs/2410.09527v1 ) ライセンス: Link先を確認 | T. Y. S. S. Santosh, Cornelius Weiss, Matthias Grabmair, | (参考訳) 進化するNLPのランドスケープでは、ベンチマークはガーグ進行のためのヤードスティックとして機能する。
しかし、既存の法的なNLPベンチマークでは、予測タスクのみに焦点を当てており、生成タスクを見下ろしている。
この研究は、英語の法的な要約タスクを評価するために設計されたベンチマークであるLexSummをキュレートする。
これは、米国、英国、EU、インドなどの様々な司法管轄区域から8つのイングランドの法的な要約データセットで構成されている。
さらに、法ドメイン内の既存のBERTスタイルエンコーダのみのモデルの制限に対処するため、法指向シーケンス・ツー・シーケンスモデルであるLexT5をリリースする。
我々は、LegalLAMAのゼロショット探索とLexSummの微調整により、その能力を評価した。
分析の結果,ゼロショットLLMが生成した要約においても,抽象化と忠実度誤差が明らかとなり,さらなる改善の機会が示唆された。
LexSummベンチマークとLexT5モデルはhttps://github.com/TUMLegalTech/LexSumm-LexT5で公開されている。
In the evolving NLP landscape, benchmarks serve as yardsticks for gauging progress. However, existing Legal NLP benchmarks only focus on predictive tasks, overlooking generative tasks. This work curates LexSumm, a benchmark designed for evaluating legal summarization tasks in English. It comprises eight English legal summarization datasets, from diverse jurisdictions, such as the US, UK, EU and India. Additionally, we release LexT5, legal oriented sequence-to-sequence model, addressing the limitation of the existing BERT-style encoder-only models in the legal domain. We assess its capabilities through zero-shot probing on LegalLAMA and fine-tuning on LexSumm. Our analysis reveals abstraction and faithfulness errors even in summaries generated by zero-shot LLMs, indicating opportunities for further improvements. LexSumm benchmark and LexT5 model are available at https://github.com/TUMLegalTech/LexSumm-LexT5. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# 鮮明な細部における古い記憶の保存:人間と対話した写真復元フレームワーク
Preserving Old Memories in Vivid Detail: Human-Interactive Photo Restoration Framework ( http://arxiv.org/abs/2410.09529v1 ) ライセンス: Link先を確認 | Seung-Yeon Back, Geonho Son, Dahye Jeong, Eunil Park, Simon S. Woo, | (参考訳) 写真復元技術は、写真中の視覚記憶の保存を可能にする。
しかし、物理的印刷物は、物理的損傷から画質の喪失など、様々な種類の劣化に対して脆弱である。
人間の専門家による修復は成果の質を向上させることができるが、コストと回復の時間の観点から、しばしば高い価格で得られる。
本稿では,複数のステージで構成されたAIベースの写真復元フレームワークを提案する。各ステージは,特定のタイプの写真損傷を向上・修復し,写真の復元プロセスの高速化・自動化を行う。
これらの手法を統一アーキテクチャに組み込むことで、古い写真や劣化画像の復元のためのワンストップソリューションを提供することを目的としている。
さらに,評価用データセットが公開されていないため,新たな古写真復元データセットを提案する。
Photo restoration technology enables preserving visual memories in photographs. However, physical prints are vulnerable to various forms of deterioration, ranging from physical damage to loss of image quality, etc. While restoration by human experts can improve the quality of outcomes, it often comes at a high price in terms of cost and time for restoration. In this work, we present the AI-based photo restoration framework composed of multiple stages, where each stage is tailored to enhance and restore specific types of photo damage, accelerating and automating the photo restoration process. By integrating these techniques into a unified architecture, our framework aims to offer a one-stop solution for restoring old and deteriorated photographs. Furthermore, we present a novel old photo restoration dataset because we lack a publicly available dataset for our evaluation. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# PrivQuant: 量子ネットワーク/プロトコル共最適化による通信効率の良いプライベート推論
PrivQuant: Communication-Efficient Private Inference with Quantized Network/Protocol Co-Optimization ( http://arxiv.org/abs/2410.09531v1 ) ライセンス: Link先を確認 | Tianshi Xu, Shuzhang Zhong, Wenxuan Zeng, Runsheng Wang, Meng Li, | (参考訳) セキュアな双方向計算(2PC)に基づくプライベートディープニューラルネットワーク(DNN)推論は、サーバとクライアントの両方に対してセキュアなプライバシ保護を可能にする。
しかし、既存のセキュアな2PCフレームワークは、膨大な通信のために高い推論遅延に悩まされている。
本稿では,2PCベースの量子化推論プロトコルとネットワーク量子化アルゴリズムを協調的に最適化し,通信効率のよいプライベート推論を実現するPrivQuantを提案する。
PrivQuantは、通信集約的な量子化演算子のための2PCプロトコルのためのDNNアーキテクチャを意識した最適化を提案し、通信低減のためのグラフレベル演算子融合を実行する。
さらに、PrivQuantは、高精度を維持しながら推論効率を向上させるために、通信対応の混合精度量子化アルゴリズムも開発している。
ネットワーク/プロトコルの共同最適化により、PrivQuantは2PC以前のフレームワークより優れている。
広範な実験により、PrivQuantは通信を111時間短縮し、2.5\times \mathrm{and}~2.8\times$が8.7時間短縮され、1.8\times ~ \mathrm{and}~2.4\times$遅延をSiRNN、COINN、CoPrivと比較した。
Private deep neural network (DNN) inference based on secure two-party computation (2PC) enables secure privacy protection for both the server and the client. However, existing secure 2PC frameworks suffer from a high inference latency due to enormous communication. As the communication of both linear and non-linear DNN layers reduces with the bit widths of weight and activation, in this paper, we propose PrivQuant, a framework that jointly optimizes the 2PC-based quantized inference protocols and the network quantization algorithm, enabling communication-efficient private inference. PrivQuant proposes DNN architecture-aware optimizations for the 2PC protocols for communication-intensive quantized operators and conducts graph-level operator fusion for communication reduction. Moreover, PrivQuant also develops a communication-aware mixed precision quantization algorithm to improve inference efficiency while maintaining high accuracy. The network/protocol co-optimization enables PrivQuant to outperform prior-art 2PC frameworks. With extensive experiments, we demonstrate PrivQuant reduces communication by $11\times, 2.5\times \mathrm{and}~ 2.8\times$, which results in $8.7\times, 1.8\times ~ \mathrm{and}~ 2.4\times$ latency reduction compared with SiRNN, COINN, and CoPriv, respectively. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# 局所特徴対応強化のための基礎視覚モデルからのセマンティックキューの活用
Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence ( http://arxiv.org/abs/2410.09533v1 ) ライセンス: Link先を確認 | Felipe Cadar, Guilherme Potje, Renato Martins, Cédric Demonceaux, Erickson R. Nascimento, | (参考訳) 視覚対応は、カメラのローカライゼーション、画像登録、動きからの構造など、重要なコンピュータビジョンタスクにおける重要なステップである。
キーポイントをマッチングするための最も効果的なテクニックは、一対のイメージを必要とする学習されたスパースまたは密度の高いマーカを使用することである。
これらのニューラルネットワークは、両方の画像の特徴をよく理解しているが、しばしば異なる意味領域の点と一致するのに苦労する。
本稿では,基礎視覚モデルの特徴(DINOv2 など)から意味的手がかりを用いて,既存の記述子に意味的推論を組み込むことで,局所的特徴マッチングを強化する手法を提案する。
したがって、学習した記述子は推論時にイメージペアを必要とせず、学習したマーカとは異なり、類似性検索を用いた特徴キャッシングと高速マッチングが可能である。
既存の6つのディスクリプタの適応版を提示し、カメラのローカライゼーション性能は平均29%向上し、2つの既存ベンチマークでLightGlueやLoFTRのような既存のマーカに匹敵する精度を示した。
コードとトレーニングされたモデルの両方がhttps://www.verlab.dcc.ufmg.br/descriptors/reasoning_accv24で利用可能である。
Visual correspondence is a crucial step in key computer vision tasks, including camera localization, image registration, and structure from motion. The most effective techniques for matching keypoints currently involve using learned sparse or dense matchers, which need pairs of images. These neural networks have a good general understanding of features from both images, but they often struggle to match points from different semantic areas. This paper presents a new method that uses semantic cues from foundation vision model features (like DINOv2) to enhance local feature matching by incorporating semantic reasoning into existing descriptors. Therefore, the learned descriptors do not require image pairs at inference time, allowing feature caching and fast matching using similarity search, unlike learned matchers. We present adapted versions of six existing descriptors, with an average increase in performance of 29% in camera localization, with comparable accuracy to existing matchers as LightGlue and LoFTR in two existing benchmarks. Both code and trained models are available at https://www.verlab.dcc.ufmg.br/descriptors/reasoning_accv24 | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# Tensorial Quantum Mechanics:HeisenbergからBeyondへ
Tensorial Quantum Mechanics: Back to Heisenberg and Beyond ( http://arxiv.org/abs/2410.09535v1 ) ライセンス: Link先を確認 | Christian de Ronde, Raimundo Fernández Mouján, César Massri, | (参考訳) 本研究では、ハイゼンベルクの元々の行列力学のSchr\"odinger'sとDirac's Wave-vectorial reformulationによって開発された標準量子力学(SQM)の確立について議論する。
ハイゼンベルクのアプローチは、実験室で観察された集中的なパターンを不変操作の形式主義として、常に発展してきたが、ディラックの公理的再定式化は、スタンドポイントSchr\\odingerの波動力学とボーアと論理実証主義者の方法論的ガイドを、本質的には一貫性のない「準備」(ただし、バイナリ)測定結果を予測するために、発展していた。
SQMを置き去りにして、現実の状態の一貫性と一貫性のある説明を復元しようとすると、ハイゼンベルクの元々のアプローチとして、行列形式主義をテンソル表現にまで拡張するだけでなく、新しい実験的現象も説明できるという新しいテンソル的提案を提示する。
In this work we discuss the establishment of Standard Quantum Mechanics (SQM) developed through Schr\"odinger's and Dirac's wave-vectorial reformulations of Heisenberg's original matrix mechanics. We will argue that while Heisenberg's approach was consistently developed -- taking as a standpoint the intensive patterns that were observed in the lab -- as an invariant-operational formalism, Dirac's axiomatic re-formulation was, instead, developed -- taking as a standpoint Schr\"odinger's wave mechanics and the methodological guide of Bohr and logical positivists -- as an essentially inconsistent "recipe" intended (but unable) to predict (binary) measurement outcomes. Leaving SQM behind and attempting to restore the consistent and coherent account of a real state of affairs, we will present a new tensorial proposal which -- taking as a standpoint Heisenberg's original approach -- will prove capable not only to extend the matrix formalism to a tensorial representation but also to account for new experimental phenomena. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# TOP-ERL: 変圧器を用いたオフ・ポリシック・エピソード強化学習
TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning ( http://arxiv.org/abs/2410.09536v1 ) ライセンス: Link先を確認 | Ge Li, Dong Tian, Hongyi Zhou, Xinkai Jiang, Rudolf Lioutikov, Gerhard Neumann, | (参考訳) 本研究は,ERLフレームワークの非政治的更新を可能にする新しいアルゴリズムであるTransformer-based Off-Policy Episodic Reinforcement Learning (TOP-ERL)を紹介する。
ERLでは、ポリシーは時間ステップ毎に単一のアクションではなく、複数の時間ステップでアクショントラジェクトリ全体を予測します。
これらの軌道は通常、運動原始(MP)のような軌道生成器によってパラメータ化され、高水準の時間相関を捉えながら長い地平線を滑らかかつ効率的に探索することができる。
しかしながら、ERL法は、アクションシーケンス全体の状態-アクション値の評価が困難であり、サンプルの効率が制限され、より効率的なオフ・ポリティックアーキテクチャの使用が妨げられるため、オン・ポリティック・フレームワークに制約されることが多い。
TOP-ERLは、長いアクションシーケンスをセグメント化し、nステップの戻り値と並行してトランスフォーマーベースの批評家アーキテクチャを用いて各セグメントの状態-アクション値を推定することで、この欠点に対処する。
これらの貢献は、高度なロボット学習環境で行われた経験的な結果に反映される、効率的で安定したトレーニングをもたらす。
TOP-ERLは最先端のRL法を大幅に上回る。
徹底的なアブレーション研究は、重要な設計選択がモデル性能に与える影響も示している。
This work introduces Transformer-based Off-Policy Episodic Reinforcement Learning (TOP-ERL), a novel algorithm that enables off-policy updates in the ERL framework. In ERL, policies predict entire action trajectories over multiple time steps instead of single actions at every time step. These trajectories are typically parameterized by trajectory generators such as Movement Primitives (MP), allowing for smooth and efficient exploration over long horizons while capturing high-level temporal correlations. However, ERL methods are often constrained to on-policy frameworks due to the difficulty of evaluating state-action values for entire action sequences, limiting their sample efficiency and preventing the use of more efficient off-policy architectures. TOP-ERL addresses this shortcoming by segmenting long action sequences and estimating the state-action values for each segment using a transformer-based critic architecture alongside an n-step return estimation. These contributions result in efficient and stable training that is reflected in the empirical results conducted on sophisticated robot learning environments. TOP-ERL significantly outperforms state-of-the-art RL methods. Thorough ablation studies additionally show the impact of key design choices on the model performance. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# 業界におけるサイバーセキュリティ 5.0: オープンチャレンジと今後の方向性
Cybersecurity in Industry 5.0: Open Challenges and Future Directions ( http://arxiv.org/abs/2410.09538v1 ) ライセンス: Link先を確認 | Bruno Santos, Rogério Luís C. Costa, Leonel Santos, | (参考訳) 業界5.0の可能性を解き放つには、堅牢なサイバーセキュリティ対策が必要だ。
この新たな産業革命は、資源保全、気候変動、社会安定といった社会的問題に対処しながら、人間中心の価値観を優先している。
産業5.0の新たな実現技術によりサイバー攻撃のリスクが高まったことを認識し, 潜在的な脅威とその対策について分析する。
さらに、業界4.0から産業5.0への安全な移行を保証する上で、既存の産業実装フレームワークを評価する。
その結果、この論文は、企業の業界5.0原則の安全な採用を促進するために、サイバーセキュリティを中心とした新しいフレームワークを開発する必要性を浮き彫りにした。
このようなフレームワークの作成は、組織にとって必要不可欠であると強調されている。
Unlocking the potential of Industry 5.0 hinges on robust cybersecurity measures. This new Industrial Revolution prioritises human-centric values while addressing pressing societal issues such as resource conservation, climate change, and social stability. Recognising the heightened risk of cyberattacks due to the new enabling technologies in Industry 5.0, this paper analyses potential threats and corresponding countermeasures. Furthermore, it evaluates the existing industrial implementation frameworks, which reveals their inadequacy in ensuring a secure transition from Industry 4.0 to Industry 5.0. Consequently, the paper underscores the necessity of developing a new framework centred on cybersecurity to facilitate organisations' secure adoption of Industry 5.0 principles. The creation of such a framework is emphasised as a necessity for organisations. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# リモートセンシング画像における両時間ガウス特徴依存性変化検出
Bi-temporal Gaussian Feature Dependency Guided Change Detection in Remote Sensing Images ( http://arxiv.org/abs/2410.09539v1 ) ライセンス: Link先を確認 | Yi Xiao, Bin Luo, Jun Liu, Xin Su, Wei Wang, | (参考訳) 変化検出(CD)は、異なる時間にキャプチャされた同じ領域の画像間の変化を識別する。
しかし、既存のCD手法は、マルチ時間画像におけるドメイン情報の違いや、ネットワーク上のアップサンプリングプロセス中に詳細特徴の喪失や汚染に起因する詳細エラーの事例など、疑似的な変化に対処するのに依然として苦労している。
そこで本稿では,両時間ガウス分布特徴依存ネットワーク(BGFD)を提案する。
具体的には、まず、画像統計的特徴を用いて分布を近似し、ドメイン情報を特徴付けるガウスノイズ領域障害(GNDD)モジュールを導入し、余分なドメイン情報を学習するためにネットワークを摂動するノイズをサンプリングし、より基本的な視点からドメイン情報の違いに対処する。
さらに,機能依存性ファシリテーション(FDF)モジュール内には,新たな相互情報差分損失(L_{MI}$)とより高度な注意機構が組み込まれ,ネットワークの能力を高め,本質的なドメイン情報の取得を確実にする。
その後、我々は、局所的な特徴の強化とグローバルな特徴の精細化の観点から、アップサンプリングプロセス中に導入された詳細な特徴損失と汚染を補償する、新しい詳細特徴補償(DFC)モジュールを設計した。
BGFDは、疑似変化を効果的に低減し、詳細情報の検出能力を向上した。
また、DSIFN-CD、SYSU-CD、LEVIR-CD、S2の4つの公開データセットで最先端のパフォーマンスも達成しており、F1-Scoreメトリックでは、ベースラインモデルが+8.58%、+1.28%、+0.31%、+3.76%を上回っている。
Change Detection (CD) enables the identification of alterations between images of the same area captured at different times. However, existing CD methods still struggle to address pseudo changes resulting from domain information differences in multi-temporal images and instances of detail errors caused by the loss and contamination of detail features during the upsampling process in the network. To address this, we propose a bi-temporal Gaussian distribution feature-dependent network (BGFD). Specifically, we first introduce the Gaussian noise domain disturbance (GNDD) module, which approximates distribution using image statistical features to characterize domain information, samples noise to perturb the network for learning redundant domain information, addressing domain information differences from a more fundamental perspective. Additionally, within the feature dependency facilitation (FDF) module, we integrate a novel mutual information difference loss ($L_{MI}$) and more sophisticated attention mechanisms to enhance the capabilities of the network, ensuring the acquisition of essential domain information. Subsequently, we have designed a novel detail feature compensation (DFC) module, which compensates for detail feature loss and contamination introduced during the upsampling process from the perspectives of enhancing local features and refining global features. The BGFD has effectively reduced pseudo changes and enhanced the detection capability of detail information. It has also achieved state-of-the-art performance on four publicly available datasets - DSIFN-CD, SYSU-CD, LEVIR-CD, and S2Looking, surpassing baseline models by +8.58%, +1.28%, +0.31%, and +3.76% respectively, in terms of the F1-Score metric. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# LINKED:Commonsense Reasoningのための大規模言語モデルにおける知識の抽出、フィルタリング、統合
LINKED: Eliciting, Filtering and Integrating Knowledge in Large Language Model for Commonsense Reasoning ( http://arxiv.org/abs/2410.09541v1 ) ライセンス: Link先を確認 | Jiachun Li, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Kang Liu, Xiaojian Jiang, Jiexin Xu, Jun Zhao, | (参考訳) 大規模言語モデル(LLM)は知識集約的なタスクにおいて性能が劣る場合があり、コモンセンス推論はその1つである。
研究者は通常、知識グラフから関連する知識を取り出すか、LLMの知識を引き出すために自己改善手法を採用することでこれらの問題に対処する。
しかし、ノイズの多い知識と不正な推論問題は、質問に正確に答える能力を妨げている。
そこで本研究では,大規模言語モデル(LINKED)における知識を抽出,フィルタリング,統合する手法を提案する。
そこで我々は,ノイズの少ない知識をフィルタし,不確実な推論を抑えるために限界一貫した推論モジュールを用いる報奨モデルの設計を行った。
2つの複雑なコモンセンス推論ベンチマークに関する総合的な実験により、私たちの手法はSOTAベースライン(最大9.0%の精度向上)を上回った。
また, インジェクトされた知識の正負の影響を測定するために, 知識強調作業における有効保存スコアと呼ばれる新しい指標を提案する。
最後に、広範囲な実験を通して、我々は詳細な分析を行い、常識的推論タスクにおけるLLMに関する多くの意味のある結論を見出す。
Large language models (LLMs) sometimes demonstrate poor performance on knowledge-intensive tasks, commonsense reasoning is one of them. Researchers typically address these issues by retrieving related knowledge from knowledge graphs or employing self-enhancement methods to elicit knowledge in LLMs. However, noisy knowledge and invalid reasoning issues hamper their ability to answer questions accurately. To this end, we propose a novel method named eliciting, filtering and integrating knowledge in large language model (LINKED). In it, we design a reward model to filter out the noisy knowledge and take the marginal consistent reasoning module to reduce invalid reasoning. With our comprehensive experiments on two complex commonsense reasoning benchmarks, our method outperforms SOTA baselines (up to 9.0% improvement of accuracy). Besides, to measure the positive and negative impact of the injected knowledge, we propose a new metric called effectiveness-preservation score for the knowledge enhancement works. Finally, through extensive experiments, we conduct an in-depth analysis and find many meaningful conclusions about LLMs in commonsense reasoning tasks. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# MIRAGE: 言語モデルにおける帰納的推論プロセスの評価と説明
MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models ( http://arxiv.org/abs/2410.09542v1 ) ライセンス: Link先を確認 | Jiachun Li, Pengfei Cao, Zhuoran Jin, Yubo Chen, Kang Liu, Jun Zhao, | (参考訳) 帰納的推論は、より大きな言語モデル(LLM)がより高い知性を達成するために必須の能力であり、これは観測された事実から規則を一般化し、見知らぬ例に適用するモデルを必要とする。
我々は、これまでの作業の限界、特に包括的な評価と柔軟なテストデータの欠如に対処する合成データセットである {\scshape Mirage} を提示する。
本研究では, LLMの帰納的および帰納的段階における能力を評価し, 入力分布, タスクシナリオ, タスク難易度を柔軟に変化させることで, LLMの帰納的推論に影響を与える要因を分析する。
これらの多面的評価に基づき, LLM はルールベース推論の貧弱さを実証する。
多くの場合、帰納的推論を行う場合、それらは目に見えないケースに答えるために正しい規則に依存しない。
異なるプロンプト法、観察数、タスクフォームの観点からすると、モデルは正しい帰納規則なしで一貫して正しい推論を行う傾向がある。
さらに, LLM は, 隣り合わせの推論系として優れていることがわかった。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
これらの類似の例を活用することで、モデルは局所化領域内で強い帰納的能力を保ち、その帰納的性能を著しく改善する。
Inductive reasoning is an essential capability for large language models (LLMs) to achieve higher intelligence, which requires the model to generalize rules from observed facts and then apply them to unseen examples. We present {\scshape Mirage}, a synthetic dataset that addresses the limitations of previous work, specifically the lack of comprehensive evaluation and flexible test data. In it, we evaluate LLMs' capabilities in both the inductive and deductive stages, allowing for flexible variation in input distribution, task scenario, and task difficulty to analyze the factors influencing LLMs' inductive reasoning. Based on these multi-faceted evaluations, we demonstrate that the LLM is a poor rule-based reasoner. In many cases, when conducting inductive reasoning, they do not rely on a correct rule to answer the unseen case. From the perspectives of different prompting methods, observation numbers, and task forms, models tend to consistently conduct correct deduction without correct inductive rules. Besides, we find that LLMs are good neighbor-based reasoners. In the inductive reasoning process, the model tends to focus on observed facts that are close to the current test example in feature space. By leveraging these similar examples, the model maintains strong inductive capabilities within a localized region, significantly improving its deductive performance. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# タンパク質-タンパク質相互作用における変異効果の予測因子としてのボルツマン配向逆フォールディングモデル
Boltzmann-Aligned Inverse Folding Model as a Predictor of Mutational Effects on Protein-Protein Interactions ( http://arxiv.org/abs/2410.09543v1 ) ライセンス: Link先を確認 | Xiaoran Jiao, Weian Mao, Wengong Jin, Peiyuan Yang, Hao Chen, Chunhua Shen, | (参考訳) 結合自由エネルギー(\Delta \Delta G$)の変化を予測することは、タンパク質とタンパク質の相互作用の理解と調節に不可欠である。
実験的な$\Delta \Delta G$データが不足しているため、既存の手法ではアライメントの重要性を無視しながら、事前トレーニングに重点を置いている。
本研究では,事前学習した逆折り畳みモデルから$\Delta \Delta G$予測への知識伝達のためのボルツマンアライメント手法を提案する。
まず、$\Delta \Delta G$の熱力学的定義を分析し、エネルギーをタンパク質配座分布と結びつけるボルツマン分布を導入する。
しかし、タンパク質のコンフォメーション分布は難解であり、ベイズの定理を用いて直接推定を回避し、代わりに$\Delta \Delta G$推定のためにタンパク質逆折り畳みモデルによって提供される対数類似度を利用する。
従来の逆折り畳み法と比較して,本手法は物理的誘導バイアスを導入し,教師なしおよび教師なし両方のSoTA性能を達成することにより,$\Delta \Delta G$熱力学サイクルにおけるタンパク質複合体の非有界状態を明示的に説明する。
SKEMPI v2 実験の結果,SKEMPI v2 はスピアマン係数 0.3201 (教師なし) と 0.5134 (教師なし) を達成し,従来報告した SoTA の 0.2632 と 0.4324 を上回った。
さらに,本手法が結合エネルギー予測,タンパク質ドッキング,抗体最適化に有効であることを示す。
Predicting the change in binding free energy ($\Delta \Delta G$) is crucial for understanding and modulating protein-protein interactions, which are critical in drug design. Due to the scarcity of experimental $\Delta \Delta G$ data, existing methods focus on pre-training, while neglecting the importance of alignment. In this work, we propose the Boltzmann Alignment technique to transfer knowledge from pre-trained inverse folding models to $\Delta \Delta G$ prediction. We begin by analyzing the thermodynamic definition of $\Delta \Delta G$ and introducing the Boltzmann distribution to connect energy with protein conformational distribution. However, the protein conformational distribution is intractable; therefore, we employ Bayes' theorem to circumvent direct estimation and instead utilize the log-likelihood provided by protein inverse folding models for $\Delta \Delta G$ estimation. Compared to previous inverse folding-based methods, our method explicitly accounts for the unbound state of protein complex in the $\Delta \Delta G$ thermodynamic cycle, introducing a physical inductive bias and achieving both supervised and unsupervised state-of-the-art (SoTA) performance. Experimental results on SKEMPI v2 indicate that our method achieves Spearman coefficients of 0.3201 (unsupervised) and 0.5134 (supervised), significantly surpassing the previously reported SoTA values of 0.2632 and 0.4324, respectively. Futhermore, we demonstrate the capability of our method on binding energy prediction, protein-protein docking and antibody optimization tasks. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-12 |
# 駆動散逸Kerrモデルに対するガウス近似とその補正
Gaussian approximation and its corrections for driven dissipative Kerr model ( http://arxiv.org/abs/2410.09547v1 ) ライセンス: Link先を確認 | K. Sh. Meretukov, A. E. Teretenkov, | (参考訳) ボソニック非線形モデルに対するガウス近似と摂動補正を得るための一般的な手法を開発した。
我々は散逸を伴う外部古典場のKerrモデルに適用する。
外界がなければ、最も低いフォック状態で支持される密度行列の空間で解ける。
これらの解は非常に非ガウス的であるが、生成および消滅作用素のモーメントは高い精度で我々のアプローチによって説明されている。
一般の場合、外界を持つ場合、補正のないガウス近似への我々の手法の寄与について論じる。
We develop a general technique to obtain Gaussian approximation and perturbative corrections for bosonic nonlinear models. We apply our technique to the Kerr model in the external classical field with dissipation. Without the external field, it can be solved in the space of density matrices supported at the lowest Fock states. We show that although these solutions are highly non-Gaussian, the moments of the creation and annihilation operators are still described by our approach with high accuracy. In the general case with an external field, we discuss the contribution of our technique to the Gaussian approximation without corrections. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# DiffuTraj: 誘導拡散法による確率的容器軌道予測手法
DiffuTraj: A Stochastic Vessel Trajectory Prediction Approach via Guided Diffusion Process ( http://arxiv.org/abs/2410.09550v1 ) ライセンス: Link先を確認 | Changlin Li, Yanglei Gan, Tian Lan, Yuxiang Cai, Xueyi Liu, Run Lin, Qiao Liu, | (参考訳) 海洋船舶の操作は、その固有の複雑さと不確定性によって特徴づけられ、将来の運動状態の多様性の性質をモデル化できる船舶軌道予測システムを必要とする。
従来の確率的軌道予測法は潜伏変数を用いて容器運動の多モード性を表現するが、海洋行動に固有の複雑さや力学を無視する傾向にある。
対照的に, 血管運動が不確実性から確実性への遷移を明示的にシミュレートし, 動的シーンにおける将来的不確定性を効果的に扱う。
本稿では,移動パターンの不確実性拡散の導出過程として軌道予測タスクを概念化する新しい枠組み(\textit{DiffuTraj})を提案する。
具体的には, 対象容器の以前の状態, 容器-容器間相互作用, 環境コンテキストを, 軌道生成の要因としてエンコードする。
その後, 変圧器をベースとした条件デノイザを考案し, 時空間依存を捕捉し, 海洋環境に適した軌道生成を可能にする。
船体軌道予測ベンチマークに関する総合的な実験は,本手法の優位性を実証している。
Maritime vessel maneuvers, characterized by their inherent complexity and indeterminacy, requires vessel trajectory prediction system capable of modeling the multi-modality nature of future motion states. Conventional stochastic trajectory prediction methods utilize latent variables to represent the multi-modality of vessel motion, however, tends to overlook the complexity and dynamics inherent in maritime behavior. In contrast, we explicitly simulate the transition of vessel motion from uncertainty towards a state of certainty, effectively handling future indeterminacy in dynamic scenes. In this paper, we present a novel framework (\textit{DiffuTraj}) to conceptualize the trajectory prediction task as a guided reverse process of motion pattern uncertainty diffusion, in which we progressively remove uncertainty from maritime regions to delineate the intended trajectory. Specifically, we encode the previous states of the target vessel, vessel-vessel interactions, and the environment context as guiding factors for trajectory generation. Subsequently, we devise a transformer-based conditional denoiser to capture spatio-temporal dependencies, enabling the generation of trajectories better aligned for particular maritime environment. Comprehensive experiments on vessel trajectory prediction benchmarks demonstrate the superiority of our method. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# 極多ラベル分類のための木に基づく線形モデルにおける空間効率の探索
Exploring space efficiency in a tree-based linear model for extreme multi-label classification ( http://arxiv.org/abs/2410.09554v1 ) ライセンス: Link先を確認 | He-Zhe Lin, Cheng-Hung Liu, Chih-Jen Lin, | (参考訳) Extreme Multi-label Classification (XMC) は、複数のラベルから関連するサブセットを特定することを目的としている。
XMCの様々なアプローチの中で、ツリーベースの線形モデルは効率と単純さの点で有効である。
しかし、木に基づく手法の空間複雑性は十分に研究されていない。
過去の多くの研究は、モデルを保存するのは手頃な価格ではないと仮定し、空間を節約するためにプルーニングのような技術を適用し、性能を損なう可能性があると仮定している。
本研究は,テキストデータで頻繁に発生する条件であるスパースデータの仮定の下で,木モデルを格納する空間に関する理論的および実証的な解析を行う。
その結果,木的手法で二項分類器を訓練すると,重みベクトルの値がゼロとなるような特徴が無用であることが判明した。
したがって、ゼロでない要素だけを保存すれば空間を大幅に節約できる。
実験結果から,マルチラベルテキスト分類における標準1-vs-rest法と比較して,木モデルでは最大95%のストレージスペース削減が可能であることが示唆された。
本研究は,木ノード内の分類器を訓練する前に,木モデルのサイズを推定する簡単な手順を提供する。
モデルのサイズがすでに受け入れられている場合、このアプローチは重み付けやその他のテクニックによってモデルの変更を避けるのに役立つ。
Extreme multi-label classification (XMC) aims to identify relevant subsets from numerous labels. Among the various approaches for XMC, tree-based linear models are effective due to their superior efficiency and simplicity. However, the space complexity of tree-based methods is not well-studied. Many past works assume that storing the model is not affordable and apply techniques such as pruning to save space, which may lead to performance loss. In this work, we conduct both theoretical and empirical analyses on the space to store a tree model under the assumption of sparse data, a condition frequently met in text data. We found that, some features may be unused when training binary classifiers in a tree method, resulting in zero values in the weight vectors. Hence, storing only non-zero elements can greatly save space. Our experimental results indicate that tree models can achieve up to a 95% reduction in storage space compared to the standard one-vs-rest method for multi-label text classification. Our research provides a simple procedure to estimate the size of a tree model before training any classifier in the tree nodes. Then, if the model size is already acceptable, this approach can help avoid modifying the model through weight pruning or other techniques. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# 話者ターン認識型マルチタスク対応ネットワークによるユーザ満足度推定と感性分析
A Speaker Turn-Aware Multi-Task Adversarial Network for Joint User Satisfaction Estimation and Sentiment Analysis ( http://arxiv.org/abs/2410.09556v1 ) ライセンス: Link先を確認 | Kaisong Song, Yangyang Kang, Jiawei Liu, Xurui Li, Changlong Sun, Xiaozhong Liu, | (参考訳) ユーザ満足度の推定は重要なタスクであり、ユーザがサービスに満足しているかどうかを推定するために、ゴール指向の対話システムにますます適用されていく。
ユーザのニーズが満たされているかは,ユーザ満足度の推定に関係するさまざまな感情を誘発し,その逆も生じることが観察された。
このように、話者の感情状態とユーザ満足度との強い結びつきを考慮して、ユーザ満足度推定(USE)と感性分析(SA)を共同作業として扱う必要がある。
既存の統合学習フレームワークは、主にカスケードまたは共有ボットトム実装上の2つの非常に関連性の高いタスクを統一するが、それらはタスク固有の特徴と共通の特徴を区別することができず、下流タスクのための準最適発話表現を生成する。
本稿では,対話レベルUSEと発話レベルSAのための話者ターンアウェアマルチタスク対応ネットワーク(STMAN)を提案する。
具体的には、まず、タスク識別器を訓練して、発話表現をよりタスク固有にするマルチタスク対応戦略を導入し、次に、話者ターン認識型マルチタスクインタラクション戦略を用いて、各タスクに相補的な共通特徴を抽出する。
2つの実世界のサービス対話データセットで実施された大規模な実験は、我々のモデルがいくつかの最先端の手法より優れていることを示している。
User Satisfaction Estimation is an important task and increasingly being applied in goal-oriented dialogue systems to estimate whether the user is satisfied with the service. It is observed that whether the user's needs are met often triggers various sentiments, which can be pertinent to the successful estimation of user satisfaction, and vice versa. Thus, User Satisfaction Estimation (USE) and Sentiment Analysis (SA) should be treated as a joint, collaborative effort, considering the strong connections between the sentiment states of speakers and the user satisfaction. Existing joint learning frameworks mainly unify the two highly pertinent tasks over cascade or shared-bottom implementations, however they fail to distinguish task-specific and common features, which will produce sub-optimal utterance representations for downstream tasks. In this paper, we propose a novel Speaker Turn-Aware Multi-Task Adversarial Network (STMAN) for dialogue-level USE and utterance-level SA. Specifically, we first introduce a multi-task adversarial strategy which trains a task discriminator to make utterance representation more task-specific, and then utilize a speaker-turn aware multi-task interaction strategy to extract the common features which are complementary to each task. Extensive experiments conducted on two real-world service dialogue datasets show that our model outperforms several state-of-the-art methods. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# レコメンデーションのためのスケーラブルなセマンティック表現を目指して
Towards Scalable Semantic Representation for Recommendation ( http://arxiv.org/abs/2410.09560v1 ) ライセンス: Link先を確認 | Taolin Zhang, Junwei Pan, Jinpeng Wang, Yaohua Zha, Tao Dai, Bin Chen, Ruisheng Luo, Xiaoxiang Deng, Yuan Wang, Ming Yue, Jie Jiang, Shu-Tao Xia, | (参考訳) 近年,大規模言語モデル (LLM) の進歩に伴い,レコメンデーションシステムの性能向上を目的として,LLMに基づくセマンティックIDの開発が進んでいる。
しかし、これらの埋め込みの寸法は、通常元の長さよりもはるかに小さいレコメンデーションに埋め込まれたIDの寸法と一致する必要がある。
このような次元圧縮は、LLM埋め込みの識別可能性や寸法の堅牢性を必然的に損なう結果となり、セマンティック表現をスケールアップする動機となる。
本稿では,まずインデクシング段階においてLLM表現のための複数の独立したコードブックを構築し,その後,下流レコメンデーション段階の融合モジュールとともにセマンティック表現を利用するMixture-of-Codesを提案する。
大規模解析と実験により,本手法は識別性と次元の堅牢性に優れたスケーラビリティを達成し,提案手法で最高のスケールアップ性能を実現することが実証された。
With recent advances in large language models (LLMs), there has been emerging numbers of research in developing Semantic IDs based on LLMs to enhance the performance of recommendation systems. However, the dimension of these embeddings needs to match that of the ID embedding in recommendation, which is usually much smaller than the original length. Such dimension compression results in inevitable losses in discriminability and dimension robustness of the LLM embeddings, which motivates us to scale up the semantic representation. In this paper, we propose Mixture-of-Codes, which first constructs multiple independent codebooks for LLM representation in the indexing stage, and then utilizes the Semantic Representation along with a fusion module for the downstream recommendation stage. Extensive analysis and experiments demonstrate that our method achieves superior discriminability and dimension robustness scalability, leading to the best scale-up performance in recommendations. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# ロバストな光フロー計算:高次微分法
Robust Optical Flow Computation: A Higher-Order Differential Approach ( http://arxiv.org/abs/2410.09563v1 ) ライセンス: Link先を確認 | Chanuka Algama, Kasun Amarasinghe, | (参考訳) コンピュータビジョンの分野では、光学フローは動的視覚シーンの展開の基盤となる。
しかし、大きな非線形運動パターンの条件下での光学的流れを正確に推定するという課題は未解決のままである。
画像フローの制約は、かなりの変位と高速な空間変換に弱い。
数値微分法に固有の不正確な近似は、そのような複雑さをさらに増幅することができる。
そこで本研究では,微分推定フレームワーク内での2次テイラー級数近似の高精度化を利用して,光フロー計算のための革新的なアルゴリズムを提案する。
この数学的基盤を受け入れることで、複雑な現実世界のシナリオ下での関数の振る舞いに関するより多くの情報を抽出し、テクスチャの欠如で領域の動きを推定する。
2015年のKITTI(英語版)やミドルベリー(英語版)のような有名な光学フローベンチマークのパフォーマンスによって、アルゴリズムの能力の印象的な見せかけが現れる。
計算された流れ場と地上の真理流場との間のユークリッド距離を計算する平均終端誤差(AEE)は顕著に減少し、複雑な動きパターンを扱うアルゴリズムの有効性を検証している。
In the domain of computer vision, optical flow stands as a cornerstone for unraveling dynamic visual scenes. However, the challenge of accurately estimating optical flow under conditions of large nonlinear motion patterns remains an open question. The image flow constraint is vulnerable to substantial displacements, and rapid spatial transformations. Inaccurate approximations inherent in numerical differentiation techniques can further amplify such intricacies. In response, this research proposes an innovative algorithm for optical flow computation, utilizing the higher precision of second-order Taylor series approximation within the differential estimation framework. By embracing this mathematical underpinning, the research seeks to extract more information about the behavior of the function under complex real-world scenarios and estimate the motion of areas with a lack of texture. An impressive showcase of the algorithm's capabilities emerges through its performance on renowned optical flow benchmarks such as KITTI (2015) and Middlebury. The average endpoint error (AEE), which computes the Euclidian distance between the calculated flow field and the ground truth flow field, stands notably diminished, validating the effectiveness of the algorithm in handling complex motion patterns. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# Masked Token と Label を併用した拡張日本語コモンセンスモラルデータセット
Extended Japanese Commonsense Morality Dataset with Masked Token and Label Enhancement ( http://arxiv.org/abs/2410.09564v1 ) ライセンス: Link先を確認 | Takumi Ohashi, Tsubasa Nakagawa, Hitoshi Iyatomi, | (参考訳) 人工知能(AI)の急速な進歩は、道徳的推論をAIシステムに統合することが重要である。
しかし、既存のモデルとデータセットは、しばしば地域と文化の違いを見落としている。
この欠点に対処するため,日本道徳に焦点を当てたJCommonsenseMorality(JCM)データセットを拡張した。
The Extended JCM (eJCM) has grown from the original 13,975 sentences to 31,184 sentences using our proposed sentence expansion method called Masked Token and Label Enhancement (MTLE)。
MTLEは、道徳的判断に関連する文の重要部分を選択的にマスクし、大きな言語モデル(LLM)によって生成された代替表現に置き換え、適切なラベルを再割り当てする。
EJCMを用いてトレーニングしたモデルは、元のJCM(0.837)、ChatGPTワンショット分類(0.841)、AugGPT(0.850)のF1スコア(0.857)を達成した。
具体的には、日本の文化特有の複雑な道徳的推論タスクにおいて、eJCMで訓練されたモデルは、パフォーマンス(0.681から0.756まで)が大幅に向上し、GPT-4ターボ(0.787)に近いパフォーマンスを達成した。
これらの結果は、eJCMデータセットの有効性と、文化的な文脈を考慮したモデルやデータセットの開発の重要性を示している。
Rapid advancements in artificial intelligence (AI) have made it crucial to integrate moral reasoning into AI systems. However, existing models and datasets often overlook regional and cultural differences. To address this shortcoming, we have expanded the JCommonsenseMorality (JCM) dataset, the only publicly available dataset focused on Japanese morality. The Extended JCM (eJCM) has grown from the original 13,975 sentences to 31,184 sentences using our proposed sentence expansion method called Masked Token and Label Enhancement (MTLE). MTLE selectively masks important parts of sentences related to moral judgment and replaces them with alternative expressions generated by a large language model (LLM), while re-assigning appropriate labels. The model trained using our eJCM achieved an F1 score of 0.857, higher than the scores for the original JCM (0.837), ChatGPT one-shot classification (0.841), and data augmented using AugGPT, a state-of-the-art augmentation method (0.850). Specifically, in complex moral reasoning tasks unique to Japanese culture, the model trained with eJCM showed a significant improvement in performance (increasing from 0.681 to 0.756) and achieved a performance close to that of GPT-4 Turbo (0.787). These results demonstrate the validity of the eJCM dataset and the importance of developing models and datasets that consider the cultural context. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# コントラスト学習によるアーティストスタイルの伝達のためのブリッジテキストと画像
Bridging Text and Image for Artist Style Transfer via Contrastive Learning ( http://arxiv.org/abs/2410.09566v1 ) ライセンス: Link先を確認 | Zhi-Song Liu, Li-Wen Wang, Jun Xiao, Vicky Kalogeiton, | (参考訳) イメージスタイルの転送は、ここ数年で広く注目を集めている。
その顕著な結果にもかかわらず、参照として利用可能な追加のスタイルイメージが必要であるため、柔軟性が低く、不便である。
テキストの使用は、そのスタイルを記述する最も自然な方法です。
さらに重要なのは、特定のアーティストのスタイルや芸術運動など、暗黙の抽象的なスタイルを記述できることだ。
本稿では,高度な画像テキストエンコーダを用いて任意のスタイル転送を制御するCLAST(Contrastive Learning for Artistic Style Transfer)を提案する。
画像テキストモデル(CLIP)からスタイル記述を効果的に抽出するための教師付きコントラスト学習戦略を導入する。
そこで本研究では,AdaLNをベースとした高効率な状態空間モデルを提案する。
最後に,テキスト駆動型画像転送を実現する。
大規模な実験により,我々の手法は芸術的スタイルの伝達において最先端の手法よりも優れていることが示された。
さらに重要なのは、オンラインの微調整を必要とせず、512x512画像を0.03秒でレンダリングできることだ。
Image style transfer has attracted widespread attention in the past few years. Despite its remarkable results, it requires additional style images available as references, making it less flexible and inconvenient. Using text is the most natural way to describe the style. More importantly, text can describe implicit abstract styles, like styles of specific artists or art movements. In this paper, we propose a Contrastive Learning for Artistic Style Transfer (CLAST) that leverages advanced image-text encoders to control arbitrary style transfer. We introduce a supervised contrastive training strategy to effectively extract style descriptions from the image-text model (i.e., CLIP), which aligns stylization with the text description. To this end, we also propose a novel and efficient adaLN based state space models that explore style-content fusion. Finally, we achieve a text-driven image style transfer. Extensive experiments demonstrate that our approach outperforms the state-of-the-art methods in artistic style transfer. More importantly, it does not require online fine-tuning and can render a 512x512 image in 0.03s. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# Lazy Hessianを用いた2次Min-Max最適化
Second-Order Min-Max Optimization with Lazy Hessians ( http://arxiv.org/abs/2410.09568v1 ) ライセンス: Link先を確認 | Lesi Chen, Chengchang Liu, Jingzhao Zhang, | (参考訳) 本稿では,凸凹型最小値最適化のための2次法について検討する。
Monteiro and Svaiter (2012) は、$\epsilon$-saddle 点を求めるために$\mathcal{O}(\epsilon^{-3/2})$の最適反復複雑性で問題を解く方法を提案した。
しかし、計算複雑性$\mathcal{O}((N+ d^2) d \epsilon^{-2/3})$が改善できるかどうかは不明である。
上記の例では、Doikov et al (2023) に従い、一階のオラクルを得る複雑さを$N$、二階のオラクルを得る複雑さを$dN$と仮定する。
本稿では,Hessianを反復的に再利用することで,計算コストを削減可能であることを示す。
我々の手法は、$ \tilde{\mathcal{O}}((N+d^2)(d+d^{2/3}\epsilon^{-2/3}))$の計算複雑性を、d^{1/3}$の係数で改善する。
さらに,本手法を強凸・強凸最小値問題に一般化し,問題の条件数が$\kappa$である場合の$$\tilde{\mathcal{O}}((N+d^2)(d + d^{2/3} \kappa^{2/3})の複雑性を確立する。
実データと合成データの両方に関する数値実験により,本手法の有効性が検証された。
This paper studies second-order methods for convex-concave minimax optimization. Monteiro and Svaiter (2012) proposed a method to solve the problem with an optimal iteration complexity of $\mathcal{O}(\epsilon^{-3/2})$ to find an $\epsilon$-saddle point. However, it is unclear whether the computational complexity, $\mathcal{O}((N+ d^2) d \epsilon^{-2/3})$, can be improved. In the above, we follow Doikov et al. (2023) and assume the complexity of obtaining a first-order oracle as $N$ and the complexity of obtaining a second-order oracle as $dN$. In this paper, we show that the computation cost can be reduced by reusing Hessian across iterations. Our methods take the overall computational complexity of $ \tilde{\mathcal{O}}( (N+d^2)(d+ d^{2/3}\epsilon^{-2/3}))$, which improves those of previous methods by a factor of $d^{1/3}$. Furthermore, we generalize our method to strongly-convex-strongly-concave minimax problems and establish the complexity of $\tilde{\mathcal{O}}((N+d^2) (d + d^{2/3} \kappa^{2/3}) )$ when the condition number of the problem is $\kappa$, enjoying a similar speedup upon the state-of-the-art method. Numerical experiments on both real and synthetic datasets also verify the efficiency of our method. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# 人間か? LLMを公開するための逆ベンチマーク
Are You Human? An Adversarial Benchmark to Expose LLMs ( http://arxiv.org/abs/2410.09569v1 ) ライセンス: Link先を確認 | Gilad Gressel, Rahul Pankajakshan, Yisroel Mirsky, | (参考訳) LLM(Large Language Models)は、会話中に人間を偽装する警告能力を示し、詐欺や詐欺の潜在的な誤用に対する懸念を提起している。
人間には、LLMと会話しているかどうかを知る権利がある。
LLMインポスタをリアルタイムに公開するための課題として設計されたテキストベースのプロンプトを評価する。
この目的のために、私たちは、LLMの命令フォロー機構を利用して役割の逸脱を引き起こす'単純なチャレンジ'と、LLMの単純なタスクを実行する能力をテストする'明示的なチャレンジ'を含む、オープンソースのベンチマークデータセットをコンパイルしてリリースしました。
LMSYSのリーダーボードから9つの主要なモデルを評価すると、78.4%のケースにおいて明示的な課題がLLMの検出に成功し、22.9%のケースでは暗黙的な課題が有効であることが判明した。
ユーザスタディは、我々の方法の現実的な適用性を評価し、人間は明示的な課題(成功率の78%対22%)でLLMを上回ります。
我々のフレームワークは、多くの研究参加者がLLMを使ってタスクを完了し、AIインポスタと人間のAIツールの誤用の両方を検出する効果を実証していることを予期せず明らかにした。
本研究は,高精度な会話において,信頼度の高いリアルタイムLLM検出手法の必要性に対処する。
Large Language Models (LLMs) have demonstrated an alarming ability to impersonate humans in conversation, raising concerns about their potential misuse in scams and deception. Humans have a right to know if they are conversing to an LLM. We evaluate text-based prompts designed as challenges to expose LLM imposters in real-time. To this end we compile and release an open-source benchmark dataset that includes 'implicit challenges' that exploit an LLM's instruction-following mechanism to cause role deviation, and 'exlicit challenges' that test an LLM's ability to perform simple tasks typically easy for humans but difficult for LLMs. Our evaluation of 9 leading models from the LMSYS leaderboard revealed that explicit challenges successfully detected LLMs in 78.4% of cases, while implicit challenges were effective in 22.9% of instances. User studies validate the real-world applicability of our methods, with humans outperforming LLMs on explicit challenges (78% vs 22% success rate). Our framework unexpectedly revealed that many study participants were using LLMs to complete tasks, demonstrating its effectiveness in detecting both AI impostors and human misuse of AI tools. This work addresses the critical need for reliable, real-time LLM detection methods in high-stakes conversations. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# GETS: グラフニューラルネットワークにおけるキャリブレーションのためのアンサンブル温度スケーリング
GETS: Ensemble Temperature Scaling for Calibration in Graph Neural Networks ( http://arxiv.org/abs/2410.09570v1 ) ライセンス: Link先を確認 | Dingyi Zhuang, Chonghe Jiang, Yunhan Zheng, Shenhao Wang, Jinhua Zhao, | (参考訳) グラフニューラルネットワークは強力な分類結果を提供するが、しばしばキャリブレーション性能の低下に悩まされ、自信過剰や自信不足につながる。
これは、正確な不確実性推定が不可欠である高い利害関係のアプリケーションでは特に問題となる。
温度スケーリングのような既存のポストホック法はグラフ構造を効果的に利用できないが、現在のGNNキャリブレーション法は様々な入力情報とモデルアンサンブルを併用する可能性をしばしば見落としている。
本稿では,10GNNベンチマークデータセットにおいて,入力とモデルアンサンブル戦略を組み合わせた新たなキャリブレーションフレームワークであるGraph Ensemble Temperature Scalingを提案し,キャリブレーション誤差を25%低減する。
さらに、GETSは計算効率が良く、スケーラブルで、キャリブレーション性能を向上させる効果的な入力の組み合わせを選択することができる。
Graph Neural Networks deliver strong classification results but often suffer from poor calibration performance, leading to overconfidence or underconfidence. This is particularly problematic in high stakes applications where accurate uncertainty estimates are essential. Existing post hoc methods, such as temperature scaling, fail to effectively utilize graph structures, while current GNN calibration methods often overlook the potential of leveraging diverse input information and model ensembles jointly. In the paper, we propose Graph Ensemble Temperature Scaling, a novel calibration framework that combines input and model ensemble strategies within a Graph Mixture of Experts archi SOTA calibration techniques, reducing expected calibration error by 25 percent across 10 GNN benchmark datasets. Additionally, GETS is computationally efficient, scalable, and capable of selecting effective input combinations for improved calibration performance. | 翻訳日:2024-10-30 13:45:15 公開日:2024-10-12 |
# 再建型視覚インストラクションチューニング
Reconstructive Visual Instruction Tuning ( http://arxiv.org/abs/2410.09575v1 ) ライセンス: Link先を確認 | Haochen Wang, Anlin Zheng, Yucheng Zhao, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Zhaoxiang Zhang, | (参考訳) 本稿では、視覚中心の監視信号を利用するLarge Multimodal Models(LMM)のファミリーであるRestructive visual instruction tuning(ROSS)を紹介する。
テキスト出力を排他的に監督する従来のビジュアルインストラクションチューニングアプローチとは対照的に、ROSはLMMに対して、入力画像の再構成を通じて視覚出力を監督するように促している。
これにより、入力画像自体に存在する固有の豊かさと細部を活かし、純粋なテキスト管理においてしばしば失われる。
しかし、視覚信号の空間的冗長性が高いため、自然画像から有意義なフィードバックを生み出すことは困難である。
この問題に対処するため、ROSSは、入力画像の遅延表現を再構築するために、正確なRGB値を直接回帰するのを避けるために、妄想的目的を用いる。
この本質的なアクティベーション設計は、本質的にLMMが画像の詳細を維持することを奨励し、それによって細粒度の理解能力を高め、幻覚を減少させる。
経験的に、ROSSは、異なるビジュアルエンコーダと言語モデルに対して、一貫して大幅に改善されている。
複数のビジュアルエキスパートを集約する非本質的な支援方法と比較すると、ROSは単一のSigLIPビジュアルエンコーダで競合性能を提供し、視覚的なアウトプットに適したビジョン中心のインスペクションの有効性を実証する。
This paper introduces reconstructive visual instruction tuning (ROSS), a family of Large Multimodal Models (LMMs) that exploit vision-centric supervision signals. In contrast to conventional visual instruction tuning approaches that exclusively supervise text outputs, ROSS prompts LMMs to supervise visual outputs via reconstructing input images. By doing so, it capitalizes on the inherent richness and detail present within input images themselves, which are often lost in pure text supervision. However, producing meaningful feedback from natural images is challenging due to the heavy spatial redundancy of visual signals. To address this issue, ROSS employs a denoising objective to reconstruct latent representations of input images, avoiding directly regressing exact raw RGB values. This intrinsic activation design inherently encourages LMMs to maintain image detail, thereby enhancing their fine-grained comprehension capabilities and reducing hallucinations. Empirically, ROSS consistently brings significant improvements across different visual encoders and language models. In comparison with extrinsic assistance state-of-the-art alternatives that aggregate multiple visual experts, ROSS delivers competitive performance with a single SigLIP visual encoder, demonstrating the efficacy of our vision-centric supervision tailored for visual outputs. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 生成AI時代の学習の未来:大規模言語モデルによる質問の自動生成と評価
The Future of Learning in the Age of Generative AI: Automated Question Generation and Assessment with Large Language Models ( http://arxiv.org/abs/2410.09576v1 ) ライセンス: Link先を確認 | Subhankar Maity, Aniket Deroy, | (参考訳) 近年、大規模言語モデル(LLM)と生成AIは自然言語処理(NLP)に革命をもたらし、教育における前例のない能力を提供している。
本章では,自動質問生成と回答評価におけるLLMの変容の可能性について考察する。
まず、LLMの背後にあるメカニズムを調べ、人間のようなテキストを理解して生成する能力を強調します。
この章では、多様で文脈に関連のある質問を作成し、調整された適応戦略を通じて学習を強化する方法論について論じている。
ゼロショットやチェーン・オブ・ソート・プロンプトといったキープロンプト技術は、様々な言語におけるオープンエンドおよびマルチチョイス形式を含む高品質な質問を生成する上での有効性について評価する。
細調整やプロンプトチューニングといった高度なNLP手法は、関連するコストにもかかわらず、タスク固有の質問を生成する役割について検討している。
この章では、生成された質問に対する人間による評価についても取り上げ、さまざまな方法や改善の領域における品質の変化を強調している。
さらに、自動回答アセスメントを掘り下げ、LLMがいかにしてレスポンスを正確に評価し、建設的なフィードバックを提供し、曖昧な理解や誤解を識別できるかを実証する。
例は、評価の成功と改善が必要な領域の両方を示しています。
この議論は、LLMが教育プロセスの合理化における高度な理解と推論能力を示し、適切な指導を行う際に、費用がかかる時間を要する人間の評価を置き換える可能性を強調している。
In recent years, large language models (LLMs) and generative AI have revolutionized natural language processing (NLP), offering unprecedented capabilities in education. This chapter explores the transformative potential of LLMs in automated question generation and answer assessment. It begins by examining the mechanisms behind LLMs, emphasizing their ability to comprehend and generate human-like text. The chapter then discusses methodologies for creating diverse, contextually relevant questions, enhancing learning through tailored, adaptive strategies. Key prompting techniques, such as zero-shot and chain-of-thought prompting, are evaluated for their effectiveness in generating high-quality questions, including open-ended and multiple-choice formats in various languages. Advanced NLP methods like fine-tuning and prompt-tuning are explored for their role in generating task-specific questions, despite associated costs. The chapter also covers the human evaluation of generated questions, highlighting quality variations across different methods and areas for improvement. Furthermore, it delves into automated answer assessment, demonstrating how LLMs can accurately evaluate responses, provide constructive feedback, and identify nuanced understanding or misconceptions. Examples illustrate both successful assessments and areas needing improvement. The discussion underscores the potential of LLMs to replace costly, time-consuming human assessments when appropriately guided, showcasing their advanced understanding and reasoning capabilities in streamlining educational processes. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# ニューラルネットワークの構造 -実証的研究-
Structure of Artificial Neural Networks -- Empirical Investigations ( http://arxiv.org/abs/2410.09579v1 ) ライセンス: Link先を確認 | Julian Stier, | (参考訳) 10年以内にDeep Learningは、人工知能の数え切れないほどの問題を、支配的な解法で克服した。
ディープ」とは、直近の観測がない多様体の操作を伴う深いアーキテクチャを指す。
このような深いアーキテクチャでは、何らかの構造が事前に定義されています -- しかし、この構造は何でしょうか?
ニューラルネットワークの構造を形式的に定義することで、ニューラルネットワークの探索問題と解法を共通の枠組みで定式化することができる。
実用的および理論的疑問は、応用されたニューラルネットワーク探索と学習理論の間のギャップを埋めることから生じる。
構造は違いをもたらすのか、それとも任意に選択できるのか?
この研究は、人工ニューラルネットワークの深部構造に関係し、いわゆる「ブラックボックスモデル」に光を放つ経験的原理の下で自動構築方法を検討する。
私たちのコントリビューションには、ニューラルネットワークの最適化問題に対処するために使用されるグラフ誘発ニューラルネットワークの定式化が含まれています。
我々は、ニューラルネットワークの目的の正しさ、堅牢性、エネルギー消費などの構造特性を分析し、構造がそれらにどのように影響するかについて議論する。
ニューラルネットワーク最適化問題に対する選択された自動化手法を議論し、経験的に分析する。
グラフ誘発ニューラルネットワークの形式化から得られた知見により、構造特性を分析し、ニューラルネットワーク探索法の適用性を質的かつ定量的に比較し、これらの手法を2つの方法で進める。
第1に,計算コストの高い評価スキームを置き換えるための新しい予測モデルが提示され,第2に,ニューラルアーキテクチャ探索時の情報サンプリングのための新たな生成モデルが分析され,議論される。
Within one decade, Deep Learning overtook the dominating solution methods of countless problems of artificial intelligence. ``Deep'' refers to the deep architectures with operations in manifolds of which there are no immediate observations. For these deep architectures some kind of structure is pre-defined -- but what is this structure? With a formal definition for structures of neural networks, neural architecture search problems and solution methods can be formulated under a common framework. Both practical and theoretical questions arise from closing the gap between applied neural architecture search and learning theory. Does structure make a difference or can it be chosen arbitrarily? This work is concerned with deep structures of artificial neural networks and examines automatic construction methods under empirical principles to shed light on to the so called ``black-box models''. Our contributions include a formulation of graph-induced neural networks that is used to pose optimisation problems for neural architecture. We analyse structural properties for different neural network objectives such as correctness, robustness or energy consumption and discuss how structure affects them. Selected automation methods for neural architecture optimisation problems are discussed and empirically analysed. With the insights gained from formalising graph-induced neural networks, analysing structural properties and comparing the applicability of neural architecture search methods qualitatively and quantitatively we advance these methods in two ways. First, new predictive models are presented for replacing computationally expensive evaluation schemes, and second, new generative models for informed sampling during neural architecture search are analysed and discussed. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# SAPIENT: ストラテジックプランニングとモンテカルロ木探索によるマルチターン会話推薦のマスタリング
SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search ( http://arxiv.org/abs/2410.09580v1 ) ライセンス: Link先を確認 | Hanwen Du, Bo Peng, Xia Ning, | (参考訳) Conversational Recommender Systems (CRS)は、対話的な対話を積極的に行い、ユーザの好みを導き、パーソナライズされたレコメンデーションを提供する。
既存の方法は、強欲な行動選択やサンプリング戦略を備えた強化学習(RL)ベースのエージェントを訓練し、最適な会話計画に悩まされる可能性がある。
そこで本研究では,モンテカルロ木探索(MCTS)に基づくCRSフレームワークSAPIENTを提案する。
SAPIENTは会話エージェント(Sエージェント)と会話プランナー(Sプランナー)で構成される。
S-plannerは、S-agentが会話計画を見つけるために提案した初期アクションに基づいて、MCTSを用いた会話検索ツリーを構築する。
S-プランナーの最良の会話プランは、S-エージェントの訓練をガイドするために使用され、S-エージェントが会話計画の能力を反復的に改善できる自己学習ループを作成する。
さらに,学習効率と性能のトレードオフを考慮した効率的なSAPIENT-eを提案する。
4つのベンチマークデータセットによる大規模な実験により、SAPIENTは最先端のベースラインよりも優れていることが示された。
Conversational Recommender Systems (CRS) proactively engage users in interactive dialogues to elicit user preferences and provide personalized recommendations. Existing methods train Reinforcement Learning (RL)-based agent with greedy action selection or sampling strategy, and may suffer from suboptimal conversational planning. To address this, we present a novel Monte Carlo Tree Search (MCTS)-based CRS framework SAPIENT. SAPIENT consists of a conversational agent (S-agent) and a conversational planner (S-planner). S-planner builds a conversational search tree with MCTS based on the initial actions proposed by S-agent to find conversation plans. The best conversation plans from S-planner are used to guide the training of S-agent, creating a self-training loop where S-agent can iteratively improve its capability for conversational planning. Furthermore, we propose an efficient variant SAPIENT-e for trade-off between training efficiency and performance. Extensive experiments on four benchmark datasets validate the effectiveness of our approach, showing that SAPIENT outperforms the state-of-the-art baselines. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 一般化可能なニューラルレンダリングによる3次元指のトラヒック認識の改善
Improving 3D Finger Traits Recognition via Generalizable Neural Rendering ( http://arxiv.org/abs/2410.09582v1 ) ライセンス: Link先を確認 | Hongbin Xu, Junduan Huang, Yuer Ma, Zifeng Li, Wenxiong Kang, | (参考訳) 指の特徴に対する3次元生体計測技術は新しいトレンドとなり、認識と反偽造の強力な能力を示している。
既存の方法は、まずモデルを再構築し、3Dモデルから特徴を抽出する明示的な3Dパイプラインに従う。
しかし、これらの明示的な3D手法は以下の問題に悩まされる。
1) 3次元再構築中に必然的に情報を落とすこと。
2) 特定のハードウェアと3次元再構成アルゴリズムの密結合性。
認識タスクにおいて3D情報を明示的に再構築することは不可欠か?
そこで我々は,この問題を暗黙的に考察し,ニューラルレイディアンスフィールド(NeRF)の助けを借りて,学習可能なニューラルネットワークの3次元再構成問題を残した。
3Dフィンガーバイオメトリックスのための新しい一般化可能なNeRFであるFingerNeRFを提案する。
形状・輝度の曖昧さの問題に対処するため, 指紋や指の静脈などの二本指の特徴を対応づけることで, 余分な幾何学的先入観を取り入れることを目指す。
まず,指の特徴の指導と特徴対応性を高めるため,新しいTGTモジュールを提案する。
第2に,提案したDepth Distillation Loss と Trait Guided Rendering Loss で,ボリュームレンダリング損失に余分な幾何学的制約を課す。
提案手法の性能評価のために,指画像を用いたSCUT-Finger-3Dと指静脈画像を用いたSCUT-FingerVein-3Dの2つの新しいデータセットを収集した。
また,UNSW-3Dデータセットと指紋画像を用いて評価を行った。
実験では、SCUT-Finger-3Dデータセットで4.37%のEER、SCUT-FingerVein-3Dデータセットで8.12%のEER、UNSW-3Dデータセットで2.90%のEERを達成できた。
3D biometric techniques on finger traits have become a new trend and have demonstrated a powerful ability for recognition and anti-counterfeiting. Existing methods follow an explicit 3D pipeline that reconstructs the models first and then extracts features from 3D models. However, these explicit 3D methods suffer from the following problems: 1) Inevitable information dropping during 3D reconstruction; 2) Tight coupling between specific hardware and algorithm for 3D reconstruction. It leads us to a question: Is it indispensable to reconstruct 3D information explicitly in recognition tasks? Hence, we consider this problem in an implicit manner, leaving the nerve-wracking 3D reconstruction problem for learnable neural networks with the help of neural radiance fields (NeRFs). We propose FingerNeRF, a novel generalizable NeRF for 3D finger biometrics. To handle the shape-radiance ambiguity problem that may result in incorrect 3D geometry, we aim to involve extra geometric priors based on the correspondence of binary finger traits like fingerprints or finger veins. First, we propose a novel Trait Guided Transformer (TGT) module to enhance the feature correspondence with the guidance of finger traits. Second, we involve extra geometric constraints on the volume rendering loss with the proposed Depth Distillation Loss and Trait Guided Rendering Loss. To evaluate the performance of the proposed method on different modalities, we collect two new datasets: SCUT-Finger-3D with finger images and SCUT-FingerVein-3D with finger vein images. Moreover, we also utilize the UNSW-3D dataset with fingerprint images for evaluation. In experiments, our FingerNeRF can achieve 4.37% EER on SCUT-Finger-3D dataset, 8.12% EER on SCUT-FingerVein-3D dataset, and 2.90% EER on UNSW-3D dataset, showing the superiority of the proposed implicit method in 3D finger biometrics. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 総合的な指示追従アライメントに向けて : 検索型世代をめざして
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation ( http://arxiv.org/abs/2410.09584v1 ) ライセンス: Link先を確認 | Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen, | (参考訳) Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
近年のLarge Language Models (LLMs) の進歩にもかかわらず、RAG領域における命令追従(IF)アライメントの評価と改善に関する研究は限られている。
この問題に対処するために,RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
まず、最小限の原子命令(<100)を手作業で作成し、シードセットの複雑な命令を合成し検証するための組み合わせルールを開発する。
次に、教師付きモデルを用いて命令書き換えを行い、同時にコードを生成し、Pythonエグゼキュータを介して命令品質の検証を自動化する。
最後に、これらの命令を広範なRAGと一般的なデータサンプルと統合し、自動化プロセスを通じて高品質なVIF-RAG-QAデータセット(>100k)にスケールアップする。
RAGシステムにおける命令追従自動評価のギャップをさらに埋めるため、約3Kテストサンプルを含むFollowRAGベンチマークを導入し、22の一般的な命令制約と4つの知識集約型QAデータセットを網羅した。
堅牢なパイプライン設計のため、FollowRAGは異なるRAGベンチマークとシームレスに統合できる。
FollowRAG と 8 つの広く使用されているIF と LLM の基盤能力ベンチマークを用いて,VIF-RAG がRAG のシナリオにおいてその能力を効果的に活用しつつ,幅広い一般的な命令制約にまたがる LLM 性能を著しく向上することを示した。
さらなる分析は、RAGシステムにおいてIFアライメントを達成するための実践的な洞察を提供する。
私たちのコードとデータセットはhttps://FollowRAG.github.io.comで公開されています。
Following natural instructions is crucial for the effective application of Retrieval-Augmented Generation (RAG) systems. Despite recent advancements in Large Language Models (LLMs), research on assessing and improving instruction-following (IF) alignment within the RAG domain remains limited. To address this issue, we propose VIF-RAG, the first automated, scalable, and verifiable synthetic pipeline for instruction-following alignment in RAG systems. We start by manually crafting a minimal set of atomic instructions (<100) and developing combination rules to synthesize and verify complex instructions for a seed set. We then use supervised models for instruction rewriting while simultaneously generating code to automate the verification of instruction quality via a Python executor. Finally, we integrate these instructions with extensive RAG and general data samples, scaling up to a high-quality VIF-RAG-QA dataset (>100k) through automated processes. To further bridge the gap in instruction-following auto-evaluation for RAG systems, we introduce FollowRAG Benchmark, which includes approximately 3K test samples, covering 22 categories of general instruction constraints and four knowledge-intensive QA datasets. Due to its robust pipeline design, FollowRAG can seamlessly integrate with different RAG benchmarks. Using FollowRAG and eight widely-used IF and foundational abilities benchmarks for LLMs, we demonstrate that VIF-RAG markedly enhances LLM performance across a broad range of general instruction constraints while effectively leveraging its capabilities in RAG scenarios. Further analysis offers practical insights for achieving IF alignment in RAG systems. Our code and datasets are released at https://FollowRAG.github.io. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# Bayesian Sheaf Neural Networks
Bayesian Sheaf Neural Networks ( http://arxiv.org/abs/2410.09590v1 ) ライセンス: Link先を確認 | Patrick Gillespie, Vasileios Maroulas, Ioannis Schizas, | (参考訳) セルラー層で定義された畳み込み操作によるグラフニューラルネットワークの取得は、異種グラフデータの表現表現を学習する上での利点を提供する。
層を構築するための最も柔軟なアプローチは、ノード機能の関数としてネットワークの一部としてそれを学ぶことである。
しかし、これによってネットワークは学習した棚に過度に敏感になる可能性がある。
対策として,せん断ニューラルネットワーク内の細胞層を学習し,ベイズ型せん断ニューラルネットワーク(Bayesian sheaf Neural Network)と呼ぶアーキテクチャを提案する。
この研究の一環として、ケイリー変換を用いて回転群 $SO(n)$ 上の再パラメータ化可能な確率分布の新しい族を定義する。
いくつかのグラフデータセット上でベイズ層ニューラルネットワークを評価し,トレーニングデータに制限がある場合,ベイズ層モデルは決定論的層モデルよりも優れ,ハイパーパラメータの選択に敏感でないことを示す。
Equipping graph neural networks with a convolution operation defined in terms of a cellular sheaf offers advantages for learning expressive representations of heterophilic graph data. The most flexible approach to constructing the sheaf is to learn it as part of the network as a function of the node features. However, this leaves the network potentially overly sensitive to the learned sheaf. As a counter-measure, we propose a variational approach to learning cellular sheaves within sheaf neural networks, yielding an architecture we refer to as a Bayesian sheaf neural network. As part of this work, we define a novel family of reparameterizable probability distributions on the rotation group $SO(n)$ using the Cayley transform. We evaluate the Bayesian sheaf neural network on several graph datasets, and show that our Bayesian sheaf models outperform deterministic sheaf models when training data is limited, and are less sensitive to the choice of hyperparameters. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# Unlearn and Burn: 敵マシンのアンラーニング要求がモデル精度を低下させる
Unlearn and Burn: Adversarial Machine Unlearning Requests Destroy Model Accuracy ( http://arxiv.org/abs/2410.09591v1 ) ライセンス: Link先を確認 | Yangsibo Huang, Daogao Liu, Lynn Chua, Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Milad Nasr, Amer Sinha, Chiyuan Zhang, | (参考訳) モデルからトレーニングデータを選択的に除去するために設計された機械学習アルゴリズムは、プライバシー上の懸念を増すための有望なアプローチとして登場した。
この研究では、未学習システムのデプロイにおいて、重要で未調査の脆弱性を明らかにする。削除要求されたデータが、常に元のトレーニングセットの一部であるという仮定だ。
本稿では,訓練セットに存在しないデータに対して,逆学習要求を送信することにより,攻撃者がモデル精度を劣化させることができる脅威モデルを提案する。
我々は,CIFAR-10とImageNetデータセットを用いた画像分類タスクのケーススタディを通じて,ホワイトボックスとブラックボックス攻撃アルゴリズムを提案し,それらを評価した。
CIFAR-10が3.6%、ImageNetが0.4%、CIFAR-10が8.5%、ImageNetが1.3%である。
さらに、未学習要求の正当性を検出するための様々な検証機構を評価し、検証の課題を明らかにし、ほとんどのメカニズムは、有効な要求を処理する能力を著しく損なうことなく、ステルス攻撃を検知できないため、検証の課題を明らかにする。
これらの知見は、マシンアンラーニングシステムのデプロイが将来的により普及すれば、より堅牢な要求検証方法や未学習プロトコルの研究が緊急に必要になることを示している。
Machine unlearning algorithms, designed for selective removal of training data from models, have emerged as a promising approach to growing privacy concerns. In this work, we expose a critical yet underexplored vulnerability in the deployment of unlearning systems: the assumption that the data requested for removal is always part of the original training set. We present a threat model where an attacker can degrade model accuracy by submitting adversarial unlearning requests for data not present in the training set. We propose white-box and black-box attack algorithms and evaluate them through a case study on image classification tasks using the CIFAR-10 and ImageNet datasets, targeting a family of widely used unlearning methods. Our results show extremely poor test accuracy following the attack: 3.6% on CIFAR-10 and 0.4% on ImageNet for white-box attacks, and 8.5% on CIFAR-10 and 1.3% on ImageNet for black-box attacks. Additionally, we evaluate various verification mechanisms to detect the legitimacy of unlearning requests and reveal the challenges in verification, as most of the mechanisms fail to detect stealthy attacks without severely impairing their ability to process valid requests. These findings underscore the urgent need for research on more robust request verification methods and unlearning protocols, should the deployment of machine unlearning systems become more prevalent in the future. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# ControLRM:大規模再構成モデルによる高速かつ制御可能な3次元生成
ControLRM: Fast and Controllable 3D Generation via Large Reconstruction Model ( http://arxiv.org/abs/2410.09592v1 ) ライセンス: Link先を確認 | Hongbin Xu, Weitao Chen, Zhipeng Zhou, Feng Xiao, Baigui Sun, Mike Zheng Shou, Wenxiong Kang, | (参考訳) 近年の3次元生成手法の進歩にもかかわらず、制御性を達成することは依然として難しい問題である。
スコア蒸留サンプリングを利用した最近のアプローチは、かなりの時間を消費する手間のかかる手順によって妨げられている。
さらに、2D表現を最初に生成し、3Dにマッピングするプロセスは、2つの表現形式の間の内部的なアライメントを欠いている。
これらの課題に対処するために,大規模な再構成モデル(LRM)を用いた高速かつ制御可能な3D生成のためのエンドツーエンドフィードフォワードモデルであるControLRMを紹介した。
ControLRMは、2Dコンディションジェネレータ、コンディションエンコーディングトランス、トリプレーンデコーダトランスを備える。
モデルをゼロからトレーニングする代わりに、共同トレーニングフレームワークを提唱します。
条件訓練部では, トリプレーンデコーダをロックし, LRM内の数百万の3Dデータで事前訓練されたディープ・ロバストな符号化層を再利用する。
画像訓練部では, 3次元デコーダをアンロックして2次元表現と3次元表現の間に暗黙のアライメントを確立する。
偏りのない評価を確保するため, チェリーピッキングマニュアル生成に頼るのではなく, 3つの異なるデータセット(G-OBJ, GSO, ABO)からの評価サンプルをキュレートする。
3次元制御性と生成品質の定量的および定性的比較を行った総合的な実験は,提案手法の強い一般化能力を示している。
Despite recent advancements in 3D generation methods, achieving controllability still remains a challenging issue. Current approaches utilizing score-distillation sampling are hindered by laborious procedures that consume a significant amount of time. Furthermore, the process of first generating 2D representations and then mapping them to 3D lacks internal alignment between the two forms of representation. To address these challenges, we introduce ControLRM, an end-to-end feed-forward model designed for rapid and controllable 3D generation using a large reconstruction model (LRM). ControLRM comprises a 2D condition generator, a condition encoding transformer, and a triplane decoder transformer. Instead of training our model from scratch, we advocate for a joint training framework. In the condition training branch, we lock the triplane decoder and reuses the deep and robust encoding layers pretrained with millions of 3D data in LRM. In the image training branch, we unlock the triplane decoder to establish an implicit alignment between the 2D and 3D representations. To ensure unbiased evaluation, we curate evaluation samples from three distinct datasets (G-OBJ, GSO, ABO) rather than relying on cherry-picking manual generation. The comprehensive experiments conducted on quantitative and qualitative comparisons of 3D controllability and generation quality demonstrate the strong generalization capacity of our proposed approach. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# FiRework: 変形可能な登録の効率化のためのフィールドリファインメントフレームワーク
FiRework: Field Refinement Framework for Efficient Enhancement of Deformable Registration ( http://arxiv.org/abs/2410.09595v1 ) ライセンス: Link先を確認 | Haiqiao Wang, Dong Ni, Yi Wang, | (参考訳) 変形可能な画像登録は、臨床実践において依然として基本的な課題であるが、複雑な変形を伴う登録問題の解決は依然として困難である。
現在のディープラーニングベースの登録法では、大規模な変形をモデル化するために連続的な変形を用いるが、これはしばしば蓄積された登録エラーや補間不正確さに悩まされる。
さらに、これらのフレームワークで満足な結果を達成するには、典型的には大量のカスケードステージを必要とし、かなりの計算資源を必要とする。
そこで本稿では,これらの課題に対処するために,教師なしの変形可能な登録に適したフィールドリファインメントフレームワーク(FiRework)を提案する。
FiReworkでは、上記のエラーを軽減するために、連続的な変形フレームワークを再設計する。
特に、我々のFiReworkはトレーニング中に1つのレベルの再帰しか必要とせず、継続的な推論をサポートし、継続的な変形フレームワークと比較して改善された有効性を提供します。
我々は2つの脳MRIデータセットの実験を行い、2つの既存の変形可能な登録ネットワークをFiReworkで拡張した。
実験により,変形可能な登録における提案手法の優れた性能が示された。
コードはhttps://github.com/ZAX130/FiRework.comで公開されている。
Deformable image registration remains a fundamental task in clinical practice, yet solving registration problems involving complex deformations remains challenging. Current deep learning-based registration methods employ continuous deformation to model large deformations, which often suffer from accumulated registration errors and interpolation inaccuracies. Moreover, achieving satisfactory results with these frameworks typically requires a large number of cascade stages, demanding substantial computational resources. Therefore, we propose a novel approach, the field refinement framework (FiRework), tailored for unsupervised deformable registration, aiming to address these challenges. In FiRework, we redesign the continuous deformation framework to mitigate the aforementioned errors. Notably, our FiRework requires only one level of recursion during training and supports continuous inference, offering improved efficacy compared to continuous deformation frameworks. We conducted experiments on two brain MRI datasets, enhancing two existing deformable registration networks with FiRework. The experimental results demonstrate the superior performance of our proposed framework in deformable registration. The code is publicly available at https://github.com/ZAX130/FiRework. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# マスタリングAI - ビッグデータ、ディープラーニング、大規模言語モデルの進化 - 基本から最先端技術への自動ML
Mastering AI: Big Data, Deep Learning, and the Evolution of Large Language Models -- AutoML from Basics to State-of-the-Art Techniques ( http://arxiv.org/abs/2410.09596v1 ) ライセンス: Link先を確認 | Pohsun Feng, Ziqian Bi, Yizhu Wen, Benji Peng, Junyu Liu, Caitlyn Heqi Yin, Tianyang Wang, Keyu Chen, Sen Zhang, Ming Li, Jiawei Xu, Ming Liu, Xuanhe Pan, Jinlang Wang, Qian Niu, | (参考訳) この原稿は、基本原則、実践的実装、将来のトレンドを網羅した、Automated Machine Learning(AutoML)の包括的なガイドを提供する。
この論文は、初心者と経験豊富な実践者の両方を支援するために構築されており、TPOT、AutoGluon、Auto-Kerasといった一般的なAutoMLツールについて詳細な議論がなされている。
また、ニューラルネットワーク検索(NAS)やディープラーニングにおけるAutoMLのアプリケーションといった、新たなトピックにも対処している。
この研究は、AIと機械学習の分野での継続的な研究と開発に寄与すると考えています。
This manuscript presents a comprehensive guide to Automated Machine Learning (AutoML), covering fundamental principles, practical implementations, and future trends. The paper is structured to assist both beginners and experienced practitioners, with detailed discussions on popular AutoML tools such as TPOT, AutoGluon, and Auto-Keras. It also addresses emerging topics like Neural Architecture Search (NAS) and AutoML's applications in deep learning. We believe this work will contribute to ongoing research and development in the field of AI and machine learning. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 確率雑音帯域の学習性に関する一評価
A Complete Characterization of Learnability for Stochastic Noisy Bandits ( http://arxiv.org/abs/2410.09597v1 ) ライセンス: Link先を確認 | Steve Hanneke, Kun Wang, | (参考訳) 未知の報酬関数 $f^*$ を既知の関数クラス $\mathcal{F}$ において確率的雑音帯域問題を研究する。
形式的には、モデル$M$はアーム$\pi$を確率分布$M(\pi)$の報酬にマップする。
モデルクラス $\mathcal{M}$ はモデルの集合である。
M$ の各モデルに対して、平均報酬関数 $f^M(\pi)=\mathbb{E}_{r \sim M(\pi)}[r]$ を定義する。
バンディット学習問題では、各ラウンドごとに1つのアーム$\pi$を引いて、M(\pi)$からサンプリングされた報酬を観察する。
真のモデル $M\in \mathcal{M}$ を仮定する $\mathcal{M}$ の知識により、その目的は、有界なラウンド数において高い確率を持つ極大平均報酬 $f^M(\hat{\pi})$ をアーム $\hat{\pi}$ と同定することである。
これが可能であれば、モデルクラスは学習可能であると言われる。
重要なことに \cite{hanneke2023bandit} の結果は、学習可能性が決定不能なモデルクラスが存在することを示している。
しかし, モデルクラスは, 決定論的報酬を考慮し, 十分うるさいモデルを含むクラスに対して, 学習性は決定可能であるかという疑問を提起する。
任意の雑音を持つモデルクラスに対して、学習可能性の完全な評価を与えることで、この疑問に初めて肯定的に答える。
それに加えて、最適なクエリの複雑さの全スペクトルについても記述する。
さらに,最適なクエリ複雑性を実現するためには適応性が必要であることも証明する。
最後に、対話型意思決定のための重要な複雑さ尺度であるDecision-Estimation-Coefficient \citep{foster2021statistical,foster2023tight}を再検討し、この設定における学習性も特徴付ける新しいDECを提案する。
We study the stochastic noisy bandit problem with an unknown reward function $f^*$ in a known function class $\mathcal{F}$. Formally, a model $M$ maps arms $\pi$ to a probability distribution $M(\pi)$ of reward. A model class $\mathcal{M}$ is a collection of models. For each model $M$, define its mean reward function $f^M(\pi)=\mathbb{E}_{r \sim M(\pi)}[r]$. In the bandit learning problem, we proceed in rounds, pulling one arm $\pi$ each round and observing a reward sampled from $M(\pi)$. With knowledge of $\mathcal{M}$, supposing that the true model $M\in \mathcal{M}$, the objective is to identify an arm $\hat{\pi}$ of near-maximal mean reward $f^M(\hat{\pi})$ with high probability in a bounded number of rounds. If this is possible, then the model class is said to be learnable. Importantly, a result of \cite{hanneke2023bandit} shows there exist model classes for which learnability is undecidable. However, the model class they consider features deterministic rewards, and they raise the question of whether learnability is decidable for classes containing sufficiently noisy models. For the first time, we answer this question in the positive by giving a complete characterization of learnability for model classes with arbitrary noise. In addition to that, we also describe the full spectrum of possible optimal query complexities. Further, we prove adaptivity is sometimes necessary to achieve the optimal query complexity. Last, we revisit an important complexity measure for interactive decision making, the Decision-Estimation-Coefficient \citep{foster2021statistical,foster2023tight}, and propose a new variant of the DEC which also characterizes learnability in this setting. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 量子ゲーム戦略の移動
Transfer of quantum game strategies ( http://arxiv.org/abs/2410.09599v1 ) ライセンス: Link先を確認 | Gage Hoefer, | (参考訳) 本研究では, 量子情報理論のシミュレーションパラダイムを用いて, 量子入力と出力を用いた2人プレイヤ, 1ラウンドの非局所ゲーム間の完全戦略の伝達法を開発した。
我々は、H. と Todorov (2024) のジョイントワークで定義されるように、各ゲームに対して正則に付随する作用素空間が量子準同型あるいは同型であるときにそのような移動が可能であることを示す。
そこで我々は,ゲーム間の戦略伝達に必要な新たなQNS相関のクラスについて検討し,標準作用素系のテンソル積の状態を特徴付ける。
連立トラシアル相関を定義し、それらが個々のゲームパーティに関連する標準${\rm C}^{*}$-代数のテンソル積に作用するトレースに対応することを示す。
次に、このような結果の最初の適用について、同時量子ゲームの研究について検討する。
We develop a method for the transfer of perfect strategies between various classes of two-player, one round cooperative non-local games with quantum inputs and outputs using the simulation paradigm in quantum information theory. We show that such a transfer is possible when canonically associated operator spaces for each game are quantum homomorphic or isomorphic, as defined in the joint work of H. and Todorov (2024). We examine a new class of QNS correlations, needed for the transfer of strategies between games, and characterize them in terms of states on tensor products of canonical operator systems. We define jointly tracial correlations and show they correspond to traces acting on tensor products of canonical ${\rm C}^{*}$-algebras associated with individual game parties. We then make an inquiry into the initial application of such results to the study of concurrent quantum games. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# EmbodiedCity:現実世界の都市環境におけるEmbodied Agentのベンチマークプラットフォーム
EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment ( http://arxiv.org/abs/2410.09604v1 ) ライセンス: Link先を確認 | Chen Gao, Baining Zhao, Weichen Zhang, Jinzhu Mao, Jun Zhang, Zhiheng Zheng, Fanhang Man, Jianjie Fang, Zile Zhou, Jinqiang Cui, Xinlei Chen, Yong Li, | (参考訳) 身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
EmbodiedAIに対する最近の取り組みは、知覚、計画、行動能力を持つマシンラーニングモデルの構築に多くの注意を払っている。
しかし、ほとんどの研究は、室内のナビゲーションやデバイスを操作するなど、屋内環境の境界に重点を置いており、オープンワールドのシナリオにおいてエージェントを具現化するための限定的な調査を行っている。
つまり、オープンで屋外の環境におけるインテリジェンスを具現化する研究はあまり行われておらず、その潜在的な理由は、高品質なシミュレータ、ベンチマーク、データセットの欠如である。
そこで本研究では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築した。
具体的には,実際の都市における実際の建物,道路,その他の要素に基づいて,現実的な3Dシミュレーション環境を構築する。
この環境では、歴史的に収集されたデータとシミュレーションアルゴリズムを組み合わせて、高い忠実度で歩行者と車両の流れのシミュレーションを行う。
さらに,異なるEmbodiedAI能力をカバーする一連の評価タスクを設計した。
さらに、アクセスのための入力および出力インターフェースの完全なセットを提供し、実施エージェントは、タスク要求や現在の環境観測を簡単に入力として受け取り、意思決定を行い、性能評価を得ることができる。
一方、既存のインボディード・インテリジェンスをより高いレベルまで拡張する。
一方、現実世界では実用的価値が高く、人工知能への潜在的な応用を支援することができる。
このプラットフォームをベースとして,異なる次元と難易度の知能を具現化するための,いくつかの一般的な大規模言語モデルを評価する。
Embodied artificial intelligence emphasizes the role of an agent's body in generating human-like behaviors. The recent efforts on EmbodiedAI pay a lot of attention to building up machine learning models to possess perceiving, planning, and acting abilities, thereby enabling real-time interaction with the world. However, most works focus on bounded indoor environments, such as navigation in a room or manipulating a device, with limited exploration of embodying the agents in open-world scenarios. That is, embodied intelligence in the open and outdoor environment is less explored, for which one potential reason is the lack of high-quality simulators, benchmarks, and datasets. To address it, in this paper, we construct a benchmark platform for embodied intelligence evaluation in real-world city environments. Specifically, we first construct a highly realistic 3D simulation environment based on the real buildings, roads, and other elements in a real city. In this environment, we combine historically collected data and simulation algorithms to conduct simulations of pedestrian and vehicle flows with high fidelity. Further, we designed a set of evaluation tasks covering different EmbodiedAI abilities. Moreover, we provide a complete set of input and output interfaces for access, enabling embodied agents to easily take task requirements and current environmental observations as input and then make decisions and obtain performance evaluations. On the one hand, it expands the capability of existing embodied intelligence to higher levels. On the other hand, it has a higher practical value in the real world and can support more potential applications for artificial general intelligence. Based on this platform, we evaluate some popular large language models for embodied intelligence capabilities of different dimensions and difficulties. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 勾配流解析による単語共起認識のための変圧器の訓練力学
Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis ( http://arxiv.org/abs/2410.09605v1 ) ライセンス: Link先を確認 | Hongru Yang, Bhavya Kailkhura, Zhangyang Wang, Yingbin Liang, | (参考訳) 変圧器の訓練力学を理解することは、大きな言語モデルの背後にある印象的な能力を説明する上で重要である。
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器の訓練のダイナミクスについて検討する。
変圧器のトレーニング力学の文献では、重み付けパラメータ化、注意線形化、特殊初期化、遅延状態といったいくつかの単純化が一般的である。
対照的に、ランダム初期化から3つの注意行列と線形MLP層を同時に学習する勾配流動力学を解析し、結合力学系を介してそのような力学を解析する枠組みを提供する。
ほぼ最小限の損失を確立し、トレーニング後の注意モデルの特徴付けを行う。
勾配流は、学習過程を2つのフェーズに自然に分割する固有のメカニズムとして機能することを発見した。
フェーズ1では、線形MLPは2つのターゲット信号と迅速に整列して正しい分類を行うが、ソフトマックスの注意はほとんど変わらない。
フェーズ2では、注意行列とMDPは共同で進化し、分類マージンを拡大し、損失を最小限に抑える。
技術的には、勾配流の新たな性質を証明しており、これは、異なるサンプルの損失値がほぼ同じ速度で減少することを可能にし、さらに、ほぼ最小限のトレーニング損失の証明を容易にする。
また、理論的結果を検証する実験も行います。
Understanding the training dynamics of transformers is important to explain the impressive capabilities behind large language models. In this work, we study the dynamics of training a shallow transformer on a task of recognizing co-occurrence of two designated words. In the literature of studying training dynamics of transformers, several simplifications are commonly adopted such as weight reparameterization, attention linearization, special initialization, and lazy regime. In contrast, we analyze the gradient flow dynamics of simultaneously training three attention matrices and a linear MLP layer from random initialization, and provide a framework of analyzing such dynamics via a coupled dynamical system. We establish near minimum loss and characterize the attention model after training. We discover that gradient flow serves as an inherent mechanism that naturally divide the training process into two phases. In Phase 1, the linear MLP quickly aligns with the two target signals for correct classification, whereas the softmax attention remains almost unchanged. In Phase 2, the attention matrices and the MLP evolve jointly to enlarge the classification margin and reduce the loss to a near minimum value. Technically, we prove a novel property of the gradient flow, termed \textit{automatic balancing of gradients}, which enables the loss values of different samples to decrease almost at the same rate and further facilitates the proof of near minimum training loss. We also conduct experiments to verify our theoretical results. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# I or not I: Unraveling the Linguistic Echoes of Identity in Samuel Beckett's "Not I" through Natural Language Processing
I or Not I: Unraveling the Linguistic Echoes of Identity in Samuel Beckett's "Not I" Through Natural Language Processing ( http://arxiv.org/abs/2410.09608v1 ) ライセンス: Link先を確認 | Arezou Zahiri Pourzarandi, Farshad Jafari, | (参考訳) サミュエル・ベケット(Samuel Beckett)の「Not I」の深みを、先進的な自然言語処理技術を通して探求し、本研究は、テキストの基盤となる複雑な言語構造を明らかにする。
単語頻度の分析、BERTモデルによる感情的感情の検出、反復的モチーフの検証により、ベケットの最小主義的かつ複雑な言語が主人公の断片化された精神をいかに反映しているかを明らかにする。
以上の結果から,再帰的言語パターンとリズミカル反復によって,時間,記憶,存在感といったテーマが巧みに織り込まれていることが示唆された。
この革新的なアプローチは、ベケットの様式的な貢献に対する理解を深めるだけでなく、言語が重要な存在論を探求するために単純なコミュニケーションを超越する現代文学における彼のユニークな役割を強調している。
Exploring the depths of Samuel Beckett's "Not I" through advanced natural language processing techniques, this research uncovers the intricate linguistic structures that underpin the text. By analyzing word frequency, detecting emotional sentiments with a BERT-based model, and examining repetitive motifs, we unveil how Beckett's minimalist yet complex language reflects the protagonist's fragmented psyche. Our results demonstrate that recurring themes of time, memory, and existential angst are artfully woven through recursive linguistic patterns and rhythmic repetition. This innovative approach not only deepens our understanding of Beckett's stylistic contributions but also highlights his unique role in modern literature, where language transcends simple communication to explore profound existential questions. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# ベルナール=マリー・コルテスの戯曲における感情景観と言語パターンの追跡 : NLPの視点から
Traversing Emotional Landscapes and Linguistic Patterns in Bernard-Marie Koltès' Plays: An NLP Perspective ( http://arxiv.org/abs/2410.09609v1 ) ライセンス: Link先を確認 | Arezou Zahiri Pourzarandi, Farshad Jafari, | (参考訳) 本研究では,現代フランス演劇の中心人物であるベルナール=マリー・コルテスの戯曲における複雑な言語的・感情的な次元を自然言語処理(NLP)を用いて分析する。
先進的な計算手法を統合することで、我々はコルテスの物語のスタイルを識別し、彼の劇的な行動にまたがる言語と感情の微妙な相互作用を明らかにする。
我々の発見は、Kolt\`esがいかに彼の物語を創り出し、彼の主題的探求の理解を深め、文学的分析におけるデジタル人文科学の幅広い分野に寄与するかを浮き彫りにした。
This study employs Natural Language Processing (NLP) to analyze the intricate linguistic and emotional dimensions within the plays of Bernard-Marie Kolt\`es, a central figure in contemporary French theatre. By integrating advanced computational techniques, we dissect Kolt\`es' narrative style, revealing the subtle interplay between language and emotion across his dramatic oeuvre. Our findings highlight how Kolt\`es crafts his narratives, enriching our understanding of his thematic explorations and contributing to the broader field of digital humanities in literary analysis. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# RailYolact -- リアルタイム鉄道セグメンテーションのためのエッジに焦点をあてた黄銅
RailYolact -- A Yolact Focused on edge for Real-Time Rail Segmentation ( http://arxiv.org/abs/2410.09612v1 ) ライセンス: Link先を確認 | Qihao Qian, | (参考訳) 鉄道面上の障害物回避は、自動走行列車の安全のために重要であり、その最初のステップは線路の領域を分割することである。
私たちは仕事のためにYolactを構築することにしました。
モデルにより予測されたレールマスクの粗いエッジ問題に対処するため,エッジ演算子によって抽出されたエッジ情報を元のヨラクタンの損失関数に組み込んだ。
さらに,線形補間により引き起こされるギザギザの真理マスクエッジを円滑にするため,ボックスフィルタを適用した。
エッジ情報とスムーズなプロセスの統合はトレーニングプロセス中にのみ発生したため、モデルの推論速度は影響を受けなかった。
実験結果から, 予測精度の向上が得られた。
さらに、Cityscapesの結果は、Yolactと比較して、それぞれ$AP$と$AP_{50}$ の4.1と4.6の改善が見られた。
Ensuring obstacle avoidance on the rail surface is crucial for the safety of autonomous driving trains and its first step is to segment the regions of the rail. We chose to build upon Yolact for our work. To address the issue of rough edge in the rail masks predicted by the model, we incorporated the edge information extracted by edge operator into the original Yolact's loss function to emphasize the model's focus on rail edges. Additionally, we applied box filter to smooth the jagged ground truth mask edges cause by linear interpolation. Since the integration of edge information and smooth process only occurred during the training process, the inference speed of the model remained unaffected. The experiments results on our custom rail dataset demonstrated an improvement in the prediction accuracy. Moreover, the results on Cityscapes showed a 4.1 and 4.6 improvement in $AP$ and $AP_{50}$ , respectively, compared to Yolact. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 記述論理ALCQにおける推論のためのトランスフォーマーベース言語モデル
Transformer-based Language Models for Reasoning in the Description Logic ALCQ ( http://arxiv.org/abs/2410.09613v1 ) ライセンス: Link先を確認 | Angelos Poulis, Eleni Tsalapati, Manolis Koubarakis, | (参考訳) トランスフォーマーに基づく言語モデルの最近の進歩は、その論理的推論能力の研究を刺激している。
これらのモデルを評価するために使われるベンチマークのほとんどは単純で、数個の論理演算子と量化器を持つ短い一階論理文から生成される。
自然言語のデータセット DELTA$_D$ を表現型記述論理言語 $\mathcal{ALCQ}$ を使って構築する。
DELTA$_D$は384Kの例から成り、2次元で増大する。
一 深度を推論すること、及び
i) 言語的な複雑さ。
このようにして、教師付き微調整DeBERTaモデルと2つの大言語モデル(GPT-3.5, GPT-4)の論理的推論能力について、数発のプロンプトで体系的に検討する。
我々のデータセットに微調整されたDeBERTaベースのモデルが、その詳細チェックタスクをマスターできることを示します。
さらに、少数のサンプルが提供されてもGPTの性能は大幅に向上する(9ショット)。
コードとデータセットをオープンソースにしています。
Recent advancements in transformer-based language models have sparked research into their logical reasoning capabilities. Most of the benchmarks used to evaluate these models are simple: generated from short (fragments of) first-order logic sentences with only a few logical operators and quantifiers. We construct the natural language dataset, DELTA$_D$, using the expressive description logic language $\mathcal{ALCQ}$. DELTA$_D$ comprises 384K examples and increases in two dimensions: i) reasoning depth, and ii) linguistic complexity. In this way, we systematically investigate the logical reasoning capabilities of a supervised fine-tuned DeBERTa-based model and two large language models (GPT-3.5, GPT-4) with few-shot prompting. We show that the DeBERTa-based model fine-tuned on our dataset can master the entailment checking task. Moreover, the performance of GPTs can improve significantly even when a small number of samples is provided (9 shots). We open-source our code and datasets. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 生成拡散モデルを用いた行動関連・遠方性ニューラルダイナミクスの探索
Exploring Behavior-Relevant and Disentangled Neural Dynamics with Generative Diffusion Models ( http://arxiv.org/abs/2410.09614v1 ) ライセンス: Link先を確認 | Yule Wang, Chengrui Li, Weihan Li, Anqi Wu, | (参考訳) 行動の神経基盤を理解することは神経科学の基本的な目標である。
大規模神経行動データ分析の現在の研究は、しばしばデコードモデルに依存しており、神経データの行動情報を定量化するが、行動符号化の詳細を欠いている。
行動タスクにおける神経表現の詳細な探索を可能にし、行動に関連した解釈可能な神経力学を明らかにすることは、どのようにして可能か?
しかし、異なる脳領域にまたがる多様な行動符号化と集団レベルでの混合選択性のため、この問題に対処することは困難である。
この制限に対処するため、我々のアプローチである `BeNeDiff' はまず、振る舞いインフォームド潜在変数モデルを用いて、きめ細やかで非絡み合ったニューラル部分空間を同定する。
次に、最先端の生成拡散モデルを使用して、各潜伏因子の神経力学を解釈する行動ビデオを合成する。
背側大脳皮質を横断する広視野カルシウムイメージング記録を含むマルチセッションデータセットについて,本手法の有効性を検証した。
拡散モデルを用いて個々の潜伏因子を活性化させることにより、非絡み合ったニューラル部分空間における潜伏因子のニューラルダイナミクスが、関心の行動の解釈可能な定量化をもたらすことを検証した。
同時に、BeNeDiffの神経サブスペースは、高い絡み合いと神経再構成の品質を示す。
Understanding the neural basis of behavior is a fundamental goal in neuroscience. Current research in large-scale neuro-behavioral data analysis often relies on decoding models, which quantify behavioral information in neural data but lack details on behavior encoding. This raises an intriguing scientific question: ``how can we enable in-depth exploration of neural representations in behavioral tasks, revealing interpretable neural dynamics associated with behaviors''. However, addressing this issue is challenging due to the varied behavioral encoding across different brain regions and mixed selectivity at the population level. To tackle this limitation, our approach, named ``BeNeDiff'', first identifies a fine-grained and disentangled neural subspace using a behavior-informed latent variable model. It then employs state-of-the-art generative diffusion models to synthesize behavior videos that interpret the neural dynamics of each latent factor. We validate the method on multi-session datasets containing widefield calcium imaging recordings across the dorsal cortex. Through guiding the diffusion model to activate individual latent factors, we verify that the neural dynamics of latent factors in the disentangled neural subspace provide interpretable quantifications of the behaviors of interest. At the same time, the neural subspace in BeNeDiff demonstrates high disentanglement and neural reconstruction quality. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# SLiM: LLMの1ショット量子スパース+低ランク近似
SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs ( http://arxiv.org/abs/2410.09615v1 ) ライセンス: Link先を確認 | Mohammad Mozaffari, Maryam Mehri Dehnavi, | (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらしたが、大きなパラメータサイズのため、高いメモリ消費と遅い推論時間に悩まされている。
量子化やプルーニングといった従来のモデル圧縮技術はこれらの問題を緩和するが、精度を維持するためには再訓練を必要とすることが多い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
SLiMは、対称量子化法(SLiM-Quant)とサリエンシに基づく低ランク近似を組み合わせることで、コスト削減の必要性を解消する。
本手法は,高速化ハードウェアアーキテクチャと互換性のあるスパース表現を活用しながら,量子化誤差を低減する。
さらに,従来の量子化学習と比較して,オーバーヘッドを大幅に低減するパラメータ効率の高い微調整レシピを提案する。
SLiMは2:4のようなスパーシティパターンのモデル精度を最大5.4%向上させ、微調整により精度を最大5.8%向上させ、最先端性能を示す。
この作業は、メモリ制限された環境で大規模なモデルを効率よくデプロイするための経路を提供する。
Large Language Models (LLMs) have revolutionized natural language understanding and generation tasks but suffer from high memory consumption and slow inference times due to their large parameter sizes. Traditional model compression techniques, such as quantization and pruning, mitigate these issues but often require retraining to maintain accuracy, which is computationally expensive. This paper introduces SLiM, a novel approach for compressing LLMs using a one-shot Quantized Sparse Plus Low-rank Approximation. SLiM eliminates the need for costly retraining by combining a symmetric quantization method (SLiM-Quant) with a saliency-based low-rank approximation. Our method reduces quantization error while leveraging sparse representations compatible with accelerated hardware architectures. Additionally, we propose a parameter-efficient fine-tuning recipe that significantly reduces overhead compared to conventional quantization-aware training. SLiM achieves up to a 5.4% improvement in model accuracy for sparsity patterns like 2:4, and the fine-tuning step further enhances accuracy by up to 5.8%, demonstrating state-of-the-art performance. This work provides a pathway for efficiently deploying large models in memory-constrained environments without compromising accuracy. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# エッジにおける広範タスクのアクティブな支配的データマイグレーションのためのアンサンブル方式
An Ensemble Scheme for Proactive Dominant Data Migration of Pervasive Tasks at the Edge ( http://arxiv.org/abs/2410.09621v1 ) ライセンス: Link先を確認 | Georgios Boulougaris, Kostas Kolomvatsos, | (参考訳) 現在、研究コミュニティにおいて、IoT(Internet of Things)とエッジコンピューティング(EC)の合流点におけるデータのインテリジェントな管理に重点が置かれている。
本稿では,インフラ内の特定の場所へ移動すべき適切なデータの識別に関して,自律的なエッジノードで実装する手法を提案する。
我々の目的は、オフロードされたデータ駆動タスクに関連するアクセスパターンを理解する機能と、それらのタスクに関連する元のノードに返すべきデータを予測することにある。
これらのタスクは、元のホスティングノードから欠落しているデータの処理に依存しているため、アクセスを必要とする重要なデータ資産を過小評価することは明らかである。
これらのデータ間隔を推定するために,統計的指向モデルと機械学習フレームワークを統合したアンサンブルアプローチを用いる。
その結果、リクエストの密度を検出することに加えて、支配的なデータ資産を特定できる。
提案手法の詳細な解析は,関係する定式化を提示することで行う。
Nowadays, a significant focus within the research community on the intelligent management of data at the confluence of the Internet of Things (IoT) and Edge Computing (EC) is observed. In this manuscript, we propose a scheme to be implemented by autonomous edge nodes concerning their identifications of the appropriate data to be migrated to particular locations within the infrastructure, thereby facilitating the effective processing of requests. Our objective is to equip nodes with the capability to comprehend the access patterns relating to offloaded data-driven tasks and to predict which data ought to be returned to the original nodes associated with those tasks. It is evident that these tasks depend on the processing of data that is absent from the original hosting nodes, thereby underscoring the essential data assets that necessitate access. To infer these data intervals, we utilize an ensemble approach that integrates a statistically oriented model and a machine learning framework. As a result, we are able to identify the dominant data assets in addition to detecting the density of the requests. A detailed analysis of the suggested method is provided by presenting the related formulations, which is also assessed and compared with models found in the relevant literature. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# ケベック州自動車保険の質問-店舗増産で回答
Quebec Automobile Insurance Question-Answering With Retrieval-Augmented Generation ( http://arxiv.org/abs/2410.09623v1 ) ライセンス: Link先を確認 | David Beauchemin, Zachary Gagnon, Ricahrd Khoury, | (参考訳) 大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著に機能し、法的な質問応答のパフォーマンスを向上させるために、検索型拡張世代(RAG)アーキテクチャの使用が示されている(Nuruzzaman and Hussain, 2020; Louis et al , 2024)。
しかし、特定の種類の法律文書である保険質問回答には、限定的な応用がある。
本稿では,ケベック自動車保険専門家基準コーパスと,レイパーマン自動車保険問題に対する82名の専門家回答のセットの2つのコーパスを紹介する。
本研究は、両コーパスを用いて、ケベック州自動車保険問題に答えるために、最先端のLCMであるGPT4-oを自動かつ手動で評価する。
この結果から, 平均的基準コーパスを用いて, 自動評価指標と手動評価指標の双方において, より優れた応答が得られたことが示唆された。
しかし、LLM QAは臨界領域での大量利用に十分信頼できないことも強調した。
実際、私たちの結果は、回答された質問の5%から13%が、顧客の誤解につながる可能性のある虚偽の声明を含んでいることを示しています。
Large Language Models (LLMs) perform outstandingly in various downstream tasks, and the use of the Retrieval-Augmented Generation (RAG) architecture has been shown to improve performance for legal question answering (Nuruzzaman and Hussain, 2020; Louis et al., 2024). However, there are limited applications in insurance questions-answering, a specific type of legal document. This paper introduces two corpora: the Quebec Automobile Insurance Expertise Reference Corpus and a set of 82 Expert Answers to Layperson Automobile Insurance Questions. Our study leverages both corpora to automatically and manually assess a GPT4-o, a state-of-the-art LLM, to answer Quebec automobile insurance questions. Our results demonstrate that, on average, using our expertise reference corpus generates better responses on both automatic and manual evaluation metrics. However, they also highlight that LLM QA is unreliable enough for mass utilization in critical areas. Indeed, our results show that between 5% to 13% of answered questions include a false statement that could lead to customer misunderstanding. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 大規模言語モデルを用いた電子健康記録テキスト要約の強化
Enhanced Electronic Health Records Text Summarization Using Large Language Models ( http://arxiv.org/abs/2410.09628v1 ) ライセンス: Link先を確認 | Ruvarashe Madzime, Clement Nyirenda, | (参考訳) 電子健康記録要約システムの開発は患者のデータ管理に革命をもたらした。
これまでの研究では、多種多様なデータセットを用いて一般的なERH要約を生成することで、臨床タスクに大規模言語モデルを適用することで、この分野を前進させた。
しかし、臨床医は、より迅速な洞察のために、特定の、集中した要約を必要とすることが多い。
本研究は, より効率的な患者ケアのためのERH要約を改善するために, 臨床に好まれ, 焦点を絞った要約を生成するシステムを構築することにより, 先行研究を基礎にしている。
提案システムは、Google Flan-T5モデルを利用して、臨床専門のトピックに基づいて、カスタマイズされたEHRサマリーを生成する。
このアプローチでは、Stanford Question Answering Dataset (SQuAD)スタイルでフォーマットされたEHR質問回答データセットに基づいて、Flan-T5モデルを微調整する。
ファインチューニングは、最適化されたハイパーパラメータを持つHugging Face TransformersライブラリのSeq2SeqTrainerを利用している。
主要な評価基準は有望な結果を示し、システムはエクサクトマッチ(EM)スコアが81.81%に達した。
ROUGE-1は96.03%、ROUGE-2は86.67%、ROUGE-Lは96.10%であった。
さらに、Bylingual Evaluation Understudy(BLEU)スコアは63%であり、モデルが要約を生成する際の一貫性を反映している。
LLMによるERH要約を強化することで、医療におけるデジタルトランスフォーメーションの取り組みを支援し、ワークフローを合理化し、よりパーソナライズされた患者ケアを可能にする。
The development of Electronic Health Records summarization systems has revolutionized patient data management. Previous research advanced this field by adapting Large Language Models for clinical tasks, using diverse datasets to generate general EHR summaries. However, clinicians often require specific, focused summaries for quicker insights. This project builds on prior work by creating a system that generates clinician-preferred, focused summaries, improving EHR summarization for more efficient patient care. The proposed system leverages the Google Flan-T5 model to generate tailored EHR summaries based on clinician-specified topics. The approach involved fine-tuning the Flan-T5 model on an EHR question-answering dataset formatted in the Stanford Question Answering Dataset (SQuAD) style, which is a large-scale reading comprehension dataset with questions and answers. Fine-tuning utilized the Seq2SeqTrainer from the Hugging Face Transformers library with optimized hyperparameters. Key evaluation metrics demonstrated promising results: the system achieved an Exact Match (EM) score of 81.81%. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) metrics showed strong performance, with ROUGE-1 at 96.03%, ROUGE-2 at 86.67%, and ROUGE-L at 96.10%. Additionally, the Bilingual Evaluation Understudy (BLEU) score was 63%, reflecting the model's coherence in generating summaries. By enhancing EHR summarization through LLMs, this project supports digital transformation efforts in healthcare, streamlining workflows, and enabling more personalized patient care. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-12 |
# 合成知識の取り込み:大規模言語モデルの強化のための知識の精製と注入に向けて
Synthetic Knowledge Ingestion: Towards Knowledge Refinement and Injection for Enhancing Large Language Models ( http://arxiv.org/abs/2410.09629v1 ) ライセンス: Link先を確認 | Jiaxin Zhang, Wendi Cui, Yiran Huang, Kamalika Das, Sricharan Kumar, | (参考訳) 大規模言語モデル(LLM)は、様々な領域における事実知識の収集に長けている。
しかし、これまで見てきた知識の強化や、外部ソースからの新たな知識の統合は、依然として大きな課題である。
本研究では,Skiと呼ばれる合成知識の取り込み手法を提案する。これは,きめ細粒度合成,インターリーブド生成,および強化戦略を利用して,生の知識ソースから高品質なデータ表現を構築する。
次に、Skiとそのバリエーションを3つの知識インジェクション技術(RAG)、SFT(Supervised Fine-tuning)、CPT(Continuous Pre-training)と統合し、言語モデルにおける知識の注入と洗練を行う。
ファイナンス, バイオメディシン, オープンジェネレーションドメインにまたがる様々な質問応答タスクにおいて, Skiが効果的な知識注入を促進することによって, ベースライン法を著しく上回っていることを示す実験実験を行った。
本研究は,知識表現とインジェクション機能を改善することで,LCM出力の事実精度を高めるための重要なステップであると考えている。
Large language models (LLMs) are proficient in capturing factual knowledge across various domains. However, refining their capabilities on previously seen knowledge or integrating new knowledge from external sources remains a significant challenge. In this work, we propose a novel synthetic knowledge ingestion method called Ski, which leverages fine-grained synthesis, interleaved generation, and assemble augmentation strategies to construct high-quality data representations from raw knowledge sources. We then integrate Ski and its variations with three knowledge injection techniques: Retrieval Augmented Generation (RAG), Supervised Fine-tuning (SFT), and Continual Pre-training (CPT) to inject and refine knowledge in language models. Extensive empirical experiments are conducted on various question-answering tasks spanning finance, biomedicine, and open-generation domains to demonstrate that Ski significantly outperforms baseline methods by facilitating effective knowledge injection. We believe that our work is an important step towards enhancing the factual accuracy of LLM outputs by refining knowledge representation and injection capabilities. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# 医用シンプリケータ学会
Society of Medical Simplifiers ( http://arxiv.org/abs/2410.09631v1 ) ライセンス: Link先を確認 | Chen Lyu, Gabriele Pergola, | (参考訳) 医学的テキストの単純化は、複雑な生物医学文献を非専門家によりアクセスしやすいものにするために重要である。
伝統的な手法は医学用テキストの専門用語や用語に難色を呈し、単純化プロセスを動的に適用する柔軟性に欠けていた。
対照的に、大規模言語モデル(LLM)の最近の進歩は、反復的洗練と特殊エージェント間の協調によるテキストの単純化の強化による、ユニークな機会をもたらす。
本稿では,SOM(Society of Mind)哲学に触発された新しいLSMベースのフレームワークであるSociety of Medical Simplifiersを紹介する。
提案手法では,LLMの長所を5つの異なる役割(Layperson,Simplifier,Messical Expert,Language Clarifier,Redundancy Checker)に割り当て,対話ループを編成する。
この構造により、エージェントは元のコンテンツの複雑さと精度を維持しながら、テキストの単純化を徐々に改善することができる。
Cochraneテキスト簡易化データセットの評価は、我々のフレームワークが最先端の手法と同等あるいは同等であり、制御された単純化プロセスを通じて優れた可読性とコンテンツ保存を実現することを実証している。
Medical text simplification is crucial for making complex biomedical literature more accessible to non-experts. Traditional methods struggle with the specialized terms and jargon of medical texts, lacking the flexibility to adapt the simplification process dynamically. In contrast, recent advancements in large language models (LLMs) present unique opportunities by offering enhanced control over text simplification through iterative refinement and collaboration between specialized agents. In this work, we introduce the Society of Medical Simplifiers, a novel LLM-based framework inspired by the "Society of Mind" (SOM) philosophy. Our approach leverages the strengths of LLMs by assigning five distinct roles, i.e., Layperson, Simplifier, Medical Expert, Language Clarifier, and Redundancy Checker, organized into interaction loops. This structure allows the agents to progressively improve text simplification while maintaining the complexity and accuracy of the original content. Evaluations on the Cochrane text simplification dataset demonstrate that our framework is on par with or outperforms state-of-the-art methods, achieving superior readability and content preservation through controlled simplification processes. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# SciGisPy: Gist推論スコアによるバイオメディカルテキストの簡易化のための新しい指標
SciGisPy: a Novel Metric for Biomedical Text Simplification via Gist Inference Score ( http://arxiv.org/abs/2410.09632v1 ) ライセンス: Link先を確認 | Chen Lyu, Gabriele Pergola, | (参考訳) 医学文献は、しばしば高度に専門化された言語で書かれており、非専門家にとって重大な理解上の課題を提起している。
自動テキスト単純化(ATS)は、重要な情報を保持しながら、そのようなテキストをよりアクセスしやすくするソリューションを提供する。
しかし,既存の評価基準の限界のため,バイオメディカルテキストに対するATSの評価は依然として困難である。
SARI、BLEU、ROUGEといった一般的なドメインメトリクスは、表面レベルのテキスト機能に重点を置いている。
本稿では,Fizzy-Trace Theory (FTT) の Gist Inference Score (GIS) に触発された新しい評価指標 SciGisPy を紹介する。
SciGisPyは、単純化されたテキストが理解に必要な抽象的推論(gist)の形成をいかに促進するかを測定する。
セマンティックチャンキング、情報コンテンツ(IC)理論、特別な埋め込みなどドメイン固有の拡張を導入し、不適切なインデックスを取り除き、その目的のためにGISを改訂する。
SciGisPyは元のGIS定式化よりも優れており, 精度は84%, 44.8%であった。
その結果、SciGisPyは、バイオメディカルコンテンツの本質的な意味をよりよく捉え、既存のアプローチよりも優れていることを確認した。
Biomedical literature is often written in highly specialized language, posing significant comprehension challenges for non-experts. Automatic text simplification (ATS) offers a solution by making such texts more accessible while preserving critical information. However, evaluating ATS for biomedical texts is still challenging due to the limitations of existing evaluation metrics. General-domain metrics like SARI, BLEU, and ROUGE focus on surface-level text features, and readability metrics like FKGL and ARI fail to account for domain-specific terminology or assess how well the simplified text conveys core meanings (gist). To address this, we introduce SciGisPy, a novel evaluation metric inspired by Gist Inference Score (GIS) from Fuzzy-Trace Theory (FTT). SciGisPy measures how well a simplified text facilitates the formation of abstract inferences (gist) necessary for comprehension, especially in the biomedical domain. We revise GIS for this purpose by introducing domain-specific enhancements, including semantic chunking, Information Content (IC) theory, and specialized embeddings, while removing unsuitable indexes. Our experimental evaluation on the Cochrane biomedical text simplification dataset demonstrates that SciGisPy outperforms the original GIS formulation, with a significant increase in correctly identified simplified texts (84% versus 44.8%). The results and a thorough ablation study confirm that SciGisPy better captures the essential meaning of biomedical content, outperforming existing approaches. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# DuoDiff: デュアルバックボーンアプローチによる拡散モデルの高速化
DuoDiff: Accelerating Diffusion Models with a Dual-Backbone Approach ( http://arxiv.org/abs/2410.09633v1 ) ライセンス: Link先を確認 | Daniel Gallo Fernández, Rǎzvan-Andrei Matişan, Alejandro Monroy Muñoz, Ana-Maria Vasilcoiu, Janusz Partyka, Tin Hadži Veljković, Metod Jazbec, | (参考訳) 拡散モデルは画像生成において前例のない性能を達成したが、反復的なサンプリングプロセスのために推論が遅い。
この問題に対処するため、最近、各サンプリングステップの(推定)難易度に基づいてデノナイジングネットワークの深さを適応させるアーリーエグジットが提案されている。
ここでは、現在の適応拡散モデルのサンプリングプロセスにおいて、興味深い「位相遷移」が発見される:デノナイジングネットワークは、最初のサンプリングステップの間、常に早期に終了し、突然全ネットワークを利用するようになる。
そこで本研究では,初期サンプリングステップではより浅いデノナイジングネットワーク,後半ステップではより深いネットワークを用いて,より高速な生成を提案する。
両バックボーンアプローチであるDuoDiffは、推定速度と生成品質の両方で既存の早期拡散法より優れていることを実証的に実証する。
重要なのは、DuoDiffの実装が簡単で、拡散を加速するための既存のアプローチを補完することです。
Diffusion models have achieved unprecedented performance in image generation, yet they suffer from slow inference due to their iterative sampling process. To address this, early-exiting has recently been proposed, where the depth of the denoising network is made adaptive based on the (estimated) difficulty of each sampling step. Here, we discover an interesting "phase transition" in the sampling process of current adaptive diffusion models: the denoising network consistently exits early during the initial sampling steps, until it suddenly switches to utilizing the full network. Based on this, we propose accelerating generation by employing a shallower denoising network in the initial sampling steps and a deeper network in the later steps. We demonstrate empirically that our dual-backbone approach, DuoDiff, outperforms existing early-exit diffusion methods in both inference speed and generation quality. Importantly, DuoDiff is easy to implement and complementary to existing approaches for accelerating diffusion. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# 新生児健康のための人工知能モデルの構築支援におけるWhat-ifシナリオの利用
Use of What-if Scenarios to Help Explain Artificial Intelligence Models for Neonatal Health ( http://arxiv.org/abs/2410.09635v1 ) ライセンス: Link先を確認 | Abdullah Mamun, Lawrence D. Devoe, Mark I. Evans, David W. Britt, Judith Klein-Seetharaman, Hassan Ghasemzadeh, | (参考訳) 部分的リスクの早期検出は、介入によって脳性麻痺などの有害な労働結果の予防または軽減を可能にする。
現在、そのような事象を予測し、臨床的意思決定を支援するための正確な自動システムはない。
このギャップを埋めるために,母体,胎児,産婦人科,産婦人科の有害な労働結果を予測するだけでなく,モデルが生み出した予測の背後にある理由を提供する深層学習フレームワークである「新生児健康のモデル化と説明のための人工知能(AI)」を提案する。
後者は、モデルの入力変数の変更が予測結果を変えた可能性についての洞察を与えることができる。
本稿では,Adaptive Synthetic Smpling (ADASYN) と Conditional Tabular Generative Adversarial Networks (CTGAN) を用いて追加のトレーニングデータを合成することで,不均衡と小さなデータセットの課題に対処する。
AIMENは、ADASYNまたはCTGANがサポートするデータ拡張と共に、その分類のバックボーンとして、完全に接続されたニューラルネットワークのアンサンブルを使用する。
CTGANがサポートするAIMENは、ADASYNがサポートするAIMENよりも優れている。
AIMENは、平均的なF1スコアが0.784で、有害な労働結果のリスクを予測できる。
また、平均で2から3の属性を変更することで達成できる、反現実的な説明も提供する。
リソース: https://github.com/ab9mamun/AIMEN.com
Early detection of intrapartum risk enables interventions to potentially prevent or mitigate adverse labor outcomes such as cerebral palsy. Currently, there is no accurate automated system to predict such events to assist with clinical decision-making. To fill this gap, we propose "Artificial Intelligence (AI) for Modeling and Explaining Neonatal Health" (AIMEN), a deep learning framework that not only predicts adverse labor outcomes from maternal, fetal, obstetrical, and intrapartum risk factors but also provides the model's reasoning behind the predictions made. The latter can provide insights into what modifications in the input variables of the model could have changed the predicted outcome. We address the challenges of imbalance and small datasets by synthesizing additional training data using Adaptive Synthetic Sampling (ADASYN) and Conditional Tabular Generative Adversarial Networks (CTGAN). AIMEN uses an ensemble of fully-connected neural networks as the backbone for its classification with the data augmentation supported by either ADASYN or CTGAN. AIMEN, supported by CTGAN, outperforms AIMEN supported by ADASYN in classification. AIMEN can predict a high risk for adverse labor outcomes with an average F1 score of 0.784. It also provides counterfactual explanations that can be achieved by changing 2 to 3 attributes on average. Resources available: https://github.com/ab9mamun/AIMEN. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# ゼロショット音声認識による購入意図の推定
Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition? ( http://arxiv.org/abs/2410.09636v1 ) ライセンス: Link先を確認 | Ryotaro Nagase, Takashi Sumiyoshi, Natsuo Yamashita, Kota Dohi, Yohei Kawaguchi, | (参考訳) 本稿では、従来SERモデルトレーニングで定義されていなかった感情を推定するゼロショット音声感情認識(SER)手法を提案する。
従来の方法は、一つの単語で定義された感情を認識することに限定されている。
さらに、私たちは‘購入したい’といった未知のバイポーラ感情を認識する動機があります。
提案手法は,文を用いてクラスを自由に定義し,未知のバイポーラ感情を推定するために,マルチクラスおよびマルチタスク設定を導入することで,コントラッシブ言語・オーディオ事前学習(CLAP)フレームワーク上に拡張する。
また、バイポーラ感情としての購入意図に着目し、モデルの性能をゼロショットで見積もる。
本研究は,音声から直接購入意図を推定する最初の試みである。
実験により,提案手法によるゼロショット推定の結果が,教師付き学習によって訓練されたモデルと同一レベルであることが確認された。
This paper proposes a zero-shot speech emotion recognition (SER) method that estimates emotions not previously defined in the SER model training. Conventional methods are limited to recognizing emotions defined by a single word. Moreover, we have the motivation to recognize unknown bipolar emotions such as ``I want to buy - I do not want to buy.'' In order to allow the model to define classes using sentences freely and to estimate unknown bipolar emotions, our proposed method expands upon the contrastive language-audio pre-training (CLAP) framework by introducing multi-class and multi-task settings. We also focus on purchase intention as a bipolar emotion and investigate the model's performance to zero-shot estimate it. This study is the first attempt to estimate purchase intention from speech directly. Experiments confirm that the results of zero-shot estimation by the proposed method are at the same level as those of the model trained by supervised learning. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# グッドハートの法則について : 値アライメントへの応用
On Goodhart's law, with an application to value alignment ( http://arxiv.org/abs/2410.09638v1 ) ライセンス: Link先を確認 | El-Mahdi El-Mhamdi, Lê-Nguyên Hoang, | (参考訳) 「ある測度が目標になると、それは良い測度となる」とすると、この主張は「グッドハートの法則」として知られている。
本稿では、この法則を公式に検討し、真の目標と最適化された測度との相違点の尾の分布に批判的に依存することを証明する。
長い尾の分布を持つ離散性はグッドハートの法則を好んでおり、すなわち、この測度の最適化はゴールに反生産的効果を与える。
我々は,目標と測度との相関関係の漸近的挙動を,測定値の最適化として研究することにより,グッドハートの法則を評価するための公式な設定を提供する。
さらに、計量を過度に最適化しても真の目的には役に立たないグッドハート法則と、計量を過度に最適化するグッドハート法則が真の目標には有害であるグッドハート法則とを区別する。
我々が証明した区別は尾の分布に依存する。
我々は、この結果が、メトリクスに基づいて(かつそうである)大規模な意思決定やポリシーに与える影響を強調し、これらのポリシーの安全性をよりよく評価するための多くの研究指針を提案し、特に、これらのポリシーがアルゴリズムで自動化されている場合について強調する。
``When a measure becomes a target, it ceases to be a good measure'', this adage is known as {\it Goodhart's law}. In this paper, we investigate formally this law and prove that it critically depends on the tail distribution of the discrepancy between the true goal and the measure that is optimized. Discrepancies with long-tail distributions favor a Goodhart's law, that is, the optimization of the measure can have a counter-productive effect on the goal. We provide a formal setting to assess Goodhart's law by studying the asymptotic behavior of the correlation between the goal and the measure, as the measure is optimized. Moreover, we introduce a distinction between a {\it weak} Goodhart's law, when over-optimizing the metric is useless for the true goal, and a {\it strong} Goodhart's law, when over-optimizing the metric is harmful for the true goal. A distinction which we prove to depend on the tail distribution. We stress the implications of this result to large-scale decision making and policies that are (and have to be) based on metrics, and propose numerous research directions to better assess the safety of such policies in general, and to the particularly concerning case where these policies are automated with algorithms. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# MRIからの特異なMS病変の同定
Unique MS Lesion Identification from MRI ( http://arxiv.org/abs/2410.09639v1 ) ライセンス: Link先を確認 | Carlos A. Rivas, Jinwei Zhang, Shuwen Wei, Samuel W. Remedios, Aaron Carass, Jerry L. Prince, | (参考訳) 多発性硬化症(MS)白質病変(WML)の特異な同定は,MS進行を特徴付ける上で重要である。
磁気共鳴画像(MRI)からWMLを定期的に同定するが,総病変量とEDSSの相関は認められず,平均病変量とEDSSの相関が示されている。
提案手法は, ランダムウォーカアルゴリズムを用いて各病変の体積を推定する前に, 病変確率マップからヘシアン行列計算を組み込むことにより, 先行研究に基づいている。
合成画像は、現在存在する病変数を正確にカウントする能力を示している。
テイクアウトは以下の通り。
1) 本手法は, 従来の方法に欠落した多くの病変を含むすべての病変を正しく同定する。
2) 合流性病変を分離しやすくする。
3)WMLの総容積を所定の確率マップで正確に把握できる。
この研究により、脳MRIのWMLからより意味のある統計を計算できるようになる
Unique identification of multiple sclerosis (MS) white matter lesions (WMLs) is important to help characterize MS progression. WMLs are routinely identified from magnetic resonance images (MRIs) but the resultant total lesion load does not correlate well with EDSS; whereas mean unique lesion volume has been shown to correlate with EDSS. Our approach builds on prior work by incorporating Hessian matrix computation from lesion probability maps before using the random walker algorithm to estimate the volume of each unique lesion. Synthetic images demonstrate our ability to accurately count the number of lesions present. The takeaways, are: 1) that our method correctly identifies all lesions including many that are missed by previous methods; 2) we can better separate confluent lesions; and 3) we can accurately capture the total volume of WMLs in a given probability map. This work will allow new more meaningful statistics to be computed from WMLs in brain MRIs | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# Soft Tester UE: Open RANセキュリティテストの新しいアプローチ
Soft Tester UE: A Novel Approach for Open RAN Security Testing ( http://arxiv.org/abs/2410.09641v1 ) ライセンス: Link先を確認 | Joshua Moore, Aly Sabri Abdalla, Charles Ueltschey, Vuk Marojevic, | (参考訳) 5Gとオープン無線アクセスネットワーク(O-RAN)の増加に伴い、既存のテストベッドがこの分野を優先しないため、セキュリティテスト専用のカスタマイズ可能な実験プラットフォームへの需要が高まっている。
伝統的にハードウェアに依存した試験手法は、小規模企業や研究機関に課題をもたらす。
5GとO-RANの展開がサイバー犯罪者の標的をアピールしている。
これらの課題に対処するために,ユーザ機器(UE)とネットワーク間のUuエアインタフェースを介して,5GおよびO-RANデプロイメントのセキュリティを評価するソフトウェア定義テスト機器であるSoft Tester UE(Soft Tester UE)を紹介する。
その結果は、標準化とカスタマイズ可能な自動セキュリティテストの両方の必要性に対処するために、無償でオープンソースで拡張可能なテスト手段を提供することだ。
従来のセキュリティ指標を超えて拡張することで、ソフトT-UEは新しいセキュリティ対策の開発を促進し、潜在的なセキュリティ違反を予測し軽減する能力を高める。
このツールの自動テスト機能は、テスト中のRadio Access Network(RAN)がUEとの接続を開始するときにファジドデータを受け取るときに評価されるシナリオを通じて実証される。
With the rise of 5G and open radio access networks (O-RAN), there is a growing demand for customizable experimental platforms dedicated to security testing, as existing testbeds do not prioritize this area. Traditional, hardware-dependent testing methods pose challenges for smaller companies and research institutions. The growing wireless threat landscape highlights the critical need for proactive security testing, as 5G and O-RAN deployments are appealing targets for cybercriminals. To address these challenges, this article introduces the Soft Tester UE (soft T-UE), a software-defined test equipment designed to evaluate the security of 5G and O-RAN deployments via the Uu air interface between the user equipment (UE) and the network. The outcome is to deliver a free, open-source, and expandable test instrument to address the need for both standardized and customizable automated security testing. By extending beyond traditional security metrics, the soft T-UE promotes the development of new security measures and enhances the capability to anticipate and mitigate potential security breaches. The tool's automated testing capabilities are demonstrated through a scenario where the Radio Access Network (RAN) under test is evaluated when it receives fuzzed data when initiating a connection with an UE. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# RepMatch: 表現空間におけるクロスインスタンスの類似性を定量化する
RepMatch: Quantifying Cross-Instance Similarities in Representation Space ( http://arxiv.org/abs/2410.09642v1 ) ライセンス: Link先を確認 | Mohammad Reza Modarres, Sina Abbasi, Mohammad Taher Pilehvar, | (参考訳) データセット分析技術の進歩により、トレーニングデータインスタンスを分析して特徴付けるためのより洗練されたアプローチが実現された。
本稿では、類似したレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルに符号化された知識を比較して定量化し、個々のインスタンスにのみフォーカスし、データセット内分析に制限される既存の分析メソッドの制限を克服する。
我々のフレームワークはより広範な評価を可能にし、任意のインスタンスサブセット間の類似性比較を可能にし、データセットからデータセットへの分析とインスタンスからデータセットへの分析の両方をサポートする。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
大規模な実験を通じて、RepMatchはデータセットを効果的に比較し、データセットのより代表的なサブセット(等価サイズのランダムに選択されたサブセットよりも優れたパフォーマンスをもたらす)を特定し、いくつかの課題データセットの構築の基盤となるヒューリスティックスを明らかにする。
Advances in dataset analysis techniques have enabled more sophisticated approaches to analyzing and characterizing training data instances, often categorizing data based on attributes such as ``difficulty''. In this work, we introduce RepMatch, a novel method that characterizes data through the lens of similarity. RepMatch quantifies the similarity between subsets of training instances by comparing the knowledge encoded in models trained on them, overcoming the limitations of existing analysis methods that focus solely on individual instances and are restricted to within-dataset analysis. Our framework allows for a broader evaluation, enabling similarity comparisons across arbitrary subsets of instances, supporting both dataset-to-dataset and instance-to-dataset analyses. We validate the effectiveness of RepMatch across multiple NLP tasks, datasets, and models. Through extensive experimentation, we demonstrate that RepMatch can effectively compare datasets, identify more representative subsets of a dataset (that lead to better performance than randomly selected subsets of equivalent size), and uncover heuristics underlying the construction of some challenge datasets. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# フリーライフにおけるマルチモーダルな身体活動予測:ジャスト・イン・タイム・インターベンションの可能性
Multimodal Physical Activity Forecasting in Free-Living Clinical Settings: Hunting Opportunities for Just-in-Time Interventions ( http://arxiv.org/abs/2410.09643v1 ) ライセンス: Link先を確認 | Abdullah Mamun, Krista S. Leonard, Megan E. Petrov, Matthew P. Buman, Hassan Ghasemzadeh, | (参考訳) 目的: 本研究の目的は, 現実の臨床環境における早期かつパーソナライズされた介入を可能にするために, 患者の活動行動を予測する, MoveSense と呼ばれるライフスタイル介入システムを開発することである。
方法: 高齢者58名と閉塞性睡眠時無呼吸60名を対象に, ウェアラブルデバイスを用いた多変量行動データ収集のための2つの臨床研究を行った。
我々は,活動とエンゲージメントのモダリティからのデータを調べることで,患者のステップ数を最大24時間予測できるマルチモーダル長短期記憶(LSTM)ネットワークモデルを開発した。
さらに、次の日のステップが一定の閾値を超えるかどうかを予測するために、目標ベースの予測モデルを設計する。
結果: 早期融合型マルチモーダルLSTMは, 平均絶対誤差を33%, 平均誤差を37%, ARIMAをそれぞれ前糖尿病データセットで比較した。
LSTMは線形回帰よりも優れており、ARIMAのマージンは13%、睡眠データセットでは32%である。
マルチモーダル予測モデルは、それぞれ目標ベースの予測において、プレ糖尿病データセットと睡眠データセットで72%と79%の精度で実行される。
結論: 早期核融合を伴うマルチモーダルLSTMモデルは, 後期核融合モデルと単モードLSTMモデルを用いたマルチモーダルLSTMよりも, ARIMAや線形回帰モデルよりも優れていると結論付けた。
意義: 制御されていない環境での時系列予測の重要かつ困難な課題に対処する。
身体活動の効果的な予測は、適応的な行動介入を設計し、利用者を所定のルーチンに従属させ続けるのに役立つ。
Objective: This research aims to develop a lifestyle intervention system, called MoveSense, that forecasts a patient's activity behavior to allow for early and personalized interventions in real-world clinical environments. Methods: We conducted two clinical studies involving 58 prediabetic veterans and 60 patients with obstructive sleep apnea to gather multimodal behavioral data using wearable devices. We develop multimodal long short-term memory (LSTM) network models, which are capable of forecasting the number of step counts of a patient up to 24 hours in advance by examining data from activity and engagement modalities. Furthermore, we design goal-based forecasting models to predict whether a person's next-day steps will be over a certain threshold. Results: Multimodal LSTM with early fusion achieves 33% and 37% lower mean absolute errors than linear regression and ARIMA respectively on the prediabetes dataset. LSTM also outperforms linear regression and ARIMA with a margin of 13% and 32% on the sleep dataset. Multimodal forecasting models also perform with 72% and 79% accuracy on the prediabetes dataset and sleep dataset respectively on goal-based forecasting. Conclusion: Our experiments conclude that multimodal LSTM models with early fusion are better than multimodal LSTM with late fusion and unimodal LSTM models and also than ARIMA and linear regression models. Significance: We address an important and challenging task of time-series forecasting in uncontrolled environments. Effective forecasting of a person's physical activity can aid in designing adaptive behavioral interventions to keep the user engaged and adherent to a prescribed routine. | 翻訳日:2024-10-30 09:06:07 公開日:2024-10-12 |
# LLM語彙のアダプタ:最も適した言語は何か?
Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? ( http://arxiv.org/abs/2410.09644v1 ) ライセンス: Link先を確認 | HyoJung Han, Akiko Eriguchi, Haoran Xu, Hieu Hoang, Marine Carpuat, Huda Khayrallah, | (参考訳) 新しい語彙を事前訓練された言語モデル(LM)に統合した語彙適応は、新しい言語への拡張を可能にし、トークンオーバーフラグメンテーションを緩和する。
しかし、既存のアプローチはヒューリスティックあるいは外部埋め込みに依存しているため制限されている。
本稿では,モデルの重みを固定しつつ,既存の埋め込みの最適線形結合を学習するために訓練されたアダプタモジュールを用いた語彙適応手法であるVocADTを提案する。
VocADTは、外部リソースや言語制約を必要とせずに、柔軟でスケーラブルなソリューションを提供する。
さまざまなスクリプト、リソース可用性、フラグメンテーションを備えた11言語にわたって、VocADTは、オリジナルのMistralモデルやその他のベースラインを、さまざまな多言語タスクで上回っていることを実証した。
ラテン文字言語と高度に断片化された言語は語彙適応の恩恵を最も受ける。
さらに, 機械翻訳の生成作業における適応モデルを微調整し, 語彙適応がいまだ有用であり, VocADTが最も有効な方法であることが確認された。
Vocabulary adaptation, which integrates new vocabulary into pre-trained language models (LMs), enables expansion to new languages and mitigates token over-fragmentation. However, existing approaches are limited by their reliance on heuristic or external embeddings. We propose VocADT, a novel method for vocabulary adaptation using adapter modules that are trained to learn the optimal linear combination of existing embeddings while keeping the model's weights fixed. VocADT offers a flexible and scalable solution without requiring external resources or language constraints. Across 11 languages-with various scripts, resource availability, and fragmentation-we demonstrate that VocADT outperforms the original Mistral model and other baselines across various multilingual tasks. We find that Latin-script languages and highly fragmented languages benefit the most from vocabulary adaptation. We further fine-tune the adapted model on the generative task of machine translation and find that vocabulary adaptation is still beneficial after fine-tuning and that VocADT is the most effective method. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# AIモデルレジストリ - AIガバナンスの基礎ツール
AI Model Registries: A Foundational Tool for AI Governance ( http://arxiv.org/abs/2410.09645v1 ) ライセンス: Link先を確認 | Elliot McKernon, Gwyn Glasser, Deric Cheng, Gillian Hadfield, | (参考訳) 本稿では,AIガバナンスの基礎ツールとして,フロンティアAIモデルのための国家登録制度の実装を提案する。
我々は、このようなレジストリの合理性、設計、実装について検討し、類似産業のレジストリとの比較に基づいて、効率的で非侵襲的で、AIガバナンスを他の高影響産業に対する政府の洞察と同等に近づけるレジストリの推薦を行う。
モデルアーキテクチャ、モデルサイズ、トレーニングで使用される計算とデータなど、収集すべき重要な情報を探索し、AI専用に開発された評価の実現可能性と有用性について調査する。
我々の提案は、イノベーションを育み、開発者の規制負担を最小限に抑えながら、政府の洞察を提供し、AIの安全性を高めるために設計されている。
知的財産権の懸念を尊重し、機密情報を保護するフレームワークを提供することで、このレジストリアプローチは進歩を妨げることなく、責任あるAI開発をサポートする。
我々は、第三者に登録されたモデルのみの使用を要求し、第二に、非コンプライアンスに対する直接の金銭的罰則により、時間的かつ正確な登録を、主に命令的行動によって奨励すべきである。
AIモデルレジストリの包括的なフレームワークを提供することで、先進的なAIシステムに関連するリスクを監視し緩和する基礎的なガバナンス構造の開発において、政策立案者を支援することを目指している。
In this report, we propose the implementation of national registries for frontier AI models as a foundational tool for AI governance. We explore the rationale, design, and implementation of such registries, drawing on comparisons with registries in analogous industries to make recommendations for a registry that is efficient, unintrusive, and which will bring AI governance closer to parity with the governmental insight into other high-impact industries. We explore key information that should be collected, including model architecture, model size, compute and data used during training, and we survey the viability and utility of evaluations developed specifically for AI. Our proposal is designed to provide governmental insight and enhance AI safety while fostering innovation and minimizing the regulatory burden on developers. By providing a framework that respects intellectual property concerns and safeguards sensitive information, this registry approach supports responsible AI development without impeding progress. We propose that timely and accurate registration should be encouraged primarily through injunctive action, by requiring third parties to use only registered models, and secondarily through direct financial penalties for non-compliance. By providing a comprehensive framework for AI model registries, we aim to support policymakers in developing foundational governance structures to monitor and mitigate risks associated with advanced AI systems. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# 高調波トラッピングボースガス中のウィグナー変形パラメータのバウンディング
Bounding the Wigner Deformation Parameter in Harmonically Trapped Bose Gases ( http://arxiv.org/abs/2410.09646v1 ) ライセンス: Link先を確認 | M. Benarous, A. Hocine, B. Hamil, B. C. Lütfüoğlu, | (参考訳) ダンクル形式における理想ボース気体の内部エネルギーと熱容量を調べることにより、ウィグナーパラメータが臨界領域におけるこれらの熱力学関数の傾きを決定するが、遷移の順序や臨界指数には影響しないことを示す。
最も重要なことは、古典的振舞いを分析する際に、2つの異なる古典的極限の存在を証明し、このパラメータの上下境界を確立することができることである。
By examining the internal energy and heat capacity of a harmonically trapped ideal Bose gas within the Dunkl formalism, we show that the Wigner parameter determines the slopes of these thermodynamic functions in the critical region but does not affect the order of the transition or the critical exponents. Most importantly, upon analyzing the classical behavior, we demonstrate the existence of two distinct classical limits, which allow us to establish upper and lower bounds for this parameter. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# CVPRの20年間の経験から学ぶ
Learning the Bitter Lesson: Empirical Evidence from 20 Years of CVPR Proceedings ( http://arxiv.org/abs/2410.09649v1 ) ライセンス: Link先を確認 | Mojtaba Yousefi, Jack Collins, | (参考訳) 本稿では,リヒ・サットンが提唱した「ビット・レッスン」の原理と,コンピュータビジョンとパターン認識に関する「emph{Conference on Computer Vision and Pattern Recognition}」(CVPR)研究のアライメントについて検討する。
大規模言語モデル(LLM)を用いて,20年にわたるCVPRの抽象概念とタイトルを分析し,これらの原則の受容性を評価する。
本手法は,最先端の自然言語処理技術を活用し,コンピュータビジョンにおける研究手法の進化を体系的に評価する。
その結果,汎用学習アルゴリズムの導入や,計算資源の増大にともなう利用傾向が明らかとなった。
本稿では,コンピュータビジョン研究の今後の方向性に対するこれらの知見の影響と,より広範な人工知能開発への潜在的影響について論じる。
この研究は、機械学習とコンピュータビジョンを前進させるための最も効果的な戦略に関する対話に寄与し、この分野における将来の研究の優先順位と方法論を導く洞察を提供する。
This study examines the alignment of \emph{Conference on Computer Vision and Pattern Recognition} (CVPR) research with the principles of the "bitter lesson" proposed by Rich Sutton. We analyze two decades of CVPR abstracts and titles using large language models (LLMs) to assess the field's embracement of these principles. Our methodology leverages state-of-the-art natural language processing techniques to systematically evaluate the evolution of research approaches in computer vision. The results reveal significant trends in the adoption of general-purpose learning algorithms and the utilization of increased computational resources. We discuss the implications of these findings for the future direction of computer vision research and its potential impact on broader artificial intelligence development. This work contributes to the ongoing dialogue about the most effective strategies for advancing machine learning and computer vision, offering insights that may guide future research priorities and methodologies in the field. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# 分散異種ニューラルネットワークにおけるデータブートネックの低減
Reducing Data Bottlenecks in Distributed, Heterogeneous Neural Networks ( http://arxiv.org/abs/2410.09650v1 ) ライセンス: Link先を確認 | Ruhai Lin, Rui-Jie Zhu, Jason K. Eshraghian, | (参考訳) 組み込みマルチコアおよびマルチコアシステムの急速な進歩は、コンピュータに革命をもたらし、幅広い応用のための高性能でエネルギー効率の高いソリューションの開発を可能にした。
モデルのサイズが大きくなるにつれて、データの動きがパフォーマンスのボトルネックとなっていきます。
このようなデータの移動は、プロセッサとメモリ、あるいはコアとチップの間に存在する。
本稿では,チップ間データトラフィックの観点からボトルネックサイズが,組込みマルチコアおよびマルチコアシステムにおけるディープラーニングモデルの性能に与える影響について検討する。
本研究では,ボトルネックサイズ,計算資源利用量,モデル精度の関係を体系的に解析する。
ハードウェア・ソフトウェア共同設計手法を適用し,データトラフィックを減らすため,データボトルネックを極めて狭い層に置き換える。
事実上、信号の時間多重化は、チップIOの要求を減少させる学習可能な埋め込みに置き換えられる。
CIFAR100データセットを用いた実験では、ボトルネック比が増加するにつれて分類精度が一般的に低下し、より深いモデルに比べて浅いモデルの方が顕著に低下することが示された。
ハードウェア側の評価では、より高いボトルネック比が、ニューラルネットワークの層間でのデータ転送量を大幅に削減することを示している。
本研究により,データ転送量とモデル性能のトレードオフを判定し,データ転送量を最小化しつつ,良好な性能を達成するバランスのとれた点の同定を可能にする。
この特徴は資源制約環境に適した効率的なモデルの開発を可能にする。
The rapid advancement of embedded multicore and many-core systems has revolutionized computing, enabling the development of high-performance, energy-efficient solutions for a wide range of applications. As models scale up in size, data movement is increasingly the bottleneck to performance. This movement of data can exist between processor and memory, or between cores and chips. This paper investigates the impact of bottleneck size, in terms of inter-chip data traffic, on the performance of deep learning models in embedded multicore and many-core systems. We conduct a systematic analysis of the relationship between bottleneck size, computational resource utilization, and model accuracy. We apply a hardware-software co-design methodology where data bottlenecks are replaced with extremely narrow layers to reduce the amount of data traffic. In effect, time-multiplexing of signals is replaced by learnable embeddings that reduce the demands on chip IOs. Our experiments on the CIFAR100 dataset demonstrate that the classification accuracy generally decreases as the bottleneck ratio increases, with shallower models experiencing a more significant drop compared to deeper models. Hardware-side evaluation reveals that higher bottleneck ratios lead to substantial reductions in data transfer volume across the layers of the neural network. Through this research, we can determine the trade-off between data transfer volume and model performance, enabling the identification of a balanced point that achieves good performance while minimizing data transfer volume. This characteristic allows for the development of efficient models that are well-suited for resource-constrained environments. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# 祝祭の生き残り:インターリーブ型多目的進化によるセキュアなプロンプト最適化を目指して
Survival of the Safest: Towards Secure Prompt Optimization through Interleaved Multi-Objective Evolution ( http://arxiv.org/abs/2410.09652v1 ) ライセンス: Link先を確認 | Ankita Sinha, Wendi Cui, Kamalika Das, Jiaxin Zhang, | (参考訳) 大規模言語モデル(LLM)は目覚ましい機能を示しているが、それらのプロンプトの最適化は歴史的に重要な安全性とセキュリティ上の考慮を犠牲にしてパフォーマンス指標を優先してきた。
この欠点を克服するために,LLMの性能とセキュリティを同時に向上する,革新的な多目的プロンプト最適化フレームワークである"Survival of the Safest"(SoS)を紹介した。
SoSは、インターリーブされた多目的進化戦略を利用し、セマンティック、フィードバック、クロスオーバー変異を統合して、迅速な景観を効果的に横断する。
計算的に要求されるParetoのフロントメソッドとは違い、SoSは計算要求を低く保ちながら、複雑で高次元の離散探索空間における最適化を高速化するスケーラブルなソリューションを提供する。
提案手法は,目標を柔軟に重み付けし,最適化された候補のプールを生成し,ユーザに対して,特定のパフォーマンスやセキュリティニーズを最適に満たすプロンプトの選択を可能にする。
さまざまなベンチマークデータセットの実験的評価により、SoSがハイパフォーマンスを実現し、単一目的の方法と比較して安全性と安全性を著しく向上したことが確認された。
この進歩は、様々な産業アプリケーションにまたがる高性能かつセキュアなLLMシステムの展開に向けて大きな一歩を踏み出した。
Large language models (LLMs) have demonstrated remarkable capabilities; however, the optimization of their prompts has historically prioritized performance metrics at the expense of crucial safety and security considerations. To overcome this shortcoming, we introduce "Survival of the Safest" (SoS), an innovative multi-objective prompt optimization framework that enhances both performance and security in LLMs simultaneously. SoS utilizes an interleaved multi-objective evolution strategy, integrating semantic, feedback, and crossover mutations to effectively traverse the prompt landscape. Differing from the computationally demanding Pareto front methods, SoS provides a scalable solution that expedites optimization in complex, high-dimensional discrete search spaces while keeping computational demands low. Our approach accommodates flexible weighting of objectives and generates a pool of optimized candidates, empowering users to select prompts that optimally meet their specific performance and security needs. Experimental evaluations across diverse benchmark datasets affirm SoS's efficacy in delivering high performance and notably enhancing safety and security compared to single-objective methods. This advancement marks a significant stride towards the deployment of LLM systems that are both high-performing and secure across varied industrial applications | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# PauliStrings.jlを用いた量子多体シミュレーション
Quantum many-body simulations with PauliStrings.jl ( http://arxiv.org/abs/2410.09654v1 ) ライセンス: Link先を確認 | Nicolas Loizeau, J. Clayton Peacock, Dries Sels, | (参考訳) 量子多体シミュレーションのためのJuliaモジュール PauliStrings.jl をパウリ群上で2進法で符号化することで高速な演算を行う。
パウリの弦環はすべて整数上の低レベル論理演算にエンコードされ、結果の体系的な外挿を可能にする様々なトランケーション法によって効率良くされる。
モジュールの有効性について説明する。
(i)直接数値積分とハイゼンベルク時間発展
(ii) は、リウヴィリアン・クリロフ空間を構成することによって構成される。
結果とテンソルネットワークの手法をベンチマークした結果,モジュールの性能が良好であることが判明した。
さらに、この表現は任意の幾何を容易に符号化できることを示す。
1Dにおけるカオス・可積分スピン系の結果と2Dにおけるいくつかの例を示す。
現在、主な制限は、非自明な純粋状態(または他の低ランク演算子)を表現する非効率性であり、また、長時間のダイナミクスを探索するために散逸を導入する必要性である。
We present the Julia module PauliStrings.jl for quantum many-body simulations, which performs fast operations on the Pauli group by encoding Pauli strings in binary. All of the Pauli string algebra is encoded into low-level logic operations on integers, and is made efficient by various truncation methods which allow for systematic extrapolation of the results. We illustrate the effectiveness of our module by (i) performing Heisenberg time evolution through direct numerical integration and (ii) by constructing a Liouvillian Krylov space. We benchmark the results against tensor network methods, and we find our module performs favorably. In addition, we show that this representation allows for easy encoding of any geometry. We present results for chaotic and integrable spin systems in 1D as well as some examples in 2D. Currently, the main limitations are the inefficiency of representing non-trivial pure states (or other low-rank operators), as well as the need to introduce dissipation to probe long-time dynamics. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# 補間MLP:制御可能な誘導バイアス
Interpolated-MLPs: Controllable Inductive Bias ( http://arxiv.org/abs/2410.09655v1 ) ライセンス: Link先を確認 | Sean Wu, Jordan Hong, Keyu Bai, Gregor Bachmann, | (参考訳) インダクティブバイアスの弱いため、マルチ層パーセプトロン(MLP)は畳み込みベースネットワーク(CNN)のような標準アーキテクチャと比較して低スループットで性能が劣る。
しかし,近年の研究では,インダクティブバイアスの量を変えることなく計算量が増大するにつれて,性能ギャップが劇的に減少することが示されている。
本研究では,低コンピュテート状態において,帰納的バイアスの漸進的な増加がパフォーマンスに与える影響について検討する。
帰納バイアスを定量化するために,補間型MLP (Interpolated MLP) を作成した "soft MLP" アプローチを提案する。
我々は,従来のモデルからの固定重み間の補間に基づく新しいアルゴリズムを導入することにより,標準MLPにおける誘導バイアスの量を制御する。
我々は,CNN や MLP-Mixer アーキテクチャなど,様々な先行モデルを用いて提案手法を紹介する。
この補間スキームは帰納的バイアスの分数制御を可能にし、完全な帰納的バイアスが望まれない場合(例えば、中間計算系では)は魅力的である。
CNNとMLP-Mixerの先行モデルを用いた場合,低演算系における視覚タスクに対しては,帰納的バイアスと性能との間に連続的・二面対数関係があることが実験的に明らかになった。
Due to their weak inductive bias, Multi-Layer Perceptrons (MLPs) have subpar performance at low-compute levels compared to standard architectures such as convolution-based networks (CNN). Recent work, however, has shown that the performance gap drastically reduces as the amount of compute is increased without changing the amount of inductive bias. In this work, we study the converse: in the low-compute regime, how does the incremental increase of inductive bias affect performance? To quantify inductive bias, we propose a "soft MLP" approach, which we coin Interpolated MLP (I-MLP). We control the amount of inductive bias in the standard MLP by introducing a novel algorithm based on interpolation between fixed weights from a prior model with high inductive bias. We showcase our method using various prior models, including CNNs and the MLP-Mixer architecture. This interpolation scheme allows fractional control of inductive bias, which may be attractive when full inductive bias is not desired (e.g. in the mid-compute regime). We find experimentally that for Vision Tasks in the low-compute regime, there is a continuous and two-sided logarithmic relationship between inductive bias and performance when using CNN and MLP-Mixer prior models. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# LSTMによる車両ネットワークのインターネットにおけるプロアクティブな混雑管理
LSTM-Based Proactive Congestion Management for Internet of Vehicle Networks ( http://arxiv.org/abs/2410.09656v1 ) ライセンス: Link先を確認 | Aly Sabri Abdalla, Ahmad Al-Kabbany, Ehab F. Badran, Vuk Marojevic, | (参考訳) V2Xネットワークは様々な安全、エンターテイメント、商用アプリケーションをサポートしている。
インターネット・オブ・ビークルズ(IoV)の原則を適用して、車両間の接続を容易にし、車両と道路側ユニット(RSU)間の接続を容易にする。
ネットワークの混雑管理は、IoVにとって不可欠であり、輸送システムの効率を改善し、安全上重要なパケットをタイムリーに配送するための車両間の信頼性の高い通信を提供することに影響を及ぼすことで、重要な懸念事項となっている。
本稿では,IoVネットワークのプロアクティブな混雑管理のためのフレームワークを提案する。
我々は、LSTMを用いて渋滞を予測するために、混雑シナリオとデータセットを生成する。
本稿では,このフレームワークとパケット混雑データセットについて述べる。
NS3を用いたSUMOを用いたシミュレーション結果は、IoVネットワークの混雑予測と、繰り返しニューラルネットワークを用いたパケットのクラスタリング/プライオリティ化のためのフレームワークの有効性を示す。
Vehicle-to-everything (V2X) networks support a variety of safety, entertainment, and commercial applications. This is realized by applying the principles of the Internet of Vehicles (IoV) to facilitate connectivity among vehicles and between vehicles and roadside units (RSUs). Network congestion management is essential for IoVs and it represents a significant concern due to its impact on improving the efficiency of transportation systems and providing reliable communication among vehicles for the timely delivery of safety-critical packets. This paper introduces a framework for proactive congestion management for IoV networks. We generate congestion scenarios and a data set to predict the congestion using LSTM. We present the framework and the packet congestion dataset. Simulation results using SUMO with NS3 demonstrate the effectiveness of the framework for forecasting IoV network congestion and clustering/prioritizing packets employing recurrent neural networks. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# オクタヘドラル遷移金属錯体の多体展開に基づく機械学習モデル
Many-body Expansion Based Machine Learning Models for Octahedral Transition Metal Complexes ( http://arxiv.org/abs/2410.09659v1 ) ライセンス: Link先を確認 | Ralf Meyer, Daniel Benjamin Kasman Chu, Heather J. Kulik, | (参考訳) 物質特性のグラフベース機械学習モデルは、大きな化学空間の仮想的高スループットスクリーニングを加速する大きな可能性を示している。
しかしながら、最も単純な形式では、グラフベースのモデルには3D情報が含まれておらず、配位錯体において金属中心の周囲の異なる配位子から生じるような立体異性体を区別することはできない。
本研究では, 八面体遷移金属錯体 (TMCs) のスピン状態依存特性を学習するための分子グラフデクリプタ, 分子グラフデクリプタの改良について述べる。
TMCの解析的半経験モデルにインスパイアされた新しいモデリング戦略は、多体展開(MBE)に基づいて、MBEの切り離し順序を変化させることで、捕捉された立体異性体情報を調整することができる。
本稿では、カーネルリッジ回帰とフィードフォワードニューラルネットワークという2つの一般的な機械学習手法にこのアプローチを組み込むために必要な修正を提案する。
二元遷移金属錯体の可能な全ての異性体からなる試験セットにおいて、最良のMBEモデルは、スピンスプリッティングエネルギーで2.75 kcal/mol、フロンティア軌道エネルギーギャップで0.26 eVの平均絶対誤差を達成する。
また、スピンスプリッティングエネルギーにおける平均絶対誤差が4.00 kcal/mol(すなわち0.73 kcal/mol還元)、フロンティア軌道エネルギーギャップにおける0.53 eV(すなわち0.10 eV還元)であるような未確認リガンドへの一般化も観察した。
この新しいアプローチは、配位子付加性関係のような電子構造理論からの洞察を取り入れているため、これらのモデルは、ホモレプシーゼからヘテロレプシーゼコンプレックスへの体系的な一般化を示し、TMC探索空間の効率的なスクリーニングを可能にしている。
Graph-based machine learning models for materials properties show great potential to accelerate virtual high-throughput screening of large chemical spaces. However, in their simplest forms, graph-based models do not include any 3D information and are unable to distinguish stereoisomers such as those arising from different orderings of ligands around a metal center in coordination complexes. In this work we present a modification to revised autocorrelation descriptors, our molecular graph featurization method for machine learning various spin state dependent properties of octahedral transition metal complexes (TMCs). Inspired by analytical semi-empirical models for TMCs, the new modeling strategy is based on the many-body expansion (MBE) and allows one to tune the captured stereoisomer information by changing the truncation order of the MBE. We present the necessary modifications to include this approach in two commonly used machine learning methods, kernel ridge regression and feed-forward neural networks. On a test set composed of all possible isomers of binary transition metal complexes, the best MBE models achieve mean absolute errors of 2.75 kcal/mol on spin-splitting energies and 0.26 eV on frontier orbital energy gaps, a 30-40% reduction in error compared to models based on our previous approach. We also observe improved generalization to previously unseen ligands where the best-performing models exhibit mean absolute errors of 4.00 kcal/mol (i.e., a 0.73 kcal/mol reduction) on the spin-splitting energies and 0.53 eV (i.e., a 0.10 eV reduction) on the frontier orbital energy gaps. Because the new approach incorporates insights from electronic structure theory, such as ligand additivity relationships, these models exhibit systematic generalization from homoleptic to heteroleptic complexes, allowing for efficient screening of TMC search spaces. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# SPD多様体上の制約付き最適化のための構造正規化
Structured Regularization for Constrained Optimization on the SPD Manifold ( http://arxiv.org/abs/2410.09660v1 ) ライセンス: Link先を確認 | Andrew Cheng, Melanie Weber, | (参考訳) 対称正定値行列(SPD)を含む行列値最適化タスクは、機械学習、データサイエンス、統計学における幅広い応用に現れる。
古典的には、そのような問題は制約付きユークリッド最適化によって解決され、そこでは領域はユークリッド空間と見なされ、行列の構造(例えば正の定性)は制約として現れる。
最近では、問題のパラメトリゼーションを対応する行列多様体上の制約のないタスクとして活用する幾何学的アプローチが提案されている。
多くの設定でアルゴリズム上の利点を示すが、不等式や疎性制約といった追加の制約を直接処理することはできない。
緩和法は制約付きリーマン最適化法、特にリーマン的フランク=ウルフと射影勾配 Descent の形で現れる。
しかし、どちらのアルゴリズムも、練習中に計算ボトルネックをもたらす可能性のある、潜在的に高価なサブルーチンを必要とする。
これらの欠点を軽減するために、対称ゲージ関数に基づく構造化正規化器のクラスを導入し、より高速な非制約手法でSPD多様体上の制約付き最適化を解けるようにする。
構造正規化器は望ましい構造(特に凸性や凸の差)を保存または誘導するために選択できることを示す。
数値解析実験において,本手法の有効性を実証する。
Matrix-valued optimization tasks, including those involving symmetric positive definite (SPD) matrices, arise in a wide range of applications in machine learning, data science and statistics. Classically, such problems are solved via constrained Euclidean optimization, where the domain is viewed as a Euclidean space and the structure of the matrices (e.g., positive definiteness) enters as constraints. More recently, geometric approaches that leverage parametrizations of the problem as unconstrained tasks on the corresponding matrix manifold have been proposed. While they exhibit algorithmic benefits in many settings, they cannot directly handle additional constraints, such as inequality or sparsity constraints. A remedy comes in the form of constrained Riemannian optimization methods, notably, Riemannian Frank-Wolfe and Projected Gradient Descent. However, both algorithms require potentially expensive subroutines that can introduce computational bottlenecks in practise. To mitigate these shortcomings, we introduce a class of structured regularizers, based on symmetric gauge functions, which allow for solving constrained optimization on the SPD manifold with faster unconstrained methods. We show that our structured regularizers can be chosen to preserve or induce desirable structure, in particular convexity and "difference of convex" structure. We demonstrate the effectiveness of our approach in numerical experiments. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# コーディングタスクのためのRAGにおけるデモレトリバーの探索 - Yeas and Nays!
Exploring Demonstration Retrievers in RAG for Coding Tasks: Yeas and Nays! ( http://arxiv.org/abs/2410.09662v1 ) ライセンス: Link先を確認 | Pengfei He, Shaowei Wang, Shaiful Chowdhury, Tse-Hsun Chen, | (参考訳) Retrieval-Augmented Generation (RAG)は、外部知識ベースを統合し、様々なコーディングタスクで最先端の結果を達成することにより、Large Language Models (LLM)を強化する。
RAGの中核は、最適なパフォーマンスのために有効性(世代品質)と効率性(検索時間)のバランスをとるのに不可欠である実例を取得することである。
しかし、コード表現と大きな知識基盤の高次元的な性質は、しばしば効率のボトルネックを生じさせ、これは以前の研究で見過ごされている。
本稿では,プログラム合成,コミットメッセージ生成,アクセレーション生成という3つのコーディングタスクにおいて,レトリバーの効率効率トレードオフを体系的に評価する。
2つのスパース (BM25, BM25L) と4つの高密度検索器 (SBERTのセマンティックサーチ) と3つの近似高密度検索器 (ANNOY, LSH, HNSW) について検討した。
その結果,BM25は有効性は優れているものの,知識ベースが1000を超えると効率が低下することがわかった。
大規模な検索では、効率の差がより顕著になり、ほぼ密集した検索者が最大利得を提供する。
例えば、コミット生成タスクでは、HNSWは44倍のスピードアップを達成するが、RueLはBM25に比べて1.74%低下している。
この結果から,プロンプトにおける実演回数の増加は必ずしも有効性の向上には至らず,遅延を増大させ,誤出力につながる可能性が示唆された。
本研究は, コーディングタスクのための効率的なRAGシステムの構築を目指す実践者に対して, 貴重な知見を提供するものである。
Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by integrating external knowledge bases, achieving state-of-the-art results in various coding tasks. The core of RAG is retrieving demonstration examples, which is essential to balance effectiveness (generation quality) and efficiency (retrieval time) for optimal performance. However, the high-dimensional nature of code representations and large knowledge bases often create efficiency bottlenecks, which are overlooked in previous research. This paper systematically evaluates the efficiency-effectiveness trade-off of retrievers across three coding tasks: Program Synthesis, Commit Message Generation, and Assertion Generation. We examined six retrievers: two sparse (BM25 and BM25L) and four dense retrievers, including one exhaustive dense retriever (SBERT's Semantic Search) and three approximate dense retrievers (ANNOY, LSH, and HNSW). Our findings show that while BM25 excels in effectiveness, it suffers in efficiency as the knowledge base grows beyond 1000 entries. In large-scale retrieval, efficiency differences become more pronounced, with approximate dense retrievers offering the greatest gains. For instance, in Commit Generation task, HNSW achieves a 44x speed up, while only with a 1.74% drop in RougeL compared with BM25. Our results also show that increasing the number of demonstrations in the prompt doesn't always improve the effectiveness and can increase latency and lead to incorrect outputs. Our findings provide valuable insights for practitioners aiming to build efficient and effective RAG systems for coding tasks. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# クロスレイヤコンパイラ最適化による量子コンピューティングにおけるコヒーレントノイズの処理
Tackling Coherent Noise in Quantum Computing via Cross-Layer Compiler Optimization ( http://arxiv.org/abs/2410.09664v1 ) ライセンス: Link先を確認 | Xiangyu Ren, Junjie Wan, Zhiding Liang, Antonio Barbalace, | (参考訳) 量子コンピューティングハードウェアは、実行された量子プログラムの結果の品質を損なう量子ノイズに影響を受ける。
その他の量子ノイズの中で、パラメータのドリフトと誤校正に起因するコヒーレント誤差は依然として重要なものである。
コヒーレントなエラー軽減は以前にも研究されてきたが、ゲートレベルかパルスレベル、すなわちクロスレベル最適化の機会の欠如に焦点を当てた研究が注目されている。
上記の制限に対処するため,プログラムレベル,ゲートレベル,パルスレベルのコンパイラ最適化を考慮したコヒーレントエラー軽減手法を提案する。
コンパイラ最適化パスとしてアプローチを実装し,IBM Qiskitフレームワークに統合した。
我々は実量子コンピュータ(IBM-Brisbane)でテストを行い、いくつかのベンチマークで92%の忠実度改善(平均45%)を実証した。
Quantum computing hardware is affected by quantum noise that undermine the quality of results of an executed quantum program. Amongst other quantum noises, coherent error that caused by parameter drifting and miscalibration, remains critical. While coherent error mitigation has been studied before, studies focused either on gate-level or pulse-level -- missing cross-level optimization opportunities; And most of them only target single-qubit gates -- while multi-qubit gates are also used in practice. To address above limitations, this work proposes a cross-layer approach for coherent error mitigation that considers program-level, gate-level, and pulse-level compiler optimizations, by leveraging the hidden inverse theory, and exploiting the structure inside different quantum programs, while also considering multi-qubit gates. We implemented our approach as compiler optimization passes, and integrated into IBM Qiskit framework. We tested our technique on real quantum computer (IBM-Brisbane), and demonstrated up to 92% fidelity improvements (45% on average), on several benchmarks. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-12 |
# EquiJump: SO(3)-等変確率補間体によるタンパク質動力学シミュレーション
EquiJump: Protein Dynamics Simulation via SO(3)-Equivariant Stochastic Interpolants ( http://arxiv.org/abs/2410.09667v1 ) ライセンス: Link先を確認 | Allan dos Santos Costa, Ilan Mitnikov, Franco Pellegrini, Ameya Daigavane, Mario Geiger, Zhonglin Cao, Karsten Kreis, Tess Smidt, Emine Kucukbenli, Joseph Jacobson, | (参考訳) タンパク質のコンフォメーションダイナミクスのマッピングは、その機能機構の解明に不可欠である。
分子動力学(MD)シミュレーションはタンパク質の動きの詳細な時間進化を可能にするが、その計算料金は実際にの使用を妨げる。
この課題に対処するため、MDの再生と高速化のための複数のディープラーニングモデルがトランスポートベース生成法に基づいて提案されている。
しかし、既存の研究は、しばしばデータ多様体から離れた、以前の分布からサンプルを輸送することによる生成に焦点を当てている。
最近提案された確率的補間器のフレームワークは、任意の分布終端間の移動を可能にする。
この研究に基づいて、全原子タンパク質シミュレーションの時間ステップを直接ブリッジする転送可能なSO(3)-同変モデルであるEquiJumpを導入する。
提案手法は多様なサンプリング手法を統一し,高速な折りたたみタンパク質の軌道データに基づく既存のモデルと比較した。
EquiJumpは、すべての高速な折りたたみタンパク質の転送可能なモデルを用いて、動的シミュレーションの最先端の結果を達成する。
Mapping the conformational dynamics of proteins is crucial for elucidating their functional mechanisms. While Molecular Dynamics (MD) simulation enables detailed time evolution of protein motion, its computational toll hinders its use in practice. To address this challenge, multiple deep learning models for reproducing and accelerating MD have been proposed drawing on transport-based generative methods. However, existing work focuses on generation through transport of samples from prior distributions, that can often be distant from the data manifold. The recently proposed framework of stochastic interpolants, instead, enables transport between arbitrary distribution endpoints. Building upon this work, we introduce EquiJump, a transferable SO(3)-equivariant model that bridges all-atom protein dynamics simulation time steps directly. Our approach unifies diverse sampling methods and is benchmarked against existing models on trajectory data of fast folding proteins. EquiJump achieves state-of-the-art results on dynamics simulation with a transferable model on all of the fast folding proteins. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-12 |
# OpenR: 大規模言語モデルによる高度な推論のためのオープンソースフレームワーク
OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models ( http://arxiv.org/abs/2410.09671v1 ) ライセンス: Link先を確認 | Jun Wang, Meng Fang, Ziyu Wan, Muning Wen, Jiachen Zhu, Anjie Liu, Ziqin Gong, Yan Song, Lei Chen, Lionel M. Ni, Linyi Yang, Ying Wen, Weinan Zhang, | (参考訳) 本稿では,大規模言語モデル(LLM)の推論能力を高めるために,主要なコンポーネントを統合するために設計されたオープンソースフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング(オンラインとオフラインの両方)、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
我々のゴールは、LCM推論の開発を加速するオープンソースプラットフォームとコミュニティを確立することです。
OpenAIのo1モデルの成功に触発され、ステップバイステップの推論と強化学習によって推論能力が改善された。
当社の作業は,OpenAIのo1モデルのコアテクニックを強化学習で探求し,従来の自己回帰的手法を越えた高度な推論能力を実現する,オープンソースフレームワークを初めて提供するものです。
我々は,OpenRの有効性をMATHデータセット上で評価し,公開データと検索手法を用いて実証する。
テスト時間計算とプロセス報酬モデルによる強化学習により推理と性能が相対的に向上した。
コード、モデル、データセットを含むOpenRフレームワークはhttps://openreasoner.github.io.comでアクセスできる。
In this technical report, we introduce OpenR, an open-source framework designed to integrate key components for enhancing the reasoning capabilities of large language models (LLMs). OpenR unifies data acquisition, reinforcement learning training (both online and offline), and non-autoregressive decoding into a cohesive software platform. Our goal is to establish an open-source platform and community to accelerate the development of LLM reasoning. Inspired by the success of OpenAI's o1 model, which demonstrated improved reasoning abilities through step-by-step reasoning and reinforcement learning, OpenR integrates test-time compute, reinforcement learning, and process supervision to improve reasoning in LLMs. Our work is the first to provide an open-source framework that explores the core techniques of OpenAI's o1 model with reinforcement learning, achieving advanced reasoning capabilities beyond traditional autoregressive methods. We demonstrate the efficacy of OpenR by evaluating it on the MATH dataset, utilising publicly available data and search methods. Our initial experiments confirm substantial gains, with relative improvements in reasoning and performance driven by test-time computation and reinforcement learning through process reward models. The OpenR framework, including code, models, and datasets, is accessible at https://openreasoner.github.io. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-12 |
# EG-SpikeFormer:医用画像解析のためのスパイキングニューラルネットワーク用アイゲイズガイド変換器
EG-SpikeFormer: Eye-Gaze Guided Transformer on Spiking Neural Networks for Medical Image Analysis ( http://arxiv.org/abs/2410.09674v1 ) ライセンス: Link先を確認 | Yi Pan, Hanqi Jiang, Junhao Chen, Yiwei Li, Huaqin Zhao, Yifan Zhou, Peng Shu, Zihao Wu, Zhengliang Liu, Dajiang Zhu, Xiang Li, Yohannes Abate, Tianming Liu, | (参考訳) ニューロモルフィックコンピューティングは、ニューロモルフィックハードウェアに実装されたスパイキングニューラルネットワーク(SNN)を主に利用して、従来の人工知能に代わる有望なエネルギー効率の代替として登場した。
SNNベースの畳み込みニューラルネットワーク(CNN)とTransformerアーキテクチャにおいて、重要な進歩がなされている。
しかし、医療画像領域におけるそれらの応用はいまだ未発見のままである。
本研究では,医用画像の診断関連領域に焦点を合わせるために眼球データを統合するSNNアーキテクチャであるEG-SpikeFormerを紹介する。
このアプローチは、特に臨床データに制限があり、モデルの信頼性、一般化可能性、透明性に対する高い要求のあるシナリオにおいて、従来のモデルでよく見られるショートカット学習の問題に効果的に対処する。
我々のEG-SpikeFormerは,医用画像分類作業におけるエネルギー効率と性能を向上するだけでなく,臨床関連性も向上する。
視線データを取り入れることで、解釈可能性と一般化が向上し、医療におけるニューロモルフィックコンピューティングの適用に向けた新たな方向性が開かれる。
Neuromorphic computing has emerged as a promising energy-efficient alternative to traditional artificial intelligence, predominantly utilizing spiking neural networks (SNNs) implemented on neuromorphic hardware. Significant advancements have been made in SNN-based convolutional neural networks (CNNs) and Transformer architectures. However, their applications in the medical imaging domain remain underexplored. In this study, we introduce EG-SpikeFormer, an SNN architecture designed for clinical tasks that integrates eye-gaze data to guide the model's focus on diagnostically relevant regions in medical images. This approach effectively addresses shortcut learning issues commonly observed in conventional models, especially in scenarios with limited clinical data and high demands for model reliability, generalizability, and transparency. Our EG-SpikeFormer not only demonstrates superior energy efficiency and performance in medical image classification tasks but also enhances clinical relevance. By incorporating eye-gaze data, the model improves interpretability and generalization, opening new directions for the application of neuromorphic computing in healthcare. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-12 |
# COrAL: 効率的な反復リファインメントのための順序に依存しない言語モデリング
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement ( http://arxiv.org/abs/2410.09675v1 ) ライセンス: Link先を確認 | Yuxi Xie, Anirudh Goyal, Xiaobao Wu, Xunjian Yin, Xiao Xu, Min-Yen Kan, Liangming Pan, William Yang Wang, | (参考訳) 反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
しかし、既存のアプローチは、通常、アプリケーションやプロンプトレベルで反復的な改善を実装し、自己回帰(AR)モデリングに依存します。
ARモデルにおけるシーケンシャルトークン生成は、高い推論遅延を引き起こす可能性がある。
これらの課題を克服するために,計算効率を維持しつつ,反復的改善を直接LLMアーキテクチャに組み込むコンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存性をモデル化し、生成プロセス中に内部的に反復的な改善を行えるようにしています。
COrALの順序に依存しない性質を生かしたスライディングブロックワイド順序に依存しないデコーディングを導入し、コンテキストウィンドウ内で多点前方予測と後方再構成を行う。
これにより、モデルはスライディングブロック内で並列に出力を反復的に洗練し、シーケンシャルジェネレーションの高推論コストを伴わずに、多種多様な依存関係を効果的にキャプチャすることができる。
推論タスクに関する実証的な評価は、COrALがそれぞれ性能と推論速度を改善し、GSM8Kで4.6\%、LogiQAで4.0\%の絶対精度向上と、最大3.9\times$の次の基準線上での推論速度向上を実現していることを示している。
コード生成に関する予備的な結果は、順序に依存しない出力の不整合によるパスレートの低下を示し、固有の品質-速度トレードオフを浮き彫りにしている。
私たちのコードはhttps://github.com/YuxiXie/COrAL.comで公開されています。
Iterative refinement has emerged as an effective paradigm for enhancing the capabilities of large language models (LLMs) on complex tasks. However, existing approaches typically implement iterative refinement at the application or prompting level, relying on autoregressive (AR) modeling. The sequential token generation in AR models can lead to high inference latency. To overcome these challenges, we propose Context-Wise Order-Agnostic Language Modeling (COrAL), which incorporates iterative refinement directly into the LLM architecture while maintaining computational efficiency. Our approach models multiple token dependencies within manageable context windows, enabling the model to perform iterative refinement internally during the generation process. Leveraging the order-agnostic nature of COrAL, we introduce sliding blockwise order-agnostic decoding, which performs multi-token forward prediction and backward reconstruction within context windows. This allows the model to iteratively refine its outputs in parallel in the sliding block, effectively capturing diverse dependencies without the high inference cost of sequential generation. Empirical evaluations on reasoning tasks demonstrate that COrAL improves performance and inference speed, respectively, achieving absolute accuracy gains of $4.6\%$ on GSM8K and $4.0\%$ on LogiQA, along with inference speedups of up to $3.9\times$ over next-token baselines. Preliminary results on code generation indicate a drop in pass rates due to inconsistencies in order-agnostic outputs, highlighting the inherent quality--speed trade-off. Our code is publicly available at https://github.com/YuxiXie/COrAL. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-12 |