論文の概要: Can Language Models Follow Multiple Turns of Entangled Instructions?
- arxiv url: http://arxiv.org/abs/2503.13222v1
- Date: Mon, 17 Mar 2025 14:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:01.644098
- Title: Can Language Models Follow Multiple Turns of Entangled Instructions?
- Title(参考訳): 言語モデルは絡み合った命令を複数回追うことができるか?
- Authors: Chi Han,
- Abstract要約: 現実世界のシナリオは、秘密のプライバシ、個人の好み、優先順位付けなど、時間とともに複数の命令をまたいだ一貫性を必要とする。
本研究は,多方向命令処理における大規模言語モデルの能力について,系統的研究を行った。
我々は,Human-in-the-loopアプローチを用いて,約1.1Kの高品質なマルチターン会話を用いたMultiTurnInstructを構築した。
- 参考スコア(独自算出の注目度): 4.44881011141635
- License:
- Abstract: Despite significant achievements in improving the instruction-following capabilities of large language models (LLMs), the ability to process multiple potentially entangled or conflicting instructions remains a considerable challenge. Real-world scenarios often require consistency across multiple instructions over time, such as secret privacy, personal preferences, and prioritization, which demand sophisticated abilities to integrate multiple turns and carefully balance competing objectives when instructions intersect or conflict. This work presents a systematic investigation of LLMs' capabilities in handling multiple turns of instructions, covering three levels of difficulty: (1) retrieving information from instructions, (2) tracking and reasoning across turns, and (3) resolving conflicts among instructions. We construct MultiTurnInstruct with around 1.1K high-quality multi-turn conversations through the human-in-the-loop approach and result in nine capability categories, including statics and dynamics, reasoning, and multitasking. Our finding reveals an intriguing trade-off between different capabilities. While GPT models demonstrate superior memorization, they show reduced effectiveness in privacy-protection tasks requiring selective information withholding. Larger models exhibit stronger reasoning capabilities but still struggle with resolving conflicting instructions. Importantly, these performance gaps cannot be attributed solely to information loss, as models demonstrate strong BLEU scores on memorization tasks but their attention mechanisms fail to integrate multiple related instructions effectively. These findings highlight critical areas for improvement in complex real-world tasks involving multi-turn instructions.
- Abstract(参考訳): 大規模言語モデル(LLM)の命令追従能力の改善には大きな成果があるが、複数の潜在的に絡み合った命令や競合する命令を処理する能力は依然として大きな課題である。
現実世界のシナリオは、秘密のプライバシ、個人の好み、優先順位付けなど、時間とともに複数の命令の一貫性を必要とすることが多い。
本研究は,命令の複数回処理における LLM の機能について,(1) 命令からの情報の検索,(2) ターン間の追跡と推論,(3) 命令間の衝突の解消という3つの難易度を網羅した体系的な検討を行った。
我々は,マルチトゥルンインストラクタを1.1K程度の高品質なマルチターン会話で構築し,静的,動的,推論,マルチタスキングといった9つの機能カテゴリを実現する。
私たちの発見は、異なる機能間の興味深いトレードオフを明らかにします。
GPTモデルはより優れた記憶化を示すが、プライバシ保護タスクにおいて、選択的な情報の保持を必要とする効果を低下させる。
より大きなモデルはより強力な推論能力を示すが、いまだに矛盾する命令の解決に苦慮している。
重要なことは、これらのパフォーマンスギャップは、記憶タスクに強いBLEUスコアを示すため、情報損失のみに起因するものではないが、それらの注意機構は複数の関連する命令を効果的に統合することができない。
これらの知見は、マルチターン命令を含む複雑な実世界のタスクを改善するための重要な領域を浮き彫りにした。
関連論文リスト
- GROOT-2: Weakly Supervised Multi-Modal Instruction Following Agents [25.195426389757355]
GROOT-2は、弱い監督と潜在変数モデルを組み合わせた新しいアプローチを用いて訓練されたマルチモーダルエージェントである。
GROOT-2の有効性は、ビデオゲームからロボット操作まで、四つの異なる環境で検証されている。
論文 参考訳(メタデータ) (2024-12-07T05:47:49Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - SwitchCIT: Switching for Continual Instruction Tuning [14.085371250265224]
大規模言語モデル (LLM) とマルチモーダルモデル (MM) は、様々な領域で印象的な機能を示している。
タスクやドメインの進化に大規模なモデルを適用するためには、継続的な命令チューニングが不可欠である。
この研究は、パラメータ効率の調整モデルに計算をルーティングするメカニズムを通じて、連続的な命令学習における破滅的な忘れに対処する。
論文 参考訳(メタデータ) (2024-07-16T14:37:33Z) - The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。
我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。
より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文 参考訳(メタデータ) (2024-06-28T15:34:26Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - Understanding Multimodal Procedural Knowledge by Sequencing Multimodal
Instructional Manuals [48.55362590292391]
我々は、順序のないマルチモーダル命令を推論し、シーケンシングする機械学習モデルの能力をベンチマークする。
モデルの性能は人間より著しく劣るだけでなく、マルチモーダル情報の有効利用も不可能である。
本稿では,テキストと画像の逐次アライメント特性を利用した逐次性を考慮した事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-16T06:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。