論文の概要: InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback
- arxiv url: http://arxiv.org/abs/2505.23950v1
- Date: Thu, 29 May 2025 19:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.635745
- Title: InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback
- Title(参考訳): InterMT: フィードバックを考慮したマルチTurnインターリーブ選好アライメント
- Authors: Boyuan Chen, Donghai Hong, Jiaming Ji, Jiacheng Zheng, Bowen Dong, Jiayi Zhou, Kaile Wang, Juntao Dai, Xuyao Wang, Wenqi Chen, Qirui Zheng, Wenxin Li, Sirui Han, Yike Guo, Yaodong Yang,
- Abstract要約: 人間の学習の重要な側面は環境との継続的な相互作用である。
人間レベルのインテリジェンスに近づくためには、モデルがマルチターン、マルチモーダルなインタラクションをサポートする必要がある。
マルチターンマルチモーダルインタラクションのための第1の選好データセットであるInterMTによる最初の探索を行う。
- 参考スコア(独自算出の注目度): 20.27708059361695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multimodal large models (MLLMs) continue to advance across challenging tasks, a key question emerges: What essential capabilities are still missing? A critical aspect of human learning is continuous interaction with the environment -- not limited to language, but also involving multimodal understanding and generation. To move closer to human-level intelligence, models must similarly support multi-turn, multimodal interaction. In particular, they should comprehend interleaved multimodal contexts and respond coherently in ongoing exchanges. In this work, we present an initial exploration through the InterMT -- the first preference dataset for multi-turn multimodal interaction, grounded in real human feedback. In this exploration, we particularly emphasize the importance of human oversight, introducing expert annotations to guide the process, motivated by the fact that current MLLMs lack such complex interactive capabilities. InterMT captures human preferences at both global and local levels into nine sub-dimensions, consists of 15.6k prompts, 52.6k multi-turn dialogue instances, and 32.4k human-labeled preference pairs. To compensate for the lack of capability for multi-modal understanding and generation, we introduce an agentic workflow that leverages tool-augmented MLLMs to construct multi-turn QA instances. To further this goal, we introduce InterMT-Bench to assess the ability of MLLMs in assisting judges with multi-turn, multimodal tasks. We demonstrate the utility of \InterMT through applications such as judge moderation and further reveal the multi-turn scaling law of judge model. We hope the open-source of our data can help facilitate further research on aligning current MLLMs to the next step. Our project website can be found at https://pku-intermt.github.io .
- Abstract(参考訳): マルチモーダルな大規模モデル(MLLM)が課題を超えて進歩を続ける中、重要な疑問が浮かび上がっている。
人間の学習の重要な側面は、言語に限らず、マルチモーダルな理解と生成も含む環境との継続的な相互作用である。
人間レベルのインテリジェンスに近づくためには、モデルも同様にマルチターン、マルチモーダルなインタラクションをサポートしなければならない。
特に、インターリーブされたマルチモーダルコンテキストを理解し、継続的な交換において一貫性のある応答をすべきである。
本研究では,マルチターンマルチモーダルインタラクションのための最初の選好データセットであるInterMTを用いて,人間のフィードバックに基づいて最初の探索を行う。
この調査では,従来のMLLMには複雑な対話能力がないという事実を動機として,プロセスのガイドとなる専門家アノテーションを導入し,人間の監視の重要性を強調した。
InterMTは、グローバルレベルとローカルレベルの両方の人間の嗜好を9つのサブディメンジョンにキャプチャし、15.6kのプロンプト、52.6kのマルチターンダイアログインスタンス、32.4kの人ラベルの嗜好ペアで構成されている。
マルチモーダル理解と生成能力の欠如を補うため,ツール拡張MLLMを利用してマルチターンQAインスタンスを構築するエージェントワークフローを導入する。
この目的をさらに進めるために、マルチターン・マルチモーダルタスクの審査を支援するMLLMの能力を評価するためにInterMT-Benchを導入する。
本稿では, ジャッジモデレーションなどの応用による \InterMT の有用性を実証し, ジャッジモデルのマルチターンスケーリング法則をさらに明らかにする。
我々のデータのオープンソースが、現在のMLLMを次のステップに合わせるためのさらなる研究に役立つことを願っています。
プロジェクトのWebサイトはhttps://pku-intermt.github.io にある。
関連論文リスト
- Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models [8.08979200534563]
現実世界のアプリケーションは洗練されたマルチターンインタラクションを必要とする。
大規模言語モデル(LLM)の最近の進歩は、シングルターンタスクを扱う能力に革命をもたらした。
論文 参考訳(メタデータ) (2025-04-07T04:00:08Z) - Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。
トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。
また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文 参考訳(メタデータ) (2025-01-24T10:00:47Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction [0.0]
ビデオ記録では、34人の人間とアバターのインタラクションを録画し、ビデオの抜粋で完全な言語的マイクロアナリシスを行い、マルチモーダル行動やイベントの発生を全て記録した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
本稿では,会話分析(CA)や認知科学,心の理論(ToM)などの知識を,人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案する。
論文 参考訳(メタデータ) (2022-11-24T21:17:36Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。