論文の概要: InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback
- arxiv url: http://arxiv.org/abs/2505.23950v1
- Date: Thu, 29 May 2025 19:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.635745
- Title: InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback
- Title(参考訳): InterMT: フィードバックを考慮したマルチTurnインターリーブ選好アライメント
- Authors: Boyuan Chen, Donghai Hong, Jiaming Ji, Jiacheng Zheng, Bowen Dong, Jiayi Zhou, Kaile Wang, Juntao Dai, Xuyao Wang, Wenqi Chen, Qirui Zheng, Wenxin Li, Sirui Han, Yike Guo, Yaodong Yang,
- Abstract要約: 人間の学習の重要な側面は環境との継続的な相互作用である。
人間レベルのインテリジェンスに近づくためには、モデルがマルチターン、マルチモーダルなインタラクションをサポートする必要がある。
マルチターンマルチモーダルインタラクションのための第1の選好データセットであるInterMTによる最初の探索を行う。
- 参考スコア(独自算出の注目度): 20.27708059361695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multimodal large models (MLLMs) continue to advance across challenging tasks, a key question emerges: What essential capabilities are still missing? A critical aspect of human learning is continuous interaction with the environment -- not limited to language, but also involving multimodal understanding and generation. To move closer to human-level intelligence, models must similarly support multi-turn, multimodal interaction. In particular, they should comprehend interleaved multimodal contexts and respond coherently in ongoing exchanges. In this work, we present an initial exploration through the InterMT -- the first preference dataset for multi-turn multimodal interaction, grounded in real human feedback. In this exploration, we particularly emphasize the importance of human oversight, introducing expert annotations to guide the process, motivated by the fact that current MLLMs lack such complex interactive capabilities. InterMT captures human preferences at both global and local levels into nine sub-dimensions, consists of 15.6k prompts, 52.6k multi-turn dialogue instances, and 32.4k human-labeled preference pairs. To compensate for the lack of capability for multi-modal understanding and generation, we introduce an agentic workflow that leverages tool-augmented MLLMs to construct multi-turn QA instances. To further this goal, we introduce InterMT-Bench to assess the ability of MLLMs in assisting judges with multi-turn, multimodal tasks. We demonstrate the utility of \InterMT through applications such as judge moderation and further reveal the multi-turn scaling law of judge model. We hope the open-source of our data can help facilitate further research on aligning current MLLMs to the next step. Our project website can be found at https://pku-intermt.github.io .
- Abstract(参考訳): マルチモーダルな大規模モデル(MLLM)が課題を超えて進歩を続ける中、重要な疑問が浮かび上がっている。
人間の学習の重要な側面は、言語に限らず、マルチモーダルな理解と生成も含む環境との継続的な相互作用である。
人間レベルのインテリジェンスに近づくためには、モデルも同様にマルチターン、マルチモーダルなインタラクションをサポートしなければならない。
特に、インターリーブされたマルチモーダルコンテキストを理解し、継続的な交換において一貫性のある応答をすべきである。
本研究では,マルチターンマルチモーダルインタラクションのための最初の選好データセットであるInterMTを用いて,人間のフィードバックに基づいて最初の探索を行う。
この調査では,従来のMLLMには複雑な対話能力がないという事実を動機として,プロセスのガイドとなる専門家アノテーションを導入し,人間の監視の重要性を強調した。
InterMTは、グローバルレベルとローカルレベルの両方の人間の嗜好を9つのサブディメンジョンにキャプチャし、15.6kのプロンプト、52.6kのマルチターンダイアログインスタンス、32.4kの人ラベルの嗜好ペアで構成されている。
マルチモーダル理解と生成能力の欠如を補うため,ツール拡張MLLMを利用してマルチターンQAインスタンスを構築するエージェントワークフローを導入する。
この目的をさらに進めるために、マルチターン・マルチモーダルタスクの審査を支援するMLLMの能力を評価するためにInterMT-Benchを導入する。
本稿では, ジャッジモデレーションなどの応用による \InterMT の有用性を実証し, ジャッジモデルのマルチターンスケーリング法則をさらに明らかにする。
我々のデータのオープンソースが、現在のMLLMを次のステップに合わせるためのさらなる研究に役立つことを願っています。
プロジェクトのWebサイトはhttps://pku-intermt.github.io にある。
関連論文リスト
- Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models [8.08979200534563]
現実世界のアプリケーションは洗練されたマルチターンインタラクションを必要とする。
大規模言語モデル(LLM)の最近の進歩は、シングルターンタスクを扱う能力に革命をもたらした。
論文 参考訳(メタデータ) (2025-04-07T04:00:08Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。