論文の概要: Controlling Multimodal Conversational Agents with Coverage-Enhanced Latent Actions
- arxiv url: http://arxiv.org/abs/2601.07516v1
- Date: Mon, 12 Jan 2026 13:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.398449
- Title: Controlling Multimodal Conversational Agents with Coverage-Enhanced Latent Actions
- Title(参考訳): 隠蔽強化潜時行動による多モーダル会話エージェントの制御
- Authors: Yongqi Li, Hao Lang, Tieyun Qian, Yongbin Li,
- Abstract要約: 強化学習(RL)は、様々な人間とAIの相互作用シナリオにMCAを適用するために広く研究されている。
代わりにRLファインチューニングのためのコンパクト潜在作用空間を学習する。
我々は、ペア化された画像テキストデータとテキストのみのデータの両方を活用して、潜在アクション空間を構築します。
- 参考スコア(独自算出の注目度): 62.02112656288921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models are increasingly employed as multimodal conversational agents (MCAs) for diverse conversational tasks. Recently, reinforcement learning (RL) has been widely explored for adapting MCAs to various human-AI interaction scenarios. Despite showing great enhancement in generalization performance, fine-tuning MCAs via RL still faces challenges in handling the extremely large text token space. To address this, we learn a compact latent action space for RL fine-tuning instead. Specifically, we adopt the learning from observation mechanism to construct the codebook for the latent action space, where future observations are leveraged to estimate current latent actions that could further be used to reconstruct future observations. However, the scarcity of paired image-text data hinders learning a codebook with sufficient coverage. Thus, we leverage both paired image-text data and text-only data to construct the latent action space, using a cross-modal projector for transforming text embeddings into image-text embeddings. We initialize the cross-modal projector on paired image-text data, and further train it on massive text-only data with a novel cycle consistency loss to enhance its robustness. We show that our latent action based method outperforms competitive baselines on two conversation tasks across various RL algorithms.
- Abstract(参考訳): 視覚言語モデルは多言語対話エージェント (MCA) として、多様な会話タスクに利用されている。
近年,MCAを様々な人間とAIの相互作用シナリオに適用するために,強化学習(RL)が広く研究されている。
一般化性能が大幅に向上したにもかかわらず、RLによる微調整 MCA は、非常に大きなテキストトークン空間を扱う際の課題に直面している。
これを解決するために、RLファインチューニングのためのコンパクトな潜在作用空間を学習する。
具体的には、観測メカニズムから学習を取り入れて潜在行動空間のコードブックを構築する。
しかし、ペア画像テキストデータの不足は、十分なカバレッジを持つコードブックの学習を妨げる。
そこで本研究では,テキスト埋め込みを画像テキスト埋め込みに変換するためのクロスモーダルプロジェクタを用いて,ペア化された画像テキストデータとテキストのみのデータの両方を活用して潜在アクション空間を構築する。
我々は、ペア画像テキストデータに基づいて、クロスモーダルプロジェクタを初期化し、その堅牢性を高めるために、新しい周期整合損失を伴う巨大なテキストのみのデータでさらに訓練する。
提案手法は,RLアルゴリズムにおける2つの会話課題における競合的ベースラインよりも優れることを示す。
関連論文リスト
- Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。