論文の概要: Can a Unimodal Language Agent Provide Preferences to Tune a Multimodal Vision-Language Model?
- arxiv url: http://arxiv.org/abs/2601.06424v1
- Date: Sat, 10 Jan 2026 04:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.806099
- Title: Can a Unimodal Language Agent Provide Preferences to Tune a Multimodal Vision-Language Model?
- Title(参考訳): 単一モーダル言語エージェントは、多モーダル視覚言語モデルに優先順位を与えることができるか?
- Authors: Sazia Tabasum Mim, Jack Morris, Manish Dhakal, Yanming Xiu, Maria Gorlatova, Yi Ding,
- Abstract要約: 本稿では,言語エージェントが視覚言語モデル(VLM)にフィードバックを与え,テキスト生成をエージェントの好みに適応させる手法を提案する。
提案手法を用いることで,VLMはマルチモーダルなシーン記述を生成することができ,マルチモーダルなコンテキストをよりよく理解できるようにする。
- 参考スコア(独自算出の注目度): 8.976163131623773
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To explore a more scalable path for adding multimodal capabilities to existing LLMs, this paper addresses a fundamental question: Can a unimodal LLM, relying solely on text, reason about its own informational needs and provide effective feedback to optimize a multimodal model? To answer this, we propose a method that enables a language agent to give feedback to a vision-language model (VLM) to adapt text generation to the agent's preferences. Our results from different experiments affirm this hypothesis, showing that LLM preference feedback significantly enhances VLM descriptions. Using our proposed method, we find that the VLM can generate multimodal scene descriptions to help the LLM better understand multimodal context, leading to improvements of maximum 13% in absolute accuracy compared to the baseline multimodal approach. Furthermore, a human study validated our AI-driven feedback, showing a 64.6% preference alignment rate between the LLM's choices and human judgments. Extensive experiments provide insights on how and why the method works and its limitations.
- Abstract(参考訳): 既存のLLMにマルチモーダル機能を追加するための、よりスケーラブルなパスを探るため、本論文では、テキストのみに依存し、自身の情報ニーズを推論し、マルチモーダルモデルを最適化するための効果的なフィードバックを提供することができるのか、という根本的な疑問に対処する。
そこで本研究では,言語エージェントが視覚言語モデル(VLM)にフィードバックを与え,テキスト生成をエージェントの好みに適応させる手法を提案する。
実験の結果,LLMの嗜好フィードバックがVLM記述を著しく向上させることが明らかとなった。
提案手法を用いて,VLMはマルチモーダルシーン記述を生成することで,LLMがマルチモーダルコンテキストをよりよく理解できるようにし,ベースラインのマルチモーダルアプローチと比較して最大13%の精度向上を実現する。
さらに、人間の研究はAIによるフィードバックを検証し、LLMの選択と人間の判断の間に64.6%の調整率を示す。
大規模な実験は、メソッドの動作方法とその制限に関する洞察を提供する。
関連論文リスト
- Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - LLMs can see and hear without any training [63.964888082106974]
MILSは、お気に入りのLLMにインビューマルチモーダル機能を組み込むための、シンプルでトレーニング不要なアプローチです。
創発的なゼロショット画像,ビデオ,オーディオキャプションを新たに構築する。
勾配のない最適化アプローチであるため、MILSはテキストへのマルチモーダル埋め込みを反転させることができる。
論文 参考訳(メタデータ) (2025-01-30T02:16:35Z) - Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文 参考訳(メタデータ) (2024-08-19T04:44:32Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。