論文の概要: Token-Level Inference-Time Alignment for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.21794v1
- Date: Mon, 20 Oct 2025 09:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 00:22:00.527575
- Title: Token-Level Inference-Time Alignment for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのトークンレベル推論時間アライメント
- Authors: Kejia Chen, Jiawen Zhang, Jiacong Hu, Kewei Gao, Jian Lou, Zunlei Feng, Mingli Song,
- Abstract要約: VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
- 参考スコア(独自算出の注目度): 58.41370989069588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have become essential backbones of modern multimodal intelligence, yet their outputs remain prone to hallucination-plausible text misaligned with visual inputs. Existing alignment approaches often rely on expensive fine-tuning with annotated preference data or sequence-level inference strategies that provide only coarse, delayed feedback. To overcome these limitations, we present TITA (Token-level Inference-Time Alignment), a lightweight framework that freezes the base VLM and instead trains a reward model to approximate its distribution. During inference, implicit preference signals are extracted as log-probability ratios between the reward model and the target VLM, yielding dense autoregressive feedback. This formulation can be viewed as an inference-time variant of Direct Preference Optimization (DPO), providing token-level corrective signals without retraining the backbone. Extensive evaluations on LLaVA-1.5-7B and 13B show consistent gains across 12 benchmarks, with improvements of 8.6% on MMVet and 6.7% on POPE, indicating stronger general understanding and reduced hallucinations. Additional experiments on Qwen2.5-VL-7B and DeepSeek-VL2-27.5B show comparable gains, especially in hallucination reduction and VQA accuracy, while incurring negligible inference overhead.
- Abstract(参考訳): VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスにおいて必須のバックボーンとなっているが、その出力は、視覚的な入力と不一致な幻覚的なテキストの傾向にある。
既存のアライメントアプローチは、アノテートされた好みデータや、粗い、遅延したフィードバックのみを提供するシーケンスレベルの推論戦略による高価な微調整に依存していることが多い。
これらの制限を克服するために,基本VLMを凍結する軽量フレームワークであるTITA(Token-level Inference-Time Alignment)を提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
この定式化は、DPO(Direct Preference Optimization)の推論時変種と見なすことができ、バックボーンを再トレーニングすることなくトークンレベルの補正信号を提供する。
LLaVA-1.5-7B と 13B の徹底的な評価は、12のベンチマークで一貫した上昇を示し、MMVet 8.6%、POPE 6.7%の改善が見られ、全体的な理解と幻覚の減少が示唆された。
Qwen2.5-VL-7BとDeepSeek-VL2-27.5Bのさらなる実験は、特に幻覚の減少とVQAの精度において同等の利得を示した。
関連論文リスト
- Weights-Rotated Preference Optimization for Large Language Models [30.25242193651982]
本稿では,DPO から受け継いだ KL 発散量に対して,出力層ロジットを暗黙的に制約する,新しい重み付き優先度最適化 (RoPO) アルゴリズムを提案する。
我々の RoPO は AlpacaEval 2 の 3.27 点改善を実現し,トレーニング可能なパラメータの 0.015% を MT-Bench の 6.2 から 7.5 点 で上回っている。
論文 参考訳(メタデータ) (2025-08-25T03:57:17Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training [23.391643634478587]
Vision-Language Reward Model (VL-RM) は、構造化されたフィードバックを提供することでVLモデルを整列させる鍵となる。
高品質のトレーニングデータがすでに強力なVLモデルに依存しているため、ブートストラップジレンマが発生する。
本稿では,視覚の専門家,思考の合理性,およびMarginベースのリジェクションサンプリングを活用した反復的トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T18:10:51Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Self-Supervised Visual Preference Alignment [21.552415796397206]
本稿では,視覚言語モデル(VLM)において,教師なしの嗜好アライメントに向けた最初の試みを行う。
我々は、原画像と拡張画像のペアについて、選択された応答と拒否された応答を生成し、直接選好最適化による選好アライメントを行う。
イメージ入力を適切に設計した拡張は、VLMを誘導して偽の負の応答を生成するため、モデルがより堅牢で強力な答えから学習するのに役立つ。
論文 参考訳(メタデータ) (2024-04-16T12:19:54Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。