論文の概要: ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO
- arxiv url: http://arxiv.org/abs/2406.11280v2
- Date: Wed, 08 Jan 2025 03:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:53:32.536546
- Title: ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO
- Title(参考訳): ISR-DPO:反復的自己反省的DPOによるビデオ用大規模マルチモーダルモデル調整
- Authors: Daechul Ahn, Yura Choi, San Kim, Youngjae Yu, Dongyeop Kang, Jonghyun Choi,
- Abstract要約: 我々は、優先モデルを強化するために、反復自己ふりかえり直接選好最適化(ISR-DPO)を提案する。
ISR-DPOは、情報的ビデオ領域に対する自己判断の焦点を強化する。
広範な経験的評価では、ISR-DPOは芸術の状態を著しく上回る。
- 参考スコア(独自算出の注目度): 36.69910114305134
- License:
- Abstract: Iterative self-improvement, a concept extending beyond personal growth, has found powerful applications in machine learning, particularly in transforming weak models into strong ones. While recent advances in natural language processing have shown its efficacy through iterative preference optimization, applying this approach to Video Large Multi-modal Models (VLMMs) remains challenging due to modality misalignment. VLMMs struggle with this misalignment during iterative preference modeling, as the self-judge model often prioritizes linguistic knowledge over visual information. Additionally, iterative preference optimization can lead to visually hallucinated verbose responses due to length bias within the self-rewarding cycle. To address these issues, we propose Iterative Self-Retrospective Direct Preference Optimization (ISR-DPO), a method that uses self-retrospection to enhance preference modeling. This approach enhances the self-judge's focus on informative video regions, resulting in more visually grounded preferences. In extensive empirical evaluations across diverse video question answering benchmarks, the ISR-DPO significantly outperforms the state of the art. We are committed to open-sourcing our code, models, and datasets to encourage further investigation.
- Abstract(参考訳): 反復的自己改善(Iterative self-improvement)は、個人的成長を超えて、機械学習、特に弱いモデルを強力なモデルに変換するための強力な応用を見出した。
近年の自然言語処理の進歩は、反復的選好最適化による有効性を示しているが、この手法をVLMM(Video Large Multi-modal Models)に適用することは、モダリティのミスアライメントのため、依然として困難である。
自己判断モデルは視覚情報よりも言語知識を優先することが多いため、VLMMは反復的嗜好モデリングにおいてこの不一致に苦慮する。
さらに、反復的選好最適化は、自己回帰サイクル内の長さバイアスによる視覚的に幻覚された冗長応答をもたらす可能性がある。
これらの課題に対処するために, 自己ふりかえりを用いて嗜好モデルを強化する手法であるIterative Self-Retrospective Direct Preference Optimization (ISR-DPO)を提案する。
このアプローチにより、情報的ビデオ領域への自己判断の焦点が強化され、より視覚的に根ざした嗜好が生まれる。
ISR-DPOは、様々なビデオ質問応答ベンチマークにおける広範な経験的評価において、最先端技術よりも著しく優れている。
私たちは、さらなる調査を促進するために、コード、モデル、データセットをオープンソース化することを約束しています。
関連論文リスト
- PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Improving Conversational Recommendation Systems via Bias Analysis and
Language-Model-Enhanced Data Augmentation [28.349599213528627]
会話レコメンデーションシステム(CRS)は,言語モデリング技術の進歩とともに注目されている研究分野である。
本研究では、CRSモデル開発のためのベンチマークデータセットを探索し、マルチターン相互作用に固有のフィードバックループから生じる潜在的なバイアスに対処する。
バイアスを緩和しながらモデル性能を向上させるための2つの新しい戦略「Once-Aug」と「PopNudge」を提案する。
論文 参考訳(メタデータ) (2023-10-25T16:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。