論文の概要: i-SRT: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective Judgment
- arxiv url: http://arxiv.org/abs/2406.11280v1
- Date: Mon, 17 Jun 2024 07:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 17:54:42.283484
- Title: i-SRT: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective Judgment
- Title(参考訳): i-SRT:反復的自己反省的判断によるビデオの大規模マルチモーダルモデル調整
- Authors: Daechul Ahn, Yura Choi, San Kim, Youngjae Yu, Dongyeop Kang, Jonghyun Choi,
- Abstract要約: 反応生成と選好モデリングの両方を強化するために,自己ふりかえりを用いた新しい手法を提案する。
多様なビデオ質問応答ベンチマークによる経験的評価は,i-SRTが先行技術よりも優れていたことを示す。
- 参考スコア(独自算出の注目度): 36.69910114305134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning Video Large Multimodal Models (VLMMs) face challenges such as modality misalignment and verbose responses. Although iterative approaches such as self-rewarding or iterative direct preference optimization (DPO) recently showed a significant improvement in language model alignment, particularly on reasoning tasks, self-aligned models applied to large video-language models often result in lengthy and irrelevant responses. To address these challenges, we propose a novel method that employs self-retrospection to enhance both response generation and preference modeling, and call iterative self-retrospective judgment (i-SRT). By revisiting and evaluating already generated content and preference in loop, i-SRT improves the alignment between textual and visual modalities, reduce verbosity, and enhances content relevance. Our empirical evaluations across diverse video question answering benchmarks demonstrate that i-SRT significantly outperforms prior arts. We are committed to opensourcing our code, models, and datasets to encourage further investigation.
- Abstract(参考訳): ビデオ大規模マルチモーダルモデル(VLMM)のアライジングは、モダリティのミスアライメントや冗長応答といった課題に直面している。
自己回帰や反復的直接選好最適化(DPO)のような反復的アプローチは、最近、言語モデルのアライメント、特に推論タスクにおいて顕著な改善が見られたが、大規模なビデオ言語モデルに適用された自己整合モデルは、長大かつ無関係な応答をもたらすことが多い。
これらの課題に対処するため、反応生成と選好モデリングの両方を強化するために自己ふりかえりを用いた新しい手法を提案し、反復的自己ふりかえり判断(i-SRT)と呼ぶ。
i-SRTは、既に生成されたコンテンツとループの嗜好を再考し、評価することにより、テキストと視覚の調和を改善し、冗長性を低減し、コンテンツ関連性を高める。
多様なビデオ質問応答ベンチマークによる経験的評価は,i-SRTが先行技術よりも優れていたことを示す。
私たちは、さらなる調査を促進するために、コード、モデル、データセットをオープンソース化することを約束しています。
関連論文リスト
- PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Improving Conversational Recommendation Systems via Bias Analysis and
Language-Model-Enhanced Data Augmentation [28.349599213528627]
会話レコメンデーションシステム(CRS)は,言語モデリング技術の進歩とともに注目されている研究分野である。
本研究では、CRSモデル開発のためのベンチマークデータセットを探索し、マルチターン相互作用に固有のフィードバックループから生じる潜在的なバイアスに対処する。
バイアスを緩和しながらモデル性能を向上させるための2つの新しい戦略「Once-Aug」と「PopNudge」を提案する。
論文 参考訳(メタデータ) (2023-10-25T16:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。