Fugu-MT 論文翻訳(概要): ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO

論文の概要: ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO

arxiv url: http://arxiv.org/abs/2406.11280v2
Date: Wed, 08 Jan 2025 03:18:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.320923
Title: ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO
Title（参考訳）: ISR-DPO:反復的自己反省的DPOによるビデオ用大規模マルチモーダルモデル調整
Authors: Daechul Ahn, Yura Choi, San Kim, Youngjae Yu, Dongyeop Kang, Jonghyun Choi,
Abstract要約: 我々は、優先モデルを強化するために、反復自己ふりかえり直接選好最適化(ISR-DPO)を提案する。 ISR-DPOは、情報的ビデオ領域に対する自己判断の焦点を強化する。広範な経験的評価では、ISR-DPOは芸術の状態を著しく上回る。
参考スコア（独自算出の注目度）: 36.69910114305134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Iterative self-improvement, a concept extending beyond personal growth, has found powerful applications in machine learning, particularly in transforming weak models into strong ones. While recent advances in natural language processing have shown its efficacy through iterative preference optimization, applying this approach to Video Large Multi-modal Models (VLMMs) remains challenging due to modality misalignment. VLMMs struggle with this misalignment during iterative preference modeling, as the self-judge model often prioritizes linguistic knowledge over visual information. Additionally, iterative preference optimization can lead to visually hallucinated verbose responses due to length bias within the self-rewarding cycle. To address these issues, we propose Iterative Self-Retrospective Direct Preference Optimization (ISR-DPO), a method that uses self-retrospection to enhance preference modeling. This approach enhances the self-judge's focus on informative video regions, resulting in more visually grounded preferences. In extensive empirical evaluations across diverse video question answering benchmarks, the ISR-DPO significantly outperforms the state of the art. We are committed to open-sourcing our code, models, and datasets to encourage further investigation.
Abstract（参考訳）: 反復的自己改善(Iterative self-improvement)は、個人的成長を超えて、機械学習、特に弱いモデルを強力なモデルに変換するための強力な応用を見出した。近年の自然言語処理の進歩は、反復的選好最適化による有効性を示しているが、この手法をVLMM(Video Large Multi-modal Models)に適用することは、モダリティのミスアライメントのため、依然として困難である。自己判断モデルは視覚情報よりも言語知識を優先することが多いため、VLMMは反復的嗜好モデリングにおいてこの不一致に苦慮する。さらに、反復的選好最適化は、自己回帰サイクル内の長さバイアスによる視覚的に幻覚された冗長応答をもたらす可能性がある。これらの課題に対処するために, 自己ふりかえりを用いて嗜好モデルを強化する手法であるIterative Self-Retrospective Direct Preference Optimization (ISR-DPO)を提案する。このアプローチにより、情報的ビデオ領域への自己判断の焦点が強化され、より視覚的に根ざした嗜好が生まれる。 ISR-DPOは、様々なビデオ質問応答ベンチマークにおける広範な経験的評価において、最先端技術よりも著しく優れている。私たちは、さらなる調査を促進するために、コード、モデル、データセットをオープンソース化することを約束しています。

関連論文リスト

SGPO: Self-Generated Preference Optimization based on Self-Improver [6.528083376369728]
大規模言語モデル(LLM)は、実用的で信頼性の高いデプロイメントのために人間の好みに合わせている必要がある。 SGPO(Self-Generated Preference Optimization)を提案する。改善者は、ポリシーモデルの直接選好最適化(DPO)のための自己生成選好データに対するポリシーモデルからの応答を洗練する。 AlpacaEval 2.0 と Arena-Hard の実験結果から,提案した SGPO は DPO とベースライン自己改善法を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-07-27T08:55:40Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文参考訳（メタデータ） (2025-02-18T18:59:57Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文参考訳（メタデータ） (2024-10-16T08:46:26Z)
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。マルチグラニュラリティコントラストクロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文参考訳（メタデータ） (2024-10-12T06:21:58Z)
Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。 RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-31T14:23:49Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-01T17:28:16Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文参考訳（メタデータ） (2024-02-12T23:09:00Z)
Improving Conversational Recommendation Systems via Bias Analysis and Language-Model-Enhanced Data Augmentation [28.349599213528627]
会話レコメンデーションシステム(CRS)は,言語モデリング技術の進歩とともに注目されている研究分野である。本研究では、CRSモデル開発のためのベンチマークデータセットを探索し、マルチターン相互作用に固有のフィードバックループから生じる潜在的なバイアスに対処する。バイアスを緩和しながらモデル性能を向上させるための2つの新しい戦略「Once-Aug」と「PopNudge」を提案する。
論文参考訳（メタデータ） (2023-10-25T16:11:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。