Fugu-MT 論文翻訳(概要): SHAPE : Self-Improved Visual Preference Alignment by Iteratively Generating Holistic Winner

論文の概要: SHAPE : Self-Improved Visual Preference Alignment by Iteratively Generating Holistic Winner

arxiv url: http://arxiv.org/abs/2503.04858v1
Date: Thu, 06 Mar 2025 08:33:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.734337
Title: SHAPE : Self-Improved Visual Preference Alignment by Iteratively Generating Holistic Winner
Title（参考訳）: SHAPE : ホロスティック・ウィンナーの反復生成による自己改善型視覚的嗜好アライメント
Authors: Kejia Chen, Jiawen Zhang, Jiacong Hu, Jiazhen Yang, Jian Lou, Zunlei Feng, Mingli Song,
Abstract要約: 大規模ビジュアル言語モデル(LVLM)は信頼性を確保するために、ますます優先順位付けに依存している。我々は、すでに豊富な教師付きテキストイメージペアを総合的な選好三脚に変換することができる自己教師型フレームワーク、Projectnameを提案する。
参考スコア（独自算出の注目度）: 35.843587407696006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Visual Language Models (LVLMs) increasingly rely on preference alignment to ensure reliability, which steers the model behavior via preference fine-tuning on preference data structured as ``image - winner text - loser text'' triplets. However, existing approaches often suffer from limited diversity and high costs associated with human-annotated preference data, hindering LVLMs from fully achieving their intended alignment capabilities. We present \projectname, a self-supervised framework capable of transforming the already abundant supervised text-image pairs into holistic preference triplets for more effective and cheaper LVLM alignment, eliminating the need for human preference annotations. Our approach facilitates LVLMs in progressively enhancing alignment capabilities through iterative self-improvement. The key design rationale is to devise preference triplets where the winner text consistently improves in holisticness and outperforms the loser response in quality, thereby pushing the model to ``strive to the utmost'' of alignment performance through preference fine-tuning. For each given text-image pair, SHAPE introduces multiple visual augmentations and pairs them with a summarized text to serve as the winner response, while designating the original text as the loser response. Experiments across \textbf{12} benchmarks on various model architectures and sizes, including LLaVA and DeepSeek-VL, show that SHAPE achieves significant gains, for example, achieving +11.3\% on MMVet (comprehensive evaluation), +1.4\% on MMBench (general VQA), and +8.0\% on POPE (hallucination robustness) over baselines in 7B models. Notably, qualitative analyses confirm enhanced attention to visual details and better alignment with human preferences for holistic descriptions.
Abstract（参考訳）: 大規模なビジュアル言語モデル(LVLM)は、信頼性を確保するために、ますます好みのアライメントに依存している。しかしながら、既存のアプローチは、人間に注釈付けされた嗜好データに関連する限られた多様性と高いコストに悩まされ、LVLMが意図したアライメント能力を完全に達成することを妨げることが多い。より効果的で安価なLVLMアライメントを実現するために,すでに豊富な教師付きテキストイメージペアを総合的な選好三脚に変換し,人間の選好アノテーションを不要とする自己教師型フレームワークである「プロジェクト名」を提案する。提案手法は,反復的自己改善により段階的にアライメント能力を向上するLVLMを促進する。鍵となる設計的根拠は、勝者のテキストが総体性において一貫して改善し、品質において敗者応答を上回り、したがって、選好微調整によってモデルの「最善」なアライメント性能にプッシュする、選好三重項を考案することである。それぞれのテキストイメージペアに対して、SHAPEは複数のビジュアル拡張を導入し、それらを要約したテキストと組み合わせて勝者の応答として機能し、元のテキストを敗者応答として指定する。 LLaVA(英語版)やDeepSeek-VL(英語版)など、様々なモデルアーキテクチャとサイズに関する textbf{12} ベンチマークの実験では、SHAPE が MMVet(英語版)で +11.3\%(英語版)、MMBench(英語版)で +1.4\%(一般VQA)、POPE(英語版)で 7B モデルのベースライン上で +8.0\%(英語版) を達成している。特に質的分析では、視覚的詳細への注意が増し、全体的記述に対する人間の嗜好との整合性が向上した。

関連論文リスト

From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。 CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文参考訳（メタデータ） (2025-03-08T16:13:18Z)
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文参考訳（メタデータ） (2025-02-18T18:59:57Z)
Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [11.796170286878056]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合に有効であるしばしば画像情報よりもテキストを好んでおり、信頼できない出力や視覚幻覚をもたらす。テキストと画像の嗜好のバランスをとるために,MFPO(Modality-Fair Preference Optimization)を提案する。
論文参考訳（メタデータ） (2024-10-20T08:56:52Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文参考訳（メタデータ） (2024-10-12T07:56:47Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文参考訳（メタデータ） (2024-04-02T11:40:38Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
Text Counterfactuals via Latent Optimization and Shapley-Guided Search [15.919650185010491]
本研究は,分類モデルにおける対実テキスト生成の問題について考察する。我々は、モデルの予測を変えるために、テキストを最小限に変更することを目指している。ホワイトボックスアプローチは、視覚における同様の問題にうまく適用されている。
論文参考訳（メタデータ） (2021-10-22T05:04:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。