Fugu-MT 論文翻訳(概要): Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generation

論文の概要: Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generation

arxiv url: http://arxiv.org/abs/2410.14975v1
Date: Sat, 19 Oct 2024 04:46:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.813004
Title: Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generation
Title（参考訳）: 反射誘導:自己ガイド画像適応概念生成による視覚言語モデルにおけるOoDDの改善
Authors: Seulbi Lee, Jihyo Kim, Sangheum Hwang,
Abstract要約: 各種プロプライエタリおよびオープンソースLVLMのOoDD機能の評価と解析を行った。本稿では,LVLMのOoDD機能向上を目的とした自己誘導型プロンプト手法であるemphReflexive Guidance(ReGuide)を提案する。実験結果から,我々のReGuideは画像分類とOoDDタスクの両方において,現在のLVLMの性能を向上させることが示された。
参考スコア（独自算出の注目度）: 4.506099292980221
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the recent emergence of foundation models trained on internet-scale data and demonstrating remarkable generalization capabilities, such foundation models have become more widely adopted, leading to an expanding range of application domains. Despite this rapid proliferation, the trustworthiness of foundation models remains underexplored. Specifically, the out-of-distribution detection (OoDD) capabilities of large vision-language models (LVLMs), such as GPT-4o, which are trained on massive multi-modal data, have not been sufficiently addressed. The disparity between their demonstrated potential and practical reliability raises concerns regarding the safe and trustworthy deployment of foundation models. To address this gap, we evaluate and analyze the OoDD capabilities of various proprietary and open-source LVLMs. Our investigation contributes to a better understanding of how these foundation models represent confidence scores through their generated natural language responses. Based on our observations, we propose a self-guided prompting approach, termed \emph{Reflexive Guidance (ReGuide)}, aimed at enhancing the OoDD capability of LVLMs by leveraging self-generated image-adaptive concept suggestions. Experimental results demonstrate that our ReGuide enhances the performance of current LVLMs in both image classification and OoDD tasks.
Abstract（参考訳）: 近年、インターネット規模のデータに基づいてトレーニングされた基礎モデルや、顕著な一般化能力を示す基礎モデルが出現し、そのような基礎モデルはより広く採用され、アプリケーション領域の範囲が拡大している。この急速な普及にもかかわらず、ファンデーションモデルの信頼性は未調査のままである。具体的には、大規模視覚言語モデル(LVLM)のOoDD(out-of-distriion detection)能力は、大規模なマルチモーダルデータに基づいて訓練されたGPT-4oのように、十分に対処されていない。実証された可能性と実用的信頼性の相違は、ファンデーションモデルの安全かつ信頼性の高い展開に関する懸念を提起する。このギャップに対処するために、我々は様々なプロプライエタリかつオープンソースのLVLMのOoDD機能を評価し、分析する。本研究は,これらの基盤モデルが生成した自然言語応答を通じて,信頼度をいかに表現するかを,より深く理解することに貢献している。本研究は,LVLMのOoDD機能向上を目的とした自己誘導型プロンプト手法である「emph{Reflexive Guidance (ReGuide)}を提案する。実験結果から,我々のReGuideは画像分類とOoDDタスクの両方において,現在のLVLMの性能を向上させることが示された。

関連論文リスト

VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training [23.391643634478587]
Vision-Language Reward Model (VL-RM) は、構造化されたフィードバックを提供することでVLモデルを整列させる鍵となる。高品質のトレーニングデータがすでに強力なVLモデルに依存しているため、ブートストラップジレンマが発生する。本稿では,視覚の専門家,思考の合理性,およびMarginベースのリジェクションサンプリングを活用した反復的トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-16T18:10:51Z)
Latent Guidance in Diffusion Models for Perceptual Evaluations [33.915594693285556]
潜在拡散モデルは、データ多様体内の知覚的に一貫した局所領域を暗黙的に示す。本稿では,事前学習した潜伏拡散モデルと知覚品質特徴を利用するアルゴリズムである知覚マニフォールドガイダンス(PMG)を提案する。提案手法は,NR-IQAタスクの拡散モデルの優れた一般化能力を実証し,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-05-31T00:41:59Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。 CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文参考訳（メタデータ） (2025-03-08T16:13:18Z)
Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文参考訳（メタデータ） (2024-07-26T15:32:21Z)
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文参考訳（メタデータ） (2024-06-14T17:49:59Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Causality-based Cross-Modal Representation Learning for Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文参考訳（メタデータ） (2024-03-06T02:01:38Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T17:49:44Z)
Consistency Regularization for Generalizable Source-free Domain Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-03T07:45:53Z)
The Open-World Lottery Ticket Hypothesis for OOD Intent Classification [68.93357975024773]
我々はOODに対するモデル過信の根本的な原因を明かした。 Lottery Ticket仮説も,オープンワールドシナリオに拡張しています。
論文参考訳（メタデータ） (2022-10-13T14:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。