論文の概要: Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization
- arxiv url: http://arxiv.org/abs/2412.16232v1
- Date: Thu, 19 Dec 2024 02:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:38.492625
- Title: Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization
- Title(参考訳): 定義可能なビジュアルエンターテイメント:ベンチマーク、評価、リワード駆動最適化
- Authors: Yue Zhang, Liqiang Jing, Vibhav Gogate,
- Abstract要約: 我々はDVE(Dedeasible Visual Entailment)と呼ばれる新しいタスクを導入する。
ゴールは、追加更新に基づいて、画像前提とテキスト仮説の間の細部の関係を修正できるようにすることである。
高いレベルでは、DVEはモデルの初期解釈を洗練させ、様々なアプリケーションにおける精度と信頼性を向上させる。
- 参考スコア(独自算出の注目度): 19.32714581384729
- License:
- Abstract: We introduce a new task called Defeasible Visual Entailment (DVE), where the goal is to allow the modification of the entailment relationship between an image premise and a text hypothesis based on an additional update. While this concept is well-established in Natural Language Inference, it remains unexplored in visual entailment. At a high level, DVE enables models to refine their initial interpretations, leading to improved accuracy and reliability in various applications such as detecting misleading information in images, enhancing visual question answering, and refining decision-making processes in autonomous systems. Existing metrics do not adequately capture the change in the entailment relationship brought by updates. To address this, we propose a novel inference-aware evaluator designed to capture changes in entailment strength induced by updates, using pairwise contrastive learning and categorical information learning. Additionally, we introduce a reward-driven update optimization method to further enhance the quality of updates generated by multimodal models. Experimental results demonstrate the effectiveness of our proposed evaluator and optimization method.
- Abstract(参考訳): 我々はDVE(Dedeasible Visual Entailment)と呼ばれる新しいタスクを導入する。このタスクの目的は、追加の更新に基づいて、画像の前提とテキスト仮説との間の包含関係を変更できるようにすることである。
この概念は自然言語推論においてよく確立されているが、視覚的含意については未解明のままである。
高いレベルでは、DVEはモデルの初期解釈を洗練させ、画像内の誤解を招く情報の検出、視覚的質問応答の強化、自律システムにおける意思決定プロセスの精細化など、様々なアプリケーションにおける精度と信頼性を向上させる。
既存のメトリクスは、更新によって引き起こされるエンテリメント関係の変化を適切に捉えていない。
そこで本稿では,更新によって引き起こされる係り受け強度の変化を,ペアワイズコントラスト学習とカテゴリ情報学習を用いて把握する新しい推論認識評価器を提案する。
さらに,マルチモーダルモデルにより生成された更新の質をさらに向上する報奨駆動更新最適化手法を提案する。
実験の結果,提案手法の有効性が示された。
関連論文リスト
- Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Knowledge Editing in Language Models via Adapted Direct Preference Optimization [50.616875565173274]
大きな言語モデル(LLM)は、時間とともに時代遅れになる可能性がある。
知識編集は、高価なリトレーニングを必要としないウェイトアップデートを使用して、この課題を克服することを目的としている。
論文 参考訳(メタデータ) (2024-06-14T11:02:21Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - A Variational Bayesian Approach to Learning Latent Variables for
Acoustic Knowledge Transfer [55.20627066525205]
本稿では,ディープニューラルネットワーク(DNN)モデルにおける潜伏変数の分布を学習するための変分ベイズ(VB)アプローチを提案する。
我々の提案するVBアプローチは,ターゲットデバイスにおいて良好な改善が得られ,しかも,13の最先端知識伝達アルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2021-10-16T15:54:01Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - Mean Embeddings with Test-Time Data Augmentation for Ensembling of
Representations [8.336315962271396]
表現のアンサンブルを考察し、MeTTA(Test-time augmentation)を用いた平均埋め込みを提案する。
MeTTAは、教師付きモデルと自己教師付きモデルの両方において、ImageNetの線形評価の質を大幅に向上させる。
我々は、より高品質な表現を推論するためにアンサンブルの成功を広めることが、多くの新しいアンサンブルアプリケーションを開く重要なステップであると信じている。
論文 参考訳(メタデータ) (2021-06-15T10:49:46Z) - Effects of Pre- and Post-Processing on type-based Embeddings in Lexical
Semantic Change Detection [4.7677261488999205]
既存のモデルを(i)大きなコーパス上で事前トレーニングし、悪名高い小さなデータ問題に取り組むダイアクロニックターゲットコーパスを精錬することで最適化する。
本結果は,様々な学習シナリオを対象とした語彙意味変化検出モデルの適用と最適化のガイドを提供する。
論文 参考訳(メタデータ) (2021-01-22T22:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。