Fugu-MT 論文翻訳(概要): Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions

論文の概要: Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions

arxiv url: http://arxiv.org/abs/2405.11145v2
Date: Thu, 23 May 2024 04:11:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 12:57:52.090923
Title: Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions
Title（参考訳）: ベースレス予測から不十分な文脈と不確実なマルチモーダル状況の検出
Authors: Junzhang Liu, Zhecan Wang, Hammad Ayyubi, Haoxuan You, Chris Thomas, Rui Sun, Shih-Fu Chang, Kai-Wei Chang,
Abstract要約: VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
参考スコア（独自算出の注目度）: 75.45274978665684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the widespread adoption of Vision-Language Understanding (VLU) benchmarks such as VQA v2, OKVQA, A-OKVQA, GQA, VCR, SWAG, and VisualCOMET, our analysis reveals a pervasive issue affecting their integrity: these benchmarks contain samples where answers rely on assumptions unsupported by the provided context. Training models on such data foster biased learning and hallucinations as models tend to make similar unwarranted assumptions. To address this issue, we collect contextual data for each sample whenever available and train a context selection module to facilitate evidence-based model predictions. Strong improvements across multiple benchmarks demonstrate the effectiveness of our approach. Further, we develop a general-purpose Context-AwaRe Abstention (CARA) detector to identify samples lacking sufficient context and enhance model accuracy by abstaining from responding if the required context is absent. CARA exhibits generalization to new benchmarks it wasn't trained on, underscoring its utility for future VLU benchmarks in detecting or cleaning samples with inadequate context. Finally, we curate a Context Ambiguity and Sufficiency Evaluation (CASE) set to benchmark the performance of insufficient context detectors. Overall, our work represents a significant advancement in ensuring that vision-language models generate trustworthy and evidence-based outputs in complex real-world scenarios.
Abstract（参考訳）: VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG、VisualCOMETなどのVLUベンチマークが広く採用されているにもかかわらず、我々の分析は、その完全性に影響を与える広範囲な問題を明らかにしている。このようなデータのトレーニングモデルは、モデルが同様に不確実な仮定をする傾向があるため、バイアス付き学習と幻覚を促進する。この問題に対処するために,各サンプルのコンテキストデータを収集し,エビデンスに基づくモデル予測を容易にするために,コンテキスト選択モジュールを訓練する。複数のベンチマークによる強力な改善は、我々のアプローチの有効性を示しています。さらに,十分なコンテキストを持たないサンプルを識別し,必要なコンテキストがない場合の応答を控えることによりモデル精度を向上させる汎用なコンテキスト・アワレ認識(CARA)検出器を開発した。 CARAは、トレーニングされていない新しいベンチマークを一般化し、サンプルを不適切なコンテキストで検出またはクリーニングする将来のVLUベンチマークの有用性を強調している。最後に,コンテクスト・アンビグニティ・サフィシアンシー・アセスメント(CASE,Context Ambiguity and Sufficiency Evaluation, コンテキスト・アンビグニティ・アンド・サフィシアンシー・アセスメント)を用いて,不十分なコンテキスト・ディテクターの性能をベンチマークする。全体として、我々の研究は、複雑な現実世界のシナリオにおいて、視覚言語モデルが信頼できるエビデンスベースのアウトプットを生成することを保証する重要な進歩を表している。

関連論文リスト

[Re] Benchmarking LLM Capabilities in Negotiation through Scoreable Games [0.0]
大規模言語モデル(LLM)はマルチエージェントネゴシエーションタスクにおいて大きな可能性を示す。本研究では,Scoreable Games に基づくベンチマークの徹底性について検討する。本結果は,モデル比較評価における文脈の重要性を強調した。
論文参考訳（メタデータ） (2026-02-20T14:11:31Z)
Context-Adaptive Requirements Defect Prediction through Human-LLM Collaboration [1.4499356176178066]
本稿では,欠陥予測を静的な分類タスクではなく適応プロセスとして扱うHuman-LLM Collaboration(HLC)アプローチを提案する。メルセデス・ベンツの要求条件である1,266のQuREベンチマークの弱い単語の匂いを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2026-01-05T10:00:14Z)
Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models [10.230967860299504]
本稿では,ゼロショット指向の検査フレームワークを提案し,視覚言語モデルとRetrieval-Augmented Generationを統合した。技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
論文参考訳（メタデータ） (2025-10-26T23:19:28Z)
Towards Reliable and Holistic Visual In-Context Learning Prompt Selection [82.23704441763651]
Visual In-Context Learning (VICL) は、視覚基礎モデルを新しいタスクに適用するための顕著なアプローチとして登場した。部分2Global や VPR のような VICL の手法は、クエリ画像とより視覚的に類似したイメージが、より良いコンテキスト内例として機能するという類似性と優先度の仮定に基づいている。本稿では、VICLにおけるテキスト内サンプルの信頼性と包括的選択のために、Partial2Globalの拡張版を提案する。
論文参考訳（メタデータ） (2025-09-30T09:23:12Z)
SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。 SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文参考訳（メタデータ） (2025-09-21T14:11:16Z)
CALMA: A Process for Deriving Context-aligned Axes for Language Model Alignment [4.732046558763803]
評価とアライメントのための文脈関連軸を抽出するための基礎的,参加的手法であるCALMAを紹介する。その結果,オープンエンドおよびユースケース駆動プロセスに基づく評価実践の価値が示された。
論文参考訳（メタデータ） (2025-07-11T22:33:11Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。 InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文参考訳（メタデータ） (2024-03-10T08:15:51Z)
BloomVQA: Assessing Hierarchical Multi-modal Comprehension [18.21961616174999]
我々は、様々なレベルの理解を反映した絵物語に基づいて、複数の選択サンプルを収集する。モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。従来のモデルと比較して、GPT-4Vは全ての理解レベルよりも精度が向上し、特に高次タスクでは視覚入力をバイパスする傾向を示す。
論文参考訳（メタデータ） (2023-12-20T02:22:49Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
Can NLP Models Correctly Reason Over Contexts that Break the Common Assumptions? [14.991565484636745]
我々は,NLPモデルが一般的な仮定を破る文脈を正しく推論する能力について検討する。一般的な仮定に従うコンテキストでかなりうまく機能する一方で、モデルはこれらの仮定を破るコンテキストに対して正しく推論するのに苦労しています。具体的には、パフォーマンスギャップは20%の絶対点である。
論文参考訳（メタデータ） (2023-05-20T05:20:37Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。次に、そのような反実的な入力に対するモデルの応答を評価する。
論文参考訳（メタデータ） (2023-03-05T08:00:30Z)
Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。異なる条件下で事前学習した2つのV&Lモデルを評価する。これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文参考訳（メタデータ） (2022-05-24T16:44:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。