Fugu-MT 論文翻訳(概要): RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs

論文の概要: RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs

arxiv url: http://arxiv.org/abs/2412.13835v1
Date: Wed, 18 Dec 2024 13:25:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.23643
Title: RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs
Title（参考訳）: RACQUET:視覚的LLMにおける見過ごされた参照の曖昧さの危険を明らかにする
Authors: Alberto Testoni, Barbara Plank, Raquel Fernández,
Abstract要約: 本稿では,画像に基づく質問応答におけるあいまいさの異なる側面を対象とするデータセットであるRACQUETを紹介する。我々は、その応答のあいまいさに対処する上で、最先端の大規模マルチモーダル言語モデルの過信に関する重大な制限と問題を明らかにする。本結果は, 望ましくないステレオタイプに頼らずに不確実性に対処する頑健な戦略を持つモデルの導入の緊急性を強調した。
参考スコア（独自算出の注目度）: 29.832360523402592
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ambiguity resolution is key to effective communication. While humans effortlessly address ambiguity through conversational grounding strategies, the extent to which current language models can emulate these strategies remains unclear. In this work, we examine referential ambiguity in image-based question answering by introducing RACQUET, a carefully curated dataset targeting distinct aspects of ambiguity. Through a series of evaluations, we reveal significant limitations and problems of overconfidence of state-of-the-art large multimodal language models in addressing ambiguity in their responses. The overconfidence issue becomes particularly relevant for RACQUET-BIAS, a subset designed to analyze a critical yet underexplored problem: failing to address ambiguity leads to stereotypical, socially biased responses. Our results underscore the urgency of equipping models with robust strategies to deal with uncertainty without resorting to undesirable stereotypes.
Abstract（参考訳）: 曖昧さの解決は効果的なコミュニケーションの鍵です。人間は会話の基盤戦略を通じて曖昧さに対処するが、現在の言語モデルがこれらの戦略をエミュレートできる範囲はいまだ不明である。本研究では,画像に基づく質問応答における参照あいまいさについて,あいまいさの異なる側面を対象とする慎重に計算されたデータセットであるRACQUETを導入することにより検討する。一連の評価を通じて,その応答のあいまいさに対処する上で,最先端の大規模マルチモーダル言語モデルの過度な信頼の限界と問題点を明らかにした。 RACQUET-BIAS(RACQUET-BIAS)は、曖昧さに対処できないという問題を分析するために設計されたサブセットである。本結果は, 望ましくないステレオタイプに頼らずに不確実性に対処する頑健な戦略を持つモデルの導入の緊急性を強調した。

関連論文リスト

Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization [17.763377515783155]
UMIVRは、Uncertainty-Minimizing Interactive Text-to-Video Retrievalフレームワークである。 3つの重要な不確実性(テキストの曖昧さ、マッピングの不確実性、フレームの不確実性)を、原則付き、トレーニング不要なメトリクスによって定量化する。ユーザークエリを反復的に洗練し、検索のあいまいさを著しく低減します。
論文参考訳（メタデータ） (2025-07-21T11:12:39Z)
Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [18.73221445082855]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文参考訳（メタデータ） (2025-06-20T14:57:41Z)
ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文参考訳（メタデータ） (2025-06-17T10:55:17Z)
Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
Do not Abstain! Identify and Solve the Uncertainty [25.744791822890036]
bftextConfuseBenchは、主に文書不足、限られた能力、クエリのあいまいさの3つのタイプの不確実性に焦点を当てたベンチマークである。実験によると、現在のLLMは不確実性の根本原因を正確に特定し、解決するのに苦労している。まず、元のクエリの紛らわしい側面を浮き彫りにするコンテキストアウェアな問い合わせを生成します。そして,質問の答えの特異性に基づいて不確実性の原因を判断する。
論文参考訳（メタデータ） (2025-06-01T02:15:17Z)
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文参考訳（メタデータ） (2025-05-26T17:16:36Z)
Disambiguation in Conversational Question Answering in the Era of LLM: A Survey [36.37587894344511]
自然言語処理(NLP)におけるあいまいさは依然として根本的な課題である LLM(Large Language Models)の出現により、あいまいさに対処することがさらに重要になった。本稿では,言語駆動システムにおけるあいまいさの定義,形態,含意について考察する。
論文参考訳（メタデータ） (2025-05-18T20:53:41Z)
Adaptive Elicitation of Latent Information Using Natural Language [6.162198958758635]
本稿では,潜在エンティティの不確かさを積極的に軽減する適応型エレクテーションフレームワークを提案する。我々のフレームワークは,メタ学習言語モデルを用いて将来の観測をシミュレートし,不確実性を予測する。 20の質問ゲーム、動的世論ポーリング、適応的学生評価の実験において、本手法は批判的未知を識別する基準線を一貫して上回っている。
論文参考訳（メタデータ） (2025-04-05T15:18:55Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Survey of Adversarial Robustness in Multimodal Large Language Models [17.926240920647892]
MLLM(Multimodal Large Language Models)は、人工知能において例外的な性能を示す。現実世界のアプリケーションへのデプロイは、敵の脆弱性に対する重大な懸念を引き起こす。本稿では,MLLMの対角的ロバスト性について述べる。
論文参考訳（メタデータ） (2025-03-18T06:54:59Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文参考訳（メタデータ） (2024-08-24T04:31:37Z)
Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文参考訳（メタデータ） (2024-06-25T10:08:45Z)
How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding [18.97081348819219]
WPG(Wakly-supervised Phrase Grounding)は,微粒な句領域マッチングを推定する新たな課題である。本稿では,暗黙的な関係をモデル化する上での課題に対処するインプリシット強化因果推論手法を提案する。
論文参考訳（メタデータ） (2024-02-29T12:49:48Z)
Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文参考訳（メタデータ） (2024-02-16T09:29:38Z)
Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文参考訳（メタデータ） (2024-01-12T18:03:30Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文参考訳（メタデータ） (2023-07-03T22:17:16Z)
We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文参考訳（メタデータ） (2023-04-27T17:57:58Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文参考訳（メタデータ） (2021-04-01T03:21:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。