論文の概要: Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation
- arxiv url: http://arxiv.org/abs/2504.16060v2
- Date: Wed, 30 Apr 2025 23:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.808516
- Title: Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation
- Title(参考訳): 視覚言語モデルは表現生成の参照に実用的に適していない
- Authors: Ziqiao Ma, Jing Ding, Xuejun Zhang, Dezhi Luo, Jiahe Ding, Sihan Xu, Yuchen Huang, Run Peng, Joyce Chai,
- Abstract要約: Referring Expression Generation (REG)は、視覚言語システムの実用的能力を評価するための中核的なタスクである。
視覚言語モデル(VLM)の現在の評価は、しばしば実用的次元を見落としている。
本稿では,1.5k画像の新しいデータセット(RefOI)について述べる。
- 参考スコア(独自算出の注目度): 16.217818305338945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring Expression Generation (REG) is a core task for evaluating the pragmatic competence of vision-language systems, requiring not only accurate semantic grounding but also adherence to principles of cooperative communication (Grice, 1975). However, current evaluations of vision-language models (VLMs) often overlook the pragmatic dimension, reducing REG to a region-based captioning task and neglecting Gricean maxims. In this work, we revisit REG from a pragmatic perspective, introducing a new dataset (RefOI) of 1.5k images annotated with both written and spoken referring expressions. Through a systematic evaluation of state-of-the-art VLMs, we identify three key failures of pragmatic competence: (1) failure to uniquely identify the referent, (2) inclusion of excessive or irrelevant information, and (3) misalignment with human pragmatic preference, such as the underuse of minimal spatial cues. We also show that standard automatic evaluations fail to capture these pragmatic violations, reinforcing superficial cues rather than genuine referential success. Our findings call for a renewed focus on pragmatically informed models and evaluation frameworks that align with real human communication.
- Abstract(参考訳): 参照表現生成(Referring Expression Generation、REG)は、視覚言語システムの実用的能力を評価するための中核的なタスクであり、正確なセマンティックグラウンドリングだけでなく、協調コミュニケーションの原則に従うことを必要とする(Grice, 1975)。
しかしながら、現在の視覚言語モデル(VLM)の評価は、しばしば現実的な次元を見落とし、REGを領域ベースのキャプションタスクに還元し、Gricean maximsを無視する。
本研究では,文字と音声の両方の参照表現を付加した1.5k画像の新しいデータセット(RefOI)を導入することにより,現実的な視点からREGを再考する。
現状のVLMを体系的に評価することにより,(1)参照者を一意に識別できないこと,(2)過剰または無関係な情報の含み,(3)最小空間的手がかりの未使用など,人間の実用的嗜好との不一致,の3つの重要な失敗を識別する。
また, 従来の自動評価では, 現実的な違反を捉えることができず, 実際の参照成功よりも表面的手がかりの強化が図られている。
我々の研究は、現実の人間とのコミュニケーションと整合する実用的に情報を得たモデルと評価フレームワークに、新たな焦点をあてることを求めている。
関連論文リスト
- Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities [27.940469021840745]
視覚言語モデル(VLM)の空間的推論能力を評価するための評価プロトコルを提案する。
あいまいさを解消する英語の慣行と幾らかの整合性があるにもかかわらず、本実験はVLMの重大な欠点を明らかにした。
視覚言語モデルと人間の認知的直感の整合化を図りつつ、我々は空間的推論のあいまいさと文化的な多様性により多くの注意を払っている。
論文 参考訳(メタデータ) (2024-10-22T19:39:15Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Towards Unsupervised Representation Learning: Learning, Evaluating and
Transferring Visual Representations [1.8130068086063336]
我々は3つの視点から教師なし(視覚的)表現学習の分野に貢献する。
我々は、教師なし、バックプロパゲーションのない畳み込み自己組織型ニューラルネットワーク(CSNN)を設計する。
我々は、プリテキストとターゲットオブジェクトに依存しないメトリクスを定義するために、広く使われている(非)線形評価プロトコルの上に構築する。
CARLANEは,2次元車線検出のための最初の3方向sim-to-realドメイン適応ベンチマークであり,自己教師付き学習に基づく手法である。
論文 参考訳(メタデータ) (2023-11-30T15:57:55Z) - Regularized Conventions: Equilibrium Computation as a Model of Pragmatic
Reasoning [72.21876989058858]
本稿では,信号ゲームの正規化平衡を探索することにより,発話を生成・理解する実用的な言語理解のモデルを提案する。
このモデルでは、話者とリスナーは文脈的に適切な発話を探索し、ゲーム理論の最適規則に近づき、共有された'デフォルト'セマンティクスに近い意味のマッピングを意味づける。
論文 参考訳(メタデータ) (2023-11-16T09:42:36Z) - Establishing Trustworthiness: Rethinking Tasks and Model Evaluation [36.329415036660535]
我々は、NLPにおけるタスクとモデル評価を構成するものを再考する時が来たと論じる。
本稿では,モデルの機能的能力の起源を理解するために,既存のコンパートナライズドアプローチについてレビューする。
論文 参考訳(メタデータ) (2023-10-09T06:32:10Z) - Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
Navigation [23.94546957057613]
クロスモーダルアライメントはビジョン・アンド・ランゲージ・ナビゲーション(VLN)の鍵となる課題である
本稿では,VLNタスクの事前学習パラダイムとして,GELA(Gunded Entity-Landmark Adaptive)を提案する。
論文 参考訳(メタデータ) (2023-08-24T06:25:20Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised
Referring Expression Grounding [214.8003571700285]
Referring Expression Grounding (REG) は、言語表現によって記述されたイメージにおいて特定のターゲットをグラウンドすることを目的としている。
我々は、エンティティ強化適応再構築ネットワーク(EARN)を設計する。
EARNには、エンティティの強化、適応的な接地、協調的な再構築の3つのモジュールが含まれている。
論文 参考訳(メタデータ) (2022-07-18T05:30:45Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。