論文の概要: AssoCiAm: A Benchmark for Evaluating Association Thinking while Circumventing Ambiguity
- arxiv url: http://arxiv.org/abs/2509.14171v2
- Date: Thu, 18 Sep 2025 15:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 13:12:58.958533
- Title: AssoCiAm: A Benchmark for Evaluating Association Thinking while Circumventing Ambiguity
- Title(参考訳): AssoCiAm: 曖昧さを回避しつつ, 関連思考を評価するためのベンチマーク
- Authors: Yifan Liu, Wenkuan Zhao, Shanshan Zhong, Jinghui Qin, Mingfu Liang, Zhongzhan Huang, Wushao Wen,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、人工知能(AGI)への有望な経路を提供するなど、大きな注目を集めている。
AGIに必要な重要な能力のうち、創造性はMLLMにとって重要な特性として現れ、その基盤として協会が機能している。
AssoCiAmは、ハイブリッド計算手法により曖昧さを回避しつつ、連想能力を評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 40.69669704668314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have garnered significant attention, offering a promising pathway toward artificial general intelligence (AGI). Among the essential capabilities required for AGI, creativity has emerged as a critical trait for MLLMs, with association serving as its foundation. Association reflects a model' s ability to think creatively, making it vital to evaluate and understand. While several frameworks have been proposed to assess associative ability, they often overlook the inherent ambiguity in association tasks, which arises from the divergent nature of associations and undermines the reliability of evaluations. To address this issue, we decompose ambiguity into two types-internal ambiguity and external ambiguity-and introduce AssoCiAm, a benchmark designed to evaluate associative ability while circumventing the ambiguity through a hybrid computational method. We then conduct extensive experiments on MLLMs, revealing a strong positive correlation between cognition and association. Additionally, we observe that the presence of ambiguity in the evaluation process causes MLLMs' behavior to become more random-like. Finally, we validate the effectiveness of our method in ensuring more accurate and reliable evaluations. See Project Page for the data and codes.
- Abstract(参考訳): MLLM(Multimodal large language model)の最近の進歩は、人工知能(AGI)への道筋として大きな注目を集めている。
AGIに必要な重要な能力のうち、創造性はMLLMにとって重要な特性として現れ、その基盤として協会が機能している。
アソシエーションはモデルが創造的に考える能力を反映し、評価と理解が不可欠である。
連想能力を評価するためにいくつかのフレームワークが提案されているが、それらはしばしば、関連性の異なる性質から生じ、評価の信頼性を損なう、関連性タスクの固有の曖昧さを見落としている。
この問題に対処するため, あいまいさを2種類の内部曖昧性と外部曖昧性に分解し, ハイブリッド計算手法を用いてあいまいさを回避しつつ, 連想能力を評価するためのベンチマークAssoCiAmを導入する。
次に,MLLMに関する広範な実験を行い,認知と相関の強い正の相関を明らかにする。
さらに,評価プロセスにおけるあいまいさの存在は,MLLMの行動がよりランダムなものになることを観察する。
最後に,提案手法の有効性を検証し,より正確で信頼性の高い評価を行う。
データとコードについてはProject Pageを参照してください。
関連論文リスト
- [Re] Benchmarking LLM Capabilities in Negotiation through Scoreable Games [0.0]
大規模言語モデル(LLM)はマルチエージェントネゴシエーションタスクにおいて大きな可能性を示す。
本研究では,Scoreable Games に基づくベンチマークの徹底性について検討する。
本結果は,モデル比較評価における文脈の重要性を強調した。
論文 参考訳(メタデータ) (2026-02-20T14:11:31Z) - Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind [8.740788873949471]
大規模言語モデル(LLM)は急速に発展し、汎用タスクと専門タスクの両方に広く応用されている。
意図や指示が不正確に伝達されるとき、彼らは依然として、真のユーザニーズを理解し、応答するのに苦労しています。
論文 参考訳(メタデータ) (2026-02-14T16:01:59Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models [15.929002709503921]
我々は、根本的だが未解明の知性、すなわち結束を評価することを目指している。
MM-OPERAは、2つのオープンエンドタスクにまたがる11,497のインスタンスを持つ体系的なベンチマークである。
異なる思考と収束した連想的推論の精神に類似するようにLVLMに挑戦する。
論文 参考訳(メタデータ) (2025-10-30T18:49:06Z) - How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning [9.226215535668162]
対戦型ゲームベースインタラクションに基づく適応評価フレームワークGuessArenaを提案する。
我々のフレームワークは、動的ドメイン知識モデリングとプログレッシブ推論アセスメントをシームレスに統合します。
論文 参考訳(メタデータ) (2025-05-28T17:59:43Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。