論文の概要: AssoCiAm: A Benchmark for Evaluating Association Thinking while Circumventing Ambiguity
- arxiv url: http://arxiv.org/abs/2509.14171v1
- Date: Wed, 17 Sep 2025 16:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.930529
- Title: AssoCiAm: A Benchmark for Evaluating Association Thinking while Circumventing Ambiguity
- Title(参考訳): AssoCiAm: 曖昧さを回避しつつ, 関連思考を評価するためのベンチマーク
- Authors: Yifan Liu, Wenkuan Zhao, Shanshan Zhong, Jinghui Qin, Mingfu Liang, Zhongzhan Huang, Wushao Wen,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、人工知能(AGI)への有望な経路を提供するなど、大きな注目を集めている。
AGIに必要な重要な能力のうち、創造性はMLLMにとって重要な特性として現れ、その基盤として協会が機能している。
AssoCiAmは、ハイブリッド計算手法により曖昧さを回避しつつ、連想能力を評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 40.69669704668314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have garnered significant attention, offering a promising pathway toward artificial general intelligence (AGI). Among the essential capabilities required for AGI, creativity has emerged as a critical trait for MLLMs, with association serving as its foundation. Association reflects a model' s ability to think creatively, making it vital to evaluate and understand. While several frameworks have been proposed to assess associative ability, they often overlook the inherent ambiguity in association tasks, which arises from the divergent nature of associations and undermines the reliability of evaluations. To address this issue, we decompose ambiguity into two types-internal ambiguity and external ambiguity-and introduce AssoCiAm, a benchmark designed to evaluate associative ability while circumventing the ambiguity through a hybrid computational method. We then conduct extensive experiments on MLLMs, revealing a strong positive correlation between cognition and association. Additionally, we observe that the presence of ambiguity in the evaluation process causes MLLMs' behavior to become more random-like. Finally, we validate the effectiveness of our method in ensuring more accurate and reliable evaluations. See Project Page for the data and codes.
- Abstract(参考訳): MLLM(Multimodal large language model)の最近の進歩は、人工知能(AGI)への道筋として大きな注目を集めている。
AGIに必要な重要な能力のうち、創造性はMLLMにとって重要な特性として現れ、その基盤として協会が機能している。
アソシエーションはモデルが創造的に考える能力を反映し、評価と理解が不可欠である。
連想能力を評価するためにいくつかのフレームワークが提案されているが、それらはしばしば、関連性の異なる性質から生じ、評価の信頼性を損なう、関連性タスクの固有の曖昧さを見落としている。
この問題に対処するため, あいまいさを2種類の内部曖昧性と外部曖昧性に分解し, ハイブリッド計算手法を用いてあいまいさを回避しつつ, 連想能力を評価するためのベンチマークAssoCiAmを導入する。
次に,MLLMに関する広範な実験を行い,認知と相関の強い正の相関を明らかにする。
さらに,評価プロセスにおけるあいまいさの存在は,MLLMの行動がよりランダムなものになることを観察する。
最後に,提案手法の有効性を検証し,より正確で信頼性の高い評価を行う。
データとコードについてはProject Pageを参照してください。
関連論文リスト
- Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning [9.226215535668162]
対戦型ゲームベースインタラクションに基づく適応評価フレームワークGuessArenaを提案する。
我々のフレームワークは、動的ドメイン知識モデリングとプログレッシブ推論アセスメントをシームレスに統合します。
論文 参考訳(メタデータ) (2025-05-28T17:59:43Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。