論文の概要: COINBench: Moving Beyond Individual Perspectives to Collective Intent Understanding
- arxiv url: http://arxiv.org/abs/2603.21329v1
- Date: Sun, 22 Mar 2026 17:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.3592
- Title: COINBench: Moving Beyond Individual Perspectives to Collective Intent Understanding
- Title(参考訳): COINBench: 個々の視点を超えて、集合的意図を理解する
- Authors: Xiaozhe Li, Tianyi Lyu, Siyi Yang, Yizhao Yang, Yuxi Gong, Jinxuan Huang, Ligao Zhang, Zhuoyi Huang, Qingwen Liu,
- Abstract要約: COIN-BENCHは、大言語モデル(LLM)を集合的意図的理解に基づいて評価する、ライブ更新ベンチマークである。
トランザクション結果にフォーカスする従来のベンチマークとは異なり、COIN-BENCHは階層的な認知構造として意図を運用している。
このフレームワークは、階層的な認知的構造化と検索強化検証(COIN-RAG)のためのCOIN-TREEを組み込んで、生の人的議論を分析するための専門家レベルの精度を確保する。
- 参考スコア(独自算出の注目度): 4.5799194788369455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human intent is a high-level cognitive challenge for Large Language Models (LLMs), requiring sophisticated reasoning over noisy, conflicting, and non-linear discourse. While LLMs excel at following individual instructions, their ability to distill Collective Intent - the process of extracting consensus, resolving contradictions, and inferring latent trends from multi-source public discussions - remains largely unexplored. To bridge this gap, we introduce COIN-BENCH, a dynamic, real-world, live-updating benchmark specifically designed to evaluate LLMs on collective intent understanding within the consumer domain. Unlike traditional benchmarks that focus on transactional outcomes, COIN-BENCH operationalizes intent as a hierarchical cognitive structure, ranging from explicit scenarios to deep causal reasoning. We implement a robust evaluation pipeline that combines a rule-based method with an LLM-as-the-Judge approach. This framework incorporates COIN-TREE for hierarchical cognitive structuring and retrieval-augmented verification (COIN-RAG) to ensure expert-level precision in analyzing raw, collective human discussions. An extensive evaluation of 20 state-of-the-art LLMs across four dimensions - depth, breadth, informativeness, and correctness - reveals that while current models can handle surface-level aggregation, they still struggle with the analytical depth required for complex intent synthesis. COIN-BENCH establishes a new standard for advancing LLMs from passive instruction followers to expert-level analytical agents capable of deciphering the collective voice of the real world. See our project page on COIN-BENCH.
- Abstract(参考訳): 人間の意図を理解することは、Large Language Models(LLM)の高レベルな認知的課題であり、ノイズ、矛盾、非線形の言論に対する洗練された推論を必要とする。
LLMは個々の指示に従うのに優れていますが、コンセンサスを抽出し、矛盾を解消し、複数ソースの公開議論から潜伏傾向を推測する、集合インテントを蒸留する能力はほとんど解明されていません。
このギャップを埋めるために、消費者ドメイン内の集合的意図理解に基づいてLLMを評価するために特別に設計された動的で実世界のライブ更新ベンチマークであるCOIN-BENCHを導入する。
トランザクション結果にフォーカスする従来のベンチマークとは異なり、COIN-BENCHは明示的なシナリオから深い因果推論まで、階層的な認知構造として意図を運用している。
ルールベースの手法とLCM-as-the-Judgeアプローチを組み合わせたロバストな評価パイプラインを実装した。
このフレームワークは、階層的認知的構造化と検索強化検証(COIN-RAG)のためのCOIN-TREEを組み込んで、生の人的議論を分析するための専門家レベルの精度を確保する。
深度, 広さ, 情報性, 正しさの4次元にまたがる20種類の最先端LCMを広範囲に評価した結果, 現在のモデルでは表面レベルの集約を処理できるが, 複雑な意図合成に必要な分析深度に苦慮していることが明らかとなった。
COIN-BENCHは、受動的指導者から現実世界の集団の声を解読できる専門家レベルの分析エージェントまで、LSMを前進させる新しい標準を確立している。
COIN-BENCHのプロジェクトページを参照。
関連論文リスト
- MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models [15.929002709503921]
我々は、根本的だが未解明の知性、すなわち結束を評価することを目指している。
MM-OPERAは、2つのオープンエンドタスクにまたがる11,497のインスタンスを持つ体系的なベンチマークである。
異なる思考と収束した連想的推論の精神に類似するようにLVLMに挑戦する。
論文 参考訳(メタデータ) (2025-10-30T18:49:06Z) - ConsintBench: Evaluating Language Models on Real-World Consumer Intent Understanding [4.5799194788369455]
benchは、特にコンシューマドメインにおいて、インテント理解のために特別に設計された、最初の動的でライブな評価ベンチマークである。
ベンチはこの種の最大かつ最も多様なベンチマークであり、リアルタイム更新をサポートし、自動キュレーションパイプラインによるデータの汚染を防止している。
論文 参考訳(メタデータ) (2025-10-15T12:49:45Z) - From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - KROMA: Ontology Matching with Knowledge Retrieval and Large Language Models [5.405036373673608]
KROMAはLarge Language Models(LLM)をRetrieval-Augmented Generationパイプライン内で利用する新しいフレームワークである。
性能と効率の両面を最適化するために、KROMAは二相性に基づく概念マッチングと軽量なオントロジー改善ステップを統合している。
論文 参考訳(メタデータ) (2025-07-18T16:00:11Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。