論文の概要: ConsintBench: Evaluating Language Models on Real-World Consumer Intent Understanding
- arxiv url: http://arxiv.org/abs/2510.13499v1
- Date: Wed, 15 Oct 2025 12:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.671791
- Title: ConsintBench: Evaluating Language Models on Real-World Consumer Intent Understanding
- Title(参考訳): ConsintBench: リアルタイム消費者インテント理解に基づく言語モデルの評価
- Authors: Xiaozhe Li, TianYi Lyu, Siyi Yang, Yuxi Gong, Yizhao Yang, Jinxuan Huang, Ligao Zhang, Zhuoyi Huang, Qingwen Liu,
- Abstract要約: benchは、特にコンシューマドメインにおいて、インテント理解のために特別に設計された、最初の動的でライブな評価ベンチマークである。
ベンチはこの種の最大かつ最も多様なベンチマークであり、リアルタイム更新をサポートし、自動キュレーションパイプラインによるデータの汚染を防止している。
- 参考スコア(独自算出の注目度): 4.5799194788369455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human intent is a complex, high-level task for large language models (LLMs), requiring analytical reasoning, contextual interpretation, dynamic information aggregation, and decision-making under uncertainty. Real-world public discussions, such as consumer product discussions, are rarely linear or involve a single user. Instead, they are characterized by interwoven and often conflicting perspectives, divergent concerns, goals, emotional tendencies, as well as implicit assumptions and background knowledge about usage scenarios. To accurately understand such explicit public intent, an LLM must go beyond parsing individual sentences; it must integrate multi-source signals, reason over inconsistencies, and adapt to evolving discourse, similar to how experts in fields like politics, economics, or finance approach complex, uncertain environments. Despite the importance of this capability, no large-scale benchmark currently exists for evaluating LLMs on real-world human intent understanding, primarily due to the challenges of collecting real-world public discussion data and constructing a robust evaluation pipeline. To bridge this gap, we introduce \bench, the first dynamic, live evaluation benchmark specifically designed for intent understanding, particularly in the consumer domain. \bench is the largest and most diverse benchmark of its kind, supporting real-time updates while preventing data contamination through an automated curation pipeline.
- Abstract(参考訳): 人間の意図を理解することは、大言語モデル(LLM)の複雑な高レベルなタスクであり、分析的推論、文脈解釈、動的情報集約、不確実性の下での意思決定を必要とする。
コンシューマ製品に関する議論のような現実世界の公開議論は、リニアであることはめったにない。
代わりに、それらは相互に織り合わされ、しばしば矛盾する視点、異なる関心事、目標、感情的な傾向、そして暗黙の仮定と使用シナリオに関する背景知識によって特徴づけられる。
政治的、経済学、金融学といった分野の専門家が複雑で不確実な環境にアプローチする方法と同様に、多元的な信号の統合、矛盾の理由付け、進化する言説に適応する必要がある。
この能力の重要性にもかかわらず、実際の人間の意図を理解する上でLLMを評価するための大規模なベンチマークは存在しない。
このギャップを埋めるために、特に消費者ドメインにおいて、インテント理解のために特別に設計された、最初の動的でライブな評価ベンチマークである \benchを紹介します。
\benchはこの種の最大かつ最も多様なベンチマークであり、リアルタイム更新をサポートし、自動キュレーションパイプラインによるデータの汚染を防止している。
関連論文リスト
- Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs [21.192619293355502]
大きな言語モデル(LLM)は、明確で完全なステートメントで問題を解決するのに優れています。
このベンチマークは、複雑でインタラクティブなシナリオを扱う上で、現在のLLMの長所と短所に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-13T19:14:45Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - The Impossibility of Fair LLMs [17.812295963158714]
さまざまな技術的公正フレームワークを分析し、公正な言語モデルの開発を難易度の高いものにするために、それぞれに固有の課題を見つけます。
それぞれのフレームワークが汎用的なAIコンテキストに拡張されないか、実際には実現不可能であることを示す。
これらの固有の課題は、LLMを含む汎用AIにおいて、限られた参加入力や限られた測定方法といった経験的な課題が克服されたとしても、持続する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Intrinsic User-Centric Interpretability through Global Mixture of Experts [31.738009841932374]
InterpretCCは、人間の理解の容易さと忠実さの説明を最適化する、本質的に解釈可能なニューラルネットワークのファミリーである。
本報告では,InterpretCCの説明は,他の本質的な解釈可能なアプローチよりも,行動性や有用性が高いことを示す。
論文 参考訳(メタデータ) (2024-02-05T11:55:50Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。