論文の概要: The Rarity Blind Spot: A Framework for Evaluating Statistical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2509.00245v1
- Date: Fri, 29 Aug 2025 21:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.141621
- Title: The Rarity Blind Spot: A Framework for Evaluating Statistical Reasoning in LLMs
- Title(参考訳): LLMにおける統計的推論評価フレームワークRarity Blind Spot
- Authors: Seiji Maekawa, Hayate Iso, Nikita Bhutani,
- Abstract要約: そこで我々はDFM(Distinctive Feature Mining)を導入し,グローバルな文脈では稀な10~40個の文書と表面的特徴をモデルで分析する手法を提案する。
この設定は、検索ではなく統計的推論が重要となる候補選択や製品分化といった現実のシナリオを反映している。
DiFBenchを用いて、10の最先端LCMにおいて特徴的特徴マイニングを大規模に評価する。
- 参考スコア(独自算出の注目度): 14.21269233160436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective decision-making often relies on identifying what makes each candidate distinctive. While existing benchmarks for LLMs emphasize retrieving or summarizing information relevant to a given query, they do not evaluate a model's ability to identify globally distinctive features across a set of documents. We introduce Distinctive Feature Mining (DFM), a new task that challenges models to analyze a small-to-medium collection (10-40 documents) and surface features that are rare in the global context (e.g., appearing in less than 10% of documents). This setting mirrors real-world scenarios such as candidate selection or product differentiation, where statistical reasoning, not retrieval, is key. To enable systematic evaluation of this capability, we present DiFBench, a configurable benchmark creation framework with controllable parameters such as document set size and distinctiveness thresholds. Using DiFBench, we perform a large-scale assessment of distinctive feature mining across ten state-of-the-art LLMs. Our findings reveal a significant performance gap between general-purpose and reasoning-enhanced models. All models, however, substantially degrade as the task complexity and document count increase. We also find that a common failure mode is misidentifying frequent features as distinctive. These insights reveal core limitations in contemporary LLMs' abilities to perform fine-grained, statistical reasoning and rarity detection.
- Abstract(参考訳): 効果的な意思決定は、しばしば、それぞれの候補を区別することに依存する。
LLMの既存のベンチマークでは、与えられたクエリに関連する情報の検索や要約が強調されているが、モデルが文書の集合にまたがるグローバルな特徴を識別する能力は評価されていない。
本研究では,DFM(Distinctive Feature Mining)を導入した。DFM(Distinctive Feature Mining)は,10~40の文書集合とグローバルな文脈で稀な表面的特徴(例:10%未満の文書に現れる)を分析するモデルに挑戦するタスクである。
この設定は、検索ではなく統計的推論が重要となる候補選択や製品分化といった現実のシナリオを反映している。
この機能を体系的に評価するために,文書サイズや識別しきい値などの制御可能なパラメータを持つ,設定可能なベンチマーク生成フレームワークであるDiFBenchを提案する。
DiFBenchを用いて、10の最先端LCMにおいて特徴的特徴マイニングを大規模に評価する。
本研究により,汎用モデルと推論モデルの間に大きな性能差が認められた。
しかしながら、タスクの複雑さとドキュメント数の増加に伴い、すべてのモデルは大幅に低下します。
また、よくある障害モードは、頻繁な特徴を特徴と誤識別していることもわかりました。
これらの知見は、LLMが微細で統計的に推論し、希薄な検出を行う能力において、中核的な限界を明らかにしている。
関連論文リスト
- Hidden in Plain Sight: Evaluation of the Deception Detection Capabilities of LLMs in Multimodal Settings [14.065907685322097]
本稿では,Large Language Model (LLM) とLarge Multimodal Model (LMM) の自動偽造検出機能について,包括的に評価する。
実生活トライアル面接(RLTD)、対人的シナリオ(MU3D)、詐欺的レビュー(OpSpam)の3つの異なるデータセットを用いて、オープンソースおよび商用LLMの性能を評価する。
以上の結果から,LMMはクロスモーダルな手法を十分に活用するのに苦戦しているのに対し,微調整のLLMはテキスト偽造検出タスクにおいて最先端のパフォーマンスを実現することが示唆された。
論文 参考訳(メタデータ) (2025-06-11T06:12:50Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Probing Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。