論文の概要: The Rarity Blind Spot: A Framework for Evaluating Statistical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2509.00245v2
- Date: Tue, 30 Sep 2025 23:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.726976
- Title: The Rarity Blind Spot: A Framework for Evaluating Statistical Reasoning in LLMs
- Title(参考訳): LLMにおける統計的推論評価フレームワークRarity Blind Spot
- Authors: Seiji Maekawa, Hayate Iso, Nikita Bhutani,
- Abstract要約: そこで我々はDFM(Distinctive Feature Mining)を導入し,グローバルな文脈では稀な10~40個の文書と表面的特徴をモデルで分析する手法を提案する。
この設定は、検索ではなく統計的推論が重要となる候補選択や製品分化といった現実のシナリオを反映している。
DiFBenchを用いて、10の最先端LCMにおいて特徴的特徴マイニングを大規模に評価する。
- 参考スコア(独自算出の注目度): 14.21269233160436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective decision-making often relies on identifying what makes each candidate distinctive. While existing benchmarks for LLMs emphasize retrieving or summarizing information relevant to a given query, they do not evaluate a model's ability to identify globally distinctive features across a set of documents. We introduce Distinctive Feature Mining (DFM), a new task that challenges models to analyze a small-to-medium collection (10-40 documents) and surface features that are rare in the global context (e.g., appearing in less than 10% of documents). This setting mirrors real-world scenarios such as candidate selection or product differentiation, where statistical reasoning, not retrieval, is key. To enable systematic evaluation of this capability, we present DiFBench, a configurable benchmark creation framework with controllable parameters such as document set size and distinctiveness thresholds. Using DiFBench, we perform a large-scale assessment of distinctive feature mining across ten state-of-the-art LLMs. Our findings reveal a significant performance gap between general-purpose and reasoning-enhanced models. All models, however, substantially degrade as the task complexity and document count increase. We also find that a common failure mode is misidentifying frequent features as distinctive. These insights reveal core limitations in contemporary LLMs' abilities to perform fine-grained, statistical reasoning and rarity detection.
- Abstract(参考訳): 効果的な意思決定は、しばしば、それぞれの候補を区別することに依存する。
LLMの既存のベンチマークでは、与えられたクエリに関連する情報の検索や要約が強調されているが、モデルが文書の集合にまたがるグローバルな特徴を識別する能力は評価されていない。
本研究では,DFM(Distinctive Feature Mining)を導入した。DFM(Distinctive Feature Mining)は,10~40の文書集合とグローバルな文脈で稀な表面的特徴(例:10%未満の文書に現れる)を分析するモデルに挑戦するタスクである。
この設定は、検索ではなく統計的推論が重要となる候補選択や製品分化といった現実のシナリオを反映している。
この機能を体系的に評価するために,文書サイズや識別しきい値などの制御可能なパラメータを持つ,設定可能なベンチマーク生成フレームワークであるDiFBenchを提案する。
DiFBenchを用いて、10の最先端LCMにおいて特徴的特徴マイニングを大規模に評価する。
本研究により,汎用モデルと推論モデルの間に大きな性能差が認められた。
しかしながら、タスクの複雑さとドキュメント数の増加に伴い、すべてのモデルは大幅に低下します。
また、よくある障害モードは、頻繁な特徴を特徴と誤識別していることもわかりました。
これらの知見は、LLMが微細で統計的に推論し、希薄な検出を行う能力において、中核的な限界を明らかにしている。
関連論文リスト
- UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents [65.14244917622881]
近年の大規模マルチモーダルモデルでは,文書画像から直接,エンドツーエンドのKIEを実行する可能性が高まっている。
我々は,LMMのKIE能力を厳格に評価するベンチマークであるUNIKIE-BENCHを紹介する。
15の最先端のLMMの実験では、多様なスキーマ定義、ロングテールキーフィールド、複雑なレイアウトの下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-03T12:04:56Z) - What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。
2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。
明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文 参考訳(メタデータ) (2025-11-17T20:50:50Z) - Hidden in Plain Sight: Evaluation of the Deception Detection Capabilities of LLMs in Multimodal Settings [14.065907685322097]
本稿では,Large Language Model (LLM) とLarge Multimodal Model (LMM) の自動偽造検出機能について,包括的に評価する。
実生活トライアル面接(RLTD)、対人的シナリオ(MU3D)、詐欺的レビュー(OpSpam)の3つの異なるデータセットを用いて、オープンソースおよび商用LLMの性能を評価する。
以上の結果から,LMMはクロスモーダルな手法を十分に活用するのに苦戦しているのに対し,微調整のLLMはテキスト偽造検出タスクにおいて最先端のパフォーマンスを実現することが示唆された。
論文 参考訳(メタデータ) (2025-06-11T06:12:50Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Probing Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - SEAM: A Stochastic Benchmark for Multi-Document Tasks [30.153949809172605]
現在、マルチドキュメントタスクにおける大規模言語モデル(LLM)の能力を測定するベンチマークは存在しない。
マルチドキュメントタスクの評価手法であるSEAM(SEAM: Evaluation Approach for Multi-document task)を提案する。
マルチドキュメントタスクは,70Bパラメータを持つ最先端モデルであっても,LLMにとって大きな課題となる。
論文 参考訳(メタデータ) (2024-06-23T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。