論文の概要: FIKA-Bench: From Fine-grained Recognition to Fine-Grained Knowledge Acquisition
- arxiv url: http://arxiv.org/abs/2605.13193v2
- Date: Tue, 19 May 2026 13:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.272612
- Title: FIKA-Bench: From Fine-grained Recognition to Fine-Grained Knowledge Acquisition
- Title(参考訳): FIKA-Bench:微粒化認識から微粒化知識獲得へ
- Authors: Geng Li, Yuxin Peng,
- Abstract要約: 日常生活におけるきめ細かい認識は、しばしばクローズドブックの分類問題ではない。
既存のベンチマークは主に視覚的認識を評価しており、このアクティブな外部知識獲得能力は過小評価されている。
そこでは,システムが外部の証拠を探し,検証し,利用し,オープンエンドのきめ細かい認識質問に答えなければならない,きめ細かな知識獲得について検討する。
- 参考スコア(独自算出の注目度): 54.31138496553705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained recognition in everyday life is often not a closed-book classification problem: when encountering unfamiliar objects, humans actively search, compare visual details, and verify evidence before deciding. Existing benchmarks primarily evaluate visually recognition, leaving this active external knowledge acquisition ability underexplored. We study fine-grained knowledge acquisition, where a system must seek, verify, and use external evidence to answer open-ended fine-grained recognition questions. We introduce FIKA-Bench, a leakage-aware and evidence-grounded collection of 311 public-source and real-life instances. To ensure high quality, every example is filtered against frontier closed-book models to remove memorized cases and audited to eliminate image-answer leakage, retaining only samples supported by verified evidence. Our evaluation of latest Large Multimodal Models (LMMs) and agents reveals that the task remains a formidable challenge: the best system reaches only 25.1% accuracy, with no model exceeding 30%. Crucially, we find that merely equipping models with tools is insufficient to bridge this gap; agent failures are predominantly driven by wrong entity retrieval and poor visual judgement. These results show that reliable knowledge acquisition needs better agent designs that focus on fine-grained recognition.
- Abstract(参考訳): 身近な物体に遭遇すると、人間が積極的に検索し、視覚的詳細を比較し、決定する前に証拠を検証します。
既存のベンチマークは主に視覚的認識を評価しており、このアクティブな外部知識獲得能力は過小評価されている。
そこでは,システムが外部の証拠を探し,検証し,利用して,オープンエンドのきめ細かい認識質問に答えなければならない,きめ細かな知識獲得について検討する。
FIKA-Benchは,311のオープンソースおよび実環境インスタンスのリーク認識とエビデンスを基盤としたコレクションである。
高品質を確保するため、すべてのサンプルはフロンティアのクローズドブックモデルに対してフィルタリングされ、暗記されたケースを除去し、検査して画像検索のリークを除去し、証拠によって支持されるサンプルのみを保持する。
最新のLMM(Large Multimodal Models)とエージェントによる評価では、このタスクは依然として深刻な課題であり、最高のシステムはわずか25.1%の精度で、30%を超えるモデルはない。
重要なことは、単にツールを装備するだけでこのギャップを埋めることはできない。エージェントの失敗は、間違ったエンティティの検索と視覚的判断の欠如によって主に引き起こされる。
これらの結果から,信頼性の高い知識獲得には,きめ細かな認識に焦点を当てたエージェント設計が必要であることが示唆された。
関連論文リスト
- Seamless Deception: Larger Language Models Are Better Knowledge Concealers [26.38326875955904]
言語モデル(LM)は有害な知識を取得し、監査中はこれらのトピックを無視することができる。
近年, 誤認関連行動パターンの発見に触発されて, LMが知識を積極的に隠蔽していることを検知する分類器を訓練することを目指している。
論文 参考訳(メタデータ) (2026-03-15T23:55:21Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - Evidence-based Match-status-Aware Gait Recognition for Out-of-Gallery Gait Identification [31.287312613939203]
Evidence-based Match-status-Aware Gait Recognition frameworkを提案する。
Evidential Deep Learning (EDL)にインスパイアされたEMA-GRは、認識の一致状況に関連する不確実性を定量化するように設計されている。
我々の手法は既存の最先端手法をかなり上回ります。
論文 参考訳(メタデータ) (2022-11-15T09:42:07Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - The Familiarity Hypothesis: Explaining the Behavior of Deep Open Set
Methods [86.39044549664189]
特徴ベクトルデータに対する異常検出アルゴリズムは異常を外れ値として識別するが、外れ値検出はディープラーニングではうまく機能しない。
本論文は, 新規性の有無ではなく, 慣れ親しんだ特徴の欠如を検知しているため, これらの手法が成功するというFamiliarity仮説を提案する。
本論文は,親しみやすさの検出が表現学習の必然的な結果であるかどうかを論じる。
論文 参考訳(メタデータ) (2022-03-04T18:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。