Fugu-MT 論文翻訳(概要): RealBirdID: Benchmarking Bird Species Identification in the Era of MLLMs

論文の概要: RealBirdID: Benchmarking Bird Species Identification in the Era of MLLMs

arxiv url: http://arxiv.org/abs/2603.27033v1
Date: Fri, 27 Mar 2026 22:58:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.744117
Title: RealBirdID: Benchmarking Bird Species Identification in the Era of MLLMs
Title（参考訳）: RealBirdID:MLLM時代の鳥類種同定のベンチマーク
Authors: Logan Lawrence, Mustafa Chasmai, Rangel Daroya, Wuao Liu, Seoyun Jeong, Aaron Sun, Max Hamilton, Fabien Delattre, Oindrila Saha, Subhransu Maji, Grant Van Horn,
Abstract要約: 野生の鳥の微細な種は、単一の画像からしばしば発見できない。我々はRealBirdIDベンチマークを提案する: 鳥の画像を考えると、システムは種で答えるか、具体的、エビデンスに基づく理論的根拠で答えるべきである。各属について、データセットは、ラベル付き有理数を持つ計算不可能な例からなる検証スプリットを含み、明確な答え可能なインスタンスのコンパニオンセットと組み合わせられる。
参考スコア（独自算出の注目度）: 21.24879709845471
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-grained bird species identification in the wild is frequently unanswerable from a single image: key cues may be non-visual (e.g. vocalization), or obscured due to occlusion, camera angle, or low resolution. Yet today's multimodal systems are typically judged on answerable, in-schema cases, encouraging confident guesses rather than principled abstention. We propose the RealBirdID benchmark: given an image of a bird, a system should either answer with a species or abstain with a concrete, evidence-based rationale: "requires vocalization," "low quality image," or "view obstructed". For each genus, the dataset includes a validation split composed of curated unanswerable examples with labeled rationales, paired with a companion set of clearly answerable instances. We find that (1) the species identification on the answerable set is challenging for a variety of open-source and proprietary models (less than 13% accuracy for MLLMs including GPT-5 and Gemini-2.5 Pro), (2) models with greater classification ability are not necessarily more calibrated to abstain from unanswerable examples, and (3) that MLLMs generally fail at providing correct reasons even when they do abstain. RealBirdID establishes a focused target for abstention-aware fine-grained recognition and a recipe for measuring progress.
Abstract（参考訳）: 野生のきめ細かい鳥の種を識別することは、単一の画像からしばしば発見できない:キーキューは非視覚的(例えば、声化)、または隠蔽、カメラアングル、解像度の低さによって隠蔽される。しかし、今日のマルチモーダルシステムは、通常、答え可能な、スキーマ内のケースで判断され、原則化された棄権よりも自信ある推測を奨励する。鳥の画像が与えられたら、システムは種に答えるか、具体的かつエビデンスに基づく論理的根拠("requires vocalization"、"low quality image"、"view obstructed")で答えるべきである。各属について、データセットは、ラベル付き有理数を持つ計算不可能な例からなる検証スプリットを含み、明確な答え可能なインスタンスのコンパニオンセットと組み合わせられる。その結果,(1)解答可能な集合上の種同定は,GPT-5やGemini-2.5 Proを含むMLLMの精度が13%未満で,(2)分類能力の高いモデルは,予測不可能な例を抑えるために必ずしも校正されていないこと,(3)MLLMが棄却された場合でも,一般的には正しい理由を与えることができないこと,など,様々なオープンソースおよびプロプライエタリなモデルにおいて困難であることが判明した。 RealBirdIDは、吸収を意識した微粒な認識のための焦点と、進捗を測定するためのレシピを確立する。

関連論文リスト

Self-Supervised Animal Identification for Long Videos [0.8233028449337972]
我々は,動物識別をグローバルクラスタリングタスクとして再編成する,効率的で自己管理的な手法を提案する。私たちのフレームワークは1000以上のラベル付きフレームでトレーニングされた教師付きベースラインと一致または超えます。この研究により、消費者階級のハードウェア上で、実用的で高精度な動物識別が可能になる。
論文参考訳（メタデータ） (2026-01-14T17:53:59Z)
Measuring Epistemic Humility in Multimodal Large Language Models [17.490955813494693]
HumbleBench は,MLLM が正解ではないが誤解を拒否する能力を評価するために設計された,新しい幻覚ベンチマークである。我々は、微粒なシーングラフアノテーションを利用して、地中構造体と関係を抽出し、GPT-4-Turboに多重選択質問を生成する。 HumbleBenchは、現在の評価スイートにおける重要なギャップを埋め、安全クリティカルな設定におけるMLLMの信頼性をより現実的に測定する。
論文参考訳（メタデータ） (2025-09-11T17:54:00Z)
COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation [2.5234274237739402]
提案するCOIN(Confidence score-guided Instance distillation)は、3つの重要なステップを持つ新しいアノテーションフリーフレームワークである。 COINは最適なトランスポートを持つ教師なしセマンティックセグメンテーションを通じてエラーのないインスタンスの存在に対する感度を高める。接地真理アノテーションの代替を提供し、接地真理アノテーションの代替を提供する。
論文参考訳（メタデータ） (2025-03-14T14:27:24Z)
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文参考訳（メタデータ） (2024-07-02T04:23:54Z)
Visually Consistent Hierarchical Image Classification [37.80849457554078]
階層分類は、例えば、粗いレベルの"Bird"から中レベルの"Hummingbird"から、細かいレベルの"Green hermit"まで、複数の分類のレベルにまたがるラベルを予測する。
論文参考訳（メタデータ） (2024-06-17T14:56:51Z)
Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture [2.5193666094305938]
デジタルレコーダーにより、測量士は大量のデータを低コストで収集することができる。しかし、これらのデータの中で標的となる種の発声を識別するのは簡単ではない。機械学習(ML)手法はしばしばその識別に使用される。音響的空間キャプチャー・キャプチャー推定のための3つの手法を提案する。
論文参考訳（メタデータ） (2023-08-24T15:29:24Z)
Improving Selective Visual Question Answering by Learning from Your Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文参考訳（メタデータ） (2023-06-14T21:22:01Z)
Persistent Animal Identification Leveraging Non-Visual Markers [71.14999745312626]
乱雑なホームケージ環境下で各マウスにユニークな識別子を時間をかけて発見し提供することを目的としている。これは、(i)各マウスの視覚的特徴の区別の欠如、(ii)一定の閉塞を伴うシーンの密閉性のため、非常に難しい問題である。本手法は, この動物識別問題に対して77%の精度を達成し, 動物が隠れているときの急激な検出を拒否することができる。
論文参考訳（メタデータ） (2021-12-13T17:11:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。