論文の概要: Visual-textual Dermatoglyphic Animal Biometrics: A First Case Study on Panthera tigris
- arxiv url: http://arxiv.org/abs/2512.14878v1
- Date: Tue, 16 Dec 2025 19:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.773657
- Title: Visual-textual Dermatoglyphic Animal Biometrics: A First Case Study on Panthera tigris
- Title(参考訳): 視覚的テクスチュアルな皮膚科動物バイオメトリックス : Panthera tigris の1例
- Authors: Wenshuo Li, Majid Mirmehdi, Tilo Burghardt,
- Abstract要約: Re-ID法は, 正確なテキスト記述子を組み込むことで拡張する。
これらの専門的意味論は、人間の解釈可能な言語タグを用いて、動物のコートのトポロジーを抽象化し、エンコードしている。
皮膚科の言語誘導バイオメトリクスは視覚のみの限界を克服できると結論付けている。
- 参考スコア(独自算出の注目度): 11.07566750390282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biologists have long combined visuals with textual field notes to re-identify (Re-ID) animals. Contemporary AI tools automate this for species with distinctive morphological features but remain largely image-based. Here, we extend Re-ID methodologies by incorporating precise dermatoglyphic textual descriptors-an approach used in forensics but new to ecology. We demonstrate that these specialist semantics abstract and encode animal coat topology using human-interpretable language tags. Drawing on 84,264 manually labelled minutiae across 3,355 images of 185 tigers (Panthera tigris), we evaluate this visual-textual methodology, revealing novel capabilities for cross-modal identity retrieval. To optimise performance, we developed a text-image co-synthesis pipeline to generate 'virtual individuals', each comprising dozens of life-like visuals paired with dermatoglyphic text. Benchmarking against real-world scenarios shows this augmentation significantly boosts AI accuracy in cross-modal retrieval while alleviating data scarcity. We conclude that dermatoglyphic language-guided biometrics can overcome vision-only limitations, enabling textual-to-visual identity recovery underpinned by human-verifiable matchings. This represents a significant advance towards explainability in Re-ID and a language-driven unification of descriptive modalities in ecological monitoring.
- Abstract(参考訳): 生物学者は長い間、テキスト・フィールド・ノートと組み合わせて動物(Re-ID)を再同定してきた。
現代のAIツールは、特徴ある形態的特徴を持つ種に対してこれを自動化しているが、主に画像ベースである。
そこで我々は,Re-ID手法を,法医学で用いられるが生態学に新しいアプローチとして,精密なデルマグリフテキスト記述子を組み込むことにより拡張する。
これらの専門的意味論は、人間の解釈可能な言語タグを用いて、動物のコートのトポロジーを抽象化し、エンコードしている。
185羽のトラ(Panthera tigris)の3,355羽の画像に,84,264羽のミツバチを手動でラベル付けし,この視覚的テクスチャ的手法を評価した。
性能を最適化するために,テキスト画像の共同合成パイプラインを開発した。
実世界のシナリオに対するベンチマークでは、この拡張により、データの不足を軽減しつつ、クロスモーダル検索におけるAIの精度が大幅に向上することを示している。
本研究は, 言語誘導バイオメトリクスが視覚のみの限界を克服し, 人間の検証によるテキストと視覚の同一性回復を可能にすることを結論付けた。
このことは、Re-IDにおける説明可能性への大きな進歩と、生態モニタリングにおける記述的モダリティの言語駆動の統合を表している。
関連論文リスト
- BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models [40.106880795877466]
画像やキャプションは、ある種の潜在形態空間からの相補的なサンプルと見なすことができる。
我々は、ウィキペディア由来の視覚情報と分類群調整形式の例で合成キャプションを生成する。
これらのドメイン固有のコンテキストは幻覚を減らし、正確なインスタンスベースのキャプションを生成するのに役立つ。
論文 参考訳(メタデータ) (2025-10-23T00:34:21Z) - An Individual Identity-Driven Framework for Animal Re-Identification [15.381573249551181]
IndivAIDはAnimal ReID用に特別に設計されたフレームワークである。
画像特異的で個人固有のテキスト記述を生成し、動物画像を通して個々の視覚概念をフルにキャプチャする。
8つのベンチマークデータセットと現実世界のStoatデータセットにわたる最先端メソッドに対する評価は、IndivAIDの有効性と適用性を示している。
論文 参考訳(メタデータ) (2024-10-30T11:34:55Z) - Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks [4.1942958779358674]
本稿では,近年の視覚言語モデルを用いて,多彩でリアルな人工心エコー画像データを作成する。
合成データに含まれるリッチな文脈情報は、下流タスクの精度と解釈可能性を高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-03-28T23:26:45Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。