論文の概要: ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations
- arxiv url: http://arxiv.org/abs/2506.08968v1
- Date: Tue, 10 Jun 2025 16:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.874798
- Title: ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations
- Title(参考訳): ADAM: 文脈認識アノテーションのためのLLMを用いた自律的発見とアノテーションモデル
- Authors: Amirreza Rouhi, Solmaz Arezoomandan, Knut Peterson, Joseph T. Woods, David K. Han,
- Abstract要約: 私たちは、オープンワールドオブジェクトラベリングのためのトレーニングフリーで自己修正フレームワークであるADAM: Autonomous Discovery and Modelを紹介します。
ADAMは、シーン内の既知のエンティティからコンテキスト情報に基づいて、未知のオブジェクトの候補ラベルを生成する。
ADAM は Embedding-Label Repository から視覚的に類似したインスタンスを取得し、ロバストなラベルを割り当てるために周波数ベースの投票とクロスモーダルな再ランクを適用します。
- 参考スコア(独自算出の注目度): 7.0524023948087375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection models typically rely on predefined categories, limiting their ability to identify novel objects in open-world scenarios. To overcome this constraint, we introduce ADAM: Autonomous Discovery and Annotation Model, a training-free, self-refining framework for open-world object labeling. ADAM leverages large language models (LLMs) to generate candidate labels for unknown objects based on contextual information from known entities within a scene. These labels are paired with visual embeddings from CLIP to construct an Embedding-Label Repository (ELR) that enables inference without category supervision. For a newly encountered unknown object, ADAM retrieves visually similar instances from the ELR and applies frequency-based voting and cross-modal re-ranking to assign a robust label. To further enhance consistency, we introduce a self-refinement loop that re-evaluates repository labels using visual cohesion analysis and k-nearest-neighbor-based majority re-labeling. Experimental results on the COCO and PASCAL datasets demonstrate that ADAM effectively annotates novel categories using only visual and contextual signals, without requiring any fine-tuning or retraining.
- Abstract(参考訳): オブジェクト検出モデルは一般的に、定義済みのカテゴリに依存し、オープンワールドシナリオにおける新しいオブジェクトを識別する能力を制限する。
この制約を克服するために、オープンワールドオブジェクトラベリングのためのトレーニングフリーで自己修正可能なフレームワークであるADAM: Autonomous Discovery and Annotation Modelを紹介します。
ADAMは大きな言語モデル(LLM)を活用し、シーン内の既知のエンティティからのコンテキスト情報に基づいて未知のオブジェクトの候補ラベルを生成する。
これらのラベルはCLIPからの視覚的な埋め込みと組み合わせて、カテゴリの監督なしに推論を可能にするEmbeding-Label Repository(ELR)を構築する。
新たに発見された未知のオブジェクトに対して、ADAMはERRから視覚的に類似したインスタンスを検索し、ロバストなラベルを割り当てるために周波数ベースの投票とクロスモーダルな再ランクを適用する。
さらに一貫性を高めるために,視覚的凝集分析とk-nearest-neighbor-based majority re-labelingを用いてリポジトリラベルを再評価するセルフリファインメントループを導入する。
COCOおよびPASCALデータセットの実験結果は、ADAMが微調整や再訓練を必要とせず、視覚的および文脈的な信号のみを使用して、新しいカテゴリを効果的に注釈することを示した。
関連論文リスト
- Leveraging Unknown Objects to Construct Labeled-Unlabeled Meta-Relationships for Zero-Shot Object Navigation [14.336117107170153]
ゼロショットオブジェクトナビゲーション(ZSON)は、エージェントがトレーニングセットに存在しない未確認オブジェクトにナビゲートする状況に対処する。
ラベルのない物体を訓練手順に導入し、エージェントの知識基盤を識別可能だが、これまで見過ごされていた情報で強化する。
論文 参考訳(メタデータ) (2024-05-24T05:26:18Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - Open-World Weakly-Supervised Object Localization [26.531408294517416]
我々は、OWSOL(Open-World Weakly-Supervised Object Localization)と呼ばれる、新しい弱い教師付きオブジェクトローカライゼーションタスクを導入する。
本稿では、ラベル付きデータとラベルなしデータの両方を用いて、オブジェクトローカライゼーションのための完全なG-CAMを生成するコントラスト表現協調学習のパラダイムを提案する。
我々は、画像Net-1KとiNatLoc500という2つの広く使われているデータセットを再編成し、OWSOLの評価ベンチマークとしてOpenImages150を提案する。
論文 参考訳(メタデータ) (2023-04-17T13:31:59Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Towards Few-shot Entity Recognition in Document Images: A Label-aware
Sequence-to-Sequence Framework [28.898240725099782]
アノテーション付き文書画像のほんの数ショットしか必要としないエンティティ認識モデルを構築します。
ラベルを意識したSeq2seqフレームワーク LASER を開発した。
2つのベンチマークデータセットの実験は、数ショット設定下でのLASERの優位性を示している。
論文 参考訳(メタデータ) (2022-03-30T18:30:42Z) - Learning to Detect Instance-level Salient Objects Using Complementary
Image Labels [55.049347205603304]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。