論文の概要: LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation
- arxiv url: http://arxiv.org/abs/2503.13794v2
- Date: Tue, 20 May 2025 14:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.937896
- Title: LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation
- Title(参考訳): LED: LLM強化オープンボキャブラリオブジェクト検出
- Authors: Yang Zhou, Shiyu Zhao, Yuxiao Chen, Zhenting Wang, Can Jin, Dimitris N. Metaxas,
- Abstract要約: 大規模視覚言語データに基づいてトレーニングされた大規模な基礎モデルは、OVD(Open-Vocabulary Object Detection)を加速させる。
本稿では,Large Language Models (LLMs) のデコーダ層を利用して,視覚的グラウンド化を強化する手法を提案する。
中間的なLCM層は、既にリッチな空間意味論を符号化しており、初期層のみを適用すると、ほとんどの利得が得られる。
- 参考スコア(独自算出の注目度): 39.61429359574351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large foundation models trained on large-scale vision-language data can boost Open-Vocabulary Object Detection (OVD) via synthetic training data, yet the hand-crafted pipelines often introduce bias and overfit to specific prompts. We sidestep this issue by directly fusing hidden states from Large Language Models (LLMs) into detectors-an avenue surprisingly under-explored. This paper presents a systematic method to enhance visual grounding by utilizing decoder layers of the LLM of an MLLM. We introduce a zero-initialized cross-attention adapter to enable efficient knowledge fusion from LLMs to object detectors, a new approach called LED (LLM Enhanced Open-Vocabulary Object Detection). We find that intermediate LLM layers already encode rich spatial semantics; adapting only the early layers yields most of the gain. With Swin-T as the vision encoder, Qwen2-0.5B + LED lifts GroundingDINO by 3.82 % on OmniLabel at just 8.7 % extra GFLOPs, and a larger vision backbone pushes the improvement to 6.22 %. Extensive ablations on adapter variants, LLM scales and fusion depths further corroborate our design.
- Abstract(参考訳): 大規模な視覚言語データに基づいてトレーニングされた大規模な基礎モデルは、人工的なトレーニングデータを通じてOpen-Vocabulary Object Detection (OVD)を促進することができるが、手作りのパイプラインは、しばしば特定のプロンプトにバイアスと過度な適合をもたらす。
我々はこの問題を、Large Language Models(LLM)から隠れた状態を直接検出器に融合することで解決する。
本稿では,MLLMのLLMのデコーダ層を利用して,視覚的接地性を高める手法を提案する。
LLMからオブジェクト検出器への効率的な知識融合を実現するため、ゼロ初期化クロスアテンションアダプタを導入し、LED(LLM Enhanced Open-Vocabulary Object Detection)と呼ばれる新しいアプローチを提案する。
中間的なLCM層は、既にリッチな空間意味論を符号化しており、初期層のみを適用すると、ほとんどの利得が得られる。
Swin-Tをビジョンエンコーダとし、Qwen2-0.5B + LEDは、OmniLabel上でわずか8.7%のGFLOPでGroundingDINOを3.82%上げる。
アダプタのバリエーション, LLMスケール, 核融合深度に関する大幅な改善は, 我々の設計をさらに裏付けるものだ。
関連論文リスト
- Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。
提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models [34.3296459569307]
大規模言語モデル(LLM)は目覚ましい能力を示しているが、その出力は信頼できないことや、事実的に間違っていることがある。
本稿では,LLMの真性を高める新しいデコードフレームワークであるSelf Logits Evolution Decoding(SLED)を紹介する。
既存の復号法と比較して,SLEDは実写精度を最大20%向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T17:33:34Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。
E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T22:09:42Z) - GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。
Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。
さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文 参考訳(メタデータ) (2024-07-17T09:40:15Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。