論文の概要: Smart Eyes for Silent Threats: VLMs and In-Context Learning for THz Imaging
- arxiv url: http://arxiv.org/abs/2507.15576v1
- Date: Mon, 21 Jul 2025 12:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.397243
- Title: Smart Eyes for Silent Threats: VLMs and In-Context Learning for THz Imaging
- Title(参考訳): サイレント脅威のためのスマートアイ:VLMとTHzイメージングのためのインコンテキストラーニング
- Authors: Nicolas Poggi, Shashank Agnihotri, Margret Keuper,
- Abstract要約: In-Context Learning with Vision-Language Models (VLMs) を,微調整を必要としない柔軟な解釈可能な代替手段として紹介する。
THz領域に2つのオープンウェイトVLMを適用し、ゼロショット設定とワンショット設定で評価する。
以上の結果から,ICLは低データ体制における分類と解釈可能性を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 13.303234049048426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Terahertz (THz) imaging enables non-invasive analysis for applications such as security screening and material classification, but effective image classification remains challenging due to limited annotations, low resolution, and visual ambiguity. We introduce In-Context Learning (ICL) with Vision-Language Models (VLMs) as a flexible, interpretable alternative that requires no fine-tuning. Using a modality-aligned prompting framework, we adapt two open-weight VLMs to the THz domain and evaluate them under zero-shot and one-shot settings. Our results show that ICL improves classification and interpretability in low-data regimes. This is the first application of ICL-enhanced VLMs to THz imaging, offering a promising direction for resource-constrained scientific domains. Code: \href{https://github.com/Nicolas-Poggi/Project_THz_Classification/tree/main}{GitHub repository}.
- Abstract(参考訳): Terahertz(THz)イメージングは、セキュリティスクリーニングや材料分類などのアプリケーションに対して非侵襲的な解析を可能にするが、アノテーション、低解像度、視覚的あいまいさのため、効果的な画像分類は依然として困難である。
In-Context Learning (ICL) with Vision-Language Models (VLM) as a flexible, interpretable alternative with no fine-tuning。
THz領域に2つのオープンウェイトVLMを適応させ、ゼロショットとワンショット設定で評価する。
以上の結果から,ICLは低データ体制における分類と解釈可能性を向上させることが示唆された。
ICL強化VLMの THz イメージングへの最初の応用であり、資源制約のある科学領域に有望な方向を提供する。
コード: \href{https://github.com/Nicolas-Poggi/Project_THz_Classification/tree/main}{GitHub repository}。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Learning Dynamic Alignment via Meta-filter for Few-shot Learning [94.41887992982986]
少ないショット学習は、学習知識を極めて限定的な(サポート)例で適応させることで、新しいクラスを認識することを目的としている。
異なるローカルサポート情報に従って、クエリ領域とチャネルの両方を効果的に強調表示できる動的アライメントを学びます。
結果として得られたフレームワークは、主要な数発の視覚認識ベンチマークに最新技術を確立します。
論文 参考訳(メタデータ) (2021-03-25T03:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。