論文の概要: Textual interpretation of transient image classifications from large language models
- arxiv url: http://arxiv.org/abs/2510.06931v1
- Date: Wed, 08 Oct 2025 12:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.476942
- Title: Textual interpretation of transient image classifications from large language models
- Title(参考訳): 大規模言語モデルからの過渡的画像分類のテキスト解釈
- Authors: Fiorenzo Stoppa, Turan Bulmus, Steven Bloemen, Stephen J. Smartt, Paul J. Groot, Paul Vreeswijk, Ken W. Smith,
- Abstract要約: 大規模言語モデル(LLM)は、3つの光過渡的なサーベイデータセット上での畳み込みニューラルネットワークのパフォーマンスレベルにアプローチすることができる。
GoogleのLLMであるGeminiは、さまざまな解像度とピクセルスケールにまたがるデータセットの平均精度を93%達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern astronomical surveys deliver immense volumes of transient detections, yet distinguishing real astrophysical signals (for example, explosive events) from bogus imaging artefacts remains a challenge. Convolutional neural networks are effectively used for real versus bogus classification; however, their reliance on opaque latent representations hinders interpretability. Here we show that large language models (LLMs) can approach the performance level of a convolutional neural network on three optical transient survey datasets (Pan-STARRS, MeerLICHT and ATLAS) while simultaneously producing direct, human-readable descriptions for every candidate. Using only 15 examples and concise instructions, Google's LLM, Gemini, achieves a 93% average accuracy across datasets that span a range of resolution and pixel scales. We also show that a second LLM can assess the coherence of the output of the first model, enabling iterative refinement by identifying problematic cases. This framework allows users to define the desired classification behaviour through natural language and examples, bypassing traditional training pipelines. Furthermore, by generating textual descriptions of observed features, LLMs enable users to query classifications as if navigating an annotated catalogue, rather than deciphering abstract latent spaces. As next-generation telescopes and surveys further increase the amount of data available, LLM-based classification could help bridge the gap between automated detection and transparent, human-level understanding.
- Abstract(参考訳): 現代の天文学的な調査では、過渡的な検出が大量に行われているが、実際の天体物理学的な信号(爆発的な出来事など)を、ボグ像の人工物と区別することは依然として困難である。
畳み込みニューラルネットワークは現実とボーグの分類に効果的に使用されるが、不透明な潜在表現への依存は解釈可能性を妨げる。
ここでは,大規模言語モデル (LLM) が3つの光過渡的サーベイデータセット(Pan-STARRS, MeerLICHT, ATLAS)上で,畳み込みニューラルネットワークの性能レベルに近づきつつ,各候補に対して直接的かつ可読な記述を同時に生成できることを示す。
わずか15の例と簡潔な命令を使用して、GoogleのLLMであるGeminiは、さまざまな解像度とピクセルスケールにまたがるデータセットの平均精度を93%達成している。
また,第2のLCMは第1のモデルの出力のコヒーレンスを評価でき,問題のあるケースを同定して反復的改善を可能にすることを示す。
このフレームワークでは、ユーザは、従来のトレーニングパイプラインをバイパスして、自然言語やサンプルを通じて、望ましい分類動作を定義することができる。
さらに、観察された特徴のテキスト記述を生成することで、LLMは抽象潜在空間を解読するのではなく、注釈付きカタログをナビゲートするかのように分類をクエリすることができる。
次世代の望遠鏡やサーベイが利用できるデータの量を増やすにつれ、LLMベースの分類は、自動検出と透明で人間レベルの理解のギャップを埋めるのに役立つだろう。
関連論文リスト
- ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation [52.58791563814837]
大規模視覚言語データに基づいてトレーニングされた大規模な基礎モデルは、OVD(Open-Vocabulary Object Detection)を加速させる。
本稿では,Large Language Models (LLMs) のデコーダ層を利用して,視覚的グラウンド化を強化する手法を提案する。
中間的なLCM層は、既にリッチな空間意味論を符号化しており、初期層のみを適用すると、ほとんどの利得が得られる。
論文 参考訳(メタデータ) (2025-03-18T00:50:40Z) - SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection [16.89965584177711]
近年のオープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(OV-HOI)検出手法は,補助的な記述を生成するために大規模言語モデル(LLM)に依存し,CLIPから抽出した知識を活用して未知の相互作用カテゴリを検出する。
1) テキストアライメントのための最終層視覚的特徴に依存し、中間層から重要なオブジェクトレベルの詳細を無視すること、(2) CLIPの特定のクラスに対する固有のバイアスに起因する意味的類似性混同、そしてラベルのみに基づくLCM生成記述は、クラス間の類似性を適切に捉えることができないこと、である。
論文 参考訳(メタデータ) (2025-03-01T09:26:05Z) - Language Driven Occupancy Prediction [13.35971455725581]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げ、画像からテキストラベルをLiDARポイントクラウドに、最終的にはボクセルに転送する、実現可能な方法を提供します。
教師付き占有モデルの当初の予測ヘッドを二進的占有状態のための幾何学ヘッドと言語特徴のための言語ヘッドに置き換えることで、LOccは生成された言語基底真実を効果的に利用して、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - A generic self-supervised learning (SSL) framework for representation
learning from spectra-spatial feature of unlabeled remote sensing imagery [4.397725469518669]
自己教師付き学習(SSL)では、モデルが桁違いに遅延のないデータから表現を学習することができる。
この研究は、未ラベルデータのスペクトル空間情報の両方から表現を学習できる新しいSSLフレームワークを設計した。
論文 参考訳(メタデータ) (2023-06-27T23:50:43Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。