論文の概要: Spec-o3: A Tool-Augmented Vision-Language Agent for Rare Celestial Object Candidate Vetting via Automated Spectral Inspection
- arxiv url: http://arxiv.org/abs/2601.06498v1
- Date: Sat, 10 Jan 2026 09:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.846859
- Title: Spec-o3: A Tool-Augmented Vision-Language Agent for Rare Celestial Object Candidate Vetting via Automated Spectral Inspection
- Title(参考訳): Spec-o3: 自動分光検査による希少なセレスタル物体候補ベッティングのためのツール強化ビジョンランゲージエージェント
- Authors: Minghui Jia, Qichao Zhang, Ali Luo, Linjing Li, Shuo Ye, Hailing Lu, Wen Hou, Dongbin Zhao,
- Abstract要約: ツール強化された視覚言語エージェントであるSpec-o3は、インターリーブされたマルチモーダル・チェーン・オブ・プリート推論により、天文学者によるスペクトル検査を行う。
Spec-o3は2段階の訓練後レシピで訓練されている。
その推論トレースは一貫性があり、物理的に一貫性があり、透明で信頼できる意思決定をサポートする。
- 参考スコア(独自算出の注目度): 22.796904289768246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the limited generalization and interpretability of deep learning classifiers, The final vetting of rare celestial object candidates still relies on expert visual inspection--a manually intensive process. In this process, astronomers leverage specialized tools to analyze spectra and construct reliable catalogs. However, this practice has become the primary bottleneck, as it is fundamentally incapable of scaling with the data deluge from modern spectroscopic surveys. To bridge this gap, we propose Spec-o3, a tool-augmented vision-language agent that performs astronomer-aligned spectral inspection via interleaved multimodal chain-of-thought reasoning. Spec-o3 is trained with a two-stage post-training recipe: cold-start supervised fine-tuning on expert inspection trajectories followed by outcome-based reinforcement learning on rare-type verification tasks. Evaluated on five rare-object identification tasks from LAMOST, Spec-o3 establishes a new State-of-the-Art, boosting the macro-F1 score from 28.3 to 76.5 with a 7B parameter base model and outperforming both proprietary VLMs and specialized deep models. Crucially, the agent demonstrates strong generalization to unseen inspection tasks across survey shifts (from LAMOST to SDSS/DESI). Expert evaluations confirm that its reasoning traces are coherent and physically consistent, supporting transparent and trustworthy decision-making. Code, data, and models are available at \href{https://github.com/Maxwell-Jia/spec-o3}{Project HomePage}.
- Abstract(参考訳): 深層学習分類器の一般化と解釈可能性の制限により、希少な天体候補の最終的な検証は、まだ専門家による視覚検査(手作業による集中的なプロセス)に依存している。
この過程において、天文学者は専門的なツールを利用してスペクトルを分析し、信頼できるカタログを構築する。
しかし、このプラクティスが主要なボトルネックとなっているのは、現在の分光調査からデータデルージをスケールすることは、基本的に不可能であるからである。
このギャップを埋めるために、我々は、インターリーブされたマルチモーダル・チェーン・オブ・シント推論により、天文学者のスペクトル検査を行うツール強化型視覚言語エージェントSpec-o3を提案する。
Spec-o3は2段階の訓練後レシピで訓練されている。
LAMOSTから5つの希少物体識別タスクを評価したSpec-o3は、新しいState-of-the-Artを確立し、マクロF1スコアを7Bパラメータベースモデルで28.3から76.5に引き上げ、プロプライエタリなVLMと特殊なディープモデルの両方を上回った。
重要なことに、このエージェントは、調査シフト(LAMOSTからSDSS/DESIまで)で見つからない検査タスクに対して、強力な一般化を示す。
専門家による評価では、その推論の痕跡は一貫性があり、物理的に一貫性があり、透明で信頼できる意思決定をサポートする。
コード、データ、モデルは、 \href{https://github.com/Maxwell-Jia/spec-o3}{Project HomePage}で入手できる。
関連論文リスト
- AgentIAD: Tool-Augmented Single-Agent for Industrial Anomaly Detection [9.208080780536504]
AgentIADは、多段階の視覚検査を可能にするツール駆動のフレームワークである。
AgentIADは、MMADの新しい最先端の97.62%の分類精度を達成する。
論文 参考訳(メタデータ) (2025-12-15T18:57:04Z) - Advancing Machine-Generated Text Detection from an Easy to Hard Supervision Perspective [108.30620357325559]
既存の機械生成テキスト(MGT)検出手法は、ラベルを「黄金標準」として暗黙的に仮定する
このような不正確な条件下での信頼性の高い監視を実現するための,容易かつハードな強化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T15:59:31Z) - MMOT: The First Challenging Benchmark for Drone-based Multispectral Multi-Object Tracking [30.3437683353074]
MMOTは、ドローンベースのマルチスペクトルマルチオブジェクトトラッキングのための最初のベンチマークである。
125の動画シーケンスと8つのカテゴリにわたる488.8Kアノテーションがある。
スペクトル特徴の抽出と指向アノテーションの活用のために,マルチスペクトルおよび指向性を考慮したMOT方式を提案する。
論文 参考訳(メタデータ) (2025-10-14T14:25:17Z) - LUMIR: an LLM-Driven Unified Agent Framework for Multi-task Infrared Spectroscopy Reasoning [12.138903544219724]
本研究では,低データ条件下での正確な赤外分光分析を実現するためのフレームワークであるLUMIRを紹介する。
LUMIRは構造化文学知識ベース、自動前処理、特徴抽出、予測モデリングを統合パイプラインに統合する。
利用可能なミルク近赤外データセット、中国の薬草、貯蔵期間の異なるCitri Reticulatae Pericarpium(CRP)、産業排水CODデータセット、Tecator、Cornなど、さまざまなデータセットで検証された。
論文 参考訳(メタデータ) (2025-07-29T03:20:51Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。