論文の概要: Fake-HR1: Rethinking Reasoning of Vision Language Model for Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2602.10042v2
- Date: Wed, 11 Feb 2026 07:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.255125
- Title: Fake-HR1: Rethinking Reasoning of Vision Language Model for Synthetic Image Detection
- Title(参考訳): Fake-HR1:合成画像検出のための視覚言語モデルの推論再考
- Authors: Changjiang Jiang, Xinkuan Sha, Fengchang Yu, Jingjing Liu, Jian Liu, Mingqi Fang, Chenfeng Zhang, Wei Lu,
- Abstract要約: CoT推論(Chain-of-Thought, Chain-of-Thought)は、モデルが合成画像を検出する能力を向上する。
大規模ハイブリッド推論モデルであるFake-HR1を提案する。
実験結果から,Fake-HR1は様々な種類の問合せに対して適応的に推論を行い,推論能力と生成検出性能の両方において既存のLLMを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 10.755345691959812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated that incorporating Chain-of-Thought (CoT) reasoning into the detection process can enhance a model's ability to detect synthetic images. However, excessively lengthy reasoning incurs substantial resource overhead, including token consumption and latency, which is particularly redundant when handling obviously generated forgeries. To address this issue, we propose Fake-HR1, a large-scale hybrid-reasoning model that, to the best of our knowledge, is the first to adaptively determine whether reasoning is necessary based on the characteristics of the generative detection task. To achieve this, we design a two-stage training framework: we first perform Hybrid Fine-Tuning (HFT) for cold-start initialization, followed by online reinforcement learning with Hybrid-Reasoning Grouped Policy Optimization (HGRPO) to implicitly learn when to select an appropriate reasoning mode. Experimental results show that Fake-HR1 adaptively performs reasoning across different types of queries, surpassing existing LLMs in both reasoning ability and generative detection performance, while significantly improving response efficiency.
- Abstract(参考訳): 近年の研究では、CoT(Chain-of-Thought)推論を検出プロセスに組み込むことで、モデルが合成画像を検出する能力を高めることが示されている。
しかし、過度に長い推論は、トークンの消費やレイテンシなど、かなりのリソースオーバーヘッドを引き起こします。
この問題に対処するため,我々は,大規模ハイブリッド推論モデルであるFake-HR1を提案する。
そこで我々は,まず冷間開始初期化のためのHFT(Hybrid Fine-Tuning)を行い,次にHGRPO(Hybrid-Reasoning Grouped Policy Optimization)を用いたオンライン強化学習を行い,適切な推論モードを選択するタイミングを暗黙的に学習する。
実験結果から,Fake-HR1は様々な種類の問合せに対して適応的に推論を行い,推理能力と生成検出性能の両方において既存のLLMを上回り,応答効率を著しく向上することがわかった。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation [37.47571308389908]
Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) の精度を効果的に向上させる
それまでの手法では、明確な思考なしに証拠を直接抽出し、重要な手がかりをフィルタリングし、一般化に苦慮する危険性がある。
本稿では,(1)検索内容中の潜在的手がかりを明示的に推論し,(2)質問に答えるのに有用なキー手がかりを省略しないよう意識的に抽出することによる合理的証拠の抽出を学習するEvi Omniを提案する。
論文 参考訳(メタデータ) (2025-07-21T13:03:55Z) - Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Think Only When You Need with Large Hybrid-Reasoning Models [121.55211364358662]
LHRM(Large Hybrid-Reasoning Model)
ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。
実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
論文 参考訳(メタデータ) (2025-05-20T17:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。