論文の概要: Chain-of-Anomaly Thoughts with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.20417v1
- Date: Tue, 23 Dec 2025 15:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.914325
- Title: Chain-of-Anomaly Thoughts with Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルを用いた異常思考の連鎖
- Authors: Pedro Domingos, João Pereira, Vasco Lopes, João Neves, David Semedo,
- Abstract要約: CoAT(Chain-of-Anomaly-Thoughts)は、推論プロセスに帰納的犯罪バイアスを導入する多エージェント推論フレームワークである。
提案手法は,低解像度映像に挑戦するF1スコアを11.8p,高解像度映像では3.78p,高解像度映像ではF1スコアを11.8p,異常分類を3.78p向上させる。
- 参考スコア(独自算出の注目度): 3.2170721934585735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated video surveillance with Large Vision-Language Models is limited by their inherent bias towards normality, often failing to detect crimes. While Chain-of-Thought reasoning strategies show significant potential for improving performance in language tasks, the lack of inductive anomaly biases in their reasoning further steers the models towards normal interpretations. To address this, we propose Chain-of-Anomaly-Thoughts (CoAT), a multi-agent reasoning framework that introduces inductive criminal bias in the reasoning process through a final, anomaly-focused classification layer. Our method significantly improves Anomaly Detection, boosting F1-score by 11.8 p.p. on challenging low-resolution footage and Anomaly Classification by 3.78 p.p. in high-resolution videos.
- Abstract(参考訳): Large Vision-Language Modelsによる自動ビデオ監視は、通常性に対する固有のバイアスによって制限され、しばしば犯罪を検出することができない。
Chain-of-Thought推論戦略は、言語タスクのパフォーマンスを向上させる重要な可能性を示しているが、推論における帰納的異常バイアスの欠如は、モデルをさらに通常の解釈へと導く。
これを解決するために,我々は,最終的,異常に焦点を絞った分類層を通じて,推論過程に帰納的犯罪バイアスをもたらすマルチエージェント推論フレームワークであるChain-of-Anomaly-Thoughts (CoAT)を提案する。
提案手法は,低解像度映像に挑戦するF1スコアを11.8p,高解像度映像では3.78p,高解像度映像ではF1スコアを11.8p,異常分類を3.78p向上させる。
関連論文リスト
- Learning to Tell Apart: Weakly Supervised Video Anomaly Detection via Disentangled Semantic Alignment [47.507511439028754]
本稿では,不規則な特徴と正常な特徴を粗粒度と細粒度から明確に分離する,DSANet(Disentangled Semantic Alignment Network)を提案する。
粗粒度レベルでは,学習された正規プロトタイプの指導のもと,入力映像の特徴を再構成する自己誘導正規性モデリングブランチを導入する。
詳細なレベルでは、まず、各動画をイベント中心およびバックグラウンド中心のコンポーネントに分解する、分離されたコントラスト的セマンティックアライメント機構を示す。
論文 参考訳(メタデータ) (2025-11-13T14:06:48Z) - Unlocking Vision-Language Models for Video Anomaly Detection via Fine-Grained Prompting [17.850029260662648]
本稿では,ビデオ異常検出のための構造化プロンプトフレームワークであるASK-Hintを提案する。
提案手法は, セマンティック・コヒーレントなグループにプロンプトを整理し, きめ細かい案内質問を定式化する。
UCF-CrimeとXD-Violenceの実験では、ASK-Hintは以前のベースラインよりも一貫してAUCを改善している。
論文 参考訳(メタデータ) (2025-10-02T16:06:31Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - DR.GAP: Mitigating Bias in Large Language Models using Gender-Aware Prompting with Demonstration and Reasoning [14.690803375468661]
大規模言語モデル(LLM)は、強力な自然言語処理能力を持つが、性バイアスを含む社会的バイアスを継承し、増幅し、公正さを懸念する。
本稿では,性差を緩和し,モデル性能を保ちながら,性差を緩和する手法であるDR.GAP(Demonstration and Reasoning for Gender-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-02-17T09:43:36Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。