論文の概要: From Imitation to Intuition: Intrinsic Reasoning for Open-Instance Video Classification
- arxiv url: http://arxiv.org/abs/2603.10300v1
- Date: Wed, 11 Mar 2026 00:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.735789
- Title: From Imitation to Intuition: Intrinsic Reasoning for Open-Instance Video Classification
- Title(参考訳): 模倣から直観へ:オープン・インスタンス・ビデオ分類における本質的推論
- Authors: Ke Zhang, Xiangchen Zhao, Yunjie Tian, Jiayu Zheng, Vishal M. Patel, Di Fu,
- Abstract要約: 現実世界のアプリケーションは、クラス内のバリエーションが広く複雑であるようなオープン・インスタンスの課題をしばしば提示する。
従来のビデオエンコーダモデルは優れた一般化を提供するが、そのようなタスクに対する推論能力(直観)を完全には活用していない。
本稿では,このギャップを,模倣から直観へのオープン・インスタンス・ビデオの分類を進化させる,本質的な推論フレームワークで埋める。
- 参考スコア(独自算出の注目度): 49.23017723509778
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conventional video classification models, acting as effective imitators, excel in scenarios with homogeneous data distributions. However, real-world applications often present an open-instance challenge, where intra-class variations are vast and complex, beyond existing benchmarks. While traditional video encoder models struggle to fit these diverse distributions, vision-language models (VLMs) offer superior generalization but have not fully leveraged their reasoning capabilities (intuition) for such tasks. In this paper, we bridge this gap with an intrinsic reasoning framework that evolves open-instance video classification from imitation to intuition. Our approach, namely DeepIntuit, begins with a cold-start supervised alignment to initialize reasoning capability, followed by refinement using Group Relative Policy Optimization (GRPO) to enhance reasoning coherence through reinforcement learning. Crucially, to translate this reasoning into accurate classification, DeepIntuit then introduces an intuitive calibration stage. In this stage, a classifier is trained on this intrinsic reasoning traces generated by the refined VLM, ensuring stable knowledge transfer without distribution mismatch. Extensive experiments demonstrate that for open-instance video classification, DeepIntuit benefits significantly from transcending simple feature imitation and evolving toward intrinsic reasoning. Our project is available at https://bwgzk-keke.github.io/DeepIntuit/.
- Abstract(参考訳): 効果的な模倣者として機能する従来のビデオ分類モデルは、均質なデータ分布を持つシナリオで優れている。
しかし、現実世界のアプリケーションは、クラス内のバリエーションが既存のベンチマークを超えて大きく複雑であるようなオープン・インスタンスの課題をしばしば提示する。
従来のビデオエンコーダモデルはこれらの多様な分布に適合するのに苦労するが、視覚言語モデル(VLM)はより優れた一般化を提供するが、そのようなタスクに対する推論能力(直観)を完全に活用していない。
本稿では,このギャップを,模倣から直観へのオープン・インスタンス・ビデオの分類を進化させる,本質的な推論フレームワークで埋める。
我々のアプローチであるDeepIntuitは、推論能力を初期化するための冷間開始調整アライメントから始まり、続いてグループ相対ポリシー最適化(GRPO)を用いて強化学習による推論コヒーレンスを向上させる。
重要なことに、この推論を正確な分類に変換するために、DeepIntuitは直感的な校正段階を導入する。
この段階では、洗練されたVLMによって生成された本質的な推論トレースに基づいて分類器を訓練し、分布ミスマッチなしに安定した知識伝達を確保する。
広範にわたる実験により、DeepIntuitは、オープン・インスタンス・ビデオの分類において、単純な機能の模倣を超越し、本質的な推論へと進化させることで大きな恩恵を受けることが示された。
私たちのプロジェクトはhttps://bwgzk-keke.github.io/DeepIntuit/で利用可能です。
関連論文リスト
- Optimizing In-Context Demonstrations for LLM-based Automated Grading [31.353360036776976]
GUIDE(Grading Using Iteratively Designed Exemplars)は、経験的選択と改善を境界中心の最適化問題として再設計するフレームワークである。
物理, 化学, 教育的内容知識の実験において, GUIDE は標準的検索基準を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:52:38Z) - Semantic-Guided Unsupervised Video Summarization [5.891053607698674]
本稿では,セマンティックガイドによる教師なしビデオ要約手法を提案する。
具体的には,新しいフレームレベルのセマンティックアライメント・アテンション・アテンション・セレクタを設計する。
さらに、段階的なトレーニング戦略を採用して、モデルコンポーネントを段階的に更新し、GANトレーニングの不安定性を効果的に軽減する。
論文 参考訳(メタデータ) (2026-01-21T08:53:29Z) - Learning to Tell Apart: Weakly Supervised Video Anomaly Detection via Disentangled Semantic Alignment [47.507511439028754]
本稿では,不規則な特徴と正常な特徴を粗粒度と細粒度から明確に分離する,DSANet(Disentangled Semantic Alignment Network)を提案する。
粗粒度レベルでは,学習された正規プロトタイプの指導のもと,入力映像の特徴を再構成する自己誘導正規性モデリングブランチを導入する。
詳細なレベルでは、まず、各動画をイベント中心およびバックグラウンド中心のコンポーネントに分解する、分離されたコントラスト的セマンティックアライメント機構を示す。
論文 参考訳(メタデータ) (2025-11-13T14:06:48Z) - SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z) - SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。
ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文 参考訳(メタデータ) (2025-04-08T06:00:28Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition [3.271109623410664]
ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。
我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
論文 参考訳(メタデータ) (2025-03-10T12:43:51Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning [0.6792605600335813]
Zero-Shot Learning (ZSL)は、トレーニング中に見えないカテゴリを特定するという課題を示す。
ゼロショット学習のためのセマンティック強化表現(SEER-ZSL)を提案する。
まず,確率的エンコーダを用いて意味のある意味情報を抽出し,意味的一貫性とロバスト性を高めることを目的とする。
第2に、学習したデータ分布を逆向きに訓練した発電機で利用することにより、視覚空間を蒸留し、第3に、未確認なカテゴリを真のデータ多様体にマッピングできるようにする。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。