論文の概要: Efficient Odd-One-Out Anomaly Detection
- arxiv url: http://arxiv.org/abs/2509.04326v1
- Date: Thu, 04 Sep 2025 15:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.208148
- Title: Efficient Odd-One-Out Anomaly Detection
- Title(参考訳): 効率的なOdd-One-Out異常検出
- Authors: Silvio Chito, Paolo Rabino, Tatiana Tommasi,
- Abstract要約: Odd-one-out 異常検出タスクは、多目的シーン内の奇妙なインスタンスを識別する。
この問題は、現代のディープラーニングモデルにいくつかの課題をもたらす。
本稿では,パラメータ数を3分の1削減し,学習時間を3倍に短縮するDINOモデルを提案する。
- 参考スコア(独自算出の注目度): 7.456608146535316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently introduced odd-one-out anomaly detection task involves identifying the odd-looking instances within a multi-object scene. This problem presents several challenges for modern deep learning models, demanding spatial reasoning across multiple views and relational reasoning to understand context and generalize across varying object categories and layouts. We argue that these challenges must be addressed with efficiency in mind. To this end, we propose a DINO-based model that reduces the number of parameters by one third and shortens training time by a factor of three compared to the current state-of-the-art, while maintaining competitive performance. Our experimental evaluation also introduces a Multimodal Large Language Model baseline, providing insights into its current limitations in structured visual reasoning tasks. The project page can be found at https://silviochito.github.io/EfficientOddOneOut/
- Abstract(参考訳): 最近導入された奇数点異常検出タスクでは、多目的シーン内の奇数点のインスタンスを識別する。
この問題は、複数のビューにまたがる空間的推論や、コンテキストを理解し、さまざまなオブジェクトカテゴリやレイアウトにまたがる一般化を求める、現代のディープラーニングモデルにいくつかの課題を提起する。
これらの課題は効率を念頭に置いて対処する必要があると我々は主張する。
そこで本研究では,DINOをベースとしたパラメータ数を3分の1削減し,現在の最先端技術と比較してトレーニング時間を3倍短縮し,競争性能を維持したモデルを提案する。
実験的な評価では,マルチモーダルな大規模言語モデルのベースラインも導入し,構造化された視覚的推論タスクにおける現在の制限について考察する。
プロジェクトのページはhttps://silviochito.github.io/EfficientOddOneOut/にある。
関連論文リスト
- Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse [9.542503507653494]
CoT(Chain-of- Thought)プロンプトは,大規模言語やマルチモーダルモデルの性能向上に広く利用されている。
本稿では,人間のパフォーマンスを損なう心理学文献からの6つの代表的課題に焦点を当てた。
これら3つのタスクにおいて、最先端モデルはCoTによる大幅な性能低下を示す。
モデルと人間が完全に平行な認知過程を示すわけではないが、人間の思考がネガティブな結果をもたらす場合を考えると、それがモデルに悪影響を及ぼすような設定を特定するのに役立つ。
論文 参考訳(メタデータ) (2024-10-27T18:30:41Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Deep Non-Monotonic Reasoning for Visual Abstract Reasoning Tasks [3.486683381782259]
本稿では,視覚的抽象的推論課題を解決するための非単調な計算手法を提案する。
このアプローチを使ってディープラーニングモデルを実装し、RavenのProgressive MatricesテストにインスパイアされたデータセットであるRAVENデータセットでそれをテストしました。
論文 参考訳(メタデータ) (2023-02-08T16:35:05Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Assisting Scene Graph Generation with Self-Supervision [21.89909688056478]
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-08-08T16:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。