論文の概要: Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2511.20525v1
- Date: Tue, 25 Nov 2025 17:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.577316
- Title: Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos
- Title(参考訳): 誤解の属性:エゴセントリックビデオにおける微粒な誤認識の理解
- Authors: Yayuan Li, Aadit Jain, Filippos Bellos, Jason J. Corso,
- Abstract要約: 自己中心型ビデオにおける人間の誤りのきめ細やかな理解のためのタスクである「Mistake Attribution(MATT)」を紹介した。
MATTは入力命令テキストまたは試行ビデオに誤りを関連付ける。
既存のデータセットから属性に富んだミスサンプルを自動的に構築するデータエンジンであるMisEngineを開発した。
- 参考スコア(独自算出の注目度): 11.138754178370514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Mistake Attribution (MATT), a task for fine-grained understanding of human mistakes in egocentric video. Unlike prior mistake understanding work, which lacks fine-grained output, MATT concretely attributes mistakes to the input instruction text or the attempt video. MATT determines what part of the instruction is violated (semantic role), when the deviation becomes irreversible (the Point-of-No-Return, PNR), and where the mistake appears in the PNR frame. We develop MisEngine, a data engine that automatically constructs attribution-rich mistake samples from existing datasets and inherits their annotations. Applied to large egocentric corpora, MisEngine yields EPIC-KITCHENS-M and Ego4D-M, two datasets that are up to two orders of magnitude larger than prior mistake datasets. We then present MisFormer, a unified attention-based model for mistake attribution across semantic (what), temporal (when), and spatial (where) dimensions, trained using MisEngine supervision. Experiments on our new datasets and prior benchmarks show that MisFormer outperforms strong video-language, temporal localization, hand-object interaction, and mistake-detection baselines.
- Abstract(参考訳): 自己中心型ビデオにおける人間の誤りのきめ細やかな理解のためのタスクである「Mistake Attribution(MATT)」を紹介した。
きめ細かな出力が欠けている事前の誤り理解作業とは異なり、MATTは入力命令テキストや試行ビデオに誤りを具体的に関連付ける。
MATTは、命令のどの部分が違反しているか(セマンティック・ロール)、逸脱が不可逆になったとき(PNR、Point-of-No-Return)、誤りがPNRフレームに現れる場所を決定する。
既存のデータセットから属性に富んだミスサンプルを自動的に生成し,アノテーションを継承するデータエンジンであるMisEngineを開発した。
大規模なエゴセントリックコーパスに適用すると、MisEngineはEPIC-KITCHENS-MとEgo4D-Mという2つのデータセットを生成する。
次に、意味的(何)、時間的(いつ)、空間的(どこで)次元にまたがる誤り帰属を統一した注意ベースモデルであるMisFormerを紹介します。
私たちの新しいデータセットと以前のベンチマークの実験によると、MisFormerは強力なビデオ言語、時間的ローカライゼーション、手動オブジェクトのインタラクション、ミス検出ベースラインよりも優れています。
関連論文リスト
- Diagnosing Bottlenecks in Data Visualization Understanding by Vision-Language Models [25.564425023762045]
現在の視覚言語モデル(VLM)は、基本的なデータ可視化理解タスクに苦戦している。
VLMの失敗は、データビジュアライゼーションにおける視覚情報のエンコード方法、視覚と言語モジュール間の情報転送方法、言語モジュール内での情報処理方法の制限に起因するか?
我々は,データ可視化理解タスクのスイートであるFUGUを開発した。
論文 参考訳(メタデータ) (2025-10-02T18:29:07Z) - Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection [85.0189917888094]
本稿では,微妙で頻繁なミスによって生じる課題に対処するため,Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) フレームワークを提案する。
提案手法は,特に稀かつ曖昧な誤りの特定において,高い性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T12:00:42Z) - Is this chart lying to me? Automating the detection of misleading visualizations [74.26574031329689]
誤解を招くビジュアライゼーションは、ソーシャルメディアやウェブ上での誤報の強力な原動力だ。
Misvizは、12種類のミスリーダーで注釈付けされた2,604の現実世界の視覚化のベンチマークである。
Misviz-synthは、Matplotlibを使って生成され、実世界のデータテーブルに基づいて81,814の可視化データからなる合成データセットである。
論文 参考訳(メタデータ) (2025-08-29T14:36:45Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - Multi-level Memory-augmented Appearance-Motion Correspondence Framework
for Video Anomaly Detection [1.9511777443446219]
マルチレベルメモリ拡張外見対応フレームワークを提案する。
外観と動きの潜在的対応は、外見と動きのセマンティックスアライメントとセマンティックス代替トレーニングによって探索される。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2、CUHK Avenue、ShanghaiTechのデータセットで99.6%、93.8%、76.3%のAUCを達成した。
論文 参考訳(メタデータ) (2023-03-09T08:43:06Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。