論文の概要: IMPACT-Scribe: Interactive Temporal Action Segmentation with Boundary Scribbles and Query Planning
- arxiv url: http://arxiv.org/abs/2605.01668v1
- Date: Sun, 03 May 2026 01:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.877994
- Title: IMPACT-Scribe: Interactive Temporal Action Segmentation with Boundary Scribbles and Query Planning
- Title(参考訳): IMPACT-Scribe:境界スクリブルとクエリプランニングによる対話型時間的アクションセグメンテーション
- Authors: Qian Yin, Di Wen, Kunyu Peng, David Schneider, Zeyun Zhong, Alexander Jaus, Zdravko Marinov, Jiale Wei, Ruiping Liu, Junwei Zheng, Yufan Chen, Chen Zhang, Lei Qi, Rainer Stiefelhagen,
- Abstract要約: IMPACT-Scribeは高密度ラベリングのための修正駆動のフレームワークである。
不確実性を認識した境界管理、局所的な提案モデリング、コストを意識したクエリ計画、構造化された伝搬、修正駆動適応を組み合わせる。
実験と人間の研究により、このクローズドループの設計は、努力ごとのラベル付け品質を改善し、境界精度を高め、時間とともにより良い人間機械の相互作用を促進することが示されている。
- 参考スコア(独自算出の注目度): 75.72434806468884
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dense temporal annotation of procedural activity videos is vital for action understanding and embodied intelligence but remains labor-intensive due to reactive tools. Each correction is treated as an isolated edit, limiting reuse of information on annotator uncertainty and model reliability. We introduce IMPACT-Scribe, a correction-driven framework for dense labeling that uses each correction to improve future human-machine collaboration. IMPACT-Scribe combines uncertainty-aware boundary scribble supervision, local proposal modeling, cost-aware query planning, structured propagation, and correction-driven adaptation. Experiments and a human study show that this closed-loop design improves labeling quality per effort, enhances boundary accuracy, and fosters better human-machine interaction over time. The code will be made publicly available at https://github.com/BanzQians/IMPACT_AS.
- Abstract(参考訳): プロシージャ活動ビデオの厳密な時間的アノテーションは、行動理解とインボディードインテリジェンスには不可欠であるが、反応性ツールにより労働集約的のままである。
それぞれの修正は独立した編集として扱われ、アノテータの不確実性やモデルの信頼性に関する情報の再利用が制限される。
IMPACT-Scribeは高密度ラベリングのための修正駆動型フレームワークで、各修正を用いて将来の人間と機械のコラボレーションを改善する。
IMPACT-Scribeは、不確実性対応境界スクリブル監視、局所的提案モデリング、コスト対応クエリ計画、構造化伝搬、修正駆動適応を組み合わせる。
実験と人間の研究により、このクローズドループの設計は、作業ごとのラベル付け品質を改善し、境界精度を高め、時間とともに人間と機械の相互作用を改善することが示されている。
コードはhttps://github.com/BanzQians/IMPACT_ASで公開される。
関連論文リスト
- IMPACT-HOI: Supervisory Control for Onset-Anchored Partial HOI Event Construction [72.51952455865155]
我々は,エゴセントリックなプロシージャビデオに注釈を付けるための混合開始型フレームワークIMPACT-HOIを提案する。
IMPACT-HOIは、このタスクを部分的に指定され、オンセットされたイベント状態の漸進的な解決として捉えている。
9人の参加者によるユーザスタディでは、手動のアノテーションアクションが13.5%減少し、46.67%のイベントマッチレート、確認されたフィールド違反がゼロである。
論文 参考訳(メタデータ) (2026-05-03T01:37:40Z) - Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation [0.0]
2014年から2023年の間にヨーロッパで記録された事故の58%以上を占める。
VHF無線通信は、ノイズ、干渉、言語的変動、およびリアルタイムの転写の欠如により、いまだに困難である。
本研究は、IMOのSMCPに準拠したリアルな海上無線対話を生成するためのコンプライアンスを意識したセルフインストラクション手法を提案する。
論文 参考訳(メタデータ) (2026-02-16T09:09:27Z) - From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models [42.553888395227766]
本稿では、視覚言語アクション(VLA)モデルのための軽量でトレーニング不要なフレームワークを提案する。
VLA-SCTは自己修正制御ループとして動作し、データ駆動型アクションリファインメントと条件論理を組み合わせて終了する。
本手法は,LIBEROベンチマークのすべてのデータセットに対して一貫した改善を実現する。
論文 参考訳(メタデータ) (2026-02-02T08:44:40Z) - REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration [11.462236606266567]
大規模言語モデル(LLM)のポストトレーニングは、新しい知識の獲得やエラーの修正に高いコストで制約される。
この作業は、信頼性があり、スケーラブルで、継続的に進化するLLMを開発するための堅牢なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-10-02T10:35:39Z) - AutoLayout: Closed-Loop Layout Synthesis via Slow-Fast Collaborative Reasoning [102.71841660031065]
Autoは、クローズドループの自己検証プロセスをデュアルシステムフレームワークに統合する、完全に自動化された方法である。
Autoの有効性は8つの異なるシナリオで検証され、SOTA法よりも10.1%改善された。
論文 参考訳(メタデータ) (2025-07-06T08:35:22Z) - AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification [25.27444694706659]
AskToActは、クエリとツールの実行ソリューションの間の構造的マッピングを利用する。
クエリから重要なパラメータを体系的に取り除き,それらを根拠として保持することにより,高品質なトレーニングデータの自動構築を可能にする。
我々のフレームワークは、異なるモデルアーキテクチャにわたって堅牢なパフォーマンスを示し、追加のトレーニングなしで完全に見えないAPIに一般化することに成功しています。
論文 参考訳(メタデータ) (2025-03-03T12:55:49Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。