論文の概要: QuIIL at T3 challenge: Towards Automation in Life-Saving Intervention Procedures from First-Person View
- arxiv url: http://arxiv.org/abs/2407.13216v1
- Date: Thu, 18 Jul 2024 06:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:32:17.792348
- Title: QuIIL at T3 challenge: Towards Automation in Life-Saving Intervention Procedures from First-Person View
- Title(参考訳): 特集「QIIL at T3 Challenge」の編集にあたって
- Authors: Trinh T. L. Vuong, Doanh C. Bui, Jin Tae Kwak,
- Abstract要約: そこで我々は,Trauma THOMPSON (T3) Challengeにおける省力化介入手順における,多種多様な自動化タスクに対する解決策を提案する。
動作認識と予測のために,複数の入力を1つの画像にサンプリング・縫合する前処理戦略を提案する。
トレーニングのために,アクション辞書誘導型設計を提案する。
- 参考スコア(独自算出の注目度): 2.3982875575861677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our solutions for a spectrum of automation tasks in life-saving intervention procedures within the Trauma THOMPSON (T3) Challenge, encompassing action recognition, action anticipation, and Visual Question Answering (VQA). For action recognition and anticipation, we propose a pre-processing strategy that samples and stitches multiple inputs into a single image and then incorporates momentum- and attention-based knowledge distillation to improve the performance of the two tasks. For training, we present an action dictionary-guided design, which consistently yields the most favorable results across our experiments. In the realm of VQA, we leverage object-level features and deploy co-attention networks to train both object and question features. Notably, we introduce a novel frame-question cross-attention mechanism at the network's core for enhanced performance. Our solutions achieve the $2^{nd}$ rank in action recognition and anticipation tasks and $1^{st}$ rank in the VQA task.
- Abstract(参考訳): 本稿では,Trauma THOMPSON(T3) Challenge(T3)において,行動認識,行動予測,視覚質問応答(VQA)を包含した,生命維持介入手順における多種多様な自動化タスクに対するソリューションを提案する。
動作認識と予測のために,複数の入力を1つの画像にサンプリング・縫合し,モーメントと注意に基づく知識蒸留を取り入れた前処理戦略を提案する。
トレーニングのために、我々は、実験全体で最も好意的な結果をもたらすアクション辞書誘導設計を提案する。
VQAの領域では、オブジェクトレベルの機能を活用し、オブジェクトと問合せの両方をトレーニングするためにコアテンションネットワークをデプロイします。
特に,ネットワークのコアに新しいフレーム・クエスト・クロスアテンション機構を導入し,性能向上を図る。
我々のソリューションは、行動認識および予測タスクにおける2$^{nd}$ランクと、VQAタスクにおける1$^{st}$ランクを達成します。
関連論文リスト
- Affective Behaviour Analysis via Progressive Learning [23.455163723584427]
本稿では,2つの競合トラックに対する提案手法と実験結果について述べる。
Masked-Autoを自己指導で訓練し、高品質な顔機能を実現する。
カリキュラム学習を利用して、モデルを単一の表現の認識から複合表現の認識へ移行する。
論文 参考訳(メタデータ) (2024-07-24T02:24:21Z) - Affective Behavior Analysis using Task-adaptive and AU-assisted Graph Network [18.304164382834617]
本稿では,第7回ABAW7コンペティションにおけるマルチタスク学習課題に対する解決策と実験結果について述べる。
この課題は、アクション単位の検出、表情認識、および原子価-覚醒推定の3つのタスクから構成される。
論文 参考訳(メタデータ) (2024-07-16T12:33:22Z) - Devil's Advocate: Anticipatory Reflection for LLM Agents [53.897557605550325]
我々のアプローチは、LLMエージェントに対して、与えられたタスクを管理可能なサブタスクに分解するように促す。
イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(introspective intervention)を3回実施する。
潜在的な障害の予測と、アクション実行前の代替策。
サブタスクの目的とのポストアクションアライメントと、計画実行における最大限の努力を保証するための改善によるバックトラック。
論文 参考訳(メタデータ) (2024-05-25T19:20:15Z) - Introducing "Forecast Utterance" for Conversational Data Science [2.3894779000840503]
本稿では,Forecast Utteranceという新しいコンセプトを紹介する。
次に,これらの発話からユーザの予測目標を自動的かつ正確に解釈することに集中する。
具体的には、各スロットが目標予測タスクの特定の側面に対応するスロット充足問題として、タスクをフレーム化する。
1) エンティティ抽出 (EE) と 2) 質問応答 (QA) の2つの手法を用いる。
論文 参考訳(メタデータ) (2023-09-07T17:41:41Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Winning the ICCV'2021 VALUE Challenge: Task-aware Ensemble and Transfer
Learning with Visual Concepts [20.412239939287886]
VALUE(Video-And-Language Understanding Evaluation)ベンチマークが新たに導入され,マルチモーダル表現学習アルゴリズムの評価と解析が行われている。
VALUEの課題の主な目的は、異なる特徴を持つ様々なタスクに同時に適用可能なタスクに依存しないモデルをトレーニングすることである。
本稿では,1)単一モデル最適化,2)視覚概念を用いた伝達学習,3)タスク認識アンサンブルについて述べる。
論文 参考訳(メタデータ) (2021-10-13T03:50:07Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video [27.391434284586985]
ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
論文 参考訳(メタデータ) (2020-05-04T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。