Fugu-MT 論文翻訳(概要): Open-Ended Multi-Modal Relational Reason for Video Question Answering

論文の概要: Open-Ended Multi-Modal Relational Reason for Video Question Answering

arxiv url: http://arxiv.org/abs/2012.00822v2
Date: Mon, 7 Dec 2020 03:31:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-30 19:37:11.191313
Title: Open-Ended Multi-Modal Relational Reason for Video Question Answering
Title（参考訳）: ビデオ質問応答のためのオープンエンドマルチモーダルリレーショナル理由
Authors: Haozheng Luo, Ruiyang Qin
Abstract要約: 本研究の目的は,ロボットエージェントと視覚障害者のインタラクションに関する研究である。 VQA技術を適用したロボットエージェントは、環境を分析し、処理し、発音する質問を理解することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: People with visual impairments urgently need helps, not only on the basic tasks such as guiding and retrieving objects , but on the advanced tasks like picturing the new environments. More than a guiding dog, they might want some devices which are able to provide linguistic interaction. Building on various research literature, we aim to conduct a research on the interaction between the robot agent and visual impaired people. The robot agent, applied VQA techniques, is able to analyze the environment, process and understand the pronouncing questions, and provide feedback to the human user. In this paper, we are going to discuss the related questions about this kind of interaction, the techniques we used in this work, and how we conduct our research.
Abstract（参考訳）: 視覚障害のある人は、オブジェクトの誘導や検索といった基本的なタスクだけでなく、新しい環境を撮影するといった高度なタスクにも助けを必要とします。ガイド犬というよりは、言語的な相互作用を提供するデバイスを欲しがるかもしれません。さまざまな研究文献に基づいて,ロボットエージェントと視覚障害者のインタラクションに関する研究を行う。 VQA技術を適用したロボットエージェントは、環境を分析し、発音された質問を処理し、理解し、人間のユーザにフィードバックを提供することができる。本稿では,この種のインタラクション,本研究で使用する技術,研究の実施方法について,関連する質問について考察する。

関連論文リスト

Whom to Respond To? A Transformer-Based Model for Multi-Party Social Robot Interaction [4.276453870301421]
社会ロボットの意思決定プロセスを改善するために,トランスフォーマーを用いたマルチタスク学習フレームワークを提案する。我々は、視線ずれなどの現実世界の複雑さを捉えた、新しい多人数HRIデータセットを構築した。本研究は,自然とコンテキストを意識した多人数インタラクションを実現できる社会知能型社会ロボットの開発に寄与する。
論文参考訳（メタデータ） (2025-07-15T03:42:14Z)
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文参考訳（メタデータ） (2024-10-18T03:26:06Z)
Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文参考訳（メタデータ） (2024-09-13T18:28:12Z)
A Multi-Modal Explainability Approach for Human-Aware Robots in Multi-Party Conversation [39.87346821309096]
本稿では,従来のSOTAと比較して性能が向上したアドレス推定モデルを提案する。また、上記のアーキテクチャに説明可能性と透明性を組み込むいくつかの方法を提案する。
論文参考訳（メタデータ） (2024-05-20T13:09:32Z)
Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文参考訳（メタデータ） (2023-10-04T00:50:21Z)
Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文参考訳（メタデータ） (2023-05-22T17:18:29Z)
Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文参考訳（メタデータ） (2022-10-22T14:45:29Z)
Automatic Context-Driven Inference of Engagement in HMI: A Survey [6.479224589451863]
本稿では,人間と機械の相互作用に関するエンゲージメント推論について述べる。これには、学際的定義、エンゲージメントコンポーネントと要因、公開データセット、地上真実の評価、そして最も一般的に使用される機能と方法が含まれる。これは、信頼性の高いコンテキスト認識エンゲージメント推論機能を備えた、将来の人間と機械のインタラクションインターフェースの開発のためのガイドとして機能する。
論文参考訳（メタデータ） (2022-09-30T10:46:13Z)
Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文参考訳（メタデータ） (2022-07-20T13:37:57Z)
Human-Robot Collaboration and Machine Learning: A Systematic Review of Recent Research [69.48907856390834]
人間ロボットコラボレーション(Human-robot collaboration、HRC)とは、人間とロボットの相互作用を探索する手法である。本稿では,HRCの文脈における機械学習技術の利用に関する詳細な文献レビューを提案する。
論文参考訳（メタデータ） (2021-10-14T15:14:33Z)
You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文参考訳（メタデータ） (2020-04-11T12:51:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。