論文の概要: Open-Ended Multi-Modal Relational Reasoning for Video Question Answering
- arxiv url: http://arxiv.org/abs/2012.00822v3
- Date: Fri, 23 Jun 2023 03:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 18:02:15.605828
- Title: Open-Ended Multi-Modal Relational Reasoning for Video Question Answering
- Title(参考訳): ビデオ質問応答のためのオープンエンドマルチモーダル関係推論
- Authors: Haozheng Luo, Ruiyang Qin, Chenwei Xu, Guo Ye, and Zening Luo
- Abstract要約: このエージェントの主な焦点は、ビデオベースのシーン内で言語ベースのインタラクションを使用する個人を支援することである。
提案手法は,ロボットエージェント内にビデオ認識技術と自然言語処理モデルを統合する。
- 参考スコア(独自算出の注目度): 1.5332481598232226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a robotic agent specifically designed to analyze
external environments and address participants' questions. The primary focus of
this agent is to assist individuals using language-based interactions within
video-based scenes. Our proposed method integrates video recognition technology
and natural language processing models within the robotic agent. We investigate
the crucial factors affecting human-robot interactions by examining pertinent
issues arising between participants and robot agents. Methodologically, our
experimental findings reveal a positive relationship between trust and
interaction efficiency. Furthermore, our model demonstrates a 2\% to 3\%
performance enhancement in comparison to other benchmark methods.
- Abstract(参考訳): 本稿では,外部環境を分析し,参加者の質問に答えるためのロボットエージェントを提案する。
このエージェントの主な焦点は、ビデオベースのシーン内で言語ベースのインタラクションを使用する個人を支援することである。
提案手法は,ロボットエージェント内に映像認識技術と自然言語処理モデルを統合する。
本研究では,ロボットエージェントと参加者間の関連する問題を調べることによって,人間とロボットの相互作用に影響を及ぼす重要な要因について検討する。
方法により, 信頼と相互作用効率の正の関係が明らかとなった。
さらに,本モデルでは,他のベンチマーク手法と比較して,2-%から3-%の性能向上を示す。
関連論文リスト
- Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - A Multi-Modal Explainability Approach for Human-Aware Robots in Multi-Party Conversation [39.87346821309096]
本稿では,従来のSOTAと比較して性能が向上したアドレス推定モデルを提案する。
また、上記のアーキテクチャに説明可能性と透明性を組み込むいくつかの方法を提案する。
論文 参考訳(メタデータ) (2024-05-20T13:09:32Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Automatic Context-Driven Inference of Engagement in HMI: A Survey [6.479224589451863]
本稿では,人間と機械の相互作用に関するエンゲージメント推論について述べる。
これには、学際的定義、エンゲージメントコンポーネントと要因、公開データセット、地上真実の評価、そして最も一般的に使用される機能と方法が含まれる。
これは、信頼性の高いコンテキスト認識エンゲージメント推論機能を備えた、将来の人間と機械のインタラクションインターフェースの開発のためのガイドとして機能する。
論文 参考訳(メタデータ) (2022-09-30T10:46:13Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Human-Robot Collaboration and Machine Learning: A Systematic Review of
Recent Research [69.48907856390834]
人間ロボットコラボレーション(Human-robot collaboration、HRC)とは、人間とロボットの相互作用を探索する手法である。
本稿では,HRCの文脈における機械学習技術の利用に関する詳細な文献レビューを提案する。
論文 参考訳(メタデータ) (2021-10-14T15:14:33Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。