論文の概要: Enabling Robots to Draw and Tell: Towards Visually Grounded Multimodal
Description Generation
- arxiv url: http://arxiv.org/abs/2101.12338v1
- Date: Thu, 14 Jan 2021 23:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 01:41:41.050325
- Title: Enabling Robots to Draw and Tell: Towards Visually Grounded Multimodal
Description Generation
- Title(参考訳): ロボットが絵を描き、伝える:視覚的なマルチモーダル記述生成を目指して
- Authors: Ting Han, Sina Zarrie{\ss}
- Abstract要約: 社会的に有能なロボットは、それらを取り囲む世界を知覚し、人間的な方法でそれについてコミュニケーションする能力を備えるべきである。
そのような能力を示す代表的スキルには、画像記述の生成と視覚的に接地した参照表現が含まれる。
本稿では,自然言語生成のタスクと,視覚シーンや実物を記述するためのフリーハンドスケッチ/ハンドジェスチャを併用してモデル化する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Socially competent robots should be equipped with the ability to perceive the
world that surrounds them and communicate about it in a human-like manner.
Representative skills that exhibit such ability include generating image
descriptions and visually grounded referring expressions. In the NLG community,
these generation tasks are largely investigated in non-interactive and
language-only settings. However, in face-to-face interaction, humans often
deploy multiple modalities to communicate, forming seamless integration of
natural language, hand gestures and other modalities like sketches. To enable
robots to describe what they perceive with speech and sketches/gestures, we
propose to model the task of generating natural language together with
free-hand sketches/hand gestures to describe visual scenes and real life
objects, namely, visually-grounded multimodal description generation. In this
paper, we discuss the challenges and evaluation metrics of the task, and how
the task can benefit from progress recently made in the natural language
processing and computer vision realms, where related topics such as visually
grounded NLG, distributional semantics, and photo-based sketch generation have
been extensively studied.
- Abstract(参考訳): 社会的に有能なロボットは、それらを取り囲む世界を知覚し、人間的な方法でそれを伝達する能力を備えるべきである。
そのような能力を示す代表的スキルには、画像記述の生成と視覚的に接地した参照表現が含まれる。
NLGコミュニティでは、これらの生成タスクは非対話的および言語のみの設定で大きく研究されている。
しかしながら、対面インタラクションでは、人間がコミュニケーションするために複数のモダリティをデプロイし、自然言語や手ジェスチャーなどのモダリティをシームレスに統合する。
ロボットが音声やスケッチ/ジェスチャーで知覚するものを記述できるようにするため,視覚的なシーンや実生活オブジェクト,すなわち視覚的に座屈したマルチモーダルな記述生成を記述するために,手書きのスケッチ/手書きのジェスチャーとともに自然言語を生成するタスクをモデル化することを提案する。
本稿では,タスクの課題と評価指標について論じるとともに,自然言語処理やコンピュータビジョン領域における最近の進歩から,視覚的基盤のNLG,分布意味論,写真に基づくスケッチ生成などの関連トピックが広く研究されている。
関連論文リスト
- EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。
本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文 参考訳(メタデータ) (2024-10-30T17:22:45Z) - Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。