論文の概要: Enabling Robots to Draw and Tell: Towards Visually Grounded Multimodal
Description Generation
- arxiv url: http://arxiv.org/abs/2101.12338v1
- Date: Thu, 14 Jan 2021 23:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 01:41:41.050325
- Title: Enabling Robots to Draw and Tell: Towards Visually Grounded Multimodal
Description Generation
- Title(参考訳): ロボットが絵を描き、伝える:視覚的なマルチモーダル記述生成を目指して
- Authors: Ting Han, Sina Zarrie{\ss}
- Abstract要約: 社会的に有能なロボットは、それらを取り囲む世界を知覚し、人間的な方法でそれについてコミュニケーションする能力を備えるべきである。
そのような能力を示す代表的スキルには、画像記述の生成と視覚的に接地した参照表現が含まれる。
本稿では,自然言語生成のタスクと,視覚シーンや実物を記述するためのフリーハンドスケッチ/ハンドジェスチャを併用してモデル化する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Socially competent robots should be equipped with the ability to perceive the
world that surrounds them and communicate about it in a human-like manner.
Representative skills that exhibit such ability include generating image
descriptions and visually grounded referring expressions. In the NLG community,
these generation tasks are largely investigated in non-interactive and
language-only settings. However, in face-to-face interaction, humans often
deploy multiple modalities to communicate, forming seamless integration of
natural language, hand gestures and other modalities like sketches. To enable
robots to describe what they perceive with speech and sketches/gestures, we
propose to model the task of generating natural language together with
free-hand sketches/hand gestures to describe visual scenes and real life
objects, namely, visually-grounded multimodal description generation. In this
paper, we discuss the challenges and evaluation metrics of the task, and how
the task can benefit from progress recently made in the natural language
processing and computer vision realms, where related topics such as visually
grounded NLG, distributional semantics, and photo-based sketch generation have
been extensively studied.
- Abstract(参考訳): 社会的に有能なロボットは、それらを取り囲む世界を知覚し、人間的な方法でそれを伝達する能力を備えるべきである。
そのような能力を示す代表的スキルには、画像記述の生成と視覚的に接地した参照表現が含まれる。
NLGコミュニティでは、これらの生成タスクは非対話的および言語のみの設定で大きく研究されている。
しかしながら、対面インタラクションでは、人間がコミュニケーションするために複数のモダリティをデプロイし、自然言語や手ジェスチャーなどのモダリティをシームレスに統合する。
ロボットが音声やスケッチ/ジェスチャーで知覚するものを記述できるようにするため,視覚的なシーンや実生活オブジェクト,すなわち視覚的に座屈したマルチモーダルな記述生成を記述するために,手書きのスケッチ/手書きのジェスチャーとともに自然言語を生成するタスクをモデル化することを提案する。
本稿では,タスクの課題と評価指標について論じるとともに,自然言語処理やコンピュータビジョン領域における最近の進歩から,視覚的基盤のNLG,分布意味論,写真に基づくスケッチ生成などの関連トピックが広く研究されている。
関連論文リスト
- Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Learning to Model the World with Language [98.22400014565818]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。
アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Vision-Language Models in Remote Sensing: Current Progress and Future
Trends [19.179306993193023]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、画像内のオブジェクトを認識するだけでなく、それら間の関係を推測したり、画像の自然言語記述を生成することもできる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - VSGM -- Enhance robot task understanding ability through visual semantic
graph [0.0]
ロボットに視覚的意味論と言語意味論の理解を与えることにより、推論能力が向上すると考えられる。
本稿では,セマンティックグラフを用いて,より優れた視覚的特徴を得る手法であるVSGMを提案する。
論文 参考訳(メタデータ) (2021-05-19T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。