論文の概要: An Abstract Specification of VoxML as an Annotation Language
- arxiv url: http://arxiv.org/abs/2305.13076v1
- Date: Mon, 22 May 2023 14:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:25:41.742126
- Title: An Abstract Specification of VoxML as an Annotation Language
- Title(参考訳): アノテーション言語としてのVoxMLの抽象仕様
- Authors: Kiyong Lee, Nikhil Krishnaswamy, James Pustejovsky
- Abstract要約: VoxMLは、自然言語表現をリアルタイム可視化にマッピングするために使用されるモデリング言語である。
本稿では、VoxMLを一般的な抽象用語でアノテーション言語として指定することを目的とする。
そして、視覚的に知覚できる人間とオブジェクトの相互作用を表現する言語データの注釈付けにどのように取り組んでいるかを示す。
- 参考スコア(独自算出の注目度): 9.730476478298455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VoxML is a modeling language used to map natural language expressions into
real-time visualizations using commonsense semantic knowledge of objects and
events. Its utility has been demonstrated in embodied simulation environments
and in agent-object interactions in situated multimodal human-agent
collaboration and communication. It introduces the notion of object affordance
(both Gibsonian and Telic) from HRI and robotics, as well as the concept of
habitat (an object's context of use) for interactions between a rational agent
and an object. This paper aims to specify VoxML as an annotation language in
general abstract terms. It then shows how it works on annotating linguistic
data that express visually perceptible human-object interactions. The
annotation structures thus generated will be interpreted against the enriched
minimal model created by VoxML as a modeling language while supporting the
modeling purposes of VoxML linguistically.
- Abstract(参考訳): VoxMLは、自然言語表現をオブジェクトやイベントの常識的知識を用いてリアルタイムな視覚化にマッピングするために使用されるモデリング言語である。
マルチモーダルな人間とエージェントの協調・コミュニケーションにおいて, 具体的シミュレーション環境やエージェントとオブジェクトの相互作用において, その実用性が実証されている。
hriとロボティクスのオブジェクトアフォーアンス(ギブソン語とテロ語の両方)の概念と、合理的なエージェントとオブジェクトの相互作用のための居住環境(オブジェクトの使用コンテキスト)の概念を導入している。
本稿では、VoxMLを一般的な抽象用語でアノテーション言語として指定することを目的とする。
そして、視覚的に知覚できる人間とオブジェクトの相互作用を表現する言語データの注釈付けの仕組みを示す。
このように生成されたアノテーション構造は、VoxMLのモデリング目的を言語的にサポートしながら、モデリング言語としてVoxMLによって作成された豊富な最小モデルに対して解釈される。
関連論文リスト
- Explaining Multi-modal Large Language Models by Analyzing their Vision Perception [4.597864989500202]
本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。
オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。
論文 参考訳(メタデータ) (2024-05-23T14:24:23Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Multi-agent Communication meets Natural Language: Synergies between
Functional and Structural Language Learning [16.776753238108036]
本稿では,マルチエージェント通信と従来のデータ駆動型アプローチを組み合わせた自然言語学習手法を提案する。
私たちの出発点は、タスク固有の言語データではなく、ジェネリックに基づいて訓練された言語モデルです。
次に、このモデルをマルチエージェントのセルフプレイ環境に配置し、モデルへの適応や修正に使用するタスク固有の報酬を生成する。
論文 参考訳(メタデータ) (2020-05-14T15:32:23Z) - Do Neural Language Models Show Preferences for Syntactic Formalisms? [14.388237635684737]
本研究では,言語モデルが捉えた構文構造のセマンランスが,表面シンタクティックあるいは深層構文解析の様式にどの程度依存しているかについて検討する。
13の異なる言語で訓練されたBERTおよびELMoモデルに対して,有向依存木抽出のためのプローブを適用した。
どちらのモデルも、SUDよりもUDを好むことが分かりました。
論文 参考訳(メタデータ) (2020-04-29T11:37:53Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。