Fugu-MT 論文翻訳(概要): A Systematic Survey of Text Worlds as Embodied Natural Language Environments

論文の概要: A Systematic Survey of Text Worlds as Embodied Natural Language Environments

arxiv url: http://arxiv.org/abs/2107.04132v1
Date: Thu, 8 Jul 2021 22:15:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-13 03:06:19.483545
Title: A Systematic Survey of Text Worlds as Embodied Natural Language Environments
Title（参考訳）: 自然言語環境としてのテキスト世界の体系的調査
Authors: Peter A Jansen
Abstract要約: Text Worldsは2Dや3D環境とは異なり、テキスト記述のみを使用してレンダリングされる、エンボディエージェント用の仮想環境である。これらの環境は、参入障壁が低いため、高忠実度3D環境の代替となる。
参考スコア（独自算出の注目度）: 0.76146285961466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text Worlds are virtual environments for embodied agents that, unlike 2D or 3D environments, are rendered exclusively using textual descriptions. These environments offer an alternative to higher-fidelity 3D environments due to their low barrier to entry, providing the ability to study semantics, compositional inference, and other high-level tasks with rich high-level action spaces while controlling for perceptual input. This systematic survey outlines recent developments in tooling, environments, and agent modeling for Text Worlds, while examining recent trends in knowledge graphs, common sense reasoning, transfer learning of Text World performance to higher-fidelity environments, as well as near-term development targets that, once achieved, make Text Worlds an attractive general research paradigm for natural language processing.
Abstract（参考訳）: Text Worldsは2Dや3D環境とは異なり、テキスト記述のみを使用してレンダリングされる、エンボディエージェント用の仮想環境である。これらの環境は、入力に対する障壁が低いため、高忠実な3D環境に代わるもので、知覚入力を制御しながら、セマンティクス、構成推論、その他の高レベルなタスクをリッチな高レベルなアクション空間で研究することができる。この体系的な調査は、テキストワールドのツール、環境、エージェントモデリングにおける最近の進展を概説し、知識グラフ、常識推論、テキストワールドパフォーマンスの高忠実性環境への転送学習、およびテキストワールドを自然言語処理のための魅力的な一般的な研究パラダイムにする短期的開発目標の最近のトレンドを調査している。

関連論文リスト

Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。 VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文参考訳（メタデータ） (2024-12-09T11:40:54Z)
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments [13.988804095409133]
本研究では,実世界のシーン,オブジェクト,部屋のレイアウトを取り入れたReALFREDベンチマークを提案する。具体的には、視覚領域のギャップを小さくした環境空間を更新したALFREDベンチマークを拡張する。 ReALFREDでは、以前作られたALFREDベンチマークのメソッドを分析し、すべてのメトリクスで一貫して低いパフォーマンスが得られることを観察する。
論文参考訳（メタデータ） (2024-07-26T07:00:27Z)
Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文参考訳（メタデータ） (2024-03-13T17:50:32Z)
"What's my model inside of?": Exploring the role of environments for grounded natural language understanding [1.8829370712240063]
この論文では、自然言語理解(NLU)研究に対する生態学的アプローチを採用する。我々は,テキストベースのゲーム環境に基づく手続き的テキスト理解のための新しいトレーニングとアノテーションアプローチを開発した。我々は,科学者のような知識労働者を対象とした,AIを活用した「社会的思考環境」の設計を提案する。
論文参考訳（メタデータ） (2024-02-04T15:52:46Z)
Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文参考訳（メタデータ） (2023-05-22T17:18:29Z)
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 CLEAR: 言語横断表現と環境非依存表現を提案する。我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文参考訳（メタデータ） (2022-07-05T17:38:59Z)
SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。 SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。 SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文参考訳（メタデータ） (2021-10-20T17:02:06Z)
Learning Knowledge Graph-based World Models of Textual Environments [16.67845396797253]
本研究は,テキストベースのゲーム環境のワールドモデル構築に焦点をあてる。 1)知識グラフとして世界を表現する際のエージェントの行動によって引き起こされる世界の変化を予測し,(2)世界での操作に必要な文脈的に関連する自然言語行動の集合を生成する。
論文参考訳（メタデータ） (2021-06-17T15:45:54Z)
Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments [54.405920619915655]
これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。 MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
論文参考訳（メタデータ） (2021-04-17T14:48:02Z)
VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文参考訳（メタデータ） (2020-10-26T18:51:02Z)
Zero-Shot Compositional Policy Learning via Language Grounding [13.45138913186308]
人間は、言語記述のような世界に関する事前の知識を活用することで、新しいタスクに迅速に適応することができる。本研究では,環境のダイナミクスを視覚的外観から切り離す新たな研究プラットフォームであるBabyAI++を紹介する。現在の言語誘導型RL/IL技術は、トレーニング環境に過度に適合し、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
論文参考訳（メタデータ） (2020-04-15T16:58:19Z)
Environment-agnostic Multitask Learning for Natural Language Grounded Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文参考訳（メタデータ） (2020-03-01T09:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。