論文の概要: ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments
- arxiv url: http://arxiv.org/abs/2502.10046v1
- Date: Fri, 14 Feb 2025 09:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:44:28.865061
- Title: ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments
- Title(参考訳): ViRAC: 任意仮想環境における視覚応答型ヘッドモーション制御フレームワーク
- Authors: Juyeong Hwang, Seong-Eun Hong, Hyeongyeop Kang,
- Abstract要約: 本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。
ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
- 参考スコア(独自算出の注目度): 0.13654846342364302
- License:
- Abstract: Creating lifelike virtual agents capable of interacting with their environments is a longstanding goal in computer graphics. This paper addresses the challenge of generating natural head rotations, a critical aspect of believable agent behavior for visual information gathering and dynamic responses to environmental cues. Although earlier methods have made significant strides, many rely on data-driven or saliency-based approaches, which often underperform in diverse settings and fail to capture deeper cognitive factors such as risk assessment, information seeking, and contextual prioritization. Consequently, generated behaviors can appear rigid or overlook critical scene elements, thereby diminishing the sense of realism. In this paper, we propose \textbf{ViRAC}, a \textbf{Vi}sion-\textbf{R}easoning \textbf{A}gent Head Movement \textbf{C}ontrol framework, which exploits the common-sense knowledge and reasoning capabilities of large-scale models, including Vision-Language Models (VLMs) and Large-Language Models (LLMs). Rather than explicitly modeling every cognitive mechanism, ViRAC leverages the biases and patterns internalized by these models from extensive training, thus emulating human-like perceptual processes without hand-tuned heuristics. Experimental results in multiple scenarios reveal that ViRAC produces more natural and context-aware head rotations than recent state-of-the-art techniques. Quantitative evaluations show a closer alignment with real human head-movement data, while user studies confirm improved realism and cognitive plausibility.
- Abstract(参考訳): 環境と対話できるライフスタイルの仮想エージェントを作ることは、コンピュータグラフィックスにおける長年の目標である。
本稿では,視覚情報収集と環境条件に対する動的応答において,自然頭部回転の生成が重要となる課題について論じる。
初期の手法は大きな進歩を遂げたものの、多くの場合はデータ駆動またはサリエンシに基づくアプローチに依存しており、様々な設定で性能が低下し、リスク評価や情報探索、文脈優先といった深い認知的要因を捉えることができない。
その結果、生成された振る舞いは、厳格に見えたり、重要なシーン要素を見落としたりする可能性があるため、リアリズムの感覚は低下する。
本稿では,視覚言語モデル (VLM) や大規模言語モデル (LLMs) など,大規模モデルの常識的知識と推論能力を活用する,bf{Vi}sion-\textbf{R}easoning \textbf{A}gent Head Movement \textbf{C}ontrol frameworkを提案する。
すべての認知メカニズムを明示的にモデル化する代わりに、ViRACはこれらのモデルによって内部化されたバイアスとパターンを広範囲のトレーニングから活用し、手動のヒューリスティクスを使わずに人間のような知覚過程をエミュレートする。
複数のシナリオにおける実験結果から、ViRACは最近の最先端技術よりも自然でコンテキスト対応のヘッドローテーションを生成することが明らかとなった。
定量的評価は、実際の人間の頭の動きデータと密接な関係を示す一方、ユーザ研究は、現実性や認知的妥当性を改善したことを確認している。
関連論文リスト
- GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation [9.593020996636932]
音声操作のための大規模部分中心データセットを提案する。
我々は、深度推定と相互作用ポーズ予測のための最先端のいくつかの手法と統合する。
実験により、我々のデータセットは深度知覚と行動可能な相互作用の予測の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-11-27T12:11:23Z) - Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training [14.450673163785094]
文脈認識感情認識(CAER)は、対象者の感情を認識するための貴重な意味的手がかりを提供する。
現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。
共同設立者を非難するためのCCIM(Contextual Causal Intervention Module)を提案する。
論文 参考訳(メタデータ) (2024-07-06T05:29:02Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - Narrator: Towards Natural Control of Human-Scene Interaction Generation
via Relationship Reasoning [34.00107506891627]
テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。
本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。
我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2023-03-16T15:44:15Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - On the Sensory Commutativity of Action Sequences for Embodied Agents [2.320417845168326]
群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。
本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。
本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
論文 参考訳(メタデータ) (2020-02-13T16:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。