論文の概要: Structured Self-Consistency:A Multi-Task Evaluation of LLMs on VirtualHome
- arxiv url: http://arxiv.org/abs/2602.00611v2
- Date: Tue, 03 Feb 2026 09:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.703236
- Title: Structured Self-Consistency:A Multi-Task Evaluation of LLMs on VirtualHome
- Title(参考訳): 構造化自己整合性:バーチャルホームにおけるLCMのマルチタスク評価
- Authors: Jiaqi Xu, Tao Huang, Kai Zhang,
- Abstract要約: エージェントは目標を理解し、アクションを計画し、シミュレーション環境でタスクを実行する必要がある。
本稿では,Embodied Agent Interface (EAI) フレームワークを用いたVirtualHomeベンチマークにおいて,Large Language Models (LLM) の総合評価を行う。
- 参考スコア(独自算出の注目度): 17.912331507214052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI requires agents to understand goals, plan actions, and execute tasks in simulated environments. We present a comprehensive evaluation of Large Language Models (LLMs) on the VirtualHome benchmark using the Embodied Agent Interface (EAI) framework. We compare two representative 7B-parameter models OPENPANGU-7B and QWEN2.5-7B across four fundamental tasks: Goal Interpretation, Action Sequencing, Subgoal Decomposition, and Transition Modeling. We propose Structured Self-Consistency (SSC), an enhanced decoding strategy that leverages multiple sampling with domain-specific voting mechanisms to improve output quality for structured generation tasks. Experimental results demonstrate that SSC significantly enhances performance, with OPENPANGU-7B excelling at hierarchical planning while QWEN2.5-7B show advantages in action-level tasks. Our analysis reveals complementary strengths across model types, providing insights for future embodied AI system development.
- Abstract(参考訳): エージェントは目標を理解し、アクションを計画し、シミュレーション環境でタスクを実行する必要がある。
本稿では,Embodied Agent Interface (EAI) フレームワークを用いたVirtualHomeベンチマークにおいて,Large Language Models (LLM) の総合評価を行う。
代表的な7BパラメータモデルであるOPENPANGU-7BとQWEN2.5-7Bを、ゴール解釈、アクションシーケンシング、サブゴール分解、遷移モデリングの4つの基本課題で比較した。
本研究では、ドメイン固有の投票機構を用いた複数サンプリングを利用して、構造化された生成タスクの出力品質を向上する拡張デコード戦略である構造化自己整合性(Structured Self-Consistency, SSC)を提案する。
実験結果から,OPENPANGU-7Bは階層計画に優れ,QWEN2.5-7Bは行動レベルタスクの利点を示した。
我々の分析は、モデルタイプ間の相補的な強みを明らかにし、将来の具体的AIシステム開発に対する洞察を提供する。
関連論文リスト
- RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - CLaC at SemEval-2025 Task 6: A Multi-Architecture Approach for Corporate Environmental Promise Verification [0.20482269513546458]
本稿では,企業ESG(環境・社会・ガバナンス)レポートにおける約束の検証に焦点を当てたSemEval-2025 Task6(PromiseEval)について述べる。
本研究では,3つのモデルアーキテクチャを探索し,確証評価,明確性評価,検証タイミングの4つのサブタスクに対処する。
本研究は,クラス不均衡や限られた訓練データによる課題にもかかわらず,言語的特徴抽出,注意プーリング,多目的学習の有効性を強調した。
論文 参考訳(メタデータ) (2025-05-29T15:19:00Z) - Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムに向けた重要なステップである。
我々は,最先端VLMとVLAの一般化性能の評価と解析を目的としたベンチマークであるMultiNet v0.2を紹介する。
論文 参考訳(メタデータ) (2025-05-08T16:51:36Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。