論文の概要: MARPLE: A Benchmark for Long-Horizon Inference
- arxiv url: http://arxiv.org/abs/2410.01926v1
- Date: Wed, 2 Oct 2024 18:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:54:27.669417
- Title: MARPLE: A Benchmark for Long-Horizon Inference
- Title(参考訳): MARPLE: 長距離推論のためのベンチマーク
- Authors: Emily Jin, Zhuoyi Huang, Jan-Philipp Fränken, Weiyu Liu, Hannah Cha, Erik Brockbank, Sarah Wu, Ruohan Zhang, Jiajun Wu, Tobias Gerstenberg,
- Abstract要約: マルチモーダルエビデンスを用いた長距離推論能力評価のためのベンチマークであるMARPLEを紹介する。
古典的なフードユニットのストーリーにインスパイアされた私たちは、AIモデルと人間の参加者に、実際に何が起きたかをステップバイステップで再現することで、どのエージェントが環境の変化を引き起こしたかを推測するように依頼します。
- 参考スコア(独自算出の注目度): 15.489629501373122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing past events requires reasoning across long time horizons. To figure out what happened, we need to use our prior knowledge about the world and human behavior and draw inferences from various sources of evidence including visual, language, and auditory cues. We introduce MARPLE, a benchmark for evaluating long-horizon inference capabilities using multi-modal evidence. Our benchmark features agents interacting with simulated households, supporting vision, language, and auditory stimuli, as well as procedurally generated environments and agent behaviors. Inspired by classic ``whodunit'' stories, we ask AI models and human participants to infer which agent caused a change in the environment based on a step-by-step replay of what actually happened. The goal is to correctly identify the culprit as early as possible. Our findings show that human participants outperform both traditional Monte Carlo simulation methods and an LLM baseline (GPT-4) on this task. Compared to humans, traditional inference models are less robust and performant, while GPT-4 has difficulty comprehending environmental changes. We analyze what factors influence inference performance and ablate different modes of evidence, finding that all modes are valuable for performance. Overall, our experiments demonstrate that the long-horizon, multimodal inference tasks in our benchmark present a challenge to current models.
- Abstract(参考訳): 過去のイベントを再構築するには、長い間の地平線を越えた推論が必要である。
何が起こったのかを理解するためには、世界と人間の行動に関する事前の知識を使い、視覚、言語、聴覚の手がかりを含む様々な証拠源から推論する必要があります。
マルチモーダルエビデンスを用いた長距離推論能力評価のためのベンチマークであるMARPLEを紹介する。
我々のベンチマークでは、シミュレーションされた家庭と対話するエージェント、視覚、言語、聴覚刺激をサポートするエージェント、手続き的に生成された環境やエージェントの振る舞いが特徴である。
古典的な‘全体単位’のストーリーにインスパイアされた私たちは、AIモデルと人間の参加者に、実際に何が起きたのかのステップバイステップのリプレイに基づいて、どのエージェントが環境を変えたのかを推測するように頼みました。
目標は、犯人をできるだけ早く正確に識別することである。
本研究は,従来のモンテカルロシミュレーション法とLCMベースライン(GPT-4)を併用して実施した。
ヒトと比較して、従来の推論モデルはより頑丈でパフォーマンスが良いが、GPT-4は環境変化を理解するのが難しい。
我々は,どの要因が推論性能に影響を及ぼすかを分析し,様々なエビデンスモードをアブレーションし,全てのモードが性能に有用であることを示す。
全体として、我々の実験は、我々のベンチマークにおける長期マルチモーダル推論タスクが、現在のモデルに挑戦していることを示している。
関連論文リスト
- SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in
Speech [0.0]
この研究は、膨大な応用分野である声道の年齢、性別、感情を予測することを目的としている。
これらの予測のためのディープラーニングモデルを探索するには、本論文で強調された単一、複数出力、シーケンシャルモデルを比較する必要がある。
実験により,複数出力モデルが個々のモデルと相容れない性能を示し,変数と音声入力の複雑な関係を効率よく把握し,実行環境の改善を実現している。
論文 参考訳(メタデータ) (2024-03-01T11:28:37Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Action Inference by Maximising Evidence: Zero-Shot Imitation from
Observation with World Models [9.583751440005118]
我々は,この行動を世界モデルを用いて再現するために,エビデンスを最大化する行動推論(AIME)を提案する。
AIMEは、2つの異なるフェーズから構成されており、第1フェーズでは、エージェントが過去の経験から世界モデルを学び、ELBOを最大化することで自身の身体を理解する。
第2フェーズでは、エージェントは、新しいタスクを実行する専門家の観察のみのデモンストレーションを受け、専門家の行動を模倣しようとする。
本手法は実演後の世界モデルや環境とのオンラインインタラクションのさらなる訓練を必要としないという意味で「ゼロショット」である。
論文 参考訳(メタデータ) (2023-12-04T16:43:36Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。