論文の概要: EgoNormia: Benchmarking Physical Social Norm Understanding
- arxiv url: http://arxiv.org/abs/2502.20490v5
- Date: Wed, 11 Jun 2025 22:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 13:18:14.102486
- Title: EgoNormia: Benchmarking Physical Social Norm Understanding
- Title(参考訳): EgoNormia: 物理的な社会的ノルム理解のベンチマーク
- Authors: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang,
- Abstract要約: EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
- 参考スコア(独自算出の注目度): 52.87904722234434
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human activity is moderated by norms; however, supervision for normative reasoning is sparse, particularly where norms are physically- or socially-grounded. We thus present EGONORMIA $\|\epsilon\|$, comprising 1,853 (200 for EGONORMIA-verified) multiple choice questions (MCQs) grounded within egocentric videos of human interactions, enabling the evaluation and improvement of normative reasoning in vision-language models (VLMs). EGONORMIA spans seven norm categories: safety, privacy, proxemics, politeness, cooperation, coordination/proactivity, and communication/legibility. To compile this dataset at scale, we propose a novel pipeline to generate grounded MCQs from raw egocentric video. Our work demonstrates that current state-of-the-art VLMs lack robust grounded norm understanding, scoring a maximum of 54% on EGONORMIA and 65% on EGONORMIA-verified, with performance across norm categories indicating significant risks of safety and privacy when VLMs are used in real-world agents. We additionally explore methods for improving normative understanding, demonstrating that a naive retrieval-based generation (RAG) method using EGONORMIA can enhance normative reasoning in VLMs.
- Abstract(参考訳): 人間の活動は規範によって中和されるが、規範的推論の監督は、特に規範が物理的または社会的に接地されている場所では、まばらである。
そこで本研究では,視覚言語モデル(VLM)における規範的推論の評価と改善を可能にする,対話の自我中心的なビデオに基礎を置いた1,853 (200 for EGONORMIA-verified) 複数選択質問 (MCQs) からなるEGONORMIA $\|\epsilon\|$を提案する。
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
このデータセットを大規模にコンパイルするために、生のエゴセントリックビデオから基底MCQを生成する新しいパイプラインを提案する。
我々の研究は、現在最先端のVLMでは、EGONORMIAで54%、EGONORMIAで65%のスコアが与えられており、実世界のエージェントでVLMが使用される場合の安全性とプライバシの重大なリスクを示す標準カテゴリにおけるパフォーマンスが示されている。
さらに, EGONORMIAを用いた単純検索ベース生成(RAG)手法により, VLMにおける規範的推論が向上できることを実証し, 規範的理解を改善する手法についても検討する。
関連論文リスト
- HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard [63.54109142085327]
VLN(Vision-and-Language Navigation)システムは、離散(パノラマ)または連続(フリーモーション)のパラダイムのみに焦点を当てることが多い。
我々は、これらのパラダイムを明示的な社会的認識制約の下でマージする統合されたヒューマン・アウェアVLNベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Relational Norms for Human-AI Cooperation [3.8608750807106977]
社会的人工知能とどのように相互作用するかは、AIがエミュレートや占有を意図している社会関係の役割に依存する。
我々の分析は、意識的な経験の欠如や疲労に対する免疫など、AIシステムと人間の違いが、関係固有の機能を満たすAIの能力にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-17T18:23:29Z) - A Grounded Observer Framework for Establishing Guardrails for Foundation Models in Socially Sensitive Domains [1.9116784879310025]
基礎モデルの複雑さを考えると、エージェントの振る舞いを制約する従来の手法は直接適用できない。
本稿では,行動保証とリアルタイム変動性の両方を提供する基礎モデルの挙動を制約する基盤となるオブザーバフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-23T22:57:05Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Value Engineering for Autonomous Agents [3.6130723421895947]
従来のアプローチでは、値はエージェント推論の不可欠な構成要素ではなく、世界のいくつかの行動や状態に関連するラベルとして扱われていた。
道徳心理学と社会心理学を基盤とした新たなAMAパラダイムを提案する。
このタイプの規範的推論は、エージェントが規範の道徳的意味を理解することによって、自律的なエージェントに価値認識をもたらすと論じる。
論文 参考訳(メタデータ) (2023-02-17T08:52:15Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z) - Moral Stories: Situated Reasoning about Norms, Intents, Actions, and
their Consequences [36.884156839960184]
現代のNLGモデルが社会環境にデプロイされたシステムの行動優先度として機能するかどうかを検討する。
本研究では,「モラルストーリー」という,階層的,分枝的なナラティブのクラウドソーシングデータセットを導入し,基礎的,目標指向の社会推論の研究を行う。
論文 参考訳(メタデータ) (2020-12-31T17:28:01Z) - COSMO: Conditional SEQ2SEQ-based Mixture Model for Zero-Shot Commonsense
Question Answering [50.65816570279115]
社会的文脈の暗黙的な原因と影響の特定は、機械が常識的推論を実行できるようにする駆動能力である。
この領域における現在のアプローチには、目に見えない状況に直面して常識推論を行う能力がない。
本稿では,動的かつ多様なコンテンツ生成機能を備えた条件付きSEQ2SEQベースの混合モデル(COSMO)を提案する。
論文 参考訳(メタデータ) (2020-11-02T07:08:19Z) - Improving Confidence in the Estimation of Values and Norms [3.8323580808203785]
本稿では,AAがシミュレーションされたエージェントの行動に基づいて,シミュレーションされたエージェントの価値と規範を推定できる範囲について分析する。
本研究では,SHAの探索におけるあいまいさを軽減する方法として,探索空間探索に基づく手法と,対実解析に基づく手法の2つを提案する。
論文 参考訳(メタデータ) (2020-04-02T15:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。