論文の概要: SciFi-Benchmark: How Would AI-Powered Robots Behave in Science Fiction Literature?
- arxiv url: http://arxiv.org/abs/2503.10706v1
- Date: Wed, 12 Mar 2025 16:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:28.017511
- Title: SciFi-Benchmark: How Would AI-Powered Robots Behave in Science Fiction Literature?
- Title(参考訳): SciFi-Benchmark:AIで動くロボットはSF文学にどんな応用があるのか?
- Authors: Pierre Sermanet, Anirudha Majumdar, Vikas Sindhwani,
- Abstract要約: 我々は824のSF文学において重要な瞬間にまたがるベンチマークを生成する。
我々は、同様の状況下で質問を生成するために、各キーモーメントをLLMで再現する。
次に、人間の投票した回答の集合上で、モデルと人間の価値がいかにうまく一致しているかを近似する。
- 参考スコア(独自算出の注目度): 20.51881907653089
- License:
- Abstract: Given the recent rate of progress in artificial intelligence (AI) and robotics, a tantalizing question is emerging: would robots controlled by emerging AI systems be strongly aligned with human values? In this work, we propose a scalable way to probe this question by generating a benchmark spanning the key moments in 824 major pieces of science fiction literature (movies, tv, novels and scientific books) where an agent (AI or robot) made critical decisions (good or bad). We use a LLM's recollection of each key moment to generate questions in similar situations, the decisions made by the agent, and alternative decisions it could have made (good or bad). We then measure an approximation of how well models align with human values on a set of human-voted answers. We also generate rules that can be automatically improved via amendment process in order to generate the first Sci-Fi inspired constitutions for promoting ethical behavior in AIs and robots in the real world. Our first finding is that modern LLMs paired with constitutions turn out to be well-aligned with human values (95.8%), contrary to unsettling decisions typically made in SciFi (only 21.2% alignment). Secondly, we find that generated constitutions substantially increase alignment compared to the base model (79.4% to 95.8%), and show resilience to an adversarial prompt setting (23.3% to 92.3%). Additionally, we find that those constitutions are among the top performers on the ASIMOV Benchmark which is derived from real-world images and hospital injury reports. Sci-Fi-inspired constitutions are thus highly aligned and applicable in real-world situations. We release SciFi-Benchmark: a large-scale dataset to advance robot ethics and safety research. It comprises 9,056 questions and 53,384 answers, in addition to a smaller human-labeled evaluation set. Data is available at https://scifi-benchmark.github.io
- Abstract(参考訳): 人工知能(AI)とロボット工学の最近の進歩を考えると、新たなAIシステムによって制御されるロボットは人間の価値観に強く適合するのか?
本研究では,エージェント(AIやロボット)が重要な決定を下す824のSF文学(映画,テレビ,小説,科学書)の重要な瞬間を網羅するベンチマークを作成することで,この問題を探索するスケーラブルな方法を提案する。
私たちは、同様の状況における質問、エージェントによる決定、そしてそれが(良いか悪いか)実現した可能性のある代替的な決定を生成するために、各キーモーメントのLLMのリコールを使用します。
次に、人間の投票した回答の集合上で、モデルと人間の価値がいかにうまく一致しているかを近似する。
また、実世界でAIやロボットの倫理的行動を促進するための最初のSci-Fiインスパイアされた構成を生成するために、修正プロセスを通じて自動的に改善できるルールを生成する。
我々の最初の発見は、現代のLLMと憲法が組み合わさって、通常SciFi(21.2%のアライメント)でなされる不安定な決定とは対照的に、人間の価値観(95.8%)とうまく一致していることである。
第2に, 生成した構成は, ベースモデルに比べてアライメントが著しく増加し(79.4%~95.8%) , 対向的なプロンプト設定(23.3%~92.3%)に対するレジリエンスを示す。
また,ASIMOVベンチマークでは,実際の画像や病院のケガの報告から,これらのコンスティチューションが上位のパフォーマーの1つであることが判明した。
したがって、SFにインスパイアされた構成は、現実の状況において高度に整合し、適用可能である。
SciFi-Benchmarkは、ロボット倫理と安全研究を進めるための大規模なデータセットである。
9,056の質問と53,384の回答に加えて、より小さな人間ラベルによる評価セットを含んでいる。
データはhttps://scifi-benchmark.github.ioで公開されている。
関連論文リスト
- The One RING: a Robotic Indoor Navigation Generalist [58.431772508378344]
RING (Robotic Indoor Navigation Generalist) は、インボディーズ・アグノースティックな政策である。
様々なランダムなエンボディメントを大規模に組み込んだシミュレーションでのみ訓練される。
5つのシミュレーションと4つのロボットプラットフォームで平均72.1%と78.9%の成功率を達成した。
論文 参考訳(メタデータ) (2024-12-18T23:15:41Z) - ARMOR: Egocentric Perception for Humanoid Robot Collision Avoidance and Motion Planning [10.207814069339735]
ARMORはヒューマノイドロボットのための新しい自我中心の認識システムである。
我々の分散認識アプローチはロボットの空間認識を高める。
ARMORの認識は、複数の高密度ヘッドマウントと外部搭載深度カメラを備えた装置よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-30T08:39:23Z) - Generalizable Humanoid Manipulation with 3D Diffusion Policies [41.23383596258797]
我々は、ヒューマノイドロボットによる自律的な操作の問題を解決するために、現実世界のロボットシステムを構築している。
本システムは主に,人型ロボットデータを取得するための全身ロボット遠隔操作システムと,高さ調整可能なカートと3D LiDARセンサを備えた25-DoFヒューマノイドロボットプラットフォームの統合である。
1つのシーンで収集されたデータのみを使用し、オンボードコンピューティングのみで、フルサイズのヒューマノイドロボットが様々な現実世界のシナリオで自律的にスキルを発揮できることが示される。
論文 参考訳(メタデータ) (2024-10-14T17:59:00Z) - Know your limits! Optimize the robot's behavior through self-awareness [11.021217430606042]
最近の人間ロボット模倣アルゴリズムは、高精度な人間の動きを追従することに焦点を当てている。
本稿では,ロボットが参照を模倣する際の動作を予測できるディープラーニングモデルを提案する。
我々のSAW(Self-AWare Model)は、転倒確率、基準運動への固執、滑らかさといった様々な基準に基づいて、潜在的なロボットの挙動をランク付けする。
論文 参考訳(メタデータ) (2024-09-16T14:14:58Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。
実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。
結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Fleet-DAgger: Interactive Robot Fleet Learning with Scalable Human
Supervision [72.4735163268491]
ロボットの商業的および産業的な展開は、実行中にリモートの人間のテレオペレーターにフォールバックすることが多い。
我々は対話型フリートラーニング(Interactive Fleet Learning, IFL)の設定を定式化し、複数のロボットが対話型クエリを行い、複数の人間スーパーバイザーから学習する。
IFLアルゴリズムのファミリーであるFleet-DAggerを提案し、新しいFleet-DAggerアルゴリズムをシミュレーションで4つのベースラインと比較する。
論文 参考訳(メタデータ) (2022-06-29T01:23:57Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Hyperparameters optimization for Deep Learning based emotion prediction
for Human Robot Interaction [0.2549905572365809]
インセプションモジュールをベースとした畳み込みニューラルネットワークアーキテクチャを提案する。
モデルは人型ロボットNAOにリアルタイムに実装され、モデルの堅牢性を評価する。
論文 参考訳(メタデータ) (2020-01-12T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。