論文の概要: GAIA: a benchmark for General AI Assistants
- arxiv url: http://arxiv.org/abs/2311.12983v1
- Date: Tue, 21 Nov 2023 20:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:10:58.593381
- Title: GAIA: a benchmark for General AI Assistants
- Title(参考訳): GAIA:General AI Assistantsのベンチマーク
- Authors: Gr\'egoire Mialon, Cl\'ementine Fourrier, Craig Swift, Thomas Wolf,
Yann LeCun, Thomas Scialom
- Abstract要約: 一般AIアシスタントのベンチマークであるGAIAを紹介します。
GAIAは、推論、マルチモーダリティハンドリング、Webブラウジング、一般的なツール使用の習熟度といった基本的な能力を必要とする現実世界の質問を提案する。
プラグインを装着した GPT-4 では, GPT-4 が 92% 対 15% の回答を得た。
- 参考スコア(独自算出の注目度): 31.717241753626926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GAIA, a benchmark for General AI Assistants that, if solved,
would represent a milestone in AI research. GAIA proposes real-world questions
that require a set of fundamental abilities such as reasoning, multi-modality
handling, web browsing, and generally tool-use proficiency. GAIA questions are
conceptually simple for humans yet challenging for most advanced AIs: we show
that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins.
This notable performance disparity contrasts with the recent trend of LLMs
outperforming humans on tasks requiring professional skills in e.g. law or
chemistry. GAIA's philosophy departs from the current trend in AI benchmarks
suggesting to target tasks that are ever more difficult for humans. We posit
that the advent of Artificial General Intelligence (AGI) hinges on a system's
capability to exhibit similar robustness as the average human does on such
questions. Using GAIA's methodology, we devise 466 questions and their answer.
We release our questions while retaining answers to 300 of them to power a
leader-board available at https://huggingface.co/gaia-benchmark.
- Abstract(参考訳): gaiaは一般のaiアシスタントのためのベンチマークで、解決すればai研究のマイルストーンとなるでしょう。
GAIAは、推論、マルチモーダリティハンドリング、Webブラウジング、一般的なツール使用の習熟度といった基本的な能力を必要とする現実世界の質問を提案する。
GAIAの質問は、最も先進的なAIでは難しいが、概念的には単純である: プラグインを備えたGPT-4では、人間の回答者が92\%対15\%を得ることを示す。
この顕著な性能格差は、法律や化学などの専門的な技術を必要とする仕事において人間よりも優れたLLMの傾向とは対照的である。
GAIAの哲学は、AIベンチマークの現在の傾向から離れて、人間にとってより難しいタスクを目標にすることを示唆している。
我々は、AI(Artificial General Intelligence, AGI)の出現は、平均的な人間がそのような質問に対して行うような堅牢性を示すシステムの能力に基づいていると仮定する。
GAIAの方法論を用いて466の質問とその回答を考案する。
私たちは質問を公開し、回答を300に保ち、https://huggingface.co/gaia-benchmark.comで利用可能なリーダーボードを動かしています。
関連論文リスト
- Raising the Stakes: Performance Pressure Improves AI-Assisted Decision Making [57.53469908423318]
日常の人が共通のAI支援タスクを完了すると、パフォーマンスプレッシャーがAIアドバイスへの依存に与える影響を示す。
利害関係が高い場合には、AIの説明の有無にかかわらず、利害関係が低い場合よりもAIアドバイスを適切に使用することが分かりました。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - GPQA: A Graduate-Level Google-Proof Q&A Benchmark [36.646784216263626]
GPQAは、生物学、物理学、化学の分野の専門家によって書かれた448の多重選択質問のデータセットである。
対応する領域で博士号を取得または追跡している専門家は、精度が65%に達する(専門家が振り返りで特定した明確なミスを割引する場合の74%)。
高度に熟練した非熟練のバリデーターは34%の精度にしか達しないが、ウェブへの制限のないアクセスで平均30分以上費やされている(つまり、質問は「Googleで守られている」)。
論文 参考訳(メタデータ) (2023-11-20T18:57:34Z) - One Small Step for Generative AI, One Giant Leap for AGI: A Complete
Survey on ChatGPT in AIGC Era [95.2284704286191]
GPT-4(別名ChatGPT Plus)は、生成型AI(GAI)の1つの小さなステップであるが、人工知能(AGI)の1つの大きな飛躍である。
2022年11月に公式リリースされて以来、ChatGPTは急速に多くのユーザーを惹きつけてきた。
この研究は、ChatGPTを基盤技術、アプリケーション、課題に関する包括的なレビューで調査した初めてのものである。
論文 参考訳(メタデータ) (2023-04-04T06:22:09Z) - HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face [85.25054021362232]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を示した。
LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。
本稿では,機械学習コミュニティのさまざまなAIモデルを接続するLLMエージェントであるHuggingGPTを紹介する。
論文 参考訳(メタデータ) (2023-03-30T17:48:28Z) - A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to
GPT-5 All You Need? [112.12974778019304]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。
純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。
本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-21T10:09:47Z) - AI-in-the-Loop -- The impact of HMI in AI-based Application [0.0]
我々は,AIと人間の強みを組み合わせたループ型AIの概念を導入する。
AIを使用した推論でHMIを有効にすることで、AIと人間の強みを組み合わせた、ループ内のAIの概念を導入します。
論文 参考訳(メタデータ) (2023-03-21T00:04:33Z) - Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。
実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。
結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。