論文の概要: A Theoretically Grounded Benchmark for Evaluating Machine Commonsense
- arxiv url: http://arxiv.org/abs/2203.12184v1
- Date: Wed, 23 Mar 2022 04:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 07:04:09.185857
- Title: A Theoretically Grounded Benchmark for Evaluating Machine Commonsense
- Title(参考訳): 機械コモンセンス評価のための理論的基盤ベンチマーク
- Authors: Henrique Santos, Ke Shen, Alice M. Mulvehill, Yasaman Razeghi, Deborah
L. McGuinness, Mayank Kejriwal
- Abstract要約: 理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
- 参考スコア(独自算出の注目度): 6.725087407394836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Programming machines with commonsense reasoning (CSR) abilities is a
longstanding challenge in the Artificial Intelligence community. Current CSR
benchmarks use multiple-choice (and in relatively fewer cases, generative)
question-answering instances to evaluate machine commonsense. Recent progress
in transformer-based language representation models suggest that considerable
progress has been made on existing benchmarks. However, although tens of CSR
benchmarks currently exist, and are growing, it is not evident that the full
suite of commonsense capabilities have been systematically evaluated.
Furthermore, there are doubts about whether language models are 'fitting' to a
benchmark dataset's training partition by picking up on subtle, but normatively
irrelevant (at least for CSR), statistical features to achieve good performance
on the testing partition. To address these challenges, we propose a benchmark
called Theoretically-Grounded Commonsense Reasoning (TG-CSR) that is also based
on discriminative question answering, but with questions designed to evaluate
diverse aspects of commonsense, such as space, time, and world states. TG-CSR
is based on a subset of commonsense categories first proposed as a viable
theory of commonsense by Gordon and Hobbs. The benchmark is also designed to be
few-shot (and in the future, zero-shot), with only a few training and
validation examples provided. This report discusses the structure and
construction of the benchmark. Preliminary results suggest that the benchmark
is challenging even for advanced language representation models designed for
discriminative CSR question answering tasks.
Benchmark access and leaderboard:
https://codalab.lisn.upsaclay.fr/competitions/3080 Benchmark website:
https://usc-isi-i2.github.io/TGCSR/
- Abstract(参考訳): コモンセンス推論(CSR)能力を持つプログラミングマシンは、人工知能コミュニティにおいて長年の課題である。
現在のCSRベンチマークでは、マシンコモンセンスを評価するために、複数の選択(および比較的少ないケースでは、生成的な)質問回答インスタンスを使用している。
最近のトランスフォーマティブ言語表現モデルの進歩は、既存のベンチマークでかなりの進歩があったことを示唆している。
しかし、数万のcsrベンチマークが現在存在し、増え続けているが、完全なcommonsense能力が体系的に評価されていることは明らかではない。
さらに、ベンチマークデータセットのトレーニングパーティションに対して、(少なくともCSRでは)微妙だが規範的に無関係な(テストパーティション上での優れたパフォーマンスを実現するための統計的特徴を取り上げることで、言語モデルが"適合"しているかどうかに疑問がある。
これらの課題に対処するため, 空間, 時間, 世界状態などの多彩なコモンセンスの側面を評価するために, 識別的質問応答にもとづくTG-CSR(Theoryly-Grounded Commonsense Reasoning)というベンチマークを提案する。
TG-CSRはゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
ベンチマークは、わずかなトレーニングと検証の例しか提供されていない(将来的にはゼロショット)ようにも設計されている。
本報告ではベンチマークの構造と構成について述べる。
予備結果は,csr質問応答タスクを識別するために設計された高度な言語表現モデルにおいても,ベンチマークは困難であることを示唆している。
ベンチマークアクセスとリーダーボード: https://codalab.lisn.upsaclay.fr/competitions/3080 benchmark website: https://usc-isi-i2.github.io/tgcsr/
関連論文リスト
- Can we hop in general? A discussion of benchmark selection and design using the Hopper environment [12.18012293738896]
我々は、強化学習におけるベンチマークは科学の分野として扱う必要があると論じている。
ケーススタディでは、標準的なベンチマークスイートの選択が、アルゴリズムのパフォーマンスの判断方法を大きく変える可能性があることを示しています。
論文 参考訳(メタデータ) (2024-10-11T14:47:22Z) - IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文 参考訳(メタデータ) (2024-09-24T05:39:53Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文 参考訳(メタデータ) (2021-02-01T18:55:38Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z) - Do Fine-tuned Commonsense Language Models Really Generalize? [8.591839265985412]
厳密な科学的研究を設計・実施することで、一般化問題を詳細に研究する。
実験装置の適度な変更があっても、微調整されたコモンセンス言語モデルがまだうまく一般化していないという明確な証拠が得られます。
論文 参考訳(メタデータ) (2020-11-18T08:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。