論文の概要: Experience and Prediction: A Metric of Hardness for a Novel Litmus Test
- arxiv url: http://arxiv.org/abs/2309.02534v1
- Date: Tue, 5 Sep 2023 19:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 17:45:11.541794
- Title: Experience and Prediction: A Metric of Hardness for a Novel Litmus Test
- Title(参考訳): 経験と予測:新しいリトマステストのための硬さのメトリクス
- Authors: Nicos Isaak and Loizos Michael
- Abstract要約: ウィノグラードチャレンジ(WSC)は、新しいリトマステストとして研究コミュニティの中心的な側面となっている。
WSC上で人間のアダルトパフォーマンスのベースラインを確立した文献から、すべてのスキーマが同じであるとは限らないことが示されている。
本稿では,機械学習(ML)に基づく新しいシステムを提案することにより,従来のどの手法よりも高速かつ高精度にWinogradスキーマの硬さを出力できることを示す。
- 参考スコア(独自算出の注目度): 1.3053649021965603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last decade, the Winograd Schema Challenge (WSC) has become a central
aspect of the research community as a novel litmus test. Consequently, the WSC
has spurred research interest because it can be seen as the means to understand
human behavior. In this regard, the development of new techniques has made
possible the usage of Winograd schemas in various fields, such as the design of
novel forms of CAPTCHAs.
Work from the literature that established a baseline for human adult
performance on the WSC has shown that not all schemas are the same, meaning
that they could potentially be categorized according to their perceived
hardness for humans. In this regard, this \textit{hardness-metric} could be
used in future challenges or in the WSC CAPTCHA service to differentiate
between Winograd schemas.
Recent work of ours has shown that this could be achieved via the design of
an automated system that is able to output the hardness-indexes of Winograd
schemas, albeit with limitations regarding the number of schemas it could be
applied on. This paper adds to previous research by presenting a new system
that is based on Machine Learning (ML), able to output the hardness of any
Winograd schema faster and more accurately than any other previously used
method. Our developed system, which works within two different approaches,
namely the random forest and deep learning (LSTM-based), is ready to be used as
an extension of any other system that aims to differentiate between Winograd
schemas, according to their perceived hardness for humans. At the same time,
along with our developed system we extend previous work by presenting the
results of a large-scale experiment that shows how human performance varies
across Winograd schemas.
- Abstract(参考訳): 過去10年間で、winograd schema challenge(wsc)は、新しいlitmusテストとして研究コミュニティの中心的側面となっている。
その結果、wscは人間の行動を理解する手段と見なすことができるため、研究の関心を喚起している。
この点において、新しい手法の開発により、captchasの新しい形態の設計など、様々な分野でwinogradスキーマの使用が可能となった。
WSCで人間の成人のパフォーマンスの基準を確立した文献から、すべてのスキーマが同じではないことが示されている。
この点に関して、この \textit{hardness-metric} は将来の課題や、Winograd スキーマを区別するために WSC CAPTCHA サービスで使用できる。
私たちの最近の研究では、適用可能なスキーマ数に関する制限はあるものの、winogradスキーマのハードネスインデックスを出力できる自動システムの設計によって、これが実現可能であることが示されています。
本稿では,機械学習(ML)に基づく新しいシステムを提案することにより,従来のどの手法よりも高速かつ高精度にWinogradスキーマの硬さを出力できることを示す。
我々の開発システムは、ランダムフォレストとディープラーニング(LSTM)という2つの異なるアプローチで機能するが、人間の認識する硬さに応じて、ウィノグラードのスキーマを区別することを目的とした他のシステムの拡張として使用できる。
同時に,我々の開発したシステムとともに,winogradスキーマ間で人間のパフォーマンスがどのように変化するかを示す大規模実験の結果を提示することにより,これまでの作業を拡張する。
関連論文リスト
- A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Picturing Ambiguity: A Visual Twist on the Winograd Schema Challenge [5.326589324665934]
WinoVisは、マルチモーダルコンテキストにおける代名詞の曖昧さに関するテキスト・ツー・イメージ・モデルに特化して設計されたデータセットである。
連続したモデルバージョンの評価によると、段階的な進歩にもかかわらず、Stable Diffusion 2.0はWinoVisで56.7%の精度を達成した。
さらなるエラー分析は、複雑な視覚の世界を解釈し、相互作用する能力において、テキスト・ツー・イメージ・モデルを進めることを目的とした将来の研究にとって重要な領域を特定する。
論文 参考訳(メタデータ) (2024-05-25T15:28:22Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - A Human-Machine Collaboration Framework for the Development of Schemas [0.0]
ウィノグラードチャレンジ(WSC)は、人間の行動を示すシステムの開発に光を当てるために提案されている。
我々は、人間と機械がチームメイトとしてどのように協力し、スクラッチから新しいスキーマを設計できるかを明確にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-06T15:41:49Z) - Generalised Winograd Schema and its Contextuality [0.0]
機械の知性を評価するために、2011年にレレスケが提案したウィノグラードチャレンジ(WSC)について検討する。
WSCは、ウィノグラードスキーマに従って構成された文の曖昧な代名詞を必要とする複数の選択質問の集合で構成されている。
オリジナルのWinogradは本質的に、文脈性を促進するには単純すぎる、と我々は主張する。
本稿では,Bell-CHSH測定シナリオに類似したスキーマを一般化するための新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-08-31T07:00:21Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Memorizing Complementation Network for Few-Shot Class-Incremental
Learning [109.4206979528375]
本稿では,新しいタスクにおいて,異なる記憶された知識を補う複数のモデルをアンサンブルするために,MCNet(Memorizing Complementation Network)を提案する。
原型スムージング・ハードマイニング・トリプルト(PSHT)の損失を現時点の課題だけでなく,従来の分布からも引き離すために開発した。
論文 参考訳(メタデータ) (2022-08-11T02:32:41Z) - The Defeat of the Winograd Schema Challenge [39.330793509288284]
ウィノグラードチャレンジは2011年にヘクター・レヴェスクによって提案された。
本稿では,ウィノグラードチャレンジの歴史を概観し,その意義を評価する。
論文 参考訳(メタデータ) (2022-01-07T10:22:08Z) - WinoWhy: A Deep Diagnosis of Essential Commonsense Knowledge for
Answering Winograd Schema Challenge [55.39835612617972]
ウィノグラードチャレンジ(WSC)に答えるために,本質的なコモンセンス知識の包括的分類を初めて提示する。
それぞれの質問に対して、まずアノテータを招待し、正しい判断をする理由を提供し、次にそれらを6つの主要な知識カテゴリに分類する。
我々はWinoWhyと呼ばれる新しいタスクを開発しています。これは、モデルがすべてのWSC質問に対して非常によく似ているが間違った理由から、もっともらしい理由を区別する必要があります。
論文 参考訳(メタデータ) (2020-05-12T13:40:06Z) - A Review of Winograd Schema Challenge Datasets and Approaches [39.330793509288284]
ウィノグラードチャレンジ(Winograd Challenge)は、チューリングテストの代替として導入された常識的推論チャレンジである。
ウィノグラードスキーマ(ウィノグラードスキーマ、Winograd schema)は、1つまたは2つの単語で異なる一対の文で、非常にあいまいな代名詞を持ち、2つの文で異なる方法で解決される。
本稿では、導入以来発行されてきた既存のWinograd Challengeベンチマークデータセットとアプローチについてレビューする。
論文 参考訳(メタデータ) (2020-04-23T08:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。