論文の概要、ライセンス

# (参考訳) 直答質問の回答は解けたか? AI2を直接答えるTry ARC-DA [全文訳有]

Think you have Solved Direct-Answer Question Answering? Try ARC-DA, the Direct-Answer AI2 Reasoning Challenge ( http://arxiv.org/abs/2102.03315v1 )

ライセンス: CC BY 4.0
Sumithra Bhakthavatsalam, Daniel Khashabi, Tushar Khot, Bhavana Dalvi Mishra, Kyle Richardson, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord, Peter Clark(参考訳) 我々は、ARC(AI2 Reasoning Challenge)多重選択データセットの直接回答(オープン応答、フリーフォーム)バージョンであるARC-DAデータセットを提案する。 ARCはコミュニティで影響力を持っているが、その複数選択形式は現実世界の質問には表れず、複数の選択形式はアーティファクトに対して特に影響を受けやすい。 ARC-DAデータセットは、クラウドソーシングとエキスパートレビューを組み合わせて質問を直接回答形式に変換することで、これらの懸念に対処する。 その結果得られたデータセットには、合計8436の有効回答を含む2985の質問が含まれている(質問は通常、複数の有効回答がある)。 ARC-DAは、しばしば推論を必要とする自然問題の最初のDAデータセットの1つであり、適切な質問分解が質問自体から明らかでない。 本稿では, 変換手法, 適切な評価基準, 強力なモデルについて述べる。 高いが、ベストスコア(81% GENIE、61.4% F1、63.2% ROUGE-L)はまだ改善の余地を残している。 さらに、このデータセットは、多くの質問が答えを構築するために推論を必要とするため、説明に関する新しい研究に自然な設定を提供する。 データセットがコミュニティによる複雑な質問処理のさらなる進歩を促すことを期待している。 ARC-DAはhttps://allenai.org/ data/arc-daで入手できます。

We present the ARC-DA dataset, a direct-answer ("open response", "freeform") version of the ARC (AI2 Reasoning Challenge) multiple-choice dataset. While ARC has been influential in the community, its multiple-choice format is unrepresentative of real-world questions, and multiple choice formats can be particularly susceptible to artifacts. The ARC-DA dataset addresses these concerns by converting questions to direct-answer format using a combination of crowdsourcing and expert review. The resulting dataset contains 2985 questions with a total of 8436 valid answers (questions typically have more than one valid answer). ARC-DA is one of the first DA datasets of natural questions that often require reasoning, and where appropriate question decompositions are not evident from the questions themselves. We describe the conversion approach taken, appropriate evaluation metrics, and several strong models. Although high, the best scores (81% GENIE, 61.4% F1, 63.2% ROUGE-L) still leave considerable room for improvement. In addition, the dataset provides a natural setting for new research on explanation, as many questions require reasoning to construct answers. We hope the dataset spurs further advances in complex question-answering by the community. ARC-DA is available at https://allenai.org/ data/arc-da
公開日: Fri, 5 Feb 2021 17:41:43 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Think you have Solved Direct-Answer Question Answering? 直答質問の回答は解けたか? 0.72
Try ARC-DA, the Direct-Answer AI2 Reasoning Challenge AI2を直接答えるTry ARC-DA 0.80
Sumithra Bhakthavatsalam, Daniel Khashabi, Tushar Khot, Bhavana Dalvi Mishra, Kyle Richardson, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord, Peter Clark Sumithra Bhakthavatsalam, Daniel Khashabi, Tushar Khot, Bhavana Dalvi Mishra, Kyle Richardson, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord, Peter Clark 0.85
{sumithrab,danielk,tu shark,bhavanad,kyler ,ashishs,carissas,oy vindt,peterc}@allenai.org classsumithrab,danie lk,tushark,bhavanad, kyler,ashishs,cariss as,oyvindt,peterc}@allenai.org 0.85
Allen Institute for Artificial Intelligence, Seattle, WA, U.S.A. allen institute for artificial intelligence, seattle, wa, u.s.a. 0.75
1 2 0 2 b e F 5 1 2 0 2 b e F 5 0.85
] L C . s c [ ] L C。 sc [ 0.62
1 v 5 1 3 3 0 1 v 5 1 3 3 0 0.85
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract We present the ARC-DA dataset, a direct-answer (“open response”, “freeform”) version of the ARC (AI2 Reasoning Challenge) multiple-choice dataset. 概要 ARC(AI2 Reasoning Challenge)多重選択データセットの直接回答(“オープン応答”,“フリーフォーム”)版であるARC-DAデータセットを提示する。 0.64
While ARC has been influential in the community, its multiple-choice format is unrepresentative of real-world questions, and multiple choice formats can be particularly susceptible to artifacts. ARCはコミュニティで影響力を持っているが、その複数選択形式は現実世界の質問には表れず、複数の選択形式はアーティファクトに対して特に影響を受けやすい。 0.59
The ARCDA dataset addresses these concerns by converting questions to direct-answer format using a combination of crowdsourcing and expert review. ARCDAデータセットは、クラウドソーシングとエキスパートレビューを組み合わせて質問を直接回答形式に変換することで、これらの懸念に対処する。 0.55
The resulting dataset contains 2985 questions with a total of 8436 valid answers (questions typically have more than one valid answer). その結果得られたデータセットには、合計8436の有効回答を含む2985の質問が含まれている(質問は通常、複数の有効回答がある)。 0.60
ARC-DA is one of the first DA datasets of natural questions that often require reasoning, and where appropriate question decompositions are not evident from the questions themselves. ARC-DAは、しばしば推論を必要とする自然問題の最初のDAデータセットの1つであり、適切な質問分解が質問自体から明らかでない。 0.73
We describe the conversion approach taken, appropriate evaluation metrics, and several strong models. 本稿では, 変換手法, 適切な評価基準, 強力なモデルについて述べる。 0.63
Although high, the best scores (81% GENIE, 61.4% F1, 63.2% ROUGE-L) still leave considerable room for improvement. 高いが、ベストスコア(81% GENIE、61.4% F1、63.2% ROUGE-L)はまだ改善の余地を残している。 0.60
In addition, the dataset provides a natural setting for new research on explanation, as many questions require reasoning to construct answers. さらに、このデータセットは、多くの質問が答えを構築するために推論を必要とするため、説明に関する新しい研究に自然な設定を提供する。 0.61
We hope the dataset spurs further advances in complex questionanswering by the community.1 このデータセットがコミュニティによる複雑な質問応答のさらなる進歩を助長することを願っている。 0.49
Introduction Multiple-choice (MC) datasets are popular and common in the NLP community, e.g., CommonsenseQA (Talmor et al., 2019), OpenbookQA (Mihaylov et al., 2018), and VCR (Zellers et al., 2019), in particular because of the ease of automatic evaluation. はじめに NLPコミュニティでは、CommonsenseQA(Talmor et al., 2019)、OpenbookQA(Mihaylov et al., 2018)、VCR(Zellers et al., 2019)などのマルチチョイスデータセットが一般的である。
訳抜け防止モード: はじめに 複数選択(MC)データセットは、NLPコミュニティで人気があり、一般的です。 例:CommonsenseQA (Talmor et al., 2019)。 OpenbookQA(Mihaylov et al., 2018)とVCR(Zellers et al., 2019)。 特に自動評価の容易さのために。
0.62
However, they have two notable drawbacks: First, they are unnatural (real-world questions rarely come with answer options). しかし、2つの顕著な欠点があります: まず、それらは不自然です(現実世界の質問はめったに答えのオプションが付属しません)。 0.56
Second, the multiple-choice format is particularly susceptible to artifacts, where systems learn short-cuts to obtain a high score (Gururangan et al., 2018). 第2に、マルチ選択フォーマットは特にアーティファクトに影響を受けやすく、システムは高いスコアを得るためにショートカットを学習する(Gururangan et al., 2018)。 0.59
Similarly, while there are many NLP datasets of directanswer questions (also called “open response” or “freeform” questions), e.g., SQuaD (Rajpurkar et al., 2016), TriviaQA (Joshi et al., 2017), and NaturalQuestions (Kwiatkowski et al., 2019), the majority of these are span-retrieval (“lookup”) tasks where a question is matched against a given/retrieved sentence or paragraph to identify an answer span. 同様に、SQuaD(Rajpurkar et al., 2016)、TriviaQA(Joshi et al., 2017)、NaturalQuestions(Kwi atkowski et al., 2019)など、直接回答する質問のNLPデータセット("open response" または "freeform" question とも呼ばれる)が存在するが、その大半は、質問が与えられた/検索された文や段落と一致して回答の範囲を特定するためのスパン検索("lookup" )タスクである。 0.81
The few DA datasets that do target reasoning, e.g., ターゲット推論を行ういくつかのDAデータセット、例えば、 0.71
1ARC-DA is available at https://allenai.org/ data/arc-da 1ARC-DAはhttps://allenai.org/ data/arc-daで入手できます。 0.36
MC: Many animals depend on plants for (A) shelter [correct] (B) pollination (C) seed dispersal (D) sunlight DA: Many animals depend on plants for what? MC: 多くの動物は、(A)シェルター[正しい](B)受粉(C)種子分散(D)日光DA:多くの動物は、何のために植物に依存しますか? 0.84
food | shelter MC: A solution with a pH of 2 can be increased to a pH above 7 by adding (A) an acid. food | shelter MC: 2 の pH を持つ溶液は、(A) 酸を加えることで、7 以上の pH に増やすことができる。 0.88
(B) water. (C) a base. (B)水。 (C)ベース。 0.70
[correct] (D) hydrogen. 水素[正しい](D)。 0.60
DA: A solution with a pH of 2 can be increased to a pH above 7 by adding what? DA: 2のpHを持つソリューションは、何を追加することで7以上のpHに増やすことができますか? 0.76
a base base (複数形 bases) 0.35
What best describes skin? (A) stiff (B) flexible [correct] (C) brittle (D) hard DA: [Rejected: Too ambiguous as a DA question] MC: Water freezing is an example of a (A) liquid changing to a solid [correct] (B) solid changing to a liquid (C) gas changing to a solid (D) gas changing to a liquid DA: Water freezing is an example of what? 皮膚とは何か? (a)硬度(b)硬度(b)硬度(c)脆性(d)硬度da: [rejected: too ambiguous as a da question] mc: 水凍結は(a)固形(b)固形(c)固形(d)ガスに変わる固形(c)固形(d)ガスに変わる固形(d):水凍結とは何かの例である。 0.62
liquid changing to a solid | phase transition | change of state of matter | a change in state | state change MC: How are the stem of a tree and the stem of a flower most similar? 固体に変化する液体 | 相転移 | 物質の状態の変化 | 状態の変化 | 状態の変化 MC: 木の茎と花の茎はどのように似ていますか? 0.77
(A) Both are soft. (A)どちらも柔らかいです。 0.79
(B) Both have thorns. (B)両方にくさびがある。 0.65
(C) Both support the plant. (C) どちらも植物を支えます。 0.72
[correct] (D) Both have woody bark. [正しい] (D)両方木質の樹皮があります。 0.74
DA: How are the stem of a tree and the stem of a flower most similar? DA: 木の茎と花の茎はどのように似ていますか? 0.77
both support the plant | support leaves | both carry water | both carry nutrients | they support the plant どちらも植物をサポートする | サポート葉 | どちらも水を運ぶ | 両方の栄養素を運ぶ | 彼らは植物をサポートする。 0.61
Figure 1: Multiple-choice (MC) questions from ARC, and their direct answer (DA) equivalents in the new ARC-DA dataset. 図1:ARCからの複数選択(MC)質問とその直接回答(DA)は、新しいARC-DAデータセットで等価です。 0.79
Alternative DA answers are separated by a |. 代替 DA の答えは | で区切られます。 0.64
HotpotQA (Yang et al., 2018), DROP (Dua et al., 2019), and ROPES (Lin et al., 2019), are crowdsourced, and thus tend to explore a single, specific style of reasoning in a controlled setting. HotpotQA (Yang et al., 2018), DROP (Dua et al., 2019), ROPES (Lin et al., 2019) はクラウドソースされているため、制御された環境では単一の特定の推論スタイルを探索する傾向がある。 0.83
What is missing, still, are direct-answer (DA) datasets of natural questions exploring a wide variety of problem types and reasoning styles, and where answers are not constrained to be spans of a source text. それでも欠けているのは,さまざまな問題タイプや推論スタイルを探求する自然質問の直接的なアンサー(da)データセットであり,回答がソーステキストのスパンに制限されない点だ。 0.78
This work alleviates this gap by supplying such a dataset, namely ARC-DA, a direct-answer version of the ARC (AI2 Reasoning Challenge) multiplechoice dataset (Clark et al., 2018). この作業は、ARC(AI2 Reasoning Challenge)マルチチョイスデータセット(Clark et al., 2018)の直接回答バージョンであるARC-DAというデータセットを提供することによって、このギャップを緩和する。 0.76
Note that ARC-DA questions are not necessarily more difficult than the original ARC questions (we find scores on ARC-DA are roughly similar to those on ARC), rather they are more natural, avoiding the ARC-DAの質問は、オリジナルのARCの質問よりも必ずしも難しいわけではないことに注意してください(ARC-DAのスコアはARCの質問とほぼ似ています)。 0.82
英語(論文から抽出)日本語訳スコア
multiple-choice format. multiple-choiceフォーマット。 0.70
The original ARC dataset contained questions collected from a large number of science exam and quiz sources. オリジナルのARCデータセットには、多数の科学試験とクイズソースから収集された質問が含まれている。 0.69
It has proven useful for the community, stimulating new research in reasoning-based QA, e.g., (Musa et al., 2019; Boratko et al., 2018; Ni et al., 2019; Xie et al., 2020), and as of January 2021 has 35 entries on its leaderboard2. 例えば、推論ベースのQA(Musa et al., 2019; Boratko et al., 2018; Ni et al., 2019; Xie et al., 2020)における新しい研究を刺激し、2021年1月現在、リーダーボード2に35のエントリがある。
訳抜け防止モード: 有用であることが証明された コミュニティにとって、推論の新しい研究を刺激する - ベースのQA 例:Musa et al , 2019; Boratko et al ., 2018; Ni et al ., 2019; Xie et al . 2021年1月現在、リーダーボード2には35のエントリーがある。
0.84
ARC is particularly interesting from an NLP perspective: the questions were authored by human experts (e.g., examination boards), they are sensible and high quality, they avoid the repetition common to crowdsourced datasets, they are highly varied in both the language they use and the reasoning skills they are designed to probe, and they are practical, understandable, and motivating. ARCは特にNLPの観点から興味深い:質問は人間の専門家(例えば審査委員会)によって作成されました。それらは賢明で高品質であり、クラウドソースされたデータセットに共通する繰り返しを避け、使用する言語と調査用に設計された推論スキルの両方において非常に多様であり、実用的、理解可能、そして動機付けです。 0.67
Arguably, the combination of these factors makes the dataset a useful “Grand Challenge” for the field (Clark and Etzioni, 2016) (The current top score on ARC-Challenge is 81.1%, thus still with room for improvement). これらの要素の組み合わせは、データセットをこの分野に有用な“グランドチャレンジ”(Clark and Etzioni, 2016)にする(ARC-Challengeの現在のトップスコアは81.1%であり、改善の余地がある)。 0.79
The work here, ARC-DA, thus builds on this, providing a direct-answer version of part of the ARC dataset. ここでの作業であるARC-DAはこれに基づいて構築されており、ARCデータセットの一部を直接回答するバージョンを提供する。 0.69
Several examples of original ARC questions and the ARCDA versions are shown in Figure 1. 元のARC質問のいくつかの例とARCDAバージョンを図1に示す。 0.84
We first describe the method used for the conversion, and then present baseline scores using strong T5-based models. まず変換に使用する方法を説明し,次に強力なT5モデルを用いてベースラインスコアを示す。 0.78
Evaluating DA questions poses an additional challenge, compared with scoring MC questions. da質問の評価は、mc質問のスコアと比較すると、追加の課題となる。 0.47
To address this challenge, we use both human judgements (obtained with GENIE, an automated crowdscoring pipeline (Khashabi et al., 2021)), and automated metrics. この課題に対処するために、私たちは人間の判断(genie、自動化されたクラウドスコーリングパイプライン(khashabi et al., 2021))と自動メトリクスの両方を使用します。 0.71
Although high, the best scores (81% GENIE, 61.4% F1, 63.2% ROUGE-L) still leave considerable room for improvement. 高いが、ベストスコア(81% GENIE、61.4% F1、63.2% ROUGE-L)はまだ改善の余地を残している。 0.60
In addition, the dataset provides a natural setting for new research on explanation, as many questions require reasoning to construct answers. さらに、このデータセットは、多くの質問が答えを構築するために推論を必要とするため、説明に関する新しい研究に自然な設定を提供する。 0.61
We encourage the community to make use of this dataset to make further progress in advanced questionanswering. 我々は、このデータセットをコミュニティに利用して、高度な質問応答をさらに進歩させることを奨励します。 0.55
ARC-DA Dataset ARC-DA データセット 0.54
Na¨ıvely, one can convert MC to DA simply by removing the answer choices, and using the correct answer choice as the target answer.3 However, there are several problems that can arise: • There may be multiple ways of wording the correct an- 答えの選択を取り除き、正しい答えの選択をターゲットの答えとして使うだけで、mcをdaに変換することができるが、3 ではいくつかの問題が発生する:• 正しい an を複数の単語で表す方法があるかもしれない。 0.70
• There may be multiple possible correct answers, and in •複数の正しい答えがあるかもしれないし、その中に 0.70
some cases too many to enumerate all of them. それら全てを列挙するには 多すぎるケースもあります 0.57
• The question itself may be ill-defined without answer op- 質問自体は、答えなしでは未定義です。 0.57
swer. tions. To address these problems, we convert the 7787 ARC MC questions to DA using the process described below. スワー。 イオンだ これらの問題に対処するため、以下のプロセスを用いて7787 ARC MC質問をDAに変換する。 0.55
Crowdworker Annotation We start with a large scale crowdsourcing process to filter questions to those suitable for the DA setting and collect alternative correct answers for them: Crowdworker Annotation まず、大規模なクラウドソーシングプロセスから、DA設定に適した質問をフィルタリングし、その代替的な正しい回答を収集します。 0.66
2https://leaderboard .allenai.org/arc/sub missions/public 3Indeed, this is the approach taken by (Lin et al., 2020) to use 2https://leaderboard .allenai.org/arc/sub missions/public 3これは(Lin et al., 2020)が使用するアプローチです。 0.69
(a filtered subset of) ARC in a direct-answer setting. (フィルタされたARCのサブセット) 直接答えの設定。 0.81
2 1. Initial Question Filtering: Remove questions where the question sentence4 contains one of several empiricallychosen filter phrases, e.g., “Which of”.5 Questions containing these phrases were observed to usually be illformed without the answer options, e.g., “Which of these items contains only a liquid?”. 2 1. 初期質問フィルタリング:質問文4がいくつかの経験的に選択されたフィルタフレーズの1つを含む質問を削除します。例えば、これらのフレーズを含む5つの質問は通常、「これらの項目には液体のみが含まれていますか? 0.83
2. Collecting Answers: Each question was then posed to five independent crowdworkers as a DA question, and the workers were asked to: • Answer the question (enter a free-form answer). 2. 回答を収集する: 各質問は、da質問として5人の独立した群衆労働者に提示され、労働者は以下の質問に答える(自由形式の回答に入る)。 0.77
If there were multiple answers, they were asked to enter two or three. 複数の回答があった場合、2つまたは3つ入力するように求められた。 0.65
• Identify if the question had one, several, or many an- •質問が1つ、数つ、または数つあるかどうかを判断する 0.62
swers, or if the question was nonsensical. サーズか それとも 疑問が無意味だったか 0.50
If the question was too ambiguous or nonsensical, the crowdworker had the option of not providing an answer. もし質問があいまいすぎる、あるいは無意味すぎる場合、群衆労働者は答えを提供しない選択肢があった。 0.71
The crowdworker interface is shown in Appendix A. crowdworkerインターフェースは、appendix aで表示されます。 0.69
3. Additional Filtering: The questions were further filtered, 3. 追加フィルタリング: 質問はさらにフィルタリングされた。 0.82
only retaining: • questions that had answers from at least two workers. 唯一の保持: •少なくとも2人の労働者からの回答があった質問。 0.67
• questions where at least two worker-provided answers •少なくとも2人の労働者が回答する質問 0.66
had some non-stop-word overlap. ノンストップワードの重複があった。 0.48
Otherwise the question was deemed too open-ended and rejected. さもなければ、質問はあまりにもオープンエンドであり、却下された。 0.38
In-House Review The resulting questions were then reviewed by in-house (“expert”) workers, who performed the following operations: 1. In-House Review その結果得られた質問は、社内の(「専門家」)労働者によってレビューされました。 0.63
Question Filtering: Rejected questions that still ap- 質問フィルタリング:まだapである拒否された質問 0.61
peared too open-ended (e.g., “Name an insect.”). peared too open-ended(例えば「昆虫の名前」)。 0.78
2. Answer Verification: Reviewed crowdworker answers to remove incorrect answers, and add additional missed answers. 2. 回答検証:crowdworkerの回答をレビューして、不正確な回答を削除し、さらに失敗した回答を追加する。 0.72
3. Question Rewording: Reworded questions that were poorly phrased or incomplete as standalone questions, e.g., “The cell structure that makes a plant cell more rigid than an animal cell is the” becomes “The cell structure that makes a plant cell more rigid than an animal cell is called what?” 3. 質問再語:「動物細胞よりも植物細胞をより硬くする細胞構造は動物細胞よりも硬くする細胞構造は何か」など、スタンドアロンの質問として不十分または不完全であった単語付き質問は、「動物細胞よりも植物細胞をより硬くする細胞構造は、何と呼ばれますか? 0.79
4. Answer Modification: For long (wordy) answers, ensure that a shorter version including just the salient terms is also present. 4. 答えの修正:長い(単語の)答えのために、salient言葉だけを含むより短い版がまた存在することを保障して下さい。 0.76
For example, for the question: “In what form does water vapor exist in the atmosphere?”, the crowdworkers gave two answers: “An invisible gas in the air”, and “An invisible gas”. 例えば、「大気中の水蒸気はどんな形で存在するのか」という問いに対して、群衆は「大気中の目に見えないガス」と「目に見えないガス」の2つの答えを与えました。 0.79
As the simple answer “gas” is sufficient for this question, the expert would add “gas” as an additional answer option. 単純な答えである “gas” は、この質問には十分であるので、専門家は "gas" を追加の回答オプションとして追加するでしょう。 0.72
4Many questions are multi-sentence, with a preamble before the 4つの質問は多文であり、前文は前文である。 0.50
actual question sentence. 5The filter phrases are: which of, most, best, least, est, order, supports, characteristic, trait, which object, which statement, below, which is, which are, example, which term, conclusion, which would, which item, which action, which two, which sentence, which one, sequence, which fact, which <VERB>. 実際の質問文。 5) フィルタ句は以下のとおりである: 最善のest, 順序, サポート, 特徴, 特徴, 特徴, 対象, 下記のどの文, どの語, どの語, どの項目, どの項目, どの文, どの文, どれがシーケンス, どの事実, どれがverb>であるか。 0.61
英語(論文から抽出)日本語訳スコア
num. questions num. answers per qn (avg) num. ヌム 質問は? qn (avg) numごとの答え。 0.55
words per answer (avg) 答え(avg)ごとの単語 0.87
Train Dev 338 1250 2.75 2.72 1.94 2.11 列車Dev 338 1250 2.75 2.72 1.94 2.11 0.56
Test 1397 2.92 2.27 テスト1397 2.92 2.27 0.59
Table 1: Statistics of ARC-DA, with 2985 total questions. 表1:ARC-DAの統計、合計2985の質問。 0.78
Rating strongly agree agree neutral disagree strongly disagree 格付けに強く同意する 中立性に強く同意する 0.60
Score 1.00 0.75 0.50 0.25 0.00 Score 1.00 0.75 0.50 0.25 0.00 0.48
Table 2: GENIE’s crowdworker ratings of a model’s answers are mapped to real-value scores as shown. 表2: GENIEのクラウドワーカーによるモデル回答の評価は、示すように、実値スコアにマップされる。 0.75
Knowledge Types This process was run over the entire ARC question set. 知識の種類 このプロセスはARCの質問セット全体にわたって実行された。 0.74
Approximately 60% of the original questions were removed during crowdworker annotation (50% in the initial question filtering, 10% more in the additional filtering), followed by another 10% during in-house review, resulting in 2985 questions in the final ARC-DA dataset. オリジナルの質問の約60%は、crowdworkerのアノテーションで削除され(最初の質問フィルタリングでは50%、追加のフィルタリングでは10%)、続いて社内レビューでさらに10%、最終arc-daデータセットでは2985の質問が行われた。 0.71
Although the final dataset is less that half the size of ARC, it is still large enough for models to learn the style of the task (e.g., see Table 3 later), without simply memorizing the task itself, thus avoiding large-scale supervised training pitfalls. 最終的なデータセットはARCの半分にも満たないが、タスクのスタイル(例えば、後述のテーブル3を参照)を学ぶのに十分な大きさであり、単にタスク自体を記憶せず、大規模な教師付きトレーニングの落とし穴を避けることができる。 0.72
This trend towards more realistically sized datasets is seen elsewhere also, e.g., OBQA (Mihaylov et al., 2018), QASC (Khot et al., 2019), TRACIE (Zhou et al., 2020). 例えば、OBQA (Mihaylov et al., 2018), QASC (Khot et al., 2019), TRACIE (Zhou et al., 2020) などである。
訳抜け防止モード: より現実的なサイズのデータセットへのこの傾向は、他の場所でも見られる。 例えば、OBQA (Mihaylov et al , 2018)。 QASC (Khot et al ., 2019)、TRACIE (Zhou et al ., 2020)。
0.75
Train/Dev/Test Split We retain the same train/dev/test labels for questions as in the original ARC dataset, resulting in approximately similar proportions as ARC. Train/Dev/Test Split オリジナルのARCデータセットと同様の質問に対するTrain/dev/testラベルを保持します。 0.77
We also do not separate the original ARC-Easy and ARC-Challenge questions, but instead merge them into a single dataset. また、元のARC-EasyとARC-Challengeの質問を分離するのではなく、単一のデータセットにマージします。 0.68
We do this because the labels “Easy” and “Challenge” were based on the MC choices. これは、「Easy」と「Challenge」というラベルがMCの選択に基づいているためです。 0.76
(Switching from MC to DA can result in a “Hard” question becoming conceptually easy, and vice versa). (MCからDAに切り替えると、概念的には“ハード”な質問が簡単になり、その逆になる)。 0.68
However, we do retain the original Easy/Challenge labels as metadata in the ARC-DA dataset. しかし、オリジナルのEasy/ChallengeラベルをARC-DAデータセットのメタデータとして保持します。 0.59
The resulting dataset statistics are summarized in Table 1. 得られたデータセット統計を表1にまとめる。 0.86
Knowledge and Reasoning Types We found that the distribution of knowledge and reasoning types required by ARC-DA questions, as classified by Boratko et al. 知識と推論のタイプ ボラトコらによって分類されたarc-daの質問によって要求される知識と推論の分布。 0.69
(2018), to be roughly the same as in ARC, see Figure 2 (created using Boratko et al’s data). (2018)ARCとほぼ同じであるように、図2(Boratko et alのデータを使用して作成)を参照してください。 0.73
For a detailed description of these categories, see (Boratko et al., 2018). これらのカテゴリの詳細は、(Boratko et al.、2018)を参照してください。 0.67
Evaluation Metrics It’s not immediately clear how one should score answers to DA questions. 評価指標 da質問に対する回答をどうやってスコア付けるべきかは、すぐにはわからない。 0.59
Doing this is more difficult than for MC questions, as (usually) the set of gold DA answers is incomplete. これは(通常)ゴールドDAの答えの集合が不完全であるため、MCの質問よりも難しい。
訳抜け防止モード: これを行う MCの質問よりも難しいのです (通常) 金DAの答えの集合は不完全である。
0.76
Further, even if the answer is unique conceptually (e.g., the answer “gravity”) it may be phrased in multiple ways (“the force of gravity” “gravitational force”, “gravitation”, ...). さらに、たとえその答えが概念的に一意であるとしても(例えば「重力」など)、それは複数の方法で言い表すことができる(「重力の力」、「重力力」、「重力」、...)。
訳抜け防止モード: さらに たとえ 答えは概念的にユニークなものである(例:「重力」) 様々な意味で(重力の力”、”重力の力”など)表現されることもある。 “ gravitation ” , ... ) .
0.84
As Reasoning Types として Reasoning Types 0.66
Figure 2: Comparison of the distribution of questions among different knowledge (top) and reasoning types (bottom), comparing ARC with ARC-DA. 図2:異なる知識(トップ)と推論タイプ(ボトム)の質問の分布を比較し、ARCとARC-DAを比較します。 0.83
Overall, the distributions are roughly similar. 全体として、分布はほぼ類似している。 0.65
Data is from sampled annotations created by (Boratko et al., 2018). データは(boratko et al., 2018)作成のサンプルアノテーションから取得する。 0.72
For a detailed description of the categories, see (Boratko et al., 2018). カテゴリの詳細は、(Boratko et al.、2018)を参照してください。 0.67
a result, scoring is necessarily approximate. その結果、スコア付けは必ずしもおよそです。 0.53
However, this should not be a reason to shy away from such problems; valid comparisons can still be made, and there are obvious benefits to working in the more realistic DA setting. しかし、これはそのような問題から遠ざける理由ではない。有効な比較は依然としてできるし、より現実的なda設定で作業するのに明らかな利点がある。 0.73
We propose two ways to score answers to ARC-DA: The first is human scoring via GENIE6, a human-in-the-loop leaderboard framework that scores answers using an automated crowdsourced pipeline (Khashabi et al., 2021). ひとつは、自動クラウドソースパイプライン(Khashabi et al., 2021)を使用して回答をスコアする、人間とループのリーダーボードフレームワークであるGENIE6による人によるスコアリングである。 0.61
GENIE streamlines the human scoring of machine-generated answers by automatically posting them on crowdsourcing platforms, collecting qualitative human judgements (converted to numeric scores using the rubric in Table 2), then performing statistical analyses to quantify uncertainty. genIEは、クラウドソーシングプラットフォームに自動的に投稿し、定性的な人間の判断(表2のルーリックを用いて数値スコアに変換)を収集し、統計分析を行い、不確実性を定量化する。 0.60
It also includes various constraints to ensure quality control. 品質管理の確保にもさまざまな制約がある。 0.71
To use GENIE, we submit our answers to the leaderboard, then wait for the task to complete (which follows a fixed, periodic schedule). GENIEを使用するには、リーダーボードに回答を提出し、タスクが完了するのを待ちます(固定された定期的なスケジュールに従います)。 0.66
Note that GENIE is publicly available for other researchers interested in this dataset. GENIEはこのデータセットに関心のある他の研究者に公開されていることに注意してください。 0.53
Second, we consider two popular automatic metrics to 第二に、一般的な自動メトリックを2つ考慮します。 0.49
6Available at https://genie.apps.a llenai.org/ 6Available at https://genie.apps.a llenai.org/ 0.44
3 3 0.85
英語(論文から抽出)日本語訳スコア
score answers by comparing them to the (typically incomplete) set of gold answers, namely ROUGE and an F1 wordoverlap measure. スコアは、それらを(一般的に不完全な)金の答えのセット、すなわちROUGEとF1ワードオーバーラップ測定と比較することによって答えます。
訳抜け防止モード: 金の答えの(通常不完全な)集合と比較することで、答えをスコアする。 すなわち rouge と f1 wordoverlap measure である。
0.62
For ROUGE (Lin et al., 2006), we use the F1 score for the ROUGE-L variant which considers the longest common subsequence, thus penalizing words out of order.7 For the simple F1 word-overlap measure, we adopt the conventions from the SQuAD dataset (Rajpurkar et al., 2016) in terms of ignoring punctuation and a few stop words. ROUGE (Lin et al., 2006) では、最も長い共通部分列を考慮する ROUGE-L バリアントに対して F1 スコアを使用し、単語を不規則にします。7 単純な F1 ワードオーバーラップ測定では、SQuAD データセット (Rajpurkar et al., 2016) の規則を採用し、句読点といくつかのストップワードを無視します。 0.79
For both ROUGE and F1, we take the maximum score over all of the gold answers for a given question (i.e., an answer is scored against its best-matching gold answer), and then average over all the questions. ROUGE と F1 の両方において、ある質問に対するすべてのゴールド回答(すなわち、そのベストマッチのゴールド回答に対して回答が採点される)に対して最大スコアをとり、その後、すべての質問に対して平均します。 0.73
We note that both ROUGE and F1 have known intrinsic pitfalls. ROUGEとF1はどちらも固有の落とし穴を知っています。 0.65
For example, as F1 ignores word order, the prediction “from solid to liquid” would be considered a perfect match for the gold answer “from liquid to solid”. 例えば、F1は単語順を無視するので、「固体から液体へ」という予測は「液体から固体へ」という金の答えに完全一致すると考えられる。 0.76
For these reasons, our preferred metric for ARC-DA is GENIE (despite the turnaround time), which also alleviates the problem of missing gold answers. これらの理由から、ARC-DA の好ましい測定基準は GENIE (ターンアラウンド時間にもかかわらず) であり、また、金の解答の欠如の問題も軽減している。 0.63
Model: T5 + ARC-DA (no IR) UnifiedQA + ARC-DA (no IR) UnifiedQA + ARC-DA (w/ IR) UnifiedQA + ARC-DA/MC (no IR) UnifiedQA + ARC-DA/MC (w/ IR) モデル: T5 + ARC-DA (no IR) UnifiedQA + ARC-DA (no IR) UnifiedQA + ARC-DA (w/ IR) UnifiedQA + ARC-DA/MC (no IR) UnifiedQA + ARC-DA/MC (w/ IR) 0.81
Score (Test Set) スコア(テストセット) 0.73
GENIE F1 ROUGE-L 66+3−3 72+2−3 75+2−2 75+2−2 81+2−2 遺伝子F1 ROUGE-L 66+3−3 72+2−3 75+2−2 75+2−2 81+2−2 0.30
50.0 55.7 61.2 57.5 63.2 50.0 55.7 61.2 57.5 63.2 0.44
53.5 59.6 55.4 61.4 53.5 59.6 55.4 61.4 0.45
Table 3: Results on ARC-DA test set (1397 questions), both without and with IR, according to different metrics. 表3:異なるメトリクスに従って、ARC-DAテストセット(1397の質問)、IRなしとIRの両方の結果。 0.80
GENIE is a human (crowdsourced) metric, F1 and ROUGE-L are automated metrics. GENIEは人(crowdsourced)メトリックであり、F1とROUGE-Lは自動メトリクスである。 0.66
The GENIE score includes a confidence interval (+/-), as shown. GENIEスコアは、示すように、信頼区間(+/-)を含みます。 0.57
(GENIE is our preferred measure.) (GenIEは私たちの好む対策です。) 0.64
Model: UnifiedQA + ARC-DA (no IR) UnifiedQA + ARC-DA (w/ IR) UnifiedQA + ARC-DA/MC (no IR) UnifiedQA + ARC-DA/MC (w/ IR) モデル: UnifiedQA + ARC-DA (no IR) UnifiedQA + ARC-DA (w/ IR) UnifiedQA + ARC-DA/MC (no IR) UnifiedQA + ARC-DA/MC (w/ IR) 0.81
Score (Dev Set) Score (複数形 Scores) 0.74
EXPERT F1 ROUGE-L EXPERT F1 ROUGE-L 0.67
55.4 65.2 59.5 66.8 55.4 65.2 59.5 66.8 0.45
78.8 84.0 78.7 85.9 78.8 84.0 78.7 85.9 0.45
53.9 63.0 55.5 63.7 53.9 63.0 55.5 63.7 0.45
Empirical Evaluation We next describe a few strong baseline systems for ARC-DA and report their performance. 実証的評価 次に、ARC-DAの強力なベースラインシステムについて述べ、その性能を報告する。 0.62
Baseline Models To build a strong baseline model, we start with (a reimplementation of) UnifiedQA (Khashabi et al., 2020), a QA system trained on multiple QA datasets using the text-to-text pretrained T5 transformer (Raffel et al., 2020) (we use the 11B version). ベースラインモデル 強力なベースラインモデルを構築するには、テキストからテキストへの事前トレーニングT5トランス(Raffel et al., 2020)を使用して複数のQAデータセットで訓練されたQAシステムであるUnifiedQA(Khashabi et al., 2020)から始めます(11Bバージョンを使用します)。 0.82
We then fine-tune two models on ARC-DA, one using sentences retrieved from a general corpus of text K, and one without. 次に、ARC-DA上の2つのモデルを微調整し、1つはテキストKの一般コーパスから検索した文を使用し、もう1つは不要とする。 0.47
The input to these models is the question Q (plus retrieved sentences, for the first model). これらのモデルへの入力は質問Q(および最初のモデルのための検索された文)です。 0.71
The desired output is a correct answer to Q. 所望の出力はQに対する正しい答えである。 0.77
We call the resulting models UnifiedQA + ARC-DA. 得られたモデルをUnifiedQA + ARC-DAと呼ぶ。 0.68
For the “with IR” (Information Retrieval) variant of UnifiedQA + ARC-DA, given a question Q, we retrieve 10 sentences K1, ..., K10 from the corpus K using Q as the search query (here, using ElasticSearch). Information Retrieval (with IR) 変種 UnifiedQA + ARC-DA に対して、質問 Q が与えられた場合、Q を検索クエリとして、コーパス K から 10 つの文 K1, ..., K10 を検索する(以下、ElasticSearch を用いて)。 0.84
For K, we use the Aristo Corpus, a Web-crawled corpus containing 280GB of general and science-related sentences augmented with ≈80k additional science textbook sentences (Clark et al., 2016). Kの場合、Aristo Corpusは280GBの一般文と科学関連の文を含むWebクローリングコーパスで、追加の科学教科書文(Clark et al., 2016)を付加しています。 0.73
The input to the model is then: モデルへの入力は次のようになる。 0.70
$question$ = Q ; $context$ = K1...K10 $question$ = Q ; $context$ = K1...K10 0.92
The desired output of the model is a correct answer to the question. モデルの望ましい出力は、その質問に対する正しい答えである。 0.75
To train the model, since we (typically) have multiple, alternative gold target answers A1, ..., An in the training data, we generate Na training examples for each question, where each example uses a randomly sampled answer from Ai. モデルのトレーニングには、(典型的には)複数の代替金ターゲット回答 A1, ..., An があるので、各質問に対してNaトレーニング例を生成し、各サンプルがAiからランダムにサンプリングされた回答を使用する。 0.80
In other words, each individual gold answer (of which there are a few per question) and unique question are used to construct an individual training example, capped at 言い換えれば、個々の金の答え(質問ごとにいくつかある)とユニークな質問は、個々のトレーニング例を構築するために使用されます。 0.76
Table 4: Results on ARC-DA dev set (338 questions). 表4:ARC-DA開発セット(338質問)の結果。 0.83
Here we show human evaluation by one of the authors (EXPERT), rather than GENIE scores. ここでは、GENIEスコアではなく、著者の1人(EXPERT)による人間評価を示します。 0.66
a max of Na training examples per question. 質問ごとのNaトレーニングの例の最大値。 0.76
In our experiments, we used Na = 4. 実験では、Na = 4 を用いています。 0.80
Each training instance thus has a single gold answer, and the fine-tuning otherwise follows the T5 procedure of using teacher forcing (Williams and Zipser, 1989). 各トレーニングインスタンスは、単一の金の答えを持ち、微調整は、教師強制(Williams and Zipser, 1989)を使用するT5手順に従う。 0.76
Note there is a (deliberate) asymmetry in train/test: Each training instance encourages the system to predict a particular gold answer, while each test output is considered correct if it predicts any of the gold answers. 各トレーニングインスタンスは、システムが特定のゴールドの答えを予測するように促しますが、各テスト出力はゴールドの答えのいずれかを予測すれば正しいとみなされます。 0.67
This style of teaching for questions with multiple answers has been found effective in previous work, e.g., (Bosselut et al., 2019; Rashkin et al., 2018). 複数の答えを持つ質問に対するこのスタイルの教えは、以前の研究(Bosselut et al., 2019; Rashkin et al., 2018)で有効であることが判明した。 0.78
For the “without IR” variant, the same process is applied IRなし」の変種については、同じプロセスが適用される 0.79
except the input to the model is simply: モデルへの入力以外は、シンプルです。 0.62
$question$ = Q Since UnifiedQA is question-format agnostic,8 we also create variants of the above models (again with and without retrieval) by fine-tuning them jointly on ARC-DA as described above as well as on the original multiple choice questions of ARC. $question$ = Q UnifiedQA is question-format agnostic,8 is also create variants of the above model (again with and without search) by both-tuning them on ARC-DA as above and on the original multiple choice question of ARC。 0.82
The resulting models are referred to as UnifiedQA + ARC-DA/MC. 得られたモデルはUnifiedQA + ARC-DA/MCと呼ばれる。 0.70
Results The results for the models are shown in Table 3. 結果 モデルの結果は表3に示されます。 0.77
To help interpret the GENIE scores, note that crowdworkers label answers according to the rubric and corresponding real values as shown in Table 2. ジェニースコアを解釈するために、表2に示すように、群衆労働者はルーブリックと対応する実数値に従って答えをラベル付けする。 0.57
For comparison, one of the authors manually scored the answers on the development set, using a principle of partial credit for non-ideal answers; this is shown under the EXPERT column of Table 4. 比較のために、著者の一人は、非イデアルな答えのために部分的信用の原則を使用して、開発セットの回答を手動でスコア付けしました。
訳抜け防止モード: 比較のために、著者の1人が手動で開発セットの回答を得た。 非理想的な答えのために部分クレジットの原則を使用する これはテーブル4のEXPERT列で示されています。
0.68
7We use the implementation from https://github.com/g oogleresearch/google -research/tree/maste r/rouge, with stemming turned on. 7 https://github.com/g oogleresearch/google -research/tree/maste r/rouge の実装を使用します。 0.49
8That is, given an MC question, UnifiedQA will output an answer choice label; while given a DA question, UnifiedQA will generate an answer directly. 8Thatは、MC質問が与えられた場合、UnifiedQAは回答選択ラベルを出力し、DA質問が与えられた場合、UnifiedQAは直接回答を生成する。 0.79
4 4 0.85
英語(論文から抽出)日本語訳スコア
There are several results of note. 注記の結果はいくつかある。 0.78
First, the scores are high in absolute terms, with the human-scored GENIE/EXPERT numbers being roughly comparable to scores on the original MC questions, found to be 86.8%/92.6% without/with IR.9 This suggests that the DA questions are not necessarily harder than the MC versions, despite the format change, although they are more natural (non-multiplechoice) . まず、スコアは絶対的に高く、人間スコアのGENIE/EXPERT番号は、IRの有無にかかわらず86.8%/92.6%であることが判明した最初のMC質問のスコアとほぼ同等である。これは、DA質問は、フォーマットの変更にもかかわらず、必ずしもMCバージョンよりも困難ではないことを示唆しているが、より自然である(非多重選択)。 0.59
While intuitively one might expect DA questions to be more difficult to answer as the number of potential answers changes from 4 to a potentially infinite number, some may also be easier as any correct answer is valid, allowing the model to sidestep subtle distinctions that may be used in the MC choices. 直観的には、潜在的な答えの数を4から無限の数に変化させることで、daの質問に答えるのがより難しいと期待できるかもしれないが、正しい答えが正しいので、モデルがmcの選択で使われる微妙な区別を回避できるものもある。 0.78
Second, the GENIE scores slightly underestimate the “true” score, which we take as the EXPERT score (Table 4), namely the score one might expect to receive in an examination setting with a professional grader. 第2に、GENIEスコアは、我々がEXPERTスコア(表4)として取る“真の”スコアをわずかに過小評価します。
訳抜け防止モード: 第2に、GENIEスコアは「真の」スコアをわずかに過小評価します。 EXPERTスコア(表4)として取得します。 すなわち、プロの成績士との試験設定で得られると予想されるスコアです。
0.61
This may be due to occasional annotation errors and/or unreliable annotators that slip through GENIE’s quality controls. これは、genieの品質管理をすり抜けた、時折アノテーションエラーや信頼できない注釈が原因かもしれない。 0.51
(Also note the GENIE score in Table 3 is on the test set, while the EXPERT score in Table 4 is on dev, which may account for some of the difference (test performance is typically slightly worse than dev)). (ただし、表3のGENIEスコアはテストセット、表4のEXPERTスコアはデベロップメントであり、一部の違いがある(テストパフォーマンスは一般的にデベロップメントよりも若干悪い)。)。
訳抜け防止モード: (また、表3のGENIEスコアはテストセットにあります。 表4のEXPERTスコアはdevにあります。 違い(テストのパフォーマンスは、通常、開発よりもわずかに悪い)のいくつかを説明できます。
0.72
While in principle the upper bound on the EXPERT score is 100%, namely for a perfect set of answers, our preliminary tests suggest the GENIE upper bound (for ARC-DA) may be around 90% for a perfect set of answers due to this noise, given GENIE’s current pipeline (additional improvements to GENIE are under consideration). 原理的には、EXPERTスコアの上限は100%、すなわち完全な解の集合に対して、予備試験では、GENIEの現在のパイプラインが考慮されているため、このノイズによる解の完全な集合に対して、GENIEの上限(ARC-DA)は約90%である可能性が示唆されている。 0.69
Third, the automated metrics are only a loose approximation of the true target. 第三に、自動メトリクスは真のターゲットの緩やかな近似に過ぎません。 0.66
In absolute terms, there is a significant gap between the automated metrics (F1 and ROUGEL) and the human evaluations (GENIE and EXPERT), suggesting that there are indeed additional answers and answer phrasings missing in ARC-DA gold answers. 絶対的には、自動化されたメトリクス(F1とROUGEL)と人間の評価(GENIEとEXPERT)の間には大きなギャップがあり、ARC-DAゴールドの答えに欠けている追加の答えとフレーズがあることを示唆しています。 0.66
We also see that the rank-ordering of models based on human vs. automated metrics is not identical (although is generally similar). また、人間と自動メトリクスに基づくモデルのランク順付けは同一ではない(一般的には似ているが)。 0.74
Assuming that the human-based scores are the most accurate (although expensive), this indicates that automatic metrics should be used with caution: While they can be used as a useful proxy, it is not appropriate to draw conclusions from them based on small (e.g., 1%) differences. 人間ベースのスコアが最も正確である(高いが)と仮定すると、これは自動メトリックは慎重に使用されるべきであることを示す:それらは有用なプロキシとして使用できるが、小さな(例えば1%)違いに基づいて結論を出すのは適切ではない。 0.81
Impact on MC Question-Answering As an unexpected corollary, we ran the UnifiedQA + ARC-DA/MC model on the original ARC MC dataset,10 and obtained new state-of-the-art results (81.4% on ARCChallenge and 92.7% on ARC-Easy).11 Note also that this model has the highest score on ARC-DA (GENIE score of 81%, Table 3). MCQ-Answeringへの影響 予期せぬ結論として、元のARC MCデータセット,10上でUnifiedQA + ARC-DA/MCモデルを実行し、新しい最先端結果(ARCChallengeが81.4%、ARC-Easyが92.7%)を得た。 0.67
This suggests that there is some additional training signal provided by the DA training questions that is assisting in MC QA, and likewise that the additional MC これは、MC QAを支援する DA トレーニングの質問によって提供される追加のトレーニング信号があり、同様に追加の MC も存在することを示唆しています。
訳抜け防止モード: これは,MCQAを支援するDAトレーニング質問によって提供される追加のトレーニング信号の存在を示唆している。 同様にMCは
0.77
9To obtain these MC scores, we ran the same UnifiedQA model, before fine-tuning on ARC-DA, on the original ARC multiplechoice versions of the 1397 ARC-DA test questions. 9) MCスコアを得るため, ARC-DAを微調整する前に同じUnifiedQAモデルを実行し, 1397 ARC-DAテスト質問のARC多重選択版を作成した。 0.81
10As before, note that UnifiedQA is format-agnostic, outputing an answer option label given an MC question, or a direct answer given a DA question. 10以前のように、UnifiedQAはフォーマットに依存しず、MC質問の回答オプションラベル、またはDA質問の直接回答を出力します。 0.79
11https://leaderboar d.allenai.org/arc/su bmissions/public 11https://leaderboar d.allenai.org/arc/su bmissions/public 0.28
training is helping answer DA questions. 訓練はDAの質問の答えを助けます。 0.56
This phenomenon is reminiscent of the discovery in the original UnifiedQA paper that multi-format training can provide an overall boost in individual scores (Khashabi et al., 2020). この現象は、Multi-format trainingが個々のスコアを総合的に向上させることができるという最初のUnifiedQA論文の発見を思い出させる(Khashabi et al., 2020)。 0.72
Summary Progress in QA requires new datasets in more realistic settings, for example using natural questions that require more than a “lookup” answer. 概要 QAの進歩は、例えば“ルックアップ”以上の答えを必要とする自然な質問を使用するなど、より現実的な設定で新しいデータセットを必要とする。
訳抜け防止モード: 概要 QAの進歩は、例えばよりリアルな設定で新しいデータセットを必要とする 質問には“ルックアップ”以上の答えが必要だ。
0.68
The ARC-DA dataset addresses this need, containing a direct answer version of (a subset of) the ARC multiple-choice questions. ARC-DAデータセットはこのニーズに対処し、ARC多重選択質問の(サブセットの)直接回答バージョンを含む。 0.85
These questions are expert (examination board) authored, high quality, sensible, and avoid the repetition common to crowdsourced datasets, making them of particular interest to NLP. これらの質問は、専門家(審査委員会)が作成し、高品質で賢明で、クラウドソースされたデータセットに共通する繰り返しを避け、NLPに特に関心を持っています。 0.53
We have also shown that baseline scores, although strong, are far from perfect, offering a new challenge to the NLP community, as well as a new setting to study explanation in the context of questions requiring reasoning. また,ベースラインスコアは強いが完璧には程遠いことを示し,NLPコミュニティに新たな課題を提供するとともに,推論を必要とする質問の文脈で説明を研究するための新たな設定を提供する。 0.79
We invite readers to take up this challenge! 読者の皆様にこの挑戦をお誘いします! 0.68
The ARC-DA あらすじ ARC-DA 0.47
dataset https://allenai.org/ data/arc-da, man evaluation framework is publicly available https://genie.apps.a llenai.org. データセット man evaluation framework は、https://genie.apps.a llenai.org.org で公開されている。 0.59
and is available そして は 利用可能 0.68
at the GENIE huat GENIE huatで。 0.69
Acknowledgements Thanks to all in the Aristo team and the additional expert reviewers Kirsten Barber, Rosann Morrow-Clark, Tao Li, and Anjali Tandon who contributed to this dataset. 認識 Aristoチームと、さらに専門家レビュアーのKirsten Barber氏、Rosann Morrow-Clark氏、Tao Li氏、Anjali Tandon氏がこのデータセットに貢献した。 0.66
The TPU machines for conducting experiments were provided by Google. 実験を行うTPUマシンは、Googleによって提供された。 0.68
References M. Boratko, H. Padigela, D. Mikkilineni, P. Yuvraj, R. Das, A. McCallum, M. Chang, A. Fokoue, P. Kapanipathi, N. Mattei, R. Musa, K. Talamadupula, and M. Witbrock. 参考文献 M. Boratko, H. Padigela, D. Mikkilineni, P. Yuvraj, R. Das, A. McCallum, M. Chang, A. Fokoue, P. Kapanipathi, N. Mattei, R. Musa, K. Talamadupula, M. Witbrock。 0.77
A systematic classification of knowledge, reasoning, and context within the ARC dataset. ARCデータセット内の知識、推論、コンテキストの体系的な分類。 0.68
In QA@ACL, 2018. 2018年QA@ACLにて。 0.70
A. Bosselut, H. Rashkin, M. Sap, C. Malaviya, A. Celikyilmaz, and Y. Choi. A. Bosselut, H. Rashkin, M. Sap, C. Malaviya, A. Celikyilmaz, Y. Choi 0.95
COMET: Commonsense transformers for automatic knowledge graph construction. COMET:自動知識グラフ構築のための常識トランス。 0.78
In ACL, 2019. 2019年、ACL。 0.76
P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, and O. Tafjord. P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, O. Tafjord 0.94
Think you have solved question answering? 質問の答えは 解決したと思う? 0.71
Try ARC, the AI2 Reasoning Challenge. AI2推論チャレンジ(AI2 Reasoning Challenge)。 0.64
ArXiv, abs/1803.05457, 2018. ArXiv, abs/1803.05457, 2018 0.75
P. Clark and O. Etzioni. P. ClarkとO. Etzioni。 0.83
My computer is an honor student – but how intelligent is it? 私のコンピュータは名誉学生です - しかし、それはどれほどインテリジェントですか? 0.66
standardized tests as a measure of AI. AIの尺度として標準化されたテスト。 0.60
AI Magazine, 37:5–12, 2016. AI Magazine, 37:5–12, 2016 0.82
P. Clark, O. Etzioni, T. Khot, A. Sabharwal, O. Tafjord, P. D. Turney, and D. Khashabi. P. Clark, O. Etzioni, T. Khot, A. Sabharwal, O. Tafjord, P. D. Turney, D. Khashabi 0.91
Combining retrieval, statistics, and inference to answer elementary science questions. 検索、統計、推論を組み合わせて基礎科学の質問に答える。 0.67
In AAAI, 2016. 2016年、AAAIにて。 0.82
D. Dua, Y. Wang, P. Dasigi, G. Stanovsky, S. Singh, and M. Gardner. D. Dua, Y. Wang, P. Dasigi, G. Stanovsky, S. Singh, M. Gardner 0.95
DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. drop: パラグラフの個別推論を必要とする読み取り理解ベンチマーク。 0.63
In NAACL-HLT, 2019. NAACL-HLT、2019年。 0.69
5 5 0.85
英語(論文から抽出)日本語訳スコア
A. Talmor, J. Herzig, N. Lourie, and J. Berant. A. Talmor、J. Herzig、N. Lourie、J. Berant。 0.83
CommonsenseQA: A question answering challenge targeting commonsense knowledge. commonsenseqa: commonsenseの知識をターゲットとした質問応答チャレンジ。 0.70
In NAACL-HLT, 2019. NAACL-HLT、2019年。 0.69
R. J. Williams and D. Zipser. R.J.ウィリアムズとD.ジップサー。 0.64
A learning algorithm for continually running fully recurrent neural networks. フルリカレントニューラルネットワークを継続的に実行するための学習アルゴリズム 0.79
Neural Computation, 1:270–280, 1989. Neural Computation, 1:270–280, 1989。 0.76
Z. Xie, S. Thiem, J. Martin, E. Wainwright, S. Marmorstein, and P. A. Jansen. Z. Xie、S. Thiem、J. Martin、E. Wainwright、S. Marmorstein、P. A. Jansen。 0.86
WorldTree V2: A corpus of sciencedomain structured explanations and inference patterns supporting multi-hop inference. worldtree v2: 科学ドメインのコーパス 構造化された説明と推論パターン マルチホップ推論をサポートする。 0.66
In LREC, 2020. 2020年、LREC。 0.73
Z. Yang, P. Qi, S. Zhang, Y. Bengio, W. W. Cohen, R. Salakhutdinov, and C. D. Manning. Z. Yang, P. Qi, S. Zhang, Y. Bengio, W. W. Cohen, R. Salakhutdinov, C. D. Manning 0.89
HotpotQA: A dataset for diverse, explainable multi-hop question answering. HotpotQA: 多様なマルチホップ質問応答のためのデータセット。 0.81
In EMNLP, 2018. EMNLP、2018年。 0.65
R. Zellers, Y. Bisk, A. Farhadi, and Y. Choi. R. Zellers、Y. Bisk、A. Farhadi、Y. Choi。 0.88
From recognition to cognition: Visual commonsense reasoning. 認識から認知への:視覚常識推論。 0.78
2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp。 0.87
6713–6724, 2019. 6713–6724, 2019. 0.84
B. Zhou, K. Richardson, Q. Ning, T. Khot, A. Sabharwal, and D. Roth. B. Zhou、K. Richardson、Q. Ning、T. Khot、A. Sabharwal、D. Roth。 0.85
Temporal reasoning on implicit events from distant supervision. 遠方の監視による暗黙の事象の時間的推論 0.60
ArXiv, abs/2010.12753, 2020. ArXiv, abs/2010.12753, 2020 0.77
S. Gururangan, S. Swayamdipta, O. S. Gururangan, S. Swayamdipta, O。 0.92
Levy, R. Schwartz, S. R. Bowman, and N. A. Smith. Levy, R. Schwartz, S. R. Bowman, N. A. Smith 0.94
Annotation artifacts in natural language inference data. 自然言語推論データにおけるアノテーションアーティファクト。 0.81
In NAACL-HLT, 2018. NAACL-HLT、2018年。 0.69
M. Joshi, E. Choi, D. S. Weld, and L. S. Zettlemoyer. M. Joshi、E. Choi、D.S. Weld、L.S. Zettlemoyer。 0.78
Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. Triviaqa: 読み解くための大規模遠隔監視型チャレンジデータセット。 0.68
In ACL, 2017. 2017年、ACL。 0.71
D. Khashabi, S. Min, T. Khot, A. Sabharwal, O. Tafjord, P. Clark, and H. Hajishirzi. D. Khashabi、S. Min、T. Khot、A. Sabharwal、O. Tafjord、P. Clark、H. Hajishirzi。 0.85
Unifiedqa: Crossing format boundaries with a single QA system. Unifiedqa: 単一のQAシステムでフォーマット境界をクロスする。 0.87
In EMNLP, 2020. EMNLP、2020年。 0.71
D. Khashabi, G. Stanovsky, J. Bragg, N. Lourie, J. Kasai, Y. Choi, N. A. Smith, and D. S. Weld. D. Khashabi、G. Stanovsky、J. Bragg、N. Lourie、J. Kasai、Y. Choi、N. A. Smith、D. S. Weld。
訳抜け防止モード: D. Khashabi, G. Stanovsky, J. Bragg, N. Lourie J. Kasai, Y. Choi, N. A. Smith, D. S. Weld
0.92
GENIE: A leaderboard for human-in-the-loop evaluation of text generation. GENIE: テキスト生成のヒューマン・イン・ザ・ループ評価のためのリーダーボード。 0.50
preprint arXiv:2101.06561, 2021. arXiv:2101.06561, 2021 0.71
T. Khot, P. Clark, M. Guerquin, P. Jansen, and A. Sabharwal. T. Khot、P. Clark、M. Guerquin、P. Jansen、A. Sabharwal。 0.84
QASC: A dataset for question answering via sentence composition. QASC:文構成による質問応答のためのデータセット。 0.76
arXiv preprint arXiv:1910.11473, 2019. arXiv preprint arXiv:1910.11473, 2019 0.81
T. Kwiatkowski, J. Palomaki, O. Redfield, M. Collins, A. P. Parikh, C. Alberti, D. Epstein, I. Polosukhin, J. Devlin, K. Lee, K. Toutanova, L. Jones, M. Kelcey, M.-W. Chang, A. M. Dai, J. Uszkoreit, Q. T. Kwiatkowski, J. Palomaki, O. Redfield, M. Collins, A. P. Parikh, C. Alberti, D. Epstein, I. Polosukhin, J. Devlin, K. Lee, K. Toutanova, L. Jones, M. Kelcey, M.-W. Chang, A. M. Dai, J. Uszkoreit, Q。 0.85
Le, and S. Petrov. Natural Questions: A benchmark for question answering research. ルとS.ペトロフ。 Natural Questions: 質問に答える研究のためのベンチマーク。 0.64
TACL, 7:453–466, 2019. TACL, 7:453–466, 2019。 0.72
B. Y. Lin, H. Sun, B. Dhingra, M. Zaheer, X. Ren, and W. W. Cohen. B. Y. Lin, H. Sun, B. Dhingra, M. Zaheer, X. Ren, W. W. Cohen 0.91
Differentiable open-ended commonsense reasoning. 微分可能なオープンエンドの常識推論。 0.45
ArXiv, abs/2010.14439, 2020. ArXiv, abs/2010.14439, 2020 0.78
C.-Y. Lin, G. Cao, J. Gao, and J.-Y. C.-Y。 Lin, G. Cao, J. Gao, J.-Y 0.79
Nie. An informationtheoretic approach to automatic evaluation of summaries. ニー。 要約の自動評価のための情報理論的アプローチ 0.54
In HLT-NAACL, 2006. HLT-NAACL、2006年。 0.62
K. Lin, O. Tafjord, P. Clark, and M. Gardner. K. Lin、O. Tafjord、P. Clark、M. Gardner。 0.87
Reasoning over paragraph effects in situations. 状況における段落効果に関する推論。 0.70
In Proc. MRQA Workshop (EMNLP’19), 2019. also arXiv:1908.05852. Proc。 MRQA Workshop (EMNLP’19) 2019年、arXiv:1908.05852。 0.61
T. Mihaylov, P. Clark, T. Khot, and A. Sabharwal. T. Mihaylov、P. Clark、T. Khot、A. Sabharwal。 0.85
Can a suit of armor conduct electricity? 防具のスーツは電気を通せるか? 0.70
a new dataset for open book question answering. オープンブック質問応答のための新しいデータセット。 0.77
In EMNLP, 2018. EMNLP、2018年。 0.65
R. Musa, X. Wang, A. Fokoue, N. Mattei, M. Chang, P. Kapanipathi, B. Makni, K. Talamadupula, and M. Witbrock. R. Musa、X. Wang、A. Fokoue、N. Mattei、M. Chang、P. Kapanipathi、B. Makni、K. Talamadupula、M. Witbrock。
訳抜け防止モード: R. Musa, X. Wang, A. Fokoue, N. Mattei M. Chang, P. Kapanipathi, B. Makni, K. Talamadupula M. Witbrock。
0.94
Answering science exam questions using query reformulation with background knowledge. 背景知識を用いた問合せ再構成による科学試験の回答 0.76
In AKBC, 2019. AKBC、2019年。 0.69
J. Ni, C. Zhu, W. Chen, and J. McAuley. J. Ni, C. Zhu, W. Chen, J. McAuley 0.91
Learning to attend on essential terms: An enhanced retriever-reader model In NAACL-HLT, for open-domain question answering. NAACL-HLTにおけるオープンドメイン質問応答のための強化されたレトリバー・リーダーモデル。 0.62
2019. C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, and P. J. Liu. 2019. C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, P. J. Liu 0.88
Exploring the limits of transfer learning with a unified text-to-text transformer. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.82
J. Mach. Learn. J. Mach 学ぶ。 0.72
Res., 21:140:1–140:67, 2020. 21:140:1–140:67、2020年。 0.50
P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang. P. Rajpurkar、J. Zhang、K. Lopyrev、P. Liang。 0.84
SQuAD: 100,000+ questions for machine comprehension of text. SQuAD: テキストの機械理解のための100,000以上の質問。 0.63
In EMNLP, 2016. 2016年、EMNLP。 0.61
H. Rashkin, A. Bosselut, M. Sap, K. Knight, and Y. Choi. H. Rashkin、A. Bosselut、M. Sap、K. Knight、Y. Choi。 0.86
Modeling naive psychology of characters in simple commonsense stories. 単純常識物語における登場人物のナイーブ心理学のモデル化 0.62
In ACL, 2018. 2018年、ACL。 0.70
6 6 0.85
英語(論文から抽出)日本語訳スコア
Appendix A. Instructions to Crowdworkers Below are the instructions provided to the (Amazon Mechanical Turk) crowdworkers for answering DA questions: 付録A。 クラウドワーカーへの指示 DAの質問に答えるために(Amazon Mechanical Turk)クラウドワーカーに提供される指示は次のとおりです。 0.56
7 Instructions (click here to collapse/expand instructions)This HIT is to write down some answers to 5 science questions, so that we can test an AI system (Aristo)that we are developing. 7 このHITは、私たちが開発しているAIシステム(Aristo)をテストすることができるように、5つの科学的な質問に対するいくつかの答えを書き留めることです。 0.82
The questions were originally taken from multiple choice exams, but we are wantingto convert them to "direct answer" format. 質問は、もともと複数の選択試験から取られましたが、我々はそれらを「直接答え」形式に変換したいです。 0.64
Your task is to write down one or more answers to the questions.As the questions originally came from multiple choice exams, there may often be more than one answer. あなたのタスクは、質問に対する1つ以上の回答を書き留めることです. 質問は、もともと複数の選択試験から来たので、多くの場合、複数の答えがあるかもしれません。
訳抜け防止モード: あなたの仕事は質問に一つ以上の答えを書き留めることです。 質問は、もともと複数の選択試験から来ているため、複数の回答がある可能性がある。
0.76
Inthose cases, please enter two or three possible answers separated by a ";", e.g., For Q: Which is an animal?you might enter three answers "dog; cat; elephant".Here is an example:Question: A ball is tossed up in the air and it comes back down. 例を挙げると、2つまたは3つの可能な答えを ";" で分けて入力してください。例えば、 Q: どちらが動物なのか? 3つの答えを"dog, cat, elephant" と入力します。
訳抜け防止モード: 多くの場合、";"で区切られた2、3の可能な回答を入力してください。 例えば、q:どちらが動物か?"dog ; cat ; elephant"という3つの答えを入力できます。 以下に例を挙げる: 質問: ボールが空中に投げられ、逆戻りします。
0.82
The ball comes back down becauseofEnter your answer(s): gravity(If you see more than one answer, enter two or three separated by ";", e.g. ボールが返ってくるのは、あなたの答えを入力してください:重力(複数の答えが表示された場合、例えば「;」で区切られた2つまたは3つを入力します。 0.68
"flower; tree; plant". )Now select the appropriate option below about this question: There is a clear, single answer There is conceptually just one answer, but it could be expressed in different ways (enter 1-3 examplesabove) There are several (2-4) different, correct answers to this question (enter 2-3 examples above) There are many different, correct answers to this question (enter 2-3 examples) The question makes sense, but I don't know the answer (enter "don't know" as the answer) This question doesn't make sense or is unanswerable (enter "?" 「花、木、植物。」 )Now select the appropriate option below about this question: There is a clear, single answer There is conceptually just one answer, but it could be expressed in different ways (enter 1-3 examplesabove) There are several (2-4) different, correct answers to this question (enter 2-3 examples above) There are many different, correct answers to this question (enter 2-3 examples) The question makes sense, but I don't know the answer (enter "don't know" as the answer) This question doesn't make sense or is unanswerable (enter "?" 0.81
as the answer)Comment: In this case, there's one clear answer ("gravity"), hence the worker has entered it and checkedthe first box.Some more examples are below, please read them carefully!Some important notes:Some questions might sound a little strange. 回答として)コメント:この場合、明確な答え(「重力」)が1つあります。そのため、労働者はそれを入力し、最初のボックスをチェックしました。
訳抜け防止モード: 答えとして)コメント:この場合、1つの明確な答えがあります(「重力」)。 したがって、労働者はそれを入力し、チェック最初のボックス。 その他の例は以下の通りです。 質問が少し奇妙に聞こえることがあります。
0.75
This is because they were originally a multiple choicequestion. これは元々は複数の選択肢があったためである。 0.65
Try and answer it as best you can.For "Which..." questions, think of these as asking a "What..." question, for example:Question: What is an example of an animal?Your answer (for example): dog; cat; mouseput down two or three example answers separated by a ";", e.g., "dog; cat; elephant".If you can see a couple of ways of answering a question, put them down separated by a ";". 質問: 動物の例とは何か? あなたの答え(例えば: dog; cat; mouseput down two or three example answers split by a ";", 例えば "dog; cat; elephant" "dog; cat; elephant" というように、質問に答えるいくつかの方法があるなら、それを ";" で分けるようにしてください。
訳抜け防止モード: できる限り、答えてみてください。「どれが...」「質問」です。 これを"何..."質問と考えてみてください。 例えば: 質問: 動物の例は何ですか?あなたの答えは (例えば ) : dog ; cat ; mouseput down two or three example answers separated by a " ;", 例えば "dog ; cat ; elephant" などです。 質問に答えるいくつかの方法が見られます それらを "; " で区切る。
0.82
Forexample:Question: Sleet, rain, snow, and hail are forms of:Your answer (for example): weather; bad weather; precipitationQuestio n: Which type of energy does a person use to pedal a bicycle?Your answer (for example): motion; kinetic energySome answers might be a phrase or sentence, e.g.,: Forexample:Question: Sleet, rain, snow, hail is form of:Your answer (例): 天気; 悪天候; 降雨Question: 自転車のペダルを踏むために使用するエネルギーの種類は? 0.50
英語(論文から抽出)日本語訳スコア
8 Feel free to use the internet to help get information. 8 情報を得るのにインターネットを自由に利用してください。 0.77
BUT If you happen to find exactly thisquestion on the internet (e.g., as part of a multiple-choice exam), please don't read the answer and inparticular don't copy in the multiple-choice answer! BUT インターネットで正確にこの質問を見つけた場合(例えば、複数選択試験の一部として)、答えを読まず、特に複数選択の答えをコピーしないでください! 0.75
We are wanting "natural" answers to thisquestion rather than the original multiple choice answer, so copying in the multiple-choice answerdefeats the point.If you're unsure, or it's taking too long to work out the answer, enter "don't know" and select the "Idon't know the answer" choiceIf the question doesn't make sense or is unanswerable, enter "? 私たちは、元の複数の選択の答えではなく、この質問に対する「自然な」答えを望んでいるので、複数の選択の答えをコピーするとポイントが損なわれます. 不明な場合、または答えを実行するのに時間がかかりすぎる場合は、「わからない」と入力し、質問が意味をなさない、または答えができない場合は、「答えを知らない」の選択を選択します。
訳抜け防止モード: 本来の複数選択の答えではなく、この問いに対する「自然な」答えを求めています。 だから、複数でコピー - 選択の答えはポイントを倒します。 答えを出すのに時間がかかりすぎます と入力し、「答えがわからない」を選択します。 疑問は意味をなさない あるいは答えられない と入力します。
0.79
".For categorizing the question, just use your best judgement.Thank you for your help! 「質問を分類するためには、最善を尽くして下さい。ありがとう!」 0.69
You rock!1. Examples of questions where there is a clear, single answerQ:In New York State, the longest period of daylight occurs during which month?Your Answer: JuneQ: Which form of energy is needed to change water from a liquid to a gas?A: heatComment: In these cases, there's one clear answer.2. ロック! 回答: 6月Q: 液体からガスへの水交換には、どのようなエネルギーが必要ですか?A: heatComment: これらのケースでは、1つの明確な答えがあります。
訳抜け防止モード: ロック! 明確な単一回答がある質問の例:ニューヨーク州における。 その月の最も長い日照時間は?あなたの答え : 6月q : エネルギーのどの形態か 水を液体からガスに変える必要があるのでしょうか? 熱合成 : この場合 1つの明確な答えがあります。 2。
0.49
Examples of questions where There is conceptually just one answer, but it could be expressed indifferent waysQ: A dog opens its mouth and lets its tongue hang out. 概念的に1つの答えがあるが、それは無関心な方法を表すことができる質問の例Q:犬は口を開け、舌をぶら下がらせます。 0.81
A human's body produces sweat. 人間の体は汗をかきます。 0.74
These are two waysthat organisms may adjust toYour Answer (for example): warm weather; hot temperatures; hot weather; heatQ: What is the main source of energy for the water cycle?A: sun; sunlight; sunshineComment: As there are several different ways of describing the answer, they are listed above separated by";". 温暖な気候、暑さ、暑さ、熱Q:水循環の主なエネルギー源は何か?A:太陽、日光、日光: 答えを説明するいくつかの異なる方法があるので、それらは上述の通り」である。
訳抜け防止モード: 生物が答えに適応する2つの方法(例えば) : 暖かい天気; 高温; 暑い天気; heatq : what 水循環の主なエネルギー源は何か? 太陽; 日光; 日光; 日光 答えを説明するにはいくつかの異なる方法があるので、これらは上述のとおり「」で区切られている。 ; " .
0.86
Aim to enter two or three such variations. そのようなバリエーションを2つまたは3つ入力する。 0.64
The above answers are just examples, others are possible.3. 上記の答えは単なる例であり、その他は可能である。 0.64
Examples of questions where There are several different answers to this questionQ: Water freezing is an example ofYour answer (for example): a phase change; something solidifyingQ: Which tool is used to measure the volume of a liquid?A: graduated cylinder; measuring cup; volumetric cylinderQ: Which characteristic is inherited rather than learnedA: eye color; skin colorComment: The above answers are just examples, others are possible.4. 例えば、水の凍結はあなたの答えの例である: 位相の変化; 固形化q: 液体の体積を測定するのにどのツールが使用されるか? a: 卒業シリンダー; 測定カップ; 体積シリンダーq: 学習者ではなくどの特性が継承されるか: 目の色; 皮膚の色調: 上記の答えは単なる例であり、他のものも可能である。 0.82
Examples of questions where There are many different answers to this questionQ: Which food is a fruit?Your answer (for example): apple; banana; cherryQ: An example of a poor health habit is: この質問に多くの異なる答えがある質問の例Q:どの食べ物が果物ですか?あなたの答え(例えば):リンゴ、バナナ、チェリーQ:健康の悪い習慣の例は次のとおりです。 0.83
英語(論文から抽出)日本語訳スコア
9 A: sitting around all day; eating candy; smokingComment: The above answers are just examples, others are possible.6. 9 A:一日中座って、キャンディーを食べます;喫煙コメント:上記の答えは単なる例ですが、他の人は可能です。 0.77
Examples of questions where the question doesn't make sense or is unanswerable (enter "?" 質問が意味をなさない、または答えられない質問の例(「入力」? 0.73
asthe answer)Q: Which is the largest?Your Answer: ?Q: Which animal is preparing for a seasonal change in the environment?A: ?Q: Which object is the best conductor of electricity?A: ?Comment: Enter a "?" A: ?Q: どの動物が環境の季節変化に備えていますか?A: ?Q: どのオブジェクトが電気の最高の導体ですか?
訳抜け防止モード: 答え)Q : どちらが最も大きいか?Your Answer : ? Q : どの動物か 季節的な環境の変化に備えているのか? 電気の導体はどれが最適か? : A : ? コメント:「?」を入力します。
0.72
if the question doesn't make sense or is unanswerable.Thank you for your help! 質問が意味をなさない、または答えられない場合. あなたの助けをありがとう! 0.75
You rock! ロック野郎! 0.51
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。