論文の概要: MiQA: A Benchmark for Inference on Metaphorical Questions
- arxiv url: http://arxiv.org/abs/2210.07993v1
- Date: Fri, 14 Oct 2022 17:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:44:46.060145
- Title: MiQA: A Benchmark for Inference on Metaphorical Questions
- Title(参考訳): MiQA: メタフォリカルな質問に対する推論のベンチマーク
- Authors: Iulia-Maria Comsa, Julian Martin Eisenschlos, Srini Narayanan
- Abstract要約: 本稿では,従来のメタファを用いた大規模言語モデルの推論能力を評価するためのベンチマークを提案する。
本稿では,バイナリ選択タスクにおける最先端の事前学習モデルの性能について検討する。
- 参考スコア(独自算出の注目度): 5.32836690371986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a benchmark to assess the capability of large language models to
reason with conventional metaphors. Our benchmark combines the previously
isolated topics of metaphor detection and commonsense reasoning into a single
task that requires a model to make inferences by accurately selecting between
the literal and metaphorical register. We examine the performance of
state-of-the-art pre-trained models on binary-choice tasks and find a large
discrepancy between the performance of small and very large models, going from
chance to near-human level. We also analyse the largest model in a generative
setting and find that although human performance is approached, careful
multiple-shot prompting is required.
- Abstract(参考訳): 本稿では,従来のメタファを推論する大規模言語モデルの能力を評価するベンチマークを提案する。
我々のベンチマークでは、メタファ検出とコモンセンス推論の分離されたトピックを単一のタスクに組み合わせ、リテラルとメタファのレジスタを正確に選択することで推論を行うモデルを必要とする。
本稿では,二分選択タスクにおける最先端の事前学習モデルの性能について検討し,小型モデルと超大型モデルとの大きな相違点を見出した。
また、生成環境で最大のモデルを分析し、人間のパフォーマンスに近づいているが、注意深いマルチショットプロンプトが必要であることを発見した。
関連論文リスト
- Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - On the Tip of the Tongue: Analyzing Conceptual Representation in Large
Language Models with Reverse-Dictionary Probe [36.65834065044746]
我々は、言語記述に暗示される対象概念の用語を生成するために、文脈内学習を用いてモデルを誘導する。
実験結果から,逆ディファレンシャルタスクによって探索された概念推論能力は,モデルの一般的な推論性能を予測することが示唆された。
論文 参考訳(メタデータ) (2024-02-22T09:45:26Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Task Ambiguity in Humans and Language Models [7.033374427612259]
本稿では,あいまいな分類タスクのベンチマークであるAmbiBenchを提案する。
AmbiBench上での人間とモデルの評価は、意図したタスクがどの程度うまく認識されているかを確認することで行う。
本研究では,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法について述べる。
論文 参考訳(メタデータ) (2022-12-20T18:35:33Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Visual Comparison of Language Model Adaptation [55.92129223662381]
アダプタは、モデル適応のための軽量な代替品です。
本稿では,インタラクティブな視覚的説明手法について,いくつかの設計と代替案について論じる。
例えば、文脈0の埋め込みに従って言語脱バイアスタスクを訓練したアダプタが、新しいタイプのバイアスをもたらすことを示す。
論文 参考訳(メタデータ) (2022-08-17T09:25:28Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - Thematic fit bits: Annotation quality and quantity for event participant
representation [0.0]
セマンティック適合のモデリング(動詞-代名詞合成意味論タスク)は、現在非常に大量のデータを必要とする。
言語的に機械に指示された大きなコーパスでトレーニングされた動詞の適応度をモデル化し、高品質なタガーから出力されたコーパス層に置き換える。
論文 参考訳(メタデータ) (2021-05-13T06:13:44Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。