論文の概要: BRAINTEASER: Lateral Thinking Puzzles for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.05057v3
- Date: Thu, 9 Nov 2023 19:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 17:42:14.722654
- Title: BRAINTEASER: Lateral Thinking Puzzles for Large Language Models
- Title(参考訳): brainteaser: 大きな言語モデルのための横思考パズル
- Authors: Yifan Jiang, Filip Ilievski, Kaixin Ma, Zhivar Sourati
- Abstract要約: BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
- 参考スコア(独自算出の注目度): 15.95314613982879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of language models has inspired the NLP community to attend to
tasks that require implicit and complex reasoning, relying on human-like
commonsense mechanisms. While such vertical thinking tasks have been relatively
popular, lateral thinking puzzles have received little attention. To bridge
this gap, we devise BRAINTEASER: a multiple-choice Question Answering task
designed to test the model's ability to exhibit lateral thinking and defy
default commonsense associations. We design a three-step procedure for creating
the first lateral thinking benchmark, consisting of data collection, distractor
generation, and generation of adversarial examples, leading to 1,100 puzzles
with high-quality annotations. To assess the consistency of lateral reasoning
by models, we enrich BRAINTEASER based on a semantic and contextual
reconstruction of its questions. Our experiments with state-of-the-art
instruction- and commonsense language models reveal a significant gap between
human and model performance, which is further widened when consistency across
adversarial formats is considered. We make all of our code and data available
to stimulate work on developing and evaluating lateral thinking models.
- Abstract(参考訳): 言語モデルの成功は、NLPコミュニティに暗黙的かつ複雑な推論を必要とするタスクへの参加を刺激し、人間のようなコモンセンス機構に依存している。
このような垂直思考タスクは比較的人気があるが、横思考パズルはほとんど注目されていない。
このギャップを埋めるために、モデルが横方向の思考を示し、デフォルトのコモンセンスアソシエーションをデファクトする能力をテストするために設計された多重選択質問回答タスクであるBRAINTEASERを考案した。
我々は,データ収集,気晴らし生成,対向例生成からなる最初の横思考ベンチマークを作成するための3段階の手順をデザインし,高品質なアノテーションを備えた1,100のパズルを導出する。
モデルによる側方推論の整合性を評価するために,質問の意味的・文脈的再構成に基づいてBRAINTEASERを豊かにする。
最先端の命令モデルと常識言語モデルを用いた実験により,人間とモデルのパフォーマンスの間に大きなギャップが見られ,対向形式間の整合性を考慮した場合,さらなる拡張が期待できる。
側方思考モデルの開発と評価作業を促進するために、すべてのコードとデータを利用可能にしています。
関連論文リスト
- Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes [14.603382370403]
視覚的側方思考を多選択質問応答タスクとして定式化する。
タスク例をインスタンス化するための3段階の分類駆動手法について述べる。
テキストとアイコンのリバスパズルを用いたQAセット作成にタスクパイプラインを適用した総合ベンチマークであるCOLUMBUSを開発した。
論文 参考訳(メタデータ) (2024-09-06T06:49:55Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Investigating the Efficacy of Large Language Models in Reflective
Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。
本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文 参考訳(メタデータ) (2023-09-30T06:25:27Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。
私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。
我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文 参考訳(メタデータ) (2022-09-16T02:54:00Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。