Fugu-MT 論文翻訳(概要): BRAINTEASER: Lateral Thinking Puzzles for Large Language Models

論文の概要: BRAINTEASER: Lateral Thinking Puzzles for Large Language Models

arxiv url: http://arxiv.org/abs/2310.05057v3
Date: Thu, 9 Nov 2023 19:45:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 17:42:14.722654
Title: BRAINTEASER: Lateral Thinking Puzzles for Large Language Models
Title（参考訳）: brainteaser: 大きな言語モデルのための横思考パズル
Authors: Yifan Jiang, Filip Ilievski, Kaixin Ma, Zhivar Sourati
Abstract要約: BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
参考スコア（独自算出の注目度）: 15.95314613982879
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The success of language models has inspired the NLP community to attend to tasks that require implicit and complex reasoning, relying on human-like commonsense mechanisms. While such vertical thinking tasks have been relatively popular, lateral thinking puzzles have received little attention. To bridge this gap, we devise BRAINTEASER: a multiple-choice Question Answering task designed to test the model's ability to exhibit lateral thinking and defy default commonsense associations. We design a three-step procedure for creating the first lateral thinking benchmark, consisting of data collection, distractor generation, and generation of adversarial examples, leading to 1,100 puzzles with high-quality annotations. To assess the consistency of lateral reasoning by models, we enrich BRAINTEASER based on a semantic and contextual reconstruction of its questions. Our experiments with state-of-the-art instruction- and commonsense language models reveal a significant gap between human and model performance, which is further widened when consistency across adversarial formats is considered. We make all of our code and data available to stimulate work on developing and evaluating lateral thinking models.
Abstract（参考訳）: 言語モデルの成功は、NLPコミュニティに暗黙的かつ複雑な推論を必要とするタスクへの参加を刺激し、人間のようなコモンセンス機構に依存している。このような垂直思考タスクは比較的人気があるが、横思考パズルはほとんど注目されていない。このギャップを埋めるために、モデルが横方向の思考を示し、デフォルトのコモンセンスアソシエーションをデファクトする能力をテストするために設計された多重選択質問回答タスクであるBRAINTEASERを考案した。我々は,データ収集,気晴らし生成,対向例生成からなる最初の横思考ベンチマークを作成するための3段階の手順をデザインし,高品質なアノテーションを備えた1,100のパズルを導出する。モデルによる側方推論の整合性を評価するために,質問の意味的・文脈的再構成に基づいてBRAINTEASERを豊かにする。最先端の命令モデルと常識言語モデルを用いた実験により,人間とモデルのパフォーマンスの間に大きなギャップが見られ,対向形式間の整合性を考慮した場合,さらなる拡張が期待できる。側方思考モデルの開発と評価作業を促進するために、すべてのコードとデータを利用可能にしています。

関連論文リスト

Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge [45.20691825097646]
私たちはビジュアル推論をターゲットとしたベンチマークであるVisualPuzzlesを紹介します。 VisualPuzzlesは5つのカテゴリにまたがる多様な質問で構成されている。
論文参考訳（メタデータ） (2025-04-14T15:50:39Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文参考訳（メタデータ） (2024-11-14T08:22:42Z)
COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes [14.603382370403]
視覚的側方思考を多選択質問応答タスクとして定式化する。タスク例をインスタンス化するための3段階の分類駆動手法について述べる。テキストとアイコンのリバスパズルを用いたQAセット作成にタスクパイプラインを適用した総合ベンチマークであるCOLUMBUSを開発した。
論文参考訳（メタデータ） (2024-09-06T06:49:55Z)
Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文参考訳（メタデータ） (2024-03-30T00:53:53Z)
PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。単純な抽象パターンをうまく一般化できないことが分かりました。系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文参考訳（メタデータ） (2024-03-20T05:37:24Z)
Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文参考訳（メタデータ） (2023-10-03T00:57:26Z)
Investigating the Efficacy of Large Language Models in Reflective Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文参考訳（メタデータ） (2023-09-30T06:25:27Z)
MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文参考訳（メタデータ） (2023-06-27T07:24:32Z)
Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文参考訳（メタデータ） (2022-09-16T02:54:00Z)
elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。 elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文参考訳（メタデータ） (2022-03-17T16:23:45Z)
Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文参考訳（メタデータ） (2022-01-28T02:33:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。