Fugu-MT 論文翻訳(概要): AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies

論文の概要: AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies

arxiv url: http://arxiv.org/abs/2402.12370v1
Date: Mon, 19 Feb 2024 18:56:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 14:57:36.319045
Title: AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies
Title（参考訳）: AnaloBench: 抽象および長文のアナロジーの同定のベンチマーク
Authors: Xiao Ye, Andrew Wang, Jacob Choi, Yining Lu, Shreya Sharma, Lingfeng Shen, Vijay Tiyyala, Nicholas Andrews, Daniel Khashabi
Abstract要約: アナロジー思考は、人間が創造的な方法で問題を解決し、難しい概念を把握し、より効果的にアイデアを表現できるようにする。言語モデル(LM)における類似推論能力を決定するベンチマークAnALOBENCHを提案する。我々のベンチマーク手法は、人間に共通するこの能力の側面に焦点を当てている: (i) 大量の情報から関連する経験を思い出し、 (ii) 複雑で長いシナリオに類推的推論を適用する。
参考スコア（独自算出の注目度）: 20.35137053775108
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans regularly engage in analogical thinking, relating personal experiences to current situations ($X$ is analogous to $Y$ because of $Z$). Analogical thinking allows humans to solve problems in creative ways, grasp difficult concepts, and articulate ideas more effectively. Can language models (LMs) do the same? To answer this question, we propose ANALOBENCH, a benchmark to determine analogical reasoning ability in LMs. Our benchmarking approach focuses on aspects of this ability that are common among humans: (i) recalling related experiences from a large amount of information, and (ii) applying analogical reasoning to complex and lengthy scenarios. We test a broad collection of proprietary models (e.g., GPT family, Claude V2) and open source models such as LLaMA2. As in prior results, scaling up LMs results in some performance boosts. Surprisingly, scale offers minimal gains when, (i) analogies involve lengthy scenarios, or (ii) recalling relevant scenarios from a large pool of information, a process analogous to finding a needle in a haystack. We hope these observations encourage further research in this field.
Abstract（参考訳）: 人間は、個人的な経験と現在の状況に関する類似の思考を定期的に行う(x$は$z$のため$y$に類似する)。アナロジー思考は、人間が創造的な方法で問題を解決し、難しい概念を把握し、より効果的にアイデアを表現できるようにする。言語モデル(LM)も同じことができますか? そこで本研究では,LMの類似推論能力を決定するベンチマークAnALOBENCHを提案する。私たちのベンチマークアプローチは、人間に共通するこの能力の側面に焦点を当てています。 (i)大量の情報から関連する経験を思い出すこと、 (ii)複雑で長いシナリオに類推を適用すること。我々は、プロプライエタリなモデル(GPTファミリ、Claude V2)とLLaMA2のようなオープンソースモデルの広範なコレクションをテストする。以前の結果と同様に、LMのスケールアップによってパフォーマンスが向上する。驚くべきことに、スケールは最小の利益をもたらす。 (i)類推には長いシナリオ、または (ii)大量の情報から関連するシナリオを想起すること。干し草の山で針を見つけるのと類似のプロセス。これらの観測がこの分野のさらなる研究を促進することを願っている。

関連論文リスト

Modeling Understanding of Story-Based Analogies Using Large Language Models [1.4999444543328293]
大規模言語モデルの最近の進歩は、様々なタスクにおける人間の認識のマッチングに近づきつつある。これらのモデルは、アナログの検出とマッピングにおいて、人間のパフォーマンスとどの程度うまく一致しますか?
論文参考訳（メタデータ） (2025-07-15T03:40:21Z)
Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。 SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文参考訳（メタデータ） (2025-02-03T02:31:26Z)
Evaluating the Robustness of Analogical Reasoning in Large Language Models [6.5855735579366685]
LLMのアナログ生成能力のロバスト性について検討した。我々は,従来の類推問題に対するロバスト性について,人間とGPTモデルを検証した。人間とは異なり、GPTモデルの性能は答え順序の影響を受けやすい。
論文参考訳（メタデータ） (2024-11-21T15:25:08Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Relevant or Random: Can LLMs Truly Perform Analogical Reasoning? [44.158548608820624]
アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。 NLPコミュニティはまた、コンテキストにおける自己生成関連例は、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。自己生成したランダムなサンプルが驚くほど高い性能を達成できることを示す。
論文参考訳（メタデータ） (2024-04-19T09:15:07Z)
Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文参考訳（メタデータ） (2024-02-14T05:52:23Z)
Dive into the Chasm: Probing the Gap between In- and Cross-Topic Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文参考訳（メタデータ） (2024-02-02T12:59:27Z)
StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。 textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文参考訳（メタデータ） (2023-10-19T16:29:23Z)
Can language models learn analogical reasoning? Investigating training objectives and comparisons to human performance [0.0]
我々は、基本的なアナロジー推論を学習するいくつかの方法を試し、特に人間のアナロジー推論を評価するために使われるものよりも典型的なアナロジーに焦点をあてる。実験の結果,少量のデータであっても,モデルが類似推論を学習できることが判明した。
論文参考訳（メタデータ） (2023-10-09T10:34:38Z)
ARN: Analogical Reasoning on Narratives [13.707344123755126]
我々は、物語要素を用いて表面マッピングとシステムマッピングを作成する、アナロジーの支配的理論を運用するフレームワークを開発する。すべてのLLMがほぼ類似点を認識できるが、最大でもゼロショット環境では極端に類似点に苦戦している。
論文参考訳（メタデータ） (2023-10-02T08:58:29Z)
ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base [51.777618249271725]
ANALOGYKBは、既存の知識グラフ(KGs)から派生した100万スケールのアナロジー知識ベースである 1)KGから直接抽出できる同一関係のアナロジー、2)大きな言語モデル(LLM)によって実現される選択とフィルタリングパイプラインと識別される類似関係のアナロジーである。
論文参考訳（メタデータ） (2023-05-10T09:03:01Z)
Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。 RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文参考訳（メタデータ） (2020-07-23T14:00:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。