論文の概要: Teaching Through Analogies: A Modular Pipeline for Educational Analogy Generation
- arxiv url: http://arxiv.org/abs/2605.24211v1
- Date: Fri, 22 May 2026 20:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.745668
- Title: Teaching Through Analogies: A Modular Pipeline for Educational Analogy Generation
- Title(参考訳): アナロジーを通して学ぶ:教育アナロジー生成のためのモジュールパイプライン
- Authors: Mariam Barakat, Ekaterina Kochmar,
- Abstract要約: 大型言語モデル (LLMs) は人間に匹敵する品質のアナログを生成するのに苦戦している。
本稿では,課題をソース検索,サブコンセプト生成,説明生成,評価の4段階に分解した,教育アナロジー生成のためのモジュールパイプラインを提案する。
- 参考スコア(独自算出の注目度): 10.747790768736008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analogies help learners understand unfamiliar concepts by relating them to known concepts. Despite recent advances, large language models (LLMs) continue to struggle to generate analogies of comparable quality to those produced by humans. We present a modular pipeline for educational analogy generation, decomposing the task into four stages: source finding, sub-concept generation, explanation generation, and evaluation. Grounded in Structure Mapping Theory, the pipeline enables systematic, stage-by-stage analysis of how model choice and input configuration affect analogy quality. We evaluate 12 state-of-the-art LLMs across six model families on two datasets with structured sub-concept annotations (SCAR and ParallelPARC), alongside seven embedding models for closed-setting retrieval. Our results show that sub-concepts substantially improve explanation quality and closed setting retrieval precision but provide limited benefit in open-ended source generation. We further introduce an LLM-as-a-judge evaluation methodology and validate its scoring against human annotations from seven annotators, finding that Claude Sonnet 4.6 aligns more reliably with human rankings than with fine-grained absolute scores. Taken together, our findings reveal cross-stage interactions that isolated studies cannot capture, and highlight sub-concept grounding as a key driver of analogy quality generation.
- Abstract(参考訳): アナロジーは、学習者が未知の概念を既知の概念に関連付けることによって理解するのに役立つ。
近年の進歩にもかかわらず、大型言語モデル (LLM) は人間に匹敵する品質のアナログを生成するのに苦戦している。
本稿では,課題をソース検索,サブコンセプト生成,説明生成,評価の4段階に分解した,教育アナロジー生成のためのモジュールパイプラインを提案する。
構造マッピング理論(Structure Mapping Theory)に基づいて、パイプラインは、モデル選択と入力構成がアナログ品質にどのように影響するかを、システマティックでステージバイステージで分析することを可能にする。
我々は,構造化サブ概念アノテーション(SCARとParallelPARC)とクローズドセット検索のための7つの埋め込みモデルを持つ2つのデータセットを用いて,6つのモデルファミリーにまたがる12の最先端LCMを評価した。
この結果から,サブコンセプトは説明品質とクローズドセッティング検索精度を大幅に向上するが,オープンなソース生成には限界があることがわかった。
さらに, LLM-as-a-judge 評価手法を導入し, 7 つのアノテーションからの人間のアノテーションに対する評価を検証したところ, Claude Sonnet 4.6 はきめ細かい絶対スコアよりも人間のランクと確実に一致していることがわかった。
本研究は, 分離された研究では捉えられない異段階間相互作用を明らかにし, アナログ品質生成の重要な要因として, サブコンセプトグラウンドディングを強調した。
関連論文リスト
- GIANTS: Generative Insight Anticipation from Scientific Literature [84.95947892931142]
本稿では、下流紙のコアインサイトを基礎となる親論文から予測する世代課題であるインサイト予測を導入する。
実測値と実測値の類似性を評価するLM判定器を用いてモデル評価を行い,これらの類似性スコアが有能な人間の評価値と相関していることを示す。
GIANTS-4Bは、強化学習(RL)を用いて訓練されたLMで、これらの類似度スコアをプロキシ報酬として用いた洞察予測を最適化する。
論文 参考訳(メタデータ) (2026-04-10T18:13:55Z) - Bridging Human Interpretation and Machine Representation: A Landscape of Qualitative Data Analysis in the LLM Era [13.819368368469348]
4段階のモデリングで4段階の意味作りを4段階に分けた4$times$4のランドスケープを紹介した。
ランドスケープをLLMベースの自動化に適用すると、低レベルの意味と低コミット表現に対する強い歪が浮き彫りになる。
論文 参考訳(メタデータ) (2026-01-16T19:47:41Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - AnalogSeeker: An Open-source Foundation Language Model for Analog Circuit Design [20.332984809384445]
本稿ではアナログ回路設計のためのオープンソースの基礎言語モデルであるAnalogSeekerを提案する。
関連分野にわたる高品質でアクセシブルな教科書は、体系的にキュレーションされ、テキストドメインコーパスにクリーン化される。
実際、我々はQwen2.5-32B-Instructモデルを用いてAnalogSeekerを得る。
論文 参考訳(メタデータ) (2025-08-14T07:32:07Z) - Modeling Understanding of Story-Based Analogies Using Large Language Models [1.4999444543328293]
大規模言語モデルの最近の進歩は、様々なタスクにおける人間の認識のマッチングに近づきつつある。
これらのモデルは、アナログの検出とマッピングにおいて、人間のパフォーマンスとどの程度うまく一致しますか?
論文 参考訳(メタデータ) (2025-07-15T03:40:21Z) - StoryAnalogy: Deriving Story-level Analogies from Large Language Models
to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。
textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。
我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文 参考訳(メタデータ) (2023-10-19T16:29:23Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base [51.777618249271725]
ANALOGYKBは、既存の知識グラフ(KGs)から派生した100万スケールのアナロジー知識ベースである
1)KGから直接抽出できる同一関係のアナロジー、2)大きな言語モデル(LLM)によって実現される選択とフィルタリングパイプラインと識別される類似関係のアナロジーである。
論文 参考訳(メタデータ) (2023-05-10T09:03:01Z) - Building and Interpreting Deep Similarity Models [0.0]
そこで本稿では,入力機能の観点から説明することで類似性を解釈する手法を提案する。
我々は,2組の入力特徴に対して類似度スコアを系統的に分解する,スケーラブルで理論的に確立された手法であるBiLRPを開発した。
論文 参考訳(メタデータ) (2020-03-11T17:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。