論文の概要: Large-Language Memorization During the Classification of United States Supreme Court Cases
- arxiv url: http://arxiv.org/abs/2512.13654v1
- Date: Mon, 15 Dec 2025 18:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.812193
- Title: Large-Language Memorization During the Classification of United States Supreme Court Cases
- Title(参考訳): 米国最高裁判所の判例分類における大局的覚書化
- Authors: John E. Ortega, Dhruv D. Joshi, Matt P. Borkowski,
- Abstract要約: 大規模言語モデル (LLM) は、質問応答以外の分類タスクに対して様々な方法で応答することが示されている。
我々は、米国最高裁判所(SCOTUS)の決定に基づいて、分類タスクを深く掘り下げる。
最新のLCMファインチューニングと検索に基づくアプローチで実験を行う。
- 参考スコア(独自算出の注目度): 2.575607461199738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-language models (LLMs) have been shown to respond in a variety of ways for classification tasks outside of question-answering. LLM responses are sometimes called "hallucinations" since the output is not what is ex pected. Memorization strategies in LLMs are being studied in detail, with the goal of understanding how LLMs respond. We perform a deep dive into a classification task based on United States Supreme Court (SCOTUS) decisions. The SCOTUS corpus is an ideal classification task to study for LLM memory accuracy because it presents significant challenges due to extensive sentence length, complex legal terminology, non-standard structure, and domain-specific vocabulary. Experimentation is performed with the latest LLM fine tuning and retrieval-based approaches, such as parameter-efficient fine-tuning, auto-modeling, and others, on two traditional category-based SCOTUS classification tasks: one with 15 labeled topics and another with 279. We show that prompt-based models with memories, such as DeepSeek, can be more robust than previous BERT-based models on both tasks scoring about 2 points better than previous models not based on prompting.
- Abstract(参考訳): 大規模言語モデル (LLM) は、質問応答以外の分類タスクに対して様々な方法で応答することが示されている。
LLM応答は、出力が検出されているものではないため、しばしば「幻覚」と呼ばれる。
LLMにおける記憶戦略は、LLMがどう反応するかを理解することを目的として、詳細に研究されている。
我々は、米国最高裁判所(SCOTUS)の決定に基づいて、分類タスクを深く掘り下げる。
SCOTUSコーパスは、LLMメモリの正確性を研究する上で理想的な分類タスクである。
従来のカテゴリベースSCOTUS分類タスクである15のトピックと279のトピックに対して,パラメータ効率の高いファインチューニングやオートモデリングなど,最新のLCMファインチューニングと検索ベースのアプローチを用いて実験を行った。
我々は、DeepSeekのようなプロンプトベースのモデルが従来のBERTベースのモデルよりもより堅牢であることを示し、プロンプトに基づいていない従来のモデルよりも約2ポイントのスコアが得られた。
関連論文リスト
- LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - Large Language Models For Text Classification: Case Study And Comprehensive Review [0.3428444467046467]
各種言語モデル(LLM)の性能を,最先端のディープラーニングモデルや機械学習モデルと比較して評価する。
本研究は,提案手法に基づくモデル応答の有意な変動を明らかにした。
論文 参考訳(メタデータ) (2025-01-14T22:02:38Z) - LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-06T15:55:05Z) - Paraphrase and Aggregate with Large Language Models for Minimizing Intent Classification Errors [19.601600598570215]
大規模言語モデル(LLM)は,大規模な多クラス分類タスクにおいて高い性能を達成できるが,いまだに分類誤りを発生させ,さらに悪化させ,語彙外なクラスラベルを生成する。
本稿では、LLMが入力クエリ(並列クエリ)の複数のパラフレーズを生成するParaphrase and AGgregate (PAG)-LLMアプローチを提案する。
PAG-LLM は LLM が不確実なハードケースでは特に有効であり, 致命的誤分類と幻覚的ラベル生成誤差を低減させる。
論文 参考訳(メタデータ) (2024-06-24T22:30:26Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。