論文の概要: Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of the Reasoning Language Models Chain of Thought Mechanism for Digital Forensics
- arxiv url: http://arxiv.org/abs/2512.04254v1
- Date: Wed, 03 Dec 2025 20:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.869955
- Title: Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of the Reasoning Language Models Chain of Thought Mechanism for Digital Forensics
- Title(参考訳): GPT-OSS, Looks You Got It - Now Walk Me through it! デジタル鑑識のための思考メカニズムの推論言語モデルの評価
- Authors: Gaëtan Michelet, Janine Schneider, Aruna Withanage, Frank Breitinger,
- Abstract要約: 新しい推論言語モデルが登場し、内部推論機構を通じて論理ベースのタスクを処理するように設計されている。
本稿では,デジタル法医学における言語モデル推論の可能性について考察する。
結果説明責任を支えるために, 推論部品のユーザビリティを評価するために, テストケースを4つ検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of large language models in digital forensics has been widely explored. Beyond identifying potential applications, research has also focused on optimizing model performance for forensic tasks through fine-tuning. However, limited result explainability reduces their operational and legal usability. Recently, a new class of reasoning language models has emerged, designed to handle logic-based tasks through an `internal reasoning' mechanism. Yet, users typically see only the final answer, not the underlying reasoning. One of these reasoning models is gpt-oss, which can be deployed locally, providing full access to its underlying reasoning process. This article presents the first investigation into the potential of reasoning language models for digital forensics. Four test use cases are examined to assess the usability of the reasoning component in supporting result explainability. The evaluation combines a new quantitative metric with qualitative analysis. Findings show that the reasoning component aids in explaining and validating language model outputs in digital forensics at medium reasoning levels, but this support is often limited, and higher reasoning levels do not enhance response quality.
- Abstract(参考訳): デジタル法医学における大規模言語モデルの利用は広く研究されている。
潜在的なアプリケーションを特定するだけでなく、研究は微調整による法医学的タスクのモデルパフォーマンスの最適化にも重点を置いている。
しかし、限られた結果の説明可能性によって、その運用および法的使用性は低下する。
近年,'内部推論'機構を通じて論理ベースのタスクを処理するために設計された,推論言語モデルの新たなクラスが出現している。
しかし、ユーザーは一般的に最終回答のみを目にするが、根底にある理由ではない。
これらの推論モデルの1つはgpt-ossで、ローカルにデプロイすることができる。
本稿では,デジタル法医学における言語モデル推論の可能性について考察する。
結果説明責任を支えるために, 推論部品のユーザビリティを評価するために, テストケースを4つ検討した。
この評価は、新しい定量値と定性的分析を組み合わせたものである。
分析の結果,中間推論レベルでの言語モデルアウトプットの説明と検証に有効であるが,このサポートは限定的であり,より高い推論レベルは応答品質を向上しないことがわかった。
関連論文リスト
- Unsupervised decoding of encoded reasoning using language model interpretability [5.139676481194603]
我々は、現在の解釈可能性技術が符号化推論に浸透できるかどうかを考察する。
ここでは,ロジットレンズが効果的に符号化推論を翻訳可能であることを示す。
我々は、ロジットレンズと自動パラフレージングを組み合わせた、完全に教師なしの復号パイプラインを開発した。
論文 参考訳(メタデータ) (2025-12-01T03:05:20Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。
LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。
実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。
解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文 参考訳(メタデータ) (2025-05-17T05:36:14Z) - Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。
より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。
本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文 参考訳(メタデータ) (2025-04-08T03:21:51Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。