Fugu-MT 論文翻訳(概要): Assessing the Interpretability of Programmatic Policies with Large Language Models

論文の概要: Assessing the Interpretability of Programmatic Policies with Large Language Models

arxiv url: http://arxiv.org/abs/2311.06979v1
Date: Sun, 12 Nov 2023 22:43:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 16:05:14.542644
Title: Assessing the Interpretability of Programmatic Policies with Large Language Models
Title（参考訳）: 大規模言語モデルによるプログラムポリシーの解釈可能性の評価
Authors: Zahra Bashir, Michael Bowling, Levi H. S. Lelis
Abstract要約: 本稿では,大規模言語モデル(LLM)を用いてプログラムポリシーの解釈可能性を評価する手法を提案する。提案手法は,再構成プログラムとオリジナルとの動作の類似性を計測する。私たちのメトリクスは、プログラムポリシーの解釈可能性を評価するための信頼性と安価なツールとして役立ちます。
参考スコア（独自算出の注目度）: 21.785049132732528
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although the synthesis of programs encoding policies often carries the promise of interpretability, systematic evaluations to assess the interpretability of these policies were never performed, likely because of the complexity of such an evaluation. In this paper, we introduce a novel metric that uses large-language models (LLM) to assess the interpretability of programmatic policies. For our metric, an LLM is given both a program and a description of its associated programming language. The LLM then formulates a natural language explanation of the program. This explanation is subsequently fed into a second LLM, which tries to reconstruct the program from the natural language explanation. Our metric measures the behavioral similarity between the reconstructed program and the original. We validate our approach using obfuscated programs that are used to solve classic programming problems. We also assess our metric with programmatic policies synthesized for playing a real-time strategy game, comparing the interpretability scores of programmatic policies synthesized by an existing system to lightly obfuscated versions of the same programs. Our LLM-based interpretability score consistently ranks less interpretable programs lower and more interpretable ones higher. These findings suggest that our metric could serve as a reliable and inexpensive tool for evaluating the interpretability of programmatic policies.
Abstract（参考訳）: ポリシーを符号化するプログラムの合成は、しばしば解釈可能性の約束をもたらすが、このような評価の複雑さのために、これらのポリシーの解釈可能性を評価する体系的な評価は行われなかった。本稿では,大規模言語モデル(llm)を用いてプログラム政策の解釈可能性を評価する新しい指標を提案する。我々のメトリクスでは、LLMはプログラムと関連するプログラミング言語の記述の両方を与えられる。 LLMはその後、プログラムの自然言語説明を定式化する。この説明はその後第2のLSMに送られ、自然言語の説明からプログラムを再構築しようとする。再建プログラムとオリジナルとの行動的類似度を測定した。古典的なプログラミング問題を解くために用いられる難読化プログラムを用いて,我々のアプローチを検証する。また,実時間戦略ゲーム用に合成されたプログラム的ポリシーを用いて,既存のシステムで合成されたプログラム的ポリシーの解釈可能性スコアと,同一プログラムの難解なバージョンを比較した。 LLMベースの解釈可能性スコアは、より低い解釈可能なプログラムとより高い解釈可能なプログラムを一貫してランク付けします。これらの結果は, プログラム政策の解釈可能性を評価する上で, 信頼性が高く安価なツールとなりうることを示唆する。

関連論文リスト

Programming by Backprop: LLMs Acquire Reusable Algorithmic Abstractions During Code Training [2.743215038883958]
ソースコード上での大規模言語モデル(LLM)のトレーニングは、その汎用推論能力を大幅に向上させる。この効果の潜在的要因として,バックプロップ(PBB)によるプログラミングを提案する。 PBBは、自然発生したデータを反映した分布から引き出されたI/Oペアのトレーニングよりも、入力間でのプログラムの堅牢な評価につながることを示す。
論文参考訳（メタデータ） (2025-06-23T15:45:44Z)
Can LLMs Formally Reason as Abstract Interpreters for Program Analysis? [2.520295252080748]
LLMはコード生成と理解に優れた能力を持っているが、プログラム解析におけるそのポテンシャルは未解明のままである。 LLMが抽象解釈と呼ばれるプログラム分析フレームワークを用いてプログラムを推論できるかどうかを系統的に検討する。ソフトウェア検証コンペティション(SV-COMP)2019データセットから,22の挑戦的なベンチマークプログラムに対して,最先端のLCMを用いてアプローチを検証する。本研究の結果から,LLMは論理的誤りの影響を受けやすいが,実験モデルでは抽象的解釈に基づく推論が可能であることが示唆された。
論文参考訳（メタデータ） (2025-03-16T23:05:52Z)
Can LLMs Reason About Program Semantics? A Comprehensive Evaluation of LLMs on Formal Specification Inference [0.9319432628663639]
大規模言語モデル(LLM)は、プログラミングタスクの自動化にますます使われています。本稿では,プログラム意味論におけるLLMの推論能力を評価するためのベンチマークであるFormalBenchを紹介する。このベンチマークを用いて、一貫した仕様と完全な仕様を合成するLLMの能力を評価した。
論文参考訳（メタデータ） (2025-02-22T13:27:31Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。 SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。 UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文参考訳（メタデータ） (2024-06-05T22:16:19Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Synthesizing Programmatic Policies with Actor-Critic Algorithms and ReLU Networks [20.2777559515384]
PIRL(Programmaticly Interpretable Reinforcement Learning)は、人間が読めるコンピュータプログラムのポリシーを符号化する。本稿では,プログラムポリシーを符号化する言語によって,PIRL固有のアルゴリズムは不要であることを示す。我々は、ReLUニューラルネットワークと斜め決定木との接続を用いて、アクター批判アルゴリズムで学んだポリシーをプログラムポリシーに変換する。
論文参考訳（メタデータ） (2023-08-04T22:17:32Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。 Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文参考訳（メタデータ） (2023-01-30T14:50:46Z)
Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文参考訳（メタデータ） (2022-06-06T22:09:52Z)
Learning to Synthesize Programs as Interpretable and Generalizable Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-31T07:03:06Z)
Learning from Executions for Semantic Parsing [86.94309120789396]
注釈付きデータの限られた量が利用できる半教師付き学習の課題に焦点をあてる。ラベルなし発話に対する実行可能プログラムを提案する。
論文参考訳（メタデータ） (2021-04-12T21:07:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。