論文の概要: Assessing the Interpretability of Programmatic Policies with Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.06979v1
- Date: Sun, 12 Nov 2023 22:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:05:14.542644
- Title: Assessing the Interpretability of Programmatic Policies with Large
Language Models
- Title(参考訳): 大規模言語モデルによるプログラムポリシーの解釈可能性の評価
- Authors: Zahra Bashir, Michael Bowling, Levi H. S. Lelis
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いてプログラムポリシーの解釈可能性を評価する手法を提案する。
提案手法は,再構成プログラムとオリジナルとの動作の類似性を計測する。
私たちのメトリクスは、プログラムポリシーの解釈可能性を評価するための信頼性と安価なツールとして役立ちます。
- 参考スコア(独自算出の注目度): 21.785049132732528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the synthesis of programs encoding policies often carries the
promise of interpretability, systematic evaluations to assess the
interpretability of these policies were never performed, likely because of the
complexity of such an evaluation. In this paper, we introduce a novel metric
that uses large-language models (LLM) to assess the interpretability of
programmatic policies. For our metric, an LLM is given both a program and a
description of its associated programming language. The LLM then formulates a
natural language explanation of the program. This explanation is subsequently
fed into a second LLM, which tries to reconstruct the program from the natural
language explanation. Our metric measures the behavioral similarity between the
reconstructed program and the original. We validate our approach using
obfuscated programs that are used to solve classic programming problems. We
also assess our metric with programmatic policies synthesized for playing a
real-time strategy game, comparing the interpretability scores of programmatic
policies synthesized by an existing system to lightly obfuscated versions of
the same programs. Our LLM-based interpretability score consistently ranks less
interpretable programs lower and more interpretable ones higher. These findings
suggest that our metric could serve as a reliable and inexpensive tool for
evaluating the interpretability of programmatic policies.
- Abstract(参考訳): ポリシーを符号化するプログラムの合成は、しばしば解釈可能性の約束をもたらすが、このような評価の複雑さのために、これらのポリシーの解釈可能性を評価する体系的な評価は行われなかった。
本稿では,大規模言語モデル(llm)を用いてプログラム政策の解釈可能性を評価する新しい指標を提案する。
我々のメトリクスでは、LLMはプログラムと関連するプログラミング言語の記述の両方を与えられる。
LLMはその後、プログラムの自然言語説明を定式化する。
この説明はその後第2のLSMに送られ、自然言語の説明からプログラムを再構築しようとする。
再建プログラムとオリジナルとの行動的類似度を測定した。
古典的なプログラミング問題を解くために用いられる難読化プログラムを用いて,我々のアプローチを検証する。
また,実時間戦略ゲーム用に合成されたプログラム的ポリシーを用いて,既存のシステムで合成されたプログラム的ポリシーの解釈可能性スコアと,同一プログラムの難解なバージョンを比較した。
LLMベースの解釈可能性スコアは、より低い解釈可能なプログラムとより高い解釈可能なプログラムを一貫してランク付けします。
これらの結果は, プログラム政策の解釈可能性を評価する上で, 信頼性が高く安価なツールとなりうることを示唆する。
関連論文リスト
- Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Synthesizing Programmatic Policies with Actor-Critic Algorithms and ReLU
Networks [20.2777559515384]
PIRL(Programmaticly Interpretable Reinforcement Learning)は、人間が読めるコンピュータプログラムのポリシーを符号化する。
本稿では,プログラムポリシーを符号化する言語によって,PIRL固有のアルゴリズムは不要であることを示す。
我々は、ReLUニューラルネットワークと斜め決定木との接続を用いて、アクター批判アルゴリズムで学んだポリシーをプログラムポリシーに変換する。
論文 参考訳(メタデータ) (2023-08-04T22:17:32Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。
以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。
本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文 参考訳(メタデータ) (2022-06-06T22:09:52Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Learning from Executions for Semantic Parsing [86.94309120789396]
注釈付きデータの限られた量が利用できる半教師付き学習の課題に焦点をあてる。
ラベルなし発話に対する実行可能プログラムを提案する。
論文 参考訳(メタデータ) (2021-04-12T21:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。