このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240211となっている論文です。

PDF登録状況(公開日: 20240211)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューラルネットワーク探索における進化と効率性 - エキスパート設計と自動最適化のギャップを埋める

Evolution and Efficiency in Neural Architecture Search: Bridging the Gap Between Expert Design and Automated Optimization ( http://arxiv.org/abs/2403.17012v1 )

ライセンス: Link先を確認
Fanfei Meng, Chen-Ao Wang, Alexander Brown, (参考訳) この論文は、手動設計から自動化された計算駆動アプローチへの進化を強調した、ニューラルネットワーク探索(NAS)の包括的な概要を提供する。 NASの開始と成長をカバーし、医療画像や自然言語処理など、さまざまな領域での応用を強調している。 この文書では、専門家駆動設計からアルゴリズム駆動プロセスへの移行について詳述し、強化学習や進化的アルゴリズムといった最初の方法論を探求している。 また、計算要求の課題や、微分可能なアーキテクチャ探索やハードウェア対応NASといった効率的なNAS方法論の出現についても論じている。 この論文は、コンピュータビジョン、NLPなどにおけるNASの応用をさらに詳しく説明し、その汎用性と、さまざまなタスクにわたってニューラルネットワークアーキテクチャを最適化する可能性を示している。 計算効率や新興AIドメインとの統合を含む今後の方向性や課題に対処し、NASのダイナミックな性質と、より高度で効率的なアーキテクチャ探索方法への継続的な進化を示す。

The paper provides a comprehensive overview of Neural Architecture Search (NAS), emphasizing its evolution from manual design to automated, computationally-driven approaches. It covers the inception and growth of NAS, highlighting its application across various domains, including medical imaging and natural language processing. The document details the shift from expert-driven design to algorithm-driven processes, exploring initial methodologies like reinforcement learning and evolutionary algorithms. It also discusses the challenges of computational demands and the emergence of efficient NAS methodologies, such as Differentiable Architecture Search and hardware-aware NAS. The paper further elaborates on NAS's application in computer vision, NLP, and beyond, demonstrating its versatility and potential for optimizing neural network architectures across different tasks. Future directions and challenges, including computational efficiency and the integration with emerging AI domains, are addressed, showcasing NAS's dynamic nature and its continued evolution towards more sophisticated and efficient architecture search methods.
翻訳日:2024-04-01 02:44:33 公開日:2024-02-11
# 宗教の証明:ロールアップのための暗号経済のセキュリティ

Proof of Diligence: Cryptoeconomic Security for Rollups ( http://arxiv.org/abs/2402.07241v1 )

ライセンス: Link先を確認
Peiyao Sheng, Ranvir Rana, Himanshu Tyagi, Pramod Viswanath, (参考訳) Ethereumのようなレイヤ1(L1)ブロックチェーンは、各トランザクションの検証を行うバリデータプールに対して、"最高の超並列性"という前提の下で保護される。 この高いセキュリティは、ブロックチェーンのスループットに影響を与えるだけでなく、チェーン上でトランザクションを実行するためのガス料金も高くなります。 この問題の最も成功したソリューションは、楽観的なロールアップであるLayer 2(L2)ブロックチェーンによって提供される。 このようなL2チェーンのセキュリティは、非公式に、ノードのセットがL1にポストされたトランザクションデータをチェックし、不正なトランザクションが検出された場合、アラーム(不正証明)を発生させるという仮定の下で議論される。 しかしながら、現在のすべてのデプロイメントでは、これらのノードが ‘diligently'' のジョブを確実にする適切なインセンティブメカニズムが欠如しており、単にセキュリティのためのキュリーインセンティブアライメント引数に依存するだけである。 我々は、ロールアップの第一線として設計されたインセンティブ付き監視塔ネットワークを導入することで、この問題を解決する。 私たちの主なコントリビューションは ‘Proof of Diligence''プロトコルです。これは、監視官がL2のアサーションを検証し、同じ報酬を得るという証明を継続的に提供しなければなりません。 Proof of Diligenceプロトコルには、注意深い設計によるインセンティブ機構が含まれており、ウォッチトワーが合理的なアクターであるときに、軽度の合理的な独立性の仮定の下で、確実に安全である。 提案システムはEthereum testnetで利用可能である。 我々は、複数の楽観的なロールアップのために、監視塔ネットワークをデプロイし、Proof of Diligenceを実装した。 我々は、賞金の一部として、トランザクションの実行と、トランザクションの包括的証明を抽出する。 各watchtowerは、標準のL1およびL2 RPCノードへのアクセス以上の、最小限の計算オーバーヘッドを持つ。

Layer 1 (L1) blockchains such as Ethereum are secured under an "honest supermajority of stake" assumption for a large pool of validators who verify each and every transaction on it. This high security comes at a scalability cost which not only effects the throughput of the blockchain but also results in high gas fees for executing transactions on chain. The most successful solution for this problem is provided by optimistic rollups, Layer 2 (L2) blockchains that execute transactions outside L1 but post the transaction data on L1. The security for such L2 chains is argued, informally, under the assumption that a set of nodes will check the transaction data posted on L1 and raise an alarm (a fraud proof) if faulty transactions are detected. However, all current deployments lack a proper incentive mechanism for ensuring that these nodes will do their job ``diligently'', and simply rely on a cursory incentive alignment argument for security. We solve this problem by introducing an incentivized watchtower network designed to serve as the first line of defense for rollups. Our main contribution is a ``Proof of Diligence'' protocol that requires watchtowers to continuously provide a proof that they have verified L2 assertions and get rewarded for the same. Proof of Diligence protocol includes a carefully-designed incentive mechanism that is provably secure when watchtowers are rational actors, under a mild rational independence assumption. Our proposed system is now live on Ethereum testnet. We deployed a watchtower network and implemented Proof of Diligence for multiple optimistic rollups. We extract execution as well as inclusion proofs for transactions as a part of the bounty. Each watchtower has minimal additional computational overhead beyond access to standard L1 and L2 RPC nodes.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-11
# インテントベースアクセス制御:LLMを用いた知的アクセス制御

Intent-Based Access Control: Using LLMs to Intelligently Manage Access Control ( http://arxiv.org/abs/2402.07332v1 )

ライセンス: Link先を確認
Pranav Subramaniam, Sanjay Krishnan, (参考訳) すべてのエンタープライズデータベースにおいて、管理者は、どのユーザーがどの資産にアクセスしているかを指定するアクセス制御ポリシーを定義する必要がある。 アクセス制御は、ポリシー(誰がアクセスするかを定義する組織レベルの原則)とプロセス(実際にポリシーを実装するデータベースレベルのプリミティブ)という2つの世界に分かれています。 ポリシーに対するプロセスのコンプライアンスを評価し、強制することは、手作業であり、アドホックな作業である。 本稿では,Intent-Based Access Control for Databases (IBAC-DB) と呼ばれるアクセス制御の新しいパラダイムを提案する。 IBAC-DBでは、新しいフォーマットである自然言語アクセス制御マトリックス(NLACM)を用いて、アクセス制御ポリシーをより正確に表現する。 データベースアクセス制御プリミティブはこれらのNLACMから自動的に合成される。 これらのプリミティブは、新しいDB構成の生成や既存の設定の評価に使用することができる。 本稿では、IBAC-DBインタフェースの参照アーキテクチャ、PostgreSQLの初期実装(LLM4ACと呼ぶ)、システムの精度とスコープを評価する初期ベンチマークについて述べる。 選択した実装であるLLM4ACは、他のベースラインをはるかに上回り、初期のベンチマークでほぼ完璧なF1スコアを達成しています。

In every enterprise database, administrators must define an access control policy that specifies which users have access to which assets. Access control straddles two worlds: policy (organization-level principles that define who should have access) and process (database-level primitives that actually implement the policy). Assessing and enforcing process compliance with a policy is a manual and ad-hoc task. This paper introduces a new paradigm for access control called Intent-Based Access Control for Databases (IBAC-DB). In IBAC-DB, access control policies are expressed more precisely using a novel format, the natural language access control matrix (NLACM). Database access control primitives are synthesized automatically from these NLACMs. These primitives can be used to generate new DB configurations and/or evaluate existing ones. This paper presents a reference architecture for an IBAC-DB interface, an initial implementation for PostgreSQL (which we call LLM4AC), and initial benchmarks that evaluate the accuracy and scope of such a system. We find that our chosen implementation, LLM4AC, vastly outperforms other baselines, achieving near-perfect F1 scores on our initial benchmarks.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-11
# 暗号通貨取引におけるブロックチェーンメトリクスと指標

Blockchain Metrics and Indicators in Cryptocurrency Trading ( http://arxiv.org/abs/2403.00770v1 )

ライセンス: Link先を確認
Juan C. King, Roberto Dale, José M. Amigó, (参考訳) 本研究の目的は、暗号通貨市場での運用に役立つ新しい指標の構築である。 これらの指標は、ブロックチェーンネットワーク、特にBitcoinマイニングを構成するノードから得られる公開データに基づいています。 したがって、我々の分析はそのネットワークに固有のものである。 統計モデルと機械学習によるアルゴリズム取引と予測の数値シミュレーションにより得られた結果は、Bitcoin資産の取引や価格方向の予測において、ハッシュレート、マイニングの難しさ、トランザクション当たりのコストといった変数の重要性を示す。 ブロックチェーンネットワークから取得した変数は、ここでブロックチェーンメトリクスと呼ばれる。 対応する指標("Hash Ribbon"にインスパイアされた)は、購入信号の特定においてよく機能する。 この結果から、このようなブロックチェーン指標は、非常に不安定な暗号通貨市場において、統計的に有利な情報を得ることを可能にすると結論付けている。

The objective of this paper is the construction of new indicators that can be useful to operate in the cryptocurrency market. These indicators are based on public data obtained from the blockchain network, specifically from the nodes that make up Bitcoin mining. Therefore, our analysis is unique to that network. The results obtained with numerical simulations of algorithmic trading and prediction via statistical models and Machine Learning demonstrate the importance of variables such as the hash rate, the difficulty of mining or the cost per transaction when it comes to trade Bitcoin assets or predict the direction of price. Variables obtained from the blockchain network will be called here blockchain metrics. The corresponding indicators (inspired by the "Hash Ribbon") perform well in locating buy signals. From our results, we conclude that such blockchain indicators allow obtaining information with a statistical advantage in the highly volatile cryptocurrency market.
翻訳日:2024-03-25 08:36:53 公開日:2024-02-11
# 階層型ラベル関係モデルによる人間の活動認識の再考

Re-thinking Human Activity Recognition with Hierarchy-aware Label Relationship Modeling ( http://arxiv.org/abs/2403.05557v1 )

ライセンス: Link先を確認
Jingwei Zuo, Hakim Hacid, (参考訳) HAR(Human Activity Recognition)は、データ収集、学習モデル、後処理、結果解釈など、数十年にわたって研究されてきた。 しかし、その活動の固有の階層構造は、モデルの性能と解釈に大きな影響を与えているにもかかわらず、比較的過小評価されているままである。 本稿では,HARタスクを新たな視点から再考することで,H-HARを提案する。 多層的活動のために複数の分類器を別々に構築するのではなく,グラフに基づくラベル関係モデリングにより拡張されたフラットモデルの有効性を検討する。 階層構造を意識したグラフベースのラベルモデリングは、複雑なラベル関係をモデルに組み込むことで、基本的HARモデルを強化する。 複雑な人間の活動データに基づいて,多ラベル分類器を用いて提案手法を検証した。 その結果,HARモデルに垂直に統合して性能をさらに向上させる提案の利点が浮き彫りになった。

Human Activity Recognition (HAR) has been studied for decades, from data collection, learning models, to post-processing and result interpretations. However, the inherent hierarchy in the activities remains relatively under-explored, despite its significant impact on model performance and interpretation. In this paper, we propose H-HAR, by rethinking the HAR tasks from a fresh perspective by delving into their intricate global label relationships. Rather than building multiple classifiers separately for multi-layered activities, we explore the efficacy of a flat model enhanced with graph-based label relationship modeling. Being hierarchy-aware, the graph-based label modeling enhances the fundamental HAR model, by incorporating intricate label relationships into the model. We validate the proposal with a multi-label classifier on complex human activity data. The results highlight the advantages of the proposal, which can be vertically integrated into advanced HAR models to further enhance their performances.
翻訳日:2024-03-25 08:36:53 公開日:2024-02-11
# 位置情報に基づくデータ研究における倫理的・プライバシ的考察

Ethical and Privacy Considerations with Location Based Data Research ( http://arxiv.org/abs/2403.05558v1 )

ライセンス: Link先を確認
Leonardo Tonetto, Pauline Kister, Nitinder Mohan, Jörg Ott, (参考訳) ネットワーク研究、特に人間の移動性に焦点を当てた研究は、過去20年間に大きく発展し、現在、より大きなデータセットの収集と分析に依存している。 データセットのサイズが大きくなるのは、データを収集する大規模な自動化作業と、何年も前に不可能だった洞察を分析して公表するスケーラブルな方法によって実現されている。 しかし、人間中心の研究におけるこの急速な拡大と革新は、しばしばプライバシーや倫理の犠牲となる。 本研究では,人間の移動性に関する科学研究の膨大なコーパスと,倫理とプライバシの考察を概観する。 個人の移動性に関するデータセット149件を含む,合計118件の論文をレビューした。 これらの成長を続けるコレクションが、新しい洞察に富んだ研究を可能にする一方で、データガバナンスにおける許容可能なプラクティスと彼らの研究のコミュニケーションに関するガイドラインを常に守っているわけではないことを実証しています。 私たちは、データ、プライバシ、倫理をコミュニティ内でどのように扱うかについて、一連の議論で締めくくります。

Networking research, especially focusing on human mobility, has evolved significantly in the last two decades and now relies on collection and analyzing larger datasets. The increasing sizes of datasets are enabled by larger automated efforts to collect data as well as by scalable methods to analyze and unveil insights, which was not possible many years ago. However, this fast expansion and innovation in human-centric research often comes at a cost of privacy or ethics. In this work, we review a vast corpus of scientific work on human mobility and how ethics and privacy were considered. We reviewed a total of 118 papers, including 149 datasets on individual mobility. We demonstrate that these ever growing collections, while enabling new and insightful studies, have not all consistently followed a pre-defined set of guidelines regarding acceptable practices in data governance as well as how their research was communicated. We conclude with a series of discussions on how data, privacy and ethics could be dealt within our community.
翻訳日:2024-03-25 08:36:53 公開日:2024-02-11
# eラーニングにおける自己制御型学習評価のためのプロセスマイニング

Process mining for self-regulated learning assessment in e-learning ( http://arxiv.org/abs/2403.12068v1 )

ライセンス: Link先を確認
R. Cerezo, A. Bogarin, M. Esteban, C. Romero, (参考訳) コンテンツアセスメントは近年,eラーニングのシナリオにおいて大きく改善されている。 しかし、eラーニングプロセスは、コンテンツの評価だけでなく、自己統制学習などの中核的スキルの獲得にも興味深い課題をもたらす空間的・時間的ギャップを生じさせる可能性がある。 本研究の目的は,プロセスマイニング技術を用いて,eラーニング科目における生徒の自己統制学習過程を明らかにすることである。 我々は,Moodle 2.0プラットフォーム上で1学期以上のコースで101人の大学生のインタラクショントレースに対して,インダクティブマイナーという教育領域に新しいアルゴリズムを適用した。 授業プロセスの改善に寄与する学生の自己規制モデルを発見するために、21629のトレースを持つプラットフォームのイベントログからデータを抽出した。 Inductive Minerアルゴリズムは、このデータセットにおいて、パスとフェイルの両方の学生の適合度の観点から最適なモデルを発見し、また、モデルの発見において最も重要な成果である教育用語で解釈できる一定の粒度のモデルを発見した。 その結果,受講生は指導員の提案に正確に従わなかったが,失敗するクラスメートとは対照的に,自己統制的な学習プロセスの論理に従わなかった。 プロセスマイニングモデルでは,学生が実施した特定の行動の検証も可能であり,特にPassグループにおけるフォーラム支援協調学習に関連する行動の存在や,Failグループ内の行動が欠如していることが注目された。

Content assessment has broadly improved in e-learning scenarios in recent decades. However, the eLearning process can give rise to a spatial and temporal gap that poses interesting challenges for assessment of not only content, but also students' acquisition of core skills such as self-regulated learning. Our objective was to discover students' self-regulated learning processes during an eLearning course by using Process Mining Techniques. We applied a new algorithm in the educational domain called Inductive Miner over the interaction traces from 101 university students in a course given over one semester on the Moodle 2.0 platform. Data was extracted from the platform's event logs with 21629 traces in order to discover students' self-regulation models that contribute to improving the instructional process. The Inductive Miner algorithm discovered optimal models in terms of fitness for both Pass and Fail students in this dataset, as well as models at a certain level of granularity that can be interpreted in educational terms, which are the most important achievement in model discovery. We can conclude that although students who passed did not follow the instructors' suggestions exactly, they did follow the logic of a successful self-regulated learning process as opposed to their failing classmates. The Process Mining models also allow us to examine which specific actions the students performed, and it was particularly interesting to see a high presence of actions related to forum-supported collaborative learning in the Pass group and an absence of those in the Fail group.
翻訳日:2024-03-25 07:46:43 公開日:2024-02-11
# 正確に解ける暗号単位量子モデルにおける物理ヒルベルト空間内積計量の異方性と漸近縮退

Anisotropy and asymptotic degeneracy of the physical-Hilbert-space inner-product metrics in an exactly solvable crypto-unitary quantum model ( http://arxiv.org/abs/1212.0734v3 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 量子力学(例えば、Schr\"{o}dinger picture)において、可観測物の完全な集合の知識(英語版)$\Lambda_j$は、関連する物理内積(すなわち、ヒルベルト空間計量$\Theta$)を宣言することができる(つまり、$\Lambda_j^\dagger \Theta=\Theta\,\Lambda_j$,} が一意であるような)。 多くのアプリケーションでは、モデルを単純化し、単一の入力オブザーバブル(主にエネルギー表現のハミルトニアンである$\lambda_1=h$)を考慮し、最も単純な候補である$\theta=\theta(h)$(典型的には、特別な自己随伴入力である$h$の場合)の中で、常に簡単な$\theta=i$で作業する。 これにより、他の入力の自己随伴形式である $\Lambda_j$ のみを許容せざるを得ない限り、理論の範囲は、真に意味のある現象学的理由がなければ制限される。 本稿では, 厳密な非数値的な$N$ by $N$行列モデルについて述べる。そのような制限を別のものに置き換える, 現象論的に等価でない制約として, $\Theta \neq I$, システムが崩壊する(すなわち, 可観測性の損失)。

In quantum mechanics (formulated, say, in Schr\"{o}dinger picture) only the knowledge of a complete set of observables $\Lambda_j$ enables us to declare the related physical inner product (i.e., the Hilbert-space metric $\Theta$ such that $\Lambda_j^\dagger \Theta=\Theta\,\Lambda_j$, i.e., such that $\Theta=\Theta(\Lambda_j)$) unique. In many applications people simplify the model and consider just a single input observable (mostly an energy-representing Hamiltonian $\Lambda_1=H$) and pick up, out of all of the eligible metrics $\Theta=\Theta(H)$, just the simplest candidate (typically, in the case of the special self-adjoint input $H$ we virtually always work with trivial $\Theta=I$). As long as this forces us to admit only the self-adjoint forms of any other input observable $\Lambda_j$, the scope of the theory is, without any truly meaningful phenomenological reason, restricted. In our present paper we describe a strictly non-numerical $N$ by $N$ matrix model in which such a restriction is replaced by another, phenomenologically non-equivalent restriction in which $\Theta \neq I$ and in which the system reaches a collapse (i.e., a loss-of-bservability catastrophe) via unitary evolution.
翻訳日:2024-03-11 00:25:20 公開日:2024-02-11
# XProspeCT:ピアドX線からのCTボリューム生成

XProspeCT: CT Volume Generation from Paired X-Rays ( http://arxiv.org/abs/2403.00771v1 )

ライセンス: Link先を確認
Benjamin Paulson, Joshua Goldshteyn, Sydney Balboni, John Cisler, Andrew Crisler, Natalia Bukowski, Julia Kalish, Theodore Colwell(参考訳) ct(ct)は診断のための有用なイメージングツールである。 CTスキャンは患者の内部解剖学的構造に関する詳細な情報を提供するが、X線撮影と比較して放射線線量やコストが高い。 本稿では,より広いデータセットと様々なモデル構造を探索することにより,直交x線画像をシミュレーションctボリュームに変換するための先行研究について述べる。 重要なモデルのバリエーションは、unetアーキテクチャ、カスタム接続、アクティベーション関数、損失関数、オプティマイザ、新しいバックプロジェクションアプローチなどである。

Computed tomography (CT) is a beneficial imaging tool for diagnostic purposes. CT scans provide detailed information concerning the internal anatomic structures of a patient, but present higher radiation dose and costs compared to X-ray imaging. In this paper, we build on previous research to convert orthogonal X-ray images into simulated CT volumes by exploring larger datasets and various model structures. Significant model variations include UNet architectures, custom connections, activation functions, loss functions, optimizers, and a novel back projection approach.
翻訳日:2024-03-11 00:20:33 公開日:2024-02-11
# 教育におけるテキストマイニング

Text mining in education ( http://arxiv.org/abs/2403.00769v1 )

ライセンス: Link先を確認
R. Ferreira-Mello, M. Andre, A. Pinheiro, E. Costa, and C. Romero(参考訳) オンライン教育環境の爆発的な成長は、特にフォーラム、チャット、ソーシャルネットワーク、アセスメント、エッセイなどのテキスト形式で大量のデータを生み出している。 教育関係者にとって有用な知識を見つけるために、テキストデータのマイニングにエキサイティングな課題を生み出します。 近年,テキストマイニングの教育的応用が増えているにもかかわらず,本研究の成果は得られていない。 本稿では,教育用テキストマイニング分野の現状を体系的に概観する。 最後の目標は3つの主な研究課題に答えることです:教育環境において最も使われているテキストマイニング技術は何ですか? 最も使われている教育資源はどれですか。 そして、主な応用と教育の目標は何ですか? 最後に、結論と、より興味深い将来の傾向について概説する。

The explosive growth of online education environments is generating a massive volume of data, specially in text format from forums, chats, social networks, assessments, essays, among others. It produces exciting challenges on how to mine text data in order to find useful knowledge for educational stakeholders. Despite the increasing number of educational applications of text mining published recently, we have not found any paper surveying them. In this line, this work presents a systematic overview of the current status of the Educational Text Mining field. Our final goal is to answer three main research questions: Which are the text mining techniques most used in educational environments? Which are the most used educational resources? And which are the main applications or educational goals? Finally, we outline the conclusions and the more interesting future trends.
翻訳日:2024-03-11 00:20:16 公開日:2024-02-11
# 単語の注意:対話型大言語モデルの語彙豊かさの評価

Beware of Words: Evaluating the Lexical Richness of Conversational Large Language Models ( http://arxiv.org/abs/2402.15518v1 )

ライセンス: Link先を確認
Gonzalo Mart\'inez, Jos\'e Alberto Hern\'andez, Javier Conde, Pedro Reviriego and Elena Merino(参考訳) 対話型大規模言語モデル(LLM)の一般的な性能、特にChatGPTの性能は、現在、論理的推論や数学から、無数のトピックに関する質問に答えるまで、様々なタスクで評価されている。 その代わりに、これらのLLMによって生成されたテキストの言語的特徴の研究に、はるかに注意が向けられている。 LLMは言語のモデルであるため、言語の使用方法を理解することが重要です。 実際、会話型llmは新しいテキストの作成を支配する可能性があるため、言語の進化に大きな影響を与える可能性がある。 これは例えば、会話型LLMが単語を使わないと、頻度が減り、最終的に完全に使われなくなることを意味する。 したがって、それらが生成するテキストの言語的特徴とモデルパラメータにどのように依存するかを評価することは、言語の発展に対する会話型LLMの潜在的影響を理解するための第一歩である。 本稿では,LLMが生成するテキストの語彙的富度の評価と,それがモデルパラメータに依存するかを検討する。 ChatGPTをケーススタディとして,語彙豊か度を包括的に評価するための方法論を提示し,使用した。 その結果、語彙豊かさはchatgptのバージョンと、そのパラメータ、例えば存在ペナルティやモデルに割り当てられた役割にどの程度依存しているかが示されている。 LLM生成テキストの言語的特徴の評価に特に注意を払うことを目的として,分析に使用されるデータセットとツールをオープンライセンスで公開する。

The performance of conversational Large Language Models (LLMs) in general, and of ChatGPT in particular, is currently being evaluated on many different tasks, from logical reasoning or maths to answering questions on a myriad of topics. Instead, much less attention is being devoted to the study of the linguistic features of the texts generated by these LLMs. This is surprising since LLMs are models for language, and understanding how they use the language is important. Indeed, conversational LLMs are poised to have a significant impact on the evolution of languages as they may eventually dominate the creation of new text. This means that for example, if conversational LLMs do not use a word it may become less and less frequent and eventually stop being used altogether. Therefore, evaluating the linguistic features of the text they produce and how those depend on the model parameters is the first step toward understanding the potential impact of conversational LLMs on the evolution of languages. In this paper, we consider the evaluation of the lexical richness of the text generated by LLMs and how it depends on the model parameters. A methodology is presented and used to conduct a comprehensive evaluation of lexical richness using ChatGPT as a case study. The results show how lexical richness depends on the version of ChatGPT and some of its parameters, such as the presence penalty, or on the role assigned to the model. The dataset and tools used in our analysis are released under open licenses with the goal of drawing the much-needed attention to the evaluation of the linguistic features of LLM-generated text.
翻訳日:2024-03-03 19:16:44 公開日:2024-02-11
# 大規模言語モデルがレコメンダーシステムに与える影響を探求する

Exploring the Impact of Large Language Models on Recommender Systems: An Extensive Review ( http://arxiv.org/abs/2402.18590v1 )

ライセンス: Link先を確認
Arpita Vats, Vinija Jain, Rahul Raja, Aman Chadha(参考訳) この論文は、レコメンデーションシステムの再形成における大規模言語モデル(llm)の重要性を強調し、伝統的なレコメンデーションシステムに欠けているユニークな推論能力にその価値を帰結させる。 直接的ユーザインタラクションデータを持たない従来のシステムとは異なり、llmは推奨項目に優れた熟練度を示し、言語理解の難しさを示す。 これはレコメンデーションの領域における根本的なパラダイムシフトである。 動的研究の展望の中で、研究者はリコメンデーションタスクの基礎を再定義するためにLLMの言語理解と生成能力を積極的に活用している。 この調査は、レコメンデーションフレームワークにおけるLLMの本質的な強み、曖昧なコンテキスト理解、さまざまなドメイン間のシームレスな移行、統一されたアプローチの採用、共有データ貯水池を活用した総合的な学習戦略、透明性のある意思決定、反復的な改善などについて、徹底的に調査している。 トランスフォーメーションの可能性にもかかわらず、入力プロンプトに対する感受性、時には誤解釈、予期せぬレコメンデーション、LLM駆動のレコメンデーションシステムにおける継続的な洗練と進化の必要性といった課題が続いている。

The paper underscores the significance of Large Language Models (LLMs) in reshaping recommender systems, attributing their value to unique reasoning abilities absent in traditional recommenders. Unlike conventional systems lacking direct user interaction data, LLMs exhibit exceptional proficiency in recommending items, showcasing their adeptness in comprehending intricacies of language. This marks a fundamental paradigm shift in the realm of recommendations. Amidst the dynamic research landscape, researchers actively harness the language comprehension and generation capabilities of LLMs to redefine the foundations of recommendation tasks. The investigation thoroughly explores the inherent strengths of LLMs within recommendation frameworks, encompassing nuanced contextual comprehension, seamless transitions across diverse domains, adoption of unified approaches, holistic learning strategies leveraging shared data reservoirs, transparent decision-making, and iterative improvements. Despite their transformative potential, challenges persist, including sensitivity to input prompts, occasional misinterpretations, and unforeseen recommendations, necessitating continuous refinement and evolution in LLM-driven recommender systems.
翻訳日:2024-03-03 19:11:16 公開日:2024-02-11
# 量子化複合左手伝送線路の平衡/不均衡共振条件における左利き性

Left-handedness in the balanced/unbalanced resonance conditions of a quantized composite right-left handed transmission line ( http://arxiv.org/abs/2402.13265v1 )

ライセンス: Link先を確認
Xiao-Jing Wei, Shun-Cai Zhao(参考訳) 左利きは、同じ周波数帯の負の誘電率(\varepsilon_r$)と透過率((\mu_r))を表す。 量子化された複合右利得伝送線(CRLH-TL)において、$\varepsilon_r$および$\mu_r$を評価し、置換された圧縮されたフォック状態の左利きの周波数帯域(L_r C_l = L_l C_r $)とアンバランス共鳴($L_l C_r \neq L_r C_l$)についても評価する。 その結果,平衡共鳴は帯域幅や左利きの達成に重要な役割を果たしていることがわかった。 これらはいくつかの量子力学的挙動を示し、量子化されたcrlh-tlのより広い周波数帯域の左利き性に対する新しい潜在的アプローチを提案する。

Left-handedness signifies negative permittivity ($\varepsilon_r$) and permeability ((\mu_r)) in the same frequency band. The $\varepsilon_r$ and $\mu_r$ are evaluated in a quantized composite right-left handed transmission line (CRLH-TL), and the frequency band for left-handedness is also valuated in the balanced resonance ($ L_r C_l = L_l C_r $) and unbalanced resonance($L_l C_r \neq L_r C_l$) cases in the displaced squeezed Fock state. The results show that the balanced resonance plays an important role in bandwidth and achieving for left-handedness. These displays some quantum mechanical behaviors and proposes a new potential approach to wider frequency band left-handedness for the quantized CRLH-TL.
翻訳日:2024-02-25 16:53:57 公開日:2024-02-11
# KGroot:知識グラフとグラフ畳み込みニューラルネットワークによる根本原因分析の強化

KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph Convolutional Neural Networks ( http://arxiv.org/abs/2402.13264v1 )

ライセンス: Link先を確認
Tingting Wang, Guilin Qi, Tianxing Wu(参考訳) フォールトローカライゼーションは、さまざまなモニタリングデータボリューム、タイプ、イベント、サービスとコンポーネントの複雑な相互依存性のため、オンラインマイクロサービスでは難しい。 サービスの障害イベントは伝播的であり、短時間で一連のアラートをトリガーすることができる。 業界では、障害の特定は通常経験豊富な職員によって手動で行われる。 この経験への依存は信頼できず、自動化が欠けている。 異なるモジュールは手動のローカライゼーション中に情報バリアを示し、緊急障害時に迅速に整列するのは難しい。 この非効率性は安定性の保証を遅延させ、故障検出と修理時間を最小化する。 プロセスの自動化を目的とした実行可能な手法は存在するが、精度と効率は十分ではない。 フォールトローカライズの結果の正確さは、複数の視点から導き出された診断結論をエンジニアが信頼し、包括的な洞察を提供する上で極めて重要である。 そのため,障害イベントと伝搬経路の連想関係を自動同定するために,より信頼性の高い手法が必要となる。 これを実現するため、KGrootはイベント知識とイベント間の相関を利用して、知識グラフとGCNを統合して根本原因推論を行う。 FEKGは過去のデータに基づいて構築され、障害発生時にオンライングラフをリアルタイムに構築し、各知識グラフとオンライングラフの類似性をGCNを用いて比較し、ランク付け戦略により障害タイプを特定する。 総合的な実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を見つけることができる。 この性能は, 産業環境におけるリアルタイム故障診断のレベルと一致し, 有効性および効率性の観点からRCAの最先端基準を著しく上回っている。

Fault localization is challenging in online micro-service due to the wide variety of monitoring data volume, types, events and complex interdependencies in service and components. Faults events in services are propagative and can trigger a cascade of alerts in a short period of time. In the industry, fault localization is typically conducted manually by experienced personnel. This reliance on experience is unreliable and lacks automation. Different modules present information barriers during manual localization, making it difficult to quickly align during urgent faults. This inefficiency lags stability assurance to minimize fault detection and repair time. Though actionable methods aimed to automatic the process, the accuracy and efficiency are less than satisfactory. The precision of fault localization results is of paramount importance as it underpins engineers trust in the diagnostic conclusions, which are derived from multiple perspectives and offer comprehensive insights. Therefore, a more reliable method is required to automatically identify the associative relationships among fault events and propagation path. To achieve this, KGroot uses event knowledge and the correlation between events to perform root cause reasoning by integrating knowledge graphs and GCNs for RCA. FEKG is built based on historical data, an online graph is constructed in real-time when a failure event occurs, and the similarity between each knowledge graph and online graph is compared using GCNs to pinpoint the fault type through a ranking strategy. Comprehensive experiments demonstrate KGroot can locate the root cause with accuracy of 93.5% top 3 potential causes in second-level. This performance matches the level of real-time fault diagnosis in the industrial environment and significantly surpasses state-of-the-art baselines in RCA in terms of effectiveness and efficiency.
翻訳日:2024-02-25 16:53:36 公開日:2024-02-11
# 最適しきい値線形バンディット

Optimal Thresholding Linear Bandit ( http://arxiv.org/abs/2402.09467v1 )

ライセンス: Link先を確認
Eduardo Ochoa Rivera and Ambuj Tewari(参考訳) 我々は, 確率線形バンドイットの信頼度を固定した$\epsilon$-Thresholding Bandit Problem (TBP) という新しい純粋探索問題を研究する。 サンプル複雑性に対する下限を証明し、線形の場合の最良のアーム識別のために設計されたアルゴリズムを漸近的に最適であるtbpに拡張する。

We study a novel pure exploration problem: the $\epsilon$-Thresholding Bandit Problem (TBP) with fixed confidence in stochastic linear bandits. We prove a lower bound for the sample complexity and extend an algorithm designed for Best Arm Identification in the linear case to TBP that is asymptotically optimal.
翻訳日:2024-02-16 18:42:52 公開日:2024-02-11
# マシンコラボレーション

Machine Collaboration ( http://arxiv.org/abs/2105.02569v3 )

ライセンス: Link先を確認
Qingfeng Liu and Yang Feng(参考訳) 本稿では,タスク予測のためのベースマシンの集合を用いた,教師付き学習のための新しいアンサンブルフレームワークであるマシンコラボレーション(mac)を提案する。 バッグング/スタック(並列で独立したフレームワーク)やブースト(シーケンシャルでトップダウンのフレームワーク)とは異なり、MaCは円形でインタラクティブな学習フレームワークの一種です。 円形かつインタラクティブな機能は、ベースマシンが情報を円形に転送し、その構造とパラメータを更新するのに役立ちます。 MaCの推定器のリスクバウンドに関する理論的結果は、この円形でインタラクティブな特徴が、MaCが擬似アンサンブルを介してリスクを減らすのに役立つことを明らかにしている。 シミュレーションデータと119ベンチマーク実データの両方を用いて,MACの広範な実験を行う。 その結果、ほとんどの場合、MaCは分類や回帰木、ニューラルネットワーク、積み重ね、強化など、最先端の他のいくつかの手法よりもはるかに優れた性能を示している。

We propose a new ensemble framework for supervised learning, called machine collaboration (MaC), using a collection of base machines for prediction tasks. Unlike bagging/stacking (a parallel & independent framework) and boosting (a sequential & top-down framework), MaC is a type of circular & interactive learning framework. The circular & interactive feature helps the base machines to transfer information circularly and update their structures and parameters accordingly. The theoretical result on the risk bound of the estimator from MaC reveals that the circular & interactive feature can help MaC reduce risk via a parsimonious ensemble. We conduct extensive experiments on MaC using both simulated data and 119 benchmark real datasets. The results demonstrate that in most cases, MaC performs significantly better than several other state-of-the-art methods, including classification and regression trees, neural networks, stacking, and boosting.
翻訳日:2024-02-14 01:46:58 公開日:2024-02-11
# アーチティパル規則化をもつスパースNMF:計算とロバスト性

Sparse NMF with Archetypal Regularization: Computational and Robustness Properties ( http://arxiv.org/abs/2104.03527v2 )

ライセンス: Link先を確認
Kayhan Behdin and Rahul Mazumder(参考訳) 古型正則化を用いた非負行列分解(nmf)の問題を考える。 ゴールは、非負のスパース因子の非負の線形結合としてデータ点の集合を表現することであり、アーチ型正則化(archetypal regularization)によって生じる幾何学的性質が魅力的である。 我々はジャワディとモンタナリ(2019年)で研究されたロバストネスの概念を(空間性なしで)その概念に一般化する。 (a)各推定アーチタイプが下層のアーチタイプに近いことを示す強固なロバスト性、及び b) 下位のアーチタイプに近い少なくとも1つの復元されたアーチタイプが存在することを示す弱い堅牢性。 我々のロバスト性保証に関する理論的結果は、基礎となるデータに対する最小限の仮定の下で保持され、基礎となるアーチタイプがスパースする必要のない設定に適用されます。 本稿では、ロバストネスの概念の根底にある洞察を強化するための理論的結果と図解例を示す。 我々は,最適化問題に対する新しいアルゴリズムを提案し,提案するフレームワークと理論的発展についてさらなる知見を与えるための,合成および実データ集合に関する数値実験を行った。

We consider the problem of sparse nonnegative matrix factorization (NMF) using archetypal regularization. The goal is to represent a collection of data points as nonnegative linear combinations of a few nonnegative sparse factors with appealing geometric properties, arising from the use of archetypal regularization. We generalize the notion of robustness studied in Javadi and Montanari (2019) (without sparsity) to the notions of (a) strong robustness that implies each estimated archetype is close to the underlying archetypes and (b) weak robustness that implies there exists at least one recovered archetype that is close to the underlying archetypes. Our theoretical results on robustness guarantees hold under minimal assumptions on the underlying data, and applies to settings where the underlying archetypes need not be sparse. We present theoretical results and illustrative examples to strengthen the insights underlying the notions of robustness. We propose new algorithms for our optimization problem; and present numerical experiments on synthetic and real data sets that shed further insights into our proposed framework and theoretical developments.
翻訳日:2024-02-14 01:46:40 公開日:2024-02-11
# 量子通信理論の原理 : 現代的アプローチ

Principles of Quantum Communication Theory: A Modern Approach ( http://arxiv.org/abs/2011.04672v2 )

ライセンス: Link先を確認
Sumeet Khatri and Mark M. Wilde(参考訳) これは量子通信の理論に関する書籍の予備版である。 我々は、過去10年(およびそれ以前の)の量子通信理論における基本的な結果を包括的に説明し、この分野における現在の最先端研究の多くを根底に置く現代の一発的漸近的アプローチに重点を置いている。 第1部では、数学の序文を取り上げ、情報理論の観点から量子力学の詳細な研究を行う。 我々はまた、量子エントロピーの広範囲かつ徹底的なレビューを行い、エンタングルメント測度の研究に全章を割いた。 本研究は,これらの重要なツールを具備し,古典的コミュニケーション(絡み合いの助けなしに),絡み合い蒸留,量子通信,秘密鍵蒸留,私的コミュニケーションについて検討する。 パートIIIでは、量子および古典的フィードバック支援通信、LOCC支援量子通信、秘密鍵合意など、フィードバック支援コミュニケーションタスクの最新の展開について述べる。

This is a preliminary version of a book in progress on the theory of quantum communication. We adopt an information-theoretic perspective throughout and give a comprehensive account of fundamental results in quantum communication theory from the past decade (and earlier), with an emphasis on the modern one-shot-to-asymptotic approach that underlies much of today's state-of-the-art research in this field. In Part I, we cover mathematical preliminaries and provide a detailed study of quantum mechanics from an information-theoretic perspective. We also provide an extensive and thorough review of quantum entropies, and we devote an entire chapter to the study of entanglement measures. Equipped with these essential tools, in Part II we study classical communication (with and without entanglement assistance), entanglement distillation, quantum communication, secret key distillation, and private communication. In Part III, we cover the latest developments in feedback-assisted communication tasks, such as quantum and classical feedback-assisted communication, LOCC-assisted quantum communication, and secret key agreement.
翻訳日:2024-02-14 01:46:21 公開日:2024-02-11
# ディープラーニングを用いたcovid-19の自動検出と予測

Automated Detection and Forecasting of COVID-19 using Deep Learning Techniques: A Review ( http://arxiv.org/abs/2007.10785v7 )

ライセンス: Link先を確認
Afshin Shoeibi, Marjane Khodatars, Mahboobeh Jafari, Navid Ghassemi, Delaram Sadeghi, Parisa Moridian, Ali Khadem, Roohallah Alizadehsani, Sadiq Hussain, Assef Zare, Zahra Alizadeh Sani, Fahime Khozeimeh, Saeid Nahavandi, U. Rajendra Acharya, Juan M. Gorriz(参考訳) コロナウイルス(Coronavirus、COVID-19)は、世界中の多くの人々の健康を危険にさらす病気である。 COVID-19は1本鎖RNAを持つ中型でコーティングされたウイルスであり、RNAゲノムとしては最大で約120nmである。 x線およびct画像モードは、迅速かつ正確な医療診断を得るために広く用いられている。 これらの医療画像からcovid-19を識別することは、時間がかかり、ヒューマンエラーを起こしやすいため、非常に難しい。 したがって、人工知能(AI)手法は、一貫した高性能が得られる。 AI手法の中で、ディープラーニング(DL)ネットワークは、従来の機械学習(ML)と比較して最近人気を博している。 MLとは異なり、特徴抽出、特徴選択、分類のすべての段階はDLモデルで自動的に達成される。 本稿では,x線およびct画像を用いた研究を中心に,肺の診断と分画に対するdl技術の適用に関する徹底的な調査を行った。 また、世界各国における新型コロナウイルスの流行予測に関する論文をdlでレビューした。 最後に、dl技術を用いたcovid-19検出における課題と今後の研究に向けた方向性について述べる。

Coronavirus, or COVID-19, is a hazardous disease that has endangered the health of many people around the world by directly affecting the lungs. COVID-19 is a medium-sized, coated virus with a single-stranded RNA, and also has one of the largest RNA genomes and is approximately 120 nm. The X-Ray and computed tomography (CT) imaging modalities are widely used to obtain a fast and accurate medical diagnosis. Identifying COVID-19 from these medical images is extremely challenging as it is time-consuming and prone to human errors. Hence, artificial intelligence (AI) methodologies can be used to obtain consistent high performance. Among the AI methods, deep learning (DL) networks have gained popularity recently compared to conventional machine learning (ML). Unlike ML, all stages of feature extraction, feature selection, and classification are accomplished automatically in DL models. In this paper, a complete survey of studies on the application of DL techniques for COVID-19 diagnostic and segmentation of lungs is discussed, concentrating on works that used X-Ray and CT images. Additionally, a review of papers on the forecasting of coronavirus prevalence in different parts of the world with DL is presented. Lastly, the challenges faced in the detection of COVID-19 using DL techniques and directions for future research are discussed.
翻訳日:2024-02-14 01:46:02 公開日:2024-02-11
# gbsvm:粒球支持ベクターマシン

GBSVM: Granular-ball Support Vector Machine ( http://arxiv.org/abs/2210.03120v2 )

ライセンス: Link先を確認
Shuyin Xia, Xiaoyu Lian, Guoyin Wang, Xinbo Gao, Jiancu Chen, Xiaoli Peng(参考訳) GBSVM (Granular-ball Support Vector Machine) は1つのデータポイントではなく、グラニュラーボールの粗粒度を入力として使用する分類器を構築する重要な試みである。 入力が点を含まない最初の分類器である。 しかし、既存のモデルにはいくつかの誤りがあり、その双対モデルは導出されていない。 その結果、現在のアルゴリズムは実装も適用もできない。 これらの問題に対処するために,既存のGBSVMの原モデルの誤りを修正し,その二重モデルを導出する。 さらに、双対モデルを解くために粒子群最適化アルゴリズムが設計されている。 逐次最小最適化アルゴリズムは、双対モデルを解くために慎重に設計されている。 このソリューションは particle swarm optimization ベースのバージョンよりも高速で安定している。 UCIベンチマークデータセットの実験結果は、GBSVMが堅牢性と効率性に優れていることを示している。 すべてのコードは、http://www.cquptshuyinxia.com/GBSVM.htmlまたはhttps://github.com/syxiaa/GBSVMでオープンソースライブラリでリリースされた。

GBSVM (Granular-ball Support Vector Machine) is a significant attempt to construct a classifier using the coarse-to-fine granularity of a granular-ball as input, rather than a single data point. It is the first classifier whose input contains no points. However, the existing model has some errors, and its dual model has not been derived. As a result, the current algorithm cannot be implemented or applied. To address these problems, this paper has fixed the errors of the original model of the existing GBSVM, and derived its dual model. Furthermore, a particle swarm optimization algorithm is designed to solve the dual model. The sequential minimal optimization algorithm is also carefully designed to solve the dual model. The solution is faster and more stable than the particle swarm optimization based version. The experimental results on the UCI benchmark datasets demonstrate that GBSVM has good robustness and efficiency. All codes have been released in the open source library at http://www.cquptshuyinxia.com/GBSVM.html or https://github.com/syxiaa/GBSVM.
翻訳日:2024-02-14 01:43:09 公開日:2024-02-11
# ニューラルネットワークが人間の言語獲得について教えてくれること

What Artificial Neural Networks Can Tell Us About Human Language Acquisition ( http://arxiv.org/abs/2208.07998v2 )

ライセンス: Link先を確認
Alex Warstadt and Samuel R. Bowman(参考訳) 自然言語処理のための機械学習の急速な進歩は、人間の言語学習の仕方に関する議論を変革する可能性がある。 しかし、現在の人工学習者や人間の学習環境やバイアスは、学習シミュレーションから得られた証拠の影響を弱める方法で多様化する。 例えば、今日の最も効果的なニューラルネットワークモデルは、典型的な子供に利用可能な言語データの約1000倍の量で訓練されている。 計算モデルによる学習可能性の関連性を高めるためには,人間に対して大きな優位性を持たないモデル学習者を訓練する必要がある。 適切なモデルが対象とする言語知識の獲得に成功すれば、仮説化された人間の学習シナリオでターゲットが学習可能であるという概念の証明を提供することができる。 プラルーシブルモデル学習者は、学習環境における変数に関する因果推論を実験的に行うことができ、学習可能性に関する憶測に基づいて、人間の自然的言語知識を主張する貧困感スタイルの主張を厳格に検証することができる。 実用的かつ倫理的な配慮により、人間に匹敵する実験は不可能であり、モデル学習者は不可欠な資源となる。 これまでのところ、不公平な優位性の現在のモデルを取り除こうとする試みは、アクセプタビリティ判断のような重要な文法的行動に対する人間以下の結果が得られる。 しかし、言語学習が現在のモデルよりも先進的なドメイン固有知識を必要とすることを正当化する前には、まず、限られた言語入力からの学習をより効率的にする方法として、マルチモーダル刺激とマルチエージェント相互作用という形で非言語的な入力を探索しなければなりません。

Rapid progress in machine learning for natural language processing has the potential to transform debates about how humans learn language. However, the learning environments and biases of current artificial learners and humans diverge in ways that weaken the impact of the evidence obtained from learning simulations. For example, today's most effective neural language models are trained on roughly one thousand times the amount of linguistic data available to a typical child. To increase the relevance of learnability results from computational models, we need to train model learners without significant advantages over humans. If an appropriate model successfully acquires some target linguistic knowledge, it can provide a proof of concept that the target is learnable in a hypothesized human learning scenario. Plausible model learners will enable us to carry out experimental manipulations to make causal inferences about variables in the learning environment, and to rigorously test poverty-of-the-stimulus-style claims arguing for innate linguistic knowledge in humans on the basis of speculations about learnability. Comparable experiments will never be possible with human subjects due to practical and ethical considerations, making model learners an indispensable resource. So far, attempts to deprive current models of unfair advantages obtain sub-human results for key grammatical behaviors such as acceptability judgments. But before we can justifiably conclude that language learning requires more prior domain-specific knowledge than current models possess, we must first explore non-linguistic inputs in the form of multimodal stimuli and multi-agent interaction as ways to make our learners more efficient at learning from limited linguistic input.
翻訳日:2024-02-14 01:42:45 公開日:2024-02-11
# NeuralVDB:階層型ニューラルネットワークを用いた高分解能スパースボリューム表現

NeuralVDB: High-resolution Sparse Volume Representation using Hierarchical Neural Networks ( http://arxiv.org/abs/2208.04448v2 )

ライセンス: Link先を確認
Doyub Kim, Minjae Lee, Ken Museth(参考訳) 本稿では,近年の機械学習の進歩を活用して,スパースボリュームデータの効率的な保存のための既存の業界標準であるNeuralVDBについて紹介する。 この新しいハイブリッドデータ構造は,vdbボリュームのメモリフットプリントを桁違いに削減すると同時に,その柔軟性を保ちながら,小さな(ユーザ制御の)圧縮エラーのみを発生させる。 具体的には、NeuralVDBは、浅いVDBツリー構造と広いVDBツリー構造の下位ノードを、それぞれ神経分類器と回帰器を用いてトポロジーと値情報を個別にエンコードする複数の階層型ニューラルネットワークに置き換える。 この手法は、高レベルなVDBデータ構造によって提供される空間適応性を維持しながら圧縮比を最大化する。 疎符号距離場と密度体積については、すでに圧縮されたVDB入力から10倍から100倍以上の圧縮比を観測し、視覚的アーティファクトはほとんど見つからない。 さらに、NeuralVDBは、DetailのNeural Geometric Level (Takikawa et al. 2021)、可変ビットレートニューラルネットワーク (Takikawa et al. 2022a)、Instant Neural Graphics Primitives [M\"uller et al. 2022]などの他の神経表現と比較して、より効果的な圧縮性能を提供する。 最後に,従来のフレームからのウォームスタートがアニメーションボリュームのトレーニング,すなわち圧縮をいかに加速するかを実証し,モデル推論の時間的一貫性,すなわち減圧縮を改善する。

We introduce NeuralVDB, which improves on an existing industry standard for efficient storage of sparse volumetric data, denoted VDB [Museth 2013], by leveraging recent advancements in machine learning. Our novel hybrid data structure can reduce the memory footprints of VDB volumes by orders of magnitude, while maintaining its flexibility and only incurring small (user-controlled) compression errors. Specifically, NeuralVDB replaces the lower nodes of a shallow and wide VDB tree structure with multiple hierarchical neural networks that separately encode topology and value information by means of neural classifiers and regressors respectively. This approach is proven to maximize the compression ratio while maintaining the spatial adaptivity offered by the higher-level VDB data structure. For sparse signed distance fields and density volumes, we have observed compression ratios on the order of 10x to more than 100x from already compressed VDB inputs, with little to no visual artifacts. Furthermore, NeuralVDB is shown to offer more effective compression performance compared to other neural representations such as Neural Geometric Level of Detail [Takikawa et al. 2021], Variable Bitrate Neural Fields [Takikawa et al. 2022a], and Instant Neural Graphics Primitives [M\"uller et al. 2022]. Finally, we demonstrate how warm-starting from previous frames can accelerate training, i.e., compression, of animated volumes as well as improve temporal coherency of model inference, i.e., decompression.
翻訳日:2024-02-14 01:42:16 公開日:2024-02-11
# イベントとフレームからの高密度連続時間光流れ

Dense Continuous-Time Optical Flow from Events and Frames ( http://arxiv.org/abs/2203.13674v2 )

ライセンス: Link先を確認
Mathias Gehrig and Manasi Muglikar and Davide Scaramuzza(参考訳) 本稿では,イベントデータから高密度連続時間光流れを推定する手法を提案する。 従来の高密度光フロー法は2つの画像間の画素の変位を計算する。 情報不足のため、これらの手法は2つの画像間の盲点時間で画素軌跡を復元できない。 本研究では,イベントカメラからのイベントを用いて,画素ごとの連続時間光フローを計算可能であることを示す。 イベントは、その非同期性とマイクロ秒応答時間のために、ピクセル空間の移動に関する時間的詳細情報を提供する。 これらの利点を利用して、パラメータ化されたB\'ezier曲線を介して連続時間でピクセル軌跡を密に予測する。 これを実現するために、我々はこのタスクに強い帰納的バイアスを持つニューラルネットワークを構築する: まず、イベントデータを使用して複数の時系列相関ボリュームを時間内に構築する。 次に、b\'ezier曲線を用いて、軌道に沿って複数のタイムスタンプでこれらの相関ボリュームをインデックスする。 第3に、検索された相関を用いてb\'ezier曲線表現を反復的に更新する。 本手法は, 画像対を任意に含み, さらなる性能向上を図ることができる。 我々の知る限りでは、我々のモデルはイベントデータから高密度画素軌道を回帰できる最初の方法である。 モデルのトレーニングと評価を行うため,各画素に対して移動物体と地上真実軌道を特徴付ける合成データセット(MultiFlow)を導入する。 提案手法は,連続時間における画素軌跡の予測に有効であるだけでなく,マルチフローとdsecフローにおける従来の2視点画素変位測定値と競合することを示唆する。 オープンソースコードとデータセットは一般公開されている。

We present a method for estimating dense continuous-time optical flow from event data. Traditional dense optical flow methods compute the pixel displacement between two images. Due to missing information, these approaches cannot recover the pixel trajectories in the blind time between two images. In this work, we show that it is possible to compute per-pixel, continuous-time optical flow using events from an event camera. Events provide temporally fine-grained information about movement in pixel space due to their asynchronous nature and microsecond response time. We leverage these benefits to predict pixel trajectories densely in continuous time via parameterized B\'ezier curves. To achieve this, we build a neural network with strong inductive biases for this task: First, we build multiple sequential correlation volumes in time using event data. Second, we use B\'ezier curves to index these correlation volumes at multiple timestamps along the trajectory. Third, we use the retrieved correlation to update the B\'ezier curve representations iteratively. Our method can optionally include image pairs to boost performance further. To the best of our knowledge, our model is the first method that can regress dense pixel trajectories from event data. To train and evaluate our model, we introduce a synthetic dataset (MultiFlow) that features moving objects and ground truth trajectories for every pixel. Our quantitative experiments not only suggest that our method successfully predicts pixel trajectories in continuous time but also that it is competitive in the traditional two-view pixel displacement metric on MultiFlow and DSEC-Flow. Open source code and datasets are released to the public.
翻訳日:2024-02-14 01:40:35 公開日:2024-02-11
# 波動関数が既にスパック上の物体である理由

Why the wavefunction already is an object on spac ( http://arxiv.org/abs/2111.14604v2 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 量子力学の発見以来、波動関数が3.$次元空間ではなく3.$mathbf{n}$-次元構成空間上で定義されるという事実は、シュル・オーディンガー、ローレンツ、アインシュタインなど多くの人に不都合に思われた。 現在でも、これは量子力学の基礎において重要な問題と見なされ続けている。 この記事では、波動関数が既に空間上の真の対象であることを示す。 これは意外に思えるかもしれないが、波動関数はユークリッド幾何学や古典物理学で知られている対象にこれまで遭遇していなかった定性的に新しい特徴を持たない。 Felix Klein氏のErlangen Programでもこれは事実であることが示されている。 これは、ウィグナーとバーグマンによって実現された時空等距離の表現によって量子粒子の分類に自然に適合し、別の確認層を加える。 すべての量子実験が宇宙で起こることに気付くと、宇宙上の物体である波動関数とともに自然に一貫した解釈ができる。

Since the discovery of quantum mechanics, the fact that the wavefunction is defined on the $3\mathbf{n}$-dimensional configuration space rather than on the $3$-dimensional space seemed uncanny to many, including Schr\"odinger, Lorentz, and Einstein. Even today, this continues to be seen as an important problem in the foundations of quantum mechanics. In this article it will be shown that the wavefunction already is a genuine object on space. While this may seem surprising, the wavefunction has no qualitatively new features that were not previously encountered in the objects known from Euclidean geometry and classical physics. This will be shown to be true also in Felix Klein's Erlangen Program. This fits naturally in the classification of quantum particles by the representations of the spacetime isometries realized by Wigner and Bargmann, adding another layer of confirmation. Once we realize that all quantum experiments take place in space, they can be interpreted naturally and consistently with the wavefunction being an object on space.
翻訳日:2024-02-14 01:39:33 公開日:2024-02-11
# 不均衡患者集団による電解質除去のための構成Q-ラーニング

Compositional Q-learning for electrolyte repletion with imbalanced patient sub-populations ( http://arxiv.org/abs/2110.02879v2 )

ライセンス: Link先を確認
Aishwarya Mandyam, Andrew Jones, Jiayu Yao, Krzysztof Laudanski, Barbara Engelhardt(参考訳) 強化学習(rl)は、逐次的な意思決定タスクを解決するための効果的なフレームワークである。 しかし,RL法を医療現場に適用することは,患者の治療反応の不均一性のために難しい。 一部の患者は標準的な手順で治療できるが、慢性疾患の患者はパーソナライズされた治療計画が必要である。 従来のRL法は、全ての患者が同じ方法で治療に反応すると仮定するため、この不均一性を説明できないことが多い(すなわち、遷移力学は共有される)。 医療環境における異種治療反応を表現するために,構成的タスク構造を用いたCFQI(Composeal Fitted $Q$-iteration)を導入する。 構成的タスクは、同じタスクのいくつかのバリエーションで構成され、それぞれが困難の中で進行し、より単純なタスクの変種を解くことで、より難しい変種を効率的に解決することができる。 CFQIは、各タスク変種ごとに異なるモジュールを持つ構成的な$Q$-value関数を使用し、各変種ごとに異なるポリシーを学習しながら共有知識を活用することができる。 カルトポール環境を用いてCFQIの性能を評価し,腎疾患および非腎疾患に対する電解質除去を推奨する。 その結果,CFQIはクラス不均衡の存在下においても堅牢であり,患者サブ集団間の効果的な情報利用が可能であった。 CFQIは、既知の構成構造を特徴とするシナリオにおける臨床応用に非常に有望である。

Reinforcement learning (RL) is an effective framework for solving sequential decision-making tasks. However, applying RL methods in medical care settings is challenging in part due to heterogeneity in treatment response among patients. Some patients can be treated with standard protocols whereas others, such as those with chronic diseases, need personalized treatment planning. Traditional RL methods often fail to account for this heterogeneity, because they assume that all patients respond to the treatment in the same way (i.e., transition dynamics are shared). We introduce Compositional Fitted $Q$-iteration (CFQI), which uses a compositional task structure to represent heterogeneous treatment responses in medical care settings. A compositional task consists of several variations of the same task, each progressing in difficulty; solving simpler variants of the task can enable efficient solving of harder variants. CFQI uses a compositional $Q$-value function with separate modules for each task variant, allowing it to take advantage of shared knowledge while learning distinct policies for each variant. We validate CFQI's performance using a Cartpole environment and use CFQI to recommend electrolyte repletion for patients with and without renal disease. Our results demonstrate that CFQI is robust even in the presence of class imbalance, enabling effective information usage across patient sub-populations. CFQI exhibits great promise for clinical applications in scenarios characterized by known compositional structures.
翻訳日:2024-02-14 01:38:50 公開日:2024-02-11
# スピン, Zitterbewegung, superposition, Produces Dirac's Wave Equationを放射する電子の相対論的力学理論

Relativistic Mechanics Theory for Electrons that Exhibits Spin, Zitterbewegung, Superposition and Produces Dirac's Wave Equation ( http://arxiv.org/abs/2108.07267v3 )

ライセンス: Link先を確認
James L. Beck (California Institute of Technology)(参考訳) 電子のスピンが点粒子としての時空経路の自然な部分であるような新古典相対論的力学理論が提示される。 運動の4階方程式は、追加のスピンエネルギー項を除いて特別な相対性理論の時と同じラグランジアン関数に対応する。 全体の運動は、スピン中心と呼ばれる点に関する局所的なスピン運動と、その点の大域的な運動の合計に分解することができる。 大域運動はサブルミナルであり、ニュートンの第2法則(スピン中心に固定された時計の時間)に従うが、全運動は光速cで発生し、ディラックの速度作用素の等級cの固有値と一致する。 局所的なスピン運動はSchr\"odinger's zitterbewegungに対応し、自由電子はスピン中心のフレームに円形の経路を持つ永久運動である。 電磁場において、このスピン運動は電子の点電荷のローレンツ力を介して磁気と電気の双極子エネルギーを生成する。 対応する電気双極子エネルギーは、補正されたパウリ非相対論的ハミルトニアンのスピン軌道結合項と一致するが、磁気双極子エネルギーはディラックの理論のそれの半分である。 スピンテンソルをスピン中心に関する電子の全運動の角運動量として定義することにより、運動の基本方程式はバルート・ザンギ電子理論と同一の形に書き換えることができる。 これらの運動方程式は、ディラック=シュルンガー・スピノル方程式を満たす適切な時間の状態関数に適用された作用素を用いて表現することができる。 作用素は、いかなる確率も含まない動的変数を生成する。 自由電子に対しては、状態関数はディラックの相対論的波動方程式を満たすが、ローレンツ変換を適用して観測者の時空座標で適切な時間を表現する。

A neo-classical relativistic mechanics theory is presented where the spin of an electron is a natural part of its space-time path as a point particle. The fourth-order equation of motion corresponds to the same Lagrangian function in proper time as in special relativity except for an additional spin energy term. The total motion can be decomposed into a sum of a local spin motion about a point and a global motion of this point, called the spin center. The global motion is sub-luminal and obeys Newton's second law in proper time, the time for a clock fixed at the spin center, while the total motion occurs at the speed of light c, consistent with the eigenvalues of Dirac's velocity operators having magnitude c. The local spin motion corresponds to Schr\"odinger's zitterbewegung and is a perpetual motion, which for a free electron has a circular path in the spin-center frame. In an electro-magnetic field, this spin motion generates magnetic and electric dipole energies through the Lorentz force on the electron's point charge. The corresponding electric dipole energy is consistent with the spin-orbit coupling term in the corrected Pauli non-relativistic Hamiltonian but the magnetic dipole energy is one half of that in Dirac's theory. By defining a spin tensor as the angular momentum of the electron's total motion about its spin center, the fundamental equations of motion can be re-written in an identical form to those of the Barut-Zanghi electron theory. These equations of motion can then be expressed using operators applied to a state function of proper time satisfying a Dirac-Schr\"odinger spinor equation. The operators produce dynamic variables without any probability implications. For the free electron, the state function satisfies Dirac's relativistic wave equation when the Lorentz transformation is applied to express proper time in terms of an observer's space-time coordinates.
翻訳日:2024-02-14 01:38:12 公開日:2024-02-11
# グラフ結合によるGNNの表現力の再考

Rethinking the Expressive Power of GNNs via Graph Biconnectivity ( http://arxiv.org/abs/2301.09505v3 )

ライセンス: Link先を確認
Bohang Zhang, Shengjie Luo, Liwei Wang, Di He(参考訳) 表現型グラフニューラルネットワーク(gnns)の設計は、グラフ構造化データを学ぶ上で重要なトピックである。 Weisfeiler-Lehman (WL) テストにおいて、GNNを改善するための多くのアプローチが提案されているが、一般的には、それらが体系的かつ確実に得られる追加のパワーについて深い理解がない。 本稿では,WLテスト以外のGNNの表現力について,根本的に異なる視点で検討する。 具体的には,グラフバイコネクティビティを用いた新しい表現性指標のクラスを導入し,理論と実践の両方においてその重要性を強調する。 線形計算コストの単純なアルゴリズムで双連結性を容易に計算できるため、一般的なGNNでも容易に学習できると期待することは当然である。 しかし、以前のGNNアーキテクチャを徹底的にレビューした結果、これらの指標のほとんどに表現力がないことがわかった。 唯一の例外は、esanフレームワークであり、その能力の理論的正当性を与える。 両接続性指標すべてに対して確実に表現可能な一般距離ワイスフェイラーレーマン(GD-WL)と呼ばれる原理的かつ効率的なアプローチを導入する。 GD-WLは,表現性を保ち,完全な並列性を楽しむトランスフォーマーのようなアーキテクチャで実装可能であることを示す。 合成データセットと実データセットの両方に関する一連の実験は、我々のアプローチが従来のGNNアーキテクチャよりも一貫して優れていることを示した。

Designing expressive Graph Neural Networks (GNNs) is a central topic in learning graph-structured data. While numerous approaches have been proposed to improve GNNs in terms of the Weisfeiler-Lehman (WL) test, generally there is still a lack of deep understanding of what additional power they can systematically and provably gain. In this paper, we take a fundamentally different perspective to study the expressive power of GNNs beyond the WL test. Specifically, we introduce a novel class of expressivity metrics via graph biconnectivity and highlight their importance in both theory and practice. As biconnectivity can be easily calculated using simple algorithms that have linear computational costs, it is natural to expect that popular GNNs can learn it easily as well. However, after a thorough review of prior GNN architectures, we surprisingly find that most of them are not expressive for any of these metrics. The only exception is the ESAN framework, for which we give a theoretical justification of its power. We proceed to introduce a principled and more efficient approach, called the Generalized Distance Weisfeiler-Lehman (GD-WL), which is provably expressive for all biconnectivity metrics. Practically, we show GD-WL can be implemented by a Transformer-like architecture that preserves expressiveness and enjoys full parallelizability. A set of experiments on both synthetic and real datasets demonstrates that our approach can consistently outperform prior GNN architectures.
翻訳日:2024-02-14 01:31:40 公開日:2024-02-11
# 動作における綱渡りの合理性:量子力学の基礎に対するフェイヤーベンディアン的考察

Tightrope-walking rationality in action: Feyerabendian insights for the foundations of quantum mechanics ( http://arxiv.org/abs/2212.12782v2 )

ライセンス: Link先を確認
Daniele Oriti(参考訳) Paul K. Feyerabendの物理学と科学の哲学における研究を、量子力学の基礎に関する現代の議論に役立つ洞察のために、より一般的にスキャンする。 feyerabend氏が実際に量子力学について書いたのは出発点だが、実物論、客観性、多元論、物理学と哲学の関係に関する彼の一般的な見解に分析を拡張して、これらのより一般的な見解は、量子基礎を研究する物理学者や哲学者に、実際に多くの興味深い洞察を与えることができることを見出している。

We scan Paul K. Feyerabend's work in philosophy of physics and of science more generally for insights that could be useful for the contemporary debate on the foundations of quantum mechanics. We take as our starting point what Feyerabend has actually written about quantum mechanics, but we extend our analysis to his general views on realism, objectivity, pluralism, and the relation between physics and philosophy, finding that these more general views could in fact offer many interesting insights for physicists and philosophers working on quantum foundations.
翻訳日:2024-02-14 01:30:04 公開日:2024-02-11
# 介入による連合因果発見

Federated Causal Discovery From Interventions ( http://arxiv.org/abs/2211.03846v4 )

ライセンス: Link先を確認
Amin Abyaneh, Nino Scherrer, Patrick Schwab, Stefan Bauer, Bernhard Sch\"olkopf, Arash Mehrjou(参考訳) 因果発見は、変数間の因果機構の回復を通じてモデル不確実性を緩和する重要な役割を担っている。 医療など多くの実践的なドメインでは、個々のエンティティが収集したデータへのアクセスは、主にプライバシーと規制上の制約のために制限されている。 しかし、既存の因果発見手法の大部分は、データを集中した場所で利用可能にする必要がある。 これに対し、研究者らは連合因果発見を導入した。 従来の連合手法では分散観測データを検討するが、介入データの統合は未検討のままである。 介入サンプルを含む分散データから因果構造を推定するフェデレートフレームワークであるfederated frameworkを提案する。 フェデレートされた学習フレームワークに従って、FedCDIは、生サンプルではなく信条更新を交換することで、プライバシを改善する。 さらに、個々の更新を集約する新しい介入対応手法も導入されている。 共変量の共有あるいは不一致を伴うシナリオを分析し,介入データの不均一性の悪影響を緩和する。 FedCDIの性能とスケーラビリティは、さまざまな合成および実世界のグラフで厳格にテストされている。

Causal discovery serves a pivotal role in mitigating model uncertainty through recovering the underlying causal mechanisms among variables. In many practical domains, such as healthcare, access to the data gathered by individual entities is limited, primarily for privacy and regulatory constraints. However, the majority of existing causal discovery methods require the data to be available in a centralized location. In response, researchers have introduced federated causal discovery. While previous federated methods consider distributed observational data, the integration of interventional data remains largely unexplored. We propose FedCDI, a federated framework for inferring causal structures from distributed data containing interventional samples. In line with the federated learning framework, FedCDI improves privacy by exchanging belief updates rather than raw samples. Additionally, it introduces a novel intervention-aware method for aggregating individual updates. We analyze scenarios with shared or disjoint intervened covariates, and mitigate the adverse effects of interventional data heterogeneity. The performance and scalability of FedCDI is rigorously tested across a variety of synthetic and real-world graphs.
翻訳日:2024-02-14 01:27:33 公開日:2024-02-11
# ディープラーニングのための動的潜時分離

Dynamic Latent Separation for Deep Learning ( http://arxiv.org/abs/2210.03728v3 )

ライセンス: Link先を確認
Yi-Lin Tuan, Zih-Yun Chiu, William Yang Wang(参考訳) 機械学習の中核的な問題は、複数のサブコンポーネントを柔軟かつ解釈可能な方法で含む複雑なデータに対して、モデル予測のための表現的潜在変数を学習することである。 本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。 鍵となるアイデアは、潜在空間内のデータサンプルを動的に遠ざけ、出力の多様性を高めることである。 原子物理学にインスパイアされた動的潜伏分離法は、各データサンプルの合同学習構造に依存し、各サブコンポーネントがデータサンプルを識別することの重要性を明らかにする。 このアプローチは、原子モデリングであり、潜在空間の監督を必要とせず、モデルの本来の目的以外の部分解釈可能な表現を学習することができる。 このアルゴリズムは,様々な分類・生成問題において,小規模から大規模モデルの性能向上にも寄与することを示す。

A core problem in machine learning is to learn expressive latent variables for model prediction on complex data that involves multiple sub-components in a flexible and interpretable fashion. Here, we develop an approach that improves expressiveness, provides partial interpretation, and is not restricted to specific applications. The key idea is to dynamically distance data samples in the latent space and thus enhance the output diversity. Our dynamic latent separation method, inspired by atomic physics, relies on the jointly learned structures of each data sample, which also reveal the importance of each sub-component for distinguishing data samples. This approach, atom modeling, requires no supervision of the latent space and allows us to learn extra partially interpretable representations besides the original goal of a model. We empirically demonstrate that the algorithm also enhances the performance of small to larger-scale models in various classification and generation problems.
翻訳日:2024-02-14 01:26:56 公開日:2024-02-11
# R2損失:モデル圧縮と量子化のための範囲制限損失

R2 Loss: Range Restriction Loss for Model Compression and Quantization ( http://arxiv.org/abs/2303.08253v2 )

ライセンス: Link先を確認
Arnav Kundu, Chungkuk Yoo, Srijan Mishra, Minsik Cho, Saurabh Adya(参考訳) モデル量子化と圧縮は、推論時の計算資源の使用を減らすために広く使われている。 最先端の作品は、4ビットや8ビットといった高いビットで妥当な精度を実現しているが、それでも1ビットや2ビットといったモデルの量子化や圧縮は難しい。 この課題を克服するために、我々は、効果的な低ビット量子化と圧縮を阻害する事前学習モデルの重みの異常に焦点をあてる。 本研究では,事前学習中に重みから外れ値を取り除き,低ビット量子化と圧縮親和性モデルを構築するための範囲制限損失(R2-Loss)を提案する。 重みの範囲を効果的に制限することにより、全体の分布をタイトな形状に成形し、高い量子化ビット解像度を確保することにより、モデル圧縮と量子化技術により、制限された数値表現力をより有効に利用することができる。 我々は,3種類のL-inf R2-Loss,拡張Margin R2-Loss,Soft-Min-MaxR2-Lossを導入し,完全精度モデルのトレーニングにおいて補助的損失として使用する。 これらのR2-Lossは、L-inf や Margin R2-Loss のような異なるケースで使用できるが、Soft-Min-Max R2-Loss はモデル圧縮により良い性能を示す。 r2-lossは,ptq(state-of-the-art post-training quantization),qat(quantization-aware training),モデル圧縮技術を用いて,低ビット量子化精度を向上させる。 r2-loss、mobilenet-v2 2bit weight、8bit activation ptq、mobilenet-v1 2bit weight and activation qatにより、resnet18 1bit weight compressionは50.66%から59.49%、55.96%から59.05%、45.54%から52.58%に改善されている。

Model quantization and compression is widely used techniques to reduce usage of computing resource at inference time. While state-of-the-art works have been achieved reasonable accuracy with higher bit such as 4bit or 8bit, but still it is challenging to quantize/compress a model further, e.g., 1bit or 2bit. To overcome the challenge, we focus on outliers in weights of a pre-trained model which disrupt effective lower bit quantization and compression. In this work, we propose Range Restriction Loss (R2-Loss) for building lower bit quantization and compression friendly models by removing outliers from weights during pre-training. By effectively restricting range of weights, we mold the overall distribution into a tight shape to ensure high quantization bit resolution, therefore allowing model compression and quantization techniques can to utilize their limited numeric representation powers better. We introduce three different, L-inf R2-Loss, its extension Margin R2-Loss and a new Soft-Min-MaxR2-Loss to be used as an auxiliary loss during full-precision model training. These R2-Loss can be used in different cases such as L-inf and Margin R2-Loss would be effective for symmetric quantization, while Soft-Min-Max R2-Loss shows better performance for model compression. In our experiment, R2-Loss improves lower bit quantization accuracy with state-of-the-art post-training quantization (PTQ), quantization-aware training (QAT), and model compression techniques. With R2-Loss, MobileNet-V2 2bit weight and 8bit activation PTQ, MobileNet-V1 2bit weight and activation QAT, ResNet18 1bit weight compression are improved to 59.49% from 50.66%, 59.05% from 55.96%, and 52.58% from 45.54%, respectively.
翻訳日:2024-02-14 01:18:50 公開日:2024-02-11
# 分散グラフ上のスケーラブルニューラルネットワークトレーニング

Scalable Neural Network Training over Distributed Graphs ( http://arxiv.org/abs/2302.13053v3 )

ライセンス: Link先を確認
Aashish Kolluri, Sarthak Choudhary, Bryan Hooi, Prateek Saxena(参考訳) グラフニューラルネットワーク(gnns)は、タンパク質構造の予測からパーソナライズドレコメンデーションの提供まで、グラフ構造化データを含むさまざまな機械学習タスクに寄与する。 実世界のグラフデータは、キャパシティの制約だけでなく、データの常駐性やプライバシの法則に準拠しているため、多くのマシンに分散して保存されなければならない。 このようなセットアップでは、ネットワーク通信はコストがかかり、GNNをトレーニングする主なボトルネックとなる。 分散gnnトレーニングの最適化は、これまで、単一のエンティティにグラフデータがアクセス可能でデータ転送コストが無視されるデータセンタのようなセットアップで動作する、キャッシュ、ネットワークアウェアパーティショニング、サブサンプリングといった、データレベルの改善を目標としてきた。 本稿では,分散gnnトレーニングにおける通信ボトルネックを解消し,任意のデータ分割構成を尊重する最初のフレームワークであるretexoを提案する。 鍵となるのは、新しいトレーニング手順である遅延メッセージパッシングで、トレーニングGNN要素のシーケンスをリオーダーする。 RETEXOは、標準的なGNNトレーニングに比べてネットワークデータコストの1~2桁の削減を実現し、精度を維持している。 retexoは分散化と帯域幅の縮小によって優雅にスケールする。 集中型データセンタネットワーク、広域ネットワーク、近接ネットワーク、エッジネットワークを含む、すべてのネットワーク分散レベルにおけるGNNのトレーニングに使用できる最初のフレームワークである。

Graph neural networks (GNNs) fuel diverse machine learning tasks involving graph-structured data, ranging from predicting protein structures to serving personalized recommendations. Real-world graph data must often be stored distributed across many machines not just because of capacity constraints, but because of compliance with data residency or privacy laws. In such setups, network communication is costly and becomes the main bottleneck to train GNNs. Optimizations for distributed GNN training have targeted data-level improvements so far -- via caching, network-aware partitioning, and sub-sampling -- that work for data center-like setups where graph data is accessible to a single entity and data transfer costs are ignored. We present RETEXO, the first framework which eliminates the severe communication bottleneck in distributed GNN training while respecting any given data partitioning configuration. The key is a new training procedure, lazy message passing, that reorders the sequence of training GNN elements. RETEXO achieves 1-2 orders of magnitude reduction in network data costs compared to standard GNN training, while retaining accuracy. RETEXO scales gracefully with increasing decentralization and decreasing bandwidth. It is the first framework that can be used to train GNNs at all network decentralization levels -- including centralized data-center networks, wide area networks, proximity networks, and edge networks.
翻訳日:2024-02-14 01:17:59 公開日:2024-02-11
# $\ell_0$ 攻撃の結合に対する証明可能なロバスト性

Provable Robustness Against a Union of $\ell_0$ Adversarial Attacks ( http://arxiv.org/abs/2302.11628v3 )

ライセンス: Link先を確認
Zayd Hammoudeh and Daniel Lowd(参考訳) スパースまたは$\ell_0$ 敵攻撃は、機能の未知の部分集合を任意に摂動する。 $\ell_0$ロバストネス分析は、機能が異なる型やスケールを持つ異種(表型)データに特に適しています。 最先端の$\ell_0$認証された防御はランダムな平滑化に基づいており、回避攻撃にのみ適用される。 本稿では,$\ell_0$の回避,バックドア,毒殺攻撃に対する認証された防御機構である特徴分割アグリゲーション(FPA)を提案する。 fpaはその強固な堅牢性保証をアンサンブルを通じて生成し、そのサブモデルは互いに分離した特徴集合で訓練される。 最先端の$\ell_0$ defensesと比較して、fpaは最大3000${\times}$高速で、より強固な保証を提供する(例えば、cifar10では13ピクセル/10ピクセル、mnistでは12ピクセル/10ピクセル、天気では4機能/1機能/1機能/3機能など)。

Sparse or $\ell_0$ adversarial attacks arbitrarily perturb an unknown subset of the features. $\ell_0$ robustness analysis is particularly well-suited for heterogeneous (tabular) data where features have different types or scales. State-of-the-art $\ell_0$ certified defenses are based on randomized smoothing and apply to evasion attacks only. This paper proposes feature partition aggregation (FPA) -- a certified defense against the union of $\ell_0$ evasion, backdoor, and poisoning attacks. FPA generates its stronger robustness guarantees via an ensemble whose submodels are trained on disjoint feature sets. Compared to state-of-the-art $\ell_0$ defenses, FPA is up to 3,000${\times}$ faster and provides larger median robustness guarantees (e.g., median certificates of 13 pixels over 10 for CIFAR10, 12 pixels over 10 for MNIST, 4 features over 1 for Weather, and 3 features over 1 for Ames), meaning FPA provides the additional dimensions of robustness essentially for free.
翻訳日:2024-02-14 01:16:59 公開日:2024-02-11
# スラブのサブミリハーツリー誤差を伴う軌道自由関数

Orbital-free functional with sub-milliHartree errors for slabs ( http://arxiv.org/abs/2304.11115v3 )

ライセンス: Link先を確認
Pavel Okun, Antonio C. Cancio, Kieron Burke(参考訳) 漸近解析の原理を用いて、スラブのコーン・シャム電子に対するトーマス・フェルミ運動エネルギー近似を正確に補正する。 この漸近膨張近似は、標準半局所密度汎関数によって欠落する重要な量子振動を含む。 これらは誘導体の不連続を説明するため、化学精度は4次で達成される。 軌道自由電子構造と交換相関近似の両方の影響を論じる。

Using principles of asymptotic analysis, we derive the exact leading corrections to the Thomas-Fermi kinetic energy approximation for Kohn-Sham electrons for slabs. This asymptotic expansion approximation includes crucial quantum oscillations missed by standard semilocal density functionals. Because these account for the derivative discontinuity, chemical accuracy is achieved at fourth-order. The implications for both orbital-free electronic structure and exchange-correlation approximations are discussed.
翻訳日:2024-02-14 01:03:35 公開日:2024-02-11
# 確率論的視点による意味論的考察

Constructing Semantics-Aware Adversarial Examples with Probabilistic Perspective ( http://arxiv.org/abs/2306.00353v2 )

ライセンス: Link先を確認
Andi Zhang, Mingtian Zhang, Damon Wischik(参考訳) 本稿では,敵対的事例に対する確率論的視点を提案する。 この視点は、逆の例の幾何学的制約を分布として見ることができ、データ駆動でセマンティックな制約へのシームレスなシフトを可能にする。 この基礎の上に構築された本論文では, セマンティックスを考慮した敵例を原則的に作成する手法を提案する。 本手法は,現代の確率的生成モデルの高度な一般化機能を活用して,画像のセマンティクスを維持できる逆摂動を生成する。 さらに、ユーザ自身がセマンティクスの理解を敵の例に注入する柔軟性も備えている。 提案手法は,ヒトの観察者による低検出率を維持しつつ,対側防御機構を回避し,伝達性の向上と高い成功率を達成することが実証された。

We propose a probabilistic perspective on adversarial examples. This perspective allows us to view geometric restrictions on adversarial examples as distributions, enabling a seamless shift towards data-driven, semantic constraints. Building on this foundation, we present a method for creating semantics-aware adversarial examples in a principle way. Leveraging the advanced generalization capabilities of contemporary probabilistic generative models, our method produces adversarial perturbations that maintain the original image's semantics. Moreover, it offers users the flexibility to inject their own understanding of semantics into the adversarial examples. Our empirical findings indicate that the proposed methods achieve enhanced transferability and higher success rates in circumventing adversarial defense mechanisms, while maintaining a low detection rate by human observers.
翻訳日:2024-02-14 00:52:57 公開日:2024-02-11
# フローマッチング法における誤差境界

Error Bounds for Flow Matching Methods ( http://arxiv.org/abs/2305.16860v2 )

ライセンス: Link先を確認
Joe Benton, George Deligiannidis, Arnaud Doucet(参考訳) スコアベース生成モデルは確率微分方程式(SDE)に依存する生成モデリング技法の一般的なクラスである。 当初から,SDEではなく,通常の微分方程式(ODE)を用いて生成することも可能であった。 これは確率フロー ode アプローチの導入と拡散暗黙モデルの拡張につながった。 フローマッチング手法は、最近これらのODEベースのアプローチをさらに拡張し、2つの任意の確率分布間のフローを近似した。 確率的サンプリング条件下での拡散モデルの近似誤差に関する以前の研究は、$l^2$損失の仮定から導かれた。 近似誤差に対する$l^2$バインドとデータ分布上の一定の正規性条件を仮定し,完全決定論的サンプリングを用いてフローマッチング手順の誤差境界を示す。

Score-based generative models are a popular class of generative modelling techniques relying on stochastic differential equations (SDE). From their inception, it was realized that it was also possible to perform generation using ordinary differential equations (ODE) rather than SDE. This led to the introduction of the probability flow ODE approach and denoising diffusion implicit models. Flow matching methods have recently further extended these ODE-based approaches and approximate a flow between two arbitrary probability distributions. Previous work derived bounds on the approximation error of diffusion models under the stochastic sampling regime, given assumptions on the $L^2$ loss. We present error bounds for the flow matching procedure using fully deterministic sampling, assuming an $L^2$ bound on the approximation error and a certain regularity condition on the data distributions.
翻訳日:2024-02-14 00:51:52 公開日:2024-02-11
# Dropoutがダブルダイスをドロップ

Dropout Drops Double Descent ( http://arxiv.org/abs/2305.16179v3 )

ライセンス: Link先を確認
Tian-Le Yang, Joe Suzuki(参考訳) 本研究は,全連結線形層に隣接するドロップアウト層を付加することにより,二重降下を緩和できることを示す。 この予期せぬ二重発振現象は近年大きな注目を集め、サンプルサイズやモデルサイズが増加するにつれて予測誤差が変動した。 本論文は, 単調な線形回帰の減少と, 試料径の増大を両立させることにより, 最適試験誤差が減少することを示した。 このステートメントの正確な数学的証明は提供していないが、テストエラーがドロップアウト率ごとに減少するという実験を通じて実証的に検証する。 その結果,一定範囲内におけるドロップアウト率の予測テスト誤差は,ドロップアウト率の固定時に減少することがわかった。 実験結果から, 最適ドロップアウト率のドロップアウトは, 非線形ニューラルネットワークにおいて単調なテスト誤差曲線をもたらすことが示唆された。 これらの実験は、Fashion-MNISTとCIFAR-10データセットを用いて行われた。 これらの結果は,ピーク現象に対処するため,リスク曲線のスケーリングにドロップアウトを組み込むことの潜在的なメリットを示唆している。 我々の知る限りでは、この研究はドロップアウトとダブル降下の関係に関する最初の調査である。

This study demonstrates that double descent can be mitigated by adding a dropout layer adjacent to the fully connected linear layer. The unexpected double-descent phenomenon garnered substantial attention in recent years, resulting in fluctuating prediction error rates as either sample size or model size increases. Our paper posits that the optimal test error, in terms of the dropout rate, shows a monotonic decrease in linear regression with increasing sample size. Although we do not provide a precise mathematical proof of this statement, we empirically validate through experiments that the test error decreases for each dropout rate. The statement we prove is that the expected test error for each dropout rate within a certain range decreases when the dropout rate is fixed. Our experimental results substantiate our claim, showing that dropout with an optimal dropout rate can yield a monotonic test error curve in nonlinear neural networks. These experiments were conducted using the Fashion-MNIST and CIFAR-10 datasets. These findings imply the potential benefit of incorporating dropout into risk curve scaling to address the peak phenomenon. To our knowledge, this study represents the first investigation into the relationship between dropout and double descent.
翻訳日:2024-02-14 00:51:38 公開日:2024-02-11
# 量子ニューラルネットワークによる量子相互情報の推定

Estimating Quantum Mutual Information Through a Quantum Neural Network ( http://arxiv.org/abs/2306.14566v2 )

ライセンス: Link先を確認
Myeongjin Shin, Junseo Lee, Kabgyun Jeong(参考訳) 本稿では,量子情報理論の基本特性であるフォン・ノイマンエントロピーと量子相互情報の推定のための量子相互情報ニューラル推定(qmine)と呼ばれる量子機械学習手法を提案する。 ここで提案されたqmineは、基本的には量子ニューラルネットワーク(qnns)の技術を使用して、フォン・ノイマンのエントロピーを決定する損失関数を最小化し、量子重ね合わせと絡み合いによって従来のニューラルネットワークよりも強力な量子相互情報を処理する。 正確な損失関数を生成するために、古典的なドンスカー・バラダン表現の量子アナログである量子ドンスカー・バラダン表現(QDVR)を提案する。 パラメータ化量子回路上でのパラメータシフト則を利用して、QNNを効率的に実装し最適化し、QMINE技術を用いて量子エントロピーを推定することができる。 さらに,qdvrの予測を支援する数値観測を行い,qmineの性能を示す。

We propose a method of quantum machine learning called quantum mutual information neural estimation (QMINE) for estimating von Neumann entropy and quantum mutual information, which are fundamental properties in quantum information theory. The QMINE proposed here basically utilizes a technique of quantum neural networks (QNNs), to minimize a loss function that determines the von Neumann entropy, and thus quantum mutual information, which is believed more powerful to process quantum datasets than conventional neural networks due to quantum superposition and entanglement. To create a precise loss function, we propose a quantum Donsker-Varadhan representation (QDVR), which is a quantum analog of the classical Donsker-Varadhan representation. By exploiting a parameter shift rule on parameterized quantum circuits, we can efficiently implement and optimize the QNN and estimate the quantum entropies using the QMINE technique. Furthermore, numerical observations support our predictions of QDVR and demonstrate the good performance of QMINE.
翻訳日:2024-02-14 00:44:25 公開日:2024-02-11
# Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale from a new perspective

Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale From A New Perspective ( http://arxiv.org/abs/2306.13092v3 )

ライセンス: Link先を確認
Zeyuan Yin and Eric Xing and Zhiqiang Shen(参考訳) 本稿では,トレーニング中のモデルと合成データの2レベル最適化を分離し,データセットのスケール,モデルアーキテクチャ,および効率的なデータセット凝縮のための画像解像度の異なる処理を行う,srewish, recovery and relabel(sre$^2$l)という新しいデータセット凝縮フレームワークを提案する。 提案手法は,多様なデータセットスケールにまたがる柔軟性を示し,合成画像の任意の解像度,低トレーニングコスト,高解像度合成によるメモリ消費,任意の評価ネットワークアーキテクチャへのスケールアップ能力など,さまざまなメリットを示す。 Tiny-ImageNetと完全なImageNet-1Kデータセットで大規模な実験が行われている。 50 IPC未満では、Tiny-ImageNetとImageNet-1Kの検証精度は42.5%と60.8%で、従来の最先端手法をそれぞれ14.5%と32.9%で上回っている。 我々の手法は、データ合成中に11.6$\times$と6.4$\times$のメモリ消費を少なくして、約52$\times$ (ConvNet-4) と16$\times$ (ResNet-18) の速度で MTT を超える。 コードと4Kリカバリ予算付き50,200 IPCのデータセットは、https://github.com/VILA-Lab/SRe2Lで公開されています。

We present a new dataset condensation framework termed Squeeze, Recover and Relabel (SRe$^2$L) that decouples the bilevel optimization of model and synthetic data during training, to handle varying scales of datasets, model architectures and image resolutions for efficient dataset condensation. The proposed method demonstrates flexibility across diverse dataset scales and exhibits multiple advantages in terms of arbitrary resolutions of synthesized images, low training cost and memory consumption with high-resolution synthesis, and the ability to scale up to arbitrary evaluation network architectures. Extensive experiments are conducted on Tiny-ImageNet and full ImageNet-1K datasets. Under 50 IPC, our approach achieves the highest 42.5% and 60.8% validation accuracy on Tiny-ImageNet and ImageNet-1K, outperforming all previous state-of-the-art methods by margins of 14.5% and 32.9%, respectively. Our approach also surpasses MTT in terms of speed by approximately 52$\times$ (ConvNet-4) and 16$\times$ (ResNet-18) faster with less memory consumption of 11.6$\times$ and 6.4$\times$ during data synthesis. Our code and condensed datasets of 50, 200 IPC with 4K recovery budget are available at https://github.com/VILA-Lab/SRe2L.
翻訳日:2024-02-14 00:42:37 公開日:2024-02-11
# SGDの厳密な正方形線形安定性解析

Exact Mean Square Linear Stability Analysis for SGD ( http://arxiv.org/abs/2306.07850v2 )

ライセンス: Link先を確認
Rotem Mulayoff, Tomer Michaeli(参考訳) 近年,損失最小付近における最適化法の動的安定性が注目されている。 勾配降下 (GD) に対して、安定収束はステップサイズが十分に平坦なミニマに対してのみ可能であり、これらは訓練されたモデルの好ましい性質と結びついている。 しかしながら、GDの安定性閾値はよく知られているが、確率的GD(SGD)の正確なしきい値に対して明確な表現が導出されていない。 本稿では,そのような閉形式表現を導出する。 具体的には,SGDの平均二乗感覚における線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。 われわれの分析は、バッチサイズ$b$の正確な役割に光を当てている。 特に, 安定閾値はバッチサイズが単調に低下せず, バッチサイズが小さくなると安定性が低下することが示唆された。 さらに、SGDの安定性閾値は、各イテレーションにおいて、完全なバッチ勾配ステップw.p.$-p$と、単一のサンプル勾配ステップw.p.$p$で、$p \approx 1/B$と等価であることを示す。 これは、中程度のバッチサイズであっても、SGDの安定性閾値がGDと非常に近いことを示している。 また, バッチサイズに依存し, 精度の高いしきい値よりも計算が容易な線形安定性の必要条件を簡易に証明する。 最後に,最小周辺における力学の漸近共分散を導出し,その学習速度依存性について考察する。 MNISTデータセットを用いた実験により理論的知見を検証した。

The dynamical stability of optimization methods at the vicinity of minima of the loss has recently attracted significant attention. For gradient descent (GD), stable convergence is possible only to minima that are sufficiently flat w.r.t. the step size, and those have been linked with favorable properties of the trained model. However, while the stability threshold of GD is well-known, to date, no explicit expression has been derived for the exact threshold of stochastic GD (SGD). In this paper, we derive such a closed-form expression. Specifically, we provide an explicit condition on the step size that is both necessary and sufficient for the linear stability of SGD in the mean square sense. Our analysis sheds light on the precise role of the batch size $B$. In particular, we show that the stability threshold is monotonically non-decreasing in the batch size, which means that reducing the batch size can only decrease stability. Furthermore, we show that SGD's stability threshold is equivalent to that of a mixture process which takes in each iteration a full batch gradient step w.p. $1-p$, and a single sample gradient step w.p. $p$, where $p \approx 1/B $. This indicates that even with moderate batch sizes, SGD's stability threshold is very close to that of GD's. We also prove simple necessary conditions for linear stability, which depend on the batch size, and are easier to compute than the precise threshold. Finally, we derive the asymptotic covariance of the dynamics around the minimum, and discuss its dependence on the learning rate. We validate our theoretical findings through experiments on the MNIST dataset.
翻訳日:2024-02-14 00:40:48 公開日:2024-02-11
# 時間圧力下におけるAI支援意思決定における高精度時間トレードオフ

Accuracy-Time Tradeoffs in AI-Assisted Decision Making under Time Pressure ( http://arxiv.org/abs/2306.07458v3 )

ライセンス: Link先を確認
Siddharth Swaroop, Zana Bu\c{c}inca, Krzysztof Z. Gajos, Finale Doshi-Velez(参考訳) 緊急治療室で働く医師など、ユーザが高い精度と時間的プレッシャーを必要とする環境では、意思決定の精度を高め、意思決定時間を短縮するAI支援を提供したいと思っています。 現在の文献では、時間的なプレッシャーがなければ、ユーザーがaiアシスタントとどのように対話するかに注目し、異なるaiアシスタンスに異なるメリットがあることを見出している。 正確なメリットは、ユーザとタスクの両方に依存します。 タイムプレッシャーのあるシナリオでは、AIアシストを示すときの適応が特に重要である。 私たちは、正確さと時間を最大限に引き離すために、さまざまな特性(タスクとユーザの)に依存するAIアシストを理想的に適応させます。 本稿では,ユーザが一連の論理パズルに答えなければならない研究を紹介する。 私たちは、時間のプレッシャーが、ユーザーが異なるAIアシストを使用する方法に影響することに気付きました。 オーバーリアーとnot-overrelierは異なるaiアシスタンスタイプを使用しています。 ユーザの信頼度(AIレコメンデーションに対するユーザの信頼度)と人格特性(大きな5人格特性)との間には,限界的な相関関係が認められた。 全体として、我々の研究は、AIアシストは時間的プレッシャーのない人に比べて、時間的プレッシャー下にあるときの精度と時間のトレードオフが異なることを示唆している。

In settings where users both need high accuracy and are time-pressured, such as doctors working in emergency rooms, we want to provide AI assistance that both increases decision accuracy and reduces decision-making time. Current literature focusses on how users interact with AI assistance when there is no time pressure, finding that different AI assistances have different benefits: some can reduce time taken while increasing overreliance on AI, while others do the opposite. The precise benefit can depend on both the user and task. In time-pressured scenarios, adapting when we show AI assistance is especially important: relying on the AI assistance can save time, and can therefore be beneficial when the AI is likely to be right. We would ideally adapt what AI assistance we show depending on various properties (of the task and of the user) in order to best trade off accuracy and time. We introduce a study where users have to answer a series of logic puzzles. We find that time pressure affects how users use different AI assistances, making some assistances more beneficial than others when compared to no-time-pressure settings. We also find that a user's overreliance rate is a key predictor of their behaviour: overreliers and not-overreliers use different AI assistance types differently. We find marginal correlations between a user's overreliance rate (which is related to the user's trust in AI recommendations) and their personality traits (Big Five Personality traits). Overall, our work suggests that AI assistances have different accuracy-time tradeoffs when people are under time pressure compared to no time pressure, and we explore how we might adapt AI assistances in this setting.
翻訳日:2024-02-14 00:40:04 公開日:2024-02-11
# オープンドメイン質問応答のための新しいデュアルジェネレータフレームワーク

Novel Dual-Generator Framework for Open-Domain Question Answering ( http://arxiv.org/abs/2307.11278v2 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Adam Jatowt(参考訳) オープンドメイン質問応答(QA)の複雑さに対処するには、拡張コーパスから関連する情報の抽出が必要である。 本稿では,文書検索戦略を高度大言語モデル (LLM) と相乗化する,GRG (Generator-Retriever-Generator) と呼ばれる革新的な手法を提案する。 プロセスは、提案された質問に対する文脈固有の文書を生成するLLMで開始される。 同時に、高度なデュアルエンコーダネットワークは、広範囲な外部コーパスから質問に関連する文書の検索を行う。 生成された文書と検索された文書はその後、第2のLCMによって処理され、決定的な回答を生成する。 文書検索とllmベースの生成を融合することにより,オープンドメインqaに関連する複雑度,特に情報的かつ文脈的回答の提供を適切にナビゲートする。 我々のGRGモデルは既存の最先端の手法を明らかに超えており、例えばgenerator-then-read と retrieve-then-read framework (GENREAD と RFiD) は、TriviaQA と NQ と WebQ のデータセットで、それぞれ+5.2 と +4.2 と +1.6 の最小マージンで性能を向上している。 さらなる調査と再現のために、コード、データセット、チェックポイントを \footnote{\url{https://github.com/abdoelsayed2016/GRG}}で公開しました。

Addressing the intricacies of open-domain question answering (QA) necessitates the extraction of pertinent information from expansive corpora to formulate precise answers. This paper introduces an innovative methodology, termed Generator-Retriever-Generator (GRG), which synergizes document retrieval strategies with advanced large language models (LLMs). The process commences with the LLM generating context-specific documents in response to a posed question. Concurrently, a sophisticated dual-encoder network undertakes the retrieval of documents pertinent to the question from an extensive external corpus. Both the generated and retrieved documents are subsequently processed by a second LLM, tasked with producing the definitive answer. By amalgamating the processes of document retrieval and LLM-based generation, our method adeptly navigates the complexities associated with open-domain QA, notably in delivering informative and contextually apt answers. Our GRG model demonstrably surpasses existing state-of-the-art methodologies, including generate-then-read and retrieve-then-read frameworks (GENREAD and RFiD), enhancing their performance by minimum margins of +5.2, +4.2, and +1.6 on the TriviaQA, NQ, and WebQ datasets, respectively. For further exploration and replication of our findings, we have made available the code, datasets, and checkpoints at \footnote{\url{https://github.com/abdoelsayed2016/GRG}}.
翻訳日:2024-02-14 00:31:26 公開日:2024-02-11
# サイクル一貫性に基づく教師なしディープグラフマッチング

Unsupervised Deep Graph Matching Based on Cycle Consistency ( http://arxiv.org/abs/2307.08930v5 )

ライセンス: Link先を確認
Siddharth Tourani, Carsten Rother and Muhammad Haris Khan and Bogdan Savchynskyy(参考訳) 我々は,教師なし深度グラフマッチングの疎密な領域と,画像のキーポイントマッチングへの応用に寄与する。 標準の \emph{supervised} アプローチとは対照的に、本手法ではキーポイント対間の基底真理対応は不要である。 代わりに、同じオブジェクトカテゴリの画像間のマッチングの一貫性を強制することにより、自己監視される。 マッチングと一貫性損失は離散的であるため、それらの微分は直接学習には使用できない。 組合せ解のブラックボックス微分に関する最近の結果に基づいて,本手法を原理的に構築することにより,この問題に対処する。 この手法は任意のネットワークアーキテクチャや組合せ解法と互換性があるため,非常に柔軟である。 実験により,本手法は教師なしグラフマッチングのための新しい最先端技術であることがわかった。

We contribute to the sparsely populated area of unsupervised deep graph matching with application to keypoint matching in images. Contrary to the standard \emph{supervised} approach, our method does not require ground truth correspondences between keypoint pairs. Instead, it is self-supervised by enforcing consistency of matchings between images of the same object category. As the matching and the consistency loss are discrete, their derivatives cannot be straightforwardly used for learning. We address this issue in a principled way by building our method upon the recent results on black-box differentiation of combinatorial solvers. This makes our method exceptionally flexible, as it is compatible with arbitrary network architectures and combinatorial solvers. Our experimental evaluation suggests that our technique sets a new state-of-the-art for unsupervised graph matching.
翻訳日:2024-02-14 00:30:33 公開日:2024-02-11
# 双対ユニタリティの階層的一般化

Hierarchical generalization of dual unitarity ( http://arxiv.org/abs/2307.03138v3 )

ライセンス: Link先を確認
Xie-Hang Yu, Zhiyuan Wang and Pavel Kos(参考訳) 格子モデルにおける局所的な相互作用を伴う量子力学は、リッチな物理学を示すが、研究は困難である。 二重単位回路は、1次元または高次元の量子系における興味深い物理問題に対する正確な答えを可能にする。 しかし、このモデル群は、光円錐内における相関の消失や、局所的な可観測物の瞬時熱化など、普遍的な特徴を示す。 本研究では, 正確な計算可能な空間-時間相関関数がよりリッチな振る舞いを示し, 局所観測可能な非自明な熱化を持つデュアルユニタリ回路の一般化を提案する。 これは、単一ゲート条件をマルチゲート条件の階層に一般化することで実現され、第1レベルがデュアルユニタリモデルを復元し、第2レベルがこれら新しい興味深い特徴を示す。 また、議論を拡張して、わずかなサイトオブザーバブルを持つコリエータに正確なソリューションを提供し、量子クエンチ後のものを含む高階について議論する。 さらに、量子ビットの場合の徹底的なパラメトリゼーションを提供し、また、2より大きい局所次元のモデルの新しいファミリーを提案し、また二元単位モデルの新しいファミリーを提供する。

Quantum dynamics with local interactions in lattice models display rich physics, but is notoriously hard to study. Dual-unitary circuits allow for exact answers to interesting physical questions in clean or disordered one- and higher-dimensional quantum systems. However, this family of models shows some non-universal features, like vanishing correlations inside the light-cone and instantaneous thermalization of local observables. In this work we propose a generalization of dual-unitary circuits where the exactly calculable spatial-temporal correlation functions display richer behavior, and have non-trivial thermalization of local observables. This is achieved by generalizing the single-gate condition to a hierarchy of multi-gate conditions, where the first level recovers dual-unitary models, and the second level exhibits these new interesting features. We also extend the discussion and provide exact solutions to correlators with few-site observables and discuss higher-orders, including the ones after a quantum quench. In addition, we provide exhaustive parametrizations for qubit cases, and propose a new family of models for local dimensions larger than two, which also provides a new family of dual-unitary models.
翻訳日:2024-02-14 00:28:31 公開日:2024-02-11
# KDSTM:知識蒸留を用いたニューラルネットワーク半教師付きトピックモデリング

KDSTM: Neural Semi-supervised Topic Modeling with Knowledge Distillation ( http://arxiv.org/abs/2307.01878v2 )

ライセンス: Link先を確認
Weijie Xu, Xiaoyu Jiang, Jay Desai, Bin Han, Fuqin Yan and Francis Iannacci(参考訳) テキスト分類タスクでは、BERT や GPT-3 のような事前訓練済み言語モデルの微調整は、競合する精度をもたらすが、どちらの手法も大きなテキストデータセットで事前訓練を必要とする。 対照的に、一般的なトピックモデリング手法は、事前学習なしに意味のある単語のパターンを抽出するために文書を分析する利点を持っている。 テキスト分類タスクにおけるトピックモデリングの教師なし洞察抽出を活用するために,知識蒸留半教師付きトピックモデリング(KDSTM)を開発した。 KDSTMは事前訓練された埋め込みを必要とせず、ラベル付きドキュメントがほとんどなく、訓練も効率的で、リソース制約のある設定で理想的です。 様々なデータセットにまたがって,提案手法は,既存の教師付きトピックモデリング手法を分類精度,ロバスト性,効率性において上回り,弱教師付きテキスト分類法と比較して同様の性能を実現する。

In text classification tasks, fine tuning pretrained language models like BERT and GPT-3 yields competitive accuracy; however, both methods require pretraining on large text datasets. In contrast, general topic modeling methods possess the advantage of analyzing documents to extract meaningful patterns of words without the need of pretraining. To leverage topic modeling's unsupervised insights extraction on text classification tasks, we develop the Knowledge Distillation Semi-supervised Topic Modeling (KDSTM). KDSTM requires no pretrained embeddings, few labeled documents and is efficient to train, making it ideal under resource constrained settings. Across a variety of datasets, our method outperforms existing supervised topic modeling methods in classification accuracy, robustness and efficiency and achieves similar performance compare to state of the art weakly supervised text classification methods.
翻訳日:2024-02-14 00:27:22 公開日:2024-02-11
# resfields: 時空間信号のための残留神経場

ResFields: Residual Neural Fields for Spatiotemporal Signals ( http://arxiv.org/abs/2309.03160v5 )

ライセンス: Link先を確認
Marko Mihajlovic, Sergey Prokudin, Marc Pollefeys, Siyu Tang(参考訳) 高周波信号を表すために訓練されたニューラルネットワークのカテゴリであるニューラルフィールドは、シングルマルチ層パーセプトロン(MLP)を介して、符号付き距離(SDF)や放射場(NeRF)といった複雑な3Dデータをモデリングする際の顕著なパフォーマンスから、近年大きな注目を集めている。 しかし、MLPによる信号表現のパワーと単純さにもかかわらず、これらの手法は、MLPの容量が限られているため、大規模で複雑な時間信号のモデリングにおいて、依然として課題に直面している。 本稿では,時間的残留層をニューラルネットワークに組み込むことにより,この制限に対処するための効果的な手法を提案する。 複雑な時間信号を効果的に表現するために設計された新しいネットワークのクラスである。 本稿では,ResFieldの特性を包括的に解析し,学習可能なパラメータの数を減らし,一般化能力を向上する行列分解法を提案する。 重要な点は,既存のmlpベースのニューラルフィールドとシームレスに統合し,2次元映像近似,時間的sdfによる動的形状モデリング,動的nerf再構成など,様々な課題にまたがる結果を一貫して改善することである。 最後に,軽量キャプチャシステムのrgbdカメラから動的3dシーンを撮影することの有効性を示すことで,resfieldsの実用性を示す。

Neural fields, a category of neural networks trained to represent high-frequency signals, have gained significant attention in recent years due to their impressive performance in modeling complex 3D data, such as signed distance (SDFs) or radiance fields (NeRFs), via a single multi-layer perceptron (MLP). However, despite the power and simplicity of representing signals with an MLP, these methods still face challenges when modeling large and complex temporal signals due to the limited capacity of MLPs. In this paper, we propose an effective approach to address this limitation by incorporating temporal residual layers into neural fields, dubbed ResFields. It is a novel class of networks specifically designed to effectively represent complex temporal signals. We conduct a comprehensive analysis of the properties of ResFields and propose a matrix factorization technique to reduce the number of trainable parameters and enhance generalization capabilities. Importantly, our formulation seamlessly integrates with existing MLP-based neural fields and consistently improves results across various challenging tasks: 2D video approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF reconstruction. Lastly, we demonstrate the practical utility of ResFields by showcasing its effectiveness in capturing dynamic 3D scenes from sparse RGBD cameras of a lightweight capture system.
翻訳日:2024-02-13 22:44:18 公開日:2024-02-11
# 開量子系の安定相の定義

Defining stable phases of open quantum systems ( http://arxiv.org/abs/2308.15495v2 )

ライセンス: Link先を確認
Tibor Rakovszky and Sarang Gopalakrishnan and Curt von Keyserlingk(参考訳) 動的過程の定常状態は安定な非自明な位相を示し、フォールトトレラント古典記憶や量子記憶としても機能する。 マルコフ量子(古典的)力学では、これらの定常状態は非エルミート作用素の極値固有ベクトルであり、量子チャネル(マルコフ連鎖)を生成する。 しかしながら、これらの作用素は非エルミート的であるため、スペクトルは動的緩和時間スケールや摂動に対する安定性に対する信頼できないガイドである。 我々は、定常状態が安定な状態となるための代替の力学的基準を提案し、これを一様性と呼ぶ: 非公式に、我々の基準は、力学の十分に小さな局所摂動の下では、摂動状態と摂動状態が有限時間散逸進化によって互いに関連していることを要求する。 この基準は位相の任意の合理的な定義から求める性質の多くを意味していることを示す。 我々は、標準古典的セルオートマトンにおいて一様性が満たされていることを証明し、このギャップが同じ位相における近傍定常状態間の緩和率を決定することを数値的に証明する。 さらに、チャネルが一様性を示すための十分条件と、それゆえ安定性を予想する。

The steady states of dynamical processes can exhibit stable nontrivial phases, which can also serve as fault-tolerant classical or quantum memories. For Markovian quantum (classical) dynamics, these steady states are extremal eigenvectors of the non-Hermitian operators that generate the dynamics, i.e., quantum channels (Markov chains). However, since these operators are non-Hermitian, their spectra are an unreliable guide to dynamical relaxation timescales or to stability against perturbations. We propose an alternative dynamical criterion for a steady state to be in a stable phase, which we name uniformity: informally, our criterion amounts to requiring that, under sufficiently small local perturbations of the dynamics, the unperturbed and perturbed steady states are related to one another by a finite-time dissipative evolution. We show that this criterion implies many of the properties one would want from any reasonable definition of a phase. We prove that uniformity is satisfied in a canonical classical cellular automaton, and provide numerical evidence that the gap determines the relaxation rate between nearby steady states in the same phase, a situation we conjecture holds generically whenever uniformity is satisfied. We further conjecture some sufficient conditions for a channel to exhibit uniformity and therefore stability.
翻訳日:2024-02-13 22:43:34 公開日:2024-02-11
# U-SEANNet:鼻内視鏡画像における鼻疾患診断のための簡便で効率的なU字型ネットワーク

U-SEANNet: A Simple, Efficient and Applied U-Shaped Network for Diagnosis of Nasal Diseases on Nasal Endoscopic Images ( http://arxiv.org/abs/2308.14081v3 )

ライセンス: Link先を確認
Yubiao Yue, Jun Xue, Chao Wang, Haihua Liang, Zhenzhang Li(参考訳) 多くの研究が、深層学習モデルが内視鏡画像の病変の早期診断を容易にすることを裏付けている。 しかし、利用可能なデータセットの欠如は鼻腔内視鏡の研究の進歩を阻害し、既存のモデルはモデル診断のパフォーマンス、モデルの複雑さ、パラメータサイズの間の良好なトレードオフに至らず、実際の用途には適さない。 このギャップを埋めるために、私たちは最初の大規模な鼻内視鏡データセットである7-NasalEIDを作成しました。 その後,U字型アーキテクチャであるU-SEANNetを提案する。 さらに、入力画像のニュアンスの不一致を検出する能力を高めるため、u-seannetはglobal-local channel feature fusionモジュールを使用して、グローバルとローカルの両方のコンテキストからsalient channel機能を利用することができる。 U-SEANNetの可能性を示すために、U-SEANNetを5倍のクロスバリデーションにより17のモダンアーキテクチャと比較した。 実験結果から,U-SEANNetの補正精度は93.58%であった。 特に、U-SEANNet のパラメータサイズと GFLOP はそれぞれ 0.78M と 0.21 である。 U-SEANNetは内視鏡画像における鼻疾患診断の最先端モデルであると考えられた。

Numerous studies have affirmed that deep learning models can facilitate early diagnosis of lesions in endoscopic images. However, the lack of available datasets stymies advancements in research on nasal endoscopy, and existing models fail to strike a good trade-off between model diagnosis performance, model complexity and parameters size, rendering them unsuitable for real-world application. To bridge these gaps, we created the first large-scale nasal endoscopy dataset, named 7-NasalEID, comprising 11,352 images that contain six common nasal diseases and normal samples. Subsequently, we proposed U-SEANNet, an innovative U-shaped architecture, underpinned by depth-wise separable convolution. Moreover, to enhance its capacity for detecting nuanced discrepancies in input images, U-SEANNet employs the Global-Local Channel Feature Fusion module, enabling it to utilize salient channel features from both global and local contexts. To demonstrate U-SEANNet's potential, we benchmarked U-SEANNet against seventeen modern architectures through five-fold cross-validation. The experimental results show that U-SEANNet achieves a commendable accuracy of 93.58%. Notably, U-SEANNet's parameters size and GFLOPs are only 0.78M and 0.21, respectively. Our findings suggest U-SEANNet is the state-of-the-art model for nasal diseases diagnosis in endoscopic images.
翻訳日:2024-02-13 22:43:14 公開日:2024-02-11
# 敵対的攻撃の強化:類似の標的法

Enhancing Adversarial Attacks: The Similar Target Method ( http://arxiv.org/abs/2308.10743v4 )

ライセンス: Link先を確認
Shuo Zhang, Ziruo Wang, Zikai Zhou, Huanran Chen(参考訳) ディープニューラルネットワークは敵の例に対して脆弱であり、モデルのアプリケーションに脅威を与え、セキュリティ上の懸念を提起する。 逆例の興味深い性質は、その強い伝達性である。 それらの効果を示すアンサンブル攻撃を含む、転送可能性を高めるいくつかの方法が提案されている。 しかし、事前のアプローチは単にモデルアンサンブルのロジット、確率、損失の平均であり、なぜモデルアンサンブルが転送可能性を大幅に改善するかの包括的な分析を欠いている。 本稿では,類似ターゲット~(st)と呼ばれる類似ターゲット攻撃手法を提案する。 各モデルの勾配のコサイン類似性を推し進めることにより、最適化方向を規則化し、全ての代理モデルに同時に攻撃する。 この戦略は一般化能力を高めることが証明されている。 ImageNetの実験結果から, 対向転写性向上のためのアプローチの有効性が検証された。 本手法は,18の識別的分類器と対角訓練モデルにおいて,最先端の攻撃者より優れる。

Deep neural networks are vulnerable to adversarial examples, posing a threat to the models' applications and raising security concerns. An intriguing property of adversarial examples is their strong transferability. Several methods have been proposed to enhance transferability, including ensemble attacks which have demonstrated their efficacy. However, prior approaches simply average logits, probabilities, or losses for model ensembling, lacking a comprehensive analysis of how and why model ensembling significantly improves transferability. In this paper, we propose a similar targeted attack method named Similar Target~(ST). By promoting cosine similarity between the gradients of each model, our method regularizes the optimization direction to simultaneously attack all surrogate models. This strategy has been proven to enhance generalization ability. Experimental results on ImageNet validate the effectiveness of our approach in improving adversarial transferability. Our method outperforms state-of-the-art attackers on 18 discriminative classifiers and adversarially trained models.
翻訳日:2024-02-13 22:42:53 公開日:2024-02-11
# 大規模視覚言語モデルにおける幻覚の検出と防止

Detecting and Preventing Hallucinations in Large Vision Language Models ( http://arxiv.org/abs/2308.06394v3 )

ライセンス: Link先を確認
Anisha Gunjal, Jihan Yin, Erhan Bas(参考訳) LVLM(Large Vision Language Models)は、特にVQA(Visual Question Answering)において、様々なマルチモーダルタスクを一般化する上で大きな進歩を遂げている。 しかし、視覚的に接地された詳細な応答を生成することは、これらのモデルにとって依然として難しい課題である。 現在最先端のLVLM(InstructBLIP)でさえも、存在しないオブジェクト、不信な記述、不正確な関係という形で、幻覚文の30%が停滞している。 そこで本研究では,幻覚検出と予防のためのモデルの構築とベンチマークに使用できる (M)ultimodal (Hal)lucination (Detect)ion DatasetであるM-HalDetectを紹介する。 M-HalDetectはVQAの例で16kの細かいアノテーションで構成されており、詳細な画像記述のための最初の総合的なマルチモーダル幻覚検出データセットである。 オブジェクト幻覚のみを考える以前の作業とは異なり、エンティティ記述と不適切な関係の両方に注釈を付けます。 幻覚予防のためのこのデータセットの可能性を示すため、我々は新しいFDPOによるインストラクトBLIPを最適化する。 InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。 fdpo標本と拒絶標本の両方についてヒトによる評価を行い,instructblipの幻覚率をそれぞれ41%,55%低下させた。 また,報奨モデルが他のマルチモーダルモデルに一般化され,LLaVAとmPLUG-OWLの幻覚が15%,mPLUG-OWLが57%減少し,評価精度スコアと強い相関が得られた。

Instruction tuned Large Vision Language Models (LVLMs) have significantly advanced in generalizing across a diverse set of multi-modal tasks, especially for Visual Question Answering (VQA). However, generating detailed responses that are visually grounded is still a challenging task for these models. We find that even the current state-of-the-art LVLMs (InstructBLIP) still contain a staggering 30 percent of the hallucinatory text in the form of non-existent objects, unfaithful descriptions, and inaccurate relationships. To address this, we introduce M-HalDetect, a (M)ultimodal (Hal)lucination (Detect)ion Dataset that can be used to train and benchmark models for hallucination detection and prevention. M-HalDetect consists of 16k fine-grained annotations on VQA examples, making it the first comprehensive multi-modal hallucination detection dataset for detailed image descriptions. Unlike previous work that only consider object hallucination, we additionally annotate both entity descriptions and relationships that are unfaithful. To demonstrate the potential of this dataset for hallucination prevention, we optimize InstructBLIP through our novel Fine-grained Direct Preference Optimization (FDPO). We also train fine-grained multi-modal reward models from InstructBLIP and evaluate their effectiveness with best-of-n rejection sampling. We perform human evaluation on both FDPO and rejection sampling, and find that they reduce hallucination rates in InstructBLIP by 41% and 55% respectively. We also find that our reward model generalizes to other multi-modal models, reducing hallucinations in LLaVA and mPLUG-OWL by 15% and 57% respectively, and has strong correlation with human evaluated accuracy scores.
翻訳日:2024-02-13 22:41:49 公開日:2024-02-11
# すべてのユーザと予算のためのモデル:ラベルフリーとパーソナライズされた混合精度量子化

A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization ( http://arxiv.org/abs/2307.12659v2 )

ライセンス: Link先を確認
Edward Fish, Umberto Michieli, Mete Ozay(参考訳) 近年のASR(Automatic Speech Recognition)の進歩は、モバイルデバイスへの展開に欠かせない大規模なAIモデルを生み出している。 モデル量子化は圧縮された汎用モデルを生成するのに有効であるが、そのようなモデルは制限されたサブドメインにのみデプロイできる。 ASRモデルは,対象領域から抽出した少数のサンプルに頼りながら,量子化時にパーソナライズできることを示す。 そこで本研究では,マイクロチューニングを伴わないメモリ要求条件下で,多様なユーザに適した量子化スキームを生成する混合精度量子化手法であるmyQASRを提案する。 myQASRは、全精度アクティベーション値を分析して、ネットワーク層の量子化感度を自動的に評価する。 そして、事前決定されたメモリ予算に対して、パーソナライズされた混合精度量子化スキームを生成することができる。 大規模ASRモデルの結果は、myQASRが特定の性別、言語、話者のパフォーマンスをどのように改善するかを示している。

Recent advancement in Automatic Speech Recognition (ASR) has produced large AI models, which become impractical for deployment in mobile devices. Model quantization is effective to produce compressed general-purpose models, however such models may only be deployed to a restricted sub-domain of interest. We show that ASR models can be personalized during quantization while relying on just a small set of unlabelled samples from the target domain. To this end, we propose myQASR, a mixed-precision quantization method that generates tailored quantization schemes for diverse users under any memory requirement with no fine-tuning. myQASR automatically evaluates the quantization sensitivity of network layers by analysing the full-precision activation values. We are then able to generate a personalised mixed-precision quantization scheme for any pre-determined memory budget. Results for large-scale ASR models show how myQASR improves performance for specific genders, languages, and speakers.
翻訳日:2024-02-13 22:39:40 公開日:2024-02-11
# HandNeRF: 単一のRGB画像から手動インタラクションシーンを再構築する学習

HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image ( http://arxiv.org/abs/2309.07891v4 )

ライセンス: Link先を確認
Hongsuk Choi, Nikhil Chavan-Dafle, Jiacheng Yuan, Volkan Isler, and Hyunsoo Park(参考訳) 本稿では,単一のrgb画像から3次元ハンドオブジェクトシーンを再構成する前に,ハンドオブジェクトインタラクションを学習する手法を提案する。 3次元ハンドオブジェクトシーン再構成のためのトレーニングデータ生成と推論は、単一の画像の奥行きあいまいさと、手とオブジェクトによるオクルージョンのため困難である。 我々はこの課題を、手の形を利用して、手と物体形状の相対的な構成を制限し、機会に変える。 我々は3次元手形特徴と2次元オブジェクト特徴との相関を明示的にエンコードし,手と物体のシーン形状を予測する一般化可能な暗黙関数HandNeRFを設計する。 実世界のデータセットを用いた実験により、HandNeRFは、新しいグリップ構成のハンドオブジェクトシーンを、同等の手法よりも正確に再構築可能であることを示す。 さらに,HandNeRFからのオブジェクト再構成により,ロボットハンドオーバや操作のための把握や動作計画などの下流タスクをより正確に実行できることが実証された。 コードは以下にリリースされている。 https://github.com/SamsungLabs/HandNeRF

This paper presents a method to learn hand-object interaction prior for reconstructing a 3D hand-object scene from a single RGB image. The inference as well as training-data generation for 3D hand-object scene reconstruction is challenging due to the depth ambiguity of a single image and occlusions by the hand and object. We turn this challenge into an opportunity by utilizing the hand shape to constrain the possible relative configuration of the hand and object geometry. We design a generalizable implicit function, HandNeRF, that explicitly encodes the correlation of the 3D hand shape features and 2D object features to predict the hand and object scene geometry. With experiments on real-world datasets, we show that HandNeRF is able to reconstruct hand-object scenes of novel grasp configurations more accurately than comparable methods. Moreover, we demonstrate that object reconstruction from HandNeRF ensures more accurate execution of downstream tasks, such as grasping and motion planning for robotic hand-over and manipulation. The code is released here: https://github.com/SamsungLabs/HandNeRF
翻訳日:2024-02-13 22:34:26 公開日:2024-02-11
# CoNeS:マルチシーケンスMRI翻訳のためのシフト変調を用いた条件付きニューラルネットワーク

CoNeS: Conditional neural fields with shift modulation for multi-sequence MRI translation ( http://arxiv.org/abs/2309.03320v2 )

ライセンス: Link先を確認
Yunjie Chen, Marius Staring, Olaf M. Neve, Stephan R. Romeijn, Erik F. Hensen, Berit M. Verbist, Jelmer M. Wolterink, Qian Tao(参考訳) マルチシーケンスMRI(Multi-sequence magnetic resonance imaging)は、現代の臨床研究とディープラーニング研究の両方に広く応用されている。 しかし、臨床実践では、画像取得プロトコルやコントラスト剤による患者の禁忌により、MRIの1つ以上の配列が欠落し、マルチシーケンスデータに基づいて訓練された深層学習モデルの利用が制限されることがしばしば起こる。 有望なアプローチの1つは、生成モデルを利用して欠落した配列を合成することである。 この問題に対処する最先端の手法は、通常はスペクトルバイアスに悩まされる畳み込みニューラルネットワーク(CNN)に基づいている。 本稿では、ボクセル座標を入力として取り込んだモデルであるシフト変調付き条件付きニューラルネットワーク(CoNeS)を提案し、マルチシーケンスMRI変換のための対象画像の表現を学習する。 提案モデルは、画素間マッピングのデコーダとしてcnnの代わりに多層パーセプトロン(mlp)を用いる。 したがって、各対象画像は、学習された潜在コードによるシフト変調により、ソース画像上で条件付けられたニューラルフィールドとして表現される。 BraTS 2018と前庭神経癌患者の社内臨床データセットによる実験により、提案手法は、視覚的および定量的に多系列MRI翻訳における最先端の方法より優れていることが示された。 さらに,従来のcnnモデルに共通するスペクトルバイアス問題を克服できることを示すため,スペクトル解析を行った。 臨床下流作業における合成画像の利用を更に評価するために,合成画像を用いたセグメンテーションネットワークの推論を行った。

Multi-sequence magnetic resonance imaging (MRI) has found wide applications in both modern clinical studies and deep learning research. However, in clinical practice, it frequently occurs that one or more of the MRI sequences are missing due to different image acquisition protocols or contrast agent contraindications of patients, limiting the utilization of deep learning models trained on multi-sequence data. One promising approach is to leverage generative models to synthesize the missing sequences, which can serve as a surrogate acquisition. State-of-the-art methods tackling this problem are based on convolutional neural networks (CNN) which usually suffer from spectral biases, resulting in poor reconstruction of high-frequency fine details. In this paper, we propose Conditional Neural fields with Shift modulation (CoNeS), a model that takes voxel coordinates as input and learns a representation of the target images for multi-sequence MRI translation. The proposed model uses a multi-layer perceptron (MLP) instead of a CNN as the decoder for pixel-to-pixel mapping. Hence, each target image is represented as a neural field that is conditioned on the source image via shift modulation with a learned latent code. Experiments on BraTS 2018 and an in-house clinical dataset of vestibular schwannoma patients showed that the proposed method outperformed state-of-the-art methods for multi-sequence MRI translation both visually and quantitatively. Moreover, we conducted spectral analysis, showing that CoNeS was able to overcome the spectral bias issue common in conventional CNN models. To further evaluate the usage of synthesized images in clinical downstream tasks, we tested a segmentation network using the synthesized images at inference.
翻訳日:2024-02-13 22:33:16 公開日:2024-02-11
# 導波路qedにおける不均一拡大および空間局在エミッタアンサンブルのコヒーレント応答

Coherent response of inhomogeneously broadened and spatially localized emitter ensembles in waveguide QED ( http://arxiv.org/abs/2309.02622v2 )

ライセンス: Link先を確認
Lewis Ruks, Xuejun Xu, Ryuichi Ohta, William John Munro, Victor Manuel Bastidas(参考訳) 導波路に埋め込まれたエミッタのスペクトル的および空間的に変化するアンサンブルは、確立された技術と新興技術の両方において常に存在する。 集団励起の制御が可能であれば、導波路量子電磁力学(wqed)のスケーラブルなパラダイムにおいて、多数のコヒーレント量子力学と応用がオンチップで実現される。 そこで本研究では, 短波長空間範囲に埋め込まれた不均一なアンサンブルを, 単一有効かつコヒーレントなエミッタとして用いる導波路に拡張する。 本研究では,多くのエミッタを特徴とするメソスコピックシステムの近似解析とシミュレーションを行い,その線形幅が不均一線を超えると導波路伝送スペクトル内で集団共振が観測可能であることを示す。 特に、これによって、現在最先端にある大きな不均一な拡張を克服する導波管光子の準均一性および調整可能な非ローレンツ光子の消滅が可能になる。 このような既存の実験で可能な具体例として、希土類イオンのアンサンブルをコヒーレントミラーや量子ビットとして、キャビティqed(cqed)パラダイムの古典的なエミュレーションを考察し、不均質な広がりとアンサンブル空間の範囲に対する既存の制約を考慮し、強結合の可能性を示す。 本研究は、固体状態のコヒーレントアンサンブルダイナミクスをwqedに導入し、領域をスペクトル調整可能なエミッターに拡張する。

Spectrally and spatially varying ensembles of emitters embedded into waveguides are ever-present in both well-established and emerging technologies. If control of collective excitations can be attained, a plethora of coherent quantum dynamics and applications may be realized on-chip in the scalable paradigm of waveguide quantum electrodynamics (WQED).Here, we investigate inhomogeneously broadened ensembles embedded with subwavelength spatial extent into waveguides employed as single effective and coherent emitters. We develop a method permitting the approximate analysis and simulation of such mesoscopic systems featuring many emitters, and show how collective resonances are observable within the waveguide transmission spectrum once their linewidth exceeds the inhomogeneous line. In particular, this allows for near-unity and tailorable non-Lorentzian extinction of waveguide photons overcoming large inhomogeneous broadening present in current state-of-the-art. As a particular illustration possible in such existing experiments, we consider the classic emulation of the cavity QED (CQED) paradigm here using ensembles of rare-earth ions as coherent mirrors and qubits and demonstrate the possibility of strong coupling given existing restrictions on inhomogeneous broadening and ensemble spatial extent. This work introduces coherent ensemble dynamics in the solid-state to WQED and extends the realm to spectrally tailorable emitters.
翻訳日:2024-02-13 22:31:45 公開日:2024-02-11
# 非凸双レベル最適化のペナルティ法と一階確率近似について

On Penalty Methods for Nonconvex Bilevel Optimization and First-Order Stochastic Approximation ( http://arxiv.org/abs/2309.01753v2 )

ライセンス: Link先を確認
Jeongyeol Kwon, Dohyun Kwon, Stephen Wright, Robert Nowak(参考訳) 本研究では,目的関数が両レベルにおいて滑らかだが非凸であり,変数が閉凸集合に制限される2次最適化(bo)を解くための一階アルゴリズムについて検討する。 第一段階として,上層目標と下層目標の重み付き和とペナルティパラメータ $\sigma > 0$ とを組み合わせたペナルティ法のレンズを通してboのランドスケープを考察する。 特に、ペナルティ関数と超目的関数の間には、2つの値と微分が$o(\sigma)$-close でなければならない条件を明示的に特徴付けることによって強い関係が確立される。 我々の分析の副産物は、低レベル問題が最小条件下で複数の解を持つ場合に、超目的の勾配の明示的な公式である。 次に、ペナルティ定式化を元のBOの$O(\sigma)$-approximationとみなして、$\epsilon$-stationary Solution を求める一階アルゴリズムを提案し、$\sigma = O(\epsilon)$でペナルティ定式化を最適化する。 摂動下層問題は小誤差近位誤差結合(EB)条件を均一に満たす場合、各オラクルが決定論的でオラクルがうるさいときの1次勾配オラクルへのアクセスを合計$O(\epsilon^{-3})$と$O(\epsilon^{-7})$を用いて、ペナルティ関数の$\epsilon$定常点に収束する1次アルゴリズムを提案する。 確率的オラクルに関する追加の仮定の下で、このアルゴリズムは全単ループで実装可能であること、すなわち、1イテレーションあたり$O(1)$サンプルで、それぞれ$O(\epsilon^{-3})$と$O(\epsilon^{-5})$の改善されたオラクル複雑度を達成する。

In this work, we study first-order algorithms for solving Bilevel Optimization (BO) where the objective functions are smooth but possibly nonconvex in both levels and the variables are restricted to closed convex sets. As a first step, we study the landscape of BO through the lens of penalty methods, in which the upper- and lower-level objectives are combined in a weighted sum with penalty parameter $\sigma > 0$. In particular, we establish a strong connection between the penalty function and the hyper-objective by explicitly characterizing the conditions under which the values and derivatives of the two must be $O(\sigma)$-close. A by-product of our analysis is the explicit formula for the gradient of hyper-objective when the lower-level problem has multiple solutions under minimal conditions, which could be of independent interest. Next, viewing the penalty formulation as $O(\sigma)$-approximation of the original BO, we propose first-order algorithms that find an $\epsilon$-stationary solution by optimizing the penalty formulation with $\sigma = O(\epsilon)$. When the perturbed lower-level problem uniformly satisfies the small-error proximal error-bound (EB) condition, we propose a first-order algorithm that converges to an $\epsilon$-stationary point of the penalty function, using in total $O(\epsilon^{-3})$ and $O(\epsilon^{-7})$ accesses to first-order (stochastic) gradient oracles when the oracle is deterministic and oracles are noisy, respectively. Under an additional assumption on stochastic oracles, we show that the algorithm can be implemented in a fully {\it single-loop} manner, i.e., with $O(1)$ samples per iteration, and achieves the improved oracle-complexity of $O(\epsilon^{-3})$ and $O(\epsilon^{-5})$, respectively.
翻訳日:2024-02-13 22:31:20 公開日:2024-02-11
# 常識推論のための忠実な知識グラフ説明

Faithful Knowledge Graph Explanations for Commonsense Reasoning ( http://arxiv.org/abs/2310.04910v2 )

ライセンス: Link先を確認
Weihe Zhai, Arkaitz Zubiaga, Bingquan Liu(参考訳) 言語モデル (LM) と知識グラフ (KGs) は、一般的な質問応答研究において一般的になっているが、これらのモデルにおける忠実な連鎖説明を可能にすることは、未解決の問題である。 現在のKGに基づく説明手法の大きな弱点は、評価中に生成された説明の忠実さを見落としていることである。 このギャップに対処するために,(1) グラフ一貫性とグラフ忠実性という2つの定量的指標を提案し,検証し,kg に基づく説明の忠実性を評価する。 2) 説明の忠実性を改善するために, 一貫性正規化項を付加した新しい学習法であるconsistence gnn (cgnn) を導入する。 我々の分析では、KGからの予測は元のモデル予測から分岐することが多い。 提案されたCGNNアプローチは一貫性と忠実性を高め、より忠実な説明を生み出す可能性を示している。 我々の研究は、忠実なグラフに基づく説明のためのアーキテクチャ開発への道のりを明示的に評価することの重要性を強調している。

While fusing language models (LMs) and knowledge graphs (KGs) has become common in commonsense question answering research, enabling faithful chain-of-thought explanations in these models remains an open problem. One major weakness of current KG-based explanation techniques is that they overlook the faithfulness of generated explanations during evaluation. To address this gap, we make two main contributions: (1) We propose and validate two quantitative metrics - graph consistency and graph fidelity - to measure the faithfulness of KG-based explanations. (2) We introduce Consistent GNN (CGNN), a novel training method that adds a consistency regularization term to improve explanation faithfulness. Our analysis shows that predictions from KG often diverge from original model predictions. The proposed CGNN approach boosts consistency and fidelity, demonstrating its potential for producing more faithful explanations. Our work emphasises the importance of explicitly evaluating suggest a path forward for developing architectures for faithful graph-based explanations.
翻訳日:2024-02-13 22:21:45 公開日:2024-02-11
# PGraphDTA:タンパク質言語モデルとコンタクトマップを用いた薬物標的相互作用予測の改善

PGraphDTA: Improving Drug Target Interaction Prediction using Protein Language Models and Contact Maps ( http://arxiv.org/abs/2310.04017v3 )

ライセンス: Link先を確認
Rakesh Bal, Yijia Xiao, Wei Wang(参考訳) 新しい薬物の開発と発見は複雑で資源集約的な取り組みであり、しばしば相当なコスト、時間投資、安全上の懸念を伴う。 薬物発見の重要な側面は、新規な薬物標的相互作用(DT)の同定である。 DTの相互作用を予測する既存の計算手法は、DTペアが相互作用するか否かを決定することを目的として、主にバイナリ分類タスクに焦点を当てている。 しかし、タンパク質-リガンド相互作用は結合親和性として知られる結合強度の連続性を示し、正確な予測のための永続的な挑戦を示す。 本研究では,薬物標的相互作用(DTI)予測における様々な手法について検討し,その性能向上のための新たな拡張を提案する。 我々のアプローチには、タンパク質言語モデル(PLM)の統合と、現在のモデルにおける誘導バイアスとしてのコンタクトマップ情報の導入が含まれる。 本研究では,提案手法が本研究で検討したベースラインモデルより優れていることを示すとともに,さらなる発展の可能性が示唆された。 この研究から得られた知見は、特定のタンパク質を標的とする潜在的な薬物の探索範囲を大幅に狭め、薬物の発見を加速すると予測している。 PGraphDTAのコードとデータはhttps://github.com/Yijia-Xiao/PgraphDTA/で公開されている。

Developing and discovering new drugs is a complex and resource-intensive endeavor that often involves substantial costs, time investment, and safety concerns. A key aspect of drug discovery involves identifying novel drug-target (DT) interactions. Existing computational methods for predicting DT interactions have primarily focused on binary classification tasks, aiming to determine whether a DT pair interacts or not. However, protein-ligand interactions exhibit a continuum of binding strengths, known as binding affinity, presenting a persistent challenge for accurate prediction. In this study, we investigate various techniques employed in Drug Target Interaction (DTI) prediction and propose novel enhancements to enhance their performance. Our approaches include the integration of Protein Language Models (PLMs) and the incorporation of Contact Map information as an inductive bias within current models. Through extensive experimentation, we demonstrate that our proposed approaches outperform the baseline models considered in this study, presenting a compelling case for further development in this direction. We anticipate that the insights gained from this work will significantly narrow the search space for potential drugs targeting specific proteins, thereby accelerating drug discovery. Code and data for PGraphDTA are available at https://github.com/Yijia-Xiao/PgraphDTA/.
翻訳日:2024-02-13 22:21:07 公開日:2024-02-11
# SAMによる建物のセグメンテーションモデルのゼロショット化

Zero-Shot Refinement of Buildings' Segmentation Models using SAM ( http://arxiv.org/abs/2310.01845v2 )

ライセンス: Link先を確認
Ali Mayladan, Hasan Nasrallah, Hasan Moughnieh, Mustafa Shukor and Ali J. Ghandour(参考訳) 基礎モデルは様々なタスクで優れているが、一般的なベンチマークでしばしば評価される。 リモートセンシング画像などの特定の領域へのこれらのモデルの適応は、まだ未探索領域である。 リモートセンシングでは、都市計画のようなアプリケーションには正確なビルディングインスタンスセグメンテーションが不可欠である。 畳み込みニューラルネットワーク(CNN)はよく機能するが、その一般化は限られる。 そこで本研究では,既存モデルの一般化損失に対応するために基礎モデルを適用する新しいアプローチを提案する。 いくつかのモデルの中で、私たちは、クラスに依存しないイメージセグメンテーション能力で有名な強力な基盤モデルであるSegment Anything Model(SAM)に焦点を当てています。 まずSAMの限界を識別し、リモートセンシング画像に適用した場合の最適性能を明らかにする。 さらにSAMは認識機能を提供しておらず、ローカライズされたオブジェクトの分類とタグ付けに失敗する。 これらの制約に対処するため、事前訓練されたCNNをプロンプトジェネレータとして統合するなど、異なるプロンプト戦略を導入する。 この新しいアプローチはSAMを認識能力で強化する。 本研究では,whuビルディングデータセット,マサチューセッツ州ビルディングデータセット,aicrowdマッピング課題を含む3つのリモートセンシングデータセットについて評価を行った。 whuデータセットでの分散性能については、iouの5.47\%、f1-scoreの4.81\%向上を達成している。 WHUデータセットの分布内性能について、正正IoUと真正F1の2.72\%と1.58\%の増加を観測した。 私たちのコードは、このリポジトリ(https://github.com/geoaigroup/geoai-ecrs2023)で公開されています。

Foundation models have excelled in various tasks but are often evaluated on general benchmarks. The adaptation of these models for specific domains, such as remote sensing imagery, remains an underexplored area. In remote sensing, precise building instance segmentation is vital for applications like urban planning. While Convolutional Neural Networks (CNNs) perform well, their generalization can be limited. For this aim, we present a novel approach to adapt foundation models to address existing models' generalization dropback. Among several models, our focus centers on the Segment Anything Model (SAM), a potent foundation model renowned for its prowess in class-agnostic image segmentation capabilities. We start by identifying the limitations of SAM, revealing its suboptimal performance when applied to remote sensing imagery. Moreover, SAM does not offer recognition abilities and thus fails to classify and tag localized objects. To address these limitations, we introduce different prompting strategies, including integrating a pre-trained CNN as a prompt generator. This novel approach augments SAM with recognition abilities, a first of its kind. We evaluated our method on three remote sensing datasets, including the WHU Buildings dataset, the Massachusetts Buildings dataset, and the AICrowd Mapping Challenge. For out-of-distribution performance on the WHU dataset, we achieve a 5.47\% increase in IoU and a 4.81\% improvement in F1-score. For in-distribution performance on the WHU dataset, we observe a 2.72\% and 1.58\% increase in True-Positive-IoU and True-Positive-F1 score, respectively. Our code is publicly available at this Repo (https://github.com/geoaigroup/GEOAI-ECRS2023), hoping to inspire further exploration of foundation models for domain-specific tasks within the remote sensing community.
翻訳日:2024-02-13 22:19:47 公開日:2024-02-11
# ツール強化リワードモデリング

Tool-Augmented Reward Modeling ( http://arxiv.org/abs/2310.01045v2 )

ライセンス: Link先を確認
Lei Li, Yekun Chai, Shuohuan Wang, Yu Sun, Hao Tian, Ningyu Zhang, Hua Wu(参考訳) 報酬モデリング(別名、選好モデリング)は、大きな言語モデルと人間の選好を、特に人的フィードバック(rlhf)からの強化学習の文脈において協調させるのに役立つ。 従来の報酬モデル(rms)は顕著なスケーラビリティを示したが、算術計算、コード実行、事実の検索といった基本的な機能に苦しむことはなかった。 本稿では,計算機や検索エンジンなど外部環境へのアクセスをRMに委ねることで,これらの制約に対処するツール強化された嗜好モデリング手法であるThemisを提案する。 このアプローチはツールの利用と報酬評価のシナジーを育むだけでなく、解釈能力とスコアリングの信頼性を高める。 本研究は,外部ツールとrmsを統合することで,様々な外部ソースとのインタラクションを可能にし,タスク固有のツールの関与やトレースの推論を自己回帰的に構築する。 幅広いドメインにまたがるアプローチを検証し、7つの異なる外部ツールを取り込んでいます。 評価実験の結果,8タスク中17.7%の総合的改善がみられた。 さらに,ゼロショット評価ではgopher 280bを7.3%上回っている。 人間の評価では、テミスで訓練されたrlhfは4つの異なるタスクのベースラインと比較して平均勝利率32%に達する。 さらに,7つの異なるツールapiからのデータを取り込んだ,ツール関連のrmデータセットの包括的なコレクションも提供しています。 私たちは、コード、データ、モデルのチェックポイントを公開し、さらなる研究の進展を促進および刺激しました。

Reward modeling (a.k.a., preference modeling) is instrumental for aligning large language models with human preferences, particularly within the context of reinforcement learning from human feedback (RLHF). While conventional reward models (RMs) have exhibited remarkable scalability, they oft struggle with fundamental functionality such as arithmetic computation, code execution, and factual lookup. In this paper, we propose a tool-augmented preference modeling approach, named Themis, to address these limitations by empowering RMs with access to external environments, including calculators and search engines. This approach not only fosters synergy between tool utilization and reward grading but also enhances interpretive capacity and scoring reliability. Our study delves into the integration of external tools into RMs, enabling them to interact with diverse external sources and construct task-specific tool engagement and reasoning traces in an autoregressive manner. We validate our approach across a wide range of domains, incorporating seven distinct external tools. Our experimental results demonstrate a noteworthy overall improvement of 17.7% across eight tasks in preference ranking. Furthermore, our approach outperforms Gopher 280B by 7.3% on TruthfulQA task in zero-shot evaluation. In human evaluations, RLHF trained with Themis attains an average win rate of 32% when compared to baselines across four distinct tasks. Additionally, we provide a comprehensive collection of tool-related RM datasets, incorporating data from seven distinct tool APIs, totaling 15,000 instances. We have made the code, data, and model checkpoints publicly available to facilitate and inspire further research advancements\footnote{\url{https://github.com/ernie-research/Tool-Augmented-Reward-Model}}.
翻訳日:2024-02-13 22:19:17 公開日:2024-02-11
# 内因性生物学的にプラウザブルな対人訓練

Intrinsic Biologically Plausible Adversarial Training ( http://arxiv.org/abs/2309.17348v4 )

ライセンス: Link先を確認
Matilde Tristany Farinha, Thomas Ortner, Giorgia Dellaferrera, Benjamin Grewe, Angeliki Pantazi(参考訳) バックプロパゲーション(BP)でトレーニングされた人工ニューラルネットワーク(ANN)は、さまざまな日常的なタスクで優れているが、危険な脆弱性がある。 学習データセットに模範的な敵意的なサンプルを付加する手法であるadversarial trainingは、この問題を緩和するが計算コストが高いことが証明されている。 ANNとは対照的に、人間は同じ敵のサンプルを誤分類することはあり得ないため、生物学的に証明可能な訓練されたANNは敵の攻撃に対してより堅牢である可能性があると仮定することができる。 生物学的に有望な学習アルゴリズムを事例として,PEPITA (Input To modulate Activity) を乱す誤りを提示し,様々なコンピュータビジョンタスクにおけるBP学習ANNとの比較分析により検討した。 PEPITAは内向的対向性が高く, 対向的に訓練された場合には, 同じ自然精度において, PEPITAの対向性は平均0.26%低下する一方, BPの対向性は8.05%低下する。

Artificial Neural Networks (ANNs) trained with Backpropagation (BP) excel in different daily tasks but have a dangerous vulnerability: inputs with small targeted perturbations, also known as adversarial samples, can drastically disrupt their performance. Adversarial training, a technique in which the training dataset is augmented with exemplary adversarial samples, is proven to mitigate this problem but comes at a high computational cost. In contrast to ANNs, humans are not susceptible to misclassifying these same adversarial samples, so one can postulate that biologically-plausible trained ANNs might be more robust against adversarial attacks. Choosing as a case study the biologically-plausible learning algorithm Present the Error to Perturb the Input To modulate Activity (PEPITA), we investigate this question through a comparative analysis with BP-trained ANNs on various computer vision tasks. We observe that PEPITA has a higher intrinsic adversarial robustness and, when adversarially trained, has a more favorable natural-vs-adversarial performance trade-off since, for the same natural accuracies, PEPITA's adversarial accuracies decrease in average only by 0.26% while BP's decrease by 8.05%.
翻訳日:2024-02-13 22:18:43 公開日:2024-02-11
# universal sleep decoder: 被験者間の覚醒と睡眠の神経表現の調整

Universal Sleep Decoder: Aligning awake and sleep neural representation across subjects ( http://arxiv.org/abs/2309.16457v2 )

ライセンス: Link先を確認
Zhongtao Chen, Hui Zheng, Haiteng Wang, Jianyang Zhou, Lin Zheng, Yunzhe Liu(参考訳) 睡眠中の脳活動から記憶内容を復号することは、長い間神経科学の目標だった。 げっ歯類における睡眠中の記憶の自発的再活性化は、記憶の強化とオフライン学習を支援することが知られているが、人間の記憶再生は、注意深い睡眠データセットの欠如と、覚醒と睡眠の間の神経パターンの実質的な違いのために困難である。 これらの課題に対処するため、我々は新しい認知神経科学実験を設計し、覚醒と睡眠の間に134人の被験者から包括的、注意深い脳波(EEG)データセットを収集した。 このベンチマークデータセットを活用することで、被験者間での覚醒と睡眠の神経表現と、オフラインステージングアルゴリズムに匹敵するリアルタイムステージングモデルとを整合させるUniversal Sleep Decoder(USD)を開発した。 このモデルは最大23.00%と21.15%のオフラインと22.6%と20.4%のリアルタイムtop-1ゼロショットデコード精度を実現し、n2/3ステージとremステージでは、個々の睡眠データを用いたデコード性能よりもはるかに高い。 さらに、テスト対象者のusdはデコード精度を29.20%と30.47%に向上させ、27.9%と29.4%のリアルタイムtop-1精度を向上させた。 モデル比較とアブレーション分析により、我々の設計選択が明らかになる。 (i)覚醒と睡眠の神経信号を統合するための追加の対照目的 (ii)覚醒・睡眠神経信号のアライメントを強化する共有エンコーダは、これらの性能に大きく寄与する。 総じて、我々の発見と方法論は睡眠デコードの分野で重要な進歩を示している。

Decoding memory content from brain activity during sleep has long been a goal in neuroscience. While spontaneous reactivation of memories during sleep in rodents is known to support memory consolidation and offline learning, capturing memory replay in humans is challenging due to the absence of well-annotated sleep datasets and the substantial differences in neural patterns between wakefulness and sleep. To address these challenges, we designed a novel cognitive neuroscience experiment and collected a comprehensive, well-annotated electroencephalography (EEG) dataset from 134 subjects during both wakefulness and sleep. Leveraging this benchmark dataset, we developed the Universal Sleep Decoder (USD) to align neural representations between wakefulness and sleep across subjects and a real-time staging model comparable to offline staging algorithms. Our model achieves up to 23.00% and 21.15% offline, as well as 22.6% and 20.4% real-time top-1 zero-shot real-time decoding accuracy on unseen subjects for N2/3 stage and REM stage, which is much higher than the decoding performances using individual sleep data. Furthermore, fine-tuning USD on test subjects enhances decoding accuracy to 29.20% and 30.47% offline, as well as 27.9% and 29.4% real-time top-1 accuracy, a substantial improvement over the baseline chance of 6.7%. Model comparison and ablation analyses reveal that our design choices, including the use of (i) an additional contrastive objective to integrate awake and sleep neural signals and (ii) a shared encoder to enhance the alignment of awake and sleep neural signals, significantly contribute to these performances. Collectively, our findings and methodologies represent a significant advancement in the field of sleep decoding.
翻訳日:2024-02-13 22:18:08 公開日:2024-02-11
# 確率比に基づくタスク予測による授業インクリメンタル学習

Class Incremental Learning via Likelihood Ratio Based Task Prediction ( http://arxiv.org/abs/2309.15048v3 )

ライセンス: Link先を確認
Haowei Lin, Yijia Shao, Weinan Qian, Ningxin Pan, Yiduo Guo, Bing Liu(参考訳) クラスインクリメンタルラーニング(クラスインクリメンタルラーニング、Class incremental Learning、CIL)は、一連のタスクを逐次学習する継続的ラーニングの課題である。 各タスクは、一組のユニークなクラスで構成される。 CILの重要な特徴は、テスト時にタスク識別子(またはタスクID)が提供されないことである。 各テストサンプルに対するタスクidの予測は、難しい問題である。 新たな理論誘導アプローチ(TIL+OOD)は、タスクインクリメンタルラーニング(TIL)手法に基づいて、タスク毎のタスク固有のモデルを共有ネットワークでトレーニングし、破滅的な忘れ事に対処する。 各タスクのモデルは従来の分類器ではなく、アウト・オブ・ディストリビューション(OOD)検出器である。 OOD検出器は、in-task(in-distribution(IND))クラス予測とOOD検出の両方を実行することができる。 OOD検出機能は、推論中のタスクID予測の鍵となる。 しかし,従来のタスクid予測のためのood検出器を用いることは,cilで利用可能な追加情報(リプレイデータや学習タスクなど)を利用してタスクid予測をより良く原理的に設計できるため,最適ではないと主張する。 新しい手法をTPL (Task-id Prediction based on Likelihood Ratio) と呼ぶ。 TPLは強いCILベースラインを著しく上回り、破滅的な忘れがほとんどない。 TPLのコードはhttps://github.com/linhaowei1/TPLで公開されている。

Class incremental learning (CIL) is a challenging setting of continual learning, which learns a series of tasks sequentially. Each task consists of a set of unique classes. The key feature of CIL is that no task identifier (or task-id) is provided at test time. Predicting the task-id for each test sample is a challenging problem. An emerging theory-guided approach (called TIL+OOD) is to train a task-specific model for each task in a shared network for all tasks based on a task-incremental learning (TIL) method to deal with catastrophic forgetting. The model for each task is an out-of-distribution (OOD) detector rather than a conventional classifier. The OOD detector can perform both within-task (in-distribution (IND)) class prediction and OOD detection. The OOD detection capability is the key to task-id prediction during inference. However, this paper argues that using a traditional OOD detector for task-id prediction is sub-optimal because additional information (e.g., the replay data and the learned tasks) available in CIL can be exploited to design a better and principled method for task-id prediction. We call the new method TPL (Task-id Prediction based on Likelihood Ratio). TPL markedly outperforms strong CIL baselines and has negligible catastrophic forgetting. The code of TPL is publicly available at https://github.com/linhaowei1/TPL.
翻訳日:2024-02-13 22:17:33 公開日:2024-02-11
# CrossLingR:クロスランゲージ情報抽出と分類のための総合多言語受信データセット

CrossLingR: A Comprehensive Multilingual Receipt Dataset for Cross-Language Information Extraction and Classification ( http://arxiv.org/abs/2309.09800v2 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt(参考訳) キー情報抽出のプロセスは、スキャンされたレシートを構造化されたアクセス可能なドキュメントに変換するために重要であり、バイタルデータの効率的な検索を容易にする。 本研究は,レシート情報抽出と項目分類の分野における進歩を促進するために設計された,拡張的で斬新な多言語データセットを提案する。 本データセットは,47,720個の注釈付きサンプルを包含し,商品名,価格やブランドなどの関連属性を詳述し,44種類の製品カテゴリに分類した。 鍵情報抽出と項目分類のタスクにおいて,F1スコア0.76,精度0.68で証明された,重要な有効性を示す先駆的手法であるInstructLLaMA法を公表する。 さらなる研究とアプリケーション開発を支援するため、私たちはhttps://github.com/Update-For-Integrated-Business-AI/AMuRDで包括的なデータセット、InstructLLaMAモデル、関連するリソースを利用可能にしています。

The process of key information extraction is critical for converting scanned receipts into structured, accessible documents, facilitating the efficient retrieval of vital data. This research introduces an expansive, novel multilingual dataset designed to propel advancements in the domain of receipt information extraction and item classification. Our dataset encompasses 47,720 annotated samples, detailed with item names, associated attributes such as price and brand, and organized into 44 distinct product categories. We unveil the InstructLLaMA methodology, a pioneering approach that demonstrates significant effectiveness, evidenced by an F1 score of 0.76 and an accuracy of 0.68 in tasks of key information extraction and item classification. To support further research and application development, we make available our comprehensive dataset, the InstructLLaMA model, and relevant resources at https://github.com/Update-For-Integrated-Business-AI/AMuRD.
翻訳日:2024-02-13 22:16:50 公開日:2024-02-11
# pcn:新しいグラフ構築法とchebyshevグラフ畳み込みを用いたジェットタグ付けへのディープラーニングアプローチ

PCN: A Deep Learning Approach to Jet Tagging Utilizing Novel Graph Construction Methods and Chebyshev Graph Convolutions ( http://arxiv.org/abs/2309.08630v2 )

ライセンス: Link先を確認
Yash Semlani, Mihir Relan, Krithik Ramesh(参考訳) ジェットタグング(Jet tagging)は、高エネルギー物理実験における分類問題であり、粒子衝突からサブ原子粒子、ジェットの衝突した噴霧を識別し、エミッタ粒子にタグ付けすることを目的としている。 ジェットタグングの進歩は、標準模型を超えて新しい物理学を探索する機会を与える。 現在のアプローチでは、複雑な衝突データの隠れたパターンを明らかにするためにディープラーニングを使用している。 しかし、深層学習モデルへの入力としてのジェットの表現は様々であり、しばしば、情報的特徴はモデルから得られない。 本研究では,できるだけ多くの情報をエンコードするジェットのグラフベース表現を提案する。 この表現を最大限に活用するために、ChebConv(ChebConv)を用いたグラフニューラルネットワーク(GNN)であるParticle Chebyshev Network(PCN)を設計する。 ChebConvは、GNNにおける古典グラフ畳み込みの効果的な代替手段として実証され、ジェットタグの分野ではまだ研究されていない。 PCNは既存のタグよりも精度が大幅に向上し、高エネルギー物理実験においてジェットとChebConv層のグラフベース表現の研究への扉を開く。 コードはhttps://github.com/YVSemlani/PCN-Jet-Tagging.comで入手できる。

Jet tagging is a classification problem in high-energy physics experiments that aims to identify the collimated sprays of subatomic particles, jets, from particle collisions and tag them to their emitter particle. Advances in jet tagging present opportunities for searches of new physics beyond the Standard Model. Current approaches use deep learning to uncover hidden patterns in complex collision data. However, the representation of jets as inputs to a deep learning model have been varied, and often, informative features are withheld from models. In this study, we propose a graph-based representation of a jet that encodes the most information possible. To learn best from this representation, we design Particle Chebyshev Network (PCN), a graph neural network (GNN) using Chebyshev graph convolutions (ChebConv). ChebConv has been demonstrated as an effective alternative to classical graph convolutions in GNNs and has yet to be explored in jet tagging. PCN achieves a substantial improvement in accuracy over existing taggers and opens the door to future studies into graph-based representations of jets and ChebConv layers in high-energy physics experiments. Code is available at https://github.com/YVSemlani/PCN-Jet-Tagging.
翻訳日:2024-02-13 22:16:30 公開日:2024-02-11
# pFedLoRA:LoRAチューニングによるモデル不均一な個人化フェデレーション学習

pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA Tuning ( http://arxiv.org/abs/2310.13283v2 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Gang Wang, Xiaoguang Liu, Xiaoxiao Li(参考訳) フェデレートラーニング(FL)は、中央サーバーが複数の参加者(クライアント)を協調的に調整し、分散データをトレーニングする、新たな機械学習パラダイムである。 実際には、FLは統計学、システム、モデルの不均一性に直面し、モデル-異種個人化フェデレートラーニング(MHPFL)の分野を刺激する。 FLにおける大規模言語モデル(LLM)の採用への関心が高まっているため、既存のMHPFL法は良好なモデル性能を維持しつつも、許容可能な計算・通信コストを達成できない。 このギャップを埋めるために,LoRAチューニング(pFedLoRA)に基づく新しい,効率的でヘテロジニアスなフェデレート学習フレームワークを提案する。 低ランクモデル(アダプタなど)で訓練済みのLLMを微調整するLoRA法にインスパイアされた我々は,フェデレートされたクライアントの不均一なローカルモデルトレーニングを促進するための同質な小型アダプタを設計し,グローバルローカルな知識交換のための反復的トレーニングを提案する。 均質な小さなローカルアダプタはflサーバに集約され、グローバルアダプタを生成する。 pFedLoRA の収束を理論的に証明する。 2つのベンチマークデータセットの大規模な実験により、pFedLoRAは6つの最先端のベースラインを上回り、テスト精度が1.35%、計算オーバーヘッドが11.81倍、通信コストが7.41倍に削減された。

Federated learning (FL) is an emerging machine learning paradigm in which a central server coordinates multiple participants (clients) collaboratively to train on decentralized data. In practice, FL often faces statistical, system, and model heterogeneities, which inspires the field of Model-Heterogeneous Personalized Federated Learning (MHPFL). With the increased interest in adopting large language models (LLMs) in FL, the existing MHPFL methods cannot achieve acceptable computational and communication costs, while maintaining satisfactory model performance. To bridge this gap, we propose a novel and efficient model-heterogeneous personalized Federated learning framework based on LoRA tuning (pFedLoRA). Inspired by the popular LoRA method for fine-tuning pre-trained LLMs with a low-rank model (a.k.a., an adapter), we design a homogeneous small adapter to facilitate federated client's heterogeneous local model training with our proposed iterative training for global-local knowledge exchange. The homogeneous small local adapters are aggregated on the FL server to generate a global adapter. We theoretically prove the convergence of pFedLoRA. Extensive experiments on two benchmark datasets demonstrate that pFedLoRA outperforms six state-of-the-art baselines, beating the best method by 1.35% in test accuracy, 11.81 times computation overhead reduction and 7.41 times communication cost saving.
翻訳日:2024-02-13 22:10:49 公開日:2024-02-11
# CROWN: 正確なパーソナライズされたニュースレコメンデーションのためのユーザの選好を補完する新しいアプローチ

CROWN: A Novel Approach to Comprehending Users' Preferences for Accurate Personalized News Recommendation ( http://arxiv.org/abs/2310.09401v2 )

ライセンス: Link先を確認
Yunyong Ko, Seongeun Ryu, Sang-Wook Kim(参考訳) パーソナライズされたニュースレコメンデーションは、ユーザーの情報過負荷の軽減に重要な役割を果たしているニュース記事の発見を支援することを目的としている。 パーソナライズされたニュースレコメンデーションを改善するために,近年多くの研究が進められているが, (C1) ニュース記事内で結合された多様体の意図を補完すること, (C2) ニュース記事の読み方の違いを区別すること, (C3) コールドスタートユーザ問題に対処すること,といった課題が検討されている。 本稿では,(1)カテゴリー誘導意図のゆがみ(C1),(2)一貫性に基づくニュース表現(C2),(3)GNNによるハイブリッドユーザ表現(C3)を活用する,新しいパーソナライズされたニュースレコメンデーションフレームワーク(CROWN)を提案する。 さらに, クラウンの訓練過程にカテゴリー予測を組み込んだ補助課題として, 意図の絡み合いを高めるための補助的監督信号を提供する。 2つの実世界のデータセットに対する大規模な実験により,(1)CROWNは10件の最先端ニュースレコメンデーション手法よりも一貫した性能向上を実現し,(2)提案手法はCROWNの精度を著しく向上させることがわかった。

Personalized news recommendation aims to assist users in finding news articles that align with their interests, which plays a pivotal role in mitigating users' information overload problem. Although many recent works have been studied for better personalized news recommendation, the following challenges should be explored more: (C1) Comprehending manifold intents coupled within a news article, (C2) Differentiating varying post-read preferences of news articles, and (C3) Addressing the cold-start user problem. To tackle the aforementioned challenges together, in this paper, we propose a novel personalized news recommendation framework (CROWN) that employs (1) category-guided intent disentanglement for (C1), (2) consistency-based news representation for (C2), and (3) GNN-enhanced hybrid user representation for (C3). Furthermore, we incorporate a category prediction into the training process of CROWN as an auxiliary task, which provides supplementary supervisory signals to enhance intent disentanglement. Extensive experiments on two real-world datasets reveal that (1) CROWN provides consistent performance improvements over ten state-of-the-art news recommendation methods and (2) the proposed strategies significantly improve the accuracy of CROWN.
翻訳日:2024-02-13 22:09:01 公開日:2024-02-11
# 意味的アライメントによる潜時空間翻訳

Latent Space Translation via Semantic Alignment ( http://arxiv.org/abs/2311.00664v2 )

ライセンス: Link先を確認
Valentino Maiorca, Luca Moschella, Antonio Norelli, Marco Fumero, Francesco Locatello, Emanuele Rodol\`a(参考訳) 異なるニューラルモデルはしばしば、意味的に関連したデータに露出すると類似する潜在空間を示すが、この本質的な類似性は必ずしもすぐには識別できない。 この現象をよりよく理解するために,本研究は,従来考えられていたよりも単純な変換によって,これらの神経モジュールから学習された表現が,異なる事前学習されたネットワーク間でどのように変換されるかを示す。 このアプローチの利点は、閉形式解を持つ標準的なよく理解された代数的手続きを用いてこれらの変換を推定できることである。 提案手法では,与えられた2つの潜在空間間の変換を直接推定し,追加のトレーニングをすることなく,エンコーダとデコーダを効果的に縫い合わせることができる。 様々なトレーニング、ドメイン、アーキテクチャ(ResNet、CNN、ViTなど)、複数の下流タスク(分類、再構築)において、この翻訳手順の適応性を検証する。 特に,ゼロショットステッチテキストエンコーダや視覚デコーダ,あるいはその逆も可能であり,このマルチモーダル設定において驚くほど優れた分類性能が得られることを示す。

While different neural models often exhibit latent spaces that are alike when exposed to semantically related data, this intrinsic similarity is not always immediately discernible. Towards a better understanding of this phenomenon, our work shows how representations learned from these neural modules can be translated between different pre-trained networks via simpler transformations than previously thought. An advantage of this approach is the ability to estimate these transformations using standard, well-understood algebraic procedures that have closed-form solutions. Our method directly estimates a transformation between two given latent spaces, thereby enabling effective stitching of encoders and decoders without additional training. We extensively validate the adaptability of this translation procedure in different experimental settings: across various trainings, domains, architectures (e.g., ResNet, CNN, ViT), and in multiple downstream tasks (classification, reconstruction). Notably, we show how it is possible to zero-shot stitch text encoders and vision decoders, or vice-versa, yielding surprisingly good classification performance in this multimodal setting.
翻訳日:2024-02-13 21:58:14 公開日:2024-02-11
# SQLformer: テキストからSQLへの変換のためのディープ自動回帰クエリグラフ生成

SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation ( http://arxiv.org/abs/2310.18376v2 )

ライセンス: Link先を確認
Adri\'an Bazaga and Pietro Li\`o and Gos Micklem(参考訳) 近年,自然言語質問を実行可能なSQLクエリに変換するタスクである,テキストからSQLへの変換への関心が高まっている。 この技術は、データベースからのデータ抽出を民主化する可能性を秘めている。 しかし、その鍵となるハードルにはドメインの一般化がある。これは、以前は目に見えないデータベースに適応する能力であり、自然言語の質問と対応するSQLクエリとのアライメントである。 これらの課題を克服するために,テキストからSQLへの変換タスクを実行するために開発された,新しいTransformerアーキテクチャであるSQLformerを紹介した。 我々のモデルはSQLクエリを抽象構文木(AST)として自動回帰的に予測し、エンコーダ層とデコーダ層に構造的帰納バイアスを組み込む。 このバイアスは、データベーステーブルと列選択によってガイドされ、Breadth-First Searchの標準順序でグラフとして表されるSQLクエリASTを生成するデコーダに役立つ。 総合的な実験は、挑戦的なテキストからSQLスパイダーのベンチマークでSQLformerの最先端のパフォーマンスを示している。 私たちの実装はhttps://github.com/adrianbzg/sqlformerで利用可能です。

In recent years, there has been growing interest in text-to-SQL translation, which is the task of converting natural language questions into executable SQL queries. This technology is important for its potential to democratize data extraction from databases. However, some of its key hurdles include domain generalisation, which is the ability to adapt to previously unseen databases, and alignment of natural language questions with the corresponding SQL queries. To overcome these challenges, we introduce SQLformer, a novel Transformer architecture specifically crafted to perform text-to-SQL translation tasks. Our model predicts SQL queries as abstract syntax trees (ASTs) in an autoregressive way, incorporating structural inductive bias in the encoder and decoder layers. This bias, guided by database table and column selection, aids the decoder in generating SQL query ASTs represented as graphs in a Breadth-First Search canonical order. Comprehensive experiments illustrate the state-of-the-art performance of SQLformer in the challenging text-to-SQL Spider benchmark. Our implementation is available at https://github.com/AdrianBZG/SQLformer.
翻訳日:2024-02-13 21:56:16 公開日:2024-02-11
# パラメータ効率の良いプロンプトチューニングと適応最適化による大規模言語モデルの連合学習

Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization ( http://arxiv.org/abs/2310.15080v3 )

ライセンス: Link先を確認
Tianshi Che, Ji Liu, Yang Zhou, Jiaxiang Ren, Jiwen Zhou, Victor S. Sheng, Huaiyu Dai, Dejing Dou(参考訳) フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 しかし、LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こし、実際のシナリオでLLMに取り組むためのFL技術の適用性を制限する。 プロンプトチューニングは、更新するパラメータの数を大幅に削減するが、パフォーマンス劣化またはトレーニング効率の低下を引き起こす。 flでのプロンプトチューニングの直接的な利用は、しばしば非自明な通信コストを上昇させ、パフォーマンスを劇的に低下させる。 さらに、分散データは一般的に非独立で、同一の分散(非iid)であり、クライアントのドリフト問題を引き起こし、パフォーマンスが低下する。 本稿では,LLMの効率的かつ効率的なFLを実現するために,適応最適化(FedPepTAO)を用いたパラメータ効率の高いプロンプトチューニング手法を提案する。 まず、性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。 第2に、デバイス側とサーバ側のクライアントドリフト問題に対処するための新しい適応最適化手法を開発し、さらなる性能向上を図る。 10のデータセットに基づく広範な実験では、9つのベースラインアプローチと比較して、feedpeptaoのスーパーブパフォーマンス(精度では最大60.8\%)と効率(トレーニング時間では最大97.59\%)が示されている。 私たちのコードはhttps://github.com/llm-eff/fedpeptaoで利用可能です。

Federated learning (FL) is a promising paradigm to enable collaborative model training with decentralized data. However, the training process of Large Language Models (LLMs) generally incurs the update of significant parameters, which limits the applicability of FL techniques to tackle the LLMs in real scenarios. Prompt tuning can significantly reduce the number of parameters to update, but it either incurs performance degradation or low training efficiency. The straightforward utilization of prompt tuning in the FL often raises non-trivial communication costs and dramatically degrades performance. In addition, the decentralized data is generally non-Independent and Identically Distributed (non-IID), which brings client drift problems and thus poor performance. This paper proposes a Parameter-efficient prompt Tuning approach with Adaptive Optimization, i.e., FedPepTAO, to enable efficient and effective FL of LLMs. First, an efficient partial prompt tuning approach is proposed to improve performance and efficiency simultaneously. Second, a novel adaptive optimization method is developed to address the client drift problems on both the device and server sides to enhance performance further. Extensive experiments based on 10 datasets demonstrate the superb performance (up to 60.8\% in terms of accuracy) and efficiency (up to 97.59\% in terms of training time) of FedPepTAO compared with 9 baseline approaches. Our code is available at https://github.com/llm-eff/FedPepTAO.
翻訳日:2024-02-13 21:54:47 公開日:2024-02-11
# 部分観測性からの効率的な強化学習

Efficient Reinforcement Learning from Partial Observability ( http://arxiv.org/abs/2311.12244v2 )

ライセンス: Link先を確認
Hongming Zhang, Tongzheng Ren, Chenjun Xiao, Dale Schuurmans, Bo Dai(参考訳) ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破り、状態と観測を分割するアルゴリズムの性能は劣る。 一方、部分的に観測可能なマルコフ決定プロセス(POMDPs)は、学習、探索、計画において部分観測可能性を説明するための一般的なフレームワークを提供するが、重要な計算および統計的課題を示す。 これらの困難に対処するため,我々は,部分的観察から実践的な強化学習を行うためのコヒーレントな枠組みと扱いやすいアルゴリズム的アプローチをもたらす表現に基づく視点を開発する。 我々は,提案アルゴリズムの統計的効率を正当化するための理論的解析を行い,提案アルゴリズムが様々なベンチマークで部分的な観測を行い,より実用的な応用に向けて信頼性の高い強化学習を推進できることを示す。

In most real-world reinforcement learning applications, state information is only partially observable, which breaks the Markov decision process assumption and leads to inferior performance for algorithms that conflate observations with state. Partially Observable Markov Decision Processes (POMDPs), on the other hand, provide a general framework that allows for partial observability to be accounted for in learning, exploration and planning, but presents significant computational and statistical challenges. To address these difficulties, we develop a representation-based perspective that leads to a coherent framework and tractable algorithmic approach for practical reinforcement learning from partial observations. We provide a theoretical analysis for justifying the statistical efficiency of the proposed algorithm, and also empirically demonstrate the proposed algorithm can surpass state-of-the-art performance with partial observations across various benchmarks, advancing reliable reinforcement learning towards more practical applications.
翻訳日:2024-02-13 21:46:19 公開日:2024-02-11
# 量子ネットワークの非局所性のノイズロバスト証明

Noise-robust proofs of quantum network nonlocality ( http://arxiv.org/abs/2311.02182v2 )

ライセンス: Link先を確認
Sadra Boreiri, Bora Ulu, Nicolas Brunner, Pavel Sekatski(参考訳) 量子ネットワークは、新しい形の量子非局所性を可能にする。 絡み合った状態と絡み合った測定の組み合わせを利用することで、ネットワーク全体に強い非局所相関を発生させることができる。 これまでのところ、この効果のすべての証明は、純粋に絡み合った状態と射影的局所測定の理想化された場合に限定されている。 ここでは、絡み合った状態と絡み合った測定に基づく三角ネットワーク上の量子分布のクラスに対して、ネットワーク量子非局所性のノイズロバスト証明を提案する。 鍵となる要素は、'parity token counting' と呼ばれる性質を高い確率で満たす局所分布の近似剛性の結果である。 不完全な音源で得られる量子分布を考えると、ノイズを強調する場合には最大$\sim 80\%$、ホワイトノイズでは$\sim 0.67\%$となる。 さらに、いくつかの理想量子分布の近傍にあるすべての分布が非局所であり、全変分距離に有界であることが証明できる。 本研究は、量子ネットワーク非局所性の実践的実装に向けた興味深い視点を開く。

Quantum networks allow for novel forms of quantum nonlocality. By exploiting the combination of entangled states and entangled measurements, strong nonlocal correlations can be generated across the entire network. So far, all proofs of this effect are essentially restricted to the idealized case of pure entangled states and projective local measurements. Here we present noise-robust proofs of network quantum nonlocality, for a class of quantum distributions on the triangle network that are based on entangled states and entangled measurements. The key ingredient is a result of approximate rigidity for local distributions that satisfy the so-called ``parity token counting'' property with high probability. Considering quantum distributions obtained with imperfect sources, we obtain noise robustness up to $\sim 80\%$ for dephasing noise and up to $\sim 0.67\%$ for white noise. Additionally, we can prove that all distributions in the vicinity of some ideal quantum distributions are nonlocal, with a bound on the total-variation distance. Our work opens interesting perspectives towards the practical implementation of quantum network nonlocality.
翻訳日:2024-02-13 21:42:31 公開日:2024-02-11
# DeliverAI: 食品デリバリーのための強化学習に基づく分散パス共有ネットワーク

DeliverAI: Reinforcement Learning Based Distributed Path-Sharing Network for Food Deliveries ( http://arxiv.org/abs/2311.02017v2 )

ライセンス: Link先を確認
Ashman Mehra, Snehanshu Saha, Vaskar Raychoudhury, Archana Mathur(参考訳) 生産者から消費者への商品の配送は過去10年間で著しい成長を遂げており、近年のパンデミックの影響で大幅に加速している。 Amazon Fresh、Shopify、UberEats、InstaCart、DoorDashは急速に成長しており、消費者製品やフードデリバリーのビジネスモデルを共有している。 既存の食品の配送方法は、各配送が個別に最適化され、最も短い時間経路で生産者から直接消費者に届けられるため、準最適である。 現在のモデルでは、納品の完了に伴うコストを削減するための重要なスコープを観察する。 我々は、食品デリバリー問題を多目的最適化としてモデル化し、消費者満足度と配送コストの両方を最適化する必要がある。 タクシー業界におけるライドシェアリングの成功から着想を得て,強化学習に基づくパスシェアリングアルゴリズムであるdeliveryaiを提案する。 従来のパス共有の試みとは異なり、DeliverAIはReinforcement学習対応エージェントシステムを使用してリアルタイム、時間効率の意思決定を行うことができる。 新たなエージェントインタラクション方式では,配送の経路共有を利用して,配送完了時間を維持しながら移動距離を削減する。 シカゴ市の実データを用いてシミュレーション装置を用いて,本手法を活発に生成・試験する。 以上の結果から,DeliverAIは配送船の規模を12.5%減らし,走行距離を13%減らし,ベースラインに比べて50%高い艦隊利用率を達成することができた。

Delivery of items from the producer to the consumer has experienced significant growth over the past decade and has been greatly fueled by the recent pandemic. Amazon Fresh, Shopify, UberEats, InstaCart, and DoorDash are rapidly growing and are sharing the same business model of consumer items or food delivery. Existing food delivery methods are sub-optimal because each delivery is individually optimized to go directly from the producer to the consumer via the shortest time path. We observe a significant scope for reducing the costs associated with completing deliveries under the current model. We model our food delivery problem as a multi-objective optimization, where consumer satisfaction and delivery costs, both, need to be optimized. Taking inspiration from the success of ride-sharing in the taxi industry, we propose DeliverAI - a reinforcement learning-based path-sharing algorithm. Unlike previous attempts for path-sharing, DeliverAI can provide real-time, time-efficient decision-making using a Reinforcement learning-enabled agent system. Our novel agent interaction scheme leverages path-sharing among deliveries to reduce the total distance traveled while keeping the delivery completion time under check. We generate and test our methodology vigorously on a simulation setup using real data from the city of Chicago. Our results show that DeliverAI can reduce the delivery fleet size by 12\%, the distance traveled by 13%, and achieve 50% higher fleet utilization compared to the baselines.
翻訳日:2024-02-13 21:42:14 公開日:2024-02-11
# 逆ロバスト画像検索のための崩壊対応トリプルトデカップリング

Collapse-Aware Triplet Decoupling for Adversarially Robust Image Retrieval ( http://arxiv.org/abs/2312.07364v3 )

ライセンス: Link先を確認
Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Chao Shen(参考訳) 対人訓練は、対人的な例に対して画像検索を擁護する上で大きな成果を上げている。 しかし、dml(deep metric learning)における既存の研究は、弱い逆境とモデルの崩壊という2つの大きな制限に苦しめられている。 本稿では, 崩壊対応三重項分離法(CA-TRIDE)を提案する。 具体的には、トリドは摂動目標をアンカーと他の候補に空間的に分離することで強い敵対関係を生じさせる。 さらに、CAは、摂動の最適化に組み込まれた新しい計量である崩壊性に基づいて、連続モデル崩壊を防止する。 また,画像検索における既存のロバストネス指標の欠点を2つ同定し,より合理的なロバストネス評価のための新しい指標を提案する。 3つのデータセットに関する広範囲な実験によって、ca-trideは従来の防御メソッドよりも従来型と新しいメトリクスで優れていることが示されている。

Adversarial training has achieved substantial performance in defending image retrieval against adversarial examples. However, existing studies in deep metric learning (DML) still suffer from two major limitations: weak adversary and model collapse. In this paper, we address these two limitations by proposing collapse-aware triplet decoupling (CA-TRIDE). Specifically, TRIDE yields a strong adversary by spatially decoupling the perturbation targets into the anchor and the other candidates. Furthermore, CA prevents the consequential model collapse, based on a novel metric, collapseness, which is incorporated into the optimization of perturbation. We also identify two drawbacks of the existing robustness metric in image retrieval and propose a new metric for a more reasonable robustness evaluation. Extensive experiments on three datasets demonstrate that CA-TRIDE outperforms existing defense methods in both conventional and new metrics.
翻訳日:2024-02-13 21:33:51 公開日:2024-02-11
# 基礎モデルに基づくリモートセンシング変化検出のための新しい学習パラダイム

A New Learning Paradigm for Foundation Model-based Remote Sensing Change Detection ( http://arxiv.org/abs/2312.01163v2 )

ライセンス: Link先を確認
Kaiyu Li, Xiangyong Cao, Deyu Meng(参考訳) 変化検出(CD)は、土地被覆の動的過程を観察し解析するための重要な課題である。 多くの深層学習型CDモデルは優れた性能を発揮しているが、そのさらなる性能向上は、与えられたラベル付きデータから抽出された限られた知識によって制限される。 一方で、最近登場した基盤モデルには、データモダリティとプロキシタスクをまたいでスケールアップすることで、膨大な知識が含まれている。 本稿では,CDの基盤モデルの知識を抽出することを目的とした,共通基盤モデルに基づくCD適応フレームワークであるBi-Temporal Adapter Network (BAN)を提案する。 提案したBANには、凍結基礎モデル(例えばCLIP)、バイテンポラルアダプタブランチ(Bi-TAB)、モジュール間のブリッジングという3つの部分が含まれている。 具体的には、BANは凍結基礎モデルを通じて一般的な特徴を抽出し、ブリッジモジュールを介してBi-TABに選択、アライメント、注入する。 Bi-TABはタスク/ドメイン固有の特徴を抽出するためのモデルに依存しない概念として設計されている。 現在のカスタマイズモデル以外にも、BANはCDタスクにファンデーションモデルを適用するための最初の大規模な試みである。 実験の結果,既存のcd法(最大4.08\%iou改善など)の性能向上に,学習可能なパラメータの追加が有効であった。 さらに重要なのは、これらの成功事例がリモートセンシングCDの基礎モデルの可能性を示していることだ。 コードは \url{https://github.com/likyoo/ban} で利用可能です。

Change detection (CD) is a critical task to observe and analyze dynamic processes of land cover. Although numerous deep learning-based CD models have performed excellently, their further performance improvements are constrained by the limited knowledge extracted from the given labelled data. On the other hand, the foundation models that emerged recently contain a huge amount of knowledge by scaling up across data modalities and proxy tasks. In this paper, we propose a Bi-Temporal Adapter Network (BAN), which is a universal foundation model-based CD adaptation framework aiming to extract the knowledge of foundation models for CD. The proposed BAN contains three parts, i.e. frozen foundation model (e.g., CLIP), bi-temporal adapter branch (Bi-TAB), and bridging modules between them. Specifically, BAN extracts general features through a frozen foundation model, which are then selected, aligned, and injected into Bi-TAB via the bridging modules. Bi-TAB is designed as a model-agnostic concept to extract task/domain-specific features, which can be either an existing arbitrary CD model or some hand-crafted stacked blocks. Beyond current customized models, BAN is the first extensive attempt to adapt the foundation model to the CD task. Experimental results show the effectiveness of our BAN in improving the performance of existing CD methods (e.g., up to 4.08\% IoU improvement) with only a few additional learnable parameters. More importantly, these successful practices show us the potential of foundation models for remote sensing CD. The code is available at \url{https://github.com/likyoo/BAN} and will be supported in our Open-CD.
翻訳日:2024-02-13 21:33:15 公開日:2024-02-11
# 拡散摂動を利用したコンピュータビジョンの公平性測定

Leveraging Diffusion Perturbations for Measuring Fairness in Computer Vision ( http://arxiv.org/abs/2311.15108v2 )

ライセンス: Link先を確認
Nicholas Lui, Bryan Chia, William Berrios, Candace Ross, Douwe Kiela(参考訳) コンピュータビジョンモデルは有害なバイアスをエンコードすることが知られており、有色人種などの歴史的辺境集団に対する不公平な扱いにつながる可能性がある。 しかし、これらのモデルの下流の公平性を評価するのに使用できる、人口統計学的特徴に沿ってバランスをとるデータセットの欠如が残っている。 本研究では,そのようなデータセットを作成するために拡散モデルを活用できることを実証する。 まず拡散モデルを用いて、様々な職業を描写した大量の画像を生成する。 その後、各画像はインペインティングを使用して編集され、複数の変種を生成し、各変種は異なる認識された人種を参照する。 このデータセットを用いて、複数の視覚言語モデルをマルチクラス職業分類タスクでベンチマークする。 非コーカサスラベルで生成された画像は、コーカサスラベルで生成された画像よりもはるかに高い職業的誤分類率を示し、いくつかの誤分類は人種的偏見を示唆している。 異なる認識された同一集団間で真の職業ラベルを予測する確率の標準偏差を計算し、モデル下流の公平性を測定する。 この公平度測定値を用いて、評価された視覚・言語モデル間に大きな差異を見出す。 我々は,公平性評価における拡散法の潜在的価値を示すことを願っている。

Computer vision models have been known to encode harmful biases, leading to the potentially unfair treatment of historically marginalized groups, such as people of color. However, there remains a lack of datasets balanced along demographic traits that can be used to evaluate the downstream fairness of these models. In this work, we demonstrate that diffusion models can be leveraged to create such a dataset. We first use a diffusion model to generate a large set of images depicting various occupations. Subsequently, each image is edited using inpainting to generate multiple variants, where each variant refers to a different perceived race. Using this dataset, we benchmark several vision-language models on a multi-class occupation classification task. We find that images generated with non-Caucasian labels have a significantly higher occupation misclassification rate than images generated with Caucasian labels, and that several misclassifications are suggestive of racial biases. We measure a model's downstream fairness by computing the standard deviation in the probability of predicting the true occupation label across the different perceived identity groups. Using this fairness metric, we find significant disparities between the evaluated vision-and-language models. We hope that our work demonstrates the potential value of diffusion methods for fairness evaluations.
翻訳日:2024-02-13 21:30:40 公開日:2024-02-11
# fedssa: 効率的なモデルヘテロジェンス個別化学習のための意味的類似性に基づくアグリゲーション

FedSSA: Semantic Similarity-based Aggregation for Efficient Model-Heterogeneous Personalized Federated Learning ( http://arxiv.org/abs/2312.09006v2 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Zhuan Shi, Gang Wang, Xiaoguang Liu, Lizhen Cui, Xiaoxiao Li(参考訳) フェデレートラーニング(Federated Learning, FL)は、プライバシー保護のための機械学習パラダイムである。 従来のFLでは、すべてのデータ所有者(FLクライアント)が同じローカルモデルをトレーニングする必要がある。 この設計は、データやシステムの不均一性を伴うシナリオには適していない。 MHPFL(Model-Heterogeneous Personalized FL)がこの課題に対処するために登場した。 既存のMHPFLアプローチは、学習タスクと同じ性質の公開データセットを持つこと、あるいは高い計算と通信コストを発生させることにしばしば依存する。 これらの制約に対処するため,FedSSA(Federated Semantic similarity Aggregation)アプローチを提案し,各クライアントのモデルを異種(構造差)特徴抽出器と均質(構造相)分類ヘッダに分割する。 意味的類似性に基づくヘッダパラメータアグリゲーションを通じて、グローバル知識転送を実行する。 さらに、各クライアントの最新のグローバルヘッダーと過去のローカルヘッダーの目に見えるパラメータを融合させる適応パラメータ安定化戦略により、グローバルからローカルへの知識伝達を実現する。 このように、FedSSAは公開データセットに依存せず、部分的なヘッダパラメータ送信のみを必要とする(節約コスト)。 理論的解析はFedSSAの収束を証明している。 大規模な実験の結果、FedSSAの精度は最大3.62%、通信効率は15.54倍、計算効率は7つの最先端のMHPFLベースラインに比べて15.52倍である。

Federated learning (FL) is a privacy-preserving collaboratively machine learning paradigm. Traditional FL requires all data owners (a.k.a. FL clients) to train the same local model. This design is not well-suited for scenarios involving data and/or system heterogeneity. Model-Heterogeneous Personalized FL (MHPFL) has emerged to address this challenge. Existing MHPFL approaches often rely on having a public dataset with the same nature of the learning task, or incur high computation and communication costs. To address these limitations, we propose the Federated Semantic Similarity Aggregation (FedSSA) approach, which splits each client's model into a heterogeneous (structure-different) feature extractor and a homogeneous (structure-same) classification header. It performs local-to-global knowledge transfer via semantic similarity-based header parameter aggregation. In addition, global-to-local knowledge transfer is achieved via an adaptive parameter stabilization strategy which fuses the seen-class parameters of historical local headers with that of the latest global header for each client. In this way, FedSSA does not rely on public datasets, while only requiring partial header parameter transmission (thereby saving costs). Theoretical analysis proves the convergence of FedSSA. Extensive experiments present that FedSSA achieves up to 3.62% higher accuracy, 15.54 times higher communication efficiency, and 15.52 times higher computational efficiency compared to 7 state-of-the-art MHPFL baselines.
翻訳日:2024-02-13 21:21:13 公開日:2024-02-11
# ラベルを超えて:潜在ラベルは半教師付きポイントクラウドのパオプティクセグメンテーションを強化する

Beyond the Label Itself: Latent Labels Enhance Semi-supervised Point Cloud Panoptic Segmentation ( http://arxiv.org/abs/2312.08234v2 )

ライセンス: Link先を確認
Yujun Chen, Xin Tan, Zhizhong Zhang, Yanyun Qu, Yuan Xie(参考訳) 自動パイロットデータセットのラベリングやラベルなしデータの利用が増加するにつれて、ポイントクラウド上の半教師ありセグメンテーションがますます重要になっている。 直感的には、ラベル自身よりももっと‘unspoken words’(すなわち潜在インスタンス情報)を見つけることは、パフォーマンスを改善するのに役立ちます。 本稿では,lidarと画像データに埋め込まれた表示ラベルの背後に潜むラベルを2種類発見する。 まず、LiDARブランチにおいて、より信頼性の高いトレーニング用サンプルを拡張可能な新しい拡張 Cylinder-Mix を提案する。 第2に,イメージブランチでは,2次元事前学習検出器と3次元から2次元投影から得られた潜在ラベルのタイプである,インスタンス位置とスケールの情報の学習と融合を行う IPSL (Instance Position-scale Learning) モジュールを提案する。 最後に、2つの潜在ラベルをマルチモーダルのpanopticセグメンテーションネットワークに組み込む。 IPSLモジュールのアブレーションは、その堅牢な適応性を示し、SemanticKITTIとnuScenesで評価された実験は、我々のモデルが最先端のLaserMixよりも優れていることを示した。

As the exorbitant expense of labeling autopilot datasets and the growing trend of utilizing unlabeled data, semi-supervised segmentation on point clouds becomes increasingly imperative. Intuitively, finding out more ``unspoken words'' (i.e., latent instance information) beyond the label itself should be helpful to improve performance. In this paper, we discover two types of latent labels behind the displayed label embedded in LiDAR and image data. First, in the LiDAR Branch, we propose a novel augmentation, Cylinder-Mix, which is able to augment more yet reliable samples for training. Second, in the Image Branch, we propose the Instance Position-scale Learning (IPSL) Module to learn and fuse the information of instance position and scale, which is from a 2D pre-trained detector and a type of latent label obtained from 3D to 2D projection. Finally, the two latent labels are embedded into the multi-modal panoptic segmentation network. The ablation of the IPSL module demonstrates its robust adaptability, and the experiments evaluated on SemanticKITTI and nuScenes demonstrate that our model outperforms the state-of-the-art method, LaserMix.
翻訳日:2024-02-13 21:20:28 公開日:2024-02-11
# 分割・分割攻撃:テキスト対画像モデルの安全フィルタをバイパスするためにllmの力を利用する

Divide-and-Conquer Attack: Harnessing the Power of LLM to Bypass Safety Filters of Text-to-Image Models ( http://arxiv.org/abs/2312.07130v2 )

ライセンス: Link先を確認
Yimo Deng, Huangxun Chen(参考訳) テキスト・ツー・イメージ(TTI)モデルは、多くの革新的なサービスを提供しているが、非倫理的な画像を生成する可能性があるため、倫理的な懸念も提起している。 ほとんどの公共TTIサービスは、意図しない画像を防ぐために安全フィルタを使用している。 本稿では,dall-e 3やmidjourneyを含む最先端のttiモデルの安全フィルタを回避するために,分割・分割攻撃を提案する。 我々の攻撃は LLM をテキスト変換エージェントとして活用し、敵対的なプロンプトを生成する。 我々は、LLMを効果的に誘導するアタック・ヘルパーを設計し、個々の画像要素の複数の良心的な記述に分割し、非倫理的な画像を生成しながら安全フィルタをバイパスできるようにする。 なぜなら、潜在的な有害な意味は、すべての要素が一緒に描かれるときにのみ明らかになるからです。 本評価は,複数の密閉箱型安全フィルタを回避できることを示す。 最先端のTTIエンジンであるDALL-E 3の安全フィルタをバイパスするDACAの成功率は85%を超え、ミッドジャーニーV6をバイパスする成功率は75%を超える。 攻撃障壁の低下,解釈可能性の向上,防御への適応性の向上などにより,手技や反復的TTIモデルクエリよりも深刻なセキュリティ上の影響が指摘された。 私たちのプロトタイプは、https://github.com/researchcode001/Divide-and-Conquer-Attackで公開されています。

Text-to-image (TTI) models offer many innovative services but also raise ethical concerns due to their potential to generate unethical images. Most public TTI services employ safety filters to prevent unintended images. In this work, we introduce the Divide-and-Conquer Attack to circumvent the safety filters of state-of the-art TTI models, including DALL-E 3 and Midjourney. Our attack leverages LLMs as text transformation agents to create adversarial prompts. We design attack helper prompts that effectively guide LLMs to break down an unethical drawing intent into multiple benign descriptions of individual image elements, allowing them to bypass safety filters while still generating unethical images. Because the latent harmful meaning only becomes apparent when all individual elements are drawn together. Our evaluation demonstrates that our attack successfully circumvents multiple strong closed-box safety filters. The comprehensive success rate of DACA bypassing the safety filters of the state-of-the-art TTI engine DALL-E 3 is above 85%, while the success rate for bypassing Midjourney V6 exceeds 75%. Our findings have more severe security implications than methods of manual crafting or iterative TTI model querying due to lower attack barrier, enhanced interpretability , and better adaptation to defense. Our prototype is available at: https://github.com/researchcode001/Divide-and-Conquer-Attack
翻訳日:2024-02-13 21:20:05 公開日:2024-02-11
# zkDFL:ゼロ知識による効率的かつプライバシー保護型分散学習

zkDFL: An efficient and privacy-preserving decentralized federated learning with zero-knowledge proof ( http://arxiv.org/abs/2312.04579v2 )

ライセンス: Link先を確認
Mojtaba Ahmadi, Reza Nourmohammadi(参考訳) フェデレーション学習(fl)は様々な分野の研究やビジネスで広く採用されている。 従来の集中型flシステムは深刻な問題を抱えている。 これらの問題に対処するため,近年,分散統合学習(DFL)システムが導入されている。 ブロックチェーンの助けを借りて、より完全性と効率性の実現を目指す。 しかし、プライバシー保護はこれらのシステムの未発見の側面である。 これを解決するため、ブロックチェーンベースの計算をスケールするために、ゼロ知識証明(ZKP)ベースのアグリゲータ(zkDFL)を提案する。 これにより、クライアントは個々のデータを他のクライアントに公開することなく、信頼された集中型サーバと大規模なモデルパラメータを共有できる。 ブロックチェーン技術を用いて,スマートコントラクトによる集約アルゴリズムを管理する。 サーバはZKPアルゴリズムを実行し、受信したアルゴリズムに従って集約が行われたことをクライアントに証明する。 さらにサーバは、クライアントからのすべての入力が使用されていることを証明できる。 ウェアラブルモノのインターネットに関する公開データセットを用いて,我々のアプローチを評価する。 数値評価によって示されるように、zkdflは集約プロセスの正確性の検証可能性を導入し、dflシステムのプライバシー保護と拡張性を高め、ガスコストは大幅に減少している。

Federated learning (FL) has been widely adopted in various fields of study and business. Traditional centralized FL systems suffer from serious issues. To address these concerns, decentralized federated learning (DFL) systems have been introduced in recent years. With the help of blockchains, they attempt to achieve more integrity and efficiency. However, privacy preservation remains an uncovered aspect of these systems. To tackle this, as well as to scale the blockchain-based computations, we propose a zero-knowledge proof (ZKP)-based aggregator (zkDFL). This allows clients to share their large-scale model parameters with a trusted centralized server without revealing their individual data to other clients. We utilize blockchain technology to manage the aggregation algorithm via smart contracts. The server performs a ZKP algorithm to prove to the clients that the aggregation is done according to the accepted algorithm. Additionally, the server can prove that all inputs from clients have been used. We evaluate our approach using a public dataset related to the wearable Internet of Things. As demonstrated by numerical evaluations, zkDFL introduces verifiability of the correctness of the aggregation process and enhances the privacy protection and scalability of DFL systems, while the gas cost has significantly declined.
翻訳日:2024-02-13 21:19:10 公開日:2024-02-11
# 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化

Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use ( http://arxiv.org/abs/2312.04455v2 )

ライセンス: Link先を確認
Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li and Rui Yan(参考訳) 本稿では,大規模言語モデル(LLM)の注意配分における固有波形パターンが,ツール利用におけるLLMの利用など,文脈認識の高度化を求めるタスクにおいて,その性能に著しく影響を及ぼすことを示す。 具体的には、注意波形のトラフゾーンに位置する場合、文脈における重要な情報はモデルによって見落とされ、性能が低下する可能性がある。 この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。 LLMは複数の並列プロセスを通じて入力を処理できる。 各プロセスは回転位置埋め込みに異なる基底角を利用し、ユニークな注意波形を生成する。 本手法は,特定のプロセスの注目トラフを他のプロセスの注目ピークに補正することにより,LLMの様々な文脈的位置への意識を高め,重要な情報を見越すリスクを軽減する。 ツール・ユース・ベンチマークでは,GPT-4に匹敵する7Bモデルで最先端の性能を実現する。 他のベンチマークやragタスクでは、コンテクストコンテンツの徹底的な理解を必要とするため、アテンションバケットもパフォーマンスが著しく向上している。

In this paper, we demonstrate that an inherent waveform pattern in the attention allocation of large language models (LLMs) significantly affects their performance in tasks demanding a high degree of context awareness, such as utilizing LLMs for tool-use. Specifically, the crucial information in the context will be potentially overlooked by model when it is positioned in the trough zone of the attention waveform, leading to decreased performance. To address this issue, we propose a novel inference method named Attention Buckets. It allows LLMs to process their input through multiple parallel processes. Each process utilizes a distinct base angle for the rotary position embedding, thereby creating a unique attention waveform. By compensating an attention trough of a particular process with an attention peak of another process, our approach enhances LLM's awareness to various contextual positions, thus mitigating the risk of overlooking crucial information. In the largest tool-use benchmark, our method elevates a 7B model to achieve state-of-the-art performance, comparable to that of GPT-4. On other benchmarks and some RAG tasks, which also demand a thorough understanding of contextual content, Attention Buckets also exhibited notable enhancements in performance.
翻訳日:2024-02-13 21:18:50 公開日:2024-02-11
# グラフ上でのマルチタスク事前学習とプロンプトのためのマルチgprompt

MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs ( http://arxiv.org/abs/2312.03731v5 )

ライセンス: Link先を確認
Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang(参考訳) グラフは本質的にWeb上の相互接続オブジェクトをモデル化することができ、Web分析やコンテントレコメンデーションといった一連のWebアプリケーションを容易にします。 近年,グラフ表現学習の主流技術としてグラフニューラルネットワーク(GNN)が登場している。 しかし、エンドツーエンドの監視フレームワークでの有効性は、タスク固有のラベルの可用性にかなり関係しています。 ラベリングコストを軽減し、数ショット設定で堅牢性を高めるため、自己指導型タスクの事前訓練が有望な方法として現れ、プリテキストと下流タスクの客観的ギャップをさらに狭めるためのプロンプトが提案されている。 グラフ上でのプロンプトベース学習の初期調査はあったが、それらは主に単一のプリテキストタスクを活用し、事前学習データから学べる一般的な知識のサブセットが限られている。 そこで本稿では,マルチタスク事前学習およびプロンプトフレームワークであるmultigpromptを提案する。 まず、事前学習において、複数のプリテキストタスクを相乗化するためのプリテキストトークンセットを設計する。 第2に,タスク固有の,グローバルな事前学習知識を活用するためのオープンプロンプトとオープンプロンプトから構成されたデュアルプロンプト機構を提案する。 最後に、MultiGPromptの評価と分析を行うために、6つの公開データセットに関する広範な実験を行う。

Graphs can inherently model interconnected objects on the Web, thereby facilitating a series of Web applications, such as web analyzing and content recommendation. Recently, Graph Neural Networks (GNNs) have emerged as a mainstream technique for graph representation learning. However, their efficacy within an end-to-end supervised framework is significantly tied to the availabilityof task-specific labels. To mitigate labeling costs and enhance robustness in few-shot settings, pre-training on self-supervised tasks has emerged as a promising method, while prompting has been proposed to further narrow the objective gap between pretext and downstream tasks. Although there has been some initial exploration of prompt-based learning on graphs, they primarily leverage a single pretext task, resulting in a limited subset of general knowledge that could be learned from the pre-training data. Hence, in this paper, we propose MultiGPrompt, a novel multi-task pre-training and prompting framework to exploit multiple pretext tasks for more comprehensive pre-trained knowledge. First, in pre-training, we design a set of pretext tokens to synergize multiple pretext tasks. Second, we propose a dual-prompt mechanism consisting of composed and open prompts to leverage task-specific and global pre-training knowledge, to guide downstream tasks in few-shot settings. Finally, we conduct extensive experiments on six public datasets to evaluate and analyze MultiGPrompt.
翻訳日:2024-02-13 21:18:28 公開日:2024-02-11
# ポリセマンティクスの原因は何か? 偶発的原因からの混合選択性の代替的起源物語

What Causes Polysemanticity? An Alternative Origin Story of Mixed Selectivity from Incidental Causes ( http://arxiv.org/abs/2312.03096v2 )

ライセンス: Link先を確認
Victor Lecomte, Kushal Thaman, Trevor Chow, Rylan Schaeffer, Sanmi Koyejo(参考訳) 一連の無関係な特徴を活性化するポリセマンティックニューロンは、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害であり、AIの安全性に影響を及ぼすと考えられている。 多意味性の古典的な起源の物語は、データはニューロンよりも「機能」が多く含まれており、タスクを実行するための学習は、ネットワークが複数の無関係な特徴を同じニューロンに同時配置させ、ネットワークの内部処理を理解する能力を危険にさらす。 本研究では,多意味性という2つ目の,非相互排他的起源を提示する。 本研究は,全特徴を表わすニューロンが多数存在する場合でも,偶発的に多意味性が発生することを示し,その現象を「textit{incidental polysemanticity}」という。 理論と実験の組み合わせを用いて、正則化やニューラルノイズなどの複数の理由により偶発的多意味性が生じることを示し、この偶発的多意味性は、ランダム初期化が偶然に同じニューロンに複数の特徴を割り当てることができ、訓練力学がそのような重なり合いを強めることから生じる。 本稿は,タスク最適化深層ニューラルネットワークの性能-多意味性トレードオフを定量化し,多意味性がどの程度回避可能かをより理解するためのさらなる研究を呼び掛けた。

Polysemantic neurons -- neurons that activate for a set of unrelated features -- have been seen as a significant obstacle towards interpretability of task-optimized deep networks, with implications for AI safety. The classic origin story of polysemanticity is that the data contains more ``features" than neurons, such that learning to perform a task forces the network to co-allocate multiple unrelated features to the same neuron, endangering our ability to understand networks' internal processing. In this work, we present a second and non-mutually exclusive origin story of polysemanticity. We show that polysemanticity can arise incidentally, even when there are ample neurons to represent all features in the data, a phenomenon we term \textit{incidental polysemanticity}. Using a combination of theory and experiments, we show that incidental polysemanticity can arise due to multiple reasons including regularization and neural noise; this incidental polysemanticity occurs because random initialization can, by chance alone, initially assign multiple features to the same neuron, and the training dynamics then strengthen such overlap. Our paper concludes by calling for further research quantifying the performance-polysemanticity tradeoff in task-optimized deep neural networks to better understand to what extent polysemanticity is avoidable.
翻訳日:2024-02-13 21:18:02 公開日:2024-02-11
# ドイツ、韓国、スペイン、スウェーデン、アメリカ合衆国における学習分析における学生のプライバシー問題に関する文化的差異

Cultural Differences in Students' Privacy Concerns in Learning Analytics across Germany, South Korea, Spain, Sweden, and the United States ( http://arxiv.org/abs/2312.02093v2 )

ライセンス: Link先を確認
Olga Viberg, Ren\'e F. Kizilcec, Ioana Jivet, Alejandra Mart\'inez Mon\'es, Alice Oh, Chantal Mutimukwe, Stefan Hrastinski, Maren Scheffel(参考訳) 学習分析(LA)の応用は、高等教育の文脈における生徒のプライバシーに関する懸念を引き起こす可能性がある。 効果的なプライバシー強化プラクティスの開発には、学生のプライバシーに関する懸念と、それが国や文化の面においてどのように異なるのかを体系的に理解する必要がある。 我々は,5カ国(ドイツ,韓国,スペイン,スウェーデン,米国)の大学生のプライバシ懸念と文化的価値を測定するため,確立された尺度を用いて調査を行った。 その結果,学生は,プライバシのコントロール能力に多少制限があるにもかかわらず,そのリスクが管理可能であると感じたため,一般に機関のデータを信頼し,情報を開示した。 5カ国中、ドイツとスウェーデンの学生は最も信頼され、最も関心が薄いと評価され、特に、より高いリスクとコントロールが低いと報告されたアメリカの学生と比較された。 韓国とスペインの学生も同様に5つのプライバシー次元(プライバシーリスクの認識、プライバシー制御の認識、プライバシーの懸念、信条の信頼、非開示行動)について回答した。 個々のレベルで測定された文化は、国家レベルの文化よりもプライバシーに関する関心事や結果に影響した。 プライバシリスクの認識と,電力距離によるプライバシコントロールの増加。 信頼する信念は、不確実性回避と低い男性性への欲求によって増加する。 非開示行動は、パワー距離と男性性によって増加し、より不確実な回避によって減少する。 したがって、高等教育におけるプライバシー強化の実践や政策を開発する際には、機関の信頼、社会的平等、リスクテイクに関連する文化的価値を考慮する必要がある。

Applications of learning analytics (LA) can raise concerns from students about their privacy in higher education contexts. Developing effective privacy-enhancing practices requires a systematic understanding of students' privacy concerns and how they vary across national and cultural dimensions. We conducted a survey study with established instruments to measure privacy concerns and cultural values for university students in five countries (Germany, South Korea, Spain, Sweden, and the United States; N = 762). The results show that students generally trusted institutions with their data and disclosed information as they perceived the risks to be manageable even though they felt somewhat limited in their ability to control their privacy. Across the five countries, German and Swedish students stood out as the most trusting and least concerned, especially compared to US students who reported greater perceived risk and less control. Students in South Korea and Spain responded similarly on all five privacy dimensions (perceived privacy risk, perceived privacy control, privacy concerns, trusting beliefs, and non-self-disclosure behavior), despite their significant cultural differences. Culture measured at the individual level affected the antecedents and outcomes of privacy concerns more than country-level culture. Perceived privacy risk and privacy control increase with power distance. Trusting beliefs increase with a desire for uncertainty avoidance and lower masculinity. Non-self-disclosure behaviors rise with power distance and masculinity, and decrease with more uncertainty avoidance. Thus, cultural values related to trust in institutions, social equality and risk-taking should be considered when developing privacy-enhancing practices and policies in higher education.
翻訳日:2024-02-13 21:17:37 公開日:2024-02-11
# あいまいな確率制約のある問題に対する学習について

On Learning for Ambiguous Chance Constrained Problems ( http://arxiv.org/abs/2401.00547v2 )

ライセンス: Link先を確認
A Ch Madhusudanarao, Rahul Singh(参考訳) 確率制約付き最適化問題 $min_x f について検討する。 (x)$ s.t.$P(\left\{ \theta: g(x,\theta)\le 0 \right\})\ge 1-\epsilon$ ここで$\epsilon\in (0,1)$は、分布$P$が意思決定者(DM)に知られていない場合の違反確率である。 DMが$\mathcal{U}$に$P$が$\mathcal{U}$に含まれるような分布の集合にアクセスするとき、問題はあいまいな確率制約問題 \cite{erdougan 2006ambiguous} として知られている。 我々は、$\mathcal{u}$ が $\left\{\mu:\frac{\mu の形である場合の曖昧な確率制約問題を研究する。 (y)}{\nu (y)}\leq C, \forall y\in\Theta, \mu (y)\ge 0\right\}$, ここで$\nu$ は ``reference distribution である。 この場合、元の問題は、$n$ i.i.d. の$\theta$ のサンプルが $\nu$ から引き出され、元の制約は $g(x,\theta_i)\le 0,~i=1,2,\ldots,n$ に置き換えられるようなサンプル問題によって ``well-approximated''' となる。 また、この近似に関連するサンプルの複雑さ、すなわち$\epsilon,\delta>0$に対して、$\nu$から引かなければならないサンプルの個数を導出し、($\nu$のランダム性よりも)1-\delta$より大きい確率で、サンプルプログラムを解くことで得られる解は、元の確率制約問題に対して$\epsilon$-feasibleな解が得られる。

We study chance constrained optimization problems $\min_x f(x)$ s.t. $P(\left\{ \theta: g(x,\theta)\le 0 \right\})\ge 1-\epsilon$ where $\epsilon\in (0,1)$ is the violation probability, when the distribution $P$ is not known to the decision maker (DM). When the DM has access to a set of distributions $\mathcal{U}$ such that $P$ is contained in $\mathcal{U}$, then the problem is known as the ambiguous chance-constrained problem \cite{erdougan2006ambiguous}. We study ambiguous chance-constrained problem for the case when $\mathcal{U}$ is of the form $\left\{\mu:\frac{\mu (y)}{\nu(y)}\leq C, \forall y\in\Theta, \mu(y)\ge 0\right\}$, where $\nu$ is a ``reference distribution.'' We show that in this case the original problem can be ``well-approximated'' by a sampled problem in which $N$ i.i.d. samples of $\theta$ are drawn from $\nu$, and the original constraint is replaced with $g(x,\theta_i)\le 0,~i=1,2,\ldots,N$. We also derive the sample complexity associated with this approximation, i.e., for $\epsilon,\delta>0$ the number of samples which must be drawn from $\nu$ so that with a probability greater than $1-\delta$ (over the randomness of $\nu$), the solution obtained by solving the sampled program yields an $\epsilon$-feasible solution for the original chance constrained problem.
翻訳日:2024-02-13 21:08:14 公開日:2024-02-11
# 強化学習

Reinforcement Unlearning ( http://arxiv.org/abs/2312.15910v3 )

ライセンス: Link先を確認
Dayong Ye, Tianqing Zhu, Congcong Zhu, Derui Wang, Zewei Shi, Sheng Shen, Wanlei Zhou, Minhui Xue(参考訳) 機械学習とは、データ所有者からの削除要求に基づいて、特定のトレーニングデータの影響を緩和するプロセスを指す。 しかし、未学習の研究で見過ごされてきた重要な分野は強化学習である。 強化学習は、エージェントが累積報酬を最大化するために環境内で最適な決定を行うように訓練することに焦点を当てる。 訓練の間、エージェントは環境の特徴を記憶しがちであり、プライバシーに関する重大な懸念を引き起こす。 データ保護規則に従って、環境の所有者はエージェントのトレーニングデータへのアクセスを無効化する権利を有しており、それによって新しい研究分野である'emph{reinforcement unlearning} の開発が必要とされる。 強化アンラーニングは、個々のデータサンプルではなく、環境全体を無効にすることです。 この独特の特徴は3つの異なる課題をもたらす。 1)環境のための未学習スキームの提案方法 2) 残りの環境におけるエージェントの性能の低下を回避する方法 3)未学習の有効性を評価する方法。 これらの課題に取り組むため,我々は2つの強化アンラーニング手法を提案する。 第1の方法は、エージェントが以前獲得した知識を徐々に消去することを目的とした、デクリメント強化学習に基づいている。 第2の方法は、環境中毒攻撃を利用して、エージェントが学習環境を正しくなくすための新しい知識を学ぶように促す。 特に,第3の課題に取り組むために,「環境推論攻撃」の概念を導入し,未学習の結果を評価する。 ソースコードは \url{https://anonymous.4open.science/r/reinforcement-unlearning-d347} で入手できる。

Machine unlearning refers to the process of mitigating the influence of specific training data on machine learning models based on removal requests from data owners. However, one important area that has been largely overlooked in the research of unlearning is reinforcement learning. Reinforcement learning focuses on training an agent to make optimal decisions within an environment to maximize its cumulative rewards. During the training, the agent tends to memorize the features of the environment, which raises a significant concern about privacy. As per data protection regulations, the owner of the environment holds the right to revoke access to the agent's training data, thus necessitating the development of a novel and pressing research field, known as \emph{reinforcement unlearning}. Reinforcement unlearning focuses on revoking entire environments rather than individual data samples. This unique characteristic presents three distinct challenges: 1) how to propose unlearning schemes for environments; 2) how to avoid degrading the agent's performance in remaining environments; and 3) how to evaluate the effectiveness of unlearning. To tackle these challenges, we propose two reinforcement unlearning methods. The first method is based on decremental reinforcement learning, which aims to erase the agent's previously acquired knowledge gradually. The second method leverages environment poisoning attacks, which encourage the agent to learn new, albeit incorrect, knowledge to remove the unlearning environment. Particularly, to tackle the third challenge, we introduce the concept of ``environment inference attack'' to evaluate the unlearning outcomes. The source code is available at \url{https://anonymous.4open.science/r/Reinforcement-Unlearning-D347}.
翻訳日:2024-02-13 21:07:33 公開日:2024-02-11
# 反復質問合成による数学語問題の拡張

Augmenting Math Word Problems via Iterative Question Composing ( http://arxiv.org/abs/2401.09003v4 )

ライセンス: Link先を確認
Haoxiong Liu, Yifan Zhang, Yifan Luo, Andrew Chi-Chih Yao(参考訳) 数学的推論のための大規模言語モデル(LLM)の進歩にもかかわらず、競合レベルの数学問題を解くことは大きな課題であり、特に外部ツールを持たないオープンソースLLMでは大きな問題である。 本稿では,基本言語モデルの数学的推論能力の向上を目的とした,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。 MMIQCで微調整されたモデルは、様々なモデルサイズでMATHベンチマークのパフォーマンスにおいて、一貫してそのモデルを上回っている。 特に、Qwen-72B-MMIQCは45.0%の精度を達成し、2023年にリリースされた最初のバージョンであるGPT-4よりも8.2%上回った。 ハンガリー高校のファイナルにおける広範な評価結果から、このような改善は見えないデータに一般化できることが示唆されている。 MMIQCのアブレーション研究により, 改良の大部分は, LLMを用いて種子問題から新たな質問を反復的に合成し, 他のLPMを通して拒絶サンプリングを適用する, 新たな増補法Iterative Question Composing (IQC) によるものであることが明らかとなった。 MMIQCデータセットは、https://huggingface.co/datasets/Vivacem/MMIQCにあるHuggingFaceハブで利用可能である。 私たちのコードはhttps://github.com/iiis-ai/iterativequestioncocomposeで利用可能です。

Despite the advancements in large language models (LLMs) for mathematical reasoning, solving competition-level math problems remains a significant challenge, especially for open-source LLMs without external tools. We introduce the MMIQC dataset, comprising a mixture of processed web data and synthetic question-response pairs, aimed at enhancing the mathematical reasoning capabilities of base language models. Models fine-tuned on MMIQC consistently surpass their counterparts in performance on the MATH benchmark across various model sizes. Notably, Qwen-72B-MMIQC achieves a 45.0% accuracy, exceeding the previous open-source state-of-the-art by 8.2% and outperforming the initial version GPT-4 released in 2023. Extensive evaluation results on Hungarian high school finals suggest that such improvement can generalize to unseen data. Our ablation study on MMIQC reveals that a large part of the improvement can be attributed to our novel augmentation method, Iterative Question Composing (IQC), which involves iteratively composing new questions from seed problems using an LLM and applying rejection sampling through another LLM. The MMIQC dataset is available on the HuggingFace hub at https://huggingface.co/datasets/Vivacem/MMIQC. Our code is available at https://github.com/iiis-ai/IterativeQuestionComposing.
翻訳日:2024-02-13 20:56:55 公開日:2024-02-11
# 商品取引タグ付けにおける話題分類の自動作成と拡張におけるゼロショットプロンプトの利用

Using Zero-shot Prompting in the Automatic Creation and Expansion of Topic Taxonomies for Tagging Retail Banking Transactions ( http://arxiv.org/abs/2401.06790v2 )

ライセンス: Link先を確認
Daniel de S. Moraes, Pedro T. C. Santos, Polyana B. da Costa, Matheus A. S. Pinto, Ivan de J. P. Pinto, \'Alvaro M. G. da Veiga, Sergio Colcher, Antonio J. G. Busson, Rafael H. Rocha, Rennan Gaio, Rafael Miceli, Gabriela Tourinho, Marcos Rabaioli, Leandro Santos, Fellipe Marques, David Favaro(参考訳) 本研究では,命令ベースの微調整 LLM (Large Language Models) を用いてトピック分類を自動構築・拡張するための教師なし手法を提案する。 トピックモデリングとキーワード抽出技術を用いて、最初のトピック分類法とLLMを作成し、結果の項を後処理し、階層を作成する。 既存の分類を新しい用語で拡張するために、ゼロショットプロンプトを使用して、新しいノードをどこに追加するかを見つける。 結果の分類を使って、小売銀行のデータセットから商人を特徴付けるタグを割り当てます。 作業を評価するため,12名のボランティアに,作成した分類の質を最初に評価し,その分類に基づいて商人に割り当てられたタグについて回答を求めた。 評価の結果,選択した分類群では90%を超えるコヒーレンス率を示した。 また, LLMによる分類学の拡張は, 親ノード予測のエキサイティングな結果を示し, うちの分類学ではf1スコアが70%以上であった。

This work presents an unsupervised method for automatically constructing and expanding topic taxonomies using instruction-based fine-tuned LLMs (Large Language Models). We apply topic modeling and keyword extraction techniques to create initial topic taxonomies and LLMs to post-process the resulting terms and create a hierarchy. To expand an existing taxonomy with new terms, we use zero-shot prompting to find out where to add new nodes, which, to our knowledge, is the first work to present such an approach to taxonomy tasks. We use the resulting taxonomies to assign tags that characterize merchants from a retail bank dataset. To evaluate our work, we asked 12 volunteers to answer a two-part form in which we first assessed the quality of the taxonomies created and then the tags assigned to merchants based on that taxonomy. The evaluation revealed a coherence rate exceeding 90% for the chosen taxonomies. The taxonomies' expansion with LLMs also showed exciting results for parent node prediction, with an f1-score above 70% in our taxonomies.
翻訳日:2024-02-13 20:55:22 公開日:2024-02-11
# RoSA:ロバスト適応による高精度パラメータ効率ファインチューニング

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation ( http://arxiv.org/abs/2401.04679v6 )

ライセンス: Link先を確認
Mahdi Nikdan, Soroush Tabesh, Elvir Crn\v{c}evi\'c, Dan Alistarh(参考訳) 本研究では,大規模言語モデル (LLM) の文脈において,限られた計算・メモリ予算の下で高い精度を達成できるパラメータ効率細調整法について検討する。 本稿では,ロバスト適応法 (RoSA) と呼ばれる新しいPEFT法を提案する。ロバスト適応法は,厳密な主成分分析にインスパイアされ,固定された事前学習重みのセット上に$\textit{low-rank}$と$\textit{highly-sparse}$コンポーネントを併用して,フルファインチューニング (FFT) ソリューションの性能を効率的に近似する。 小学校数学やSQLクエリ生成など,優れたパフォーマンスのために微調整を必要とする一連の課題生成タスクにおいて,RoSAがLoRA,純スパース微調整,代替ハイブリッドメソッドを同じパラメータ予算で上回り,一部のタスクにおいてFFTの性能を回復できることを示す。 本稿では,トレーニングアルゴリズム,特にメモリ効率と計算効率のよいトレーニングを可能にするスパースGPUカーネルを補完するシステムサポートを提供し,低精度ベースウェイトと互換性があることを示し,量子化,低ランク,スパース近似を組み合わせた最初の関節表現を実現する。 私たちのコードはhttps://github.com/IST-DASLab/RoSAでアクセスできます。

We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms LoRA, pure sparse fine-tuning, and alternative hybrid methods at the same parameter budget, and can even recover the performance of FFT on some tasks. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training, and show that it is also compatible with low-precision base weights, resulting in the first joint representation combining quantization, low-rank and sparse approximations. Our code is accessible at https://github.com/IST-DASLab/RoSA.
翻訳日:2024-02-13 20:54:04 公開日:2024-02-11
# 任意線形変換による適応ブロックスパース正規化

Adaptive Block Sparse Regularization under Arbitrary Linear Transform ( http://arxiv.org/abs/2401.15292v3 )

ライセンス: Link先を確認
Takanobu Furuhashi, Hidekata Hontani, Tatsuya Yokota(参考訳) ブロック構造が未知の任意の線形変換下でのブロックスパーシティの凸・高速信号再構成法を提案する。 提案手法は類似した既存手法の一般化であり、非可逆変換下でブロックスパーシティを有する信号を再構成することができる。 我々の研究はブロックスパース正規化の範囲を広げ、様々な信号処理領域にまたがるより汎用的で強力なアプリケーションを可能にする。 提案手法を解くための反復アルゴリズムを導出し,その最適解への収束条件を提供する。 提案手法の有効性を示す数値実験を行った。

We propose a convex and fast signal reconstruction method for block sparsity under arbitrary linear transform with unknown block structure. The proposed method is a generalization of the similar existing method and can reconstruct signals with block sparsity under non-invertible transforms, unlike the existing method. Our work broadens the scope of block sparse regularization, enabling more versatile and powerful applications across various signal processing domains. We derive an iterative algorithm for solving proposed method and provide conditions for its convergence to the optimal solution. Numerical experiments demonstrate the effectiveness of the proposed method.
翻訳日:2024-02-13 20:44:22 公開日:2024-02-11
# TurboSVM-FL: 遅延クライアントのためのSVM集約によるフェデレーション学習を促進する

TurboSVM-FL: Boosting Federated Learning through SVM Aggregation for Lazy Clients ( http://arxiv.org/abs/2401.12012v4 )

ライセンス: Link先を確認
Mengdi Wang, Anna Bodonhelyi, Efe Bozkir, Enkelejda Kasneci(参考訳) フェデレーション学習(federated learning)は、分散協調機械学習パラダイムであり、近年、強い勢いを増している。 統合学習では、中央サーバが定期的にクライアントとモデルをコーディネートし、ローカルデータへのアクセスを必要とせずにクライアントがローカルにトレーニングしたモデルを集約する。 その可能性にもかかわらず、フェデレーション学習の実装は、主にデータの多様性による収束が遅いという、いくつかの課題に遭遇し続けている。 遅い収束は、クライアントが計算能力とストレージスペースによって強く制限される可能性があるクロスデバイス・フェデレーション学習シナリオにおいて特に問題となるため、補助的な目的語やより大きなトレーニングイテレーションのようなクライアント側で追加の計算やメモリコストを誘導する対策は現実的ではない。 本稿では,クライアント側で計算負荷を発生させることなく,特にクライアントが"怠慢"である場合のフェデレーション分類タスクの収束を著しく加速し,次のグローバルアグリゲーションのためにのみモデルをトレーニングする,新しいフェデレーション集約戦略であるTurboSVM-FLを提案する。 TurboSVM-FLは、サポートベクトルマシンを広範囲に利用して、クラス埋め込み上で選択的集約と最大マージンのスプレッドアウト正規化を行う。 我々は,FEMNIST,CelebA,シェークスピアを含む複数のデータセット上でTurboSVM-FLを評価する。 以上の結果から,TurboSVM-FLはコンバージェンスレートのアルゴリズムよりも優れ,通信ラウンドの削減や精度,F1スコア,MCCといった優れたテスト指標の提供が可能であることが示唆された。

Federated learning is a distributed collaborative machine learning paradigm that has gained strong momentum in recent years. In federated learning, a central server periodically coordinates models with clients and aggregates the models trained locally by clients without necessitating access to local data. Despite its potential, the implementation of federated learning continues to encounter several challenges, predominantly the slow convergence that is largely due to data heterogeneity. The slow convergence becomes particularly problematic in cross-device federated learning scenarios where clients may be strongly limited by computing power and storage space, and hence counteracting methods that induce additional computation or memory cost on the client side such as auxiliary objective terms and larger training iterations can be impractical. In this paper, we propose a novel federated aggregation strategy, TurboSVM-FL, that poses no additional computation burden on the client side and can significantly accelerate convergence for federated classification task, especially when clients are "lazy" and train their models solely for few epochs for next global aggregation. TurboSVM-FL extensively utilizes support vector machine to conduct selective aggregation and max-margin spread-out regularization on class embeddings. We evaluate TurboSVM-FL on multiple datasets including FEMNIST, CelebA, and Shakespeare using user-independent validation with non-iid data distribution. Our results show that TurboSVM-FL can significantly outperform existing popular algorithms on convergence rate and reduce communication rounds while delivering better test metrics including accuracy, F1 score, and MCC.
翻訳日:2024-02-13 20:42:27 公開日:2024-02-11
# 拡散世界モデル

Diffusion World Model ( http://arxiv.org/abs/2402.03570v2 )

ライセンス: Link先を確認
Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng(参考訳) 我々は,多段階の将来の状態と報酬を同時に予測できる条件拡散モデルである拡散世界モデル(DWM)を紹介する。 従来のワンステップのダイナミックスモデルとは対照的に、DWMは1つのフォワードパスで長い水平予測を提供するため、再帰的なクエリは不要である。 我々はDWMをモデルベース値推定に統合し、DWMからサンプリングした将来の軌跡によって短期的回帰をシミュレートする。 オフライン強化学習の文脈では、DWMは生成モデルによる保守的な価値正規化と見なすことができる。 あるいは、合成データによるオフラインQ-ラーニングを可能にするデータソースとして見ることもできる。 D4RLデータセットに対する実験により,DWMの長軸シミュレーションに対するロバスト性が確認された。 絶対性能の面では、DWMは1ステップのダイナミックスモデルを大幅に上回り、4,4\%のパフォーマンス向上を実現している。

We introduce Diffusion World Model (DWM), a conditional diffusion model capable of predicting multistep future states and rewards concurrently. As opposed to traditional one-step dynamics models, DWM offers long-horizon predictions in a single forward pass, eliminating the need for recursive queries. We integrate DWM into model-based value estimation, where the short-term return is simulated by future trajectories sampled from DWM. In the context of offline reinforcement learning, DWM can be viewed as a conservative value regularization through generative modeling. Alternatively, it can be seen as a data source that enables offline Q-learning with synthetic data. Our experiments on the D4RL dataset confirm the robustness of DWM to long-horizon simulation. In terms of absolute performance, DWM significantly surpasses one-step dynamics models with a $44\%$ performance gain, and achieves state-of-the-art performance.
翻訳日:2024-02-13 20:35:41 公開日:2024-02-11
# 物理コンピューティング入門教室における成長マインドセットの実践理解--デザイン活動によるデバッギングへの高校生の取り組み

Understanding Growth Mindset Practices in an Introductory Physical Computing Classroom: High School Students' Engagement with Debugging by Design Activities ( http://arxiv.org/abs/2402.01885v2 )

ライセンス: Link先を確認
Luis Morales-Navarro, Deborah A. Fields, Yasmin B. Kafai(参考訳) 背景と背景: デバッグは必須のプラクティスであると認識されているが、多くの学生にとって、バグに遭遇すると不安や不安といった感情的な反応が生じ、コンピュータプログラミングの障害や回避につながる可能性がある。 成長マインドセットはこれらの状況において忍耐性と学習を支援するが、物理的コンピューティングデバッグの課題に直面したk-12コンピューティング学生の間で、成長マインドセットが実際にどのように出現するかの研究はほとんどない。 目的:我々は,導入型コンピューティングコースの一環として,設計活動によるデバッグ中に,仲間が解決すべきバギーな物理コンピューティングプロジェクトの作成と交換において,(もしあれば)成長マインドセットのプラクティスが何であるかを理解したいと考えています。 方法: 本研究は, 成長マインドセットの発達とこれらの実践が出現する文脈を実証した, 他者のためのバグの設計・解決における学生間相互作用のモーメント・ツー・モーメント・マイクロジェネティック分析に着目した。 結論: 創発的な成長マインドセットの実践として,より多くの学習につながる課題の選択,失敗の継続,努力に対する称賛と評価,継続的な改善としての学習へのアプローチ,失敗による快適な開発という5つの方法を特定しました。 学生は、ピアツーピアインタラクションや、同僚が解決できるバグの多い物理コンピューティングプロジェクトを作る際に、これらのプラクティスをしばしば示した。 意味: この分析は、成長マインドセットプラクティスの特徴を通じて、物理コンピューティングプロジェクトをデバッグするための学生の社会的、感情的、モチベーション的なアプローチをより包括的に理解するのに役立つ。 紹介された成長マインドセットのプラクティスのインベントリは、他のコンピューティング環境での成長マインドセットをもっと研究するのに役立ちます。

Background and Context: While debugging is recognized as an essential practice, for many students, encountering bugs can generate emotional responses such as fear and anxiety that can lead to disengagement and the avoidance of computer programming. Growth mindsets can support perseverance and learning in these situations, yet few studies have investigated how growth mindsets emerge in practice amongst K-12 computing students facing physical computing debugging challenges. Objective: We seek to understand what (if any) growth mindset practices high school students exhibited when creating and exchanging buggy physical computing projects for their peers to solve during a Debugging by Design activity as part of their introductory computing course. Method: We focused on moment-to-moment microgenetic analysis of student interactions in designing and solving bugs for others to examine the practices students exhibited that demonstrated the development of a growth mindset and the contexts in which these practices emerged. Findings: We identified five emergent growth mindset practices: choosing challenges that lead to more learning, persisting after setbacks, giving and valuing praise for effort, approaching learning as constant improvement, and developing comfort with failure. Students most often exhibited these practices in peer-to-peer interactions and while making buggy physical computing projects for their peers to solve. Implications: Our analysis contributes to a more holistic understanding of students' social, emotional, and motivational approaches to debugging physical computing projects through the characterization of growth mindset practices. The presented inventory of growth mindset practices may be helpful to further study growth mindset in action in other computing settings.
翻訳日:2024-02-13 20:35:00 公開日:2024-02-11
# pFedMoE:モデル・ヘテロジニアス・パーソナライズド・フェデレーション学習のためのエキスパートの混在によるデータレベルパーソナライズ

pFedMoE: Data-Level Personalization with Mixture of Experts for Model-Heterogeneous Personalized Federated Learning ( http://arxiv.org/abs/2402.01350v3 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Chao Ren, Heng Zhang, Gang Wang, Xiaoguang Liu, Xiaoxiao Li(参考訳) federated learning (fl) は分散データの共同トレーニングに広く採用されている。 しかし、データ、システム、モデルの不均一性の課題に直面している。 これはモデルヘテロジニアス・パーソナライズド・フェデレーション・ラーニング(MHPFL)の出現に影響を与えた。 それでも、データとモデルのプライバシを確保することの問題は、優れたモデル性能を実現し、通信と計算コストを低く抑えることにある。 そこで本研究では,エキスパート混合学習法(pFedMoE)をモデルとしたフェデレーション学習を提案する。 各クライアントのローカルなヘテロジニアス大規模モデルに対して、共有された均質な小さな特徴抽出器とローカルゲーティングネットワークを割り当てる。 まず、ローカルトレーニング中に、ローカルヘテロジニアスモデルの特徴抽出器は、パーソナライズされた特徴抽出のローカルエキスパートとして、共有された均質な小さな特徴抽出器は、一般化された特徴抽出のグローバルエキスパートとして機能する。 ローカルゲーティングネットワークは、各データサンプル上の両方の専門家から抽出された表現に対してパーソナライズされた重み付けを生成する。 3つのモデルは局所的な異種moeを形成する。 重み付き混合表現は、一般化されパーソナライズされた特徴を融合させ、パーソナライズされた予測情報を持つ局所異種大モデルのヘッダーによって処理される。 MoEと予測ヘッダを同時に更新する。 次に、訓練されたローカルに均質な小さな特徴抽出器をサーバに送信し、アグリゲーションを介してクライアント間の情報融合を行う。 全体として、pfedmoeは、モデルの多様性をサポートしながら、きめ細かいデータレベルでローカルモデルのパーソナライズを強化する。

Federated learning (FL) has been widely adopted for collaborative training on decentralized data. However, it faces the challenges of data, system, and model heterogeneity. This has inspired the emergence of model-heterogeneous personalized federated learning (MHPFL). Nevertheless, the problem of ensuring data and model privacy, while achieving good model performance and keeping communication and computation costs low remains open in MHPFL. To address this problem, we propose a model-heterogeneous personalized Federated learning with Mixture of Experts (pFedMoE) method. It assigns a shared homogeneous small feature extractor and a local gating network for each client's local heterogeneous large model. Firstly, during local training, the local heterogeneous model's feature extractor acts as a local expert for personalized feature (representation) extraction, while the shared homogeneous small feature extractor serves as a global expert for generalized feature extraction. The local gating network produces personalized weights for extracted representations from both experts on each data sample. The three models form a local heterogeneous MoE. The weighted mixed representation fuses generalized and personalized features and is processed by the local heterogeneous large model's header with personalized prediction information. The MoE and prediction header are updated simultaneously. Secondly, the trained local homogeneous small feature extractors are sent to the server for cross-client information fusion via aggregation. Overall, pFedMoE enhances local model personalization at a fine-grained data level, while supporting model heterogeneity.
翻訳日:2024-02-13 20:33:14 公開日:2024-02-11
# PirateNets: 残差適応ネットワークを用いた物理インフォームドディープラーニング

PirateNets: Physics-informed Deep Learning with Residual Adaptive Networks ( http://arxiv.org/abs/2402.00326v3 )

ライセンス: Link先を確認
Sifan Wang, Bowen Li, Yuhan Chen, Paris Perdikaris(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって支配される前方および逆問題に対処するための一般的なディープラーニングフレームワークとなっているが、より大規模で深いニューラルネットワークアーキテクチャを採用すると、その性能は劣化することが知られている。 この反直観的行動の根源は、不適な初期化スキームを持つ多層パーセプトロン(MLP)アーキテクチャを使うことであり、結果としてネットワークデリバティブの練習性が低下し、最終的にはPDE残留損失の不安定な最小化につながる。 これを解決するために,我々は,深いPINNモデルの安定かつ効率的なトレーニングを容易にする新しいアーキテクチャであるPicical-informed Residual Adaptive Networks (PirateNets)を導入する。 PirateNetsは、新しい適応的残留接続を活用し、トレーニング中に徐々に深くなっていく浅層ネットワークとしてネットワークを初期化することができる。 また,提案手法により,与えられたPDEシステムに対応する適切な帰納バイアスをネットワークアーキテクチャに符号化できることを示す。 我々は、パイレーツネットの最適化が容易であり、精度が大幅に向上し、最終的には様々なベンチマークで最先端の結果が得られることを示す包括的な実証的証拠を提供する。 この原稿に付随するすべてのコードとデータは、 \url{https://github.com/PredictiveIntelligenceLab/jaxpi}で公開される。

While physics-informed neural networks (PINNs) have become a popular deep learning framework for tackling forward and inverse problems governed by partial differential equations (PDEs), their performance is known to degrade when larger and deeper neural network architectures are employed. Our study identifies that the root of this counter-intuitive behavior lies in the use of multi-layer perceptron (MLP) architectures with non-suitable initialization schemes, which result in poor trainablity for the network derivatives, and ultimately lead to an unstable minimization of the PDE residual loss. To address this, we introduce Physics-informed Residual Adaptive Networks (PirateNets), a novel architecture that is designed to facilitate stable and efficient training of deep PINN models. PirateNets leverage a novel adaptive residual connection, which allows the networks to be initialized as shallow networks that progressively deepen during training. We also show that the proposed initialization scheme allows us to encode appropriate inductive biases corresponding to a given PDE system into the network architecture. We provide comprehensive empirical evidence showing that PirateNets are easier to optimize and can gain accuracy from considerably increased depth, ultimately achieving state-of-the-art results across various benchmarks. All code and data accompanying this manuscript will be made publicly available at \url{https://github.com/PredictiveIntelligenceLab/jaxpi}.
翻訳日:2024-02-13 20:31:04 公開日:2024-02-11
# 対称測定による非マルコフ量子力学

Non-Markovian quantum dynamics from symmetric measurements ( http://arxiv.org/abs/2402.04415v2 )

ライセンス: Link先を確認
Katarzyna Siudzi\'nska(参考訳) 我々は対称測度演算子を用いて、一般化されたパウリチャネルのさらなる一般化を提供する量子チャネルを構築する。 得られた写像はビストヒスティックであるが、一般には混合ユニタリではない。 完全正当性や量子エンタングルメントを破る能力など,それらの重要な性質を解析する。 主部では、時間局所発生器による対応する開量子系力学を考察する。 動的写像の可除性から、十分なマルコビアン性および非マルコビアン性条件を導出する。 インストラクティブな例として、P-分割可能な一般化されたパウリ力学写像の生成元を示し、デコヒーレンス率のより負性性を高める。

We use symmetric measurement operators to construct quantum channels that provide a further generalization of generalized Pauli channels. The resulting maps are bistochastic but in general no longer mixed unitary. We analyze their important properties, such as complete positivity and the ability to break quantum entanglement. In the main part, we consider the corresponding open quantum systems dynamics with time-local generators. From divisibility properties of dynamical maps, we derive sufficient Markovianity and non-Markovianity conditions. As instructive examples, we present the generators of P-divisible generalized Pauli dynamical maps that allow for more negativity in the decoherence rates.
翻訳日:2024-02-13 20:22:10 公開日:2024-02-11
# 深度完了のためのテスト時間適応

Test-Time Adaptation for Depth Completion ( http://arxiv.org/abs/2402.03312v2 )

ライセンス: Link先を確認
Hyoungseob Park, Anjali Gupta, Alex Wong(参考訳) いくつかの(ソース)データセットでトレーニングされたモデルを転送して、ドメイン間のギャップによってテストデータをターゲットにする場合、パフォーマンスの劣化を観測することが一般的である。 このギャップを埋めるための既存の手法、例えばドメイン適応(DA)は、モデルがトレーニングされたソースデータ(しばしば利用できない)を必要とするが、ソースフリーのDAはテストデータに多くのパスを必要とする。 本研究では,1回のパスで性能ギャップを閉じる,1枚の画像とそれに伴うスパース深度マップから濃密な深さマップを推定する作業である,深さ完了のためのオンラインテスト時間適応手法を提案する。 まず,各データモダリティにおけるドメインシフトがモデル性能に与える影響について検討する。 スパース深さモダリティが画像よりもずっと小さい共変量シフトを示すという観測に基づいて、ソースドメインでトレーニングされた埋め込みモジュールを設計し、スパース深さのみをエンコードする機能から、画像のエンコーディングとスパース深さへのマッピングを保存する。 テスト時間中に、このマップをソースドメイン機能のプロキシとして使用してスパース深度特徴を投影し、画像とスパース深度特徴をターゲットテストドメインからソースドメインに整列させる補助パラメータ(適応層)のセットをトレーニングするためのガイダンスとして使用する。 本手法を屋内および屋外のシナリオで評価し,平均21.1%のベースラインで改善したことを示す。

It is common to observe performance degradation when transferring models trained on some (source) datasets to target testing data due to a domain gap between them. Existing methods for bridging this gap, such as domain adaptation (DA), may require the source data on which the model was trained (often not available), while others, i.e., source-free DA, require many passes through the testing data. We propose an online test-time adaptation method for depth completion, the task of inferring a dense depth map from a single image and associated sparse depth map, that closes the performance gap in a single pass. We first present a study on how the domain shift in each data modality affects model performance. Based on our observations that the sparse depth modality exhibits a much smaller covariate shift than the image, we design an embedding module trained in the source domain that preserves a mapping from features encoding only sparse depth to those encoding image and sparse depth. During test time, sparse depth features are projected using this map as a proxy for source domain features and are used as guidance to train a set of auxiliary parameters (i.e., adaptation layer) to align image and sparse depth features from the target test domain to that of the source domain. We evaluate our method on indoor and outdoor scenarios and show that it improves over baselines by an average of 21.1%.
翻訳日:2024-02-13 20:20:33 公開日:2024-02-11
# RESMatch: 半監督マンナにおける表現セグメンテーションの参照

RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner ( http://arxiv.org/abs/2402.05589v2 )

ライセンス: Link先を確認
Ying Zang, Chenglong Fu, Runlong Cao, Didi Zhu, Min Zhang, Wenjun Hu, Lanyun Zhu, Tianrun Chen(参考訳) Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクであり、人間とAIの相互作用において重要なフロンティアとして現れている。 視覚とテキストの両方のコンテキストを複雑に理解し、しばしば広範なトレーニングデータを必要とする。 本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。 複数のRESデータセットに対する大規模な検証は、RESMatchがベースラインアプローチを大幅に上回っており、新しい最先端技術を確立していることを示している。 既存のSSL技術は画像セグメンテーションに有効であるが、RESでは不足している。 自由形式の言語記述の理解やオブジェクト属性の変動性といった課題に直面したRESMatchでは、強化された強い摂動、テキスト拡張、擬似ラベル品質と強弱監視のための調整という、適応のトリフェクトを導入している。 この先駆的な研究は、表現セグメンテーションを参照するための半教師付き学習における将来の研究の基盤となる。

Referring expression segmentation (RES), a task that involves localizing specific instance-level objects based on free-form linguistic descriptions, has emerged as a crucial frontier in human-AI interaction. It demands an intricate understanding of both visual and textual contexts and often requires extensive training data. This paper introduces RESMatch, the first semi-supervised learning (SSL) approach for RES, aimed at reducing reliance on exhaustive data annotation. Extensive validation on multiple RES datasets demonstrates that RESMatch significantly outperforms baseline approaches, establishing a new state-of-the-art. Although existing SSL techniques are effective in image segmentation, we find that they fall short in RES. Facing the challenges including the comprehension of free-form linguistic descriptions and the variability in object attributes, RESMatch introduces a trifecta of adaptations: revised strong perturbation, text augmentation, and adjustments for pseudo-label quality and strong-weak supervision. This pioneering work lays the groundwork for future research in semi-supervised learning for referring expression segmentation.
翻訳日:2024-02-13 20:09:37 公開日:2024-02-11
# トランスフォーマーワールドモデルはポリシーのグラデーションを改善するか?

Do Transformer World Models Give Better Policy Gradients? ( http://arxiv.org/abs/2402.05290v2 )

ライセンス: Link先を確認
Michel Ma, Tianwei Ni, Clement Gehring, Pierluca D'Oro, Pierre-Luc Bacon(参考訳) 強化学習の自然なアプローチは、ニューラルネットワークの世界モデルをアンロールすることで将来の報酬を予測し、結果の計算グラフをバックプロパゲートしてポリシーを学ぶことである。 しかし、典型的な世界モデルは損失景観を最適化するのが困難であるため、この方法は長い地平線にとって実用的ではないことが多い。 トランスフォーマーは、長い地平線上の勾配を効率的に伝播することが知られています。 驚くべきことに、一般的に使用されるトランスフォーマーワールドモデルは、長距離のポリシー勾配に有害な回路勾配パスを生成する。 この課題に取り組むために,我々は,勾配伝播のためのより直接的な経路を提供するために設計されたactions world model(awms)と呼ばれる世界モデルクラスを提案する。 このようなAWMを、ネットワークアーキテクチャとそれらが本質的に表すポリシー勾配更新の関係を基盤とするポリシー勾配フレームワークに統合する。 AWMsはシミュレータ自体と比較してナビゲートが容易な最適化景観を生成することができることを示す。 この特性により、トランスフォーマーのAWMは、現実的な長距離タスクの競争ベースラインよりも優れたポリシーを作成できる。

A natural approach for reinforcement learning is to predict future rewards by unrolling a neural network world model, and to backpropagate through the resulting computational graph to learn a policy. However, this method often becomes impractical for long horizons since typical world models induce hard-to-optimize loss landscapes. Transformers are known to efficiently propagate gradients over long horizons: could they be the solution to this problem? Surprisingly, we show that commonly-used transformer world models produce circuitous gradient paths, which can be detrimental to long-range policy gradients. To tackle this challenge, we propose a class of world models called Actions World Models (AWMs), designed to provide more direct routes for gradient propagation. We integrate such AWMs into a policy gradient framework that underscores the relationship between network architectures and the policy gradient updates they inherently represent. We demonstrate that AWMs can generate optimization landscapes that are easier to navigate even when compared to those from the simulator itself. This property allows transformer AWMs to produce better policies than competitive baselines in realistic long-horizon tasks.
翻訳日:2024-02-13 20:08:26 公開日:2024-02-11
# 類似性の定量化: 生物医学文学におけるChatGPTとGoogle Bardコンテンツの評価のためのテキストマイニング手法

Quantifying Similarity: Text-Mining Approaches to Evaluate ChatGPT and Google Bard Content in Relation to BioMedical Literature ( http://arxiv.org/abs/2402.05116v2 )

ライセンス: Link先を確認
Jakub Klimczak and Ahmed Abdeen Hamed(参考訳) 背景: 大規模言語モデル(LLM)によって強化された生成AIツールの出現は、コンテンツを生成する強力な能力を示している。 現在では,プロンプトエンジニアリングとして知られる,このようなコンテンツの有用性の評価が興味深い研究課題となっている。 目的: 素早い工学的手法を用いて, 科学者が生み出した実際の文献との類似性と近接性を評価する。 方法】本調査では,(1) 臨床コンテンツを文献と比較するために, 技術者のChatGPT と Google Bard を推し進め, (2) バイオメディカル文献と比較した内容の類似性を評価する。 提案手法は,テキストマイニング手法を用いて文書と関連ビッグデータを比較し,ネットワーク分析を用いて単語の集中度を評価する。 実験の結果、ChatGPTはGoogle Bardのコサインドキュメント類似度(38%から34%)、Jaccardドキュメント類似度(23%から19%)、TF-IDFBigram類似度(47%から41%)、ネットワーク中心度(度と近さ)で優れていた。 また,文献上存在しなかったchatgpt bigramネットワークに新たに出現したリンクも見いだした。 結論: 得られた類似性の結果は、ChatGPTがドキュメントの類似性、ビッグラム、度合いと近接度の中心性においてGoogle Bardを上回ったことを示している。 また,ChatGPTは文献に関連付けられた用語とリンクしていることも確認した。 このようなつながりは興味深い質問を刺激し、新しい仮説を生み出す可能性がある。

Background: The emergence of generative AI tools, empowered by Large Language Models (LLMs), has shown powerful capabilities in generating content. To date, the assessment of the usefulness of such content, generated by what is known as prompt engineering, has become an interesting research question. Objectives Using the mean of prompt engineering, we assess the similarity and closeness of such contents to real literature produced by scientists. Methods In this exploratory analysis, (1) we prompt-engineer ChatGPT and Google Bard to generate clinical content to be compared with literature counterparts, (2) we assess the similarities of the contents generated by comparing them with counterparts from biomedical literature. Our approach is to use text-mining approaches to compare documents and associated bigrams and to use network analysis to assess the terms' centrality. Results The experiments demonstrated that ChatGPT outperformed Google Bard in cosine document similarity (38% to 34%), Jaccard document similarity (23% to 19%), TF-IDF bigram similarity (47% to 41%), and term network centrality (degree and closeness). We also found new links that emerged in ChatGPT bigram networks that did not exist in literature bigram networks. Conclusions: The obtained similarity results show that ChatGPT outperformed Google Bard in document similarity, bigrams, and degree and closeness centrality. We also observed that ChatGPT offers linkage to terms that are connected in the literature. Such connections could inspire asking interesting questions and generate new hypotheses.
翻訳日:2024-02-13 20:07:09 公開日:2024-02-11
# BirdNeRF: 空中画像から大規模シーンを高速で再現する

BirdNeRF: Fast Neural Reconstruction of Large-Scale Scenes From Aerial Imagery ( http://arxiv.org/abs/2402.04554v2 )

ライセンス: Link先を確認
Huiqing Zhang, Yifei Xue, Ming Liao, Yizhen Lao(参考訳) 本研究では,空中画像を用いた大規模シーンの再構成に特化して設計されたNeRF(Neural Radiance Fields)の適応版であるBirdNeRFを紹介する。 小型・オブジェクト中心のNeRF再構成に焦点をあてた以前の研究とは異なり,本研究は(1)大規模モデルに付随する遅いトレーニングとレンダリングの問題に対処するなど,複数の課題に対処する。 2) 膨大な数のイメージをモデル化し、高性能gpuなどの広範なリソースを必要とする計算要求を満たす。 (3) モデル能力の限界により, 大規模再建作業でよく見られる重要な人工物や視力の低さを克服する。 具体的には,大きな空中画像集合を適切な大きさの重ね合わせで複数の小さな集合に分解し,サブシーンの個々のnerfを訓練する,新しいバードビュー・ポーズに基づく空間分解アルゴリズムを提案する。 この分解アプローチは、レンダリング時間をシーンサイズから分離するだけでなく、任意の規模の環境にシームレスにスケールできる。 さらに、環境のブロックごとの更新を可能にし、再構築プロセスの柔軟性と適応性を高める。 さらに,独自に学習したサブシーンを効果的に活用し,優れたレンダリング結果を生成するプロジェクションガイドによる新規なビュー再レンダリング戦略を提案する。 我々は既存のデータセットに対するアプローチと、独自のドローン映像に対するアプローチを評価し、従来のフォトグラメトリソフトウェアよりも10倍、最先端の大規模NeRFソリューションよりも50倍の再現速度を、同じレンダリング品質の1つのGPU上で改善した。

In this study, we introduce BirdNeRF, an adaptation of Neural Radiance Fields (NeRF) designed specifically for reconstructing large-scale scenes using aerial imagery. Unlike previous research focused on small-scale and object-centric NeRF reconstruction, our approach addresses multiple challenges, including (1) Addressing the issue of slow training and rendering associated with large models. (2) Meeting the computational demands necessitated by modeling a substantial number of images, requiring extensive resources such as high-performance GPUs. (3) Overcoming significant artifacts and low visual fidelity commonly observed in large-scale reconstruction tasks due to limited model capacity. Specifically, we present a novel bird-view pose-based spatial decomposition algorithm that decomposes a large aerial image set into multiple small sets with appropriately sized overlaps, allowing us to train individual NeRFs of sub-scene. This decomposition approach not only decouples rendering time from the scene size but also enables rendering to scale seamlessly to arbitrarily large environments. Moreover, it allows for per-block updates of the environment, enhancing the flexibility and adaptability of the reconstruction process. Additionally, we propose a projection-guided novel view re-rendering strategy, which aids in effectively utilizing the independently trained sub-scenes to generate superior rendering results. We evaluate our approach on existing datasets as well as against our own drone footage, improving reconstruction speed by 10x over classical photogrammetry software and 50x over state-of-the-art large-scale NeRF solution, on a single GPU with similar rendering quality.
翻訳日:2024-02-13 20:06:18 公開日:2024-02-11
# 大規模言語モデルを用いたコンピュータサイエンス教育における学生コード案内テストケース生成

Using Large Language Models for Student-Code Guided Test Case Generation in Computer Science Education ( http://arxiv.org/abs/2402.07081v1 )

ライセンス: Link先を確認
Nischal Ashok Kumar, Andrew Lan(参考訳) コンピュータサイエンス教育において、テストケースは、生徒のプログラミング知識をテストし、学生が書いたコードに対してパーソナライズされたフィードバックを提供するための評価項目として使用できるため、プログラミング課題の不可欠な部分である。 本研究の目的は,学生の知識を正確に測定できるテストケース生成のための完全自動化手法を提案することである。 まず、手動でテストケースを構築するには専門家の知識が必要です。 第二に、特に初心者プログラマ向けのテストケースの開発は、プロレベルのソフトウェア開発者向けのものとは大きく異なる。 したがって、学生の知識を評価しフィードバックを提供するテストケース生成のための自動化プロセスが必要である。 本研究では,学生が書いたJavaコードを含む公開データセットを用いて,テストケースを自動的に生成する大規模言語モデルに基づくアプローチを提案する。 また,テストケースを用いた学生支援を中心とした今後の研究方向性についても論じる。

In computer science education, test cases are an integral part of programming assignments since they can be used as assessment items to test students' programming knowledge and provide personalized feedback on student-written code. The goal of our work is to propose a fully automated approach for test case generation that can accurately measure student knowledge, which is important for two reasons. First, manually constructing test cases requires expert knowledge and is a labor-intensive process. Second, developing test cases for students, especially those who are novice programmers, is significantly different from those oriented toward professional-level software developers. Therefore, we need an automated process for test case generation to assess student knowledge and provide feedback. In this work, we propose a large language model-based approach to automatically generate test cases and show that they are good measures of student knowledge, using a publicly available dataset that contains student-written Java code. We also discuss future research directions centered on using test cases to help students.
翻訳日:2024-02-13 17:57:21 公開日:2024-02-11
# 低レベル視覚におけるマルチモーダル基礎モデルのベンチマーク:単一画像からペアへ

A Benchmark for Multi-modal Foundation Models on Low-level Vision: from Single Images to Pairs ( http://arxiv.org/abs/2402.07116v1 )

ライセンス: Link先を確認
Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, Weisi Lin(参考訳) MLLM(Multi-modality Large Language Models)の急速な開発により、コンピュータビジョンのパラダイムシフトが進み、汎用的な基礎モデルへと移行した。 しかし、低レベルの視覚知覚と理解におけるmllmの評価は未だ未解決領域である。 そこで我々は,低レベルテキスト記述のためのmllmの評価について,低レベル視覚認識 (a1) と低レベルの属性 (明快さ,照明など) に関連する視覚質問応答 (a1) と低レベル視覚記述 (a2) をエミュレートするベンチマーク設定を設計する。 さらに、対比較が応答のあいまいさを回避し、多くの人間実験で採用されていることを踏まえ、MLLMの低レベルな認識関連質問応答と記述評価を単一の画像から画像ペアに拡張する。 具体的には,2,990枚の画像と1,999枚の画像対からなるLLVisionQA+データセットについて,その低レベルな特徴に関するオープンな質問を伴って,LLVisionQA+データセット(A1)について述べるとともに,低レベルな499枚の画像と450枚の画像に対してMLLMを評価するLLDescribe+データセットを提案する。 さらに,画像品質評価(IQA)データセットを用いて,評価評価(A3)能力,すなわちスコアの予測を,すべてのMLLMが定量的な品質評価を生成できるように,ソフトマックスベースのアプローチを用いて評価する。 24個のMLLMを用いて、複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが単一の画像評価(例えば人間)よりも高い比較精度を示す。 われわれのベンチマークは、MLLMのこれらの初期段階の能力の解明と強化に関するさらなる研究を動機付けることを願っている。 Datasetsはhttps://github.com/Q-Future/Q-Bench.comから入手できる。

The rapid development of Multi-modality Large Language Models (MLLMs) has navigated a paradigm shift in computer vision, moving towards versatile foundational models. However, evaluating MLLMs in low-level visual perception and understanding remains a yet-to-explore domain. To this end, we design benchmark settings to emulate human language responses related to low-level vision: the low-level visual perception (A1) via visual question answering related to low-level attributes (e.g. clarity, lighting); and the low-level visual description (A2), on evaluating MLLMs for low-level text descriptions. Furthermore, given that pairwise comparison can better avoid ambiguity of responses and has been adopted by many human experiments, we further extend the low-level perception-related question-answering and description evaluations of MLLMs from single images to image pairs. Specifically, for perception (A1), we carry out the LLVisionQA+ dataset, comprising 2,990 single images and 1,999 image pairs each accompanied by an open-ended question about its low-level features; for description (A2), we propose the LLDescribe+ dataset, evaluating MLLMs for low-level descriptions on 499 single images and 450 pairs. Additionally, we evaluate MLLMs on assessment (A3) ability, i.e. predicting score, by employing a softmax-based approach to enable all MLLMs to generate quantifiable quality ratings, tested against human opinions in 7 image quality assessment (IQA) datasets. With 24 MLLMs under evaluation, we demonstrate that several MLLMs have decent low-level visual competencies on single images, but only GPT-4V exhibits higher accuracy on pairwise comparisons than single image evaluations (like humans). We hope that our benchmark will motivate further research into uncovering and enhancing these nascent capabilities of MLLMs. Datasets will be available at https://github.com/Q-Future/Q-Bench.
翻訳日:2024-02-13 17:47:15 公開日:2024-02-11
# 位相位相遷移による量子マルチパラメータ推定

Quantum multiparameter estimation enhanced by a topological phase transition ( http://arxiv.org/abs/2402.07089v1 )

ライセンス: Link先を確認
Yu Yang, Haidong Yuan, and Fuli Li(参考訳) 量子マルチパラメータ推定では、複数の to-be-estimatedパラメータがユニタリ進化によって量子力学系に符号化される。 パラメータが変化するにつれて、システムは位相相転移(TPT)を行うことができる。 本稿では,2つのSU(2)TPTモデルについて検討し,TPT点周辺の量子計量テンソルの特異挙動を複数パラメータの同時最適推定ツールとして提案する。 提案したTPTセンシングプロトコルは,量子制御強化プロトコルと同等の性能を実現することができる。 さらに、TPTセンシングプロトコルのプローブ状態は、制御エンハンスドプロトコルに必要な絡み合った状態ではなく、ハミルトニアンの基底状態である。 さらに、所望の量子クレーダ・ラオ境界が近づくまで推定値を更新するための適応的マルチパラメータ推定戦略を開発した。 我々の研究は、量子的多重パラメータ推定とトポロジー物理学の関連性を強化し、量子臨界距離論への潜在的インスピレーションを与える。

In quantum multiparameter estimation, multiple to-be-estimated parameters are encoded in a quantum dynamics system by a unitary evolution. As the parameters vary, the system may undergo a topological phase transition (TPT). In this paper, we investigate two SU(2) TPT models and propose the singular behavior of the quantum metric tensor around the TPT point as a tool for the simultaneous optimal estimation of multiple parameters. We find that the proposed TPT sensing protocol can achieve the same metrology performance as the quantum-control-enhanced one. Moreover, the probe state of the TPT sensing protocol is only the ground state of the Hamiltonian rather than the entangled state required in the control-enhanced one. In addition, an adaptive multiparameter estimation strategy is developed for updating the estimated values until the desired quantum Cram\'er-Rao bound is approached. Our work reinforces the connection between quantum multiparameter estimation and topology physics, with potential inspiration for quantum critical metrology.
翻訳日:2024-02-13 17:46:38 公開日:2024-02-11
# 生成モデル学習のための自己補正自己消費ループ

Self-Correcting Self-Consuming Loops for Generative Model Training ( http://arxiv.org/abs/2402.07087v1 )

ライセンス: Link先を確認
Nate Gillman, Michael Freeman, Daksh Aggarwal, Chia-Hong Hsu, Calvin Luo, Yonglong Tian, Chen Sun(参考訳) 合成データがより高品質になり、インターネット上で増殖するにつれて、機械学習モデルは、人間と機械が生成したデータの混合に基づいてますます訓練されている。 表現学習に合成データを使うことは成功したが、生成モデルのトレーニングに合成データを使用することで「自己消費ループ」が作成され、特定の条件が満たされない限り、トレーニング不安定や崩壊につながる可能性がある。 本稿は,自己消費型生成モデルトレーニングの安定化を目的とする。 理論的な結果は、真のデータ分布の下でデータポイントをより可能性の高い理想化補正関数を導入することにより、自己消費ループを指数関数的に安定させることができることを示した。 次に、専門家の知識(例えばシミュレータでプログラムされた物理法則)に依存する自己補正関数を提案し、理想化補正器を自動的にかつ大規模に近似することを目指す。 本研究では,人間の動作合成作業における自己修正自己消費ループの有効性を実証的に検証し,実データに対する合成データの比率が100%である場合でも,モデル崩壊を回避できることを示した。

As synthetic data becomes higher quality and proliferates on the internet, machine learning models are increasingly trained on a mix of human- and machine-generated data. Despite the successful stories of using synthetic data for representation learning, using synthetic data for generative model training creates "self-consuming loops" which may lead to training instability or even collapse, unless certain conditions are met. Our paper aims to stabilize self-consuming generative model training. Our theoretical results demonstrate that by introducing an idealized correction function, which maps a data point to be more likely under the true data distribution, self-consuming loops can be made exponentially more stable. We then propose self-correction functions, which rely on expert knowledge (e.g. the laws of physics programmed in a simulator), and aim to approximate the idealized corrector automatically and at scale. We empirically validate the effectiveness of self-correcting self-consuming loops on the challenging human motion synthesis task, and observe that it successfully avoids model collapse, even when the ratio of synthetic data to real data is as high as 100%.
翻訳日:2024-02-13 17:46:24 公開日:2024-02-11
# 複数話者音声合成のための音声リズムに基づく音素・音素長の抽出

Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis ( http://arxiv.org/abs/2402.07085v1 )

ライセンス: Link先を確認
Kenichi Fujita, Atsushi Ando, Yusuke Ijima(参考訳) 本稿では,ターゲット話者による数発話を用いた音素継続時間モデルのための音声リズムに基づく話者埋め込み手法を提案する。 音声合成において、個々の発話を再現するF0などの音響特性とともに、音声リズムは話者特性に欠かせない要素の1つである。 提案手法の新たな特徴は,発話リズムに関連する音素とその持続時間から抽出したリズムに基づく埋め込みである。 従来のスペクトル特徴量に基づく話者識別モデルと類似した話者識別モデルを用いて抽出する。 本研究では, 話者埋め込み生成, 音声合成, 組込み空間解析の3つの実験を行い, 性能評価を行った。 提案手法は,音素と持続時間情報のみをもちながら,中程度の話者識別性能(15.2%EER)を示した。 目的および主観評価の結果,提案手法は従来の手法よりもターゲット話者に近い音声リズムで音声を合成できることがわかった。 また,組込み距離と知覚的類似性との関係を評価するために組込みを可視化した。 埋め込み空間の可視化と密接度の関係解析は,埋め込みの分布が主観的および客観的な類似性を反映していることを示した。

This paper proposes a speech rhythm-based method for speaker embeddings to model phoneme duration using a few utterances by the target speaker. Speech rhythm is one of the essential factors among speaker characteristics, along with acoustic features such as F0, for reproducing individual utterances in speech synthesis. A novel feature of the proposed method is the rhythm-based embeddings extracted from phonemes and their durations, which are known to be related to speaking rhythm. They are extracted with a speaker identification model similar to the conventional spectral feature-based one. We conducted three experiments, speaker embeddings generation, speech synthesis with generated embeddings, and embedding space analysis, to evaluate the performance. The proposed method demonstrated a moderate speaker identification performance (15.2% EER), even with only phonemes and their duration information. The objective and subjective evaluation results demonstrated that the proposed method can synthesize speech with speech rhythm closer to the target speaker than the conventional method. We also visualized the embeddings to evaluate the relationship between the distance of the embeddings and the perceptual similarity. The visualization of the embedding space and the relation analysis between the closeness indicated that the distribution of embeddings reflects the subjective and objective similarity.
翻訳日:2024-02-13 17:46:04 公開日:2024-02-11
# カプセル内視鏡画像のハイライト除去法

A Highlight Removal Method for Capsule Endoscopy Images ( http://arxiv.org/abs/2402.07083v1 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Peixuan Liu, Jinlong Yang, Tao Yan, Liangyi Huang, and Mingfeng Wang(参考訳) Wireless Capsule Endoscopy (WCE)によって撮影された画像は、常に特異な反射を示し、領域の色とテクスチャを保ちながらハイライトを除去する。 そこで本稿では,カプセル内視鏡画像のハイライト除去法を提案する。 まず、ハイライト領域のエッジの信頼度と特徴項を算出し、ハイライト領域のエッジ画素を中心とするウィンドウ内のRGB空間のRチャネルにおける既知の画素とBチャネルとの比率で信頼度を求め、ハイライト領域のエッジ画素の勾配ベクトルを等強度線に乗じて特徴項を得る。 その後、信頼度と特徴項を異なる重みと和で割り当て、すべてのハイライト領域のエッジ画素の優先度を取得し、優先度の高い画素を特定する。 そして、ハイライト領域のエッジ画素のばらつきを利用してサンプルブロックウィンドウのサイズを調整し、最良マッチングブロックをrgb色類似度と、画素中心のサンプルブロックとウィンドウの距離とに基づいて、最も優先度の高い既知の領域で検索する。 そして、最良マッチングブロック内の画素を最も優先度の高いハイライト除去領域にコピーし、ハイライト領域の除去を目標とする。 実験により,提案手法は,Crinimisi法やDeepGin法と比較して,ハイライト除去領域の変動係数が低いWCE画像からハイライトを効果的に除去することを示した。 また、ハイライト除去領域の色やテクスチャは周囲のものと類似しており、テクスチャは連続している。

The images captured by Wireless Capsule Endoscopy (WCE) always exhibit specular reflections, and removing highlights while preserving the color and texture in the region remains a challenge. To address this issue, this paper proposes a highlight removal method for capsule endoscopy images. Firstly, the confidence and feature terms of the highlight region's edges are computed, where confidence is obtained by the ratio of known pixels in the RGB space's R channel to the B channel within a window centered on the highlight region's edge pixel, and feature terms are acquired by multiplying the gradient vector of the highlight region's edge pixel with the iso-intensity line. Subsequently, the confidence and feature terms are assigned different weights and summed to obtain the priority of all highlight region's edge pixels, and the pixel with the highest priority is identified. Then, the variance of the highlight region's edge pixels is used to adjust the size of the sample block window, and the best-matching block is searched in the known region based on the RGB color similarity and distance between the sample block and the window centered on the pixel with the highest priority. Finally, the pixels in the best-matching block are copied to the highest priority highlight removal region to achieve the goal of removing the highlight region. Experimental results demonstrate that the proposed method effectively removes highlights from WCE images, with a lower coefficient of variation in the highlight removal region compared to the Crinimisi algorithm and DeepGin method. Additionally, the color and texture in the highlight removal region are similar to those in the surrounding areas, and the texture is continuous.
翻訳日:2024-02-13 17:45:44 公開日:2024-02-11
# 独立線形関数近似を持つマルコフゲームに対する精製サンプル複素性

Refined Sample Complexity for Markov Games with Independent Linear Function Approximation ( http://arxiv.org/abs/2402.07082v1 )

ライセンス: Link先を確認
Yan Dai, Qiwen Cui, Simon S. Du(参考訳) markov games (mg) はマルチエージェント強化学習(marl)の重要なモデルである。 長年、"curse of multi-agents"(すなわち、アルゴリズムのパフォーマンスはエージェントの数で指数関数的に低下する)は、最近のいくつかの作品(daskalakis et al., 2023; cui et al., 2023; wang et al., 2023)まで避けられないと信じられていた。 これらの作業はマルチエージェントの呪いを解決したが、状態空間が禁止的に大きく、(線形)関数近似が展開された場合、O(T^{-1/4})$の緩やかな収束率を持つか、損失関数が時間とともに任意に変化する場合であっても、シングルエージェントの場合は$A_{\max}$ -- の多項式依存性をもたらす(Dai et al., 2023)。 本稿では,wang et al. (2023) による ‘avlpr` フレームワークを改良し,*データ依存* (確率的) 部分最適化ギャップの悲観的推定を行い,プラグインアルゴリズムの幅広い選択を可能にした。 独立線形関数近似を持つMGに特化する場合、時折極端な推定誤差をカバーするために、新しい*アクション依存ボーナス*を提案する。 単一エージェントRLによる最先端技術を用いて,マルチエージェントの呪いに対処し,最適な$O(T^{-1/2})$収束率を達成し,$\text{poly}(A_{\max})$依存性を同時に回避するアルゴリズムを提案する。

Markov Games (MG) is an important model for Multi-Agent Reinforcement Learning (MARL). It was long believed that the "curse of multi-agents" (i.e., the algorithmic performance drops exponentially with the number of agents) is unavoidable until several recent works (Daskalakis et al., 2023; Cui et al., 2023; Wang et al., 2023. While these works did resolve the curse of multi-agents, when the state spaces are prohibitively large and (linear) function approximations are deployed, they either had a slower convergence rate of $O(T^{-1/4})$ or brought a polynomial dependency on the number of actions $A_{\max}$ -- which is avoidable in single-agent cases even when the loss functions can arbitrarily vary with time (Dai et al., 2023). This paper first refines the `AVLPR` framework by Wang et al. (2023), with an insight of *data-dependent* (i.e., stochastic) pessimistic estimation of the sub-optimality gap, allowing a broader choice of plug-in algorithms. When specialized to MGs with independent linear function approximations, we propose novel *action-dependent bonuses* to cover occasionally extreme estimation errors. With the help of state-of-the-art techniques from the single-agent RL literature, we give the first algorithm that tackles the curse of multi-agents, attains the optimal $O(T^{-1/2})$ convergence rate, and avoids $\text{poly}(A_{\max})$ dependency simultaneously.
翻訳日:2024-02-13 17:45:14 公開日:2024-02-11
# 健康応用のための関連機能とベクターマシン

The Relevance Feature and Vector Machine for health applications ( http://arxiv.org/abs/2402.07079v1 )

ライセンス: Link先を確認
Albert Belenguer-Llorens, Carlos Sevilla-Salcedo, Emilio Parrado-Hern\'andez and Vanessa G\'omez-Verdejo(参考訳) 本稿では, 臨床研究における脂肪データ問題の課題に対処する新しいモデルである, 適合性とベクターマシン(rfvm)について述べる。 ファットデータ問題は、データベースを扱う場合の機械学習(ML)アルゴリズムの限界を指し、特徴の数はサンプルの数よりもはるかに大きい(特定の医療分野における一般的なシナリオ)。 このような制限を克服するために、RFVMは、(1)ベイズモデル平均化により過度に収まることなくモデルがパラメータを推測できるベイズ的定式化(英語版)という異なる特徴を取り入れている。 2) 一次空間(特徴)を定義する変数と二重空間(観測)を定義する変数を同時に含むことにより、脂肪データ特性から生じる制限を克服する共同最適化。 (3) 学習反復最適化において無関係な特徴やサンプルを除去する統合型プルーニング。 また、この最後のポイントは、医学的な前向きな研究を行う際に重要であり、研究者たちは不要な医療検査を除外し、コストと患者の不便さを減らし、障害の特徴を特徴づける重要な患者や対象を特定し、その後、バランスの取れたコホートにつながる患者の採用プロセスを最適化する。 モデル能力は、ファットデータ問題のあるいくつかの医療データセットの最先端モデルに対してテストされる。 これらの実験により、RFVMは(特徴とサンプルの両方の観点から)最もコンパクトなデータサブセットを提供しながら、競争力のある分類精度を達成することができることが示された。 また、選択された特徴(医療検査)は既存の医学文献と一致しているようである。

This paper presents the Relevance Feature and Vector Machine (RFVM), a novel model that addresses the challenges of the fat-data problem when dealing with clinical prospective studies. The fat-data problem refers to the limitations of Machine Learning (ML) algorithms when working with databases in which the number of features is much larger than the number of samples (a common scenario in certain medical fields). To overcome such limitations, the RFVM incorporates different characteristics: (1) A Bayesian formulation which enables the model to infer its parameters without overfitting thanks to the Bayesian model averaging. (2) A joint optimisation that overcomes the limitations arising from the fat-data characteristic by simultaneously including the variables that define the primal space (features) and those that define the dual space (observations). (3) An integrated prunning that removes the irrelevant features and samples during the training iterative optimization. Also, this last point turns out crucial when performing medical prospective studies, enabling researchers to exclude unnecessary medical tests, reducing costs and inconvenience for patients, and identifying the critical patients/subjects that characterize the disorder and, subsequently, optimize the patient recruitment process that leads to a balanced cohort. The model capabilities are tested against state-of-the-art models in several medical datasets with fat-data problems. These experimental works show that RFVM is capable of achieving competitive classification accuracies while providing the most compact subset of data (in both terms of features and samples). Moreover, the selected features (medical tests) seem to be aligned with the existing medical literature.
翻訳日:2024-02-13 17:44:35 公開日:2024-02-11
# 同型分岐上の量子対状態転移

Quantum Pair State Transfer on Isomorphic Branches ( http://arxiv.org/abs/2402.07078v1 )

ライセンス: Link先を確認
Hiranmoy Pal(参考訳) 量子状態移動は量子情報処理において重要な役割を果たす。 ハイゼンベルク$XY$ハミルトニアンの量子ネットワークにおけるある種のペア状態の進化は、ネットワークの局所構造にのみ依存し、大域構造が変化しても変化しない。 高忠実度頂点状態移動を持つ全てのグラフは、高忠実度ペア状態移動を示す大きな量子ネットワークの下のグラフの同型分岐と見なすことができる。 他のグラフでは、完全対の状態遷移を許す無限の木の族を構成できる。

Quantum state transfer plays an important role in quantum information processing. The evolution of certain pair states in a quantum network with Heisenberg $XY$ Hamiltonian depends only on the local structure of the network, and it remains unchanged even if the global structure is altered. All graphs with high fidelity vertex state transfer may be considered as isomorphic branches of the graph underlying a large quantum network to exhibit high fidelity pair state transfer. Among other graphs, one may construct infinite family of trees admitting perfect pair state transfer.
翻訳日:2024-02-13 17:44:06 公開日:2024-02-11
# コントラストプレトレーニングによるマルチフィールドb2bクラウドソリューションマッチングの強化

Enhancing Multi-field B2B Cloud Solution Matching via Contrastive Pre-training ( http://arxiv.org/abs/2402.07076v1 )

ライセンス: Link先を確認
Haonan Chen, Zhicheng Dou, Xuetong Hao, Yunhao Tao, Shiren Song, Zhenli Sheng(参考訳) クラウドソリューションは、特定の問題に取り組むためのサービスとツールの組み合わせを提供するため、テクノロジ業界で大きな人気を集めている。 しかし、その普及にもかかわらず、ソリューションプロバイダの販売チームに対する特定のターゲットソリューションの適切な企業顧客を特定する作業は、既存のマッチングシステムが十分に対応していない複雑なビジネス上の問題のままである。 本研究では,b2bソリューションマッチング問題を調査し,(1)複雑なマルチフィールド特徴のモデリング,(2)限定的,不完全、スパースなトランザクションデータの2つの課題を明らかにする。 これらの課題に対処するために,階層型マルチフィールドマッチング構造をバックボーンとして構築し,データ拡張戦略と,利用可能なデータの不完全性を補うための対照的な事前学習目標によって補足するフレームワークCAMAを提案する。 実世界のデータセットに関する広範な実験を通して、CAMAはいくつかの強力なベースラインマッチングモデルよりも優れていることを示した。 さらに、huawei cloudのシステムにマッチングフレームワークをデプロイしました。 分析の結果,CVR(Conversion Rate)では,従来のオンラインモデルと比較して約30%の改善が見られた。

Cloud solutions have gained significant popularity in the technology industry as they offer a combination of services and tools to tackle specific problems. However, despite their widespread use, the task of identifying appropriate company customers for a specific target solution to the sales team of a solution provider remains a complex business problem that existing matching systems have yet to adequately address. In this work, we study the B2B solution matching problem and identify two main challenges of this scenario: (1) the modeling of complex multi-field features and (2) the limited, incomplete, and sparse transaction data. To tackle these challenges, we propose a framework CAMA, which is built with a hierarchical multi-field matching structure as its backbone and supplemented by three data augmentation strategies and a contrastive pre-training objective to compensate for the imperfections in the available data. Through extensive experiments on a real-world dataset, we demonstrate that CAMA outperforms several strong baseline matching models significantly. Furthermore, we have deployed our matching framework on a system of Huawei Cloud. Our observations indicate an improvement of about 30% compared to the previous online model in terms of Conversion Rate (CVR), which demonstrates its great business value.
翻訳日:2024-02-13 17:43:56 公開日:2024-02-11
# 大規模言語モデルを用いたReward Machineによる強化学習の自動化と高速化

Using Large Language Models to Automate and Expedite Reinforcement Learning with Reward Machine ( http://arxiv.org/abs/2402.07069v1 )

ライセンス: Link先を確認
Shayan Meshkat Alsadat, Jean-Raphael Gaglione, Daniel Neider, Ufuk Topcu, and Zhe Xu(参考訳) 本稿では,高水準知識を強化学習にエンコードし,強化学習を迅速化するlarl-rmアルゴリズムを提案する。 本手法は大規模言語モデル(llm)を用いてプロンプトエンジニアリングを用いて高レベルドメイン固有知識を得る手法であり,専門家がオートマトンをコード化する必要がある高レベル知識を直接強化学習アルゴリズムを提供するものではない。 提案手法は,思考の連鎖的手法と少数ショット法を用いて,これらの手法が有効であることを実証する。 加えて、LARL-RMはLLMを直接使用して作業に必要な高レベルな知識を手元で生成できるため、専門家が学習をガイドし、監督する必要なしに、完全にクローズドループの強化学習を可能にする。 また,アルゴリズムの最適方針への収束を理論的に保証することを示す。 LARL-RMは2つのケーススタディで本手法を実装し,収束を30%高速化することを示した。

We present LARL-RM (Large language model-generated Automaton for Reinforcement Learning with Reward Machine) algorithm in order to encode high-level knowledge into reinforcement learning using automaton to expedite the reinforcement learning. Our method uses Large Language Models (LLM) to obtain high-level domain-specific knowledge using prompt engineering instead of providing the reinforcement learning algorithm directly with the high-level knowledge which requires an expert to encode the automaton. We use chain-of-thought and few-shot methods for prompt engineering and demonstrate that our method works using these approaches. Additionally, LARL-RM allows for fully closed-loop reinforcement learning without the need for an expert to guide and supervise the learning since LARL-RM can use the LLM directly to generate the required high-level knowledge for the task at hand. We also show the theoretical guarantee of our algorithm to converge to an optimal policy. We demonstrate that LARL-RM speeds up the convergence by 30% by implementing our method in two case studies.
翻訳日:2024-02-13 17:43:36 公開日:2024-02-11
# 視聴による学習:ロボット操作のためのビデオベース学習アプローチのレビュー

Learning by Watching: A Review of Video-based Learning Approaches for Robot Manipulation ( http://arxiv.org/abs/2402.07127v1 )

ライセンス: Link先を確認
Chrisantus Eze and Christopher Crick(参考訳) 操作スキルのロボット学習は、多様な偏見のないデータセットの不足によって妨げられている。 キュレートされたデータセットは役立つが、一般的な可能性と現実世界の転送には課題が残る。 一方、大規模ビデオデータセットは、自己監督技術によってコンピュータビジョンの進歩を促している。 これをロボティクスに翻訳した最近の研究は、オンラインソースの豊富な動画を受動的に視聴することで、操作スキルの習得を探求している。 有望な結果を示すビデオベースの学習パラダイムは、データセットバイアスを低減しつつ、スケーラブルな監視を提供する。 本調査は,映像特徴表現学習技術,オブジェクトアフォーアンス理解,3次元ハンド/ボディモデリング,大規模ロボット資源,非制御映像からロボット操作スキルを取得するための新たな技術などの基礎をレビューする。 ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。 この調査は、ビデオベースの学習アプローチを要約し、標準データセット、調査メトリクス、ベンチマークよりもそのメリットを分析し、コンピュータビジョン、自然言語処理、ロボット学習の交差点における、この生まれたばかりの領域におけるオープンチャレンジと今後の方向性について論じている。

Robot learning of manipulation skills is hindered by the scarcity of diverse, unbiased datasets. While curated datasets can help, challenges remain in generalizability and real-world transfer. Meanwhile, large-scale "in-the-wild" video datasets have driven progress in computer vision through self-supervised techniques. Translating this to robotics, recent works have explored learning manipulation skills by passively watching abundant videos sourced online. Showing promising results, such video-based learning paradigms provide scalable supervision while reducing dataset bias. This survey reviews foundations such as video feature representation learning techniques, object affordance understanding, 3D hand/body modeling, and large-scale robot resources, as well as emerging techniques for acquiring robot manipulation skills from uncontrolled video demonstrations. We discuss how learning only from observing large-scale human videos can enhance generalization and sample efficiency for robotic manipulation. The survey summarizes video-based learning approaches, analyses their benefits over standard datasets, survey metrics, and benchmarks, and discusses open challenges and future directions in this nascent domain at the intersection of computer vision, natural language processing, and robot learning.
翻訳日:2024-02-13 17:34:20 公開日:2024-02-11
# Knapsackによる金融ポートフォリオ最適化のための量子近似最適化アルゴリズムの実証分析

Empirical Analysis of Quantum Approximate Optimization Algorithm for Knapsack-based Financial Portfolio Optimization ( http://arxiv.org/abs/2402.07123v1 )

ライセンス: Link先を確認
Chansreynich Huot, Kimleang Kea, Tae-Kyung Kim, Youngsun Han(参考訳) ポートフォリオ最適化はファイナンスにおける意思決定プロセスの主要な要素であり、様々な制約を考慮しつつ、資産を効果的に割り当てて最適なリターンを達成することを目指している。 本稿では、knapsackに基づくポートフォリオ最適化問題を用いて、量子ウォークミキサーの量子計算能力を量子近似最適化アルゴリズム(QAOA)に組み込むことにより、NPハード問題による課題に対処する手法を提案する。 さらに,提案手法のシーケンシャルな手順を提示し,提案手法の有効性を実証し,様々な制約や資産選択にまたがる最適な資産配分を求める上での有効性を示す。 さらに,提案手法に関連して,qaoaコンポーネントの有効性について検討する。 そこで本研究では,古典的なknapsack問題の解法と比較して,p>=3の回路層を用いたポートフォリオ最適化手法の近似比を実現した。 提案手法は,金融ポートフォリオ管理における複雑な最適化タスクに量子アルゴリズムを適用することの潜在的メリットを考察することで,量子ファイナンス分野の成長に潜在的に寄与する。

Portfolio optimization is a primary component of the decision-making process in finance, aiming to tactfully allocate assets to achieve optimal returns while considering various constraints. Herein, we proposed a method that uses the knapsack-based portfolio optimization problem and incorporates the quantum computing capabilities of the quantum walk mixer with the quantum approximate optimization algorithm (QAOA) to address the challenges presented by the NP-hard problem. Additionally, we present the sequential procedure of our suggested approach and demonstrate empirical proof to illustrate the effectiveness of the proposed method in finding the optimal asset allocations across various constraints and asset choices. Moreover, we discuss the effectiveness of the QAOA components in relation to our proposed method. Consequently, our study successfully achieves the approximate ratio of the portfolio optimization technique using a circuit layer of p >= 3, compared to the classical best-known solution of the knapsack problem. Our proposed methods potentially contribute to the growing field of quantum finance by offering insights into the potential benefits of employing quantum algorithms for complex optimization tasks in financial portfolio management.
翻訳日:2024-02-13 17:34:02 公開日:2024-02-11
# 医用画像分割のための2段階マルチタスク自己監督学習

Two-Stage Multi-task Self-Supervised Learning for Medical Image Segmentation ( http://arxiv.org/abs/2402.07119v1 )

ライセンス: Link先を確認
Binyan Hu and A. K. Qin(参考訳) 医用画像のセグメンテーションは、深層学習(DL)技術によって著しく進歩しているが、医療応用に固有のデータ不足は、DLベースのセグメンテーション手法に大きな課題をもたらす。 自己教師付き学習は、利用可能なデータセットから補助的な学習タスクを作成し、次に補助的なタスクの解決から得られた知識を活用して、ターゲットのセグメンテーションタスクの解決を支援するソリューションを提供する。 異なる補助的タスクは異なる性質を持つため、ターゲットタスクを異なる範囲で支援することができる。 補完的優位性を活用して、目標タスクへの全体的な支援を強化することが望まれる。 これを実現するために、既存の手法では、損失や中間勾配を統合することでセグメント化と補助的なタスクを共同で解決するジョイントトレーニングパラダイムを採用することが多い。 しかしながら、損失の直接結合や中間勾配は、各訓練ステップで各補助タスクを解くことで得られる知識が常に目標タスクの恩恵を受けるとは限らないため、望ましくない干渉を引き起こす。 この問題に対処するため,我々は2段階のトレーニング手法を提案する。 第1段階では、目標セグメンテーションタスクは、共同トレーニングとプレトレーニングモードの両方において、各補助タスクと独立に共存し、より良いモデルがバリデーションパフォーマンスによって選択される。 第2段階では、各補助課題に関して得られたモデルは、アンサンブル知識蒸留法を用いて単一のモデルに変換される。 我々のアプローチでは、各補助タスクを最大限に活用して、複数のエリートセグメンテーションモデルを作成し、さらに強力なモデルに組み合わせることができる。 提案手法では,5つの補助的タスクを用いて,X線気胸セグメンテーションデータセットを用いてU-Netモデルを訓練した。 実験の結果,既存の手法よりも優れた手法が得られた。

Medical image segmentation has been significantly advanced by deep learning (DL) techniques, though the data scarcity inherent in medical applications poses a great challenge to DL-based segmentation methods. Self-supervised learning offers a solution by creating auxiliary learning tasks from the available dataset and then leveraging the knowledge acquired from solving auxiliary tasks to help better solve the target segmentation task. Different auxiliary tasks may have different properties and thus can help the target task to different extents. It is desired to leverage their complementary advantages to enhance the overall assistance to the target task. To achieve this, existing methods often adopt a joint training paradigm, which co-solves segmentation and auxiliary tasks by integrating their losses or intermediate gradients. However, direct coupling of losses or intermediate gradients risks undesirable interference because the knowledge acquired from solving each auxiliary task at every training step may not always benefit the target task. To address this issue, we propose a two-stage training approach. In the first stage, the target segmentation task will be independently co-solved with each auxiliary task in both joint training and pre-training modes, with the better model selected via validation performance. In the second stage, the models obtained with respect to each auxiliary task are converted into a single model using an ensemble knowledge distillation method. Our approach allows for making best use of each auxiliary task to create multiple elite segmentation models and then combine them into an even more powerful model. We employed five auxiliary tasks of different proprieties in our approach and applied it to train the U-Net model on an X-ray pneumothorax segmentation dataset. Experimental results demonstrate the superiority of our approach over several existing methods.
翻訳日:2024-02-13 17:33:42 公開日:2024-02-11
# 次世代眼科:リモートスマートフォンベースのコンサルティングを支援するAI対応品質評価

Next-Generation Teleophthalmology: AI-enabled Quality Assessment Aiding Remote Smartphone-based Consultation ( http://arxiv.org/abs/2402.07118v1 )

ライセンス: Link先を確認
Dhruv Srikanth, Jayang Gurung, N Satya Deepika, Vineet Joshi, Pravin Vaddavalli, Soumya Jana(参考訳) 盲目やその他の眼疾患は、特にインドのような低所得国や中所得国では、世界的な健康上の問題となっている。 この点では、新型コロナウイルス(covid-19)のパンデミックの間、眼科は生命線となり、スマートフォンベースの眼画像のためのgrabiアタッチメントが使われるようになった。 しかし、ユーザキャプチャ画像の品質は不適切であり、臨床検査と遅延が必要であった。 本稿では,臨床医の判断を模倣した即時フィードバックによるAIによる品質評価システムを提案する。 複雑な問題を階層的に分割し,非自明な部分に取り組み,概念の証明を示す。

Blindness and other eye diseases are a global health concern, particularly in low- and middle-income countries like India. In this regard, during the COVID-19 pandemic, teleophthalmology became a lifeline, and the Grabi attachment for smartphone-based eye imaging gained in use. However, quality of user-captured image often remained inadequate, requiring clinician vetting and delays. In this backdrop, we propose an AI-based quality assessment system with instant feedback mimicking clinicians' judgments and tested on patient-captured images. Dividing the complex problem hierarchically, here we tackle a nontrivial part, and demonstrate a proof of the concept.
翻訳日:2024-02-13 17:33:13 公開日:2024-02-11
# アダムのプレコンディショニング効果の定量化に向けて

Towards Quantifying the Preconditioning Effect of Adam ( http://arxiv.org/abs/2402.07114v1 )

ライセンス: Link先を確認
Rudrajit Das, Naman Agarwal, Sujay Sanghavi, Inderjit S. Dhillon(参考訳) アダムのプレコンディショニング効果を特徴づけ、どのようにして悪条件の呪いを和らげるかを示す、顕著な研究結果がある。 本研究では,2次関数に対するアダムの事前条件付け効果を詳細に解析し,アダムがヘッシアンの条件数依存性をどの程度緩和できるかを定量化する。 私たちの重要な発見は、Adamが条件数に悩まされることが少なく、次元に依存した量に悩まされることである。 具体的には、条件数$\kappa$を持つ対角ヘシアンを持つ$d$次元二次体に対して、運動量のないアダムの反復複雑性を制御する実効条件数のような量が$\mathcal{O}(\min(d, \kappa))$であることを示す。 対角的に支配的なヘッシアンに対して、対応する量に対して$\mathcal{o}(\min(d \sqrt{d \kappa}, \kappa))$ が与えられる。 したがって、$d < \mathcal{O}(\kappa^p)$ where $p = 1$ for a diagonal Hessian and $p = 1/3$ for a diagonally dominant Hessian とすると、Adam は GD ($\mathcal{O}(\kappa)$dependent を持つ) を上回りうる。 負の面では、Adam は $d \ll \mathcal{O}(\kappa^{1/3})$ であっても十分に非対角ヘッセンに対して GD よりも悪い可能性があることを示唆している。 最後に,Polak-\L ojasiewicz条件の修正版とコーディネート毎のリプシッツ滑らか度を満たす関数に解析を拡張した。

There is a notable dearth of results characterizing the preconditioning effect of Adam and showing how it may alleviate the curse of ill-conditioning -- an issue plaguing gradient descent (GD). In this work, we perform a detailed analysis of Adam's preconditioning effect for quadratic functions and quantify to what extent Adam can mitigate the dependence on the condition number of the Hessian. Our key finding is that Adam can suffer less from the condition number but at the expense of suffering a dimension-dependent quantity. Specifically, for a $d$-dimensional quadratic with a diagonal Hessian having condition number $\kappa$, we show that the effective condition number-like quantity controlling the iteration complexity of Adam without momentum is $\mathcal{O}(\min(d, \kappa))$. For a diagonally dominant Hessian, we obtain a bound of $\mathcal{O}(\min(d \sqrt{d \kappa}, \kappa))$ for the corresponding quantity. Thus, when $d < \mathcal{O}(\kappa^p)$ where $p = 1$ for a diagonal Hessian and $p = 1/3$ for a diagonally dominant Hessian, Adam can outperform GD (which has an $\mathcal{O}(\kappa)$ dependence). On the negative side, our results suggest that Adam can be worse than GD for a sufficiently non-diagonal Hessian even if $d \ll \mathcal{O}(\kappa^{1/3})$; we corroborate this with empirical evidence. Finally, we extend our analysis to functions satisfying per-coordinate Lipschitz smoothness and a modified version of the Polyak-\L ojasiewicz condition.
翻訳日:2024-02-13 17:33:02 公開日:2024-02-11
# 学習と意思決定の分離:first-orderメソッドによるオンラインリソース割り当てにおける$\mathcal{o}(\sqrt{t})$障壁を破る

Decoupling Learning and Decision-Making: Breaking the $\mathcal{O}(\sqrt{T})$ Barrier in Online Resource Allocation with First-Order Methods ( http://arxiv.org/abs/2402.07108v1 )

ライセンス: Link先を確認
Wenzhi Gao, Chunlin Sun, Chenyu Xue, Dongdong Ge, Yinyu Ye(参考訳) オンライン線形プログラミングは、収益管理と資源配分の両方において重要な役割を担い、近年では効率的な一階オンライン学習アルゴリズムの開発に重点を置いている。 一階法の実証的な成功にもかかわらず、それらは一般に$\mathcal{O}(\sqrt{T})$に劣らない後悔を達成し、これは、最先端の線形プログラミング(LP)ベースのオンラインアルゴリズムによって保証される$\mathcal{O}(\log T)$に比して最適である。 本稿では,オンライン線形プログラミングに関するいくつかの重要な事実を整理し,一階法に基づくオンラインアルゴリズムが$\mathcal{O}(\sqrt{T})を超えることの難しさを明らかにする。 そこで本研究では,学習と意思決定を分離する新しいアルゴリズムフレームワークを提案する。 さらに重要なことに、この新しいフレームワークで第一階のメソッドが後悔する$\mathcal{o}(t^{1/3})$が得られることを初めて示す。 最後に,理論的結果を検証する数値実験を行った。

Online linear programming plays an important role in both revenue management and resource allocation, and recent research has focused on developing efficient first-order online learning algorithms. Despite the empirical success of first-order methods, they typically achieve a regret no better than $\mathcal{O}(\sqrt{T})$, which is suboptimal compared to the $\mathcal{O}(\log T)$ bound guaranteed by the state-of-the-art linear programming (LP)-based online algorithms. This paper establishes several important facts about online linear programming, which unveils the challenge for first-order-method-based online algorithms to achieve beyond $\mathcal{O}(\sqrt{T})$ regret. To address the challenge, we introduce a new algorithmic framework that decouples learning from decision-making. More importantly, for the first time, we show that first-order methods can attain regret $\mathcal{O}(T^{1/3})$ with this new framework. Lastly, we conduct numerical experiments to validate our theoretical findings.
翻訳日:2024-02-13 17:32:20 公開日:2024-02-11
# ソクラテス的疑念の反響--校正増補学習における不確実性を受け入れる

Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning ( http://arxiv.org/abs/2402.07107v1 )

ライセンス: Link先を確認
Alex Christopher Stutts, Danilo Erricolo, Theja Tulabandhula, Amit Ranjan Trivedi(参考訳) 本稿では,量子回帰に基づく深部Qネットワークを含むモデル自由分布強化学習において,不確実性認識を取り入れた新しい統計手法を提案する。 提案手法である$\textit{calibrated obvious quantile regression in deep q networks (ceqr-dqn)}$は,確率的環境におけるアレテータ的・認識的不確かさを別々に推定することに関連する重要な課題に対処することを目的としている。 これは、単純な分散に基づく$\textit{local}$の見積もりとは対照的に、共形推論の原理に基づく量子量的校正と組み合わせて、$\textit{global}$の不確かさの明示的でサンプルフリーな計算を提供し、従来の方法の計算と統計の効率における限界を克服し、分散(ood)観測の処理を克服する。 小型のatariゲーム(つまりミナタル)でテストされたceqr-dqnは、スコアと学習速度で既存のフレームワークを上回っている。 不確実性を評価する能力は探索戦略を改善し、不確実性認識を必要とする他のアルゴリズムの青写真として機能する。

We present a novel statistical approach to incorporating uncertainty awareness in model-free distributional reinforcement learning involving quantile regression-based deep Q networks. The proposed algorithm, $\textit{Calibrated Evidential Quantile Regression in Deep Q Networks (CEQR-DQN)}$, aims to address key challenges associated with separately estimating aleatoric and epistemic uncertainty in stochastic environments. It combines deep evidential learning with quantile calibration based on principles of conformal inference to provide explicit, sample-free computations of $\textit{global}$ uncertainty as opposed to $\textit{local}$ estimates based on simple variance, overcoming limitations of traditional methods in computational and statistical efficiency and handling of out-of-distribution (OOD) observations. Tested on a suite of miniaturized Atari games (i.e., MinAtar), CEQR-DQN is shown to surpass similar existing frameworks in scores and learning speed. Its ability to rigorously evaluate uncertainty improves exploration strategies and can serve as a blueprint for other algorithms requiring uncertainty awareness.
翻訳日:2024-02-13 17:31:54 公開日:2024-02-11
# 将来予測は、部分的に観測可能な環境における良い歴史表現の強い証拠となり得る

Future Prediction Can be a Strong Evidence of Good History Representation in Partially Observable Environments ( http://arxiv.org/abs/2402.07102v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Liu Yang, Robert Nowak, Josiah Hanna(参考訳) 優れた歴史表現の学習は、部分的に観察可能な環境で強化学習(RL)のコア課題の1つである。 近年の研究では、表現学習を促進するための様々な補助タスクの利点が示されている。 しかし、特に長期記憶と推測を必要とする部分観測可能な環境では、このような補助タスクの有効性は十分には納得できない。 本研究では,歴史の表現,おそらくは長さの広い部分観察可能な環境において,今後の予測の有効性について検討する。 まず,今後の予測を通じて,政策最適化から歴史表現を学習するタスクを分離する手法を提案する。 主な貢献は次の2つです。 (a)強化学習の性能は、部分的に観測可能な環境における将来の観測の予測精度と強く相関していることを示す。 b)この手法は,高分散雑音信号が強化学習目標から遠ざかって表現学習に影響を与えることを防止し,総合的なエンドツーエンドアプローチを著しく改善することができる。 高いリターンのために長い履歴を処理する能力を必要とする3種類のベンチマークについて、我々の主張を説明する。

Learning a good history representation is one of the core challenges of reinforcement learning (RL) in partially observable environments. Recent works have shown the advantages of various auxiliary tasks for facilitating representation learning. However, the effectiveness of such auxiliary tasks has not been fully convincing, especially in partially observable environments that require long-term memorization and inference. In this empirical study, we investigate the effectiveness of future prediction for learning the representations of histories, possibly of extensive length, in partially observable environments. We first introduce an approach that decouples the task of learning history representations from policy optimization via future prediction. Then, our main contributions are two-fold: (a) we demonstrate that the performance of reinforcement learning is strongly correlated with the prediction accuracy of future observations in partially observable environments, and (b) our approach can significantly improve the overall end-to-end approach by preventing high-variance noisy signals from reinforcement learning objectives to influence the representation learning. We illustrate our claims on three types of benchmarks that necessitate the ability to process long histories for high returns.
翻訳日:2024-02-13 17:31:28 公開日:2024-02-11
# 確率的二階最適化における一階法の複雑性について

On the Complexity of First-Order Methods in Stochastic Bilevel Optimization ( http://arxiv.org/abs/2402.07101v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Dohyun Kwon, Hanbaek Lyu(参考訳) 低レベル問題に制約がなく,かつ強い凸がある場合,二段階最適化において定常点を求める問題を考える。 この問題は近年広く研究されている; 主な技術的課題は、上層変数の$x$の変化に応じて、下層解を$y^*(x)$で追跡することである。 その後、既存のすべてのアプローチは、その分析を低レベルの解を知っているジェニーアルゴリズムに結び付け、従って、それらから遠く離れた点を問う必要はない。 例えば、$y^*$-aware と呼ばれるオラクルが存在して、$O(\epsilon)$-estimate という下層の解を返し、$\Theta(\epsilon)$-ball around $y^*(x)$内の一階勾配推定器を局所的に非バイアス化する。 我々は、y^*$-aware oracle で静止点を見つける複雑さについて検討する:我々は、$o(\epsilon^{-6}), o(\epsilon^{-4})$ 1-order $y^*$-aware oracles を使って $\epsilon$ stationary point に収束する単純な一階法を提案する。 我々の上界は標準の偏見のない一階オラクルにも当てはまり、最小の仮定で$O(\epsilon)$で一階法の最もよく知られた複雑さを改善する。 次に、一致する $\Omega(\epsilon^{-6})$, $\Omega(\epsilon^{-4})$ lower bounds を、それぞれ$y^*$-aware oracles 上の追加の滑らか性仮定なしで提供する。 我々の結果は、$y^*$-aware Oracleでアルゴリズムをシミュレートするいかなるアプローチも、同じ下界を被らなければならないことを示唆している。

We consider the problem of finding stationary points in Bilevel optimization when the lower-level problem is unconstrained and strongly convex. The problem has been extensively studied in recent years; the main technical challenge is to keep track of lower-level solutions $y^*(x)$ in response to the changes in the upper-level variables $x$. Subsequently, all existing approaches tie their analyses to a genie algorithm that knows lower-level solutions and, therefore, need not query any points far from them. We consider a dual question to such approaches: suppose we have an oracle, which we call $y^*$-aware, that returns an $O(\epsilon)$-estimate of the lower-level solution, in addition to first-order gradient estimators {\it locally unbiased} within the $\Theta(\epsilon)$-ball around $y^*(x)$. We study the complexity of finding stationary points with such an $y^*$-aware oracle: we propose a simple first-order method that converges to an $\epsilon$ stationary point using $O(\epsilon^{-6}), O(\epsilon^{-4})$ access to first-order $y^*$-aware oracles. Our upper bounds also apply to standard unbiased first-order oracles, improving the best-known complexity of first-order methods by $O(\epsilon)$ with minimal assumptions. We then provide the matching $\Omega(\epsilon^{-6})$, $\Omega(\epsilon^{-4})$ lower bounds without and with an additional smoothness assumption on $y^*$-aware oracles, respectively. Our results imply that any approach that simulates an algorithm with an $y^*$-aware oracle must suffer the same lower bounds.
翻訳日:2024-02-13 17:31:09 公開日:2024-02-11
# 量子マニフォールド最適化による多体固有状態

Many-Body Eigenstates from Quantum Manifold Optimization ( http://arxiv.org/abs/2402.07100v1 )

ライセンス: Link先を確認
Scott E. Smart, Prineha Narang(参考訳) 量子コンピューティングは多体固有状態を見つけるためのいくつかの新しい経路を提供し、変分的アプローチは最も柔軟で近未来指向である。 これらは状態の特定のパラメータ化を必要とし、複数の固有状態を解くためには直交性を組み込む必要がある。 本研究では,多体固有状態問題の解をスティーフェル多様体とグラスマン多様体上で直接最小化し,状態のパラメータ化を回避し,複数の固有状態を同時に計算できるようにするため,多様体最適化の手法を用いる。 これらのリーマン多様体は自然に直交制約を符号化し、状態と接ベクトルの効率的な量子表現を持つ。 量子多体分子系の例を示し、多重固有状態問題を解くための異なる経路について論じる。

Quantum computing offers several new pathways toward finding many-body eigenstates, with variational approaches being some of the most flexible and near-term oriented. These require particular parameterizations of the state, and for solving multiple eigenstates must incorporate orthogonality. In this work, we use techniques from manifold optimization to arrive at solutions of the many-body eigenstate problem via direct minimization over the Stiefel and Grassmannian manifolds, avoiding parameterizations of the states and allowing for multiple eigenstates to be simultaneously calculated. These Riemannian manifolds naturally encode orthogonality constraints and have efficient quantum representations of the states and tangent vectors. We provide example calculations for quantum many-body molecular systems and discuss different pathways for solving the multiple eigenstate problem.
翻訳日:2024-02-13 17:30:19 公開日:2024-02-11
# グラフニューラルネットワークの分岐戦略における能力の再考

Rethinking the Capacity of Graph Neural Networks for Branching Strategy ( http://arxiv.org/abs/2402.07099v1 )

ライセンス: Link先を確認
Ziang Chen, Jialin Liu, Xiaohan Chen, Xinshang Wang, Wotao Yin(参考訳) グラフニューラルネットワーク(GNN)は、混合整数線形プログラム(MILP)の特性とヒューリスティックを予測し、MILPソルバを加速するために広く用いられている。 本稿では,GNNの高次分岐(SB)スコアの表現能力について検討し,分岐とバウンドのアルゴリズムにおける効率的な戦略を提案する。 最も単純なGNN構造であるメッセージパスGNN(MP-GNN)は、既存の文献においてSBスコアを学習するために頻繁に使用されるが、表現力の根本的な制限を証明している。 さらに,2階民話GNN (2-FGNN) と呼ばれる別のGNN構造に対する普遍近似定理を確立する。 我々は、MILP上の任意のデータ分布に対して、SBスコアを任意に高精度かつ任意に高い確率で近似できる2-FGNNが存在することを示す。 理論的な結果を直接検証するために,小規模数値実験を行った。

Graph neural networks (GNNs) have been widely used to predict properties and heuristics of mixed-integer linear programs (MILPs) and hence accelerate MILP solvers. This paper investigates the capacity of GNNs to represent strong branching (SB) scores that provide an efficient strategy in the branch-and-bound algorithm. Although message-passing GNN (MP-GNN), as the simplest GNN structure, is frequently employed in the existing literature to learn SB scores, we prove a fundamental limitation in its expressive power -- there exist two MILP instances with different SB scores that cannot be distinguished by any MP-GNN, regardless of the number of parameters. In addition, we establish a universal approximation theorem for another GNN structure called the second-order folklore GNN (2-FGNN). We show that for any data distribution over MILPs, there always exists a 2-FGNN that can approximate the SB score with arbitrarily high accuracy and arbitrarily high probability. A small-scale numerical experiment is conducted to directly validate our theoretical findings.
翻訳日:2024-02-13 17:30:05 公開日:2024-02-11
# 合成データを用いたパレット検出の改善

Improving Pallet Detection Using Synthetic Data ( http://arxiv.org/abs/2402.07098v1 )

ライセンス: Link先を確認
Henry Gann, Josiah Bull, Trevor Gee, Mahla Nejati(参考訳) 機械学習における合成データの使用は、効果的なオブジェクト検出器を実装する際にかなりの時間を節約する。 しかし、この分野の研究は限られている。 本研究は,倉庫環境におけるパレットのインスタンスセグメンテーションのタスクにおいて,これまで適用されてきた実装を改善することを目的とする。 本研究では、合成生成したドメインランダム化データと、unityによって生成されたデータを用いてこれを実現する。 本研究は, 実データを用いた評価において, 積層パレットとラックパレットのカテゴリを69%, 50%mAP50で性能改善した。 また,暗い環境での画像に対して評価した場合のモデルの性能にかなりの影響があり,80%の輝度低減で画像上で評価した場合,3%のmap50まで低下することが判明した。 この研究では、YOLOv8とSAMを用いた2段検出器も作成したが、不安定な性能を示した。 ドメインランダム化データの使用は、Unity生成データと比較すると、無視できるパフォーマンス改善であった。

The use of synthetic data in machine learning saves a significant amount of time when implementing an effective object detector. However, there is limited research in this domain. This study aims to improve upon previously applied implementations in the task of instance segmentation of pallets in a warehouse environment. This study proposes using synthetically generated domain-randomised data as well as data generated through Unity to achieve this. This study achieved performance improvements on the stacked and racked pallet categories by 69% and 50% mAP50, respectively when being evaluated on real data. Additionally, it was found that there was a considerable impact on the performance of a model when it was evaluated against images in a darker environment, dropping as low as 3% mAP50 when being evaluated on images with an 80% brightness reduction. This study also created a two-stage detector that used YOLOv8 and SAM, but this proved to have unstable performance. The use of domain-randomised data proved to have negligible performance improvements when compared to the Unity-generated data.
翻訳日:2024-02-13 17:29:45 公開日:2024-02-11
# 量子相転移の量子貯水池探査

Quantum reservoir probing of quantum phase transitions ( http://arxiv.org/abs/2402.07097v1 )

ライセンス: Link先を確認
Kaito Kobayashi and Yukitoshi Motome(参考訳) 量子相転移は、量子多体系において非常に顕著な現象である。 しかし、それらの平衡系における正確な同定は、重要な理論的および実験的課題を引き起こす。 これまでのところ、グローバル量子クエンチを用いた非平衡検出プロトコルが提案されているが、これらの遷移のリアルタイムなシグネチャは複雑な時空間相関に印字され、プロトコルの単純さと汎用性を妥協している。 本稿では,局所量子クエンチに基づく量子相転移を動的に検出する枠組みを提案する。 結果として生じるダイナミクスは局所的なクエンチ操作と量子システムの固有ダイナミクスの両方に影響されるが、前者の効果は量子貯水池探索(qrp)と呼ばれる最先端の枠組みによって排他的に抽出される。 局所的なクエンチの影響は異なる量子相によって異なり、量子臨界点に近接して増幅される固有変動によって抑制される。 その結果、qrpは単一サイト演算子を利用して、パラダイム可積分および非可積分量子システムにおける量子相転移を検出できる。 さらに、位相的量子相転移は同一の枠組みを用いて検出できることを示した。 QRPの幅広い適用性は、その実験的実現性と設計の柔軟性と共に、様々な量子相転移を識別する普遍的な有効性を強調している。

Quantum phase transitions are highly remarkable phenomena manifesting in quantum many-body systems. However, their precise identifications in equilibrium systems pose significant theoretical and experimental challenges. Thus far, nonequilibrium detection protocols utilizing global quantum quenches have been proposed, yet the real-time signatures of these transitions are imprinted in intricate spatiotemporal correlations, compromising the simplicity and versatility of the protocols. Here, we propose a framework for dynamical detection of quantum phase transitions based on local quantum quenches. While the resultant dynamics are influenced by both the local quench operation and the intrinsic dynamics of the quantum system, the effects of the former are exclusively extracted through the cutting-edge framework called quantum reservoir probing (QRP). We illustrate that the impacts of the local quenches vary across different quantum phases, and are subdued by intrinsic fluctuations amplified in proximity to quantum critical points. Consequently, the QRP can detect quantum phase transitions in the paradigmatic integrable and nonintegrable quantum systems, all while utilizing single-site operators. Furthermore, we also show that topological quantum phase transitions can be detected using the identical framework. The broad applicability of the QRP, along with its experimental feasibility and design flexibility, highlights its universal effectiveness in identifying various quantum phase transitions.
翻訳日:2024-02-13 17:29:33 公開日:2024-02-11
# LLM-Cgnition Data Augmentationによる会話高密度検索の一般化

Generalizing Conversational Dense Retrieval via LLM-Cognition Data Augmentation ( http://arxiv.org/abs/2402.07092v1 )

ライセンス: Link先を確認
Haonan Chen, Zhicheng Dou, Kelong Mao, Jiongnan Liu, Ziliang Zhao(参考訳) 会話型検索は、ミューリターン自然言語コンテキストを用いて関連するパスを検索する。 既存の会話の密集した検索モデルは、会話を質問と回答の固定されたシーケンスと見ており、深刻なデータスパーシティの問題を見渡している。 そのため、現実世界のシナリオにおける多様な会話への一般化に苦慮することが多い。 本研究では,LLM認識データ拡張(ConvAug)による会話高密度検索を一般化するためのフレームワークを提案する。 ConvAugは、会話コンテキストの多様な性質を捉えるために、まずマルチレベルな拡張会話を生成する。 人間の認知に触発され、偽陽性、偽陰性、幻覚の発生を緩和するための認知認識プロセスを考案する。 さらに,複雑な会話に対して難解なサンプルを選択する難易度適応型サンプルフィルタを開発し,モデルにより大きな学習空間を与える。 対照的な学習目的は、より良い会話コンテキストエンコーダのトレーニングに使用される。 通常の設定とゼロショット設定の両方で4つの公開データセットで実施された大規模な実験は、ConvAugの有効性、一般化性、適用性を示している。

Conversational search utilizes muli-turn natural language contexts to retrieve relevant passages. Existing conversational dense retrieval models mostly view a conversation as a fixed sequence of questions and responses, overlooking the severe data sparsity problem -- that is, users can perform a conversation in various ways, and these alternate conversations are unrecorded. Consequently, they often struggle to generalize to diverse conversations in real-world scenarios. In this work, we propose a framework for generalizing Conversational dense retrieval via LLM-cognition data Augmentation (ConvAug). ConvAug first generates multi-level augmented conversations to capture the diverse nature of conversational contexts. Inspired by human cognition, we devise a cognition-aware process to mitigate the generation of false positives, false negatives, and hallucinations. Moreover, we develop a difficulty-adaptive sample filter that selects challenging samples for complex conversations, thereby giving the model a larger learning space. A contrastive learning objective is then employed to train a better conversational context encoder. Extensive experiments conducted on four public datasets, under both normal and zero-shot settings, demonstrate the effectiveness, generalizability, and applicability of ConvAug.
翻訳日:2024-02-13 17:29:10 公開日:2024-02-11
# MAGNETO:人間の活動認識のためのエッジAI - プライバシとパーソナライゼーション

MAGNETO: Edge AI for Human Activity Recognition -- Privacy and Personalization ( http://arxiv.org/abs/2402.07180v1 )

ライセンス: Link先を確認
Jingwei Zuo, George Arvanitakis, Mthandazo Ndhlovu and Hakim Hacid(参考訳) HAR(Human Activity Recognition)は、機械学習(ML)技術によって大幅に進歩した、確立された分野である。 企業はHARを消費者製品に統合することに成功しているが、一般的にはユーザーレベルでのパーソナライズを制限する事前定義されたアクティビティセットに依存している。 新しいデータでモデルを更新するためのインクリメンタルな学習の進歩にもかかわらず、これはしばしばクラウド上で起こり、クラウドとエッジデバイス間の定期的なデータ転送を必要とするため、データのプライバシの問題に繋がる。 本稿では,HARタスクをクラウドからエッジへプッシュするエッジAIプラットフォームであるMAGNETOを提案する。 MAGNETOは、クラウドとデータ交換することなく、Edgeデバイス上でインクリメンタルなヒューマンアクティビティ学習を可能にする。 これにより、強力なプライバシ保証、低処理レイテンシ、ユーザに対する高度なパーソナライズが可能になる。 特に、AndroidデバイスでMAGNETOを実演し、データ収集から結果の可視化に至るまで、パイプライン全体を検証する。

Human activity recognition (HAR) is a well-established field, significantly advanced by modern machine learning (ML) techniques. While companies have successfully integrated HAR into consumer products, they typically rely on a predefined activity set, which limits personalizations at the user level (edge devices). Despite advancements in Incremental Learning for updating models with new data, this often occurs on the Cloud, necessitating regular data transfers between cloud and edge devices, thus leading to data privacy issues. In this paper, we propose MAGNETO, an Edge AI platform that pushes HAR tasks from the Cloud to the Edge. MAGNETO allows incremental human activity learning directly on the Edge devices, without any data exchange with the Cloud. This enables strong privacy guarantees, low processing latency, and a high degree of personalization for users. In particular, we demonstrate MAGNETO in an Android device, validating the whole pipeline from data collection to result visualization.
翻訳日:2024-02-13 17:21:33 公開日:2024-02-11
# 大規模言語モデルに基づくインテリジェントインタフェースを用いたソフトウェアプロジェクトの取り組みと規模推定

Effort and Size Estimation in Software Projects with Large Language Model-based Intelligent Interfaces ( http://arxiv.org/abs/2402.07158v1 )

ライセンス: Link先を確認
Claudionor N. Coelho Jr, Hanchen Xiong, Tushar Karayil, Sree Koratala, Rex Shang, Jacob Bollinger, Mohamed Shabar, Syam Nair(参考訳) 大規模言語モデル(llm)の進歩もまた、その応用における同等の増殖をもたらした。 ソフトウェア設計は、固定されたユーザストーリーを拡張するインターフェイスコンポーネントとしてllmを使用することで、大きな利益を得ています。 しかしながら、ソフトウェア設計にLLMベースのAIエージェントを組み込むことは、特に開発作業の推定において、予期せぬ課題を引き起こすことが多い。 uiベースのユーザストーリーの例を通じて、従来の方法との比較を行い、データソース、インターフェース、アルゴリズムを考慮して開発作業の推定を可能にする自然言語ベースの質問の仕様を強化する新しい方法を提案する。

The advancement of Large Language Models (LLM) has also resulted in an equivalent proliferation in its applications. Software design, being one, has gained tremendous benefits in using LLMs as an interface component that extends fixed user stories. However, inclusion of LLM-based AI agents in software design often poses unexpected challenges, especially in the estimation of development efforts. Through the example of UI-based user stories, we provide a comparison against traditional methods and propose a new way to enhance specifications of natural language-based questions that allows for the estimation of development effort by taking into account data sources, interfaces and algorithms.
翻訳日:2024-02-13 17:21:16 公開日:2024-02-11
# 自然言語強化学習

Natural Language Reinforcement Learning ( http://arxiv.org/abs/2402.07157v1 )

ライセンス: Link先を確認
Xidong Feng, Ziyu Wan, Mengyue Yang, Ziyan Wang, Girish A. Koushiks, Yali Du, Ying Wen, Jun Wang(参考訳) 強化学習(rl)は意思決定タスクの学習方針において顕著な能力を示している。 しかしながら、RLはサンプル効率の低下、解釈可能性の欠如、疎い監視信号などの問題によってしばしば妨げられる。 これらの制約に対処するために、人間の学習プロセスからインスピレーションを得て、RLの原理と自然言語表現を革新的に組み合わせた自然言語強化学習(NLRL)を導入する。 具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。 GPT-4のような大規模言語モデル(LLM)の最新の進歩により,NLRLを実用的に実装する方法について述べる。 表状MDPに対する最初の実験は、NLRLフレームワークの有効性、効率、解釈可能性を示している。

Reinforcement Learning (RL) has shown remarkable abilities in learning policies for decision-making tasks. However, RL is often hindered by issues such as low sample efficiency, lack of interpretability, and sparse supervision signals. To tackle these limitations, we take inspiration from the human learning process and introduce Natural Language Reinforcement Learning (NLRL), which innovatively combines RL principles with natural language representation. Specifically, NLRL redefines RL concepts like task objectives, policy, value function, Bellman equation, and policy iteration in natural language space. We present how NLRL can be practically implemented with the latest advancements in large language models (LLMs) like GPT-4. Initial experiments over tabular MDPs demonstrate the effectiveness, efficiency, and also interpretability of the NLRL framework.
翻訳日:2024-02-13 17:21:05 公開日:2024-02-11
# PDEのためのMIONetに基づくハイブリッド反復法:理論と数値例

A hybrid iterative method based on MIONet for PDEs: Theory and numerical examples ( http://arxiv.org/abs/2402.07156v1 )

ライセンス: Link先を確認
Jun Hu and Pengzhan Jin(参考訳) 従来の数値反復解法と最近のニューラルネットワークの強力な機械学習手法を組み合わせたPDEのためのMIONetに基づくハイブリッド反復法を提案し、さらに離散化とモデル推論の誤差から収束条件、スペクトル挙動、収束率などの理論的性質を体系的に解析する。 頻繁に使われるスムーズなスムーズ、すなわちリチャードソン(ヤコビの損傷)とガウス=シーデルの理論結果を示す。 本稿では,ハイブリッド手法の収束率の上限であるモデル補正期間を上限として,ハイブリッド反復を最速に収束させる最小点を示す。 1-d (2-d) のポアソン方程式に対するハイブリッドリチャードソン (ガウス・セイデル) 反復を含むいくつかの数値例を示し、理論結果の検証と優れた加速効果を反映する。 メッシュレス加速法として、実践応用のための膨大なポテンシャルが提供される。

We propose a hybrid iterative method based on MIONet for PDEs, which combines the traditional numerical iterative solver and the recent powerful machine learning method of neural operator, and further systematically analyze its theoretical properties, including the convergence condition, the spectral behavior, as well as the convergence rate, in terms of the errors of the discretization and the model inference. We show the theoretical results for the frequently-used smoothers, i.e. Richardson (damped Jacobi) and Gauss-Seidel. We give an upper bound of the convergence rate of the hybrid method w.r.t. the model correction period, which indicates a minimum point to make the hybrid iteration converge fastest. Several numerical examples including the hybrid Richardson (Gauss-Seidel) iteration for the 1-d (2-d) Poisson equation are presented to verify our theoretical results, and also reflect an excellent acceleration effect. As a meshless acceleration method, it is provided with enormous potentials for practice applications.
翻訳日:2024-02-13 17:20:52 公開日:2024-02-11
# 半線形波動方程式近似による物理形ニューラルネットワークの誤差推定

Error Estimation for Physics-informed Neural Networks Approximating Semilinear Wave Equations ( http://arxiv.org/abs/2402.07153v1 )

ライセンス: Link先を確認
Beatrice Lorenz, Aras Bacho, Gitta Kutyniok(参考訳) 本稿では、半線形波動方程式を近似した物理情報ニューラルネットワークに対する厳密な誤差境界を提供する。 ネットワークの層幅と2つの隠れ層を持つtanhニューラルネットワークのトレーニングポイント数の観点から、一般化とトレーニングエラーの境界を提供する。 我々の主な結果は、トレーニングエラーとトレーニングポイントの数で、$H^1([0,T];L^2(\Omega))$-normの総誤差の境界であり、いくつかの仮定では任意に小さくすることができる。 理論的な境界を数値実験で示す。

This paper provides rigorous error bounds for physics-informed neural networks approximating the semilinear wave equation. We provide bounds for the generalization and training error in terms of the width of the network's layers and the number of training points for a tanh neural network with two hidden layers. Our main result is a bound of the total error in the $H^1([0,T];L^2(\Omega))$-norm in terms of the training error and the number of training points, which can be made arbitrarily small under some assumptions. We illustrate our theoretical bounds with numerical experiments.
翻訳日:2024-02-13 17:20:32 公開日:2024-02-11
# グラフニューラルネットワークを用いたグローバルワイルドファイア予測モデル

Explainable Global Wildfire Prediction Models using Graph Neural Networks ( http://arxiv.org/abs/2402.07152v1 )

ライセンス: Link先を確認
Dayou Chen and Sibo Cheng and Jinwei Hu and Matthew Kasoar and Rossella Arcucci(参考訳) 気候変動の影響が拡大し、森林火災の予測がますます重要になっている。 従来のcnnベースのワイルドファイア予測モデルでは、海洋データの欠如と、気象データにおける遠方の地域間の長距離依存性に対処するのに苦労している。 本稿では,グローバルな山火事予測のための革新的なグラフニューラルネットワーク(GNN)モデルを提案する。 本稿では,グラフ畳み込みネットワーク(GCN)の空間的長所と長短記憶ネットワーク(LSTM)の時間的深度を組み合わせたハイブリッドモデルを提案する。 我々のアプローチは、温暖化と山火事のデータを一意にグラフ表現に変換し、ヌルオーシャンデータロケーションや従来のモデルに固有の長距離依存といった課題に対処します。 JULES-INFERNOシミュレーションのアンサンブルを用いて,既存のアーキテクチャと比較し,予測精度が優れていることを示す。 さらに,モデルの説明可能性,コミュニティ検出による潜在的ワイルドファイア相関クラスタの公開,統合勾配解析による機能の重要性の解明などを強調した。 我々の研究結果は,山火事予測の方法論的領域を前進させるだけでなく,モデル透明性の重要性を浮き彫りにした。

Wildfire prediction has become increasingly crucial due to the escalating impacts of climate change. Traditional CNN-based wildfire prediction models struggle with handling missing oceanic data and addressing the long-range dependencies across distant regions in meteorological data. In this paper, we introduce an innovative Graph Neural Network (GNN)-based model for global wildfire prediction. We propose a hybrid model that combines the spatial prowess of Graph Convolutional Networks (GCNs) with the temporal depth of Long Short-Term Memory (LSTM) networks. Our approach uniquely transforms global climate and wildfire data into a graph representation, addressing challenges such as null oceanic data locations and long-range dependencies inherent in traditional models. Benchmarking against established architectures using an unseen ensemble of JULES-INFERNO simulations, our model demonstrates superior predictive accuracy. Furthermore, we emphasise the model's explainability, unveiling potential wildfire correlation clusters through community detection and elucidating feature importance via Integrated Gradient analysis. Our findings not only advance the methodological domain of wildfire prediction but also underscore the importance of model transparency, offering valuable insights for stakeholders in wildfire management.
翻訳日:2024-02-13 17:20:21 公開日:2024-02-11
# 量子行列幾何学による完全球面ブロッホ超球面

Perfectly Spherical Bloch Hyper-spheres from Quantum Matrix Geometry ( http://arxiv.org/abs/2402.07149v1 )

ライセンス: Link先を確認
Kazuki Hasebe(参考訳) 先行する量子スピン系と電荷単極系の類似を利用して、任意の次元で$\it{exact}$球面対称性を持つブロッホ超球面を構成する。 このようなブロッホ超球面は、先行する量子スピンの軌道の集合として実現され、その幾何学は、高次元のファジィ球面の量子ナムブ幾何学と数学的に整合する。 ブロッホ超球面の安定化群対称性は必然的に退化スピンコヒーレント状態を導入し、超球面ホロノミクスに関連する非可換単極子のウィルツェク・ゼー幾何学的位相をもたらす。 退化スピンコヒーレント状態は自然に行列値の量子幾何テンソルを誘導する。 偶数次元と奇数次元の最小スピンを持つブロッホ超球面の物理的性質はかなり似ているが、その大きなスピンは次元のパリティによって質的に異なる。 スピンコヒーレント状態と高次元の単極調和の正確な対応が確立される。 また、ブロッホ超球によって記述された密度行列について検討し、フォン・ノイマンエントロピーやビュース量子計量のような対応する統計的および幾何学的性質を解明する。

Leveraging analogies between precessing quantum spin systems and charge-monopole systems, we construct Bloch hyper-spheres with $\it{exact}$ spherical symmetries in arbitrary dimensions. Such a Bloch hyper-sphere is realized as a collection of the orbits of precessing quantum spins, and its geometry mathematically aligns with the quantum Nambu geometry of a higher dimensional fuzzy sphere. Stabilizer group symmetry of the Bloch hyper-sphere necessarily introduces degenerate spin-coherent states and gives rise to Wilczek-Zee geometric phases of non-Abelian monopoles associated with the hyper-sphere holonomies. The degenerate spin-coherent states naturally induce matrix-valued quantum geometric tensors also. While the physical properties of Bloch hyper-spheres with minimal spin in even and odd dimensions are quite similar, their large spin counterparts differ qualitatively depending on the parity of dimensions. Exact correspondences between spin-coherent states and monopole harmonics in higher dimensions are established. We also investigate density matrices described by Bloch hyper-balls and elucidate their corresponding statistical and geometric properties such as von Neumann entropies and Bures quantum metrics.
翻訳日:2024-02-13 17:20:01 公開日:2024-02-11
# X-LoRA:タンパク質力学と設計に応用した大規模言語モデルのためのフレキシブルフレームワーク、低ランクアダプタエキスパートの混在

X-LoRA: Mixture of Low-Rank Adapter Experts, a Flexible Framework for Large Language Models with Applications in Protein Mechanics and Design ( http://arxiv.org/abs/2402.07148v1 )

ライセンス: Link先を確認
Eric L. Buehler, Markus J. Buehler(参考訳) 我々は,低ランク適応(lora)に基づく層毎のトークンレベルの深層アプローチを用いて,微調整された大規模言語モデルを作成するための専門家戦略の混合について報告する。 事前学習されたLoRAアダプタのセットから、隠れ状態を用いて動的に適応された層を混合し、結果として得られるX-LoRAモデルを異なる能力で描画し、特定のタスクを解くために未使用の深層結合を生成するゲーティング戦略を提案する。 このデザインは普遍性と多様性の生物学的原理に触発され、ニューラルネットワークのビルディングブロックは異なる階層的な表現で再利用される。 したがって、X-LoRAモデルは、基盤構造を変更することなく、既存の大きな言語モデル(LLM)に対して容易に実装できる。 我々は, バイオマテリアル分析, タンパク質力学, 設計に焦点をあてた, フォワード/逆解析タスク, 推論能力の強化など, 科学的能力を提供するX-LoRAモデルを開発した。 この作業の影響には、強力なドメイン知識を持つ、容易に拡張可能で適応可能で変更可能なモデルへのアクセスと、知識の領域間で統合する能力が含まれる。 X-LoRAモデルは、生物学、数学、推論、バイオインスパイアされた材料、力学と材料、化学、タンパク質力学の専門家を特徴とする。 知識リコール、タンパク質力学の前方/逆タスク、タンパク質設計、オントロジナレッジグラフを含む逆エージェントモデリングについて検討する。 このモデルは、タンパク質のナノメカニカルな性質を定量的に予測するだけでなく、結果に対する理由や、異なる分子の挙動を説明するメカニズムを正確に予測することができる。

We report a mixture of expert strategy to create fine-tuned large language models using a deep layer-wise token-level approach based on low-rank adaptation (LoRA). Starting with a set of pre-trained LoRA adapters, we propose a gating strategy that uses the hidden states to dynamically mix adapted layers, allowing the resulting X-LoRA model to draw upon different capabilities and create never-before-used deep layer-wise combinations of adaptations are established to solve specific tasks. The design is inspired by the biological principles of universality and diversity, where neural network building blocks are reused in different hierarchical manifestations. Hence, the X-LoRA model can be easily implemented for any existing large language model (LLM) without a need for modifications of the underlying structure. We develop a tailored X-LoRA model that offers scientific capabilities including forward/inverse analysis tasks and enhanced reasoning capability, focused on biomaterial analysis, protein mechanics and design. The impact of this work include access to readily expandable, adaptable and changeable models with strong domain knowledge and the capability to integrate across areas of knowledge. With the X-LoRA model featuring experts in biology, mathematics, reasoning, bio-inspired materials, mechanics and materials, chemistry, and protein mechanics we conduct a series of physics-focused case studies. We examine knowledge recall, protein mechanics forward/inverse tasks, protein design, and adversarial agentic modeling including ontological knowledge graphs. The model is capable not only of making quantitative predictions of nanomechanical properties of proteins, but also reasons over the results and correctly predicts likely mechanisms that explain distinct molecular behaviors.
翻訳日:2024-02-13 17:19:37 公開日:2024-02-11
# 要件変数管理のためのNLPベースのソリューションの設計 - Vismaのデザイン科学研究から-

Designing NLP-based solutions for requirements variability management: experiences from a design science study at Visma ( http://arxiv.org/abs/2402.07145v1 )

ライセンス: Link先を確認
Parisa Elahidoost, Michael Unterkalmsteiner, Davide Fucci, Peter Liljenberg, Jannik Fischbach(参考訳) コンテキストとモチベーション: この産学連携プロジェクトでは、ソフトウェアアーキテクト、ビジネスアナリスト、テストエンジニアが支援する研究チームが、大規模ビジネスソフトウェア開発企業における要件変動の課題を調査した。 質問/課題: 設計科学のパラダイムに従い、要求分析と契約文書の文脈での追跡の問題を特に要求の変動性を管理することに焦点を当てて検討した。 本稿では,その経験から学んだ教訓を報告するとともに,要求変動管理の領域で得られた戦略と洞察を明らかにする。 主観/反感: この経験報告は、産業における要求工学研究にデザイン科学を適用することで得られる洞察を概説する。 要件変動問題に取り組むための様々な戦略を提示し,評価する。 コントリビューション: イテレーションとソリューション開発が問題理解と並行して進化したことを報告します。 このプロセスから,契約ベースの環境における要求変動に対するソリューションを探究する上で,設計科学の有効性を強調した5つの重要な教訓を導き出した。

Context and motivation: In this industry-academia collaborative project, a team of researchers, supported by a software architect, business analyst, and test engineer explored the challenges of requirement variability in a large business software development company. Question/problem: Following the design science paradigm, we studied the problem of requirements analysis and tracing in the context of contractual documents, with a specific focus on managing requirements variability. This paper reports on the lessons learned from that experience, highlighting the strategies and insights gained in the realm of requirements variability management. Principal ideas/results: This experience report outlines the insights gained from applying design science in requirements engineering research in industry. We show and evaluate various strategies to tackle the issue of requirement variability. Contribution: We report on the iterations and how the solution development evolved in parallel with problem understanding. From this process, we derive five key lessons learned to highlight the effectiveness of design science in exploring solutions for requirement variability in contract-based environments.
翻訳日:2024-02-13 17:19:06 公開日:2024-02-11
# 文章記述における逐次順序付け:大規模言語モデルの空間知覚能力への影響

Sequential Ordering in Textual Descriptions: Impact on Spatial Perception Abilities of Large Language Models ( http://arxiv.org/abs/2402.07140v1 )

ライセンス: Link先を確認
Yuyao Ge, Shenghua Liu, Lingrui Mei, Lizhe Chen, Xueqi Cheng(参考訳) 近年、Large Language Modelsは複数のドメインで最先端のパフォーマンスを実現している。 しかし、グラフ推論の分野の進歩は限られている。 LLMを用いたグラフ推論を徹底的に研究することで、このギャップを埋めることができます。 本研究では,テキスト列がllm空間理解に与える影響を明らかにし,グラフ記述文列がllm推論性能に大きく影響することを示す。 グラフ記述型テキストシーケンスを変更することにより, LLM の性能を 42.22 % から 70 % に向上させる。 さらに,LLMの性能とグラフサイズとの関係を評価し,LLMの推論性能がグラフサイズの増加とともに単調に低下しないことを示した。 包括的に、様々なグラフサイズでLLM性能を評価するためのスケールドグラフ推論ベンチマークを導入する。

In recent years, Large Language Models have reached state-of-the-art performance across multiple domains. However, the progress in the field of graph reasoning remains limited. Our work delves into this gap by thoroughly investigating graph reasoning with LLM. In this work, we reveal the impact of text sequence on LLM spatial understanding, finding that graph-descriptive text sequences significantly affect LLM reasoning performance on graphs. By altering the graph-descriptive text sequences, we enhance the performance of LLM from 42.22\% to 70\%. Furthermore, we evaluate the relationship between LLM performance and graph size, discovering that the reasoning performance of LLM does not monotonically decrease with the increase in graph size. Conclusively, we introduce the Scaled Graph Reasoning benchmark for assessing LLM performance across varied graph sizes.
翻訳日:2024-02-13 17:18:47 公開日:2024-02-11
# ブラックボックスモデルによるロバストカー追従ダイナミクスモデリングに向けて:方法論、分析、推奨

Towards Robust Car Following Dynamics Modeling via Blackbox Models: Methodology, Analysis, and Recommendations ( http://arxiv.org/abs/2402.07139v1 )

ライセンス: Link先を確認
Muhammad Bilal Shahid, Cody Fleming(参考訳) GIPPS、IMMなどのモデルに従って古典車の学習パラメータを学習しながら、対象変数の選択が重要である。 目標変数が古典的なカー追従モデルに最適であるような膨大な文献が存在するが、lstmなどブラックボックスモデルの最適目標変数の選択を実証的に評価する研究はない。 LSTM や Gaussian Process (GP) のようなブラックボックスモデルは、目標変数を適切に選択することなく、車追従動作をモデル化するためにますます使われている。 現在の作業では、GP、LSTM、カーネルリッジ回帰という3つのブラックボックスモデルに対して、加速、速度、進路などの異なるターゲット変数をテストする。 これらのモデルは異なる目的関数を持ち、gp は関数空間で働き、lstm はパラメータ空間で作用するなど、異なるベクトル空間で作用する。 実験の結果,ブラックボックスモデルに対する最適目標変数レコメンデーションは,対象関数とベクトル空間に依存する古典的なモデルとは異なることがわかった。 評価に使用されるモデルとデータセットは本質的に多様であり、データセットには自動と人力の両方の車両軌道が含まれており、ブラックボックスモデルはパラメトリックと非パラメトリックの両方のモデルのクラスに属している。 この多様性は分散の分析において重要であり、データセット、モデル、ターゲット変数間の相互作用を見つけ出そうとする。 モデルとターゲット変数が相互作用し、推奨対象変数が検討中のデータセットに依存しないことが示されている。

The selection of the target variable is important while learning parameters of the classical car following models like GIPPS, IDM, etc. There is a vast body of literature on which target variable is optimal for classical car following models, but there is no study that empirically evaluates the selection of optimal target variables for black-box models, such as LSTM, etc. The black-box models, like LSTM and Gaussian Process (GP) are increasingly being used to model car following behavior without wise selection of target variables. The current work tests different target variables, like acceleration, velocity, and headway, for three black-box models, i.e., GP, LSTM, and Kernel Ridge Regression. These models have different objective functions and work in different vector spaces, e.g., GP works in function space, and LSTM works in parameter space. The experiments show that the optimal target variable recommendations for black-box models differ from classical car following models depending on the objective function and the vector space. It is worth mentioning that models and datasets used during evaluation are diverse in nature: the datasets contained both automated and human-driven vehicle trajectories; the black-box models belong to both parametric and non-parametric classes of models. This diversity is important during the analysis of variance, wherein we try to find the interaction between datasets, models, and target variables. It is shown that the models and target variables interact and recommended target variables don't depend on the dataset under consideration.
翻訳日:2024-02-13 17:18:35 公開日:2024-02-11
# 先例のないコード変更自動化 - LLMの融合と例による変換

Unprecedented Code Change Automation: The Fusion of LLMs and Transformation by Example ( http://arxiv.org/abs/2402.07138v1 )

ライセンス: Link先を確認
Malinda Dilhara, Abhiram Bellur, Timofey Bryksin, Danny Dig(参考訳) ソフトウェア開発者はしばしばプロジェクト内およびプロジェクト間で"code change patterns"(cpats)と呼ばれるコード変更を繰り返す。 これらのcpatの自動化は開発を加速するが、例による現在のトランスフォーメーション(tbe)技術は、入力例の品質と量によって制限される。 膨大なコードデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、意味論的に等価で見えないCPAT変種を生成して、TBEの有効性を高めることで、これらの制限を克服することができる。 正確性、有用性、適用性の基準を満たすコード変種を生成するためにLLMを使用するベストプラクティスを特定した。 これらはPyCraftで実装され、静的解析と動的解析をLLMと組み合わせ、96.6%のF測定で正しい変種を識別し、入力を平均58倍拡張し、ターゲット符号を最大39倍向上させる変更を自動化する。 PyCraftのパッチは、microsoft/DeepSpeedやIBM/inFairnessといったプロジェクトに83%の受け入れ率で提出され、このアプローチの有用性を検証しました。

Software developers often repeat code changes, known as "code change patterns" (CPATs), within and across projects. Automating these CPATs accelerates development, but current Transformation by Example (TBE) techniques are limited by the input examples' quality and quantity, missing variations with different syntax or flow yet semantically similar. Large Language Models (LLMs), trained on vast code datasets, can overcome these limitations by generating semantically equivalent, unseen CPAT variants, enhancing TBE effectiveness. We identified best practices for using LLMs to generate code variants meeting criteria of correctness, usefulness, and applicability. Implementing these in PyCraft, combining static and dynamic analysis with LLMs, we achieved an F-measure of 96.6% in identifying correct variants, expanding inputs by 58x on average, and automating changes to increase target codes by up to 39x. Patches from PyCraft were submitted to projects like microsoft/DeepSpeed and IBM/inFairness, with an 83% acceptance rate, validating our approach's usefulness.
翻訳日:2024-02-13 17:18:09 公開日:2024-02-11
# BAFLineDP:ラインレベル欠陥予測のためのコードバイリニア注意融合フレームワーク

BAFLineDP: Code Bilinear Attention Fusion Framework for Line-Level Defect Prediction ( http://arxiv.org/abs/2402.07132v1 )

ライセンス: Link先を確認
Shaojian Qiu, Huihao Huang, Jianxiang Luo, Yingjie Kuang, Haoyu Luo(参考訳) ソフトウェア欠陥予測(software defect prediction)は、欠陥が発生しやすいコードを特定し、開発者がリソースの割り当てを最適化するのに役立つ。 ほとんどの欠陥予測アプローチは、主に粗粒度の高いファイルレベルの欠陥予測にフォーカスしており、欠陥のあるコードを見つけるのに必要な精度を開発者に提供できない。 近年,細粒度ラインレベルの欠陥予測手法が提案されている。 しかし、これらのアプローチのほとんどは、コード行の文脈的意味に関する深い考察を欠き、コード行間のローカルなインタラクション情報を無視している。 上記の問題に対処するため,コード双線形アテンション融合フレームワーク(BAFLineDP)を基盤としたラインレベルの欠陥予測手法を提案する。 ソースコードのセマンティクス、行レベルのコンテキスト、およびコードラインと行レベルのコンテキスト間のローカルなインタラクション情報を統合することにより、欠陥のあるコードファイルと行を識別する。 32リリースを含む9つのプロジェクトにおいて,プロジェクト内およびプロジェクト間の欠陥予測を広範囲に分析することにより,BAFLineDPが現在のファイルレベルおよびラインレベルの欠陥予測手法より優れていることを示す。

Software defect prediction aims to identify defect-prone code, aiding developers in optimizing testing resource allocation. Most defect prediction approaches primarily focus on coarse-grained, file-level defect prediction, which fails to provide developers with the precision required to locate defective code. Recently, some researchers have proposed fine-grained, line-level defect prediction methods. However, most of these approaches lack an in-depth consideration of the contextual semantics of code lines and neglect the local interaction information among code lines. To address the above issues, this paper presents a line-level defect prediction method grounded in a code bilinear attention fusion framework (BAFLineDP). This method discerns defective code files and lines by integrating source code line semantics, line-level context, and local interaction information between code lines and line-level context. Through an extensive analysis involving within- and cross-project defect prediction across 9 distinct projects encompassing 32 releases, our results demonstrate that BAFLineDP outperforms current advanced file-level and line-level defect prediction approaches.
翻訳日:2024-02-13 17:17:46 公開日:2024-02-11
# プライベート統計推論のための再サンプリング法

Resampling methods for Private Statistical Inference ( http://arxiv.org/abs/2402.07131v1 )

ライセンス: Link先を確認
Karan Chadha, John Duchi and Rohit Kuditipudi(参考訳) 我々は,信頼区間を差分プライバシーで構築するタスクについて考察する。 本稿では,複数の‘little'ブートストラップがデータのパーティション上で実行され,結果の信頼区間のカバレッジエラーに漸近的境界を与える,非パラメトリックブートストラップの2つのプライベート変種を提案する。 固定差分プライバシーパラメータ$\epsilon$に対して、我々のメソッドは、サンプルサイズ$n$の対数係数内の非プライベートブートストラップと同じエラー率を享受します。 実データと合成データの両方を用いて平均推定,中央値推定,ロジスティック回帰の手法の性能を実証的に検証した。 提案手法は,既存手法(および非プライベートベースライン)と同様のカバレッジ精度を達成し,従来手法よりもはるかに短い信頼区間(10ドル倍)を提供する。

We consider the task of constructing confidence intervals with differential privacy. We propose two private variants of the non-parametric bootstrap, which privately compute the median of the results of multiple ``little'' bootstraps run on partitions of the data and give asymptotic bounds on the coverage error of the resulting confidence intervals. For a fixed differential privacy parameter $\epsilon$, our methods enjoy the same error rates as that of the non-private bootstrap to within logarithmic factors in the sample size $n$. We empirically validate the performance of our methods for mean estimation, median estimation, and logistic regression with both real and synthetic data. Our methods achieve similar coverage accuracy to existing methods (and non-private baselines) while providing notably shorter ($\gtrsim 10$ times) confidence intervals than previous approaches.
翻訳日:2024-02-13 17:17:24 公開日:2024-02-11
# 消音拡散暗黙モデルによる潜在空間からの新規橋梁タイプ生成の試み

An attempt to generate new bridge types from latent space of denoising diffusion Implicit model ( http://arxiv.org/abs/2402.07129v1 )

ライセンス: Link先を確認
Hongjun Zhang(参考訳) 橋梁型革新に消音拡散暗黙モデルを使用する。 画像にノイズやノイズを加えるプロセスは、死体の腐敗や、犠牲者の現場を修復する刑事のプロセスに似て、初心者が理解できるようにすることができる。 理解し易い代数的手法により、ノイズの追加や雑音化の関数式を導出し、初心者がモデルの数学的原理を習得しやすくする。 三次元ビームブリッジ,アーチブリッジ,ケーブルステイドブリッジ,サスペンションブリッジの対称構造イメージデータセットを用いて,Pythonプログラミング言語,TensorFlow,Kerasディープラーニングプラットフォームフレームワークをベースとして,拡散暗黙モデルの構築とトレーニングを行う。 潜在空間サンプリングから、非対称構造を持つ新しいブリッジタイプを生成することができる。 拡散暗黙のモデルは、人間のオリジナルブリッジタイプに基づいて異なる構造成分を有機的に組み合わせ、新しいブリッジタイプを作成することができる。

Use denoising diffusion implicit model for bridge-type innovation. The process of adding noise and denoising to an image can be likened to the process of a corpse rotting and a detective restoring the scene of a victim being killed, to help beginners understand. Through an easy-to-understand algebraic method, derive the function formulas for adding noise and denoising, making it easier for beginners to master the mathematical principles of the model. Using symmetric structured image dataset of three-span beam bridge, arch bridge, cable-stayed bridge and suspension bridge , based on Python programming language, TensorFlow and Keras deep learning platform framework , denoising diffusion implicit model is constructed and trained. From the latent space sampling, new bridge types with asymmetric structures can be generated. Denoising diffusion implicit model can organically combine different structural components on the basis of human original bridge types, and create new bridge types.
翻訳日:2024-02-13 17:17:10 公開日:2024-02-11
# 手術時脳腫瘍検出のためのハイパースペクトル画像の時空間分類

Spatio-spectral classification of hyperspectral images for brain cancer detection during surgical operations ( http://arxiv.org/abs/2402.07192v1 )

ライセンス: Link先を確認
H. Fabelo, S. Ortega, D. Ravi, B. R. Kiran, C. Sosa, D. Bulters, G. M. Callico, H. Bulstrode, A. Szolna, J. F. Pineiro, S. Kabwama, D. Madronal, R. Lazcano, A. J. OShanahan, S. Bisshopp, M. Hernandez, A. Baez-Quevedo, G. Z. Yang, B. Stanciulescu, R. Salvador, E. Juarez, R. Sarmiento(参考訳) 脳腫瘍の手術は神経外科において大きな問題である。 これらの腫瘍による周囲の正常脳への拡散浸潤は、裸眼による正確な同定を困難にする。 脳腫瘍に対する手術は一般的な治療であるため、腫瘍の正確な根治的切除は患者の生存率の向上につながる。 しかし,手術中の腫瘍境界の同定は困難である。 ハイパースペクトルイメージングは、医学的診断に適した非接触、非イオン化、非侵襲的な技術である。 本研究は,脳神経外科医が外科手術時の腫瘍境界を正確に決定するのに役立つため,高スペクトル像の空間的・スペクトル的特徴を考慮に入れた新しい分類法の開発である。 本研究で提案するアルゴリズムは,教師付きと教師なしの両方の機械学習手法を組み合わせたハイブリッドフレームワークからなる。 提案法を評価するために,in vivoで5例の異なる患者から,グリオブラスト腫腫瘍の影響を受ける脳表面の5つのハイパースペクトル画像を用いた。 得られた最終分類地図は専門家によって分析され検証された。 これらの予備的結果は有望であり,腫瘍領域の正確な明細化が得られる。

Surgery for brain cancer is a major problem in neurosurgery. The diffuse infiltration into the surrounding normal brain by these tumors makes their accurate identification by the naked eye difficult. Since surgery is the common treatment for brain cancer, an accurate radical resection of the tumor leads to improved survival rates for patients. However, the identification of the tumor boundaries during surgery is challenging. Hyperspectral imaging is a noncontact, non-ionizing and non-invasive technique suitable for medical diagnosis. This study presents the development of a novel classification method taking into account the spatial and spectral characteristics of the hyperspectral images to help neurosurgeons to accurately determine the tumor boundaries in surgical-time during the resection, avoiding excessive excision of normal tissue or unintentionally leaving residual tumor. The algorithm proposed in this study to approach an efficient solution consists of a hybrid framework that combines both supervised and unsupervised machine learning methods. To evaluate the proposed approach, five hyperspectral images of surface of the brain affected by glioblastoma tumor in vivo from five different patients have been used. The final classification maps obtained have been analyzed and validated by specialists. These preliminary results are promising, obtaining an accurate delineation of the tumor area.
翻訳日:2024-02-13 17:09:10 公開日:2024-02-11
# gsina: graph sinkhorn attentionによるグラフ不変学習のための部分グラフ抽出の改善

GSINA: Improving Subgraph Extraction for Graph Invariant Learning via Graph Sinkhorn Attention ( http://arxiv.org/abs/2402.07191v1 )

ライセンス: Link先を確認
Fangyu Ding, Haiyang Wang, Zhixuan Chu, Tianming Li, Zhaoping Hu, Junchi Yan(参考訳) グラフ不変学習(gil)は、様々な分布シフトの下で異なるグラフ学習タスクのためのグラフデータとそのラベル間の不変関係を発見するための効果的なアプローチである。 GILの最近の多くの取り組みは、グラフ学習の一般化性能を改善するための正規化戦略として、入力グラフから不変部分グラフを抽出することに焦点を当てている。 これらの手法は成功にもかかわらず、不変部分グラフを得る際にも様々な制限がある。 本稿では,既存の作品の欠点を詳細に分析し,不変部分グラフ抽出の原理を提案する。 1) 異質な特徴をフィルターするスパーシティ 2)柔らかさ,より広い解空間,及び 3) 完全なエンドツーエンド最適化のための差別化性。 これらの原則を1ショットで満たすために、最適輸送(OT)理論を活用し、グラフシンクホーン注意(GSINA)と呼ばれる新しいグラフ注意機構を提案する。 この手法はGILタスクの強力な正規化手法として機能する。 GSINAにより、制御可能な空間性と柔らかさを持つ有意義で微分可能な不変部分グラフを得ることができる。 さらに、gsinaは、複数のデータ粒度のgilタスクを処理できる一般的なグラフ学習フレームワークである。 GSINAは、グラフレベルのタスクとノードレベルのタスクの両方において、最先端のGILメソッドよりも優れています。 我々のコードは \url{https://github.com/dingfangyu/GSINA} で公開されている。

Graph invariant learning (GIL) has been an effective approach to discovering the invariant relationships between graph data and its labels for different graph learning tasks under various distribution shifts. Many recent endeavors of GIL focus on extracting the invariant subgraph from the input graph for prediction as a regularization strategy to improve the generalization performance of graph learning. Despite their success, such methods also have various limitations in obtaining their invariant subgraphs. In this paper, we provide in-depth analyses of the drawbacks of existing works and propose corresponding principles of our invariant subgraph extraction: 1) the sparsity, to filter out the variant features, 2) the softness, for a broader solution space, and 3) the differentiability, for a soundly end-to-end optimization. To meet these principles in one shot, we leverage the Optimal Transport (OT) theory and propose a novel graph attention mechanism called Graph Sinkhorn Attention (GSINA). This novel approach serves as a powerful regularization method for GIL tasks. By GSINA, we are able to obtain meaningful, differentiable invariant subgraphs with controllable sparsity and softness. Moreover, GSINA is a general graph learning framework that could handle GIL tasks of multiple data grain levels. Extensive experiments on both synthetic and real-world datasets validate the superiority of our GSINA, which outperforms the state-of-the-art GIL methods by large margins on both graph-level tasks and node-level tasks. Our code is publicly available at \url{https://github.com/dingfangyu/GSINA}.
翻訳日:2024-02-13 17:08:33 公開日:2024-02-11
# 引張ランダム投影によるLSHの改善

Improving LSH via Tensorized Random Projection ( http://arxiv.org/abs/2402.07189v1 )

ライセンス: Link先を確認
Bhisham Dev Verma and Rameshwar Pratap(参考訳) 局所性感度ハッシュ (Locality sensitive hashing, LSH) は、データ科学者が近接探索問題に近く、近接検出、近接探索、クラスタリングなど多くの大規模データ処理アプリケーションで広く使われている基本的なアルゴリズムツールキットである。 本研究では,ユークリッド距離とテンソルデータのコサイン類似性に対して,より高速で空間効率の良い局所性センシティブなハッシュ関数を提案する。 典型的には、テンソルデータのLSHを得るためには、まずテンソルをベクトルに変換し、続いてベクトルデータに$E2LSH$と$SRP$に既存のLSHメソッドを適用する。 しかし、この手法はテンソルの順序で再形ベクトルのサイズが指数関数となるため、高次テンソルに対しては実用的ではない。 その結果、LSHパラメータのサイズは指数関数的に増加する。 この問題を解決するために、ユークリッド距離とコサイン類似性のためのLSHの2つの方法、すなわち、$CP-E2LSH$、$TT-E2LSH$、$CP-SRP$、$TT-SRP$をそれぞれ提案する。 私たちのアプローチは空間効率が良く、低ランクの$cp$や$tt$テンソルに効率的に適用できます。 我々は,提案の正確性と有効性に関する厳密な理論的分析を行う。

Locality sensitive hashing (LSH) is a fundamental algorithmic toolkit used by data scientists for approximate nearest neighbour search problems that have been used extensively in many large scale data processing applications such as near duplicate detection, nearest neighbour search, clustering, etc. In this work, we aim to propose faster and space efficient locality sensitive hash functions for Euclidean distance and cosine similarity for tensor data. Typically, the naive approach for obtaining LSH for tensor data involves first reshaping the tensor into vectors, followed by applying existing LSH methods for vector data $E2LSH$ and $SRP$. However, this approach becomes impractical for higher order tensors because the size of the reshaped vector becomes exponential in the order of the tensor. Consequently, the size of LSH parameters increases exponentially. To address this problem, we suggest two methods for LSH for Euclidean distance and cosine similarity, namely $CP-E2LSH$, $TT-E2LSH$, and $CP-SRP$, $TT-SRP$, respectively, building on $CP$ and tensor train $(TT)$ decompositions techniques. Our approaches are space efficient and can be efficiently applied to low rank $CP$ or $TT$ tensors. We provide a rigorous theoretical analysis of our proposal on their correctness and efficacy.
翻訳日:2024-02-13 17:08:08 公開日:2024-02-11
# 対向ロバスト防御のための暗号化ビジョントランスのランダムアンサンブル

A Random Ensemble of Encrypted Vision Transformers for Adversarially Robust Defense ( http://arxiv.org/abs/2402.07183v1 )

ライセンス: Link先を確認
Ryota Iijima, Sayaka Shiota, Hitoshi Kiya(参考訳) ディープニューラルネットワーク(DNN)は、敵の例(AE)に弱いことがよく知られている。 従来の研究では、秘密鍵で暗号化されたモデルの使用はホワイトボックス攻撃に対して堅牢であるが、ブラックボックス攻撃には耐えられないことが示されている。 本稿では,ホワイトボックス攻撃とブラックボックス攻撃の両方に対するロバスト性を高めるために,暗号化されたモデルのランダムアンサンブルであるvision transformer(vit)を用いた新しい手法を提案する。 さらに、AutoAttackと呼ばれるベンチマークアタック手法をモデルに適用し、敵のロバスト性を客観的にテストする。 実験では、CIFAR-10とImageNetデータセット上の画像分類タスクにおいて、ホワイトボックス攻撃だけでなくブラックボックス攻撃に対しても堅牢であることが実証された。 また, 対向ロバストベンチ(RobostBench)の正当性評価ベンチマークにおいて, 従来の防御性能を, 清潔な精度とロバストな精度で向上することが確認された。

Deep neural networks (DNNs) are well known to be vulnerable to adversarial examples (AEs). In previous studies, the use of models encrypted with a secret key was demonstrated to be robust against white-box attacks, but not against black-box ones. In this paper, we propose a novel method using the vision transformer (ViT) that is a random ensemble of encrypted models for enhancing robustness against both white-box and black-box attacks. In addition, a benchmark attack method, called AutoAttack, is applied to models to test adversarial robustness objectively. In experiments, the method was demonstrated to be robust against not only white-box attacks but also black-box ones in an image classification task on the CIFAR-10 and ImageNet datasets. The method was also compared with the state-of-the-art in a standardized benchmark for adversarial robustness, RobustBench, and it was verified to outperform conventional defenses in terms of clean accuracy and robust accuracy.
翻訳日:2024-02-13 17:07:39 公開日:2024-02-11
# 分割と征服:多目的強化学習によるパレートフロントの明確化

Divide and Conquer: Provably Unveiling the Pareto Front with Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2402.07182v1 )

ライセンス: Link先を確認
Willem R\"opke, Mathieu Reymond, Patrick Mannion, Diederik M. Roijers, Ann Now\'e, Roxana R\u{a}dulescu(参考訳) 多目的強化学習における重要な課題は、異なる選好の下で最適なパフォーマンスを達成する政策のパレート面を得ることである。 本稿では,Paretoフロントの探索を,様々な解法が存在する単一目的問題列に分解するアルゴリズムであるIterated Pareto Referent Optimisation (IPRO)を紹介する。 これにより、各ステップにおいて未発見のパレート最適解に距離の上限を与えながら収束保証を確立することができる。 実証的な評価は、IPROが追加のドメイン知識を必要とするメソッドにマッチするか、より優れていることを示している。 問題固有の単目的解法を利用することで、パスフィニングや最適化などの多目的強化学習以外の応用も期待できる。

A significant challenge in multi-objective reinforcement learning is obtaining a Pareto front of policies that attain optimal performance under different preferences. We introduce Iterated Pareto Referent Optimisation (IPRO), a principled algorithm that decomposes the task of finding the Pareto front into a sequence of single-objective problems for which various solution methods exist. This enables us to establish convergence guarantees while providing an upper bound on the distance to undiscovered Pareto optimal solutions at each step. Empirical evaluations demonstrate that IPRO matches or outperforms methods that require additional domain knowledge. By leveraging problem-specific single-objective solvers, our approach also holds promise for applications beyond multi-objective reinforcement learning, such as in pathfinding and optimisation.
翻訳日:2024-02-13 17:07:23 公開日:2024-02-11
# 新しいビジョンの時代としての3d gaussian:調査

3D Gaussian as a New Vision Era: A Survey ( http://arxiv.org/abs/2402.07181v1 )

ライセンス: Link先を確認
Ben Fei, Jingyi Xu, Rui Zhang, Qingyuan Zhou, Weidong Yang, Ying He(参考訳) 3d gaussian splatting (3d-gs) はコンピュータグラフィックスの分野で重要な進歩として登場し、ニューラルネットワーク(neural radiance fields (nerf) など)に依存しない明示的なシーン表現と新しいビュー合成を提供する。 このテクニックは、ロボティクス、都市地図、自律ナビゲーション、仮想現実/拡張現実など、さまざまな分野に応用されている。 本稿では,3Dガウススプラッティングにおける普及と研究の進展を踏まえ,過去1年間の関連論文を包括的に調査する。 本研究は, 特徴と応用に基づく分類法に関する調査を整理し, 3次元ガウススメットの理論的基礎について概説する。 本研究の目標は,3次元ガウス型スプラッティングを用いた新たな研究者との出会い,この分野の精巧な研究への貴重な参考となり,今後の研究の方向性を喚起することである。

3D Gaussian Splatting (3D-GS) has emerged as a significant advancement in the field of Computer Graphics, offering explicit scene representation and novel view synthesis without the reliance on neural networks, such as Neural Radiance Fields (NeRF). This technique has found diverse applications in areas such as robotics, urban mapping, autonomous navigation, and virtual reality/augmented reality, just name a few. Given the growing popularity and expanding research in 3D Gaussian Splatting, this paper presents a comprehensive survey of relevant papers from the past year. We organize the survey into taxonomies based on characteristics and applications, providing an introduction to the theoretical underpinnings of 3D Gaussian Splatting. Our goal through this survey is to acquaint new researchers with 3D Gaussian Splatting, serve as a valuable reference for seminal works in the field, and inspire future research directions, as discussed in our concluding section.
翻訳日:2024-02-13 17:07:09 公開日:2024-02-11
# 検索型大規模言語モデルにおける素早い摂動

Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models ( http://arxiv.org/abs/2402.07179v1 )

ライセンス: Link先を確認
Zhibo Hu, Chen Wang, Yanfeng Shu, Helen (Hye-Young) Paik, Liming Zhu(参考訳) 大規模言語モデル(LLM)の堅牢性は、その使用が広範囲にまたがるにつれてますます重要になる。 LLMからのテキスト生成の信頼性を向上させる手段として、検索補助生成(RAG)が考えられている。 しかしながら、RAGに基づくLLMからの出力がわずかに異なる入力によってどのように影響を受けるかは、よく研究されていない。 本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れた出力生成につながることを見出した。 このようなプレフィックスがragに与える影響を,ggpp(gradient guided prompt perturbation)と呼ばれる新しい最適化手法を導入することで体系的に評価する。 GGPP は RAG ベースの LLM のアウトプットを操り、間違った回答をターゲットとした高い成功率を達成する。 無関係なコンテキストを無視するように要求するプロンプトの命令にも対処できる。 我々はまた、GGPP誘発プロンプトによるニューロン活性化を訓練した高能率検出器を用いて、GGPP摂動と非摂動のプロンプト間のLLMのニューロン活性化差を利用して、RAGベースのLLMのロバスト性を改善する方法を提案する。 オープンソースLLMの評価は,提案手法の有効性を示す。

The robustness of large language models (LLMs) becomes increasingly important as their use rapidly grows in a wide range of domains. Retrieval-Augmented Generation (RAG) is considered as a means to improve the trustworthiness of text generation from LLMs. However, how the outputs from RAG-based LLMs are affected by slightly different inputs is not well studied. In this work, we find that the insertion of even a short prefix to the prompt leads to the generation of outputs far away from factually correct answers. We systematically evaluate the effect of such prefixes on RAG by introducing a novel optimization technique called Gradient Guided Prompt Perturbation (GGPP). GGPP achieves a high success rate in steering outputs of RAG-based LLMs to targeted wrong answers. It can also cope with instructions in the prompts requesting to ignore irrelevant context. We also exploit LLMs' neuron activation difference between prompts with and without GGPP perturbations to give a method that improves the robustness of RAG-based LLMs through a highly effective detector trained on neuron activation triggered by GGPP generated prompts. Our evaluation on open-sourced LLMs demonstrates the effectiveness of our methods.
翻訳日:2024-02-13 17:06:50 公開日:2024-02-11
# EmoWear: スマートウォッチ上での音声メッセージインタラクションのための感情的ティーザー

EmoWear: Exploring Emotional Teasers for Voice Message Interaction on Smartwatches ( http://arxiv.org/abs/2402.07174v1 )

ライセンス: Link先を確認
Pengcheng An, Jiawen Zhu, Zibo Zhang, Yifei Yin, Qingyuan Ma, Che Yan, Linghao Du, Jian Zhao(参考訳) 音声メッセージは、ユーザーが音声コンテンツに完全に入り込むことなく、感情的なトーンを測ることを防ぐものだ。 これは、検索前の段階での感情経験の共有を妨げる。 研究は、内容の開示なしにメッセージの感情的なトーンを垣間見る「感情的なティーザー(emotional teasers)」-リトリーヴァル前の手がかりをほとんど探さなかった。 EmoWearは、ユーザーがメッセージバブルに30個のアニメーションティーザーを適用でき、感情を反映できるスマートウォッチ音声メッセージングシステムである。 EmoWearは、セマンティックおよび音響処理に基づいて感情を優先順位付けすることで、送信者の選択を容易にする。 EmoWearは、カラーコードされたメッセージバブルを感情的手がかりとして用いたミラーリングシステムと比較した(N=24。 エモウェアはメッセージの受信と送信の両方において感情的なコミュニケーション体験を著しく向上させた。 アニメーションティーザーは直感的で、多様な表現で評価されていた。 望ましい相互作用の質と実践的な意味合いは将来の設計のために蒸留される。 そこで我々は,音声メッセージングのための感情的ティーザーに関する経験的知識とシステムの構築に貢献する。

Voice messages, by nature, prevent users from gauging the emotional tone without fully diving into the audio content. This hinders the shared emotional experience at the pre-retrieval stage. Research scarcely explored "Emotional Teasers"-pre-retrieval cues offering a glimpse into an awaiting message's emotional tone without disclosing its content. We introduce EmoWear, a smartwatch voice messaging system enabling users to apply 30 animation teasers on message bubbles to reflect emotions. EmoWear eases senders' choice by prioritizing emotions based on semantic and acoustic processing. EmoWear was evaluated in comparison with a mirroring system using color-coded message bubbles as emotional cues (N=24). Results showed EmoWear significantly enhanced emotional communication experience in both receiving and sending messages. The animated teasers were considered intuitive and valued for diverse expressions. Desirable interaction qualities and practical implications are distilled for future design. We thereby contribute both a novel system and empirical knowledge concerning emotional teasers for voice messaging.
翻訳日:2024-02-13 17:06:31 公開日:2024-02-11
# insite: サブモジュラー関数と半教師付きデータプログラミングを用いた医用画像のラベリング

INSITE: labelling medical images using submodular functions and semi-supervised data programming ( http://arxiv.org/abs/2402.07173v1 )

ライセンス: Link先を確認
Akshat Gautam, Anurag Shandilya, Akshit Srivastava, Venkatapathy Subramanian, Ganesh Ramakrishnan, Kshitij Jadhav(参考訳) 深層モデル、特に医療画像のトレーニングには大量のラベル付きデータが必要であるため、リソース制約された設定では実装ボトルネックが発生する。 Insite (labelINg Medical imageS usIng submodular funcTions and sEmi-supervised data programming)では、情報サブセットの選択を適用し、ドメインの専門家によって注釈付けされた巨大な未ラベルデータのプールから、少数の代表的または多様な画像を特定する。 新たにアノテートされた画像は、いくつかのデータプログラミング駆動ラベリング機能を開発するための例示として使用される。 これらのラベル付け機能は、未ラベル画像が入力として与えられると、予測ラベルと類似度スコアを出力する。 ラベルアグリゲータ関数を使用して、ラベルのない各データポイントに最終予測ラベルを割り当てることで、これらのラベル関数の出力間にコンセンサスがもたらされる。 これらの画像を用いた半教師付きデータプログラミング手法が,他の最先端半教師付き手法よりも優れた性能を示す。 さらに,本研究では,例示として使用する小さな画像セットを用いて,これを初めて実現できることを実証する。

The necessity of large amounts of labeled data to train deep models, especially in medical imaging creates an implementation bottleneck in resource-constrained settings. In Insite (labelINg medical imageS usIng submodular funcTions and sEmi-supervised data programming) we apply informed subset selection to identify a small number of most representative or diverse images from a huge pool of unlabelled data subsequently annotated by a domain expert. The newly annotated images are then used as exemplars to develop several data programming-driven labeling functions. These labelling functions output a predicted-label and a similarity score when given an unlabelled image as an input. A consensus is brought amongst the outputs of these labeling functions by using a label aggregator function to assign the final predicted label to each unlabelled data point. We demonstrate that informed subset selection followed by semi-supervised data programming methods using these images as exemplars perform better than other state-of-the-art semi-supervised methods. Further, for the first time we demonstrate that this can be achieved through a small set of images used as exemplars.
翻訳日:2024-02-13 17:06:17 公開日:2024-02-11
# 大言語モデルによる強度変調放射線治療のための線量量ヒストグラム予測

Large-Language-Model Empowered Dose Volume Histogram Prediction for Intensity Modulated Radiotherapy ( http://arxiv.org/abs/2402.07167v1 )

ライセンス: Link先を確認
Zehao Dong, Yixin Chen, Hiram Gay, Yao Hao, Geoffrey D. Hugo, Pamela Samson, Tianyu Zhao(参考訳) 治療計画は現在、放射線治療において患者固有の、時間を要する、資源を必要とするタスクである。 ドーズボリュームヒストグラム(DVH)予測はこのプロセスを自動化する上で重要な役割を果たす。 放射線治療計画におけるDVHsとOAR(Organs-at-risk)と計画目標体積(PTV)との幾何学的関係はよく確立されている。 本研究では,画像を用いたdvhs予測のための深層学習モデルの可能性と,それに続く大規模言語モデル(llm)による人的介入による計画品質の向上について検討する。 本研究では,非構造化画像を画像パッチノードと線量ノードからなる構造化グラフに変換するパイプラインを提案する。 構造グラフからDVHを予測する新しいDose Graph Neural Network (DoseGNN) モデルを開発した。 提案された用量gnnはllmにより強化され、処方薬からの膨大な知識と臨床医からの対話的な指示をエンコードする。 本研究では,強度変調放射線治療(IMRT)計画の自動化を目的とした概念の実践的実装として,オンラインヒューマンAIコラボレーション(OHAC)システムを導入した。 放射線治療で広く使われるDLモデルと比較して、DoseGNNは平均2乗誤差が80$\%$,76$\%$,41.0$\%$で、それぞれSwin U-Net Transformer、3D U-Net CNN、バニラMLPによって予測された。 さらに, LLM を利用した DoseGNN モデルは, 自然言語を用いた臨床医との対話を通じて治療計画のシームレスな調整を容易にする。

Treatment planning is currently a patient specific, time-consuming, and resource demanding task in radiotherapy. Dose-volume histogram (DVH) prediction plays a critical role in automating this process. The geometric relationship between DVHs in radiotherapy plans and organs-at-risk (OAR) and planning target volume (PTV) has been well established. This study explores the potential of deep learning models for predicting DVHs using images and subsequent human intervention facilitated by a large-language model (LLM) to enhance the planning quality. We propose a pipeline to convert unstructured images to a structured graph consisting of image-patch nodes and dose nodes. A novel Dose Graph Neural Network (DoseGNN) model is developed for predicting DVHs from the structured graph. The proposed DoseGNN is enhanced with the LLM to encode massive knowledge from prescriptions and interactive instructions from clinicians. In this study, we introduced an online human-AI collaboration (OHAC) system as a practical implementation of the concept proposed for the automation of intensity-modulated radiotherapy (IMRT) planning. In comparison to the widely-employed DL models used in radiotherapy, DoseGNN achieved mean square errors that were 80$\%$, 76$\%$ and 41.0$\%$ of those predicted by Swin U-Net Transformer, 3D U-Net CNN and vanilla MLP, respectively. Moreover, the LLM-empowered DoseGNN model facilitates seamless adjustment to treatment plans through interaction with clinicians using natural language.
翻訳日:2024-02-13 17:05:59 公開日:2024-02-11
# 出版テキストの社会進化と大規模言語モデルによる人工知能の出現と毒性とバイアスの問題

Social Evolution of Published Text and The Emergence of Artificial Intelligence Through Large Language Models and The Problem of Toxicity and Bias ( http://arxiv.org/abs/2402.07166v1 )

ライセンス: Link先を確認
Arifa Khan, P. Saravanan and S.K Venkatesan(参考訳) 我々は,AIとディープラーニングの急速な発展を鳥の目で見ることで,大規模言語モデルにおけるAIの進路を突破した。 この研究の目的は、1970年代から1990年代にかけてのaiの冬を創造した悲観論を伴わずに、これらすべての発展を誇張することなく、実用的でより広い歴史的社会的視点に位置づけることである。 同時に、過度に楽観的な人々への警告として存在する毒性、偏見、記憶、梅毒、論理的不一致、幻覚も指摘しています。 ここでは、このAIの出現が神経接続や体重のしきい値に現れるのと同じように、人間の脳、特に大脳皮質領域は特別なものではなく、単に霊長類の脳のスケールアップバージョンであり、人間の知性でさえ、スケールの創発的な現象のように見えることも観察されている。

We provide a birds eye view of the rapid developments in AI and Deep Learning that has led to the path-breaking emergence of AI in Large Language Models. The aim of this study is to place all these developments in a pragmatic broader historical social perspective without any exaggerations while at the same time without any pessimism that created the AI winter in the 1970s to 1990s. We also at the same time point out toxicity, bias, memorization, sycophancy, logical inconsistencies, hallucinations that exist just as a warning to the overly optimistic. We note here that just as this emergence of AI seems to occur at a threshold point in the number of neural connections or weights, it has also been observed that human brain and especially the cortex region is nothing special or extraordinary but simply a case of scaled-up version of the primate brain and that even the human intelligence seems like an emergent phenomena of scale.
翻訳日:2024-02-13 17:05:32 公開日:2024-02-11
# 非摂動理論:瞬間的変動からラグランジアンを再構成する

Unperturbation theory: reconstructing Lagrangians from instanton fluctuations ( http://arxiv.org/abs/2402.07165v1 )

ライセンス: Link先を確認
Farahmand Hasanov and Nikita Kolganov(参考訳) インスタントンは物理学と数学の両方において非摂動的効果に対する深い洞察を与える。 主要なインスタントン効果は単にインスタントン作用の指数として計算できるが、サブリーディング寄与の計算は通常、インスタントン背景のゆらぎ演算子とそのグリーン関数のスペクトルを必要とする。 そこで本研究では,与えられたゆらぎ演算子からのインスタントンを既知のグリーン関数で許容する理論の非線形作用の再構成という逆問題を提案する。 この問題の解を構成的に構築し、形状不変作用素(英語版)(shape-invariant operator)と呼ばれる、正確に解けるシュル「{o}schl-Teller operator)の幅広いクラスに適用する。 後者の場合、パラメータのほとんどの値に対して、再構成されたポテンシャルは自然に実数直線ではなく、複素平面を被覆する特別なマルチシート上で定義され、その物理的解釈について議論する。 より広いがより単純な形状不変作用素のクラスに対して、解析ポテンシャルの新しい無限族へと導くパラメータの集合を導出する。

Instantons present a deep insight into non-perturbative effects both in physics and mathematics. While leading instanton effects can be calculated simply as an exponent of the instanton action, the calculation of subleading contributions usually requires the spectrum of fluctuation operator on the instanton background and its Green's function, explicit knowledge of which is rare and a great success. Thus, we propose an inverse problem, namely, the reconstruction of the nonlinear action of the theory admitting instantons from the given fluctuation operator with a known Green's function. We constructively build the solution for this problem and apply it to a wide class of exactly solvable Schr\"{o}dinger operators, called shape-invariant operators, and its simpler subclass, namely reflectionless P\"{o}schl-Teller operators. In the latter case, we found that for the most values of parameters the reconstructed potentials are naturally defined not on the real line, but on some special multisheet covering of the complex plane, and discuss its physical interpretation. For the wider but less simple class of shape-invariant operators, we derive the set of parameters leading to the new infinite families of analytic potentials.
翻訳日:2024-02-13 17:05:11 公開日:2024-02-11
# geoformer: 温室効果ガスモニタリングのためのビジョンとシーケンストランスフォーマ

GeoFormer: A Vision and Sequence Transformer-based Approach for Greenhouse Gas Monitoring ( http://arxiv.org/abs/2402.07164v1 )

ライセンス: Link先を確認
Madhav Khirwar and Ankur Narang(参考訳) 大気汚染は世界中の重要な環境問題であり、温室効果ガスの排出による気候変動に大きな役割を果たし、数十億の健康に悪影響を及ぼす。 しかし、汚染物質の空間的および時間的パターンの予測は依然として困難である。 地上監視施設の不足と包括的データセットへの大気汚染モデリングの依存は、多くの地域でアクセスできないことが多く、この問題を複雑にしている。 本研究では,視覚トランスフォーマーモジュールと高効率時系列トランスフォーマーモジュールを組み合わせて,センチネル-5p衛星画像から表面レベルの二酸化窒素(no2)濃度を予測する小型モデルgeoformerを提案する。 本研究では,地上観測局のSentinel-5P画像とそれに対応するNO2濃度測定データを用いて,地表面NO2濃度測定の予測を行う。 提案手法は高精度 (MAE 5.65) を実現し, 衛星データを利用してGHG排出量の観測を行い, 気候変動モニタリングと排出規制をグローバルに進める上での有効性を示した。

Air pollution represents a pivotal environmental challenge globally, playing a major role in climate change via greenhouse gas emissions and negatively affecting the health of billions. However predicting the spatial and temporal patterns of pollutants remains challenging. The scarcity of ground-based monitoring facilities and the dependency of air pollution modeling on comprehensive datasets, often inaccessible for numerous areas, complicate this issue. In this work, we introduce GeoFormer, a compact model that combines a vision transformer module with a highly efficient time-series transformer module to predict surface-level nitrogen dioxide (NO2) concentrations from Sentinel-5P satellite imagery. We train the proposed model to predict surface-level NO2 measurements using a dataset we constructed with Sentinel-5P images of ground-level monitoring stations, and their corresponding NO2 concentration readings. The proposed model attains high accuracy (MAE 5.65), demonstrating the efficacy of combining vision and time-series transformer architectures to harness satellite-derived data for enhanced GHG emission insights, proving instrumental in advancing climate change monitoring and emission regulation efforts globally.
翻訳日:2024-02-13 17:04:49 公開日:2024-02-11
# pasoa粒子に基づくベイズ最適適応設計

PASOA- PArticle baSed Bayesian Optimal Adaptive design ( http://arxiv.org/abs/2402.07160v1 )

ライセンス: Link先を確認
Jacopo Iollo, Christophe Heinkel\'e, Pierre Alliez, Florence Forbes(参考訳) ベイズ実験設計のためのpasoaと呼ばれる新しい手法を提案する。パラメータ推定のための逐次後続分布の正確な推定を同時に提供することにより、逐次設計最適化を行う。 逐次設計は、確率的最適化と逐次モンテカルロ(smc)サンプラーを用いて、期待情報ゲイン(eig)を最大化するために、対比的推定原理により実行される。 連続した後続分布間の距離が大きくなるほど大きな情報ゲインが得られるため、このEIG目標は古典的なSMC性能を悪化させる可能性がある。 この問題に対処するために、テンパリングは、大きな情報ゲインと正確なsmcサンプリングの両方を持つことが提案されている。 この確率最適化と誘電型SMCの組み合わせにより、設計最適化とパラメータ推論を共同で扱うことができる。 得られた最適設計推定器がいくつかの一貫性特性の恩恵を受けることを示す。 数値実験により、他の既存の手順よりも優れているアプローチの可能性が確認された。

We propose a new procedure named PASOA, for Bayesian experimental design, that performs sequential design optimization by simultaneously providing accurate estimates of successive posterior distributions for parameter inference. The sequential design process is carried out via a contrastive estimation principle, using stochastic optimization and Sequential Monte Carlo (SMC) samplers to maximise the Expected Information Gain (EIG). As larger information gains are obtained for larger distances between successive posterior distributions, this EIG objective may worsen classical SMC performance. To handle this issue, tempering is proposed to have both a large information gain and an accurate SMC sampling, that we show is crucial for performance. This novel combination of stochastic optimization and tempered SMC allows to jointly handle design optimization and parameter inference. We provide a proof that the obtained optimal design estimators benefit from some consistency property. Numerical experiments confirm the potential of the approach, which outperforms other recent existing procedures.
翻訳日:2024-02-13 17:04:30 公開日:2024-02-11
# 任意に構成可能な非線形位相モード

Arbitrarily configurable nonlinear topological modes ( http://arxiv.org/abs/2402.07224v1 )

ライセンス: Link先を確認
Kai Bai and Jia-Zheng Li and Tian-Rui Liu and Liang Fang and Duanduan Wan and Meng Xiao(参考訳) トポロジカルモード(TM)は、通常は境界、界面、転位に局在し、指数関数的に十分な格子のバルクに崩壊する。 近年, 非エルミート皮膚効果を利用して, TMの波動関数を境界から非局在化し, TMの容量を劇的に増加させている。 本稿では,TMの波動関数の設計と再構成における非線形性の可能性を検討する。 強度の増大に伴い、これらの非線型TMの波動関数は指数減衰から初期偏差を生じ、徐々に任意に設計可能なプラトーに融合し、非線形領域全体を包含し、最終的には非線形境界に集中する。 興味深いことに、このような拡張された非線形TMは依然として欠陥や障害に対して堅牢であり、外部励起下での力学において安定である。 非線形TMの概念的理解の促進により,TMの容量を増大させ,コンパクトで再構成可能なトポロジ機器を開発するための新たな道が開かれた。

Topological modes (TMs) are typically localized at boundaries, interfaces and dislocations, and exponentially decay into the bulk of a large enough lattice. Recently, the non-Hermitian skin effect has been leveraged to delocalize the wavefunctions of TMs from the boundary and thus to increase the capacity of TMs dramatically. Here, we explore the capability of nonlinearity in designing and reconfiguring the wavefunctions of TMs. With growing intensity, wavefunctions of these in-gap nonlinear TMs undergo an initial deviation from exponential decay, gradually merge into arbitrarily designable plateaus, then encompass the entire nonlinear domain, and eventually concentrate at the nonlinear boundary. Intriguingly, such extended nonlinear TMs are still robust against defects and disorders, and stable in dynamics under external excitation. Advancing the conceptual understanding of the nonlinear TMs, our results open new avenues for increasing the capacity of TMs and developing compact and reconfigurable topological devices.
翻訳日:2024-02-13 16:57:41 公開日:2024-02-11
# テストの有効性の(ミス)知覚について:実証的研究

On (Mis)perceptions of testing effectiveness: an empirical study ( http://arxiv.org/abs/2402.07222v1 )

ライセンス: Link先を確認
Sira Vegas, Patricia Riofrio, Esperanza Marcos, Natalia Juristo(参考訳) ソフトウェア開発における繰り返し発生する問題は、使用する技術、方法、ツールの誤った意思決定である。 多くの場合、これらの決定は開発者の認識に基づいている。 人々の知覚に影響を与える要因は過去の経験であるが、それだけではない。 本研究では,様々な手法の欠陥検出効果の認識が,事前経験がない場合の実際の有効性にどの程度合致するかを明らかにすることを目的とする。 これを実現するために、実証的研究と複製を行った。 本研究は,2つのテスト手法とコードレビュー手法を用いて,学生による制御実験を行った。 実験の最後には、どのテクニックが最も効果的かを判断する調査を実施している。 その結果,参加者の認識は誤りであり,このミスマッチは品質面でコストがかかることがわかった。 結果についてさらなる知見を得るため,制御実験を再現し,調査を延長し,実験手法やプログラムに対する参加者の意見に関する質問を含める。 本研究の結果から,被験者の認識は,手法の複雑さや選好に対する意見ではなく,その技法をどの程度うまく適用したかに基づいている可能性が示唆された。

A recurring problem in software development is incorrect decision making on the techniques, methods and tools to be used. Mostly, these decisions are based on developers' perceptions about them. A factor influencing people's perceptions is past experience, but it is not the only one. In this research, we aim to discover how well the perceptions of the defect detection effectiveness of different techniques match their real effectiveness in the absence of prior experience. To do this, we conduct an empirical study plus a replication. During the original study, we conduct a controlled experiment with students applying two testing techniques and a code review technique. At the end of the experiment, they take a survey to find out which technique they perceive to be most effective. The results show that participants' perceptions are wrong and that this mismatch is costly in terms of quality. In order to gain further insight into the results, we replicate the controlled experiment and extend the survey to include questions about participants' opinions on the techniques and programs. The results of the replicated study confirm the findings of the original study and suggest that participants' perceptions might be based not on their opinions about complexity or preferences for techniques but on how well they think that they have applied the techniques.
翻訳日:2024-02-13 16:57:23 公開日:2024-02-11
# エージェントが行動する理由:意図と道具的目標

The Reasons that Agents Act: Intention and Instrumental Goals ( http://arxiv.org/abs/2402.07221v1 )

ライセンス: Link先を確認
Francis Rhys Ward and Matt MacDermott and Francesco Belardinelli and Francesca Toni and Tom Everitt(参考訳) 意図はAIにおいて重要で挑戦的な概念である。 それは、エージェンシー、操作、法的責任、責任など、私たちが気にしている他の多くの概念の根底にあるため重要です。 しかし、AIシステムに対する意図の主張は論争的であり、AIエージェントに適用できる意図の普遍的な理論は存在しない。 我々は,エージェントが決定を下す理由に関して,エージェントが行動する意図を運用する。 本研究では,構造因果影響モデルにおける意図の形式的定義を導入し,意図に関する哲学文献に基礎を置き,実世界の機械学習システムに適用する。 多くの例と結果を通して、我々の定義は意図の直感的な概念を捉え、過去の作業によって設定されたデシダラタを満足させることを示す。 さらに、我々の定義が、実際の因果関係を含む過去の概念や、安全なaiエージェントに関する文献の核となる概念である道具的目標の概念とどのように関係しているかを示す。 最後に,強化学習エージェントと言語モデルの意図を行動から推測するために,我々の定義をどのように利用できるかを示す。

Intention is an important and challenging concept in AI. It is important because it underlies many other concepts we care about, such as agency, manipulation, legal responsibility, and blame. However, ascribing intent to AI systems is contentious, and there is no universally accepted theory of intention applicable to AI agents. We operationalise the intention with which an agent acts, relating to the reasons it chooses its decision. We introduce a formal definition of intention in structural causal influence models, grounded in the philosophy literature on intent and applicable to real-world machine learning systems. Through a number of examples and results, we show that our definition captures the intuitive notion of intent and satisfies desiderata set-out by past work. In addition, we show how our definition relates to past concepts, including actual causality, and the notion of instrumental goals, which is a core idea in the literature on safe AI agents. Finally, we demonstrate how our definition can be used to infer the intentions of reinforcement learning agents and language models from their behaviour.
翻訳日:2024-02-13 16:57:06 公開日:2024-02-11
# KVQ:Kleidoscope Video Quality Assessment for Short-form Videos

KVQ: Kaleidoscope Video Quality Assessment for Short-form Videos ( http://arxiv.org/abs/2402.07220v1 )

ライセンス: Link先を確認
Yiting Lu, Xin Li, Yajing Pei, Kun Yuan, Qizhi Xie, Yunpeng Qu, Ming Sun, Chao Zhou, Zhibo Chen(参考訳) KwaiやTikTokのようなショートフォームのUGCビデオプラットフォームは、ユーザーフレンドリーなエンゲージメントやカレイドスコープの作成など、新興で非定位なメディア形式である。 しかし、コンテンツ生成モード(特殊効果など)や高度な処理ワークフロー(デアーティファクトなど)は、最近のugcビデオ品質評価に重大な課題をもたらしている。 i)不明瞭な内容は、品質決定領域の特定を妨げる。 (II) 多様な複雑なハイブリッド歪みを区別することは困難である。 以上の課題に対処し, ショートビデオの開発を支援するため, 品質評価のための大規模カレイドスコープ・ショートビデオデータベース「kvq」を構築し, ユーザのアップロードした600のショートビデオと, プリプロセッシング, トランスコーディング, エンハンスメントなど, 様々な実用的処理ワークフローを通じて3600の処理ビデオからなる。 このうち、画像処理を専門とする専門家のチームにより、ビデオ毎の絶対品質スコアと、識別不能なサンプル中の部分ランクスコアを提供する。 本データベースに基づいて,品質評価器が品質決定セマンティクスを,大規模視覚言語モデル(クリップ)の内容理解とともに識別し,歪みを歪み理解モジュールと区別できる,最初の短形態映像品質評価器,すなわちksvqeを提案する。 実験の結果,KVQデータベースと人気VQAデータベースにおけるKSVQEの有効性が示された。

Short-form UGC video platforms, like Kwai and TikTok, have been an emerging and irreplaceable mainstream media form, thriving on user-friendly engagement, and kaleidoscope creation, etc. However, the advancing content-generation modes, e.g., special effects, and sophisticated processing workflows, e.g., de-artifacts, have introduced significant challenges to recent UGC video quality assessment: (i) the ambiguous contents hinder the identification of quality-determined regions. (ii) the diverse and complicated hybrid distortions are hard to distinguish. To tackle the above challenges and assist in the development of short-form videos, we establish the first large-scale Kaleidoscope short Video database for Quality assessment, termed KVQ, which comprises 600 user-uploaded short videos and 3600 processed videos through the diverse practical processing workflows, including pre-processing, transcoding, and enhancement. Among them, the absolute quality score of each video and partial ranking score among indistinguishable samples are provided by a team of professional researchers specializing in image processing. Based on this database, we propose the first short-form video quality evaluator, i.e., KSVQE, which enables the quality evaluator to identify the quality-determined semantics with the content understanding of large vision language models (i.e., CLIP) and distinguish the distortions with the distortion understanding module. Experimental results have shown the effectiveness of KSVQE on our KVQ database and popular VQA databases.
翻訳日:2024-02-13 16:56:49 公開日:2024-02-11
# ソフトウェア工学実験のための実験室パッケージの内容と構造

Content and structure of laboratory packages for software engineering experiments ( http://arxiv.org/abs/2402.07217v1 )

ライセンス: Link先を確認
Mart\'in Solari, Sira Vegas, Natalia Juristo(参考訳) 文脈: 実験複製は科学的手法において中心的な役割を果たす。 ソフトウェアエンジニアリングの実験は成熟しているが、実験の複製の数は依然として比較的少ない。 ソフトウェアエンジニアリングの実験は複雑な概念、手順、成果物で構成されている。 実験パッケージは、実験の複製を容易にするために研究者の間で伝達リング知識の手段である。 目的: 本論文は実験の複製過程を調査し, 実験を成功させるためにどのような情報が必要であるかを明らかにする。 本研究の目的は,ソフトウェア工学実験のための実験パッケージの内容と構造を提案することである。 方法: 3種類の異なる実験の7つの複製を評価した。 それぞれの複製には異なる実験者がおり、当時は実験に慣れていなかった。 本研究の最初のイテレーションでは,実験的なインシデントを特定し,これらのインシデントに対処する実験室パッケージ構造を提案した。 すべてのソフトウェアエンジニアリング実験で使用する実験室のパッケージ構造を検証するために、後続のイテレーションを使用しました。 我々は,実験室のパッケージに関する知識の体系にどのように貢献するかを検討すると同時に,特定の問題を解決することを目指していた。 結果: 3種類の実験用実験室パッケージを作成した。 これらのパッケージはそれぞれの実験の複製を容易にする。 評価の結果,実験パッケージの提案が受け入れられ,ソフトウェア工学の実験を再現するために必要な労力が削減された。 結論: 実験室のパックエイジを提案する内容と構造は、他のソフトウェア工学実験に有用であると考えています。

Context: Experiment replications play a central role in the scientific method. Although software engineering experimentation has matured a great deal, the number of experiment replications is still relatively small. Software engineering experiments are composed of complex concepts, procedures and artefacts. Laboratory packages are a means of transfer-ring knowledge among researchers to facilitate experiment replications. Objective: This paper investigates the experiment replication process to find out what information is needed to successfully replicate an experiment. Our objective is to propose the content and structure of laboratory packages for software engineering experiments. Method: We evaluated seven replications of three different families of experiments. Each replication had a different experimenter who was, at the time, unfamiliar with the experi-ment. During the first iterations of the study, we identified experimental incidents and then proposed a laboratory package structure that addressed these incidents, including docu-ment usability improvements. We used the later iterations to validate and generalize the laboratory package structure for use in all software engineering experiments. We aimed to solve a specific problem, while at the same time looking at how to contribute to the body of knowledge on laboratory packages. Results: We generated a laboratory package for three different experiments. These packages eased the replication of the respective experiments. The evaluation that we conducted shows that the laboratory package proposal is acceptable and reduces the effort currently required to replicate experiments in software engineering. Conclusion: We think that the content and structure that we propose for laboratory pack-ages can be useful for other software engineering experiments.
翻訳日:2024-02-13 16:56:22 公開日:2024-02-11
# ゼロショットインクリメンタル学習のための新しい空間周波数領域ネットワーク

A novel spatial-frequency domain network for zero-shot incremental learning ( http://arxiv.org/abs/2402.07216v1 )

ライセンス: Link先を確認
Jie Ren, Yang Zhao, Weichuan Zhang and Changming Sun(参考訳) ゼロショットインクリメンタル学習は、モデルが学習したクラスを忘れずに新しいクラスに一般化できるようにすることを目的としている。 しかし、古いサンプルクラスと新しいサンプルクラスのセマンティックなギャップは、破滅的な忘れを招きかねない。 さらに、既存のアルゴリズムは各サンプル画像ドメインから重要な情報を取得できず、モデルの分類性能を損なう。 そこで本稿では,クラスインクリメンタルアルゴリズムのゼロショット翻訳を改善するために,空間周波数特徴抽出(SFFE)モジュールと注意特徴調整(AFA)モジュールを含む新しい空間周波数領域ネットワークを提案する。 まず、SFFEモジュールは、空間周波数情報を得るための二重注意機構を含むように設計されている。 次に、融合した空間周波数領域特徴を得るための新しい特徴融合モジュールを実行する。 第3に、最も近いクラス平均分類器を使用して最も適切なカテゴリを選択する。 最後に、ゼロショット翻訳モデルを用いてタスク間のイテレーションを行う。 提案するsfdnetは,入力画像から空間周波数特徴表現を効果的に抽出し,画像分類の精度を向上し,致命的な忘れを根本的に緩和する能力を有する。 CUB 200-2011 と CIFAR100 データセットの大規模な実験により,提案アルゴリズムが最先端の漸進学習アルゴリズムより優れていることが示された。

Zero-shot incremental learning aims to enable the model to generalize to new classes without forgetting previously learned classes. However, the semantic gap between old and new sample classes can lead to catastrophic forgetting. Additionally, existing algorithms lack capturing significant information from each sample image domain, impairing models' classification performance. Therefore, this paper proposes a novel Spatial-Frequency Domain Network (SFDNet) which contains a Spatial-Frequency Feature Extraction (SFFE) module and Attention Feature Alignment (AFA) module to improve the Zero-Shot Translation for Class Incremental algorithm. Firstly, SFFE module is designed which contains a dual attention mechanism for obtaining salient spatial-frequency feature information. Secondly, a novel feature fusion module is conducted for obtaining fused spatial-frequency domain features. Thirdly, the Nearest Class Mean classifier is utilized to select the most suitable category. Finally, iteration between tasks is performed using the Zero-Shot Translation model. The proposed SFDNet has the ability to effectively extract spatial-frequency feature representation from input images, improve the accuracy of image classification, and fundamentally alleviate catastrophic forgetting. Extensive experiments on the CUB 200-2011 and CIFAR100 datasets demonstrate that our proposed algorithm outperforms state-of-the-art incremental learning algorithms.
翻訳日:2024-02-13 16:56:03 公開日:2024-02-11
# スプリット投票のレンズを通して:判例結果分類における不一致、難易度、校正の検討

Through the Lens of Split Vote: Exploring Disagreement, Difficulty and Calibration in Legal Case Outcome Classification ( http://arxiv.org/abs/2402.07214v1 )

ライセンス: Link先を確認
Shanshan Xu, T.Y.S.S Santosh, Oana Ichim, Barbara Plank, Matthias Grabmair(参考訳) 法的決定では、裁判官が全会一致の判断に到達できず、様々な法的議論や意見をナビゲートしなければならない弁護士にとって困難である。 高度な領域では、人間とAIシステム間の認識される困難の整合を理解することが信頼を構築するために不可欠である。 しかし,既存のNLPキャリブレーション手法は,人間に固有のラベル変動(HLV)を見越して,ヒトの多数派に対して測定された,分類者の予測性能に対する認識に焦点を当てている。 本稿では、人的不一致と価値多元主義を自然に観察できるものとして、分割投票を考察する。 欧州人権裁判所 (ECHR) から審査員の投票分布を収集し, SV情報を用いた事例結果分類(COC)データセットであるSV-ECHRを提示する。 SV固有のサブカテゴリとの相違の分類を構築した。 さらに、モデルと人間間の認識困難のアライメントと、COCモデルの信頼性と人間の校正を評価する。 我々は、審査員の投票分布との限定的な一致を観察する。 我々の知る限り、法的NLPにおける人間の判断に対する校正の体系的な調査はこれが初めてである。 本研究は,法的決定課題におけるhlvを考慮したモデル校正のさらなる研究の必要性を浮き彫りにするものである。

In legal decisions, split votes (SV) occur when judges cannot reach a unanimous decision, posing a difficulty for lawyers who must navigate diverse legal arguments and opinions. In high-stakes domains, understanding the alignment of perceived difficulty between humans and AI systems is crucial to build trust. However, existing NLP calibration methods focus on a classifier's awareness of predictive performance, measured against the human majority class, overlooking inherent human label variation (HLV). This paper explores split votes as naturally observable human disagreement and value pluralism. We collect judges' vote distributions from the European Court of Human Rights (ECHR), and present SV-ECHR, a case outcome classification (COC) dataset with SV information. We build a taxonomy of disagreement with SV-specific subcategories. We further assess the alignment of perceived difficulty between models and humans, as well as confidence- and human-calibration of COC models. We observe limited alignment with the judge vote distribution. To our knowledge, this is the first systematic exploration of calibration to human judgements in legal NLP. Our study underscores the necessity for further research on measuring and enhancing model calibration considering HLV in legal decision tasks.
翻訳日:2024-02-13 16:55:40 公開日:2024-02-11
# 拡散生成モデルにおける高速確率サンプリングに向けて

Towards Fast Stochastic Sampling in Diffusion Generative Models ( http://arxiv.org/abs/2402.07211v1 )

ライセンス: Link先を確認
Kushagra Pandey, Maja Rudolph, Stephan Mandt(参考訳) 拡散モデルは、推論時に遅いサンプル生成に苦しむ。 近年の取り組みにもかかわらず、拡散モデルに対する確率的サンプリング器のサンプリング効率の改善は期待できる方向である。 拡張空間における事前学習拡散モデルにおける高速確率サンプリングのための分割積分器を提案する。 分子動力学で一般的に用いられるスプリッティングベースの積分器は、データ、補助変数、ノイズ変数を含む数値更新を巧みに交互に行い、サンプリング効率を改善する。 しかし,スプリット・インテグレータのナイーブな応用は,高速サンプリングに最適であることを示す。 そこで本研究では, サンプリング効率を向上させるために, ナイーブ分割スプリマーの原理的修正を複数提案し, 結果として得られたスプリマーを縮小分割インテグレータとして表現する。 CIFAR-10における位相空間ランゲヴィン拡散(PSLD) [Pandey \& Mandt, 2023] の文脈において, この確率的サンプリング器は, ネットワーク関数評価(NFE)100点中2.36点のFIDスコアを, 最良ベースラインの2.63点と比較した。

Diffusion models suffer from slow sample generation at inference time. Despite recent efforts, improving the sampling efficiency of stochastic samplers for diffusion models remains a promising direction. We propose Splitting Integrators for fast stochastic sampling in pre-trained diffusion models in augmented spaces. Commonly used in molecular dynamics, splitting-based integrators attempt to improve sampling efficiency by cleverly alternating between numerical updates involving the data, auxiliary, or noise variables. However, we show that a naive application of splitting integrators is sub-optimal for fast sampling. Consequently, we propose several principled modifications to naive splitting samplers for improving sampling efficiency and denote the resulting samplers as Reduced Splitting Integrators. In the context of Phase Space Langevin Diffusion (PSLD) [Pandey \& Mandt, 2023] on CIFAR-10, our stochastic sampler achieves an FID score of 2.36 in only 100 network function evaluations (NFE) as compared to 2.63 for the best baselines.
翻訳日:2024-02-13 16:55:18 公開日:2024-02-11
# GALA3D:Layout-guided Generative Gaussian Splattingによるテキストから3D複合シーン生成に向けて

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting ( http://arxiv.org/abs/2402.07207v1 )

ライセンス: Link先を確認
Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang(参考訳) レイアウト誘導制御を持つガウス型生成型3次元ガウス系gala3dを用いて,効率的な合成テキストから3次元生成を行う。 まず, 大規模言語モデル(llms)を用いて初期レイアウトを生成し, 適応幾何制約付き3次元コンテンツ生成のためのレイアウト誘導3次元ガウス表現を導入する。 そこで本研究では,複数の物体間の一貫した形状,テクスチャ,スケール,正確なインタラクションを協調的に生成し,同時にllmから抽出した粗いレイアウトの優先順位を調整し,生成したシーンと整合させる,条件付き拡散を伴うオブジェクト・シーン構成最適化機構を提案する。 実験によると、gala3dは最先端のシーンレベルの3dコンテンツ生成と制御可能な編集のためのユーザーフレンドリーなエンドツーエンドフレームワークであり、シーン内のオブジェクトレベルのエンティティの忠実性を確保している。 ソースコードとモデルはhttps://gala3d.github.io/で入手できる。

We present GALA3D, generative 3D GAussians with LAyout-guided control, for effective compositional text-to-3D generation. We first utilize large language models (LLMs) to generate the initial layout and introduce a layout-guided 3D Gaussian representation for 3D content generation with adaptive geometric constraints. We then propose an object-scene compositional optimization mechanism with conditioned diffusion to collaboratively generate realistic 3D scenes with consistent geometry, texture, scale, and accurate interactions among multiple objects while simultaneously adjusting the coarse layout priors extracted from the LLMs to align with the generated scene. Experiments show that GALA3D is a user-friendly, end-to-end framework for state-of-the-art scene-level 3D content generation and controllable editing while ensuring the high fidelity of object-level entities within the scene. Source codes and models will be available at https://gala3d.github.io/.
翻訳日:2024-02-13 16:54:52 公開日:2024-02-11
# オープンドメイン都市計画のための大規模言語モデルによる空間最適化

Synergizing Spatial Optimization with Large Language Models for Open-Domain Urban Itinerary Planning ( http://arxiv.org/abs/2402.07204v1 )

ライセンス: Link先を確認
Yihong Tang, Zhaokai Wang, Ao Qu, Yihao Yan, Kebing Hou, Dingyi Zhuang, Xiaotong Guo, Jinhua Zhao, Zhan Zhao, Wei Ma(参考訳) 本稿では,自然言語で記述したユーザの要求に基づいて,都市遊歩道におけるオープンドメイン都市イテナリープランニング(OUIP)のタスクを直接生成するタスクを,初めて提案する。 OUIPは、ユーザがより詳細なニーズを表現できなくなり、真のパーソナライズを妨げる、従来の反復計画とは異なる。 近年,大規模言語モデル (LLM) は多様なタスクを扱う可能性を示している。 しかし,非リアルタイム情報,不完全知識,空間認識が不十分なため,OUIPのユーザエクスペリエンスを独立して提供することはできない。 そこで本稿では,大規模言語モデル (LLM) と空間最適化を併用する OUIP システム IiNera を提案する。 具体的には、ユーザが所有するパーソナライズされたPOIデータベースを作成するために、POI機能の抽出と更新を行うLLMベースのパイプラインを開発する。 ユーザリクエスト毎に,組込みベースのモジュールと連携してllmを利用して,ユーザのpoiデータベースから候補poisを取得する。 そして、これらのPOIを順序付けするために空間最適化モジュールを使用し、次いで、パーソナライズされた空間的に整合したイテレーションを構築する。 我々の知る限り、本研究はLCMを初めて統合し、反復計画ソリューションを革新したものである。 オフラインデータセットとオンラインの主観評価に関する広範な実験により、現在のllmベースのソリューションよりも応答性と空間的に一貫性のあるイテナリを提供する能力が実証された。 我々のシステムはTuTuのオンライン旅行サービスで運用されており、都市旅行計画のために何千人ものユーザーを惹きつけている。

In this paper, we for the first time propose the task of Open-domain Urban Itinerary Planning (OUIP) for citywalk, which directly generates itineraries based on users' requests described in natural language. OUIP is different from conventional itinerary planning, which limits users from expressing more detailed needs and hinders true personalization. Recently, large language models (LLMs) have shown potential in handling diverse tasks. However, due to non-real-time information, incomplete knowledge, and insufficient spatial awareness, they are unable to independently deliver a satisfactory user experience in OUIP. Given this, we present ItiNera, an OUIP system that synergizes spatial optimization with Large Language Models (LLMs) to provide services that customize urban itineraries based on users' needs. Specifically, we develop an LLM-based pipeline for extracting and updating POI features to create a user-owned personalized POI database. For each user request, we leverage LLM in cooperation with an embedding-based module for retrieving candidate POIs from the user's POI database. Then, a spatial optimization module is used to order these POIs, followed by LLM crafting a personalized, spatially coherent itinerary. To the best of our knowledge, this study marks the first integration of LLMs to innovate itinerary planning solutions. Extensive experiments on offline datasets and online subjective evaluation have demonstrated the capacities of our system to deliver more responsive and spatially coherent itineraries than current LLM-based solutions. Our system has been deployed in production at the TuTu online travel service and has attracted thousands of users for their urban travel planning.
翻訳日:2024-02-13 16:54:21 公開日:2024-02-11
# 構造再パラメータネットワークの低ビット量子化のためのoutlier-awareトレーニング

Outlier-Aware Training for Low-Bit Quantization of Structural Re-Parameterized Networks ( http://arxiv.org/abs/2402.07200v1 )

ライセンス: Link先を確認
Muqun Niu, Yuan Ren, Boyu Li and Chenchen Ding(参考訳) 畳み込みニューラルネットワーク(cnns)の軽量設計にはモデルアーキテクチャと圧縮技術の共同設計が必要となる。 トレーニングと推論を分離する新しい設計パラダイムとして、RepVGG代表のような構造的再パラメータ化(SR)ネットワークは、より高度で複雑なネットワークと高い精度で単純なVGGのようなネットワークを再活性化する。 しかし、SRネットワークにおけるマージプロセスは、アウトレーヤを重みにし、その分布を従来のネットワークと区別し、量子化の困難を増す。 そこで本研究では,OABN (Outlier Aware Batch Normalization) と呼ばれる,オペレータレベルのトレーニング改善を提案する。 さらに,推測精度を維持しつつ,限られたビット幅の要求を満たすため,クラスタリングに基づくQAT(Quantization-Aware Training)のための非一様量子化フレームワークであるClusterQATを開発した。 oabn と clusterqat を統合することで、特にビット幅が 8 を下回ると、repvgg の量子化性能が大幅に向上する。

Lightweight design of Convolutional Neural Networks (CNNs) requires co-design efforts in the model architectures and compression techniques. As a novel design paradigm that separates training and inference, a structural re-parameterized (SR) network such as the representative RepVGG revitalizes the simple VGG-like network with a high accuracy comparable to advanced and often more complicated networks. However, the merging process in SR networks introduces outliers into weights, making their distribution distinct from conventional networks and thus heightening difficulties in quantization. To address this, we propose an operator-level improvement for training called Outlier Aware Batch Normalization (OABN). Additionally, to meet the demands of limited bitwidths while upkeeping the inference accuracy, we develop a clustering-based non-uniform quantization framework for Quantization-Aware Training (QAT) named ClusterQAT. Integrating OABN with ClusterQAT, the quantized performance of RepVGG is largely enhanced, particularly when the bitwidth falls below 8.
翻訳日:2024-02-13 16:53:51 公開日:2024-02-11
# パターン認識による時間グラフ上のリンク認識リンク予測

Link-aware link prediction over temporal graph by pattern recognition ( http://arxiv.org/abs/2402.07199v1 )

ライセンス: Link先を確認
Bingqing Liu, Xikun Huang(参考訳) 時間グラフはリンクのストリームと見なすことができ、それぞれが特定の時間に2つのノード間の相互作用を表す。 時間グラフでは、リンク予測は共通のタスクであり、クエリリンクが真かどうかに答えることを目的としている。 このタスクを行うために、従来のメソッドは通常、クエリリンク内の2つのノードの表現の学習にフォーカスする。 モデルによる学習表現は,クエリリンクの情報,すなわちリンクを意識していない情報を利用していないため,リンク予測に副作用のある情報が多すぎる可能性があることを指摘する。 そこで本研究では,履歴リンクとクエリリンクを共に入力し,この入力がクエリリンクに終止符を打つ合理的なパターンを意味するか否かを識別するために,リンク認識モデルを提案する。 このプロセスでは,ノード表現よりもリンク進化パターンのモデル化に着目する。 6つのデータセットの実験から,我々のモデルは最先端のベースラインと比較して高い性能を示し,リンク予測の結果は解釈可能である。 コードとデータセットはプロジェクトのWebサイト(https://github.com/lbq8942/TGACN)で公開されている。

A temporal graph can be considered as a stream of links, each of which represents an interaction between two nodes at a certain time. On temporal graphs, link prediction is a common task, which aims to answer whether the query link is true or not. To do this task, previous methods usually focus on the learning of representations of the two nodes in the query link. We point out that the learned representation by their models may encode too much information with side effects for link prediction because they have not utilized the information of the query link, i.e., they are link-unaware. Based on this observation, we propose a link-aware model: historical links and the query link are input together into the following model layers to distinguish whether this input implies a reasonable pattern that ends with the query link. During this process, we focus on the modeling of link evolution patterns rather than node representations. Experiments on six datasets show that our model achieves strong performances compared with state-of-the-art baselines, and the results of link prediction are interpretable. The code and datasets are available on the project website: https://github.com/lbq8942/TGACN.
翻訳日:2024-02-13 16:53:33 公開日:2024-02-11
# 分散化によるさらなるメリット - 強化学習のための2次境界

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning ( http://arxiv.org/abs/2402.07198v1 )

ライセンス: Link先を確認
Kaiwen Wang, Owen Oertell, Alekh Agarwal, Nathan Kallus, Wen Sun(参考訳) 本稿では,分布強化学習(DistRL)が,関数近似を用いた一般設定において,オンラインとオフラインのRLの2次境界が得られることを示す。 2階境界は、リターンの分散と共にスケールするインスタンス依存境界であり、これは以前に知られていた分布RLの小さなロス境界よりも厳密である。 我々の知る限り、我々の結果は低ランクのMDPとオフラインのRLに対する最初の2階境界である。 文脈的帯域に特化する場合(一段階RL問題)、分布学習に基づく楽観的アルゴリズムが2次最悪の後悔境界と2次ギャップ依存境界を同時に達成することを示す。 また、実世界のデータセット上でのコンテキスト帯域におけるDistRLの利点を実証的に示す。 DistRLを用いた解析は比較的単純であり、不確実性に直面した楽観主義の一般的な枠組みに従っており、重み付け回帰を必要としない。 以上の結果から,DistRLは一般RL設定における2次境界を得る上で有望なフレームワークであることが示唆された。

In this paper, we prove that Distributional Reinforcement Learning (DistRL), which learns the return distribution, can obtain second-order bounds in both online and offline RL in general settings with function approximation. Second-order bounds are instance-dependent bounds that scale with the variance of return, which we prove are tighter than the previously known small-loss bounds of distributional RL. To the best of our knowledge, our results are the first second-order bounds for low-rank MDPs and for offline RL. When specializing to contextual bandits (one-step RL problem), we show that a distributional learning based optimism algorithm achieves a second-order worst-case regret bound, and a second-order gap dependent bound, simultaneously. We also empirically demonstrate the benefit of DistRL in contextual bandits on real-world datasets. We highlight that our analysis with DistRL is relatively simple, follows the general framework of optimism in the face of uncertainty and does not require weighted regression. Our results suggest that DistRL is a promising framework for obtaining second-order bounds in general RL settings, thus further reinforcing the benefits of DistRL.
翻訳日:2024-02-13 16:53:15 公開日:2024-02-11
# graphtranslator: オープンエンドタスクのためのグラフモデルを大きな言語モデルにアライメントする

GraphTranslator: Aligning Graph Model to Large Language Model for Open-ended Tasks ( http://arxiv.org/abs/2402.07197v1 )

ライセンス: Link先を確認
Mengmei Zhang (Alibaba Group Holding Limited, China Telecom Bestpay), Mingwei Sun (Alibaba Group Holding Limited), Peng Wang (Alibaba Group Holding Limited), Shen Fan (Alibaba Group Holding Limited), Yanhu Mo (Alibaba Group Holding Limited), Xiaoxiao Xu (Alibaba Group Holding Limited), Hong Liu (Alibaba Group Holding Limited), Cheng Yang (Peng Cheng Laboratory), Chuan Shi (Peng Cheng Laboratory)(参考訳) chatgptのような大規模言語モデル(llm)は強力なゼロショットと命令追従能力を示し、人工知能のさまざまな研究分野、特にオープンエンドタスクにおける革命的な変革を触媒している。 このアイデアはグラフドメインではあまり検討されていないが、多数の強力なグラフモデル(gms)が利用可能だが、事前に定義された形式でタスクに限定されている。 LLMをグラフに適用するいくつかの手法が提案されているが、ノード機能拡張器やスタンドアロン予測器として、事前に定義されたオープンなタスクを同時に処理することができない。 このジレンマを解消するために,事前に訓練されたGMとLLMをGraphTranslatorというトランスレータで橋渡しすることを提案する。 このようなトランスレータを訓練するために,ノード情報,近隣情報,モデル情報に沿ったグラフテキストアライメントデータを構築することができるプロデューサを提案する。 ノード表現を言語の一種として扱うことにより、提案するgraphtranslatorは、ノード表現と言語命令に基づく予測をllmに付与し、事前定義されたタスクとオープンエンドタスクの両方に対する統一的な視点を提供する。 その結果,提案したGraphTranslatorはゼロショットノード分類の結果を効果的に改善することがわかった。 グラフ質問応答実験では、言語命令を通じて、幅広い範囲のオープンエンドアプリケーションにわたって、GraphTranslatorの可能性を明らかにする。

Large language models (LLMs) like ChatGPT, exhibit powerful zero-shot and instruction-following capabilities, have catalyzed a revolutionary transformation across diverse research fields of artificial intelligence, especially for open-ended tasks. While the idea is less explored in the graph domain, despite the availability of numerous powerful graph models (GMs), they are restricted to tasks in a pre-defined form. Although several methods applying LLMs to graphs have been proposed, they fail to simultaneously handle the pre-defined and open-ended tasks, with LLM as a node feature enhancer or as a standalone predictor. To break this dilemma, we propose to bridge the pretrained GM and LLM by a Translator, named GraphTranslator, aiming to leverage GM to handle the pre-defined tasks effectively and utilize the extended interface of LLMs to offer various open-ended tasks for GM. To train such Translator, we propose a Producer capable of constructing the graph-text alignment data along node information, neighbor information and model information. By treating the node representation as a type of language, the proposed GraphTranslator empowers an LLM to make predictions based on node representation and language instructions, providing a unified perspective for both pre-defined and open-ended tasks. Extensive results show that the proposed GraphTranslator effectively improves the results of zero-shot node classification. The graph question answering experiments reveal our GraphTranslator potential across a broad spectrum of open-ended applications through language instructions.
翻訳日:2024-02-13 16:52:54 公開日:2024-02-11
# 勾配騒音の暗黙のバイアス--対称性の観点から

The Implicit Bias of Gradient Noise: A Symmetry Perspective ( http://arxiv.org/abs/2402.07193v1 )

ライセンス: Link先を確認
Liu Ziyin, Mingze Wang, Lei Wu(参考訳) 本研究では,連続対称性が損失関数に存在する場合の確率的勾配降下(sgd)の学習ダイナミクスを特徴付ける。 対称性が学習力学にどのように影響するかによって、対称性の族を2つのクラスに分けることができることを示す。 ある対称性のクラスに対して、SGD は自然に平衡で整列した勾配雑音を持つ解に収束する。 他の対称性のクラスでは、SGDはほとんど常に分岐する。 そして,損失関数に対称性が存在しない場合でも,結果が引き続き適用可能であり,トレーニングダイナミクスの理解に役立つことを示す。 我々の主な結果は、対称性の存在のみに依存し、損失関数の詳細とは無関係であるという意味で普遍的である。 提案理論は,漸進的なシャープ化とフラット化の説明を提供し,表現正規化,行列因子化,ウォームアップといった一般的な問題に適用できることを示す。

We characterize the learning dynamics of stochastic gradient descent (SGD) when continuous symmetry exists in the loss function, where the divergence between SGD and gradient descent is dramatic. We show that depending on how the symmetry affects the learning dynamics, we can divide a family of symmetry into two classes. For one class of symmetry, SGD naturally converges to solutions that have a balanced and aligned gradient noise. For the other class of symmetry, SGD will almost always diverge. Then, we show that our result remains applicable and can help us understand the training dynamics even when the symmetry is not present in the loss function. Our main result is universal in the sense that it only depends on the existence of the symmetry and is independent of the details of the loss function. We demonstrate that the proposed theory offers an explanation of progressive sharpening and flattening and can be applied to common practical problems such as representation normalization, matrix factorization, and the use of warmup.
翻訳日:2024-02-13 16:52:27 公開日:2024-02-11
# 以前のストーリー: ストーリーを読むためのスニペットの識別

Previously on the Stories: Recap Snippet Identification for Story Reading ( http://arxiv.org/abs/2402.07271v1 )

ライセンス: Link先を確認
Jiangnan Li, Qiujing Wang, Liyan Xu, Wenjie Pang, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou(参考訳) テレビ番組の"previly-on"シーンと同様に、recapsは以前のテキストの重要な要素について読者の記憶を思い出し、現在進行中のプロットをよりよく理解することで読書を助けることができる。 有用性にもかかわらず、この応用はNLPコミュニティでは十分に研究されていない。 本稿では,手作り評価データセットを用いたRecap Snippet Identificationと呼ばれる,この有用なタスクに関する最初のベンチマークを提案する。 実験の結果,提案課題は,提案課題がスニペット間のプロット相関の深い理解を必要とするため,PLM,LSM,提案手法に難題であることが判明した。

Similar to the "previously-on" scenes in TV shows, recaps can help book reading by recalling the readers' memory about the important elements in previous texts to better understand the ongoing plot. Despite its usefulness, this application has not been well studied in the NLP community. We propose the first benchmark on this useful task called Recap Snippet Identification with a hand-crafted evaluation dataset. Our experiments show that the proposed task is challenging to PLMs, LLMs, and proposed methods as the task requires a deep understanding of the plot correlation between snippets.
翻訳日:2024-02-13 16:47:51 公開日:2024-02-11
# DIMON:ドメインの微分型族上の部分微分方程式の学習解演算子

DIMON: Learning Solution Operators of Partial Differential Equations on a Diffeomorphic Family of Domains ( http://arxiv.org/abs/2402.07250v1 )

ライセンス: Link先を確認
Minglang Yin, Nicolas Charon, Ryan Brody, Lu Lu, Natalia Trayanova, Mauro Maggioni(参考訳) 複数のドメイン上の様々な初期/境界条件に対するPDEの解は、様々なアプリケーションで必要とされるが、ドメインの初期/境界条件が変化するたびに解がデ・ノボで計算されると計算コストがかかる。 そこで我々は,Defeomorphic Mapping Operator learNing (DIMON) と呼ばれる一般作用素学習フレームワークを導入し,PDEの解に対する初期/境界条件および領域からの写像を学習するドメイン群$\{\Omega_{\theta}}_\theta$,PDEの解に対する$\Omega_\theta$,あるいはその特定の関数に対して学習する。 DIMONは、与えられた問題(初期/境界条件とドメイン$\Omega_{\theta}$)を参照ドメイン上の問題に転送することに基づいており、複数の問題からのトレーニングデータを使用して、ソリューションへのマップを$\Omega_{0}$で学習し、元のドメイン$\Omega_{\theta}$に再マップする。 本研究では,非剛性地における静的PDEと時間依存PDEの両方の学習におけるフレームワークの性能を示すために,ラプラス方程式の解法,反応拡散方程式,左室の電気伝搬を特徴付ける多スケールPDEについて考察する。 この研究は、ドメインの族におけるPDEソリューションの高速予測と、工学と精密医療におけるニューラル演算子の応用への道を開いた。

The solution of a PDE over varying initial/boundary conditions on multiple domains is needed in a wide variety of applications, but it is computationally expensive if the solution is computed de novo whenever the initial/boundary conditions of the domain change. We introduce a general operator learning framework, called DIffeomorphic Mapping Operator learNing (DIMON) to learn approximate PDE solutions over a family of domains $\{\Omega_{\theta}}_\theta$, that learns the map from initial/boundary conditions and domain $\Omega_\theta$ to the solution of the PDE, or to specified functionals thereof. DIMON is based on transporting a given problem (initial/boundary conditions and domain $\Omega_{\theta}$) to a problem on a reference domain $\Omega_{0}$, where training data from multiple problems is used to learn the map to the solution on $\Omega_{0}$, which is then re-mapped to the original domain $\Omega_{\theta}$. We consider several problems to demonstrate the performance of the framework in learning both static and time-dependent PDEs on non-rigid geometries; these include solving the Laplace equation, reaction-diffusion equations, and a multiscale PDE that characterizes the electrical propagation on the left ventricle. This work paves the way toward the fast prediction of PDE solutions on a family of domains and the application of neural operators in engineering and precision medicine.
翻訳日:2024-02-13 16:47:40 公開日:2024-02-11
# 知的分子特性予測におけるドメイン知識とマルチモダリティの影響--体系的調査

The Impact of Domain Knowledge and Multi-Modality on Intelligent Molecular Property Prediction: A Systematic Survey ( http://arxiv.org/abs/2402.07249v1 )

ライセンス: Link先を確認
Taojie Kuang, Pengfei Liu, Zhixiang Ren(参考訳) 分子特性の正確な予測は薬物開発、特に仮想スクリーニングや化合物最適化の進歩に不可欠である。 近年の多くの深層学習手法の導入は、分子特性予測(MPP)の強化、特に分子構造に対する精度と洞察の向上に顕著な可能性を示している。 しかし、2つの重要な疑問が生じる: ドメイン知識の統合は分子特性予測の精度を高め、マルチモーダルデータ融合を用いることで、ユニークなデータソース法よりも正確な結果が得られるか? そこで本研究では,近年の深層学習法を総合的に検討し,定量的に分析する。 分子情報の統合はMPPの回帰と分類のタスクをそれぞれ3.98%と1.72%改善することを発見した。 また,1次元情報と2次元情報を同時に利用することにより,mppを最大4.2%向上できることがわかった。 2つの統合された洞察は、薬物発見の将来の進歩に重要なガイダンスを提供する。

The precise prediction of molecular properties is essential for advancements in drug development, particularly in virtual screening and compound optimization. The recent introduction of numerous deep learning-based methods has shown remarkable potential in enhancing molecular property prediction (MPP), especially improving accuracy and insights into molecular structures. Yet, two critical questions arise: does the integration of domain knowledge augment the accuracy of molecular property prediction and does employing multi-modal data fusion yield more precise results than unique data source methods? To explore these matters, we comprehensively review and quantitatively analyze recent deep learning methods based on various benchmarks. We discover that integrating molecular information will improve both MPP regression and classification tasks by upto 3.98% and 1.72%, respectively. We also discover that the utilizing 3-dimensional information with 1-dimensional and 2-dimensional information simultaneously can substantially enhance MPP upto 4.2%. The two consolidated insights offer crucial guidance for future advancements in drug discovery.
翻訳日:2024-02-13 16:47:08 公開日:2024-02-11
# ニューラルネットワークにおける深さ分離:次元と精度の分離

Depth Separations in Neural Networks: Separating the Dimension from the Accuracy ( http://arxiv.org/abs/2402.07248v1 )

ライセンス: Link先を確認
Itay Safran, Daniel Reichman, Paul Valiant(参考訳) 我々は,$[0,1]^{d}$ をサポートする分布に対して,$\mathcal{o}(1)$-lipschitz目標関数を一定の精度で近似する場合,深さ 2 と深さ 3 のニューラルネットワーク間の指数関数的分離を証明し,指数的に有界な重みを仮定する。 これは \citet{safran2019depth} で提起されるオープン問題に対処し、対象関数が深さ 3 を用いて効率的に表現できる場合であっても、次元の呪いが深さ 2 近似で現れることを証明する。 これまで、深さ2を深さ3から分離するために用いられた下限は、リプシッツパラメータの少なくとも1つ、目標精度、または入力次元と多項式的にスケールする近似領域のサイズ(何らかの尺度)が必要であったが、前2つを固定し、我々の領域を単位ハイパーキューブに制限した。 我々の下界は、様々な活性化関数を持ち、平均から最悪のランダムな自己再現性引数の新たな応用に基づいており、その問題を閾値回路の下位境界に還元する。

We prove an exponential separation between depth 2 and depth 3 neural networks, when approximating an $\mathcal{O}(1)$-Lipschitz target function to constant accuracy, with respect to a distribution with support in $[0,1]^{d}$, assuming exponentially bounded weights. This addresses an open problem posed in \citet{safran2019depth}, and proves that the curse of dimensionality manifests in depth 2 approximation, even in cases where the target function can be represented efficiently using depth 3. Previously, lower bounds that were used to separate depth 2 from depth 3 required that at least one of the Lipschitz parameter, target accuracy or (some measure of) the size of the domain of approximation scale polynomially with the input dimension, whereas we fix the former two and restrict our domain to the unit hypercube. Our lower bound holds for a wide variety of activation functions, and is based on a novel application of an average- to worst-case random self-reducibility argument, to reduce the problem to threshold circuits lower bounds.
翻訳日:2024-02-13 16:46:51 公開日:2024-02-11
# 一般化逆強化学習に向けて

Towards Generalized Inverse Reinforcement Learning ( http://arxiv.org/abs/2402.07246v1 )

ライセンス: Link先を確認
Chaosheng Dong, Yijia Wang(参考訳) 本稿では,マルコフ決定過程(MDP)における逆強化学習(GIRL)の一般化について検討する。 これらの成分は、報酬関数や遷移確率行列だけでなく、正確には知られていないが与えられた不確実性集合に属することが知られている作用空間や状態空間も含まれる。 GIRLにおける2つの重要な課題に対処する: 第一に、観測された政策と基礎となる最適政策の相違を定量化する必要性; 第二に、MDPの基本成分が観測不可能または部分的に観測可能でない場合に、基礎となる最適政策を数学的に特徴づけることの難しさ。 そして、GIRLの数学的定式化を提案し、高速ヒューリスティックアルゴリズムを開発する。 有限状態問題と無限状態問題の両方における数値結果は、我々の定式化とアルゴリズムの利点を示している。

This paper studies generalized inverse reinforcement learning (GIRL) in Markov decision processes (MDPs), that is, the problem of learning the basic components of an MDP given observed behavior (policy) that might not be optimal. These components include not only the reward function and transition probability matrices, but also the action space and state space that are not exactly known but are known to belong to given uncertainty sets. We address two key challenges in GIRL: first, the need to quantify the discrepancy between the observed policy and the underlying optimal policy; second, the difficulty of mathematically characterizing the underlying optimal policy when the basic components of an MDP are unobservable or partially observable. Then, we propose the mathematical formulation for GIRL and develop a fast heuristic algorithm. Numerical results on both finite and infinite state problems show the merit of our formulation and algorithm.
翻訳日:2024-02-13 16:46:28 公開日:2024-02-11
# semi-mamba-unet: 半教師付き医用画像セグメンテーションのためのピクセルレベルコントラストクロス教師付き視覚mambaベースunet

Semi-Mamba-UNet: Pixel-Level Contrastive Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2402.07245v1 )

ライセンス: Link先を確認
Ziyang Wang, Chao Ma(参考訳) 医療画像分割は診断、治療計画、医療において必須であり、ディープラーニングは有望な進歩をもたらす。 特に、畳み込みニューラルネットワーク(CNN)は、局所的な画像の特徴を捉えるのに優れ、ViT(Vision Transformer)は、マルチヘッド自己認識機構を通じて、遠距離依存を積極的にモデル化する。 その強みにもかかわらず、cnnとvitは医用画像内の長距離依存性を効率的に処理することの難しさに直面している。 この問題は、高いコストと限定的なエキスパートアノテーションの可用性と相まって、正確なセグメンテーションを達成する上で大きな障害となる。 そこで本稿では,従来の unet と visual mamba ベースの unet アーキテクチャを半教師付き学習 (ssl) フレームワークに統合した semi-mamba-unet を紹介する。 この革新的なSSLアプローチは、デュアルネットワークを活用して擬似ラベルを共同で生成し、相互監督し、一貫性の正則化技術からインスピレーションを得ている。 さらに,プロジェクタペアを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。 UNetをベースとしたさまざまなセグメンテーションネットワークを用いたSSLフレームワークと比較し,MRI心セグメンテーションデータセットの総合評価を行った。 ソースコードは公開アクセス可能になっている。

Medical image segmentation is essential in diagnostics, treatment planning, and healthcare, with deep learning offering promising advancements. Notably, Convolutional Neural Network (CNN) excel in capturing local image features, whereas Vision Transformer (ViT) adeptly model long-range dependencies through multi-head self-attention mechanisms. Despite their strengths, both CNN and ViT face challenges in efficiently processing long-range dependencies within medical images, often requiring substantial computational resources. This issue, combined with the high cost and limited availability of expert annotations, poses significant obstacles to achieving precise segmentation. To address these challenges, this paper introduces the Semi-Mamba-UNet, which integrates a visual mamba-based UNet architecture with a conventional UNet into a semi-supervised learning (SSL) framework. This innovative SSL approach leverages dual networks to jointly generate pseudo labels and cross supervise each other, drawing inspiration from consistency regularization techniques. Furthermore, we introduce a self-supervised pixel-level contrastive learning strategy, employing a projector pair to further enhance feature learning capabilities. Our comprehensive evaluation on a publicly available MRI cardiac segmentation dataset, comparing against various SSL frameworks with different UNet-based segmentation networks, highlights the superior performance of Semi-Mamba-UNet. The source code has been made publicly accessible.
翻訳日:2024-02-13 16:46:12 公開日:2024-02-11
# SAIS:共生パラダイムに基づく新しいバイオインスパイアされた人工免疫システム

SAIS: A Novel Bio-Inspired Artificial Immune System Based on Symbiotic Paradigm ( http://arxiv.org/abs/2402.07244v1 )

ライセンス: Link先を確認
Junhao Song, Yingfang Yuan, Wei Pang(参考訳) そこで我々は, 共生人工免疫システム(SAIS)の新たなタイプの人工免疫システム(AIS: Artificial Immune System)を提案し, 生物学における共生関係から着想を得た。 SAISは、共生生物探索(SOS)アルゴリズムから更新された3つの重要な段階(相互主義、通勤主義、寄生)と平行している。 この並行的なアプローチは、人口規模が大きくなるという課題に効果的に対処し、従来のAISとSOSが解決に苦しむAISの多様性を高める。 我々は一連の実験を行い、SAISが最先端のSOSに匹敵する性能を達成し、26のベンチマーク問題にまたがる他のAISアプローチや進化的アルゴリズムよりも優れていることを示した。 さらに,パラメータ選択の問題について検討し,SAISがより大規模な個体群を扱えるようにし,世代を減らした。 バイオインスパイアされた、免疫インスパイアされた新しいアルゴリズムであるsaisは、共生パラダイムによるバイオインスパイアされたコンピューティングの革新への道を開くと信じている。

We propose a novel type of Artificial Immune System (AIS): Symbiotic Artificial Immune Systems (SAIS), drawing inspiration from symbiotic relationships in biology. SAIS parallels the three key stages (i.e., mutualism, commensalism and parasitism) of population updating from the Symbiotic Organisms Search (SOS) algorithm. This parallel approach effectively addresses the challenges of large population size and enhances population diversity in AIS, which traditional AIS and SOS struggle to resolve efficiently. We conducted a series of experiments, which demonstrated that our SAIS achieved comparable performance to the state-of-the-art approach SOS and outperformed other popular AIS approaches and evolutionary algorithms across 26 benchmark problems. Furthermore, we investigated the problem of parameter selection and found that SAIS performs better in handling larger population sizes while requiring fewer generations. Finally, we believe SAIS, as a novel bio-inspired and immune-inspired algorithm, paves the way for innovation in bio-inspired computing with the symbiotic paradigm.
翻訳日:2024-02-13 16:45:42 公開日:2024-02-11
# PIVOT-Net:Point Cloud Compressionのための不均一なPoint-Voxel-Treeベースのフレームワーク

PIVOT-Net: Heterogeneous Point-Voxel-Tree-based Framework for Point Cloud Compression ( http://arxiv.org/abs/2402.07243v1 )

ライセンス: Link先を確認
Jiahao Pang, Kevin Bui, Dong Tian(参考訳) ポイントクラウドフォーマットの普遍性は、多くの3Dアプリケーションを可能にし、ポイントクラウドの圧縮を現実的に重要なフェーズにする。 離散3D点としてサンプリングされた点雲は、有限ビット深度で3Dに埋め込まれた2D曲面を近似する。 しかし, 実測点雲の点分布は, ビット深度の増加に伴って大きく変化し, 効率的な消費・分析のための異なる手法が必要である。 この点において、異種点クラウド圧縮(PCC)フレームワークが提案されている。 私たちは、ポイントベース、ボクセルベース、ツリーベースの典型的なポイントクラウド表現と、関連するバックボーンを学習ベースのフレームワークで統合し、異なるビット深度レベルで入力ポイントクラウドを圧縮します。 voxelドメイン処理の重要性を認識し,デコードのためのコンテキストアウェアアップサンプリングと機能集約のための拡張voxelトランスフォーマによるフレームワークの拡張を行った。 広範な実験は,提案手法の最先端の性能を幅広い点群で実証するものである。

The universality of the point cloud format enables many 3D applications, making the compression of point clouds a critical phase in practice. Sampled as discrete 3D points, a point cloud approximates 2D surface(s) embedded in 3D with a finite bit-depth. However, the point distribution of a practical point cloud changes drastically as its bit-depth increases, requiring different methodologies for effective consumption/analysis. In this regard, a heterogeneous point cloud compression (PCC) framework is proposed. We unify typical point cloud representations -- point-based, voxel-based, and tree-based representations -- and their associated backbones under a learning-based framework to compress an input point cloud at different bit-depth levels. Having recognized the importance of voxel-domain processing, we augment the framework with a proposed context-aware upsampling for decoding and an enhanced voxel transformer for feature aggregation. Extensive experimentation demonstrates the state-of-the-art performance of our proposal on a wide range of point clouds.
翻訳日:2024-02-13 16:45:17 公開日:2024-02-11
# 遺伝子駆動型シナプトジェネレーションの最適化

Optimizing Genetically-Driven Synaptogenesis ( http://arxiv.org/abs/2402.07242v1 )

ライセンス: Link先を確認
Tommaso Boccato, Matteo Ferrante, Nicola Toschi(参考訳) 本稿では、シナプトゲンをシミュレートし、所定の計算課題を解決できるニューロンネットワークの開発を導くことにより、遺伝的操作とニューロンネットワークの挙動とのギャップを埋めることを目的とした新しい枠組みであるシナプトゲンを提案する。 近年の分野での進歩からインスピレーションを得たSynaptoGenは,相乗的機能による相乗的生成をモデル化するための生物工学的アプローチとして提案されている。 SynaptoGenを検証するために、我々は強化学習をベンチマーク学習フレームワークとして使用し、OpenAI GymのCart Poleタスクを慎重に設計したベースラインと比較して解くことができるニューラルネットワーク生成の有効性を実証した。 この結果は、神経科学と計算モデリングのさらなる進歩を刺激するSynaptoGenの可能性を浮き彫りにするとともに、より現実的な遺伝的規則やシナプス的コンダクタンスを将来の研究に取り入れる必要性を認めている。 全体として、SynaptoGenは遺伝学、神経科学、人工知能の交差点を探索するための有望な道である。

In this paper we introduce SynaptoGen, a novel framework that aims to bridge the gap between genetic manipulations and neuronal network behavior by simulating synaptogenesis and guiding the development of neuronal networks capable of solving predetermined computational tasks. Drawing inspiration from recent advancements in the field, we propose SynaptoGen as a bio-plausible approach to modeling synaptogenesis through differentiable functions. To validate SynaptoGen, we conduct a preliminary experiment using reinforcement learning as a benchmark learning framework, demonstrating its effectiveness in generating neuronal networks capable of solving the OpenAI Gym's Cart Pole task, compared to carefully designed baselines. The results highlight the potential of SynaptoGen to inspire further advancements in neuroscience and computational modeling, while also acknowledging the need for incorporating more realistic genetic rules and synaptic conductances in future research. Overall, SynaptoGen represents a promising avenue for exploring the intersection of genetics, neuroscience, and artificial intelligence.
翻訳日:2024-02-13 16:44:45 公開日:2024-02-11
# CPSDBench:中国の公開セキュリティドメインのための大規模言語モデル評価ベンチマークとベースライン

CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain ( http://arxiv.org/abs/2402.07234v1 )

ライセンス: Link先を確認
Xin Tong, Bo Jin, Zhi Lin, Binjun Wang and Ting Yu(参考訳) 大規模言語モデル(LLM)は、複数のアプリケーションドメインにまたがる大きな可能性と効果を示している。 公安業務におけるLLMの性能を評価するため,中国公安ドメイン-CPSDbenchに合わせた特別評価ベンチマークを構築することを目的とした。 CPSDbenchは、現実のシナリオから収集された公開セキュリティに関連するデータセットを統合し、テキスト分類、情報抽出、質問応答、テキスト生成の4つの主要な側面にわたるLCMの包括的な評価をサポートする。 さらに,公安に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標を提案する。 本研究は,本研究で実施した詳細な分析と評価を通じて,セキュリティ問題に対する既存モデルのパフォーマンスの強みと限界の理解を深めるだけでなく,この分野のアプリケーションを対象としたより正確でカスタマイズされたllmモデルの将来の発展に向けた参考となるものを提供する。

Large Language Models (LLMs) have demonstrated significant potential and effectiveness across multiple application domains. To assess the performance of mainstream LLMs in public security tasks, this study aims to construct a specialized evaluation benchmark tailored to the Chinese public security domain--CPSDbench. CPSDbench integrates datasets related to public security collected from real-world scenarios, supporting a comprehensive assessment of LLMs across four key dimensions: text classification, information extraction, question answering, and text generation. Furthermore, this study introduces a set of innovative evaluation metrics designed to more precisely quantify the efficacy of LLMs in executing tasks related to public security. Through the in-depth analysis and evaluation conducted in this research, we not only enhance our understanding of the performance strengths and limitations of existing models in addressing public security issues but also provide references for the future development of more accurate and customized LLM models targeted at applications in this field.
翻訳日:2024-02-13 16:44:13 公開日:2024-02-11
# トランスgpt : 輸送用マルチモーダル生成予訓練変圧器

TransGPT: Multi-modal Generative Pre-trained Transformer for Transportation ( http://arxiv.org/abs/2402.07233v1 )

ライセンス: Link先を確認
Peng Wang, Xiang Wei, Fangxu Hu and Wenjuan Han(参考訳) 自然言語処理(NLP)はインテリジェントトランスポートシステム(ITS)の重要な構成要素であるが、ドメイン固有の知識やデータ、マルチモーダル入力や出力など、輸送領域における多くの課題に直面している。 本稿では、トランスGPT-SMとトランスGPT-MMの2つの独立した変種からなるトランスモーダルドメインのための新しい(マルチモーダルな)大規模言語モデルであるTransGPTを提案する。 TransGPT-SMは、トランスポートドメイン内の様々なソースからのテキストデータを含む単一モーダルトランスポーテーションデータセット(STD)に微調整される。 TransGPT-MMは、交通領域の3つの領域(運転テスト、交通標識、ランドマーク)から手作業で収集したマルチモーダルトランスポーテーションデータセット(MTD)に基づいて微調整される。 我々はトランスgptをトランスポート領域の異なるタスクのためのいくつかのベンチマークデータセットで評価し、ほとんどのタスクでベースラインモデルよりも優れていることを示す。 また,交通シナリオの生成,交通現象の説明,交通関連質問への回答,交通レコメンデーションの提供,交通報告の生成など,交通分析・モデリングにおけるTransGPTの適用可能性についても紹介する。 この研究は、輸送分野におけるNLPの最先端を推し進め、ITSの研究者や実践者にとって有用なツールを提供する。

Natural language processing (NLP) is a key component of intelligent transportation systems (ITS), but it faces many challenges in the transportation domain, such as domain-specific knowledge and data, and multi-modal inputs and outputs. This paper presents TransGPT, a novel (multi-modal) large language model for the transportation domain, which consists of two independent variants: TransGPT-SM for single-modal data and TransGPT-MM for multi-modal data. TransGPT-SM is finetuned on a single-modal Transportation dataset (STD) that contains textual data from various sources in the transportation domain. TransGPT-MM is finetuned on a multi-modal Transportation dataset (MTD) that we manually collected from three areas of the transportation domain: driving tests, traffic signs, and landmarks. We evaluate TransGPT on several benchmark datasets for different tasks in the transportation domain, and show that it outperforms baseline models on most tasks. We also showcase the potential applications of TransGPT for traffic analysis and modeling, such as generating synthetic traffic scenarios, explaining traffic phenomena, answering traffic-related questions, providing traffic recommendations, and generating traffic reports. This work advances the state-of-the-art of NLP in the transportation domain and provides a useful tool for ITS researchers and practitioners.
翻訳日:2024-02-13 16:43:45 公開日:2024-02-11
# GenSTL:特徴領域の自動回帰生成による一般スパース軌道学習

GenSTL: General Sparse Trajectory Learning via Auto-regressive Generation of Feature Domains ( http://arxiv.org/abs/2402.07232v1 )

ライセンス: Link先を確認
Yan Lin, Jilin Hu, Shengnan Guo, Bin Yang, Christian S. Jensen, Youfang Lin, Huaiyu Wan(参考訳) 軌道はタイムスタンプされた位置サンプルのシーケンスである。 スパーストラジェクトリーでは、場所は頻繁にサンプリングされ、現実世界ではそのような軌道が一般的であるが、高品質の輸送関連アプリケーションを実現するために利用することは困難である。 現在の手法では、密集したサンプルと正確にマッピングされた軌跡を仮定するか、2段階のスキームに依存し、準最適応用をもたらす。 スパーストラジェクタ(sparse trajectories)の有用性を拡張するために,新しいスパース軌道学習フレームワークgenstlを提案する。 このフレームワークは、自己回帰的な特徴領域の生成を用いてスパース軌道と高密度領域の間の接続を形成するために事前訓練されている。 genstlはその後、下流タスクに直接適用することも、最初に微調整することもできる。 これにより、GenSTLは、大規模密集トラジェクトリデータとマップマッチングトラジェクトリデータの可用性に依存しない。 精巧な特徴領域エンコーディング層と階層的マスクド軌道エンコーダを含むことで、genstlの学習能力と適応性が向上する。 2つの実世界の軌道データセットに関する実験は、異なるサンプリング間隔のスパースな軌道と競合するフレームワークの能力と、異なる下流のタスクにまたがる汎用性に関する洞察を与え、実世界のアプリケーションで実用性を示す。

Trajectories are sequences of timestamped location samples. In sparse trajectories, the locations are sampled infrequently; and while such trajectories are prevalent in real-world settings, they are challenging to use to enable high-quality transportation-related applications. Current methodologies either assume densely sampled and accurately map-matched trajectories, or they rely on two-stage schemes, yielding sub-optimal applications. To extend the utility of sparse trajectories, we propose a novel sparse trajectory learning framework, GenSTL. The framework is pre-trained to form connections between sparse trajectories and dense counterparts using auto-regressive generation of feature domains. GenSTL can subsequently be applied directly in downstream tasks, or it can be fine-tuned first. This way, GenSTL eliminates the reliance on the availability of large-scale dense and map-matched trajectory data. The inclusion of a well-crafted feature domain encoding layer and a hierarchical masked trajectory encoder enhances GenSTL's learning capabilities and adaptability. Experiments on two real-world trajectory datasets offer insight into the framework's ability to contend with sparse trajectories with different sampling intervals and its versatility across different downstream tasks, thus offering evidence of its practicality in real-world applications.
翻訳日:2024-02-13 16:42:38 公開日:2024-02-11
# 大規模計算における逐次リファインメント:モデル推論の応用

Successive Refinement in Large-Scale Computation: Advancing Model Inference Applications ( http://arxiv.org/abs/2402.07229v1 )

ライセンス: Link先を確認
Homa Esfahanizadeh, Alejandro Cohen, Shlomo Shamai (Shitz), Muriel Medard(参考訳) 現代の計算集約型アプリケーションは、しばしば時間の制約の下で動作し、加速方法と複数のエンティティにまたがる計算ワークロードの分散を必要とする。 しかし、結果は望ましいタイムライン内で達成されるか、そうでないかのいずれかであり、後者の場合、貴重なリソースが浪費される。 本稿では,階層化分解能計算の解を提案する。 これらの解は最終結果よりも早く解像度の低い結果が得られる。 この革新は、時間的制約により計算ジョブが終了したとしても、最終結果の近似バージョンを生成できるため、期限ベースのシステムを特に強化する。 さらに、一部の運用体制では、AIベースの意思決定システムのように、低解像度の結果が決定しきい値からかなり逸脱している可能性があるため、高解像度の結果は不要である可能性がある。 したがって、オペレータは中間結果に基づいて高分解能が必要かどうかを判断でき、適応分解能を持つ計算を可能にする。 本稿では、分散行列乗算(線形)と機械学習(非線形)のモデル推論という、2つのクリティカルかつ計算的に要求されるジョブの枠組みを提案する。 理論的および実証的な結果から,従来のワンショットアプローチに匹敵する全体的な複雑性を維持しつつ,第1解像度の実行遅延が最終解像度よりも著しく短いことが示されている。 さらに,本実験は,階層化が納期を延長し,大規模計算における適応性と透明性を実現する方法を示した。

Modern computationally-intensive applications often operate under time constraints, necessitating acceleration methods and distribution of computational workloads across multiple entities. However, the outcome is either achieved within the desired timeline or not, and in the latter case, valuable resources are wasted. In this paper, we introduce solutions for layered-resolution computation. These solutions allow lower-resolution results to be obtained at an earlier stage than the final result. This innovation notably enhances the deadline-based systems, as if a computational job is terminated due to time constraints, an approximate version of the final result can still be generated. Moreover, in certain operational regimes, a high-resolution result might be unnecessary, because the low-resolution result may already deviate significantly from the decision threshold, for example in AI-based decision-making systems. Therefore, operators can decide whether higher resolution is needed or not based on intermediate results, enabling computations with adaptive resolution. We present our framework for two critical and computationally demanding jobs: distributed matrix multiplication (linear) and model inference in machine learning (nonlinear). Our theoretical and empirical results demonstrate that the execution delay for the first resolution is significantly shorter than that for the final resolution, while maintaining overall complexity comparable to the conventional one-shot approach. Our experiments further illustrate how the layering feature increases the likelihood of meeting deadlines and enables adaptability and transparency in massive, large-scale computations.
翻訳日:2024-02-13 16:42:00 公開日:2024-02-11
# ゴール条件付きオフラインRLの条件拡散モデルを用いたストッチングサブトラジェクトリ

Stitching Sub-Trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL ( http://arxiv.org/abs/2402.07226v1 )

ライセンス: Link先を確認
Sungyoon Kim, Yunseon Choi, Daiki E. Matsunaga, and Kee-Eung Kim(参考訳) オフライン目標定義強化学習(Offline GCRL)は、事前コンパイルされた行動データセットからのみ、多様な目標指向スキルを取得することに焦点を当てた、RLにおける重要な問題である。 この設定では、通常、ゴールが達成されたとき以外は報酬フィードバックが欠如しており、特に準最適行動の有限データセットからポリシーを学ぶのが困難である。 さらに、現実的なシナリオには、サブ軌道内で有用なスキルの抽出を必要とする長期計画が含まれる。 近年、条件拡散モデルがRLの高品質な長距離計画を生成するための有望なアプローチであることが示されている。 しかし, 目的条件設定の実用性は, その方法が生み出す多くの技術的仮定により, 依然として限定されている。 本稿では,これらの制約に対処するために条件付き拡散モデルを利用するモデルベースオフラインGCRL法であるSSD(Sub-trajectory Stitching with Diffusion)を提案する。 要約すると、目標目標と値に基づいて条件づけられた将来の計画を生成する拡散モデルを使い、目標値が目標リレーブされたオフラインデータセットから推定される。 我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。

Offline Goal-Conditioned Reinforcement Learning (Offline GCRL) is an important problem in RL that focuses on acquiring diverse goal-oriented skills solely from pre-collected behavior datasets. In this setting, the reward feedback is typically absent except when the goal is achieved, which makes it difficult to learn policies especially from a finite dataset of suboptimal behaviors. In addition, realistic scenarios involve long-horizon planning, which necessitates the extraction of useful skills within sub-trajectories. Recently, the conditional diffusion model has been shown to be a promising approach to generate high-quality long-horizon plans for RL. However, their practicality for the goal-conditioned setting is still limited due to a number of technical assumptions made by the methods. In this paper, we propose SSD (Sub-trajectory Stitching with Diffusion), a model-based offline GCRL method that leverages the conditional diffusion model to address these limitations. In summary, we use the diffusion model that generates future plans conditioned on the target goal and value, with the target value estimated from the goal-relabeled offline dataset. We report state-of-the-art performance in the standard benchmark set of GCRL tasks, and demonstrate the capability to successfully stitch the segments of suboptimal trajectories in the offline data to generate high-quality plans.
翻訳日:2024-02-13 16:41:33 公開日:2024-02-11
# 配向と均一性によるグラフマスク付きオートエンコーダの再考

Rethinking Graph Masked Autoencoders through Alignment and Uniformity ( http://arxiv.org/abs/2402.07225v1 )

ライセンス: Link先を確認
Liang Wang, Xiang Tao, Qiang Liu, Shu Wu, Liang Wang(参考訳) グラフ上の自己教師付き学習は、対比的および生成的手法に分岐することができる。 グラフ・コントラッシブ・ラーニング(GCL)としても知られるコントラスト法は、ここ数年でグラフ自己教師型学習を支配してきたが、グラフマスキング・オートエンコーダ(GraphMAE)の近年の出現により、生成法の背後にある勢いが再燃している。 GraphMAEの実証的な成功にもかかわらず、その有効性に関する理論的理解はいまだに不足している。 さらに, 生成法とコントラスト法の両方が有効であることが示されているが, 関連性や相違点については, 十分に調査されていない。 そこで、理論的にGraphMAEとGCLのブリッジを構築し、GraphMAEのノードレベルの再構成目的が暗黙的にコンテキストレベルのGCLを実行することを証明した。 この理論解析に基づき, gclにおける高品質表現の2つの重要な特性として考えられてきたアライメントと一様性の観点から, グラフメイの限界をさらに同定する。 graphmaeのアライメント性能はマスキング戦略によって制限されており、一様性が厳密に保証されていないことを指摘した。 上記の制限を解消するため,アライメントの一様性強化グラフマスク自動エンコーダ aug-mae を提案する。 具体的には,アライメント性能を向上させるための難解なサンプルを提供するための,難解な対向マスキング戦略を提案する。 一方,学習表現の一様性を保証するために,明示的な一様性正規化器を導入する。 ベンチマークデータセットによる実験結果は,既存の最先端手法よりもモデルの方が優れていることを示す。

Self-supervised learning on graphs can be bifurcated into contrastive and generative methods. Contrastive methods, also known as graph contrastive learning (GCL), have dominated graph self-supervised learning in the past few years, but the recent advent of graph masked autoencoder (GraphMAE) rekindles the momentum behind generative methods. Despite the empirical success of GraphMAE, there is still a dearth of theoretical understanding regarding its efficacy. Moreover, while both generative and contrastive methods have been shown to be effective, their connections and differences have yet to be thoroughly investigated. Therefore, we theoretically build a bridge between GraphMAE and GCL, and prove that the node-level reconstruction objective in GraphMAE implicitly performs context-level GCL. Based on our theoretical analysis, we further identify the limitations of the GraphMAE from the perspectives of alignment and uniformity, which have been considered as two key properties of high-quality representations in GCL. We point out that GraphMAE's alignment performance is restricted by the masking strategy, and the uniformity is not strictly guaranteed. To remedy the aforementioned limitations, we propose an Alignment-Uniformity enhanced Graph Masked AutoEncoder, named AUG-MAE. Specifically, we propose an easy-to-hard adversarial masking strategy to provide hard-to-align samples, which improves the alignment performance. Meanwhile, we introduce an explicit uniformity regularizer to ensure the uniformity of the learned representations. Experimental results on benchmark datasets demonstrate the superiority of our model over existing state-of-the-art methods.
翻訳日:2024-02-13 16:41:09 公開日:2024-02-11
# BioNeRF:ビュー合成のための生体可塑性神経放射場

BioNeRF: Biologically Plausible Neural Radiance Fields for View Synthesis ( http://arxiv.org/abs/2402.07310v1 )

ライセンス: Link先を確認
Leandro A. Passos, Douglas Rodrigues, Danilo Jodas, Kelton A. P. Costa, Jo\~ao Paulo Papa(参考訳) 本稿では,3次元表現のシーンをモデル化し,放射場を通して新たなビューを合成する生物可塑性アーキテクチャであるBioNeRFを提案する。 NeRFはシーンの3次元表現を保存するためにネットワークの重みに依存しているため、BioNeRFは複数のソースからの入力をメモリのような構造に融合させ、記憶能力を改善し、より本質的で関連性の高い情報を抽出する認知的なメカニズムを実装している。 bionerfはまた、文脈情報に関するピラミッド細胞で観察される挙動を模倣しており、記憶は文脈として提供され、次の2つの神経モデルの入力と組み合わせられる。 実験の結果,BioNeRFは実世界の画像と合成データという2つのデータセットで人間の知覚を符号化する品質指標に関して,最先端の結果よりも優れていた。

This paper presents BioNeRF, a biologically plausible architecture that models scenes in a 3D representation and synthesizes new views through radiance fields. Since NeRF relies on the network weights to store the scene's 3-dimensional representation, BioNeRF implements a cognitive-inspired mechanism that fuses inputs from multiple sources into a memory-like structure, improving the storing capacity and extracting more intrinsic and correlated information. BioNeRF also mimics a behavior observed in pyramidal cells concerning contextual information, in which the memory is provided as the context and combined with the inputs of two subsequent neural models, one responsible for producing the volumetric densities and the other the colors used to render the scene. Experimental results show that BioNeRF outperforms state-of-the-art results concerning a quality measure that encodes human perception in two datasets: real-world images and synthetic data.
翻訳日:2024-02-13 16:32:49 公開日:2024-02-11
# 知識グラフに基づく電力変圧器故障予測

Power Transformer Fault Prediction Based on Knowledge Graphs ( http://arxiv.org/abs/2402.07283v1 )

ライセンス: Link先を確認
Chao Wang, Zhuo Chen, Ziyan Zhang, Chiyi Li, Kai Song(参考訳) 本稿では,電力変圧器の故障データ制限による学習の課題について述べる。 従来の運用とメンテナンスツールには、潜在的な障害に対する効果的な予測機能がない。 広範なフォールトデータの不足により、機械学習技術を効果的に適用することは困難である。 そこで本研究では,知識グラフ(KG)技術と勾配向上決定木(GBDT)を組み合わせた新しい手法を提案する。 本手法は, 変圧器の故障や過去の運用データに影響を及ぼす様々な要因を統合することで, 少数の高次元データから効率的に学習できるように設計されている。 本手法は, 限られた故障特性データにもかかわらず, 電力変圧器の安全性評価と故障解析を可能にする。 実験により,この手法は,人工ニューラルネットワーク(ANN)やロジスティック回帰(LR)など,予測精度の他の学習手法よりも優れていることが示された。 さらに、プログレッシブネス、実用性、そして広く応用される可能性を大きく改善する。

In this paper, we address the challenge of learning with limited fault data for power transformers. Traditional operation and maintenance tools lack effective predictive capabilities for potential faults. The scarcity of extensive fault data makes it difficult to apply machine learning techniques effectively. To solve this problem, we propose a novel approach that leverages the knowledge graph (KG) technology in combination with gradient boosting decision trees (GBDT). This method is designed to efficiently learn from a small set of high-dimensional data, integrating various factors influencing transformer faults and historical operational data. Our approach enables accurate safe state assessments and fault analyses of power transformers despite the limited fault characteristic data. Experimental results demonstrate that this method outperforms other learning approaches in prediction accuracy, such as artificial neural networks (ANN) and logistic regression (LR). Furthermore, it offers significant improvements in progressiveness, practicality, and potential for widespread application.
翻訳日:2024-02-13 16:32:30 公開日:2024-02-11
# 大規模言語モデルはどのようにして正直とヘルプフルネスの対立をナビゲートするか?

How do Large Language Models Navigate Conflicts between Honesty and Helpfulness? ( http://arxiv.org/abs/2402.07282v1 )

ライセンス: Link先を確認
Ryan Liu, Theodore R. Sumers, Ishita Dasgupta, Thomas L. Griffiths(参考訳) 日々のコミュニケーションでは、聞き手にとって最大限に役に立つように、人々はしばしば真実(例えば時間を丸めたり、詳細を省略したりするなど)を近似する。 大規模言語モデル(llm)はこのような微妙なトレードオフをどのように扱うのか? この問題に対処するために,人間の行動を特徴付ける心理的モデルと実験を用いてLLMを分析する。 様々なLSMを検証し、人間の選好や推論時間推論の最適化がこれらのトレードオフにどのように影響するかを考察する。 人間のフィードバックからの強化学習は、誠実さと援助性の両方を改善する一方、チェーン・オブ・シークレットは、誠実さよりも役に立つように、LSMを歪ませている。 最後に、GPT-4 Turboは、会話のフレーミングやリスナーの決定コンテキストに対する感度を含む、人間のような応答パターンを示す。 以上の結果から,LLMが内在する会話値が明らかとなり,抽象的な値であってもある程度はゼロショットプロンプトで判断できることが示唆された。

In day-to-day communication, people often approximate the truth - for example, rounding the time or omitting details - in order to be maximally helpful to the listener. How do large language models (LLMs) handle such nuanced trade-offs? To address this question, we use psychological models and experiments designed to characterize human behavior to analyze LLMs. We test a range of LLMs and explore how optimization for human preferences or inference-time reasoning affects these trade-offs. We find that reinforcement learning from human feedback improves both honesty and helpfulness, while chain-of-thought prompting skews LLMs towards helpfulness over honesty. Finally, GPT-4 Turbo demonstrates human-like response patterns including sensitivity to the conversational framing and listener's decision context. Our findings reveal the conversational values internalized by LLMs and suggest that even these abstract values can, to a degree, be steered by zero-shot prompting.
翻訳日:2024-02-13 16:32:16 公開日:2024-02-11
# 木に基づくアプローチは異常検出におけるディープラーニングを克服できるか? ベンチマーク研究

Can Tree Based Approaches Surpass Deep Learning in Anomaly Detection? A Benchmarking Study ( http://arxiv.org/abs/2402.07281v1 )

ライセンス: Link先を確認
Santonu Sarkar, Shanay Mehta, Nicole Fernandes, Jyotirmoy Sarkar and Snehanshu Saha(参考訳) 複雑なミッションクリティカルシステムに対する異常な状況の検出は、サービス継続性を確保する必要がある場合に最重要となる。 運用データから異常を検出する大きな課題は、異常が稀なイベントであると考えられるため、不均衡なクラス分散の問題によって発生する。 本稿では,機械学習に基づく異常検出アルゴリズムを総合的なベンチマークにより評価する。 本論文は,様々な異常検出アルゴリズムの偏りのない比較を行い,ディープラーニングおよび異常検出手法に対する木ベースアプローチを含む古典的機械学習にまたがる。 104のパブリックデータセットといくつかのプロプライエタリな産業システムデータセットは研究の多様性を高め、アルゴリズムのパフォーマンスをより現実的に評価し、現実のシナリオへの適応性の重要性を強調する。 この論文はディープラーニングの神話を解き放ち、強力ではあるが、このケースではディープラーニングは普遍的な解決策ではないことを証明している。 最近提案された木に基づく進化的アルゴリズムは,多くのシナリオにおいて優れていた。 私たちは、ディープラーニングメソッドが失敗するデータセットで、ツリーベースのアプローチがシングルトン異常をキャッチしていることに気付きました。 一方、古典的なSVMは10%以上の異常を持つデータセット上で最善を尽くしており、このようなシナリオは異常検出よりも分類問題としてモデル化できることを示している。 我々の知る限りでは、研究者や実践者が情報的アルゴリズムの選択を指導する目的で、多様なデータセットを用いた多数の最先端アルゴリズムの研究は、これまで試みられていない。

Detection of anomalous situations for complex mission-critical systems holds paramount importance when their service continuity needs to be ensured. A major challenge in detecting anomalies from the operational data arises due to the imbalanced class distribution problem since the anomalies are supposed to be rare events. This paper evaluates a diverse array of machine learning-based anomaly detection algorithms through a comprehensive benchmark study. The paper contributes significantly by conducting an unbiased comparison of various anomaly detection algorithms, spanning classical machine learning including various tree-based approaches to deep learning and outlier detection methods. The inclusion of 104 publicly available and a few proprietary industrial systems datasets enhances the diversity of the study, allowing for a more realistic evaluation of algorithm performance and emphasizing the importance of adaptability to real-world scenarios. The paper dispels the deep learning myth, demonstrating that though powerful, deep learning is not a universal solution in this case. We observed that recently proposed tree-based evolutionary algorithms outperform in many scenarios. We noticed that tree-based approaches catch a singleton anomaly in a dataset where deep learning methods fail. On the other hand, classical SVM performs the best on datasets with more than 10% anomalies, implying that such scenarios can be best modeled as a classification problem rather than anomaly detection. To our knowledge, such a study on a large number of state-of-the-art algorithms using diverse data sets, with the objective of guiding researchers and practitioners in making informed algorithmic choices, has not been attempted earlier.
翻訳日:2024-02-13 16:31:56 公開日:2024-02-11
# 高次元可積分モデルの離散時間結晶相

Discrete Time Crystal Phase of Higher Dimensional Integrable Models ( http://arxiv.org/abs/2402.07279v1 )

ライセンス: Link先を確認
Rahul Chandra and Analabha Roy(参考訳) 本稿では,高次元(d\geq 2$)のフロッケ時間結晶を,可積分自由フェルミオン模型の時間周期駆動により生成する可能性について検討する。 この実現は、熱化と脱コヒーレンスに理想的に抵抗する固い時間-結晶相をもたらす。 スピン軌道結合を利用して、新しい手法で検出できる堅牢な時間-結晶相を実現することができる。 さらに,キタエフスピン液体における高度に持続的なサブハーモニック応答とそれらの実装について検討する意義について検討し,時間翻訳対称性の破れとその実用的意義について考察する。

This paper investigates the possibility of generating Floquet-time crystals in higher dimensions ($d\geq 2$) through the time-periodic driving of integrable free-fermionic models. The realization leads to rigid time-crystal phases that are ideally resistant to thermalization and decoherence. By utilizing spin-orbit coupling, we are able to realize a robust time-crystal phase that can be detected using novel techniques. Moreover, we discuss the significance of studying the highly persistent subharmonic responses and their implementation in a Kitaev spin liquid, which contributes to our understanding of time translational symmetry breaking and its practical implications.
翻訳日:2024-02-13 16:31:32 公開日:2024-02-11
# 超伝導量子ビット上の動的デコヒーレンスフリー部分空間とサブシステム

Dynamically Generated Decoherence-Free Subspaces and Subsystems on Superconducting Qubits ( http://arxiv.org/abs/2402.07278v1 )

ライセンス: Link先を確認
Gregory Quiroz, Bibek Pokharel, Joseph Boen, Lina Tewala, Vinay Tripathi, Devon Williams, Lian-Ao Wu, Paraj Titum, Kevin Schultz, Daniel Lidar(参考訳) デコヒーレンスフリー部分空間とサブシステム(dfs)は、デコヒーレンスに影響されない対称性保護状態へ量子情報を符号化することで量子情報を保存する。 与えられた実験系に固有のDFSは存在しないかもしれないが、動的デカップリング(DD)を用いることで、DFSをサポートする対称性を誘導することができる。 ここではDD生成DFS論理量子ビットの最初の実験例を示す。 IBM Quantum 超伝導プロセッサを用いて、最大6ビットと7ビットの非相互作用論理量子ビットからなる2ビットと3ビットの DFS コードを調べる。 DDと誤り検出の組み合わせにより,DFS論理量子ビットはDD単独の物理量子ビットよりも最大で23%の保存精度の向上を達成できることを示す。 これにより、DFS符号化量子ビットの非破壊的な忠実性向上が実現される。 本稿では,量子プロセッサ上での論理エンコーディングによる計算精度の向上に向けた経路として,dfs符号の潜在的有用性を示す。

Decoherence-free subspaces and subsystems (DFS) preserve quantum information by encoding it into symmetry-protected states unaffected by decoherence. An inherent DFS of a given experimental system may not exist; however, through the use of dynamical decoupling (DD), one can induce symmetries that support DFSs. Here, we provide the first experimental demonstration of DD-generated DFS logical qubits. Utilizing IBM Quantum superconducting processors, we investigate two and three-qubit DFS codes comprising up to six and seven noninteracting logical qubits, respectively. Through a combination of DD and error detection, we show that DFS logical qubits can achieve up to a 23% improvement in state preservation fidelity over physical qubits subject to DD alone. This constitutes a beyond-breakeven fidelity improvement for DFS-encoded qubits. Our results showcase the potential utility of DFS codes as a pathway toward enhanced computational accuracy via logical encoding on quantum processors.
翻訳日:2024-02-13 16:31:22 公開日:2024-02-11
# 分類データセットとその意味階層を利用した視覚言語モデルのオープンエンドVQAベンチマーク

Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy ( http://arxiv.org/abs/2402.07270v1 )

ライセンス: Link先を確認
Simon Ging, Mar\'ia A. Bravo, Thomas Brox(参考訳) テキスト生成視覚言語モデルの評価は、難しいが重要な試みである。 既存のvqa(visual question answering)ベンチマークの限界に対処し,革新的な評価手法を提案することで,これらのモデルの能力の理解を深めようとしている。 本稿では,テキスト生成型視覚言語モデルの詳細な評価と識別型視覚言語モデルとの比較が可能な,よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。 きめ細かな分類課題に対する粗い回答の評価を改善するために,ラベル空間のセマンティックな階層を用いて,土木カテゴリーに関するフォローアップ質問を自動的に生成することを提案する。 最後に,従来のNLPとLLMに基づくメトリクスを比較し,実測値からモデル予測を評価する。 我々は、最終指標に基づいて決定を基礎とする人間評価研究を行う。 このベンチマークを視覚言語モデルに適用し,対象,行動,属性の分類におけるそれらの能力の詳細な比較を示す。 我々の貢献は、視覚言語モデリングのエキサイティングな分野において、より正確で有意義な評価の基礎を築くことを目的としています。

The evaluation of text-generative vision-language models is a challenging yet crucial endeavor. By addressing the limitations of existing Visual Question Answering (VQA) benchmarks and proposing innovative evaluation methodologies, our research seeks to advance our understanding of these models' capabilities. We propose a novel VQA benchmark based on well-known visual classification datasets which allows a granular evaluation of text-generative vision-language models and their comparison with discriminative vision-language models. To improve the assessment of coarse answers on fine-grained classification tasks, we suggest using the semantic hierarchy of the label space to ask automatically generated follow-up questions about the ground-truth category. Finally, we compare traditional NLP and LLM-based metrics for the problem of evaluating model predictions given ground-truth answers. We perform a human evaluation study upon which we base our decision on the final metric. We apply our benchmark to a suite of vision-language models and show a detailed comparison of their abilities on object, action, and attribute classification. Our contributions aim to lay the foundation for more precise and meaningful assessments, facilitating targeted progress in the exciting field of vision-language modeling.
翻訳日:2024-02-13 16:31:08 公開日:2024-02-11
# pathformerを用いた高精度疾患診断と高再現性バイオマーカー同定

Highly Accurate Disease Diagnosis and Highly Reproducible Biomarker Identification with PathFormer ( http://arxiv.org/abs/2402.07268v1 )

ライセンス: Link先を確認
Zehao Dong, Qihang Zhao, Philip R.O. Payne, Michael A Province, Carlos Cruchaga, Muhan Zhang, Tianyu Zhao, Yixin Chen, Fuhai Li(参考訳) バイオマーカーの同定は、折りたたみ変化や回帰分析などのオミクスデータ解析における疾患の正確な診断と疾患発生の理解に重要である。 グラフニューラルネットワーク(GNN)は、グラフ構造化データを分析するための主要なディープラーニングモデルである。 しかし,オミクスデータ解析における既存のgnnの2つの大きな制限,すなわち,複数のデータセットにまたがる限定的予測(診断)精度と限定的再現可能なバイオマーカー識別能力を見出した。 課題の根源は生物学的シグナル伝達経路のユニークなグラフ構造であり、多くの標的とそれらの標的間の集中的かつ複雑なシグナル伝達相互作用からなる。 本研究では,この2つの課題を解決するために,バイオマーカーのランク付けと疾患診断の予測のために,シグナリングネットワーク,事前知識,オミクスデータを体系的に統合した新しいGNNモデルアーキテクチャPathFormerを提案する。 比較の結果,PathFormerは既存のGNNモデルよりも高い精度の予測能力(既存のGNNモデルと比較して30%の精度向上)と,異なるデータセット間でのバイオマーカーランキングの再現性に優れていた。 2つの独立したアルツハイマー病(ad)と癌転写学的データを用いて改善を確認した。 PathFormerモデルは、他のオミクスデータ分析研究に直接適用することができる。

Biomarker identification is critical for precise disease diagnosis and understanding disease pathogenesis in omics data analysis, like using fold change and regression analysis. Graph neural networks (GNNs) have been the dominant deep learning model for analyzing graph-structured data. However, we found two major limitations of existing GNNs in omics data analysis, i.e., limited-prediction (diagnosis) accuracy and limited-reproducible biomarker identification capacity across multiple datasets. The root of the challenges is the unique graph structure of biological signaling pathways, which consists of a large number of targets and intensive and complex signaling interactions among these targets. To resolve these two challenges, in this study, we presented a novel GNN model architecture, named PathFormer, which systematically integrate signaling network, priori knowledge and omics data to rank biomarkers and predict disease diagnosis. In the comparison results, PathFormer outperformed existing GNN models significantly in terms of highly accurate prediction capability ( 30% accuracy improvement in disease diagnosis compared with existing GNN models) and high reproducibility of biomarker ranking across different datasets. The improvement was confirmed using two independent Alzheimer's Disease (AD) and cancer transcriptomic datasets. The PathFormer model can be directly applied to other omics data analysis studies.
翻訳日:2024-02-13 16:30:49 公開日:2024-02-11
# リーマン・ヒルベルト空間モジュラー観測における量子状態崩壊

Quantum state collapse on a Riemann-Hilbert space modulo observation ( http://arxiv.org/abs/2402.07264v1 )

ライセンス: Link先を確認
Jose A. Pereira Frugone(参考訳) 以前の研究では、時空観測が暗示される時空領域を識別することで、新しい種類のモジュラー背景空間を構築しました。 観測モジュール空間 (OM-space) と呼ぶ。 このモジュライ空間上の量子力学(QM)は、観測モジュール量子力学(OM-QM)と呼ばれる非常にリッチで非自明な双対数理論に写像される。 この研究では、このモジュラー化の範囲を量子状態の観測を含むように拡張する。 得られた拡張空間 Modular Riemann-Hilbert 空間 (OM-RH 空間) と呼ぶ。 リーマン面の数学的構造を持つ。 量子基底状態と混合状態のOM-QMアナログが見つかる。 これにより、量子状態還元法則とボルン則に類似したOM-QMが見つかる。 量子状態崩壊に対するOM-QMアナログは、OM-RH空間において完全に決定論的かつユニタリであることが判明した。 これは楕円曲線暗号復号プロトコルと同値であることが示されている。 最後に、絡み合った量子状態のOM-QMアナログを得る。 一例として、EPR実験のOM-QM解釈に適用する。

In a previous work we constructed a new kind of moduli background space by identifying regions of space-time where an observation of space-time is implied. We called it Observation Modular space (OM-space). Quantum Mechanics (QM) on this moduli space gets mapped into a very rich and highly non trivial dual Number Theory which we call Observation Modular Quantum Mechanics (OM-QM). In this work we extend the scope of this modularization to include observations of quantum states. We call the resulting extended space Observation Modular Riemann-Hilbert space (OM-RH space). It has the mathematical structure of a Riemann Surface. We find the OM-QM analogue of quantum base states and mixed states. This allows us to find the OM-QM analogues to the quantum State Reduction postulate and the Born rule. The OM-QM analog to quantum state collapse turns out to be totally deterministic and unitary in OM-RH space. It is shown to be equivalent to an Elliptic Curve Encryption-decryption protocol. Finally we obtain the OM-QM analog of entangled quantum states. As an example we apply this to the OM-QM interpretation of the EPR experiment.
翻訳日:2024-02-13 16:30:25 公開日:2024-02-11
# 顔認識における空間分解能と角分解能のトレードオフ

Trade-off Between Spatial and Angular Resolution in Facial Recognition ( http://arxiv.org/abs/2402.07263v1 )

ライセンス: Link先を確認
Muhammad Zeshan Alam, Sousso kelowani, and Mohamed Elsaeidy(参考訳) 様々な困難条件にまたがる顔認識システムの堅牢性を確保することは、その汎用性にとって不可欠である。 最先端の手法は、しばしば性能を高めるために深度、熱、角データなどの追加情報を含む。 しかし、角情報を利用するライトフィールドベースの顔認識アプローチは計算の限界に直面している。 本稿では,光場表現における空間角分解能の基本的なトレードオフについて検討し,顔認識性能の向上を実現する。 画像サイズを一定に保ちながら角度分解能の異なるマクロ画素を利用することで,空間分解能を犠牲にして角情報の影響を定量化し,計算制約を考慮した。 実験の結果,空間分解能を犠牲にして,角分解能をある程度向上させることにより,顔認識システムの性能が著しく向上することが示された。

Ensuring robustness in face recognition systems across various challenging conditions is crucial for their versatility. State-of-the-art methods often incorporate additional information, such as depth, thermal, or angular data, to enhance performance. However, light field-based face recognition approaches that leverage angular information face computational limitations. This paper investigates the fundamental trade-off between spatio-angular resolution in light field representation to achieve improved face recognition performance. By utilizing macro-pixels with varying angular resolutions while maintaining the overall image size, we aim to quantify the impact of angular information at the expense of spatial resolution, while considering computational constraints. Our experimental results demonstrate a notable performance improvement in face recognition systems by increasing the angular resolution, up to a certain extent, at the cost of spatial resolution.
翻訳日:2024-02-13 16:30:06 公開日:2024-02-11
# インディカル言語のための低リソース対音声生成:ベンガル語とヒンディー語の場合

Low-Resource Counterspeech Generation for Indic Languages: The Case of Bengali and Hindi ( http://arxiv.org/abs/2402.07262v1 )

ライセンス: Link先を確認
Mithun Das, Saurabh Kumar Pandey, Shivansh Sethi, Punyajoy Saha, Animesh Mukherjee(参考訳) オンラインハラスメントの高まりに伴い、NLPコミュニティは、そのような虐待的なスピーチの悪質なトーンを"カウント"し、ソーシャルネットワーク上での彼らの波及効果を薄める、反音声を生成するために、ニューラルネットワークの使用を調査し始めている。 しかし、これまでの努力の大部分は英語に重点を置いている。 ベンガル語とヒンディー語のような低リソース言語のギャップを埋めるため,ベンガル語とヒンディー語では2,460対,ヒンディー語では2,602対の虐待的音声/音声対のベンチマークデータセットを作成する。 異なる構成の言語間伝達機構を考慮したいくつかのベースラインモデルを実装し,効果的なベンチマークを設定するための適切なカウンタースペッチを生成する。 我々は,単言語構成が最高のパフォーマンスをもたらすことを観察する。 さらに, 言語モデルでは, 言語が同じ言語族に属する場合, 変換可能性が高いことに気付き, ある程度の反音声を生成することができる。

With the rise of online abuse, the NLP community has begun investigating the use of neural architectures to generate counterspeech that can "counter" the vicious tone of such abusive speech and dilute/ameliorate their rippling effect over the social network. However, most of the efforts so far have been primarily focused on English. To bridge the gap for low-resource languages such as Bengali and Hindi, we create a benchmark dataset of 5,062 abusive speech/counterspeech pairs, of which 2,460 pairs are in Bengali and 2,602 pairs are in Hindi. We implement several baseline models considering various interlingual transfer mechanisms with different configurations to generate suitable counterspeech to set up an effective benchmark. We observe that the monolingual setup yields the best performance. Further, using synthetic transfer, language models can generate counterspeech to some extent; specifically, we notice that transferability is better when languages belong to the same language family.
翻訳日:2024-02-13 16:29:52 公開日:2024-02-11
# セマンティクスセグメンテーションモデルのモデルドリフトに対するデータ品質を考慮したアプローチ

Data Quality Aware Approaches for Addressing Model Drift of Semantic Segmentation Models ( http://arxiv.org/abs/2402.07258v1 )

ライセンス: Link先を確認
Samiha Mirza, Vuong D. Nguyen, Pranav Mantini, Shishir K. Shah(参考訳) 人工知能(AI)が現実世界のアプリケーションに急速に統合される中、私たちが直面している課題のひとつはモデルドリフトの現象である。 モデルの性能を保ち、さらなる劣化を防ぐために、このドリフトを扱うための技術が必要です。 本研究では,先行モデル知識に基づくデータ品質評価とデータ条件付けという,モデルドリフトと戦うための2つの顕著な品質意識戦略について検討する。 前者は画質評価指標を利用して高品質なトレーニングデータを選択し、モデルの堅牢性を改善し、後者は既存のモデルから学習された特徴ベクトルを使用して将来のデータの選択を導く。 包括的実験を通じて,本研究は,意味セグメンテーションモデルの性能と信頼性向上におけるこれらの手法の有効性を明らかにすることを目的としており,実世界のシナリオにおけるコンピュータビジョン能力の向上に寄与する。

In the midst of the rapid integration of artificial intelligence (AI) into real world applications, one pressing challenge we confront is the phenomenon of model drift, wherein the performance of AI models gradually degrades over time, compromising their effectiveness in real-world, dynamic environments. Once identified, we need techniques for handling this drift to preserve the model performance and prevent further degradation. This study investigates two prominent quality aware strategies to combat model drift: data quality assessment and data conditioning based on prior model knowledge. The former leverages image quality assessment metrics to meticulously select high-quality training data, improving the model robustness, while the latter makes use of learned feature vectors from existing models to guide the selection of future data, aligning it with the model's prior knowledge. Through comprehensive experimentation, this research aims to shed light on the efficacy of these approaches in enhancing the performance and reliability of semantic segmentation models, thereby contributing to the advancement of computer vision capabilities in real-world scenarios.
翻訳日:2024-02-13 16:29:32 公開日:2024-02-11
# アメリカの手話ビデオからテキスト翻訳

American Sign Language Video to Text Translation ( http://arxiv.org/abs/2402.07255v1 )

ライセンス: Link先を確認
Parsheeta Roy, Ji-Eun Han, Srishti Chouhan, Bhaavanaa Thumu(参考訳) テキストへの手話は、難聴者のコミュニケーション障壁を断ち切るための重要な技術である。 私たちは最近発表された研究を再現し、改善しようと試みます。 BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。 アブレーション研究中,モデルの性能はオプティマイザ,アクティベーション関数,ラベル平滑化に大きく影響していることがわかった。 さらなる研究は、視覚的特徴キャプチャの改善、デコーダの利用の向上、事前訓練されたデコーダの統合による翻訳結果の改善を目的としている。 私たちのソースコードは、結果を複製し、将来の研究を促進するために利用できます。

Sign language to text is a crucial technology that can break down communication barriers for individuals with hearing difficulties. We replicate and try to improve on a recently published study. We evaluate models using BLEU and rBLEU metrics to ensure translation quality. During our ablation study, we found that the model's performance is significantly influenced by optimizers, activation functions, and label smoothing. Further research aims to refine visual feature capturing, enhance decoder utilization, and integrate pre-trained decoders for better translation outcomes. Our source code is available to facilitate replication of our results and encourage future research.
翻訳日:2024-02-13 16:29:14 公開日:2024-02-11
# 硬質線形等式制約を持つ物理インフォームニューラルネットワーク

Physics-Informed Neural Networks with Hard Linear Equality Constraints ( http://arxiv.org/abs/2402.07251v1 )

ライセンス: Link先を確認
Hao Chen, Gonzalo E. Constante Flores, Can Li(参考訳) サーロゲートモデリングは計算コストの高いシミュレーションを置き換えるために使われる。 ニューラルネットワークは、複雑な物理システムに対する効率的な評価を可能にする代理モデルとして広く応用されている。 それにもかかわらず、ニューラルネットワークはデータ駆動モデルであり、いかなる物理学も含まない。 ニューラルネットワークに物理を組み込むことで、一般化とデータの効率が向上する。 物理インフォームドニューラルネットワーク(PINN)は、データに存在する既知の物理的制約を活用するアプローチであるが、予測においてそれらを厳密に満たすことはできない。 本研究は、KKT条件から導かれる射影層を通じて厳密な線形等式制約を保証する新しい物理インフォームドニューラルネットワーク、KKT-hPINNを提案する。 連続溶融タンク炉 (CSTR) ユニット, 抽出蒸留サブシステム, 化学プラントのアスペンモデルに関する数値実験により, このモデルが予測精度をさらに高めることを示した。

Surrogate modeling is used to replace computationally expensive simulations. Neural networks have been widely applied as surrogate models that enable efficient evaluations over complex physical systems. Despite this, neural networks are data-driven models and devoid of any physics. The incorporation of physics into neural networks can improve generalization and data efficiency. The physics-informed neural network (PINN) is an approach to leverage known physical constraints present in the data, but it cannot strictly satisfy them in the predictions. This work proposes a novel physics-informed neural network, KKT-hPINN, which rigorously guarantees hard linear equality constraints through projection layers derived from KKT conditions. Numerical experiments on Aspen models of a continuous stirred-tank reactor (CSTR) unit, an extractive distillation subsystem, and a chemical plant demonstrate that this model can further enhance the prediction accuracy.
翻訳日:2024-02-13 16:29:03 公開日:2024-02-11
# huging faceリポジトリのマイニングから学んだこと

Lessons Learned from Mining the Hugging Face Repository ( http://arxiv.org/abs/2402.07323v1 )

ライセンス: Link先を確認
Joel Casta\~no, Silverio Mart\'inez-Fern\'andez, Xavier Franch(参考訳) 機械学習(ML)と人工知能(Artificial Intelligence)の急速に発展する分野は、Hugging Face(HF)のようなプラットフォームをモデル開発と共有のハブとして台頭している。 この経験報告は、HFに関する2つの総合的な研究から洞察を合成し、二酸化炭素排出量とMLモデルの進化的および保守的側面に焦点を当てる。 本研究の目的は,これらの研究の質を高めるため,HFエコシステム内のソフトウェアリポジトリ研究の実践的ガイドを提供することである。 我々は、我々の研究で使われている複製パッケージの複雑さを掘り下げ、分析を容易にする重要なツールと方法論を強調した。 さらに,多様なhfハブデータセット用に最適化されたニュアンス階層化サンプリング戦略を提案する。 また、レポジトリマイニングからコホート研究への移行、特にHFコンテキストのMLモデルにおけるレポジトリマイニング研究の因果性を確立するための予備的ガイドラインも導入している。 この移行は既存のフレームワークにインスパイアされ、HFモデルエコシステムのユニークな特徴に適合するように適応されている。 本報告は、研究者の指導的枠組みとして機能し、MLの責任と持続可能な進歩に貢献し、MLモデルのより広範な意味に関する深い理解を促進する。

The rapidly evolving fields of Machine Learning (ML) and Artificial Intelligence have witnessed the emergence of platforms like Hugging Face (HF) as central hubs for model development and sharing. This experience report synthesizes insights from two comprehensive studies conducted on HF, focusing on carbon emissions and the evolutionary and maintenance aspects of ML models. Our objective is to provide a practical guide for future researchers embarking on mining software repository studies within the HF ecosystem to enhance the quality of these studies. We delve into the intricacies of the replication package used in our studies, highlighting the pivotal tools and methodologies that facilitated our analysis. Furthermore, we propose a nuanced stratified sampling strategy tailored for the diverse HF Hub dataset, ensuring a representative and comprehensive analytical approach. The report also introduces preliminary guidelines, transitioning from repository mining to cohort studies, to establish causality in repository mining studies, particularly within the ML model of HF context. This transition is inspired by existing frameworks and is adapted to suit the unique characteristics of the HF model ecosystem. Our report serves as a guiding framework for researchers, contributing to the responsible and sustainable advancement of ML, and fostering a deeper understanding of the broader implications of ML models.
翻訳日:2024-02-13 16:22:17 公開日:2024-02-11
# ファクトアップ: LLMにおけるFactual Recallの背後にある付加的なメカニズム

Summing Up the Facts: Additive Mechanisms Behind Factual Recall in LLMs ( http://arxiv.org/abs/2402.07321v1 )

ライセンス: Link先を確認
Bilal Chughtai, Alan Cooney, Neel Nanda(参考訳) トランスフォーマティブベースの大規模言語モデル(llm)はどうやって知識を格納し、取得するのか? We focus on the most basic form of this task -- factual recall, where the model is tasked with explicitly surfacing stored facts in prompts of form `Fact: The Colosseum is in the country of'. We find that the mechanistic story behind factual recall is more complex than previously thought. It comprises several distinct, independent, and qualitatively different mechanisms that additively combine, constructively interfering on the correct attribute. We term this generic phenomena the additive motif: models compute through summing up multiple independent contributions. Each mechanism's contribution may be insufficient alone, but summing results in constructive interfere on the correct answer. In addition, we extend the method of direct logit attribution to attribute an attention head's output to individual source tokens. We use this technique to unpack what we call `mixed heads' -- which are themselves a pair of two separate additive updates from different source tokens.

How do transformer-based large language models (LLMs) store and retrieve knowledge? We focus on the most basic form of this task -- factual recall, where the model is tasked with explicitly surfacing stored facts in prompts of form `Fact: The Colosseum is in the country of'. We find that the mechanistic story behind factual recall is more complex than previously thought. It comprises several distinct, independent, and qualitatively different mechanisms that additively combine, constructively interfering on the correct attribute. We term this generic phenomena the additive motif: models compute through summing up multiple independent contributions. Each mechanism's contribution may be insufficient alone, but summing results in constructive interfere on the correct answer. In addition, we extend the method of direct logit attribution to attribute an attention head's output to individual source tokens. We use this technique to unpack what we call `mixed heads' -- which are themselves a pair of two separate additive updates from different source tokens.
翻訳日:2024-02-13 16:21:55 公開日:2024-02-11
# ノベルティ識別とアクティブラーニングのための言語埋め込みによる説明可能な安全な自律運転に向けて:実世界のデータセットを用いたフレームワークと実験分析

Towards Explainable, Safe Autonomous Driving with Language Embeddings for Novelty Identification and Active Learning: Framework and Experimental Analysis with Real-World Data Sets ( http://arxiv.org/abs/2402.07320v1 )

ライセンス: Link先を確認
Ross Greer and Mohan Trivedi(参考訳) 本研究では,自律運転データセットにおける能動的学習のための言語組込みの統合について検討する。 自動運転車が走行に苦しむ予期せぬシナリオから生まれた新奇さは、より高いレベルの推論能力を必要とする。 提案手法は,新規シーンの識別に言語に基づく表現を用い,安全テイクオーバ応答とアクティブラーニングの両目的を強調した。 本研究では,Contrastive Language-Image Pretrained (CLIP) 埋め込みを用いたクラスタリング実験を行い,データセットの整理と新規性の検出を行う。 提案アルゴリズムは,車載とインフラ搭載の2つの実世界の運転データセットから抽出したサブセットから,新規シーンを効果的に分離する。 生成されたクラスタからさらに,データプール内の他のシーンとノベルとして分類されたシーンを区別する要素のテキスト的説明を生成する手法を提案し,クラスタ化された結果から質的例を示す。 本研究は,新たな要素の同定とデータ説明生成における言語による埋め込みの有効性を実証し,安全テイクオーバやデータキュレーション,マルチタスク能動的学習における潜在的な応用について検討する。

This research explores the integration of language embeddings for active learning in autonomous driving datasets, with a focus on novelty detection. Novelty arises from unexpected scenarios that autonomous vehicles struggle to navigate, necessitating higher-level reasoning abilities. Our proposed method employs language-based representations to identify novel scenes, emphasizing the dual purpose of safety takeover responses and active learning. The research presents a clustering experiment using Contrastive Language-Image Pretrained (CLIP) embeddings to organize datasets and detect novelties. We find that the proposed algorithm effectively isolates novel scenes from a collection of subsets derived from two real-world driving datasets, one vehicle-mounted and one infrastructure-mounted. From the generated clusters, we further present methods for generating textual explanations of elements which differentiate scenes classified as novel from other scenes in the data pool, presenting qualitative examples from the clustered results. Our results demonstrate the effectiveness of language-driven embeddings in identifying novel elements and generating explanations of data, and we further discuss potential applications in safe takeovers, data curation, and multi-task active learning.
翻訳日:2024-02-13 16:21:42 公開日:2024-02-11
# ODIN:RLHFのハッキングを軽減

ODIN: Disentangled Reward Mitigates Hacking in RLHF ( http://arxiv.org/abs/2402.07319v1 )

ライセンス: Link先を確認
Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 本研究では,LLM上での強化学習(Reinforcement Learning from Human Feedback, RLHF)の課題である,応答長に対する報酬ハックの問題について検討する。 LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。 同じ問題は、RLのいくつかの報酬モデルにも当てはまる。 トレーニングと評価の両面での課題に対処するため、異なるトレーニング構成を比較するための信頼性の高い評価プロトコルを確立し、LLM評価スコアと各種トレーニングハイパーパラメータによる応答長とのトレードオフを検査する。 この評価に基づいて,超パラメータの有効性とrlにおける長手バイアスの軽減効果を考察する大規模研究を行った。 さらに,共有特徴表現に対する2つのリニアヘッドを共同で訓練し,報酬を予測し,一方は長さと相関し,もう一方は長さで区切りを訓練し,他方は実際のコンテンツに集中することで報酬モデルを改善することを提案する。 次に、長さヘッドをRLに捨てて、報酬のハッキングを防ぐ。 実験により,提案手法は報酬と長さの相関をほぼ排除し,得られた政策をかなりのマージンで改善することを示した。

In this work, we study the issue of reward hacking on the response length, a challenge emerging in Reinforcement Learning from Human Feedback (RLHF) on LLMs. A well-formatted, verbose but less helpful response from the LLMs can often deceive LLMs or even human evaluators to achieve high scores. The same issue also holds for some reward models in RL. To address the challenges in both training and evaluation, we establish a more reliable evaluation protocol for comparing different training configurations, which inspects the trade-off between LLM evaluation score and response length obtained by varying training hyperparameters. Based on this evaluation, we conduct large-scale studies, where the results shed insights into the efficacy of hyperparameters and tricks used in RL on mitigating length bias. We further propose to improve the reward model by jointly training two linear heads on shared feature representations to predict the rewards, one trained to correlate with length, and the other trained to decorrelate with length and therefore focus more on the actual content. We then discard the length head in RL to prevent reward hacking on length. Experiments demonstrate that our approach almost eliminates the reward correlation with length, and improves the obtained policy by a significant margin.
翻訳日:2024-02-13 16:21:16 公開日:2024-02-11
# 教育研究のためのオンプレミス超電導量子コンピュータ

On-Premises Superconducting Quantum Computer for Education and Research ( http://arxiv.org/abs/2402.07315v1 )

ライセンス: Link先を確認
Jami R\"onkk\"o, Olli Ahonen, Ville Bergholm, Alessio Calzona, Attila Geresdi, Hermanni Heimonen, Johannes Heinsoo, Vladimir Milchakov, Stefan Pogorzalek, Matthew Sarsby, Mykhailo Savytskyi, Stefan Seegerer, Fedor \v{S}imkovic IV, P.V. Sriluckshmy, Panu T. Vesanen and Mikio Nakahara(参考訳) 量子技術への世界的関心が高まり、教育と研究のために関連する物理システムにアクセスする必要性が高まっている。 本稿では,超伝導技術を利用した市販のオンサイト量子コンピュータを紹介し,その基本ハードウェアとソフトウェアコンポーネントについて考察する。 このシステムは,量子理論と量子コンピューティングの深い理解と量子概念の教育にどのように利用できるかを示す。 将来の人材に学びの機会を提供し、技術進歩に貢献する。 さらに,最近の注目すべき成果を再現して,研究におけるその利用を実証する。

With a growing interest in quantum technology globally, there is an increasing need for accessing relevant physical systems for education and research. In this paper we introduce a commercially available on-site quantum computer utilizing superconducting technology, offering insights into its fundamental hardware and software components. We show how this system can be used in education to teach quantum concepts and deepen understanding of quantum theory and quantum computing. It offers learning opportunities for future talent and contributes to technological progress. Additionally, we demonstrate its use in research by replicating some notable recent achievements.
翻訳日:2024-02-13 16:20:54 公開日:2024-02-11
# 一般kl正規化選好における人間フィードバックからのnash学習の理論解析

A Theoretical Analysis of Nash Learning from Human Feedback under General KL-Regularized Preference ( http://arxiv.org/abs/2402.07314v1 )

ライセンス: Link先を確認
Chenlu Ye, Wei Xiong, Yuheng Zhang, Nan Jiang, Tong Zhang(参考訳) 人的フィードバック(rlhf)からの強化学習は、プロンプトと2つの応答を入力として、確率的選好モデルが提供する選好信号から学習し、一方の反応の選好を示すスコアを生成する。 これまでのところ、最も一般的なRLHFパラダイムは報酬ベースであり、報酬モデリングの最初のステップから始まり、構築された報酬を使用して報酬最適化段階の報酬信号を提供する。 しかし、報酬関数の存在は強い仮定であり、報酬ベースのrlhfは表現力に制限があり、現実世界の複雑な人間の好みを捉えることができない。 本研究では,最近提案された学習パラダイムであるnash learning from human feedback (nlhf)に対する理論的洞察を提供する。 学習の目的は、初期モデルに近づいたまま、いかなる競合ポリシーよりも常に好まれる応答を生成するポリシーを見つけることである。 目的は、KL正規化選好モデルのナッシュ平衡(NE)として定義される。 我々は,オフライン環境とオンライン環境の両方を考慮したkl正規化nlhfの理論学習可能性の研究を初めて行おうとする。 予め収集したデータセットからオフライン学習を行うために,データセットの適切なカバレッジ条件下で効率的なアルゴリズムを提案する。 選好託と反復的な相互作用からバッチオンライン学習を行う場合、提案アルゴリズムは、基礎となる選好モデルの構造条件下で有限サンプル保証を享受する。 この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。

Reinforcement Learning from Human Feedback (RLHF) learns from the preference signal provided by a probabilistic preference model, which takes a prompt and two responses as input, and produces a score indicating the preference of one response against another. So far, the most popular RLHF paradigm is reward-based, which starts with an initial step of reward modeling, and the constructed reward is then used to provide a reward signal for the subsequent reward optimization stage. However, the existence of a reward function is a strong assumption and the reward-based RLHF is limited in expressivity and cannot capture the real-world complicated human preference. In this work, we provide theoretical insights for a recently proposed learning paradigm, Nash learning from human feedback (NLHF), which considered a general preference model and formulated the alignment process as a game between two competitive LLMs. The learning objective is to find a policy that consistently generates responses preferred over any competing policy while staying close to the initial model. The objective is defined as the Nash equilibrium (NE) of the KL-regularized preference model. We aim to make the first attempt to study the theoretical learnability of the KL-regularized NLHF by considering both offline and online settings. For the offline learning from a pre-collected dataset, we propose algorithms that are efficient under suitable coverage conditions of the dataset. For batch online learning from iterative interactions with a preference oracle, our proposed algorithm enjoys a finite sample guarantee under the structural condition of the underlying preference model. Our results connect the new NLHF paradigm with traditional RL theory, and validate the potential of reward-model-free learning under general preference.
翻訳日:2024-02-13 16:20:48 公開日:2024-02-11
# HyperBERT: テキスト分散ハイパーグラフのノード分類のための言語モデルとハイパーグラフ認識層を混合する

HyperBERT: Mixing Hypergraph-Aware Layers with Language Models for Node Classification on Text-Attributed Hypergraphs ( http://arxiv.org/abs/2402.07309v1 )

ライセンス: Link先を確認
Adri\'an Bazaga and Pietro Li\`o and Gos Micklem(参考訳) ハイパーグラフは複雑なトポロジーで特徴付けられ、ハイパーエッジを持つ複数のエンティティ間の高次相互作用を表現する。 近年,テキスト帰属ハイパーグラフのノード分類問題に対する情報表現を学習するハイパーグラフ型ディープラーニング手法が研究の注目を集めている。 しかし、既存の手法は、ハイパーグラフ構造情報の全範囲と、ノード属性に固有の豊富な言語特性を同時に捉えるのに苦労し、その有効性と一般化性を大きく損なう。 これらの課題を克服するために,ノード分類のためのハイパーグラフ認識層を用いて事前学習したbertモデルをさらに拡張する方法を検討する。 このような層は言語モデルに高階構造的帰納的バイアスをもたらし、ハイパーグラフ構造から高階のコンテキスト情報とテキストに存在する意味情報の両方を活用するモデルの能力を向上させる。 本稿では,事前学習したBERTの高品質テキスト符号化能力を維持しつつ,ハイパーグラフ関係構造を同時にモデル化する混合テキストハイパグラフモデルであるHyperBERTを提案する。 特に、HyperBERTは5つの挑戦的なテキスト分散ハイパーグラフノード分類ベンチマークに対して、最先端の新たな結果を提供する。

Hypergraphs are marked by complex topology, expressing higher-order interactions among multiple entities with hyperedges. Lately, hypergraph-based deep learning methods to learn informative data representations for the problem of node classification on text-attributed hypergraphs have garnered increasing research attention. However, existing methods struggle to simultaneously capture the full extent of hypergraph structural information and the rich linguistic attributes inherent in the nodes attributes, which largely hampers their effectiveness and generalizability. To overcome these challenges, we explore ways to further augment a pretrained BERT model with specialized hypergraph-aware layers for the task of node classification. Such layers introduce higher-order structural inductive bias into the language model, thus improving the model's capacity to harness both higher-order context information from the hypergraph structure and semantic information present in text. In this paper, we propose a new architecture, HyperBERT, a mixed text-hypergraph model which simultaneously models hypergraph relational structure while maintaining the high-quality text encoding capabilities of a pre-trained BERT. Notably, HyperBERT presents results that achieve a new state-of-the-art on 5 challenging text-attributed hypergraph node classification benchmarks.
翻訳日:2024-02-13 16:20:18 公開日:2024-02-11
# 自己整合性コンフォーマル予測

Self-Consistent Conformal Prediction ( http://arxiv.org/abs/2402.07307v1 )

ライセンス: Link先を確認
Lars van der Laan, Ahmed M. Alaa(参考訳) 機械学習によって導かれる意思決定では、意思決定者は、しばしば同じ予測結果のコンテキストで同じ行動をとる。 共形予測は、意思決定者が行動の結果の不確実性を定量化し、より良いリスク管理を可能にする。 この観点から,モデル予測によって引き起こされる行動に有効な,Venn-Abers校正予測と共形予測間隔の両方をもたらす自己整合整合予測を導入する。 我々の手順は、厳密でアクション固有の意思決定保証を提供するため、どんなブラックボックス予測にもポストホックで適用することができる。 数値実験により,本手法は区間効率と条件付き妥当性のバランスを示す。

In decision-making guided by machine learning, decision-makers often take identical actions in contexts with identical predicted outcomes. Conformal prediction helps decision-makers quantify outcome uncertainty for actions, allowing for better risk management. Inspired by this perspective, we introduce self-consistent conformal prediction, which yields both Venn-Abers calibrated predictions and conformal prediction intervals that are valid conditional on actions prompted by model predictions. Our procedure can be applied post-hoc to any black-box predictor to provide rigorous, action-specific decision-making guarantees. Numerical experiments show our approach strikes a balance between interval efficiency and conditional validity.
翻訳日:2024-02-13 16:19:58 公開日:2024-02-11
# LISR:コンパクトサポート付きラジアル基底関数を用いた線形3次元入射曲面表現の学習

LISR: Learning Linear 3D Implicit Surface Representation Using Compactly Supported Radial Basis Functions ( http://arxiv.org/abs/2402.07301v1 )

ライセンス: Link先を確認
Atharva Pandey, Vishal Yadav, Rajendra Nagar, Santanu Chaudhury(参考訳) 部分的かつノイズの多い3dポイントクラウドスキャンからの暗黙の3d表面再構成は、古典的な幾何学的処理と3dコンピュータビジョンの問題である。 文献では, 容積, パラメトリック, 暗示面など, 記憶効率や形状検索の効率の異なる様々な3次元形状表現が開発されている。 放射基底関数は暗黙の表面のメモリ効率のパラメータ化を提供する。 しかし, 基底の暗示面と線形基底に基づく暗示面との間の平均2乗誤差を用いたニューラルネットワークのトレーニングは, 大域的な解に収束しないことを示す。 本研究では,暗黙曲面の線形表現に対して局所的に支援されたコンパクト放射基底関数を提案する。 この表現により、任意の位相を持つ3次元形状を任意の解像度で生成することができる。 次に,物体の三次元表面の線形暗黙的形状表現を学習するためのニューラルネットワークアーキテクチャを提案する。 我々は,SDFデータを用いて教師付き学習フレームワーク内で線形な暗黙の形状を学習し,指導を行う。 古典的な戦略は、数値的な問題(大きな行列の逆問題)とクエリポイントの選択により、与えられた3次元点雲から線形な暗黙の形状を見つけるのが困難である。 提案手法は,ベンチマークデータセットの最先端手法よりも,チャムファー距離と同等のFスコアを実現する。 また,提案手法を3次元形状完了タスクに使用することにより,提案手法の有効性を示す。

Implicit 3D surface reconstruction of an object from its partial and noisy 3D point cloud scan is the classical geometry processing and 3D computer vision problem. In the literature, various 3D shape representations have been developed, differing in memory efficiency and shape retrieval effectiveness, such as volumetric, parametric, and implicit surfaces. Radial basis functions provide memory-efficient parameterization of the implicit surface. However, we show that training a neural network using the mean squared error between the ground-truth implicit surface and the linear basis-based implicit surfaces does not converge to the global solution. In this work, we propose locally supported compact radial basis functions for a linear representation of the implicit surface. This representation enables us to generate 3D shapes with arbitrary topologies at any resolution due to their continuous nature. We then propose a neural network architecture for learning the linear implicit shape representation of the 3D surface of an object. We learn linear implicit shapes within a supervised learning framework using ground truth Signed-Distance Field (SDF) data for guidance. The classical strategies face difficulties in finding linear implicit shapes from a given 3D point cloud due to numerical issues (requires solving inverse of a large matrix) in basis and query point selection. The proposed approach achieves better Chamfer distance and comparable F-score than the state-of-the-art approach on the benchmark dataset. We also show the effectiveness of the proposed approach by using it for the 3D shape completion task.
翻訳日:2024-02-13 16:19:46 公開日:2024-02-11
# シルエットトモグラフィの再建

Supervised Reconstruction for Silhouette Tomography ( http://arxiv.org/abs/2402.07298v1 )

ライセンス: Link先を確認
Evan Bell, Michael T. McCann, Marc Klasky(参考訳) 本稿では,撮像系の形状のみに依存するx線ctの新しい定式化であるsilhouette tomographyを提案する。 シルエットトモグラフィーを数学的に定式化し、任意の解が存在すると仮定して、問題の特定の解を得る簡単な方法を提供する。 次に,深層ニューラルネットワークを用いてシルエットトモグラフィ問題を解決する教師あり再構成手法を提案する。 本稿では,提案手法の有効性を示す合成データセットについて実験結果を示す。

In this paper, we introduce silhouette tomography, a novel formulation of X-ray computed tomography that relies only on the geometry of the imaging system. We formulate silhouette tomography mathematically and provide a simple method for obtaining a particular solution to the problem, assuming that any solution exists. We then propose a supervised reconstruction approach that uses a deep neural network to solve the silhouette tomography problem. We present experimental results on a synthetic dataset that demonstrate the effectiveness of the proposed method.
翻訳日:2024-02-13 16:19:27 公開日:2024-02-11
# 幾何学的エルゴードマルコフ過程の混合係数の推定

Estimating the Mixing Coefficients of Geometrically Ergodic Markov Processes ( http://arxiv.org/abs/2402.07296v1 )

ライセンス: Link先を確認
Steffen Gr\"unew\"alder and Azadeh Khaleghi(参考訳) 実数値幾何学的エルゴードマルコフ過程の個々の$\beta$-mixing係数を単一のサンプルパス $x_0,x_1, \dots,x_n$ から推定する方法を提案する。 Under standard smoothness conditions on the densities, namely, that the joint density of the pair $(X_0,X_m)$ for each $m$ lies in a Besov space $B^s_{1,\infty}(\mathbb R^2)$ for some known $s>0$, we obtain a rate of convergence of order $\mathcal{O}(\log(n) n^{-[s]/(2[s]+2)})$ for the expected error of our estimator in this case\footnote{We use $[s]$ to denote the integer part of the decomposition $s=[s]+\{s\}$ of $s \in (0,\infty)$ into an integer term and a {\em strictly positive} remainder term $\{s\} \in (0,1]$. }. この結果を推定誤差に縛られた高い確率で補完し、さらに状態空間が有限である場合のこれらの境界の類似性を得る。 予想される誤差率は、次数$\mathcal O(\log(n) n^{-1/2})$である。

We propose methods to estimate the individual $\beta$-mixing coefficients of a real-valued geometrically ergodic Markov process from a single sample-path $X_0,X_1, \dots,X_n$. Under standard smoothness conditions on the densities, namely, that the joint density of the pair $(X_0,X_m)$ for each $m$ lies in a Besov space $B^s_{1,\infty}(\mathbb R^2)$ for some known $s>0$, we obtain a rate of convergence of order $\mathcal{O}(\log(n) n^{-[s]/(2[s]+2)})$ for the expected error of our estimator in this case\footnote{We use $[s]$ to denote the integer part of the decomposition $s=[s]+\{s\}$ of $s \in (0,\infty)$ into an integer term and a {\em strictly positive} remainder term $\{s\} \in (0,1]$.}. We complement this result with a high-probability bound on the estimation error, and further obtain analogues of these bounds in the case where the state-space is finite. Naturally no density assumptions are required in this setting; the expected error rate is shown to be of order $\mathcal O(\log(n) n^{-1/2})$.
翻訳日:2024-02-13 16:19:17 公開日:2024-02-11
# サーバーレスフェデレーション学習における知識蒸留を用いた異種クライアントモデルの学習

Training Heterogeneous Client Models using Knowledge Distillation in Serverless Federated Learning ( http://arxiv.org/abs/2402.07295v1 )

ライセンス: Link先を確認
Mohak Chadha, Pulkit Khera, Jianfeng Gu, Osama Abboud, Michael Gerndt(参考訳) Federated Learning(FL)は、分散クライアント間で共有グローバルモデルの協調トレーニングを可能とし、データを分散化し続ける、新たな機械学習パラダイムである。 FLの効率的な設計システムに関する最近の研究は、サーバーレスコンピューティング技術、特にFLのFunction-as-a-Service(FaaS)を利用することで、リソース効率を向上し、トレーニングコストを削減し、データホルダの複雑なインフラストラクチャ管理負担を軽減することを示している。 しかし、既存のサーバーレスflシステムは、トレーニング中に参加する全クライアントにまたがる統一的なグローバルモデルアーキテクチャを暗黙的に想定している。 この仮定は、FLクライアント間のリソースと統計データの不均一性のために、実用FLの基本的な課題に対処できない。 本稿では、これらの課題に対処し、サーバーレスFLにおける異種クライアントモデルを実現するために、KD(Knowledge Distillation)を利用する。 そこで本研究では,2つの一般的なフェデレートkd技術,すなわちfedmdとfedfに対して最適化されたサーバーレスワークフローを提案する。 オープンソースのサーバレスFLシステムであるFedLessにいくつかの拡張を導入することで、これらのワークフローを実装します。 さらに,複数のデータ集合における2つの戦略を,精度,細粒度トレーニング時間,コストに関して異種クライアントモデルを用いて総合的に評価した。 実験の結果、サーバレスfedfは、極端な非iidデータ分散よりも堅牢であり、高速であり、サーバレスfedmdよりもコストが低くなっていることが分かりました。 さらに、元の実装と比較して、FedMDとFedDFの特定のステップに対する最適化は、すべてのデータセットで平均3.5倍と1.76倍のスピードアップをもたらす。

Federated Learning (FL) is an emerging machine learning paradigm that enables the collaborative training of a shared global model across distributed clients while keeping the data decentralized. Recent works on designing systems for efficient FL have shown that utilizing serverless computing technologies, particularly Function-as-a-Service (FaaS) for FL, can enhance resource efficiency, reduce training costs, and alleviate the complex infrastructure management burden on data holders. However, existing serverless FL systems implicitly assume a uniform global model architecture across all participating clients during training. This assumption fails to address fundamental challenges in practical FL due to the resource and statistical data heterogeneity among FL clients. To address these challenges and enable heterogeneous client models in serverless FL, we utilize Knowledge Distillation (KD) in this paper. Towards this, we propose novel optimized serverless workflows for two popular conventional federated KD techniques, i.e., FedMD and FedDF. We implement these workflows by introducing several extensions to an open-source serverless FL system called FedLess. Moreover, we comprehensively evaluate the two strategies on multiple datasets across varying levels of client data heterogeneity using heterogeneous client models with respect to accuracy, fine-grained training times, and costs. Results from our experiments demonstrate that serverless FedDF is more robust to extreme non-IID data distributions, is faster, and leads to lower costs than serverless FedMD. In addition, compared to the original implementation, our optimizations for particular steps in FedMD and FedDF lead to an average speedup of 3.5x and 1.76x across all datasets.
翻訳日:2024-02-13 16:18:50 公開日:2024-02-11
# 機械学習によるコールグラフプルーニングの有効性に関する実証的研究

On the Effectiveness of Machine Learning-based Call Graph Pruning: An Empirical Study ( http://arxiv.org/abs/2402.07294v1 )

ライセンス: Link先を確認
Amir M. Mir, Mehdi Keshani, Sebastian Proksch(参考訳) 静的なコールグラフ(CG)の構築は、しばしば過剰なアポキシメートが関係を呼び出し、音を出すが不正確である。 近年, 機械学習によるCGプルーニングを, 偽エッジの除去による精度向上の手段として研究している。 しかし、現在の手法では、限られた評価データセット、不均衡なトレーニングデータ、リコールの削減に苦しめられている。 以前の結果も高度な静的CG構築技術と比較されなかった。 この研究はこれらの問題に取り組む。 我々は、テストカバレッジの高い実世界のJavaプログラムのデータセットであるNYXCorpusを紹介し、テスト実行からトレースを収集し、動的CGの基礎的な真実を構築する。 我々はこれらのCGを活用し、MLベースのCGプルーナーのトレーニングおよび推論における保守的なプルーニング戦略を探索する。 ゼロ制御フロー解析 (0-CFA) と文脈依存型1-CFAアルゴリズムを用いて生成された静的CGの比較分析を行い, プルーニングと無作為の評価を行った。 CGプルーニングは実世界のJavaプロジェクトでは難しい課題であり、CG精度(+25%)はリコールの削減(-9%)に大きく改善されている。 実験では,f2メトリックを用いた精度のリコールを希望する場合でも,pruned cgsは計算量が少なく,文脈に敏感な1-cfa解析と同等の品質を持つことを示すことができる。 その結果、CGはより小さく(69%)、大幅に速く(3.5倍のスピードアップ)、ダウンストリーム分析の結果はほとんど変わっていない。

Static call graph (CG) construction often over-approximates call relations, leading to sound, but imprecise results. Recent research has explored machine learning (ML)-based CG pruning as a means to enhance precision by eliminating false edges. However, current methods suffer from a limited evaluation dataset, imbalanced training data, and reduced recall, which affects practical downstream analyses. Prior results were also not compared with advanced static CG construction techniques yet. This study tackles these issues. We introduce the NYXCorpus, a dataset of real-world Java programs with high test coverage and we collect traces from test executions and build a ground truth of dynamic CGs. We leverage these CGs to explore conservative pruning strategies during the training and inference of ML-based CG pruners. We conduct a comparative analysis of static CGs generated using zero control flow analysis (0-CFA) and those produced by a context-sensitive 1-CFA algorithm, evaluating both with and without pruning. We find that CG pruning is a difficult task for real-world Java projects and substantial improvements in the CG precision (+25%) meet reduced recall (-9%). However, our experiments show promising results: even when we favor recall over precision by using an F2 metric in our experiments, we can show that pruned CGs have comparable quality to a context-sensitive 1-CFA analysis while being computationally less demanding. Resulting CGs are much smaller (69%), and substantially faster (3.5x speed-up), with virtually unchanged results in our downstream analysis.
翻訳日:2024-02-13 16:18:08 公開日:2024-02-11
# CLIPPER: 初期ガイダンスのないロバストデータアソシエーション

CLIPPER: Robust Data Association without an Initial Guess ( http://arxiv.org/abs/2402.07284v1 )

ライセンス: Link先を確認
Parker C. Lusk and Jonathan P. How(参考訳) ノイズデータ中の対応の特定は、推定プロセスにおいて極めて重要なステップである。 情報的初期推定が利用可能であれば、データアソシエーションの課題はそれほど難しくないが、ほとんどの文脈で高品質な初期推定が存在することは稀である。 初期推定を必要としないデータアソシエーションのためのグラフ理論の定式化について検討する。 既存のグラフ理論のアプローチは、非重み付けグラフを最適化し、重み付けエッジにエンコードされた重要な一貫性情報を破棄し、np-hard問題を正確に解決しようとする。 対照的に、重み付きグラフを完全に活用し、最も密度の高いエッジ重み付き傾きを求める新しい最適化問題を定式化する。 この問題に2つの緩和を導入する: 経験的にタイトな凸半定値緩和と、数ミリ秒で最適に近い解に頻繁に到達するクリッパーと呼ばれる高速一階アルゴリズムである。 ポイントクラウド登録問題で評価した場合、既存のアルゴリズムが80%の外れ値で分解し始めるまで、アルゴリズムは少なくとも95%の外れ値まで頑健である。 コードはhttps://mit-acl.github.io/clipperで入手できる。

Identifying correspondences in noisy data is a critically important step in estimation processes. When an informative initial estimation guess is available, the data association challenge is less acute; however, the existence of a high-quality initial guess is rare in most contexts. We explore graph-theoretic formulations for data association, which do not require an initial estimation guess. Existing graph-theoretic approaches optimize over unweighted graphs, discarding important consistency information encoded in weighted edges, and frequently attempt to solve NP-hard problems exactly. In contrast, we formulate a new optimization problem that fully leverages weighted graphs and seeks the densest edge-weighted clique. We introduce two relaxations to this problem: a convex semidefinite relaxation which we find to be empirically tight, and a fast first-order algorithm called CLIPPER which frequently arrives at nearly-optimal solutions in milliseconds. When evaluated on point cloud registration problems, our algorithms remain robust up to at least 95% outliers while existing algorithms begin breaking down at 80% outliers. Code is available at https://mit-acl.github.io/clipper.
翻訳日:2024-02-13 16:17:20 公開日:2024-02-11
# 専門家モデル混合モデルの微分プライベートトレーニング

Differentially Private Training of Mixture of Experts Models ( http://arxiv.org/abs/2402.07334v1 )

ライセンス: Link先を確認
Pierre Tholoniat, Huseyin A. Inan, Janardhan Kulkarni, Robert Sim(参考訳) 本稿では,自然言語処理分野におけるMixture of Experts(MoE)モデルのトレーニングにおけるDP(differial Privacy)の統合について検討する。 大規模言語モデル(LLM)が数十億のパラメータにスケールし、拡張データセットを活用すると、言語能力と創発能力が向上する。 しかし、この成長は重要な計算とプライバシーの懸念を引き起こす。 本研究は,その計算効率で知られているMoEモデルの可能性と,プライバシ保護の標準であるDPの適用を探求することによって,これらの課題に対処する。 本稿では,DP の制約下で MoE モデルをトレーニングする試みとして,そのアーキテクチャや DP 統合の複雑さによる固有の課題に対処する。 最初の実験では、MoEモデルがDPで効果的に訓練できることを示し、非民間モデルと競合する性能を実現する。 この最初の研究は、価値ある洞察を提供し、プライバシー保護のMOEモデルの分野におけるさらなる研究を刺激することを目的としている。

This position paper investigates the integration of Differential Privacy (DP) in the training of Mixture of Experts (MoE) models within the field of natural language processing. As Large Language Models (LLMs) scale to billions of parameters, leveraging expansive datasets, they exhibit enhanced linguistic capabilities and emergent abilities. However, this growth raises significant computational and privacy concerns. Our study addresses these issues by exploring the potential of MoE models, known for their computational efficiency, and the application of DP, a standard for privacy preservation. We present the first known attempt to train MoE models under the constraints of DP, addressing the unique challenges posed by their architecture and the complexities of DP integration. Our initial experimental studies demonstrate that MoE models can be effectively trained with DP, achieving performance that is competitive with their non-private counterparts. This initial study aims to provide valuable insights and ignite further research in the domain of privacy-preserving MoE models, softly laying the groundwork for prospective developments in this evolving field.
翻訳日:2024-02-13 16:06:20 公開日:2024-02-11
# 不正確なアノテーションを用いた医用画像分割のための深層学習

Deep Learning for Medical Image Segmentation with Imprecise Annotation ( http://arxiv.org/abs/2402.07330v1 )

ライセンス: Link先を確認
Binyan Hu and A. K. Qin(参考訳) 医療画像セグメンテーション(MIS)は、医療画像解析において重要な役割を担い、そのプロセスの自動化に多大な努力が注がれている。 現在、メインストリームMISアプローチは、医師が生成するアノテーションマスクを含むデータセットに基づいてトレーニングされるディープニューラルネットワーク(DNN)に基づいている。 しかし、医学領域では、診断の目的を満たすために医師が不必要に正確でユニークなアノテーションを作成できるため、異なる医師が生成するアノテーションマスクが本質的に異なる場合がある。 そのため、特定の医師によって注釈付けされたデータに基づいて訓練されたDNNモデルは、トレーニングデータに注釈を付ける医師を好まざるを得ず、訓練されたモデルを使用する医師の不満を招きかねない。 そこで本研究では,新しい医師への適応性を高めるためのマルチエキスパートアノテーションの利用について検討し,MRI脳分節タスクのパイロット研究を行う。 実験の結果, マルチエキスパートアノテーションを用いたデータセットでトレーニングしたモデルは, 新しい医師のアノテーションを軽快に微調整した後, より効率的に新しい医師に適応できることがわかった。

Medical image segmentation (MIS) plays an instrumental role in medical image analysis, where considerable efforts have been devoted to automating the process. Currently, mainstream MIS approaches are based on deep neural networks (DNNs) which are typically trained on a dataset that contains annotation masks produced by doctors. However, in the medical domain, the annotation masks generated by different doctors can inherently vary because a doctor may unnecessarily produce precise and unique annotations to meet the goal of diagnosis. Therefore, the DNN model trained on the data annotated by certain doctors, often just a single doctor, could undesirably favour those doctors who annotate the training data, leading to the unsatisfaction of a new doctor who will use the trained model. To address this issue, this work investigates the utilization of multi-expert annotation to enhance the adaptability of the model to a new doctor and we conduct a pilot study on the MRI brain segmentation task. Experimental results demonstrate that the model trained on a dataset with multi-expert annotation can efficiently cater for a new doctor, after lightweight fine-tuning on just a few annotations from the new doctor.
翻訳日:2024-02-13 16:06:03 公開日:2024-02-11
# 視覚言語モデルにおける有害ラベル関係のバイアス

The Bias of Harmful Label Associations in Vision-Language Models ( http://arxiv.org/abs/2402.07329v1 )

ライセンス: Link先を確認
Caner Hazirbas, Alicia Sun, Yonathan Efroni, Mark Ibrahim(参考訳) 基礎的なビジョン言語モデルの顕著な性能にもかかわらず、テキストとビジョンの共有表現空間は、公正性に有害なラベル関連を符号化することができる。 これまで,視覚言語モデル(VLM)の分類性能は地理的に偏りがみられてきたが,リッチなラベル付きデータがないため,有害ラベル関連の重要な軸に沿って作業が制限されてきた。 本研究では,70万以上のビデオを含むカジュアル会話データセットにおいて,有害なラベル関連について検討する。 本研究では,年齢,性別,肌色,身体的装飾の自己提供ラベル間の有害ラベル関連頻度のバイアスについて検討した。 VLMは、より暗い肌の色で個人を有害に分類する確率が4-13$xであることがわかった。 また、スケーリングトランスフォーマーエンコーダモデルのサイズが有害な予測の信頼性を高めることも見出した。 最後に、VLM間の標準視覚タスクの改善は、有害なラベル関連における相違に対処しない。

Despite the remarkable performance of foundation vision-language models, the shared representation space for text and vision can also encode harmful label associations detrimental to fairness. While prior work has uncovered bias in vision-language models' (VLMs) classification performance across geography, work has been limited along the important axis of harmful label associations due to a lack of rich, labeled data. In this work, we investigate harmful label associations in the recently released Casual Conversations datasets containing more than 70,000 videos. We study bias in the frequency of harmful label associations across self-provided labels for age, gender, apparent skin tone, and physical adornments across several leading VLMs. We find that VLMs are $4-13$x more likely to harmfully classify individuals with darker skin tones. We also find scaling transformer encoder model size leads to higher confidence in harmful predictions. Finally, we find improvements on standard vision tasks across VLMs does not address disparities in harmful label associations.
翻訳日:2024-02-13 16:05:42 公開日:2024-02-11
# 事前学習トランスフォーマーを用いたテキスト・音声・ビデオによるマルチモーダル感情認識

Multi-Modal Emotion Recognition by Text, Speech and Video Using Pretrained Transformers ( http://arxiv.org/abs/2402.07327v1 )

ライセンス: Link先を確認
Minoo Shayaninasab, Bagher Babaali(参考訳) 人間の感情の複雑な性質と人間の感情表現方法の多様性のため、感情認識は難しい分野である。 本研究では,マルチモーダル特徴ベクトルを生成するために,テキスト,オーディオ(音声),ビデオの3つの入力モダリティを用いた。 これらのモダリティごとに特徴を生成するために、微調整付き事前学習トランスフォーマーモデルを用いる。 各モードにおいて、トランスフォーマーモデルは伝達学習に使われ、特徴と感情構造を抽出する。 これらの特徴は融合され、感情認識は分類器を用いて行われる。 適切な融合方法と分類器を選択するために、様々な機能レベルおよび決定レベルの融合技術を実験し、最終的にiemocap multimodalデータセット上のサポートベクターマシンを用いて特徴ベクトルと分類を結合して機能レベルの融合を結合した最善のモデルは75.42%の精度を達成する。 キーワード:マルチモーダル感情認識、iemocap、自己教師付き学習、転送学習、トランスフォーマー。

Due to the complex nature of human emotions and the diversity of emotion representation methods in humans, emotion recognition is a challenging field. In this research, three input modalities, namely text, audio (speech), and video, are employed to generate multimodal feature vectors. For generating features for each of these modalities, pre-trained Transformer models with fine-tuning are utilized. In each modality, a Transformer model is used with transfer learning to extract feature and emotional structure. These features are then fused together, and emotion recognition is performed using a classifier. To select an appropriate fusion method and classifier, various feature-level and decision-level fusion techniques have been experimented with, and ultimately, the best model, which combines feature-level fusion by concatenating feature vectors and classification using a Support Vector Machine on the IEMOCAP multimodal dataset, achieves an accuracy of 75.42%. Keywords: Multimodal Emotion Recognition, IEMOCAP, Self-Supervised Learning, Transfer Learning, Transformer.
翻訳日:2024-02-13 16:05:16 公開日:2024-02-11
# 微調整トランスフォーマによるペルシャ音声感情認識

Persian Speech Emotion Recognition by Fine-Tuning Transformers ( http://arxiv.org/abs/2402.07326v1 )

ライセンス: Link先を確認
Minoo Shayaninasab, Bagher Babaali(参考訳) 近年,音声の感情認識の重要性を鑑み,この領域で効果的かつ効率的なシステムを構築するために多くの手法が開発されている。 これらの方法の1つは、この特定の問題に対処するために微調整された事前訓練されたトランスフォーマーの使用であり、その結果、精度が高い。 これらのシステムを強化するための広範な議論とグローバルな取り組みにもかかわらず、この革新的で効果的なアプローチの適用は、ペルシア語の感情認識の文脈ではあまり注目されなかった。 本稿では,この文脈におけるトランスフォーマーの導入の重要性に着目し,音声感情認識の分野とその背景について考察する。 本稿では,2つのモデルについて述べる。1つはスペクトログラムに基づくもので,もう1つは音声自体に基づいて,shEMOデータセットを用いて微調整を行う。 これらのモデルは以前のシステムの精度を大幅に向上させ、前述のデータセットで約65%から80%に増加した。 その後、多言語性が微調整過程に与える影響を調べるために、これらのモデルが2回微調整される。 まず、英語のIEMOCAPデータセットを使用して微調整され、次にペルシャのshEMOデータセットで微調整される。 これにより、ペルシャ感情認識システムの精度が82%向上した。 キーワード:ペルシャ語音声感情認識、shEMO、自己監督学習

Given the significance of speech emotion recognition, numerous methods have been developed in recent years to create effective and efficient systems in this domain. One of these methods involves the use of pretrained transformers, fine-tuned to address this specific problem, resulting in high accuracy. Despite extensive discussions and global-scale efforts to enhance these systems, the application of this innovative and effective approach has received less attention in the context of Persian speech emotion recognition. In this article, we review the field of speech emotion recognition and its background, with an emphasis on the importance of employing transformers in this context. We present two models, one based on spectrograms and the other on the audio itself, fine-tuned using the shEMO dataset. These models significantly enhance the accuracy of previous systems, increasing it from approximately 65% to 80% on the mentioned dataset. Subsequently, to investigate the effect of multilinguality on the fine-tuning process, these same models are fine-tuned twice. First, they are fine-tuned using the English IEMOCAP dataset, and then they are fine-tuned with the Persian shEMO dataset. This results in an improved accuracy of 82% for the Persian emotion recognition system. Keywords: Persian Speech Emotion Recognition, shEMO, Self-Supervised Learning
翻訳日:2024-02-13 16:04:56 公開日:2024-02-11