このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230624となっている論文です。

PDF登録状況(公開日: 20230624)

TitleAuthorsAbstract論文公表日・翻訳日
# Devopsとアジャイルメソッドの統合したソフトウェア構成管理エクスペリエンス

Devops And Agile Methods Integrated Software Configuration Management Experience ( http://arxiv.org/abs/2306.13964v1 )

ライセンス: Link先を確認
Fatih Bildirici, Keziban Seckin Codal(参考訳) ソフトウェア産業の進歩は、変化している技術、方法、条件とともに、特に自動化を通じてプロセスにアプローチすることで、ソフトウェア開発ライフサイクルのすべてのステージの改善を優先する視点を生み出しています。 特に、コラボレーション、自動化、効率的なソフトウェア生産にフォーカスするアジャイル方法論やdevopsといった手法は、ソフトウェア産業にとって重要になっている。 特に、アジャイルソフトウェア開発における分散管理、コラボレーション、並列開発、エンドツーエンド自動化、devops技術といった原則の利用の理解が生まれています。 本研究では,これらの領域のひとつとして,ソフトウェア構成管理,アジャイルやDevOpsといった現代的なソフトウェア開発プラクティスの統合について論じる。 本研究の目的は,従来の手法と比較して,革新的手法がソフトウェア構成管理分野にもたらす違いとメリットを検討することである。 この目的のために、プロジェクトは基本とされ、DevOpsとアジャイルの方法論の統合によって改善が行われ、その結果が以前の状態と比較されます。 DevOpsとアジャイルの方法論の統合によるソフトウェア構成管理の監視の結果、ビルドとデプロイメント時間、自動レポート生成、より正確でフォールトフリーなバージョン管理、ソフトウェアシステムを完全にコントロール、作業時間と作業効率が改善された。

The advancements in the software industry, along with the changing technologies, methods, and conditions, have particularly brought forth a perspective that prioritizes the improvement of all stages of the software development lifecycle by approaching the process through automation. In particular, methods such as agile methodologies and DevOps, which focus on collaboration, automation, and efficient software production, have become crucial for the software industry. In particular, the understanding of utilizing principles such as distribution management, collaboration, parallel development, and end-to-end automation in agile software development, and DevOps techniques has emerged. In this study, one of these areas, software configuration management, and the integration of modern software development practices such as agile and DevOps are addressed. The aim of this study is to examine the differences and benefits that innovative methods bring to the software configuration management field when compared to traditional methods. To this end, a project is taken as a basis, and with the integration of DevOps and agile methodologies, improvements are made and the results are compared with the previous state. As a result of monitoring software configuration management with the integration of DevOps and agile methodologies, improvements are seen in the build and deployment time, automated report generation, more accurate and fault-free version management, completely controlling the software system, working time and workforce efficiency.
翻訳日:2023-10-23 18:53:59 公開日:2023-06-24
# 概念モデルの統一を追求する:マシンとしてのセット

In Pursuit of Unification of Conceptual Models: Sets as Machines ( http://arxiv.org/abs/2306.13833v1 )

ライセンス: Link先を確認
Sabah Al-Fedaghi(参考訳) 実世界のシステムの表現としての概念モデルは、様々な分野の様々な技術に基づいているが、実世界の現象に関する多分野のオントロジ的理解を提供する枠組みは欠如している。 同時に、システムの複雑さが増大し、単一のドメイン内でも異なる形式と多様な表現を用いたモデルの開発が増加している。 概念モデルが大きくなり、言語はより多くの機能を獲得する傾向があり、異なるコンポーネントのために異なるモデリング言語を使用することは珍しくない。 この多様性は、モデル間の一貫性と設計システムとの非互換性の問題を引き起こした。 1) 現在支配的な技術ベースのソリューションは、EERとUMLを統一するなど、モデルを調和または統一しようとする。 このソリューションは、過去30年間に大規模な投資から利益を得て、モデリングの成果を固める。 2) より一般的な解決策は、モデリングの原則と装置の統一を明らかにする深いルーツを追求することである。 2つ目の方法の例は、グラフと集合論の強みと他の位相的ツールを利用する圏論に基づくアプローチである。 この写本は、第2のアプローチに属する研究ベンチャーの続編であり、stic ontologyとlupascian logicに基づいて作られたthinging machines(tms)と呼ばれるモデルを使用している。 TMモデリングは、アプリケーションのすべての側面をカバーする普遍的なアプローチは存在しないという仮説に異議を唱え、そのような普遍性を追求することは致命的な方法であることを示す。 本論文は、TM基礎(例えば、物の存在と存在)に重点を置いて、この方向に進み、集合論の代替表現を提案してこの追求を実証する。

Conceptual models as representations of real-world systems are based on diverse techniques in various disciplines but lack a framework that provides multidisciplinary ontological understanding of real-world phenomena. Concurrently, systems complexity has intensified, leading to a rise in developing models using different formalisms and diverse representations even within a single domain. Conceptual models have become larger; languages tend to acquire more features, and it is not unusual to use different modeling languages for different components. This diversity has caused problems with consistency between models and incompatibly with designed systems. Two main solutions have been adopted over the last few years: (1) A currently dominant technology-based solution tries to harmonize or unify models, e.g., unifies EER and UML. This solution would solidify modeling achievements, reaping benefits from huge investments over the last thirty years. (2) A less prevalent solution is to pursuit deeper roots that reveal unifying modeling principles and apparatuses. An example of the second method is a category theory-based approach that utilizes the strengths of the graph and set theory, along with other topological tools. This manuscript is a sequel in a research venture that belongs to the second approach and uses a model called thinging machines (TMs) founded on Stoic ontology and Lupascian logic. TM modeling contests the thesis that there is no universal approach that covers all aspects of an application, and the paper demonstrates that pursuing such universality is anything but a dead-end method. This paper continues in this direction, with emphasis on TM foundation (e.g., existence and subsistence of things) and exemplifies this pursuit by proposing an alternative representation of set theory.
翻訳日:2023-10-23 18:53:36 公開日:2023-06-24
# fMRIコネクトームにおける自閉症予測のためのコミュニティ対応トランス

Community-Aware Transformer for Autism Prediction in fMRI Connectome ( http://arxiv.org/abs/2307.10181v1 )

ライセンス: Link先を確認
Anushree Bannadabhavi and Soojin Lee and Wenlong Deng and Xiaoxiao Li(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、社会コミュニケーションや行動に影響を与える生涯にわたる神経発達状態である。 機能的磁気共鳴イメージング(fMRI)に基づく脳機能コネクトームの探索は、ASDの理解と診断に役立ち、より効果的な治療につながる。 脳は関心領域(ROI)のネットワークとしてモデル化されており、ROIはコミュニティを形成し、これらのコミュニティの知識はASD診断に不可欠である。 一方、Transformerベースのモデルは、ROIの有用な表現を学ぶためのfMRIコネクトーム分析など、いくつかのタスクにおいて非常に効果的であることが証明されている。 一方、既存のトランスフォーマーベースのモデルは全てのROIを等しく扱い、ノード埋め込みを学習する際にコミュニティ固有の関連性の影響を見落としている。 このギャップを埋めるために,ASD予測タスクのためのコミュニティ内およびコミュニティ間ノード埋め込みを学習する階層型ローカル・グローバル・トランスフォーマーアーキテクチャであるCom-BrainTFを提案する。 さらに,局所的トランスフォーマーパラメータを異なるコミュニティで共有することで過剰パラメータ化を回避し,コミュニティ毎にユニークな学習可能なプロンプトトークンを最適化する。 我々のモデルは、ABIDEデータセット上での最先端(SOTA)アーキテクチャよりも優れており、注目モジュールから明らかな高い解釈性を有する。 私たちのコードはhttps://github.com/ubc-tea/com-braintfで利用可能です。

Autism spectrum disorder(ASD) is a lifelong neurodevelopmental condition that affects social communication and behavior. Investigating functional magnetic resonance imaging (fMRI)-based brain functional connectome can aid in the understanding and diagnosis of ASD, leading to more effective treatments. The brain is modeled as a network of brain Regions of Interest (ROIs), and ROIs form communities and knowledge of these communities is crucial for ASD diagnosis. On the one hand, Transformer-based models have proven to be highly effective across several tasks, including fMRI connectome analysis to learn useful representations of ROIs. On the other hand, existing transformer-based models treat all ROIs equally and overlook the impact of community-specific associations when learning node embeddings. To fill this gap, we propose a novel method, Com-BrainTF, a hierarchical local-global transformer architecture that learns intra and inter-community aware node embeddings for ASD prediction task. Furthermore, we avoid over-parameterization by sharing the local transformer parameters for different communities but optimize unique learnable prompt tokens for each community. Our model outperforms state-of-the-art (SOTA) architecture on ABIDE dataset and has high interpretability, evident from the attention module. Our code is available at https://github.com/ubc-tea/Com-BrainTF.
翻訳日:2023-07-23 11:35:45 公開日:2023-06-24
# 医用画像におけるGRAD-CAMの局在評価のためのセグメンションモデルの利用

Utilizing Segment Anything Model For Assessing Localization of GRAD-CAM in Medical Imaging ( http://arxiv.org/abs/2306.15692v1 )

ライセンス: Link先を確認
Evan Kellener, Ihina Nath, An Ngo, Thomas Nguyen, Joshua Schuman, Coen Adler, Arnav Kartikeya(参考訳) 画像の相互運用性を評価するアプローチとしてのサリエンシマップアルゴリズムの導入は、現在のブラックボックスモデルと人工知能の深い理解を可能にした。 その人気が高まり、これらのアルゴリズムは医療画像を含む複数の分野に適用された。 医学領域のそれと同じくらい重要な分類タスクでは、その能力の厳格なテストの必要性が生じる。 現在の研究は、画像内の医学的異常に対する唾液マップの局所化を評価することで、人間のアノテーションとの比較を通して能力を調べる。 我々は、既存のメトリクスの精度を高めるだけでなく、人間のアノテーションの必要性を超えて一般化するセグメント・エバンス・モデル(sam)の利用を提案する。 以上の結果から,既存の指標と高い類似性を示すとともに,この手法が人間アノテーションを超える能力を強調した。 さらに,領域内におけるSAMの応用(および課題)について検討し,領域分割前の画像前処理,CLIP-SAM形式のSAMへの自然言語提案,複数の医用画像データセット間のSAM精度について検討する。

The introduction of saliency map algorithms as an approach for assessing the interoperability of images has allowed for a deeper understanding of current black-box models with Artificial Intelligence. Their rise in popularity has led to these algorithms being applied in multiple fields, including medical imaging. With a classification task as important as those in the medical domain, a need for rigorous testing of their capabilities arises. Current works examine capabilities through assessing the localization of saliency maps upon medical abnormalities within an image, through comparisons with human annotations. We propose utilizing Segment Anything Model (SAM) to both further the accuracy of such existing metrics, while also generalizing beyond the need for human annotations. Our results show both high degrees of similarity to existing metrics while also highlighting the capabilities of this methodology to beyond human-annotation. Furthermore, we explore the applications (and challenges) of SAM within the medical domain, including image pre-processing before segmenting, natural language proposals to SAM in the form of CLIP-SAM, and SAM accuracy across multiple medical imaging datasets.
翻訳日:2023-06-29 17:12:18 公開日:2023-06-24
# 対話行為分類のための話者認識CRF

Speaker-change Aware CRF for Dialogue Act Classification ( http://arxiv.org/abs/2004.02913v3 )

ライセンス: Link先を確認
Guokan Shang (1 and 2), Antoine Jean-Pierre Tixier (1), Michalis Vazirgiannis (1 and 3), Jean-Pierre Lorr\'e (2) ((1) \'Ecole Polytechnique, (2) Linagora, (3) AUEB)(参考訳) ダイアログ法(DA)分類における最近の研究は、条件付きランダムフィールド(CRF)と結合したニューラルネットワークモデルを用いて、シーケンスラベリング問題としてタスクにアプローチしている。 CRFは、入力発話シーケンスが与えられたターゲットDAラベルシーケンスの条件確率をモデル化する。 しかし、このタスクには別の重要な入力シーケンス、すなわち以前の作業では無視される話者のシーケンスが含まれる。 この制限に対処するため,本論文では,話者変化を考慮したCRF層の簡易な修正を提案する。 SwDAコーパスの実験では、修正されたCRF層が元のものよりも優れており、一部のDAラベルには非常に広いマージンがある。 さらに,crf層は,話者変化を条件としたdaラベルペア間の有意義で洗練された遷移パターンをエンドツーエンドで学習できることを示す。 コードは公開されている。

Recent work in Dialogue Act (DA) classification approaches the task as a sequence labeling problem, using neural network models coupled with a Conditional Random Field (CRF) as the last layer. CRF models the conditional probability of the target DA label sequence given the input utterance sequence. However, the task involves another important input sequence, that of speakers, which is ignored by previous work. To address this limitation, this paper proposes a simple modification of the CRF layer that takes speaker-change into account. Experiments on the SwDA corpus show that our modified CRF layer outperforms the original one, with very wide margins for some DA labels. Further, visualizations demonstrate that our CRF layer can learn meaningful, sophisticated transition patterns between DA label pairs conditioned on speaker-change in an end-to-end way. Code is publicly available.
翻訳日:2023-06-28 18:30:24 公開日:2023-06-24
# openfwi:地震波全波形インバージョンのための大規模マルチストラクショナルベンチマークデータセット

OpenFWI: Large-Scale Multi-Structural Benchmark Datasets for Seismic Full Waveform Inversion ( http://arxiv.org/abs/2111.02926v6 )

ライセンス: Link先を確認
Chengyuan Deng, Shihang Feng, Hanchen Wang, Xitong Zhang, Peng Jin, Yinan Feng, Qili Zeng, Yinpeng Chen, Youzuo Lin(参考訳) フルウェーブフォームインバージョン(FWI)は、地震データから高分解能速度マップを再構成するために地球物理学で広く用いられている。 最近のデータ駆動型fwi手法の成功は、地球物理学コミュニティにサービスを提供するオープンデータセットの需要が急速に増大する結果となった。 本稿では,大規模マルチ構造化ベンチマークデータセットの集合であるOpenFWIを紹介し,FWIの多様化,厳密,再現可能な研究を容易にする。 特にOpenFWIは、複数のソースから合成された12のデータセット(2.1TB)で構成されている。 地質学の様々な領域(界面、断層、CO2貯水池など)を包含し、異なる地質地下構造(平坦、曲線など)を包含し、様々なデータサンプル(2K - 67K)を含んでいる。 3D FWI用のデータセットも含まれている。 さらに,OpenFWIを用いて4つのディープラーニング手法をベンチマークし,教師なしと教師なしの両方の学習体制をカバーする。 ベンチマークとともに、物理駆動の手法、複雑性分析、一般化研究、不確実性定量化などを含む追加実験を実施し、データセットや手法の理解を深める。 研究はデータセットとパフォーマンスに関する貴重な洞察を提供するか、現在の制限を明らかにするかのどちらかだ。 OpenFWIはFWIの先進的な研究を支援し、科学のためのAIに対する将来のオープンソースの取り組みを刺激することを期待しています。 すべてのデータセットと関連する情報は、https://openfwi-lanl.github.io/のWebサイトからアクセスできます。

Full waveform inversion (FWI) is widely used in geophysics to reconstruct high-resolution velocity maps from seismic data. The recent success of data-driven FWI methods results in a rapidly increasing demand for open datasets to serve the geophysics community. We present OpenFWI, a collection of large-scale multi-structural benchmark datasets, to facilitate diversified, rigorous, and reproducible research on FWI. In particular, OpenFWI consists of 12 datasets (2.1TB in total) synthesized from multiple sources. It encompasses diverse domains in geophysics (interface, fault, CO2 reservoir, etc.), covers different geological subsurface structures (flat, curve, etc.), and contains various amounts of data samples (2K - 67K). It also includes a dataset for 3D FWI. Moreover, we use OpenFWI to perform benchmarking over four deep learning methods, covering both supervised and unsupervised learning regimes. Along with the benchmarks, we implement additional experiments, including physics-driven methods, complexity analysis, generalization study, uncertainty quantification, and so on, to sharpen our understanding of datasets and methods. The studies either provide valuable insights into the datasets and the performance, or uncover their current limitations. We hope OpenFWI supports prospective research on FWI and inspires future open-source efforts on AI for science. All datasets and related information can be accessed through our website at https://openfwi-lanl.github.io/
翻訳日:2023-06-28 01:48:12 公開日:2023-06-24
# Schr\\odinger-Heisenberg変分量子アルゴリズム

Schr\"odinger-Heisenberg Variational Quantum Algorithms ( http://arxiv.org/abs/2112.07881v3 )

ライセンス: Link先を確認
Zhong-Xia Shang, Ming-Cheng Chen, Xiao Yuan, Chao-Yang Lu, Jian-Wei Pan(参考訳) 近年のブレークスルーは、数十から数百量子ビットの中間規模の量子コンピューティングの可能性を開き、化学や凝縮物質物理学のような古典的課題を解決する可能性を示した。 しかし、古典的コンピュータを超越するのに非常に高い精度が要求されるため、回路の奥行きが著しく制限され、現在は0.1-1%程度である。 そこで,量子ハードウェア上で現実的に実装される仮想ハイゼンベルク回路を,測定可観測性に効果的に作用する仮想ハイゼンベルク回路と,実際の浅いシュランガー回路を組み込むことにより,この問題を解決するためのシュランガー・ハイゼンベルク変分量子アルゴリズムのパラダイムを提案する。 我々はクリフォード仮想回路を選択し、そのハミルトニアンに対する効果はゴッテマン・クニルの定理に従って効率よく古典的に実装できる。 しかし、これは状態表現性を大幅に拡大し、より大きなユニタリt-設計を実現する。 本手法は、従来より深く正確な回路でしか実現できない正確な量子シミュレーションと計算を可能にする。 このことは, XXZモデルの基底状態エネルギーに対して, ランダム状態のより良い近似と高忠実解を求める数値実験で検証されている。 効果的な量子エラー緩和と共に、我々の研究は、近距離量子デバイスを用いた正確な量子コンピューティングアルゴリズムを実現する方法を広げている。

Recent breakthroughs have opened the possibility to intermediate-scale quantum computing with tens to hundreds of qubits, and shown the potential for solving classical challenging problems, such as in chemistry and condensed matter physics. However, the extremely high accuracy needed to surpass classical computers poses a critical demand to the circuit depth, which is severely limited by the non-negligible gate infidelity, currently around 0.1-1%. Here, by incorporating a virtual Heisenberg circuit, which acts effectively on the measurement observables, to a real shallow Schr\"odinger circuit, which is implemented realistically on the quantum hardware, we propose a paradigm of Schr\"odinger-Heisenberg variational quantum algorithms to resolve this problem. We choose a Clifford virtual circuit, whose effect on the Hamiltonian can be efficiently and classically implemented according to the Gottesman-Knill theorem. Yet, it greatly enlarges the state expressivity, realizing much larger unitary t-designs. Our method enables accurate quantum simulation and computation that otherwise is only achievable with much deeper and more accurate circuits conventionally. This has been verified in our numerical experiments for a better approximation of random states and a higher-fidelity solution to the ground state energy of the XXZ model. Together with effective quantum error mitigation, our work paves the way for realizing accurate quantum computing algorithms with near-term quantum devices.
翻訳日:2023-06-28 01:35:01 公開日:2023-06-24
# 動的量子回路を用いた最終状態放射の量子シミュレーション効率の向上

Improving Quantum Simulation Efficiency of Final State Radiation with Dynamic Quantum Circuits ( http://arxiv.org/abs/2203.10018v2 )

ライセンス: Link先を確認
Plato Deliyannis, James Sud, Diana Chamaki, Zo\"e Webb-Mack, Christian W. Bauer, Benjamin Nachman(参考訳) 参照 arxiv:1904.03196 は、デジタル量子コンピュータ上で多項式リソースを用いてパルトンシャワーと中間フレーバー状態をシミュレートするアルゴリズム (qps) を導入した。 我々は、動的量子コンピューティングと呼ばれる新しい量子ハードウェア機能を活用し、このアルゴリズムのスケーリングを改善し、メソッドの精度を大幅に向上させる。 特に、量子パートンシャワー回路を、古典情報に基づく中循環量子ビットの測定、リセット、量子演算を組み込むように修正した。 これにより、計算深度は$\mathcal{O}(N^5\log_2(N)^2)$から$\mathcal{O}(N^3\log_2(N)^2)$に減少し、キュービット要求は$\mathcal{O}(N\log_2(N))$から$\mathcal{O}(N)$に減少する。 行列積状態」状態ベクトルシミュレータを用いて,改良されたアルゴリズムが2, 3, 4, 5ステップの予測結果を得ることを示した。 絶対コストを元のQPSアルゴリズムと比較し、量子ウォーク(QPSを含む)を表すデジタル量子アルゴリズムのクラスにおいて、動的量子コンピューティングがコストを大幅に削減できることを示す。

Reference arXiv:1904.03196 recently introduced an algorithm (QPS) for simulating parton showers with intermediate flavor states using polynomial resources on a digital quantum computer. We make use of a new quantum hardware capability called dynamical quantum computing to improve the scaling of this algorithm to significantly improve the method precision. In particular, we modify the quantum parton shower circuit to incorporate mid-circuit qubit measurements, resets, and quantum operations conditioned on classical information. This reduces the computational depth from $\mathcal{O}(N^5\log_2(N)^2)$ to $\mathcal{O}(N^3\log_2(N)^2)$ and the qubit requirements are reduced from $\mathcal{O}(N\log_2(N))$ to $\mathcal{O}(N)$. Using "matrix product state" statevector simulators, we demonstrate that the improved algorithm yields expected results for 2, 3, 4, and 5-steps of the algorithm. We compare absolute costs with the original QPS algorithm, and show that dynamical quantum computing can significantly reduce costs in the class of digital quantum algorithms representing quantum walks (which includes the QPS).
翻訳日:2023-06-28 01:28:00 公開日:2023-06-24
# スパースグラフの半教師付きクラスタリング:情報理論閾値を越えて

Semi-Supervised Clustering of Sparse Graphs: Crossing the Information-Theoretic Threshold ( http://arxiv.org/abs/2205.11677v2 )

ライセンス: Link先を確認
Junda Sheng and Thomas Strohmer(参考訳) 確率ブロックモデルは、ネットワーク構造データのクラスタリングとコミュニティ検出のための標準ランダムグラフモデルである。 この問題に関する広範な研究は、ケステン・スティグム閾値における相転移が数学的および応用的な観点から特に興味深い、多くの重要な結果を生み出している。 ネットワークトポロジに基づく推定器は、モデルパラメータが一定の閾値以下である場合、スパースグラフの確率よりも大幅に向上する。 それでも、地平線をユビキタスな半教師付き設定に少し拡張すれば、そのような基本的な制限は完全に消える。 ラベルの任意の部分を明らかにすると、検出問題はパラメータ領域全体にわたって実現可能であることを示す。 さらに,ラベル情報をグラフ構造と統合するために,組合せと最適化に基づく2つの効率的なアルゴリズムを導入する。 我々の研究は、ネットワークの確率モデルと半定値プログラム研究に新たな視点をもたらす。

The stochastic block model is a canonical random graph model for clustering and community detection on network-structured data. Decades of extensive study on the problem have established many profound results, among which the phase transition at the Kesten-Stigum threshold is particularly interesting both from a mathematical and an applied standpoint. It states that no estimator based on the network topology can perform substantially better than chance on sparse graphs if the model parameter is below certain threshold. Nevertheless, if we slightly extend the horizon to the ubiquitous semi-supervised setting, such a fundamental limitation will disappear completely. We prove that with arbitrary fraction of the labels revealed, the detection problem is feasible throughout the parameter domain. Moreover, we introduce two efficient algorithms, one combinatorial and one based on optimization, to integrate label information with graph structures. Our work brings a new perspective to stochastic model of networks and semidefinite program research.
翻訳日:2023-06-28 01:15:35 公開日:2023-06-24
# DynPL-SVO:動的シーンのためのロバストステレオビジュアルオドメトリー

DynPL-SVO: A Robust Stereo Visual Odometry for Dynamic Scenes ( http://arxiv.org/abs/2205.08207v3 )

ライセンス: Link先を確認
Baosheng Zhang, Xiaoguang Ma, Hongjun Ma and Chunbo Luo(参考訳) ほとんどの機能ベースステレオオドメトリ(svo)アプローチは、ステレオ画像のシーケンスに沿ってポイント特徴のマッチングと追跡によって移動ロボットの動作を推定する。 しかし、移動歩行者や車両等を主体とするダイナミックシーンでは、正確な動き推定を可能にするための頑健な静的点特徴が不十分であり、ロボットの動きを再構築する際に障害が発生する。 本稿では,一致点特徴と直線特徴の向きに垂直かつ平行な再投影誤差の情報を含む統合コスト関数を統合する,完全な動的SVO手法であるDynPL-SVOを提案する。 さらに,動的シーンにおける性能を向上させるために,<textit{dynamic} \textit{grid} アルゴリズムを導入した。 ステレオカメラの動きは、点と線の特徴の再投影誤差の最小化により推定された。 kittiとeuroc mavデータセットの包括的な実験の結果、dynpl-svoの精度は、他の最先端svoシステム、特に動的シーンと比較して平均で20\%向上した。

Most feature-based stereo visual odometry (SVO) approaches estimate the motion of mobile robots by matching and tracking point features along a sequence of stereo images. However, in dynamic scenes mainly comprising moving pedestrians, vehicles, etc., there are insufficient robust static point features to enable accurate motion estimation, causing failures when reconstructing robotic motion. In this paper, we proposed DynPL-SVO, a complete dynamic SVO method that integrated united cost functions containing information between matched point features and re-projection errors perpendicular and parallel to the direction of the line features. Additionally, we introduced a \textit{dynamic} \textit{grid} algorithm to enhance its performance in dynamic scenes. The stereo camera motion was estimated through Levenberg-Marquard minimization of the re-projection errors of both point and line features. Comprehensive experimental results on KITTI and EuRoC MAV datasets showed that accuracy of the DynPL-SVO was improved by over 20\% on average compared to other state-of-the-art SVO systems, especially in dynamic scenes.
翻訳日:2023-06-28 01:15:21 公開日:2023-06-24
# 瞬時量子多項式時間回路における複雑性相転移

Complexity phase transitions in instantaneous quantum polynomial-time circuits ( http://arxiv.org/abs/2204.08898v2 )

ライセンス: Link先を確認
Chae-Yeun Park and Michael J. Kastoryano(参考訳) 本研究では,2量子ゲートの密度の異なる瞬時量子多項式時間(IQP)回路のサブクラスについて検討する。 既知のアンチ集中体制に加えて,モデルが古典的にシミュレート可能である,あるいはポーター・トーマス分布に従って出力分布が従うような新しいパラメータ条件を同定する。 これらのパラメータが一致しないことを示すことで、モデルに2つ以上の位相が存在することを議論する。 このモデルの出力分布の学習性はさらに研究され、反集中状態でもエネルギーベースモデルでは出力分布を学習できないことが示されている。 本研究は、量子回路モデルが複数の細粒度複雑性相を持つ可能性を示し、出力分布がポーター・トーマス分布から遠く離れている場合でも量子優位の可能性を示す。

We study a subclass of the Instantaneous Quantum Polynomial-time (IQP) circuit with a varying density of two-qubit gates. In addition to a known anticoncentration regime, we identify novel parameter conditions where the model is classically simulable or the output distribution follows the Porter-Thomas distribution. By showing that those parameter regimes do not coincide, we argue the presence of more than two phases in the model. The learnability of the output distribution of this model is further studied, which indicates that an energy-based model fails to learn the output distribution even when it is not anticoncentrated. Our study reveals that a quantum circuit model can have multiple fine-grained complexity phases, suggesting the potential for quantum advantage even when the output distribution is far from the Porter-Thomas distribution.
翻訳日:2023-06-28 01:15:01 公開日:2023-06-24
# テンソル-トレインクロス近似の誤差解析

Error Analysis of Tensor-Train Cross Approximation ( http://arxiv.org/abs/2207.04327v3 )

ライセンス: Link先を確認
Zhen Qin, Alexander Lidiak, Zhexuan Gong, Gongguo Tang, Michael B. Wakin and Zhihui Zhu(参考訳) テンソルトレイン分解は、高次元テンソルの簡潔な表現のため、機械学習や量子物理学で広く用いられている。 行列を選択された行と列の集合から表現するクロス近似は、テンソルのテンソルトレイン分解を構成する効率的な方法である。 テンソルトレインのクロス近似は実用上顕著な性能を達成しているが、その理論解析、特に近似の誤差についてはまだ不十分である。 我々の知る限り、既存の結果は要素ワイズ近似の精度を保証するだけであり、テンソル全体に拡張すると非常にゆるい境界となる。 本稿では, テンソル全体の精度保証を, 精度と雑音の両面において提供することにより, このギャップを埋める。 以上の結果から,選択したサブテンソルの選択がクロス近似の品質にどのように影響するかを示し,モデル誤差や測定誤差による近似誤差がテンソルの次数で指数関数的に増加することはないことを示した。 これらの結果は数値実験によって検証され、量子多体状態の記述に見られるような高次テンソルに対するクロス近似の有用性に重要な意味を持つ。

Tensor train decomposition is widely used in machine learning and quantum physics due to its concise representation of high-dimensional tensors, overcoming the curse of dimensionality. Cross approximation-originally developed for representing a matrix from a set of selected rows and columns-is an efficient method for constructing a tensor train decomposition of a tensor from few of its entries. While tensor train cross approximation has achieved remarkable performance in practical applications, its theoretical analysis, in particular regarding the error of the approximation, is so far lacking. To our knowledge, existing results only provide element-wise approximation accuracy guarantees, which lead to a very loose bound when extended to the entire tensor. In this paper, we bridge this gap by providing accuracy guarantees in terms of the entire tensor for both exact and noisy measurements. Our results illustrate how the choice of selected subtensors affects the quality of the cross approximation and that the approximation error caused by model error and/or measurement error may not grow exponentially with the order of the tensor. These results are verified by numerical experiments, and may have important implications for the usefulness of cross approximations for high-order tensors, such as those encountered in the description of quantum many-body states.
翻訳日:2023-06-28 01:08:11 公開日:2023-06-24
# ビジョン・アンド・ランゲージ事前学習

Vision-and-Language Pretraining ( http://arxiv.org/abs/2207.01772v2 )

ライセンス: Link先を確認
Thong Nguyen, Cong-Duy Nguyen, Xiaobao Wu, See-Kiong Ng, Anh Tuan Luu(参考訳) 画像テキストペアのデータ量の増加と視覚言語(v\&l)タスクの多様性により、この研究領域ではディープラーニングモデルが数多く導入されている。 さらに近年,画像分類やオブジェクト検出などのタスクや自然言語による質問応答処理,機械翻訳などのタスクにおいて,移動学習はコンピュータビジョンにおいても大きな成功を収めている。 トランスファーラーニングの精神を継承したV\&Lの研究は、下流タスクの性能を高めるために、大規模データセット上で複数の事前学習技術を開発した。 本論文の目的は、現代V\&L事前学習モデルの包括的な改訂を提供することである。 特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチを分類・記述する。 さらに、V\&L事前トレーニングの視点をさらに洗練するために、トレーニングデータセットと下流タスクのリストが提供される。 最後に,今後の研究の方向性について,さらに一歩進めて検討することにした。

With the burgeoning amount of data of image-text pairs and diversity of Vision-and-Language (V\&L) tasks, scholars have introduced an abundance of deep learning models in this research domain. Furthermore, in recent years, transfer learning has also shown tremendous success in Computer Vision for tasks such as Image Classification, Object Detection, etc., and in Natural Language Processing for Question Answering, Machine Translation, etc. Inheriting the spirit of Transfer Learning, research works in V\&L have devised multiple pretraining techniques on large-scale datasets in order to enhance the performance of downstream tasks. The aim of this article is to provide a comprehensive revision of contemporary V\&L pretraining models. In particular, we categorize and delineate pretraining approaches, along with the summary of state-of-the-art vision-and-language pretrained models. Moreover, a list of training datasets and downstream tasks is supplied to further polish the perspective into V\&L pretraining. Lastly, we decided to take a further step to discuss numerous directions for future research.
翻訳日:2023-06-28 01:07:49 公開日:2023-06-24
# DiSCoMaT: 材料科学論文における表からの遠隔監視合成抽出

DiSCoMaT: Distantly Supervised Composition Extraction from Tables in Materials Science Articles ( http://arxiv.org/abs/2207.01079v3 )

ライセンス: Link先を確認
Tanishq Gupta, Mohd Zaki, N. M. Anoop Krishnan, Mausam(参考訳) 科学領域におけるkbのキュレーションにおける重要な要素は、ドメインの公開論文の表からの情報抽出である -- テーブルは重要な情報(しばしば数値)を持ち、記事の包括的な機械理解のために適切に抽出されなければならない。 既存の表抽出器は、科学的な表では知られていないテーブル構造とフォーマットの事前知識を前提としている。 本研究では, 材料(ガラス, 合金など)の組成を抽出する, 具体的なテーブル抽出問題について検討する。 まず、材料科学研究者は、表理解と構成抽出のためのインテリジェントなモデルを必要とする、様々なテーブルスタイルで類似した構成を整理する。 その結果,この新たなタスクをMLコミュニティの課題として定義し,4,408の遠隔教師付きテーブルと1,475の手動アノテートとテストテーブルからなるトレーニングデータセットを作成する。 また、複数のグラフニューラルネットワークとタスク固有の正規表現、特徴、制約を組み合わせた、この特定のタスクを指向した強力なベースラインであるDiSCoMaTを提案する。 DiSCoMaTは最近のテーブル処理アーキテクチャよりも大幅に優れていた。

A crucial component in the curation of KB for a scientific domain is information extraction from tables in the domain's published articles -- tables carry important information (often numeric), which must be adequately extracted for a comprehensive machine understanding of an article. Existing table extractors assume prior knowledge of table structure and format, which may not be known in scientific tables. We study a specific and challenging table extraction problem: extracting compositions of materials (e.g., glasses, alloys). We first observe that materials science researchers organize similar compositions in a wide variety of table styles, necessitating an intelligent model for table understanding and composition extraction. Consequently, we define this novel task as a challenge for the ML community and create a training dataset comprising 4,408 distantly supervised tables, along with 1,475 manually annotated dev and test tables. We also present DiSCoMaT, a strong baseline geared towards this specific task, which combines multiple graph neural networks with several task-specific regular expressions, features, and constraints. We show that DiSCoMaT outperforms recent table processing architectures by significant margins.
翻訳日:2023-06-28 01:07:31 公開日:2023-06-24
# PROD:Dense Retrievalのためのプログレッシブ蒸留

PROD: Progressive Distillation for Dense Retrieval ( http://arxiv.org/abs/2209.13335v3 )

ライセンス: Link先を確認
Zhenghao Lin, Yeyun Gong, Xiao Liu, Hang Zhang, Chen Lin, Anlei Dong, Jian Jiao, Jingwen Lu, Daxin Jiang, Rangan Majumder, Nan Duan(参考訳) 知識蒸留は、強力な教師から効率的な生徒モデルに知識を移す効果的な方法である。 理想的には、先生が良いこと、生徒が良いことを期待する。 しかし、この期待は必ずしも実現しない。 良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。 このギャップを埋めるため,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。 PRODは、教師のプログレッシブ蒸留とデータプログレッシブ蒸留からなり、学生を徐々に改善させる。 我々は,広く使用されている5つのベンチマーク,MS MARCO Passage, TREC Passage 19, TREC Document 19, MS MARCO Document and Natural Questionsについて広範な実験を行った。 コードとモデルがリリースされます。

Knowledge distillation is an effective way to transfer knowledge from a strong teacher to an efficient student model. Ideally, we expect the better the teacher is, the better the student. However, this expectation does not always come true. It is common that a better teacher model results in a bad student via distillation due to the nonnegligible gap between teacher and student. To bridge the gap, we propose PROD, a PROgressive Distillation method, for dense retrieval. PROD consists of a teacher progressive distillation and a data progressive distillation to gradually improve the student. We conduct extensive experiments on five widely-used benchmarks, MS MARCO Passage, TREC Passage 19, TREC Document 19, MS MARCO Document and Natural Questions, where PROD achieves the state-of-the-art within the distillation methods for dense retrieval. The code and models will be released.
翻訳日:2023-06-28 00:48:38 公開日:2023-06-24
# gaitmm: 歩行認識のためのマルチグラニュラ性モーションシーケンス学習

GaitMM: Multi-Granularity Motion Sequence Learning for Gait Recognition ( http://arxiv.org/abs/2209.08470v2 )

ライセンス: Link先を確認
Lei Wang, Bo Liu, Bincheng Wang, Fuqiang Yu(参考訳) 歩行認識は、身体部位ごとに異なる周期的な動きを観察することで、個々の歩行パターンを識別することを目的としている。 しかし、既存のほとんどの手法は各部分を等しく扱い、異なるステップ周波数と歩行シーケンスのサンプリングレートに起因するデータの冗長性を考慮できない。 本研究では,歩行系列学習のためのマルチグラニュラリティ動作表現ネットワーク(GaitMM)を提案する。 GaitMMでは、部分非依存の時空間表現を探索するために、全体および微細配列学習モジュール(FFSL)の組み合わせを設計する。 さらに,マルチスケールモーションアグリゲーション (msma) と呼ばれるフレーム単位での圧縮戦略を用いて,歩行系列における識別情報を取得する。 CASIA-BとOUMVLPの2つの公開データセットに対する実験により、我々のアプローチが最先端のパフォーマンスに達することが示された。

Gait recognition aims to identify individual-specific walking patterns by observing the different periodic movements of each body part. However, most existing methods treat each part equally and fail to account for the data redundancy caused by the different step frequencies and sampling rates of gait sequences. In this study, we propose a multi-granularity motion representation network (GaitMM) for gait sequence learning. In GaitMM, we design a combined full-body and fine-grained sequence learning module (FFSL) to explore part-independent spatio-temporal representations. Moreover, we utilize a frame-wise compression strategy, referred to as multi-scale motion aggregation (MSMA), to capture discriminative information in the gait sequence. Experiments on two public datasets, CASIA-B and OUMVLP, show that our approach reaches state-of-the-art performances.
翻訳日:2023-06-28 00:47:54 公開日:2023-06-24
# モデルベースRLの簡易化:学習表現、潜在空間モデル、および1つの目的によるポリシー

Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective ( http://arxiv.org/abs/2209.08466v3 )

ライセンス: Link先を確認
Raj Ghugare, Homanga Bharadhwaj, Benjamin Eysenbach, Sergey Levine and Ruslan Salakhutdinov(参考訳) 環境の内部モデルを学習する強化学習(RL)法は、モデルなしの手法よりもサンプル効率が高い可能性があるが、高次元センサからの生観測をモデル化する学習は困難である。 先行研究は、再構成や価値予測のような補助的な目的を通して観測の低次元表現を学ぶことで、この課題に対処してきた。 しかし、これらの補助目的とrl目標の整合はしばしば不明確である。 本研究では,自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。 この目標は期待値よりも低い値である。 政策探索やモデル保証に関するモデルベースRLの以前の境界とは異なり、我々の境界は全体RLの目的に直接依存する。 得られたアルゴリズムがモデルベースおよびモデルフリーRL手法のサンプル効率に適合するか改善することを示した。 サンプル効率のよい手法は典型的には計算に要求されるが,SACの性能は壁面時間で約50%低下する。

While reinforcement learning (RL) methods that learn an internal model of the environment have the potential to be more sample efficient than their model-free counterparts, learning to model raw observations from high dimensional sensors can be challenging. Prior work has addressed this challenge by learning low-dimensional representation of observations through auxiliary objectives, such as reconstruction or value prediction. However, the alignment between these auxiliary objectives and the RL objective is often unclear. In this work, we propose a single objective which jointly optimizes a latent-space model and policy to achieve high returns while remaining self-consistent. This objective is a lower bound on expected returns. Unlike prior bounds for model-based RL on policy exploration or model guarantees, our bound is directly on the overall RL objective. We demonstrate that the resulting algorithm matches or improves the sample-efficiency of the best prior model-based and model-free RL methods. While sample efficient methods typically are computationally demanding, our method attains the performance of SAC in about 50% less wall-clock time.
翻訳日:2023-06-28 00:47:41 公開日:2023-06-24
# GFlowOut: 生成フローネットワークによるドロップアウト

GFlowOut: Dropout with Generative Flow Networks ( http://arxiv.org/abs/2210.12928v3 )

ライセンス: Link先を確認
Dianbo Liu, Moksh Jain, Bonaventure Dossou, Qianli Shen, Salem Lahlou, Anirudh Goyal, Nikolay Malkin, Chris Emezue, Dinghuai Zhang, Nadhir Hassen, Xu Ji, Kenji Kawaguchi, Yoshua Bengio(参考訳) ベイズ推論は、キャリブレーションの貧弱さや一般化、データ非効率など、現代のニューラルネットワークにおける多くの重要な問題に対処するための原則付きツールを提供する。 しかし、大規模アーキテクチャへのベイズ推論のスケーリングは困難であり、制限付き近似を必要とする。 モンテカルロドロップアウトは、近似推論やディープニューラルネットワークによる不確実性の推定に比較的安価な方法として広く使われている。 伝統的に、ドロップアウトマスクは固定分布から独立してサンプリングされる。 最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。 これらの手法は2つの重要な課題に直面している。 (a)マスク上の後方分布は高度にマルチモーダルであり、標準変分推論では近似が困難である。 b) サンプル依存情報とドロップアウトマスク間の相関を十分に活用して後方推定を改善することは容易ではない。 本稿では,これらの問題に対処するためにGFlowOutを提案する。 GFlowOutは、最近提案されたGenerative Flow Networks(GFlowNets)の確率的フレームワークを活用して、ドロップアウトマスク上の後部分布を学習する。 我々は,gflowout が予測分布をもたらすことを実証し,分散外データへの一般化と下流タスクの性能向上につながる不確実性推定を提供する。

Bayesian Inference offers principled tools to tackle many critical problems with modern neural networks such as poor calibration and generalization, and data inefficiency. However, scaling Bayesian inference to large architectures is challenging and requires restrictive approximations. Monte Carlo Dropout has been widely used as a relatively cheap way for approximate Inference and to estimate uncertainty with deep neural networks. Traditionally, the dropout mask is sampled independently from a fixed distribution. Recent works show that the dropout mask can be viewed as a latent variable, which can be inferred with variational inference. These methods face two important challenges: (a) the posterior distribution over masks can be highly multi-modal which can be difficult to approximate with standard variational inference and (b) it is not trivial to fully utilize sample-dependent information and correlation among dropout masks to improve posterior estimation. In this work, we propose GFlowOut to address these issues. GFlowOut leverages the recently proposed probabilistic framework of Generative Flow Networks (GFlowNets) to learn the posterior distribution over dropout masks. We empirically demonstrate that GFlowOut results in predictive distributions that generalize better to out-of-distribution data, and provide uncertainty estimates which lead to better performance in downstream tasks.
翻訳日:2023-06-28 00:39:15 公開日:2023-06-24
# KSAT: 知識を注入した自己注意変換 -- 複数のドメイン特有なコンテキストを統合する

KSAT: Knowledge-infused Self Attention Transformer -- Integrating Multiple Domain-Specific Contexts ( http://arxiv.org/abs/2210.04307v2 )

ライセンス: Link先を確認
Kaushik Roy, Yuxin Zi, Vignesh Narayanan, Manas Gaur, Amit Sheth(参考訳) ドメイン固有の言語理解には、関連する複数のコンテキスト情報を統合する必要がある。 例えば、「私は銃を持っていて、人生にかなり悪いと感じている」という文章には、自殺とうつ病に関連する行動(複数の文脈)の両方が見られます。 自己完結アーキテクチャにおけるドメイン特異性は、関連するドメイン固有リソース(データセットと外部知識-自殺と抑うつに関連するメンタルヘルス診断に関する医学教科書章)からの抜粋を微調整することで処理される。 本稿では、外部知識源を用いて複数のドメイン固有のコンテキストの統合を実現する、知識注入型自己注意変換器(KSAT)を提案する。 KSATは、知識ソースごとに専用の自己注意層に知識誘導バイアスを導入し、これを実現する。 さらに、KSATはデータから学ぶことと知識から学ぶことの間のトレードオフを制御するためのメカニズムを提供する。 定量的および定性的な評価の結果,(1)KSATアーキテクチャは, 注入されたドメインコンテキストのコントリビューションを正確に測定し視覚化するための, 新規な人間理解可能な方法を提供し, (2) KSATは他の知識注入されたベースラインと競合し, ドメイン固有のタスクを微調整するベースラインを著しく上回ることを示した。

Domain-specific language understanding requires integrating multiple pieces of relevant contextual information. For example, we see both suicide and depression-related behavior (multiple contexts) in the text ``I have a gun and feel pretty bad about my life, and it wouldn't be the worst thing if I didn't wake up tomorrow''. Domain specificity in self-attention architectures is handled by fine-tuning on excerpts from relevant domain specific resources (datasets and external knowledge - medical textbook chapters on mental health diagnosis related to suicide and depression). We propose a modified self-attention architecture Knowledge-infused Self Attention Transformer (KSAT) that achieves the integration of multiple domain-specific contexts through the use of external knowledge sources. KSAT introduces knowledge-guided biases in dedicated self-attention layers for each knowledge source to accomplish this. In addition, KSAT provides mechanics for controlling the trade-off between learning from data and learning from knowledge. Our quantitative and qualitative evaluations show that (1) the KSAT architecture provides novel human-understandable ways to precisely measure and visualize the contributions of the infused domain contexts, and (2) KSAT performs competitively with other knowledge-infused baselines and significantly outperforms baselines that use fine-tuning for domain-specific tasks.
翻訳日:2023-06-28 00:37:23 公開日:2023-06-24
# FED-CD: 干渉・観測データによるフェデレーション因果発見

FED-CD: Federated Causal Discovery from Interventional and Observational Data ( http://arxiv.org/abs/2211.03846v3 )

ライセンス: Link先を確認
Amin Abyaneh, Nino Scherrer, Patrick Schwab, Stefan Bauer, Bernhard Sch\"olkopf, Arash Mehrjou(参考訳) 既存の因果探索法は典型的には、データを集中した場所で利用する必要がある。 しかし、医療などの多くの実践的ドメインは、主にプライバシーと規制上の制約のために、地元のエンティティが収集したデータへのアクセスを制限する。 そこで本研究では,観測データおよび介入データを含む分散データセットから因果構造を推定するフェデレートフレームワークであるfederated-cdを提案する。 データサンプルの代わりに更新を交換することで、FED-CDはプライバシを確保し、基盤となる指向非循環グラフ(DAG)の分散的な発見を可能にする。 共変量の共有あるいは不一致を伴うシナリオに対応し,介入データの不均一性の悪影響を緩和する。 合成DAGと実世界のDAGを用いた分散型因果発見のためのFED-CDの性能とスケーラビリティに関する実証的証拠を提供する。

Existing causal discovery methods typically require the data to be available in a centralized location. However, many practical domains, such as healthcare, limit access to the data gathered by local entities, primarily for privacy and regulatory constraints. To address this, we propose FED-CD, a federated framework for inferring causal structures from distributed datasets containing observational and interventional data. By exchanging updates instead of data samples, FED-CD ensures privacy while enabling decentralized discovery of the underlying directed acyclic graph (DAG). We accommodate scenarios with shared or disjoint intervened covariates, and mitigate the adverse effects of interventional data heterogeneity. We provide empirical evidence for the performance and scalability of FED-CD for decentralized causal discovery using synthetic and real-world DAGs.
翻訳日:2023-06-28 00:29:12 公開日:2023-06-24
# 無限次元作用素のクラスにおける固有値とシンプレクティック固有値の順序関係

An Order Relation between Eigenvalues and Symplectic Eigenvalues of a Class of Infinite Dimensional Operators ( http://arxiv.org/abs/2212.03900v2 )

ライセンス: Link先を確認
Tiju Cherian John, V. B. Kiran Kumar, and Anmary Tonny(参考訳) 本稿では,「無限次元シンプレクティックスペクトル論」の方向性に関するいくつかの結果を得る。 無限次元作用素の特殊クラスの固有値とシンプレクティック固有値の間の不等式を証明する。 T$ を、ある $\alpha > 0$ に対して $T - \alpha I$ がコンパクトであるような作用素とする。 注意:$\{{\lambda_j^R}^\downarrow(T)\}$、$T$の固有値の集合を$\alpha$の右辺に厳密に配置し、$\{{\lambda_j^L}^\uparrow(T)\}$を$T$の固有値の集合を$\alpha$の左辺に厳密に配置する。 さらに、$\{{d_j^r}^\downarrow(t)\}$ を減少順序で配列された$\alpha$ の右に厳密に横たわる$t$ のシンプレクティック固有値、$\{d_j^l}^\uparrow(t)\}$ をそれぞれ$\alpha$ の左に厳密に配置された$t$ のシンプレクティック固有値の集合とする(このような配置は、シンプレクティック固有値の蓄積点が$\alpha$ であることを示すことができる)。 このとき、$t$の固有値の濃度について異なる場合を考えることにより、${d_j^r}^\downarrow(t) \leq {\lambda_j^r}^\downarrow(t), \quad j = 1,2, \cdots, s_r$ および$$$${\lambda_j^l}^\uparrow(t) \leq {d_j^l}^\uparrow(t), \quad j = 1,2, \cdots, s_l,$ where $s_l$ はそれぞれ$t$のシンプレクティック固有値の数を表す。 これは Bhatia と Jain (J) によって得られる有限次元の結果を一般化する。 数学 Phys 56, 112201 (2015)). ガウス共分散作用素(GCO)のクラスと正の絶対ノルムの演算子($(\mathcal{AN})_+$演算子)は、我々が考慮する作用素の集合の特別な場合として現れる。

In this article, we obtain some results in the direction of ``infinite dimensional symplectic spectral theory". We prove an inequality between the eigenvalues and symplectic eigenvalues of a special class of infinite dimensional operators. Let $T$ be an operator such that $T - \alpha I$ is compact for some $\alpha > 0$. Denote by $\{{\lambda_j^R}^\downarrow(T)\}$, the set of eigenvalues of $T$ lying strictly to the right side of $\alpha$ arranged in the decreasing order and let $\{{\lambda_j^L}^\uparrow(T)\}$ denote the set of eigenvalues of $T$ lying strictly to the left side of $\alpha$ arranged in the increasing order. Furthermore, let $\{{d_j^R}^\downarrow(T)\}$ denote the symplectic eigenvalues of $T$ lying strictly to the right of $\alpha$ arranged in decreasing order and $\{{d_j^L}^\uparrow(T)\}$ denote the set of symplectic eigenvalues of $T$ lying strictly to the left of $\alpha$ arranged in increasing order, respectively (such an arrangement is possible as it will be shown that the only possible accumulation point for the symplectic eigenvalues is $\alpha$). Then by considering different cases with respect to the cardinality of the eigenvalues of $T$ we show that $${d_j^R}^\downarrow(T) \leq {\lambda_j^R}^\downarrow(T), \quad j = 1,2, \cdots, s_r$$ and $${\lambda_j^L}^\uparrow(T) \leq {d_j^L}^\uparrow(T), \quad j = 1,2, \cdots, s_l,$$ where $s_r$ and $s_l$ denote the number of symplectic eigenvalues of $T$ strictly to the right and left of $\alpha$, respectively. This generalizes a finite dimensional result obtained by Bhatia and Jain (J. Math. Phys. 56, 112201 (2015)). The class of Gaussian Covariance Operators (GCO) and positive Absolutely Norm attaining Operators ($(\mathcal{AN})_+$ operators) appear as special cases of the set of operators we consider.
翻訳日:2023-06-28 00:19:09 公開日:2023-06-24
# 時空間秩序における時間的障害

Temporal disorder in spatiotemporal order ( http://arxiv.org/abs/2212.03135v2 )

ライセンス: Link先を確認
Hongzheng Zhao, Johannes Knolle, Roderich Moessner(参考訳) 時間依存駆動は静的システムに存在しない動的現象を実現するという約束を果たす。 本稿では,周期運転でも達成できない時空間順序を実現するための相関したランダム駆動プロトコルを導入し,時間変換対称性の破れに関する議論をランダム駆動システムに拡張する。 時間的に乱れた微小運動と温熱前ストロボスコープによる時空間長周期秩序の組合せを見いだした。 この時空間次数は一般的な摂動に対して頑健であり、代数的に長い予熱寿命では、スケーリング指数は摂動の対称性に強く依存し、解析的に説明できる。

Time-dependent driving holds the promise of realizing dynamical phenomenon absent in static systems. Here, we introduce a correlated random driving protocol to realize a spatiotemporal order that cannot be achieved even by periodic driving, thereby extending the discussion of time translation symmetry breaking to randomly driven systems. We find a combination of temporally disordered micro-motion with prethermal stroboscopic spatiotemporal long-range order. This spatiotemporal order remains robust against generic perturbations, with an algebraically long prethermal lifetime where the scaling exponent strongly depends on the symmetry of the perturbation, which we account for analytically.
翻訳日:2023-06-28 00:17:44 公開日:2023-06-24
# 真空は化学反応におけるキラリティを選択できるのか?

Can vacuum select chirality in chemical reactions? ( http://arxiv.org/abs/2211.11132v3 )

ライセンス: Link先を確認
Yanzhe Ke, Zhigang Song, Qing-Dong Jiang(参考訳) 内部に対称性が破れている物質は、真空電磁揺らぎによってその近傍に対称性破れを伝達することができる。 対称性に破れた物質に近縁な真空は、その量子雰囲気と呼ばれる。 ここでは、パリティ対称性が破れた量子雰囲気は、キラル分子の基底状態エネルギーのキラリティ依存的なシフトを誘導し、一方のキラリティを他方に優先する化学反応過程をもたらすことを示す。 我々は、具体的な例を計算し、量子大気選択率の期待を示すキラリティー生成率を評価する。

A material with symmetry breaking inside can transmit the symmetry breaking to its vicinity by vacuum electromagnetic fluctuations. The vacuum in proximate to a symmetry-broken material is referred as its quantum atmosphere. Here, we show that a parity-symmetry-broken quantum atmosphere can induce a chirality-dependent shift of the ground-state energy of a chiral molecule, resulting in a chemical reaction process that favors producing one chirality over the other. We calculate concrete examples and evaluate the chirality production rate, showing the promise of quantum atmospheric selectivity.
翻訳日:2023-06-28 00:16:40 公開日:2023-06-24
# 分離ノード同定に基づくNISQ対応コミュニティ検出

NISQ-ready community detection based on separation-node identification ( http://arxiv.org/abs/2212.14717v2 )

ライセンス: Link先を確認
Jonas Stein, Dominik Ott, Jonas N\"u{\ss}lein, David Bucher, Mirco Schoenfeld, Sebastian Feld(参考訳) ネットワーク構造の解析は、生物学から社会学まで、多くの科学分野に不可欠である。 これらのネットワークを分割にクラスタリングする計算タスク、すなわちコミュニティ検出問題の解決は一般にNPハードであり、ヒューリスティックな解は不可欠である。 迅速なヒューリスティックスの研究は、量子コンピューティングの新興技術における特に有望なアプローチの開発につながった。 確立された量子コミュニティ検出手法のハードウェア要求により,QUBOベースの新しいアプローチを導入し,ノード数のみを必要とし,QUBO行列を入力グラフの隣接行列としてスパースとして表現する。 QUBO行列の空間性は、典型的には非常に密集しているため、分離ノードという新しい概念によって大幅に改善される。 このアプローチは、すべてのノードをコミュニティに直接割り当てる代わりに、分離ノードセットの識別に依存します。 分離ノードセットから特定されたコミュニティコアにノードを割り当てるために欲深いヒューリスティックを用いることで、その後の実験結果は概念実証をもたらす。 この研究は、大規模実世界の問題インスタンスのネットワーク構造解析に対する量子コンピュータの応用を触媒する、nisqが準備した量子コミュニティ検出への有望なアプローチを示している。

The analysis of network structure is essential to many scientific areas, ranging from biology to sociology. As the computational task of clustering these networks into partitions, i.e., solving the community detection problem, is generally NP-hard, heuristic solutions are indispensable. The exploration of expedient heuristics has led to the development of particularly promising approaches in the emerging technology of quantum computing. Motivated by the substantial hardware demands for all established quantum community detection approaches, we introduce a novel QUBO based approach that only needs number-of-nodes many qubits and is represented by a QUBO-matrix as sparse as the input graph's adjacency matrix. The substantial improvement on the sparsity of the QUBO-matrix, which is typically very dense in related work, is achieved through the novel concept of separation-nodes. Instead of assigning every node to a community directly, this approach relies on the identification of a separation-node set, which -- upon its removal from the graph -- yields a set of connected components, representing the core components of the communities. Employing a greedy heuristic to assign the nodes from the separation-node sets to the identified community cores, subsequent experimental results yield a proof of concept. This work hence displays a promising approach to NISQ ready quantum community detection, catalyzing the application of quantum computers for the network structure analysis of large scale, real world problem instances.
翻訳日:2023-06-28 00:10:41 公開日:2023-06-24
# 私には答える知識がありますか。 知識ベース質問の解答可能性の検討

Do I have the Knowledge to Answer? Investigating Answerability of Knowledge Base Questions ( http://arxiv.org/abs/2212.10189v2 )

ライセンス: Link先を確認
Mayur Patidar, Prayushi Faldu, Avinash Singh, Lovekesh Vig, Indrajit Bhattacharya, Mausam(参考訳) 知識ベース、事実の欠如、不完全なスキーマ、限られた範囲に関する自然言語の質問に答えると、自然に多くの疑問が解決できない。 他のQA設定では応答性について検討されているが、知識ベース(KBQA)に関するQAについては研究されていない。 GrailQAbilityは、まずさまざまなKB不完全性を識別し、次に、GrailQA(回答可能な質問のみを備えた人気のKBQAデータセット)を体系的に適応することで、解決不可能な新しいベンチマークKBQAデータセットである。 3つの最先端KBQAモデルを用いて実験したところ、3つのモデルは全て、解決不可能な問題に適応した後でも性能が低下していることが判明した。 さらに、これはしばしば間違った理由で解答不能を検出し、特に解答不能の特定の形態を見つける。 このことはKBQAシステムを解答不能に堅牢にするためのさらなる研究の必要性を浮き彫りにする。

When answering natural language questions over knowledge bases, missing facts, incomplete schema and limited scope naturally lead to many questions being unanswerable. While answerability has been explored in other QA settings, it has not been studied for QA over knowledge bases (KBQA). We create GrailQAbility, a new benchmark KBQA dataset with unanswerability, by first identifying various forms of KB incompleteness that make questions unanswerable, and then systematically adapting GrailQA (a popular KBQA dataset with only answerable questions). Experimenting with three state-of-the-art KBQA models, we find that all three models suffer a drop in performance even after suitable adaptation for unanswerable questions. In addition, these often detect unanswerability for wrong reasons and find specific forms of unanswerability particularly difficult to handle. This underscores the need for further research in making KBQA systems robust to unanswerability
翻訳日:2023-06-28 00:10:18 公開日:2023-06-24
# モバイルデバイス上のリアルタイムニューラルライトフィールド

Real-Time Neural Light Field on Mobile Devices ( http://arxiv.org/abs/2212.08057v2 )

ライセンス: Link先を確認
Junli Cao, Huan Wang, Pavlo Chemerys, Vladislav Shakhrai, Ju Hu, Yun Fu, Denys Makoviichuk, Sergey Tulyakov, Jian Ren(参考訳) ニューラルレンダリングフィールド(NeRF)の最近の研究は、3Dシーンを表現するために暗黙のニューラル表現を活用することによって、新しいビュー合成に印象的な結果を示している。 ボリュームレンダリングのプロセスのため、NeRFの推論速度は非常に遅く、モバイルデバイスなどのリソース制約のあるハードウェア上でNeRFを利用するアプリケーションのシナリオが制限される。 NeRFモデルの動作遅延を低減するために,多くの研究がなされている。 しかし、アクセラレーションや追加ストレージメモリにはまだハイエンドgpuが必要で、すべてモバイルデバイスでは利用できない。 別の新興方向は、光線上で1つのフォワードパスのみを実行してピクセル色を予測するため、ニューラルライトフィールド(NeLF)をスピードアップに利用する。 それでも、NeRFと同様のレンダリング品質に達するため、NeLFのネットワークはモバイルフレンドリーではない集中型計算で設計されている。 本研究では,ニューラルレンダリングのためにモバイルデバイス上でリアルタイムに動作する効率的なネットワークを提案する。 ネットワークをトレーニングするためのNeLFの設定に従います。 既存の作業とは異なり,低レイテンシと小サイズのモバイルデバイス上で効率的に動作する新しいネットワークアーキテクチャを導入し,mobilenerfと比較して15\times \sim 24\times$ストレージを節約する。 私たちのモデルは、モバイルデバイス上の合成シーンと実世界のシーンの両方に対して、リアルタイムな推論を維持しながら、高解像度な生成を実現しています。例えば、実際の3dシーンの1つ1つの1008\times756$イメージをレンダリングするために18.04$ms (iphone 13)です。 さらに、NeRFと同じような画質と、MobileNeRF(PSNR $26.15$ vs. 25.91$)よりも優れた画質を実現しています。

Recent efforts in Neural Rendering Fields (NeRF) have shown impressive results on novel view synthesis by utilizing implicit neural representation to represent 3D scenes. Due to the process of volumetric rendering, the inference speed for NeRF is extremely slow, limiting the application scenarios of utilizing NeRF on resource-constrained hardware, such as mobile devices. Many works have been conducted to reduce the latency of running NeRF models. However, most of them still require high-end GPU for acceleration or extra storage memory, which is all unavailable on mobile devices. Another emerging direction utilizes the neural light field (NeLF) for speedup, as only one forward pass is performed on a ray to predict the pixel color. Nevertheless, to reach a similar rendering quality as NeRF, the network in NeLF is designed with intensive computation, which is not mobile-friendly. In this work, we propose an efficient network that runs in real-time on mobile devices for neural rendering. We follow the setting of NeLF to train our network. Unlike existing works, we introduce a novel network architecture that runs efficiently on mobile devices with low latency and small size, i.e., saving $15\times \sim 24\times$ storage compared with MobileNeRF. Our model achieves high-resolution generation while maintaining real-time inference for both synthetic and real-world scenes on mobile devices, e.g., $18.04$ms (iPhone 13) for rendering one $1008\times756$ image of real 3D scenes. Additionally, we achieve similar image quality as NeRF and better quality than MobileNeRF (PSNR $26.15$ vs. $25.91$ on the real-world forward-facing dataset).
翻訳日:2023-06-28 00:09:43 公開日:2023-06-24
# インコンテクスト構成の一般化を向上するディバースデモ

Diverse Demonstrations Improve In-context Compositional Generalization ( http://arxiv.org/abs/2212.06800v3 )

ライセンス: Link先を確認
Itay Levy, Ben Bogin, Jonathan Berant(参考訳) 文脈内学習は、トレーニングとテストセットが同じ分布から引き出されるような意味解析の分割において大きな成功を収めている。 この設定では、モデルは通常、入力発話に似たデモンストレーションによって促される。 しかし、トレーニングセットにない構造を持つ出力でモデルがテストされる合成一般化のセットアップでは、同様のデモンストレーションを選択するだけでは不十分であり、例が入力と十分に似ていないことが多い。 本研究では,これらの実演から新たな構造への一般化を促すために,出力プログラムに必要な全ての構造を包括的にカバーする多種多様な実演を選択する手法を提案する。 実験により、多種多様な実演とインコンテキスト学習を組み合わせることで、純粋なインコンテキスト学習環境における3つの合成一般化セマンティックパーシングデータセットとファインタニングの併用によるパフォーマンスが大幅に向上することを示した。

In-context learning has shown great success in i.i.d semantic parsing splits, where the training and test sets are drawn from the same distribution. In this setup, models are typically prompted with demonstrations that are similar to the input utterance. However, in the setup of compositional generalization, where models are tested on outputs with structures that are absent from the training set, selecting similar demonstrations is insufficient, as often no example will be similar enough to the input. In this work, we propose a method to select diverse demonstrations that aims to collectively cover all of the structures required in the output program, in order to encourage the model to generalize to new structures from these demonstrations. We empirically show that combining diverse demonstrations with in-context learning substantially improves performance across three compositional generalization semantic parsing datasets in the pure in-context learning setup and when combined with finetuning.
翻訳日:2023-06-28 00:09:18 公開日:2023-06-24
# 積分可能なデジタル量子シミュレーション:一般化ギブズアンサンブルとトロッター遷移

Integrable Digital Quantum Simulation: Generalized Gibbs Ensembles and Trotter Transitions ( http://arxiv.org/abs/2212.06455v2 )

ライセンス: Link先を確認
Eric Vernier, Bruno Bertini, Giuliano Giudici, Lorenzo Piroli(参考訳) トロッター・スズキ分解はデジタル量子シミュレーション(dqs)にとって有望な道であり、持続時間の離散的トロッターステップによる連続時間ダイナミクスの近似である。 最近の研究では、DQSはシャープなトロッター遷移によって特徴付けられることが示唆されている:$\tau$がしきい値を超えて増加すると、量子カオスの開始により近似誤差は制御不能になる。 ここで、この図は \emph{integrable} DQS の場合と対比する。 我々は、xxzハイゼンベルクスピンチェーンのスピン波状態からの単純なクエンチに注目し、その可積分なトロッタ化進化を$\tau$の関数として研究する。 厳密な局所保存則のため、系は無限温度まで加熱されず、ダイナミクスの後期特性は離散的一般化ギブスアンサンブル(dgge)によって捕捉される。 正確な計算によって、小さな$\tau$ の場合、dgge はトロッターステップに解析的に依存し、離散化誤差は無限の時間でも有界であることを示している。 逆に、dGGEは閾値$\tau_{\rm th}$で突然変化し、新しいタイプのトロッター遷移を示す。 後者は局所的に検出できることを示すが、これは非ゼロスタッガー型磁化の出現と関連しており、$\tau$に微妙な依存がある。 我々は連続ggesと離散ggesの違いを強調し、後者はデジタルプラットフォーム専用の興味深い非平衡状態であることを示唆している。

The Trotter-Suzuki decomposition is a promising avenue for digital quantum simulation (DQS), approximating continuous-time dynamics by discrete Trotter steps of duration $\tau$. Recent work suggested that DQS is typically characterized by a sharp Trotter transition: when $\tau$ is increased beyond a threshold value, approximation errors become uncontrolled at large times due to the onset of quantum chaos. Here we contrast this picture with the case of \emph{integrable} DQS. We focus on a simple quench from a spin-wave state in the prototypical XXZ Heisenberg spin chain, and study its integrable Trotterized evolution as a function of $\tau$. Due to its exact local conservation laws, the system does not heat up to infinite temperature and the late-time properties of the dynamics are captured by a discrete Generalized Gibbs Ensemble (dGGE). By means of exact calculations we find that, for small $\tau$, the dGGE depends analytically on the Trotter step, implying that discretization errors remain bounded even at infinite times. Conversely, the dGGE changes abruptly at a threshold value $\tau_{\rm th}$, signaling a novel type of Trotter transition. We show that the latter can be detected locally, as it is associated with the appearance of a non-zero staggered magnetization with a subtle dependence on $\tau$. We highlight the differences between continuous and discrete GGEs, suggesting the latter as novel interesting nonequilibrium states exclusive to digital platforms.
翻訳日:2023-06-28 00:09:01 公開日:2023-06-24
# 複雑なネットワークの量子シミュレーションについて

On the quantum simulation of complex networks ( http://arxiv.org/abs/2212.06126v3 )

ライセンス: Link先を確認
Duarte Magano and Jo\~ao Moutinho and Bruno Coutinho(参考訳) 量子ウォークは、量子コンピュータでグラフ問題にアプローチするための自然なフレームワークを提供し、マークされたノードの探索や欠落したリンクの予測といったタスクに対して、従来のものよりもスピードアップを示す。 連続時間量子ウォークアルゴリズムは、ハミルトニアンがグラフの隣接行列によって与えられる量子システムのダイナミクスをシミュレートできると仮定する。 グラフが行スパースで効率よく行計算可能であれば、これを効率的にシミュレートできることが知られている。 これは多くのアプリケーションに十分であるが、このタイプのアルゴリズムが実世界の複雑なネットワークを研究するための適用性を制限する。 言い換えれば、複雑なネットワークは通常、すべてのノード間の平均接続が非常に小さいとしても、行スパースではない。 本研究では、量子シミュレーションの最先端結果を、少数のハブを含むグラフに拡張するが、それ以外はスパースである。 私たちの結果は、量子コンピューティングのネットワーク科学への新しい応用に繋がるかもしれません。

Quantum walks provide a natural framework to approach graph problems with quantum computers, exhibiting speedups over their classical counterparts for tasks such as the search for marked nodes or the prediction of missing links. Continuous-time quantum walk algorithms assume that we can simulate the dynamics of quantum systems where the Hamiltonian is given by the adjacency matrix of the graph. It is known that such can be simulated efficiently if the underlying graph is row-sparse and efficiently row-computable. While this is sufficient for many applications, it limits the applicability for this class of algorithms to study real world complex networks, which, among other properties, are characterized by the existence of a few densely connected nodes, called hubs. In other words, complex networks are typically not row-sparse, even though the average connectivity over all nodes can be very small. In this work, we extend the state-of-the-art results on quantum simulation to graphs that contain a small number of hubs, but that are otherwise sparse. Hopefully, our results may lead to new applications of quantum computing to network science.
翻訳日:2023-06-28 00:08:26 公開日:2023-06-24
# モデルアクセスのない局所モデル記述の不確実性定量化

Uncertainty Quantification for Local Model Explanations Without Model Access ( http://arxiv.org/abs/2301.05761v3 )

ライセンス: Link先を確認
Surin Ahn, Justin Grana, Yafet Tamene, Kristian Holsheimer(参考訳) 本稿では,モデル自体に直接アクセスするのではなく,モデルからの入力と出力の静的サンプルが利用可能である場合にのみ,機械学習モデルに対する時間後説明と不確実区間を生成するモデル非依存アルゴリズムを提案する。 この状況は、モデル評価が高価である場合、プライバシ、セキュリティ、帯域幅の制約が課される場合、あるいはリアルタイムでオンデバイスな説明が必要な場合などである。 本アルゴリズムは,モデルクエリの有限サンプルから説明を生成する際に必然的に生じる不確実性を定量化するブートストラップ手法を用いる。 シミュレーション実験により,提案アルゴリズムが生成した不確かさ区間は,古典回帰分析から得られた内在的信頼区間と,説明の不確かさを定量化するための現在のベイズ的アプローチとのトレードオフが良好であることを示す。 3つの実世界のデータセットでトレーニングされたディープニューラルネットワークを含むブラックボックスモデルに適用することで、この手法の能力をさらに実証する。

We present a model-agnostic algorithm for generating post-hoc explanations and uncertainty intervals for a machine learning model when only a static sample of inputs and outputs from the model is available, rather than direct access to the model itself. This situation may arise when model evaluations are expensive; when privacy, security and bandwidth constraints are imposed; or when there is a need for real-time, on-device explanations. Our algorithm uses a bootstrapping approach to quantify the uncertainty that inevitably arises when generating explanations from a finite sample of model queries. Through a simulation study, we show that the uncertainty intervals generated by our algorithm exhibit a favorable trade-off between interval width and coverage probability compared to the naive confidence intervals from classical regression analysis as well as current Bayesian approaches for quantifying explanation uncertainty. We further demonstrate the capabilities of our method by applying it to black-box models, including a deep neural network, trained on three real-world datasets.
翻訳日:2023-06-27 23:59:35 公開日:2023-06-24
# 新しい「スパースランド」で学んだ10の教訓:スパースニューラルネットワーク研究者のための短いハンドブック

Ten Lessons We Have Learned in the New "Sparseland": A Short Handbook for Sparse Neural Network Researchers ( http://arxiv.org/abs/2302.02596v3 )

ライセンス: Link先を確認
Shiwei Liu and Zhangyang Wang(参考訳) 本稿では,新しいアルゴリズムや新しいハードウェアの提案はしない。 その代わり、SNN(Sparse Neural Network)研究コミュニティがますます繁栄する中で、"共通善(common good)"を提供することを目指している。 私たちはSNNでよく見られる混乱を要約しようと試みており、論文レビューや論評、講演など様々なシナリオで遭遇する可能性がある。 SNNリサーチの焦点は、従来型プルーニングから、トレーニング前、中、および後、より多様性があり、より深遠な形へとシフトしていることから、そうすることは有意義でタイムリーであると感じています。 彼らのスコープ、仮定、アプローチの間の複雑な関係は、非専門家やSNNの専門家にとって誤解を招く。 これに反応して、snsのsnsの10つのq\&aを要約し、例えば、sparse vs. sparse、非構造化sparse vs. structured sparse、pruning vs. sparse training、sparse-to-sparse training vs. sparse-to-sparse training、static sparsity vs. dynamic sparsity、pretraining/during-training vs. post-training sparsityなどについてまとめた。 我々は,これらの混乱を可能な限り明確化するために,適切かつ汎用的な回答を提供することに努める。 私たちの要約は、このエキサイティングなコミュニティに入り込みたい人々のために有用な一般的な知識を提供し、また、sn研究者が正しい文脈で自分の仕事を説明するための"簡単な考え方"を提供することを期待しています。 少なくとも(おそらくこの記事の最も重要でないターゲット機能として)、SNNの分野で論文を書いたり、あるいは論評を書いたりする場合、私たちの回答が役に立つことを願っています!

This article does not propose any novel algorithm or new hardware for sparsity. Instead, it aims to serve the "common good" for the increasingly prosperous Sparse Neural Network (SNN) research community. We attempt to summarize some most common confusions in SNNs, that one may come across in various scenarios such as paper review/rebuttal and talks - many drawn from the authors' own bittersweet experiences! We feel that doing so is meaningful and timely, since the focus of SNN research is notably shifting from traditional pruning to more diverse and profound forms of sparsity before, during, and after training. The intricate relationships between their scopes, assumptions, and approaches lead to misunderstandings, for non-experts or even experts in SNNs. In response, we summarize ten Q\&As of SNNs from many key aspects, including dense vs. sparse, unstructured sparse vs. structured sparse, pruning vs. sparse training, dense-to-sparse training vs. sparse-to-sparse training, static sparsity vs. dynamic sparsity, before-training/during-training vs. post-training sparsity, and many more. We strive to provide proper and generically applicable answers to clarify those confusions to the best extent possible. We hope our summary provides useful general knowledge for people who want to enter and engage with this exciting community; and also provides some "mind of ease" convenience for SNN researchers to explain their work in the right contexts. At the very least (and perhaps as this article's most insignificant target functionality), if you are writing/planning to write a paper or rebuttal in the field of SNNs, we hope some of our answers could help you!
翻訳日:2023-06-27 23:51:13 公開日:2023-06-24
# データから制御指向動的構造を学習する

Learning Control-Oriented Dynamical Structure from Data ( http://arxiv.org/abs/2302.02529v2 )

ライセンス: Link先を確認
Spencer M. Richards, Jean-Jacques Slotine, Navid Azizan, Marco Pavone(参考訳) 既知の非線形力学系においても、フィードバックコントローラ合成は難しい問題であり、安定な閉ループ系を誘導するために動的系の特定の構造を利用する必要がある。 データに適合するものを含む一般的な非線形モデルでは、安定化したフィードバックコントローラを確実に合成するのに十分な既知の構造が存在しない可能性がある。 本稿では,一般非線形制御アフィン系に対する状態依存リッカティ方程式に基づく状態依存非線形追従制御系の定式化について述べる。 この定式化は、緩やかな滑らかさの仮定の下で常に存在する制御-アフィン力学を定義するベクトル場の系の非線形分解に依存する。 本稿では,この因子分解を有限個のデータから学習する手法を提案する。 様々な非線形力学系において、安定軌道追跡における学習された制御系の有効性を実証的に示す。 学習方法とともに,制御器と安定化性証明を協調的に学習する最近の考え方を評価し,このような手法を比較検討して検討した。

Even for known nonlinear dynamical systems, feedback controller synthesis is a difficult problem that often requires leveraging the particular structure of the dynamics to induce a stable closed-loop system. For general nonlinear models, including those fit to data, there may not be enough known structure to reliably synthesize a stabilizing feedback controller. In this paper, we discuss a state-dependent nonlinear tracking controller formulation based on a state-dependent Riccati equation for general nonlinear control-affine systems. This formulation depends on a nonlinear factorization of the system of vector fields defining the control-affine dynamics, which always exists under mild smoothness assumptions. We propose a method for learning this factorization from a finite set of data. On a variety of simulated nonlinear dynamical systems, we empirically demonstrate the efficacy of learned versions of this controller in stable trajectory tracking. Alongside our learning method, we evaluate recent ideas in jointly learning a controller and stabilizability certificate for known dynamical systems; we show experimentally that such methods can be frail in comparison.
翻訳日:2023-06-27 23:50:37 公開日:2023-06-24
# Bandit Convex Optimisation Revisited: FTRL Achieves $\tilde{O}(t^{1/2})$ Regret

Bandit Convex Optimisation Revisited: FTRL Achieves $\tilde{O}(t^{1/2})$ Regret ( http://arxiv.org/abs/2302.00358v2 )

ライセンス: Link先を確認
David Young, Douglas Leith, George Iosifidis(参考訳) 本稿では,複数の関数評価を用いたカーネル推定器を標本ベース帯域推定器に容易に変換可能であることを示す。 このようなバンドイット推定器を標準的なftrlアルゴリズムに差し込むと、逆時変凸損失関数に対して$\tilde{o}(t^{1/2})$ regret を達成するバンドイット凸最適化アルゴリズムが得られる。

We show that a kernel estimator using multiple function evaluations can be easily converted into a sampling-based bandit estimator with expectation equal to the original kernel estimate. Plugging such a bandit estimator into the standard FTRL algorithm yields a bandit convex optimisation algorithm that achieves $\tilde{O}(t^{1/2})$ regret against adversarial time-varying convex loss functions.
翻訳日:2023-06-27 23:49:25 公開日:2023-06-24
# 分離と拡散:ソース分離を改善するための事前学習拡散モデル

Separate And Diffuse: Using a Pretrained Diffusion Model for Improving Source Separation ( http://arxiv.org/abs/2301.10752v2 )

ライセンス: Link先を確認
Shahar Lutati and Eliya Nachmani and Lior Wolf(参考訳) カクテルパーティー問題(カクテルパーティー問題、英: cocktail party problem)は、音声信号の混合から1つの音声信号を分離する課題である。 ソース分離に関する以前の研究は、人間の発話領域におけるソース分離タスクの上限を導いた。 この境界は決定論的モデルのために導かれる。 生成モデルの最近の進歩はこの限界に挑戦している。 本稿では、上界がランダム生成モデルの場合にどのように一般化できるかを示す。 定性分離モデルの出力に単一話者音声をモデル化するために事前訓練された拡散モデルVocoderを適用すると、最先端の分離結果が得られる。 これは分離モデルの出力と拡散モデルの出力を組み合わせる必要があることを示している。 本手法では,学習モデルによって推定される重みを用いて,周波数領域において線形結合を行う。 複数のベンチマークで2, 3, 5, 10, 20人の話者に最新の結果を示す。 特に2つの話者に対して,提案手法は従来上層性能境界と考えられていたものを上回ることができる。

The problem of speech separation, also known as the cocktail party problem, refers to the task of isolating a single speech signal from a mixture of speech signals. Previous work on source separation derived an upper bound for the source separation task in the domain of human speech. This bound is derived for deterministic models. Recent advancements in generative models challenge this bound. We show how the upper bound can be generalized to the case of random generative models. Applying a diffusion model Vocoder that was pretrained to model single-speaker voices on the output of a deterministic separation model leads to state-of-the-art separation results. It is shown that this requires one to combine the output of the separation model with that of the diffusion model. In our method, a linear combination is performed, in the frequency domain, using weights that are inferred by a learned model. We show state-of-the-art results on 2, 3, 5, 10, and 20 speakers on multiple benchmarks. In particular, for two speakers, our method is able to surpass what was previously considered the upper performance bound.
翻訳日:2023-06-27 23:48:07 公開日:2023-06-24
# ソースフリードメイン適応のための一般化可能な手法の探索

In Search for a Generalizable Method for Source Free Domain Adaptation ( http://arxiv.org/abs/2302.06658v2 )

ライセンス: Link先を確認
Malik Boudiaf, Tom Denton, Bart van Merri\"enboer, Vincent Dumoulin, Eleni Triantafillou(参考訳) ソースフリードメイン適応(SFDA)は、非ラベルデータのみを使用して、オフザシェルフモデルを新しいドメインに適応できるため、魅力的である。 本研究は,既存のsfda手法を,コンピュータビジョンで一般的に研究されているものとは大きく異なる生体音響学における自然に発生する分布シフトの集合に適用するものである。 既存の手法は、視力ベンチマークで観察されたものと異なる相対性を示し、時には適応が全くないよりも悪い場合もあります。 提案手法は,様々な視覚データセットにおいて強力な性能を発揮しつつ,既存の手法を新しいシフトで上回る新しい簡易な手法を提案する。 以上の結果から,既存のSFDA法は従来考えられていたほど一般化不可能であり,多様なモダリティを考慮すれば,より堅牢なモデルの設計に有用であることが示唆された。

Source-free domain adaptation (SFDA) is compelling because it allows adapting an off-the-shelf model to a new domain using only unlabelled data. In this work, we apply existing SFDA techniques to a challenging set of naturally-occurring distribution shifts in bioacoustics, which are very different from the ones commonly studied in computer vision. We find existing methods perform differently relative to each other than observed in vision benchmarks, and sometimes perform worse than no adaptation at all. We propose a new simple method which outperforms the existing methods on our new shifts while exhibiting strong performance on a range of vision datasets. Our findings suggest that existing SFDA methods are not as generalizable as previously thought and that considering diverse modalities can be a useful avenue for designing more robust models.
翻訳日:2023-06-27 23:38:47 公開日:2023-06-24
# 近接量子デバイスにおけるWigner状態とプロセストモグラフィ

Wigner State and Process Tomography on Near-Term Quantum Devices ( http://arxiv.org/abs/2302.12725v2 )

ライセンス: Link先を確認
Amit Devra, Niklas J. Glaser, Dennis Huber, Steffen J. Glaser(参考訳) 短期量子デバイスに対する走査型トモグラフィーの実験的アプローチを提案する。 量子状態と演算子のウィグナー型表現に基づいている。 これらの表現は、球面高調波の線形結合から組み立てられた形状を用いて量子作用素のリッチな可視化を提供する。 これらの形状(後述の滴と呼ばれる)は回転軸テンソル作用素の期待値を測定することで実験的にトモグラフィすることができる。 本研究では、任意の状態のウィグナートモグラフィ理論と、汎用純粋状態量子コンピュータの場合の既知のユニタリ過程のウィグナートモグラフィーを再構成する。 本稿では,回路ベースの量子コンピュータのための走査型トモグラフィー技術の実装のための実験フレームワークについて述べる。 また,実験的なトモグラフ付きウィグナー関数(ドロップレット)から密度とプロセス行列を推定する手法を提案する。 このトモグラフィーアプローチはpythonベースのソフトウェアパッケージである$\texttt{dropstomo}$を使って直接実装できる。

We present an experimental scanning-based tomography approach for near-term quantum devices. It is based on a Wigner-type representation of quantum states and operators. These representations provide a rich visualization of quantum operators using shapes assembled from a linear combination of spherical harmonics. These shapes (called droplets in the following) can be experimentally tomographed by measuring the expectation values of rotated axial tensor operators. This study provides a reformulation of the theory of Wigner tomography of arbitrary states and Wigner tomography of known unitary processes for the case of a general-purpose pure-state quantum computer. We present an experimental framework for implementing the scanning-based tomography technique for circuit-based quantum computers and showcase results from IBM quantum experience. We also present a method for estimating the density and process matrices from experimentally tomographed Wigner functions (droplets). This tomography approach can be directly implemented using the Python-based software package $\texttt{DROPStomo}$.
翻訳日:2023-06-27 23:28:24 公開日:2023-06-24
# ChatDoctor:医療ドメイン知識を用いた大規模言語モデルメタAI(LLaMA)を微調整した医療チャットモデル

ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge ( http://arxiv.org/abs/2303.14070v5 )

ライセンス: Link先を確認
Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, Steve Jiang, You Zhang(参考訳) 本研究の主な目的は、医学的アドバイスの正確性を高めた特殊言語モデルを作成することにより、ChatGPTのような一般的な大規模言語モデル(LLM)の医学的知識の限界に対処することであった。 我々は、広く使われているオンライン医療相談プラットフォームから得られた10万の患者と医師の対話の大規模なデータセットを用いて、大規模言語モデルメタAI(LLaMA)を適応し、精製することで、これを達成した。 これらの会話は、プライバシーの懸念を尊重するためにクリーン化され匿名化された。 モデル改良に加えて,Wikipediaなどのオンラインソースやオフライン医療データベースのデータからリアルタイム情報にアクセス・活用するための,自己指示型情報検索機構を組み込んだ。 実際の患者と医師の相互作用によるモデルの微調整により、患者のニーズを理解し、アドバイスを提供する能力は大幅に向上した。 信頼できるオンラインおよびオフラインソースからの自己指向情報検索をモデルに組み込むことで,応答の精度が大幅に向上することを確認した。 提案したChatDoctorは,患者の質問に対する理解と正確なアドバイスを提供することで,医療用LDMの大幅な進歩を示す。 医療分野における高い利害と低いエラー耐性を考えると、正確で信頼性の高い情報を提供することの強化は有益であるだけでなく、不可欠である。

The primary aim of this research was to address the limitations observed in the medical knowledge of prevalent large language models (LLMs) such as ChatGPT, by creating a specialized language model with enhanced accuracy in medical advice. We achieved this by adapting and refining the large language model meta-AI (LLaMA) using a large dataset of 100,000 patient-doctor dialogues sourced from a widely used online medical consultation platform. These conversations were cleaned and anonymized to respect privacy concerns. In addition to the model refinement, we incorporated a self-directed information retrieval mechanism, allowing the model to access and utilize real-time information from online sources like Wikipedia and data from curated offline medical databases. The fine-tuning of the model with real-world patient-doctor interactions significantly improved the model's ability to understand patient needs and provide informed advice. By equipping the model with self-directed information retrieval from reliable online and offline sources, we observed substantial improvements in the accuracy of its responses. Our proposed ChatDoctor, represents a significant advancement in medical LLMs, demonstrating a significant improvement in understanding patient inquiries and providing accurate advice. Given the high stakes and low error tolerance in the medical field, such enhancements in providing accurate and reliable information are not only beneficial but essential.
翻訳日:2023-06-27 23:20:32 公開日:2023-06-24
# 平均場ベラブキンフィルタリング方程式について

On the mean-field Belavkin filtering equation ( http://arxiv.org/abs/2303.09667v2 )

ライセンス: Link先を確認
Sofiane Chalal, Nina H. Amini, Gaoyue Guo(参考訳) コロコルツォフの研究 [1] に続いて、量子フレームワークにおける平均場制御理論の拡張を示す。 特にそのような拡張は、平均場設定におけるベラブキン量子フィルタリングと制御理論を考慮し自然に行われる。 この設定では、力学はマッキーン・ヴラソフ型の制御されたベラブキン方程式によって記述される。 このような方程式の適切性は,不完全な測定記録のもとで証明する。 さらに, 完全測定のためのカオスの伝播を浄化仮定として示す。 最後に, 平均場ベラブキン方程式のシミュレーションに粒子法を適用し, 平均場ベラブキン方程式の安定化を, 目標状態に対するフィードバック制御戦略により示す数値シミュレーションを行った。

Following Kolokoltsov's work [1], we present an extension of mean-field control theory in quantum framework. In particular such an extension is done naturally by considering the Belavkin quantum filtering and control theory in a mean-field setting. In this setting, the dynamics is described by a controlled Belavkin equation of McKean-Vlasov type. We prove the well-posedness of such an equation under imperfect measurement records. Furthermore, we show under purification assumption the propagation of chaos for perfect measurements. Finally, we apply particle methods to simulate the mean-field Belavkin equation and we provide numerical simulations showing the stabilization of the mean-field Belavkin equation by a feedback control strategy towards a chosen target state.
翻訳日:2023-06-27 23:17:59 公開日:2023-06-24
# 低光度画像強調のための雑音拡散後処理

Denoising Diffusion Post-Processing for Low-Light Image Enhancement ( http://arxiv.org/abs/2303.09627v2 )

ライセンス: Link先を確認
Savvas Panagiotou and Anna S. Bosman(参考訳) 低照度画像強調(LLIE)技術は、低照度シナリオで撮影された画像の可視性を高める。 しかし、強調した結果、ノイズや色偏差などの様々な画像劣化が明らかになった。 さらに、それぞれのLLIEアプローチは、強化された結果に異なる形の欠陥をもたらす可能性がある。 これらの画像劣化に対処するために、ポストプロセッシング・デノイザーが広く使われており、しばしば詳細を欠いた過剰な結果をもたらす。 本稿では,後処理として拡散モデルを用いることを提案し,低露光後拡散モデル(lpdm)を導入し,未露光画像と通常露光画像の条件分布をモデル化する。 本稿では,典型的な拡散モデルにおける計算コストのかかる生成逆過程を回避し,LPDMを経由した後処理画像に適用する。 広汎な実験により,様々な挑戦的な低照度データセット上での低照度画像の知覚的品質を高めることにより,提案手法は競合するポストプロセッシング・デノイザよりも優れていることが示された。 ソースコードはhttps://github.com/savvaki/LPDMで入手できる。

Low-light image enhancement (LLIE) techniques attempt to increase the visibility of images captured in low-light scenarios. However, as a result of enhancement, a variety of image degradations such as noise and color bias are revealed. Furthermore, each particular LLIE approach may introduce a different form of flaw within its enhanced results. To combat these image degradations, post-processing denoisers have widely been used, which often yield oversmoothed results lacking detail. We propose using a diffusion model as a post-processing approach, and we introduce Low-light Post-processing Diffusion Model (LPDM) in order to model the conditional distribution between under-exposed and normally-exposed images. We apply LPDM in a manner which avoids the computationally expensive generative reverse process of typical diffusion models, and post-process images in one pass through LPDM. Extensive experiments demonstrate that our approach outperforms competing post-processing denoisers by increasing the perceptual quality of enhanced low-light images on a variety of challenging low-light datasets. Source code is available at https://github.com/savvaki/LPDM.
翻訳日:2023-06-27 23:17:47 公開日:2023-06-24
# モジュラリニアライズメントによる自己回帰的nlpタスクの改善

Improving Autoregressive NLP Tasks via Modular Linearized Attention ( http://arxiv.org/abs/2304.08453v3 )

ライセンス: Link先を確認
Victor Agostinelli, Lizhong Chen(参考訳) 様々な自然言語処理(NLP)タスクは、エッジや他のリソース制約のある環境における究極の応用に基づいて、効率的で小さなモデルを必要とする。 先行研究はこれらのモデルのサイズを縮小したが、特に自己回帰的なタスクでは、かなりのパフォーマンスへの影響を伴わない計算効率の向上は困難である。 本稿では,cosFormerを含む複数の効率的な注意機構を組み合わせたモジュール型線形化注意(MLA)を提案する。 本手法は,音声からテキストへのニューラルマシン翻訳(S2T NMT),音声からテキストへの同時翻訳(SimulST),自動回帰テキスト・トゥ・スペクトログラムなどの自己回帰NLPタスクにおいて,TTSの効率向上と,トレーニングおよび推論中のNMTとSimulSTの競合性能を示す。

Various natural language processing (NLP) tasks necessitate models that are efficient and small based on their ultimate application at the edge or in other resource-constrained environments. While prior research has reduced the size of these models, increasing computational efficiency without considerable performance impacts remains difficult, especially for autoregressive tasks. This paper proposes modular linearized attention (MLA), which combines multiple efficient attention mechanisms, including cosFormer, to maximize inference quality while achieving notable speedups. We validate this approach on several autoregressive NLP tasks, including speech-to-text neural machine translation (S2T NMT), speech-to-text simultaneous translation (SimulST), and autoregressive text-to-spectrogram, noting efficiency gains on TTS and competitive performance for NMT and SimulST during training and inference.
翻訳日:2023-06-27 23:12:08 公開日:2023-06-24
# $N$-Sum Box: 複数対1量子ネットワーク上の線形計算の抽象化

$N$-Sum Box: An Abstraction for Linear Computation over Many-to-one Quantum Networks ( http://arxiv.org/abs/2304.07561v2 )

ライセンス: Link先を確認
Matteo Allaix, Yuxiang Lu, Yuhang Yao, Tefjol Pllaha, Camilla Hollanti, Syed Jafar(参考訳) 量子多対一通信ネットワーク上の線形計算は、送信機間の量子絡み合いを利用した通信コスト改善の機会を提供し、干渉アライメントなどの古典的手法と組み合わせて、スーパーデンス符号化を達成する。 この問題は、古典的ブラックボックスモデルによって基礎となる量子機能に対して適切な抽象化が見つかると、より広くアクセスできるようになる。 この研究は、Song \emph{et al の 2-sum プロトコルのブラックボックス一般化である "$N$-sum box" という形でそのような抽象化を形式化する。 最近のアプリケーションで$N$サーバのプライベート情報検索を行う。 n$-sum ボックスは、n$ qudits の通信コストと、n$ 送信機に分配される2n$ の古典入力に対して、(n \times 2n$ 転送マトリックスを介して)直線的に依存する$n$-ary 桁のベクトルの古典出力を持つ。 我々は、送信機と受信機で局所可逆な古典演算を付加する可能性なしに、どの転送行列が我々の構成によって実現可能であるかを特徴付ける。 さらに,quantum private information retrieval (qpir) とquantum secure distributed batch matrix multiplication (qsdbmm) の効率的なインスタンスを得るために,クロスサブスペースアライメント (csa) スキームに対するサンプルアプリケーションを提案する。 まず、最大安定化器に基づく$n$-sum ボックスについて記述し、次に量子対称プライベート情報検索の例を得るために、非最大安定化器に基づく構成を考える。

Linear computations over quantum many-to-one communication networks offer opportunities for communication cost improvements through schemes that exploit quantum entanglement among transmitters to achieve superdense coding gains, combined with classical techniques such as interference alignment. The problem becomes much more broadly accessible if suitable abstractions can be found for the underlying quantum functionality via classical black box models. This work formalizes such an abstraction in the form of an "$N$-sum box", a black box generalization of a two-sum protocol of Song \emph{et al.} with recent applications to $N$-server private information retrieval. The $N$-sum box has a communication cost of $N$ qudits and classical output of a vector of $N$ $q$-ary digits linearly dependent (via an $N \times 2N$ transfer matrix) on $2N$ classical inputs distributed among $N$ transmitters. We characterize which transfer matrices are feasible by our construction, both with and without the possibility of additional locally invertible classical operations at the transmitters and receivers. Furthermore, we provide a sample application to Cross-Subspace Alignment (CSA) schemes to obtain efficient instances of Quantum Private Information Retrieval (QPIR) and Quantum Secure Distributed Batch Matrix Multiplication (QSDBMM). We first describe $N$-sum boxes based on maximal stabilizers and we then consider non-maximal-stabilizer-based constructions to obtain an instance of Quantum Symmetric Private Information Retrieval.
翻訳日:2023-06-27 23:11:48 公開日:2023-06-24
# モデルのスパーシフィケーションは機械学習を単純化する

Model Sparsification Can Simplify Machine Unlearning ( http://arxiv.org/abs/2304.04934v6 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制要件に応えて、マシンアンラーニング(MU)は、特定のモデルから特定のサンプルの影響を取り除く重要なプロセスとして登場した。 正確なアンラーニングは、残りのデータセットを使った完全なモデルのリトレーニングによって達成できるが、関連する計算コストは、効率的で近似的なアンラーニング技術の開発につながった。 我々の研究は、データ中心のMUアプローチを超えて、新しいモデルベース視点、すなわちウェイトプルーニングによるモデルスペーシフィケーションを導入し、正確なアンラーニングと近似アンラーニングのギャップを減らすことができる。 モデルスパーシリティは、近似的アンラーナーのマルチ基準アンラーニング性能を高め、近似ギャップを閉じながら効率を保ち続けることを理論と実践の両方で示している。 これは新しいMUパラダイムにつながり、まずはPrune、次にはUnlearnと呼ばれ、未学習のプロセスにスパースモデルを注入する。 この知見に基づいて,スパルシティ正規化を利用したスパルシリティ対応学習手法を開発し,近似学習の学習プロセスを強化する。 広範な実験により、我々の提案は様々な未学習シナリオにおいて一貫してmに利益をもたらすことが示された。 77%の未学習の有効性向上(最も単純な未学習手法の1つ)が、スパーシティーを意識した未学習の使用において注目されている。 さらに,バックドア攻撃に対する防御や移動学習の強化など,機械学習の他の課題に対処する上で,提案手法の実践的影響を示す。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

In response to recent data regulation requirements, machine unlearning (MU) has emerged as a critical process to remove the influence of specific examples from a given model. Although exact unlearning can be achieved through complete model retraining using the remaining dataset, the associated computational costs have driven the development of efficient, approximate unlearning techniques. Moving beyond data-centric MU approaches, our study introduces a novel model-based perspective: model sparsification via weight pruning, which is capable of reducing the gap between exact unlearning and approximate unlearning. We show in both theory and practice that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. This leads to a new MU paradigm, termed prune first, then unlearn, which infuses a sparse model prior into the unlearning process. Building on this insight, we also develop a sparsity-aware unlearning method that utilizes sparsity regularization to enhance the training process of approximate unlearning. Extensive experiments show that our proposals consistently benefit MU in various unlearning scenarios. A notable highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest unlearning methods) when using sparsity-aware unlearning. Furthermore, we demonstrate the practical impact of our proposed MU methods in addressing other machine learning challenges, such as defending against backdoor attacks and enhancing transfer learning. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-06-27 23:09:59 公開日:2023-06-24
# lsgddn-lcd:ローカルスーパーピクセルグリッドディスクリプタとインクリメンタル動的ノードを用いたルックスベースのループクロージャ検出

LSGDDN-LCD: An Appearance-based Loop Closure Detection using Local Superpixel Grid Descriptors and Incremental Dynamic Nodes ( http://arxiv.org/abs/2304.03872v2 )

ライセンス: Link先を確認
Baosheng Zhang(参考訳) ループクロージャ検出(LCD)は、視覚的同時ローカライゼーションとマッピング(SLAM)システムにおいて欠かせない要素である。 これにより、以前訪れたシーンを認識でき、長期の探検から生じるポーズや地図の推定ドリフトを排除できる。 しかし、現在の外観に基づくLCD法は、高い計算コスト、視点分散、シーン内の動的オブジェクトなど、重大な課題に直面している。 本稿では,ローカル・スーパーピクセル・グリッドディスクリプタと動的ノード,すなわちlsgddn-lcdを用いて,lsgdから抽出した手作り特徴からシーン間の類似性を見出すオンライン表示型lcdについて紹介する。 事前トレーニングを必要とする従来のBag-of-Words (BoW) ベースのLCDとは異なり、我々は、事前トレーニングを必要とせずにデータベースをオンライン的に漸進的に調整する、$\textbf{\textit{dynamic}}$\textbf{\textit{node}}$と呼ばれる類似の画像をグループ化する適応メカニズムを提案した。 実験の結果、LSGDDN-LCDはLCDの精度と効率を著しく向上し、複数の典型的なデータセットに対するSOTA(State-of-the-art)アプローチよりも優れており、汎用LCDフレームワークとしての可能性を示している。

Loop Closure Detection (LCD) is an essential component of visual simultaneous localization and mapping (SLAM) systems. It enables the recognition of previously visited scenes to eliminate pose and map estimate drifts arising from long-term exploration. However, current appearance-based LCD methods face significant challenges, including high computational costs, viewpoint variance, and dynamic objects in scenes. This paper introduced an online appearance based LCD using local superpixel grids descriptor and dynamic node, i.e, LSGDDN-LCD, to find similarities between scenes via hand-crafted features extracted from LSGD. Unlike traditional Bag-of-Words (BoW) based LCD, which requires pre-training, we proposed an adaptive mechanism to group similar images called $\textbf{\textit{dynamic}}$ $\textbf{\textit{node}}$, which incrementally adjusted the database in an online manner, allowing for efficient and online retrieval of previously viewed images without need of the pre-training. Experimental results confirmed that the LSGDDN-LCD significantly improved LCD precision-recall and efficiency, and outperformed several state-of-the-art (SOTA) approaches on multiple typical datasets, indicating its great potential as a generic LCD framework.
翻訳日:2023-06-27 23:09:32 公開日:2023-06-24
# Prompt-Tuning を用いた会話課題の言語間移動学習の効率化

Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning ( http://arxiv.org/abs/2304.01295v2 )

ライセンス: Link先を確認
Lifu Tu, Jin Qu, Semih Yavuz, Shafiq Joty, Wenhao Liu, Caiming Xiong, Yingbo Zhou(参考訳) 英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクで広く研究されているが、会話タスクに焦点が当てられているのは比較的限られている。 これは、非英語の会話データを取得するコストが高いためであり、カバー範囲は限られている。 本稿では、英語のみのスキーマガイド対話(SGD)データセット(Rastogi et al., 2020)を105言語に翻訳することで、並列かつ大規模多言語会話データセットであるXSGDを紹介する。 xsgdは言語毎に約330k発話を含む。 そこで我々は,アライメントプロンプトを学習する効率的なプロンプトチューニング手法を開発した。 また、NLIベースとバニラ分類器の2つの異なる分類器と、アライメントされたプロンプトによって可能となる言語間のテスト機能についても検討する。 我々は,2つの会話タスク(スロットフィルングとインテント分類)における言語横断的一般化能力を評価する。 提案手法は,NLIに基づく分類器のモデリング能力の強化と,アライメントプロンプトによる言語間移動の大幅な改善,特に数ショット設定において実現された。 また,テキストダヴィンチ003 や ChatGPT などの LLM と比較して,ゼロショット設定と少数ショット設定の両方で,アプローチの優れた結果を強調した。 LLMは英語で印象的な性能を示すが、他の言語、特に低リソース言語における言語間の能力は限られている。

Cross-lingual transfer of language models trained on high-resource languages like English has been widely studied for many NLP tasks, but focus on conversational tasks has been rather limited. This is partly due to the high cost of obtaining non-English conversational data, which results in limited coverage. In this work, we introduce XSGD, a parallel and large-scale multilingual conversation dataset that we created by translating the English-only Schema-Guided Dialogue (SGD) dataset (Rastogi et al., 2020) into 105 other languages. XSGD contains approximately 330k utterances per language. To facilitate aligned cross-lingual representations, we develop an efficient prompt-tuning-based method for learning alignment prompts. We also investigate two different classifiers: NLI-based and vanilla classifiers, and test cross-lingual capability enabled by the aligned prompts. We evaluate our model's cross-lingual generalization capabilities on two conversation tasks: slot-filling and intent classification. Our results demonstrate the strong and efficient modeling ability of NLI-based classifiers and the large cross-lingual transfer improvements achieved by our aligned prompts, particularly in few-shot settings. In addition, we highlight the nice results of our approach compared to LLMs such as text-davinci-003 and ChatGPT in both zero-shot and few-shot settings. While LLMs exhibit impressive performance in English, their cross-lingual capabilities in other languages, particularly low-resource languages, are limited.
翻訳日:2023-06-27 23:09:03 公開日:2023-06-24
# torchbench: api表面カバレッジの高いpytorchのベンチマーク

TorchBench: Benchmarking PyTorch with High API Surface Coverage ( http://arxiv.org/abs/2304.14226v3 )

ライセンス: Link先を確認
Yueming Hao, Xu Zhao, Bin Bao, David Berard, Will Constable, Adnan Aziz, Xu Liu(参考訳) ディープラーニング(DL)は、様々な領域において革命的な技術である。 モデルの開発とデプロイを容易にするために、pytorchが最も人気のあるソリューションの1つであるディープラーニングフレームワークが数多く提案されている。 PyTorch周辺のエコシステムのパフォーマンスは極めて重要であり、トレーニングモデルのコストを削減し、モデル推論のレスポンス時間を削減する。 本稿では,pytorchソフトウェアスタックの性能を研究するためのベンチマークスイートであるtorchbenchを提案する。 既存のベンチマークスイートとは異なり、torchbenchは多くの代表的なモデルを包含し、大きなpytorch apiサーフェスをカバーする。 TorchBenchは、PyTorchソフトウェアスタックのパフォーマンスを包括的に特徴付け、モデル、PyTorchフレームワーク、GPUライブラリのパフォーマンス最適化を導くことができる。 TorchBenchの実用例は2つある。 1) PyTorchにおけるGPU性能の非効率性を特定するためにTorchBenchをプロファイルした。 多くのパフォーマンスバグとアップストリームパッチを公式のPyTorchリポジトリに最適化することができます。 2) TorchBenchをPyTorch継続的インテグレーションシステムに統合する。 PyTorchレポジトリがパフォーマンスのバグを発生させないよう、毎日のコードチェックインでパフォーマンスのレグレッションを特定できます。 TorchBenchはオープンソースで、進化を続けている。

Deep learning (DL) has been a revolutionary technique in various domains. To facilitate the model development and deployment, many deep learning frameworks are proposed, among which PyTorch is one of the most popular solutions. The performance of ecosystem around PyTorch is critically important, which saves the costs of training models and reduces the response time of model inferences. In this paper, we propose TorchBench, a novel benchmark suite to study the performance of PyTorch software stack. Unlike existing benchmark suites, TorchBench encloses many representative models, covering a large PyTorch API surface. TorchBench is able to comprehensively characterize the performance of the PyTorch software stack, guiding the performance optimization across models, PyTorch framework, and GPU libraries. We show two practical use cases of TorchBench. (1) We profile TorchBench to identify GPU performance inefficiencies in PyTorch. We are able to optimize many performance bugs and upstream patches to the official PyTorch repository. (2) We integrate TorchBench into PyTorch continuous integration system. We are able to identify performance regression in multiple daily code checkins to prevent PyTorch repository from introducing performance bugs. TorchBench is open source and keeps evolving.
翻訳日:2023-06-27 23:00:05 公開日:2023-06-24
# R'enyi divergencesの有効性

Sufficiency of R\'enyi divergences ( http://arxiv.org/abs/2304.12989v3 )

ライセンス: Link先を確認
Niklas Galke, Lauritz van Luijk, Henrik Wilming(参考訳) 古典的あるいは量子的状態の集合が、古典的または量子的チャネルのペアが他方にセットされた場合、別のものと同値である。 ディコトミー(状態のペア)の場合、これは(古典的または量子的) R\'enyi divergences (RD) とデータ処理の不等式と密接に結びついている。 ここでは、古典的二分法について、RDs の等式だけでは、2つの方向のいずれかのチャネルの存在に十分であることを示すとともに、いくつかの応用について議論する。 最小量子RDの等式は量子の場合で十分であり、特殊の場合では証明できる。 また、ペッツ量子も最大量子RDも十分でないことを示す。 我々の手法の副作用として、古典、ペッツ量子、最大量子RDによって満たされる無限の不等式のリストを得る。 これらの不等式は最小量子rdsには当てはまらない。

A set of classical or quantum states is equivalent to another one if there exists a pair of classical or quantum channels mapping either set to the other one. For dichotomies (pairs of states) this is closely connected to (classical or quantum) R\'enyi divergences (RD) and the data-processing inequality: If a RD remains unchanged when a channel is applied to the dichotomy, then there is a recovery channel mapping the image back to the initial dichotomy. Here, we prove for classical dichotomies that equality of the RDs alone is already sufficient for the existence of a channel in any of the two directions and discuss some applications. We conjecture that equality of the minimal quantum RDs is sufficient in the quantum case and prove it for special cases. We also show that neither the Petz quantum nor the maximal quantum RDs are sufficient. As a side-result of our techniques we obtain an infinite list of inequalities fulfilled by the classical, the Petz quantum, and the maximal quantum RDs. These inequalities are not true for the minimal quantum RDs.
翻訳日:2023-06-27 22:59:46 公開日:2023-06-24
# 画素不確かさ推定による医用画像分割の一般化に向けて

Towards Generalizable Medical Image Segmentation with Pixel-wise Uncertainty Estimation ( http://arxiv.org/abs/2305.07883v3 )

ライセンス: Link先を確認
Shuai Wang, Zipei Yan, Daoan Zhang, Zhongsen Li, Sirui Wu, Wenxuan Chen, Rui Li(参考訳) ディープニューラルネットワーク(DNN)は、独立および同一分散(IID)仮説の下で視覚認識において有望な性能を達成する。 対照的に、IDD仮説は多くの現実世界、特に医用画像解析において普遍的に保証されていない。 医用画像分割は通常、各ピクセルをカテゴリに分類する画素単位の分類タスクとして定式化される。 しかし、この定式化はdnnを混乱させるため、例えば境界付近の画素など、分類が難しい画素を無視している。 本稿では,まず,分類の難しい画素が不確実性が高いことを明らかにする。 そこで本研究では,dnnの分類が難しい画素を強調するために不確実性推定を用いた新しい枠組みを提案する。 提案手法はprostateとfundusの2つのベンチマークで評価した。 実験の結果,本手法は最先端手法よりも優れていた。

Deep neural networks (DNNs) achieve promising performance in visual recognition under the independent and identically distributed (IID) hypothesis. In contrast, the IID hypothesis is not universally guaranteed in numerous real-world applications, especially in medical image analysis. Medical image segmentation is typically formulated as a pixel-wise classification task in which each pixel is classified into a category. However, this formulation ignores the hard-to-classified pixels, e.g., some pixels near the boundary area, as they usually confuse DNNs. In this paper, we first explore that hard-to-classified pixels are associated with high uncertainty. Based on this, we propose a novel framework that utilizes uncertainty estimation to highlight hard-to-classified pixels for DNNs, thereby improving its generalization. We evaluate our method on two popular benchmarks: prostate and fundus datasets. The results of the experiment demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2023-06-27 22:52:42 公開日:2023-06-24
# 2段階知識蒸留によるブラックボックスソースフリードメイン適応

Black-box Source-free Domain Adaptation via Two-stage Knowledge Distillation ( http://arxiv.org/abs/2305.07881v2 )

ライセンス: Link先を確認
Shuai Wang, Daoan Zhang, Zipei Yan, Shitong Shao, Rui Li(参考訳) ソースフリーなドメイン適応は、トレーニング済みのソースモデルとターゲットデータのみを使用して、ディープニューラルネットワークを適用することを目的としている。 しかし、ソースモデルにアクセスすると、ソースデータを漏洩する可能性があるため、患者のプライバシが明らかになる。 本稿では,ソースモデルと対象データの出力のみを利用できるブラックボックス・ソースフリー領域適応法について検討する。 簡便で効果的な二段階知識蒸留法を提案する。 uppercase\expandafter{\romannumeral1}では、ターゲットモデルをスクラッチからトレーニングし、ソースモデルによって生成されたソフトな擬似ラベルを知識蒸留法で生成する。 uppercase\expandafter{\romannumeral2}では、ノイズの多い擬似ラベルによるエラーの蓄積を避けるために、新しい学生モデルとして別のモデルを初期化する。 学生モデルの学習を指導するために,教師モデルに弱い増補を施したイメージを給付する。 提案手法は単純で柔軟であり,3つのクロスドメインセグメンテーションタスクにおいて驚くべき結果が得られる。

Source-free domain adaptation aims to adapt deep neural networks using only pre-trained source models and target data. However, accessing the source model still has a potential concern about leaking the source data, which reveals the patient's privacy. In this paper, we study the challenging but practical problem: black-box source-free domain adaptation where only the outputs of the source model and target data are available. We propose a simple but effective two-stage knowledge distillation method. In Stage \uppercase\expandafter{\romannumeral1}, we train the target model from scratch with soft pseudo-labels generated by the source model in a knowledge distillation manner. In Stage \uppercase\expandafter{\romannumeral2}, we initialize another model as the new student model to avoid the error accumulation caused by noisy pseudo-labels. We feed the images with weak augmentation to the teacher model to guide the learning of the student model. Our method is simple and flexible, and achieves surprising results on three cross-domain segmentation tasks.
翻訳日:2023-06-27 22:52:30 公開日:2023-06-24
# 協調型マルチエージェント強化学習:非同期通信と線形関数近似

Cooperative Multi-Agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation ( http://arxiv.org/abs/2305.06446v3 )

ライセンス: Link先を確認
Yifei Min, Jiafan He, Tianhao Wang, Quanquan Gu(参考訳) 本研究では,複数のエージェントが中央サーバを介して通信を介して協調するエピソディックマルコフ決定プロセスの設定において,マルチエージェント強化学習について検討する。 本稿では,低通信オーバヘッドによる協調の利点を確保しつつ,非同期通信を可能にする価値反復に基づく効率の良いアルゴリズムを提案する。 線形関数近似により、このアルゴリズムが$\tilde{\mathcal{o}}(d^{3/2}h^2\sqrt{k})$ regret with $\tilde{\mathcal{o}}(dhm^2)$ 通信複雑性を享受できることが証明される。 また、最小の$\Omega(dM)$通信の複雑さがコラボレーションによるパフォーマンス向上に必要であることを示す低いバウンダリも提供します。

We study multi-agent reinforcement learning in the setting of episodic Markov decision processes, where multiple agents cooperate via communication through a central server. We propose a provably efficient algorithm based on value iteration that enable asynchronous communication while ensuring the advantage of cooperation with low communication overhead. With linear function approximation, we prove that our algorithm enjoys an $\tilde{\mathcal{O}}(d^{3/2}H^2\sqrt{K})$ regret with $\tilde{\mathcal{O}}(dHM^2)$ communication complexity, where $d$ is the feature dimension, $H$ is the horizon length, $M$ is the total number of agents, and $K$ is the total number of episodes. We also provide a lower bound showing that a minimal $\Omega(dM)$ communication complexity is required to improve the performance through collaboration.
翻訳日:2023-06-27 22:52:13 公開日:2023-06-24
# 多言語LLMは、アライメントを持つ言語間インコンテキスト学習者より優れている

Multilingual LLMs are Better Cross-lingual In-context Learners with Alignment ( http://arxiv.org/abs/2305.05940v3 )

ライセンス: Link先を確認
Eshaan Tanwar, Subhabrata Dutta, Manish Borthakur, Tanmoy Chakraborty(参考訳) インコンテキスト学習(ICL)は、大規模言語モデルが勾配更新なしでいくつかのラベル付きサンプルに条件付きテストラベルを推測できるようになり、展開される。 ICL対応の大規模言語モデルは、低リソース環境での繰り返しアノテーションコストを回避しようとする有望なステップを提供する。 しかし、一握りの過去の研究がiclを言語横断で探究しており、そこでは、ラベル知識を高いリソース言語から低リソース言語に移す必要性が極めて重要である。 このギャップを埋めるため,クロスリンガルテキスト分類のための icl の詳細な解析を行った。 入力空間と出力空間のアライメントが欠如していることから,言語間ICLの場合,プロンプト・コンテキストを構成するためにランダムな入力-ラベルペアを選択する一般的なモードが著しく制限されていることがわかった。 そこで本稿では,新しいプロンプト構築手法であるx-insta(cross-lingual in-context source-target alignment)を提案する。 入力例のセマンティクスにコヒーレンスを注入し、ソース言語とターゲット言語をまたいだタスクベースのアライメントにより、X-InSTAは44の異なる言語対を用いて3つの異なるタスクに対して大きなマージンでランダムなプロンプト選択を上回ります。

In-context learning (ICL) unfolds as large language models become capable of inferring test labels conditioned on a few labeled samples without any gradient update. ICL-enabled large language models provide a promising step forward toward bypassing recurrent annotation costs in a low-resource setting. Yet, only a handful of past studies have explored ICL in a cross-lingual setting, in which the need for transferring label-knowledge from a high-resource language to a low-resource one is immensely crucial. To bridge the gap, we provide the first in-depth analysis of ICL for cross-lingual text classification. We find that the prevalent mode of selecting random input-label pairs to construct the prompt-context is severely limited in the case of cross-lingual ICL, primarily due to the lack of alignment in the input as well as the output spaces. To mitigate this, we propose a novel prompt construction strategy -- Cross-lingual In-context Source-Target Alignment (X-InSTA). With an injected coherence in the semantics of the input examples and a task-based alignment across the source and target languages, X-InSTA is able to outperform random prompt selection by a large margin across three different tasks using 44 different cross-lingual pairs.
翻訳日:2023-06-27 22:51:48 公開日:2023-06-24
# 非対称学習率による分離合理化:フレキシブルリプシッツ拘束法

Decoupled Rationalization with Asymmetric Learning Rates: A Flexible Lipschitz Restraint ( http://arxiv.org/abs/2305.13599v3 )

ライセンス: Link先を確認
Wei Liu, Jun Wang, Haozhao Wang, Ruixuan Li, Yang Qiu, YuanKai Zhang, Jie Han, Yixiong Zou(参考訳) 自己説明的合理化モデルは通常、生成者が入力テキストから最も人間的な知性のある断片を論理として選択する協調ゲームで構築され、次に選択された合理性に基づいて予測を行う予測器が続く。 しかし、そのような協調ゲームは、予測者がまだ十分に訓練されていないジェネレータによって生成される非形式的ピースに過度に適合し、その結果、ジェネレータが無意味なピースを選択する傾向にあるサブ最適モデルに収束する、退化問題を引き起こす可能性がある。 本稿では,理論上,予測子のリプシッツ連続性による変性を橋渡しする。 そこで我々は, 予測器のリプシッツ定数を自然かつ柔軟に抑制し, 縮退の問題に対処する, DR という簡単な手法を実証的に提案する。 DRの主な考え方は、ジェネレータと予測器を分離して非対称な学習率で割り当てることである。 2つの広く使われているベンチマークで実施した一連の実験により,提案手法の有効性が検証された。 コード: \href{https://github.com/jugechengzi/Rationalization-DR}{https://github.com/jugechengzi/Rationalization-DR}。

A self-explaining rationalization model is generally constructed by a cooperative game where a generator selects the most human-intelligible pieces from the input text as rationales, followed by a predictor that makes predictions based on the selected rationales. However, such a cooperative game may incur the degeneration problem where the predictor overfits to the uninformative pieces generated by a not yet well-trained generator and in turn, leads the generator to converge to a sub-optimal model that tends to select senseless pieces. In this paper, we theoretically bridge degeneration with the predictor's Lipschitz continuity. Then, we empirically propose a simple but effective method named DR, which can naturally and flexibly restrain the Lipschitz constant of the predictor, to address the problem of degeneration. The main idea of DR is to decouple the generator and predictor to allocate them with asymmetric learning rates. A series of experiments conducted on two widely used benchmarks have verified the effectiveness of the proposed method. Codes: \href{https://github.com/jugechengzi/Rationalization-DR}{https://github.com/jugechengzi/Rationalization-DR}.
翻訳日:2023-06-27 22:40:42 公開日:2023-06-24
# 時空間拡散点過程

Spatio-temporal Diffusion Point Processes ( http://arxiv.org/abs/2305.12403v2 )

ライセンス: Link先を確認
Yuan Yuan, Jingtao Ding, Chenyang Shao, Depeng Jin, Yong Li(参考訳) 時空間プロセス (STPP) は時間と空間を伴う事象の確率的収集である。 計算複雑性のため、STPPの既存の解は時間と空間の条件的独立性を妥協し、時間と空間の分布を別々に考慮する。 結合分布のモデル化に失敗すると、過去の事象の時空間的絡み合いを特徴づける能力は限られる。 本研究では,複雑な時空間関節分布の学習に拡散モデルを利用するSTPPの新しいパラメータ化フレームワークを提案する。 対象のジョイント分布の学習を複数のステップに分解し,各ステップをガウス分布で忠実に記述する。 各ステップの学習性を高めるため,イベント時間と空間間の相互依存性を適応的に捉えるために,詳細な時空間コアテンションモジュールを提案する。 既存のソリューションにおける時空間依存性の制限を初めて破り、STPPのフレキシブルで正確なモデリングパラダイムを実現する。 疫学,地震学,犯罪,都市移動といった幅広い分野からの大規模な実験は,我々の枠組みが最先端のベースラインを著しく上回り,平均50%以上の改善を達成していることを示している。 さらに詳細な分析は、異なるシナリオで適応的に学習できる時空間相互作用をキャプチャする能力を検証する。 データセットとソースコードはオンラインで入手できる。 https://github.com/tsinghua-fib-lab/Spatio-temporal-Diffusion-Point-Processes。

Spatio-temporal point process (STPP) is a stochastic collection of events accompanied with time and space. Due to computational complexities, existing solutions for STPPs compromise with conditional independence between time and space, which consider the temporal and spatial distributions separately. The failure to model the joint distribution leads to limited capacities in characterizing the spatio-temporal entangled interactions given past events. In this work, we propose a novel parameterization framework for STPPs, which leverages diffusion models to learn complex spatio-temporal joint distributions. We decompose the learning of the target joint distribution into multiple steps, where each step can be faithfully described by a Gaussian distribution. To enhance the learning of each step, an elaborated spatio-temporal co-attention module is proposed to capture the interdependence between the event time and space adaptively. For the first time, we break the restrictions on spatio-temporal dependencies in existing solutions, and enable a flexible and accurate modeling paradigm for STPPs. Extensive experiments from a wide range of fields, such as epidemiology, seismology, crime, and urban mobility, demonstrate that our framework outperforms the state-of-the-art baselines remarkably, with an average improvement of over 50%. Further in-depth analyses validate its ability to capture spatio-temporal interactions, which can learn adaptively for different scenarios. The datasets and source code are available online: https://github.com/tsinghua-fib-lab/Spatio-temporal-Diffusion-Point-Processes.
翻訳日:2023-06-27 22:39:55 公開日:2023-06-24
# 潜時拡散モデルを用いた行動多元性ポリシーの生成

Generating Behaviorally Diverse Policies with Latent Diffusion Models ( http://arxiv.org/abs/2305.18738v2 )

ライセンス: Link先を確認
Shashank Hegde, Sumeet Batra, K. R. Zentner, Gaurav S. Sukhatme(参考訳) 近年のQD-RL(Quality Diversity Reinforcement Learning)の進歩により,行動学的に多様な高パフォーマンスな政策の収集が可能となった。 しかし、これらの方法は典型的には数千のポリシーを格納し、結果として高い空間の複雑さと付加的な振る舞いへのスケーリングの貧弱さをもたらす。 オリジナルのポリシーコレクションのパフォーマンスとカバレッジを維持しながら、アーカイブを単一のモデルに集約することは、非常に難しい。 本研究では,拡散モデルを用いて,政策パラメータ上の単一の生成モデルにアーカイブを蒸留する手法を提案する。 提案手法は,元の報酬の98%,オリジナルカバレッジの89%を回収しながら,圧縮比が13倍となることを示す。 さらに、拡散モデルのコンディショニング機構により、言語を含む動作を柔軟に選択・シーケンシングすることができる。 プロジェクトウェブサイト: https://sites.google.com/view/policydiffusion/home

Recent progress in Quality Diversity Reinforcement Learning (QD-RL) has enabled learning a collection of behaviorally diverse, high performing policies. However, these methods typically involve storing thousands of policies, which results in high space-complexity and poor scaling to additional behaviors. Condensing the archive into a single model while retaining the performance and coverage of the original collection of policies has proved challenging. In this work, we propose using diffusion models to distill the archive into a single generative model over policy parameters. We show that our method achieves a compression ratio of 13x while recovering 98% of the original rewards and 89% of the original coverage. Further, the conditioning mechanism of diffusion models allows for flexibly selecting and sequencing behaviors, including using language. Project website: https://sites.google.com/view/policydiffusion/home
翻訳日:2023-06-27 22:33:22 公開日:2023-06-24
# 分子ドッキングと機械学習回帰法を用いたCOVID-19 3CLプロテアーゼを標的とした薬物精製

Drug Repurposing Targeting COVID-19 3CL Protease using Molecular Docking and Machine Learning Regression Approach ( http://arxiv.org/abs/2305.18088v3 )

ライセンス: Link先を確認
Imra Aqeel, and Abdul Majid(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界的な健康危機を引き起こし、治療薬の早期発見の必要性が高まっている。 この課題を満たすために、医薬品の再利用はコストと時間を節約する唯一の解決策である。 本研究では,SARS-CoV-2の主要プロテアーゼ3CLを標的とした新型コロナウイルス治療の可能性として,FDAが承認した5903薬を含む世界承認薬をスクリーニングするために,Zincデータベースを使用した。 薬物分子の有効性を確認するため,autodock-vinaを用いた分子ドッキングを行った。 薬物再資源化手法の効率を高めるために, 決定木, 余剰木, MLP, KNN, XGBoost, 勾配ブースティングなどのQSARモデリングのための機械学習回帰手法を用いて, 結合親和性をモデル化した。 その結果,決定木回帰(DTR)モデルにより,R2およびRMSEの統計的測定精度が向上した。 これらのシミュレーション結果は高い結合親和性と良好な結合エネルギーを有する薬物の同定に寄与した。 統計分析の結果,ZINC000003873365,ZINC000085432544,ZINC000203757351,ZINC000085536956,ZINC0008214470,ZINC000261494640 ) をそれぞれ-15.1 kcal/molから-13.6 kcal/molの範囲で選択した。 いずれも、既にcovid-19に対して同定された亜鉛203757351以外の新規化合物である。 さらに, これらの薬剤の生理化学的および薬物動態特性を, 特異的なプロテアーゼ3CLproとの結合性について解析した。 我々の研究は、COVID-19に対する薬物再精製の効果的な枠組みを提供してきた。 これは、分子ドッキングと機械学習回帰アプローチを組み合わせることで、潜在的な治療候補の同定を加速する可能性を強調している。

The COVID-19 pandemic has created a global health crisis, driving the need for the rapid identification of potential therapeutics. To meet this challenge, drug repurposing is the only solution with saving cost and time. In this study, we used the Zinc database to screen the world-approved including FDA-approved 5903 drugs for repurposing as potential COVID-19 treatments targeting the main protease 3CL of SARS-CoV-2. We performed molecular docking using Autodock-Vina to check the efficacy of drug molecules. To enhance the efficiency of drug repurposing approach, we modeled the binding affinities using several machine learning regression approaches for QSAR modeling such as decision tree, extra trees, MLP, KNN, XGBoost, and gradient boosting. The computational results demonstrated that Decision Tree Regression (DTR) model has improved statistical measures of R2 and RMSE. These simulated results helped to identify drugs with high binding affinity and favorable binding energies. From the statistical analysis, we shortlisted six promising drugs with their respective Zinc IDs (ZINC000003873365, ZINC000085432544, ZINC000203757351, ZINC000085536956, ZINC000008214470 and ZINC000261494640) within the range of -15.1 kcal/mol to -13.6 kcal/mol. All are novel compounds except ZINC000203757351 antiviral compound that was already identified against COVID-19 in other studies. Further, we analyzed the physiochemical and pharmacokinetic properties of these selected drugs with respect to their best binding interaction to specific target protease 3CLpro. Our study has provided an efficient framework for drug repurposing against COVID-19. This highlights the potential of combining molecular docking with machine learning regression approaches to accelerate the identification of potential therapeutic candidates.
翻訳日:2023-06-27 22:32:23 公開日:2023-06-24
# がん組織協会と分類のための機械学習アプローチ

Machine Learning Approach for Cancer Entities Association and Classification ( http://arxiv.org/abs/2306.00013v2 )

ライセンス: Link先を確認
G. Jeyakodi, Arkadeep Pal, Debapratim Gupta, K. Sarukeswari, V. Amouda(参考訳) 世界保健機関(who)によると、がんは世界で2番目に多い死因である。 さまざまな種類のがんに関する科学的研究は、毎年大量の研究論文を発行し、増加傾向にある。 遺伝子に関連する薬物、診断、リスク、症状、治療等の洞察情報と知識は、がん研究の進展を探索し進展させる重要な要因である。 このような大量の記事の手作業によるスクリーニングは、仮説を定式化するのに非常に手間と時間を要する。 この研究は、非自明な2つのNLP、自然言語処理機能、エンティティ認識、テキスト分類を用いて、生物医学文献から知識を発見する。 名前付きエンティティ認識(ner)は、非構造化テキストから、ユーザフレンドリーなインターフェースと内蔵辞書のサポートによって、癌に関連する事前定義されたエンティティを認識し、抽出する。 テキスト分類は、テキストに対する洞察を探索し、データの分類、クエリ、記事のスクリーニングを簡単にするのに役立つ。 マシンラーニングの分類器は分類モデルの構築にも使用され、構造化クエリ言語(sql)は重要な予測につながる隠れた関係を特定するために使用される。

According to the World Health Organization (WHO), cancer is the second leading cause of death globally. Scientific research on different types of cancers grows at an ever-increasing rate, publishing large volumes of research articles every year. The insight information and the knowledge of the drug, diagnostics, risk, symptoms, treatments, etc., related to genes are significant factors that help explore and advance the cancer research progression. Manual screening of such a large volume of articles is very laborious and time-consuming to formulate any hypothesis. The study uses the two most non-trivial NLP, Natural Language Processing functions, Entity Recognition, and text classification to discover knowledge from biomedical literature. Named Entity Recognition (NER) recognizes and extracts the predefined entities related to cancer from unstructured text with the support of a user-friendly interface and built-in dictionaries. Text classification helps to explore the insights into the text and simplifies data categorization, querying, and article screening. Machine learning classifiers are also used to build the classification model and Structured Query Languages (SQL) is used to identify the hidden relations that may lead to significant predictions.
翻訳日:2023-06-27 22:21:34 公開日:2023-06-24
# スパース行列スケッチによるマグニチュードベースプルーニングの一般化境界

Generalization Bounds for Magnitude-Based Pruning via Sparse Matrix Sketching ( http://arxiv.org/abs/2305.18789v2 )

ライセンス: Link先を確認
Etash Kumar Guha, Prasanjit Dubey, Xiaoming Huo(参考訳) 本稿では,過パラメータ化ニューラルネットワークのマグニチュード型プルーニングの一般化誤差に基づく新しい手法を導出する。 私たちの作品は、arora et alの限界に基づいている。 [2018] 誤差は1, プルーニングによる近似, および2, プルーニングモデルにおけるパラメータ数に依存し, 標準ノルムベース一般化境界により改善される。 新しいMagnitude-based compressionアルゴリズムを用いて得られたプルーンド推定値は、高い確率で未処理関数に近づき、最初の基準を改善する。 Sparse Matrix Sketching を用いて、刈り取った行列の空間は、非常に小さな次元の高密度行列の空間で効率的に表現することができ、第二基準を下げることができる。 これにより、多くの最先端手法よりも強い一般化が導かれるため、オーバーパラメータ化モデルのプルーニングおよびバウンディング一般化誤差に対するアルゴリズム開発における新たな基盤を破ることになる。 さらに、この結果を拡張してイテレーティブ・プルーニングの一般化(Frankle and Carbin, 2018)を得る。 我々は,MNISTおよびCIFAR10データセット上のReLU活性化フィードフォワードネットワークにおける新しい手法の有効性を実証的に検証した。

In this paper, we derive a novel bound on the generalization error of Magnitude-Based pruning of overparameterized neural networks. Our work builds on the bounds in Arora et al. [2018] where the error depends on one, the approximation induced by pruning, and two, the number of parameters in the pruned model, and improves upon standard norm-based generalization bounds. The pruned estimates obtained using our new Magnitude-Based compression algorithm are close to the unpruned functions with high probability, which improves the first criteria. Using Sparse Matrix Sketching, the space of the pruned matrices can be efficiently represented in the space of dense matrices of much smaller dimensions, thereby lowering the second criterion. This leads to stronger generalization bound than many state-of-the-art methods, thereby breaking new ground in the algorithm development for pruning and bounding generalization error of overparameterized models. Beyond this, we extend our results to obtain generalization bound for Iterative Pruning [Frankle and Carbin, 2018]. We empirically verify the success of this new method on ReLU-activated Feed Forward Networks on the MNIST and CIFAR10 datasets.
翻訳日:2023-06-27 22:20:35 公開日:2023-06-24
# タスク同変グラフ・マイノショット学習

Task-Equivariant Graph Few-shot Learning ( http://arxiv.org/abs/2305.18758v4 )

ライセンス: Link先を確認
Sungwon Kim, Junseok Lee, Namkyeong Lee, Wonjoong Kim, Seungyoon Choi, Chanyoung Park(参考訳) グラフニューラルネットワーク(GNN)はノード分類タスクで成功したが、その性能はクラス毎に十分な数のラベル付きノードが利用できることに大きく依存している。 実世界の状況では、すべてのクラスに多くのラベル付きノードがあるわけではないし、モデルが新しいクラスを分類する必要があるインスタンスがある場合もあり、手動のラベリングが難しい。 この問題を解決するためには,nnnが限定的な数のラベル付きノード(少数ショットノード分類)でノードを分類できることが重要である。 従来のエピソードなメタラーニング法は,数発のノード分類に成功しているが,本研究の結果から,多種多様なメタタスクで最適性能が達成できることが示唆された。 メタラーニングに基づく少ショットラーニング(FSL)の課題に対処するため,新しいアプローチであるタスク・平等グラフ少ショットラーニング(TEG)フレームワークを提案する。 当社のtegフレームワークでは,限られた数のトレーニングメタタスクを使用して,転送可能なタスク適応戦略を学習することが可能です。 等変ニューラルネットワークを組み込むことにより、TEGはその強力な一般化能力を利用して、高度に適応可能なタスク固有戦略を学ぶことができる。 結果として、TEGは訓練メタタスクを限定して最先端のパフォーマンスを達成する。 各種ベンチマークデータセットを用いた実験では,最小限のメタトレーニングデータを用いた場合であっても,TAGの精度と一般化能力の面で優位性を示し,メタラーニングに基づく少数ショットノード分類の課題に対処する上で,提案手法の有効性を強調した。 私たちのコードは以下のリンクで利用可能です。

Although Graph Neural Networks (GNNs) have been successful in node classification tasks, their performance heavily relies on the availability of a sufficient number of labeled nodes per class. In real-world situations, not all classes have many labeled nodes and there may be instances where the model needs to classify new classes, making manual labeling difficult. To solve this problem, it is important for GNNs to be able to classify nodes with a limited number of labeled nodes, known as few-shot node classification. Previous episodic meta-learning based methods have demonstrated success in few-shot node classification, but our findings suggest that optimal performance can only be achieved with a substantial amount of diverse training meta-tasks. To address this challenge of meta-learning based few-shot learning (FSL), we propose a new approach, the Task-Equivariant Graph few-shot learning (TEG) framework. Our TEG framework enables the model to learn transferable task-adaptation strategies using a limited number of training meta-tasks, allowing it to acquire meta-knowledge for a wide range of meta-tasks. By incorporating equivariant neural networks, TEG can utilize their strong generalization abilities to learn highly adaptable task-specific strategies. As a result, TEG achieves state-of-the-art performance with limited training meta-tasks. Our experiments on various benchmark datasets demonstrate TEG's superiority in terms of accuracy and generalization ability, even when using minimal meta-training data, highlighting the effectiveness of our proposed approach in addressing the challenges of meta-learning based few-shot node classification. Our code is available at the following link: https://github.com/sung-won-kim/TEG
翻訳日:2023-06-27 22:20:11 公開日:2023-06-24
# Devil is in Channels: Contrastive Single Domain Generalization for Medical Image Segmentation

Devil is in Channels: Contrastive Single Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2306.05254v2 )

ライセンス: Link先を確認
Shishuai Hu, Zehui Liao, Yong Xia(参考訳) ディープラーニングベースの医療画像セグメンテーションモデルは、新しい医療センターにデプロイするとパフォーマンスが低下する。 この問題に対処するために,非教師なしドメイン適応法やマルチソースドメイン一般化法が提案されているが,ターゲットドメインデータの取得コストや,複数のソースドメインからのデータの再配布に伴うプライバシ上の懸念から,臨床実践にはあまり好ましくない。 本稿では,医療画像のセグメンテーションのための<textbf{C}hannel-level \textbf{C}ontrastive \textbf{S}ingle \textbf{D}omain \textbf{G}eneralization (\textbf{C$^2$SDG})モデルを提案する。 c$^2$sdgでは、各画像とそのスタイル指定された画像の浅い特徴を抽出し、対比訓練に使用し、不連続なスタイル表現と構造表現を生成する。 セグメント化は構造表現のみに基づいて実行される。 本手法は,単一のソースドメインを用いたチャネル間特徴の絡み合いを可能にする,コントラスト的な観点では斬新である。 c$^2$sdgを6つのsdg法に対してマルチドメイン合同光学カップと光ディスクセグメンテーションベンチマークで評価した。 この結果から, C$^2$SDGにおける各モジュールの有効性が示唆され, また, C$^2$SDGがベースラインおよび競合するすべてのメソッドよりも大きなマージンを持つことを示す。 コードは \url{https://github.com/ShishuaiHu/CCSDG} で入手できる。

Deep learning-based medical image segmentation models suffer from performance degradation when deployed to a new healthcare center. To address this issue, unsupervised domain adaptation and multi-source domain generalization methods have been proposed, which, however, are less favorable for clinical practice due to the cost of acquiring target-domain data and the privacy concerns associated with redistributing the data from multiple source domains. In this paper, we propose a \textbf{C}hannel-level \textbf{C}ontrastive \textbf{S}ingle \textbf{D}omain \textbf{G}eneralization (\textbf{C$^2$SDG}) model for medical image segmentation. In C$^2$SDG, the shallower features of each image and its style-augmented counterpart are extracted and used for contrastive training, resulting in the disentangled style representations and structure representations. The segmentation is performed based solely on the structure representations. Our method is novel in the contrastive perspective that enables channel-wise feature disentanglement using a single source domain. We evaluated C$^2$SDG against six SDG methods on a multi-domain joint optic cup and optic disc segmentation benchmark. Our results suggest the effectiveness of each module in C$^2$SDG and also indicate that C$^2$SDG outperforms the baseline and all competing methods with a large margin. The code will be available at \url{https://github.com/ShishuaiHu/CCSDG}.
翻訳日:2023-06-27 22:13:06 公開日:2023-06-24
# GenImage:AI生成画像検出のための100万規模のベンチマーク

GenImage: A Million-Scale Benchmark for Detecting AI-Generated Image ( http://arxiv.org/abs/2306.08571v2 )

ライセンス: Link先を確認
Mingjian Zhu, Hanting Chen, Qiangyu Yan, Xudong Huang, Guanyu Lin, Wei Li, Zhijun Tu, Hailin Hu, Jie Hu, Yunhe Wang(参考訳) 生成モデルが写真画像を生成するという異常な能力は、偽情報の拡散に対する懸念を強め、それによってAI生成した偽画像と実画像とを区別できる検出器の需要が高まった。 しかし、最も先進的な画像生成装置の画像を含む大規模なデータセットの欠如は、そのような検出器の開発に障害をもたらす。 本稿では,以下の利点を有するGenImageデータセットを紹介する。 1)AIが生成した偽画像100万枚以上の画像と実際の画像の収集を含む大量の画像。 2)リッチ画像コンテンツは幅広い画像クラスを包含する。 3)最先端のジェネレータ,高度な拡散モデルとGANを用いた合成画像。 前述の利点により、GenImageで訓練された検出器は、徹底的な評価を行い、多様な画像に強い適用性を示すことができる。 本研究では,実世界のシナリオに類似した検出手法を評価するための2つのタスクを提案する。 クロスジェネレータ画像分類タスクは、あるジェネレータで訓練された検出器が他のジェネレータでテストした場合の性能を測定する。 劣化画像分類タスクは、低解像度、ぼやけた画像、圧縮画像などの劣化画像を扱う検出器の能力を評価する。 GenImageデータセットを使うことで、研究者は一般的な手法と比較して、優れたAI生成画像検出器の開発と評価を効果的に行うことができる。

The extraordinary ability of generative models to generate photographic images has intensified concerns about the spread of disinformation, thereby leading to the demand for detectors capable of distinguishing between AI-generated fake images and real images. However, the lack of large datasets containing images from the most advanced image generators poses an obstacle to the development of such detectors. In this paper, we introduce the GenImage dataset, which has the following advantages: 1) Plenty of Images, including over one million pairs of AI-generated fake images and collected real images. 2) Rich Image Content, encompassing a broad range of image classes. 3) State-of-the-art Generators, synthesizing images with advanced diffusion models and GANs. The aforementioned advantages allow the detectors trained on GenImage to undergo a thorough evaluation and demonstrate strong applicability to diverse images. We conduct a comprehensive analysis of the dataset and propose two tasks for evaluating the detection method in resembling real-world scenarios. The cross-generator image classification task measures the performance of a detector trained on one generator when tested on the others. The degraded image classification task assesses the capability of the detectors in handling degraded images such as low-resolution, blurred, and compressed images. With the GenImage dataset, researchers can effectively expedite the development and evaluation of superior AI-generated image detectors in comparison to prevailing methodologies.
翻訳日:2023-06-27 22:02:43 公開日:2023-06-24
# MOFI:ノイズのあるエンティティアノテート画像から画像表現を学習する

MOFI: Learning Image Representations from Noisy Entity Annotated Images ( http://arxiv.org/abs/2306.07952v2 )

ライセンス: Link先を確認
Wentao Wu, Aleksei Timofeev, Chen Chen, Bowen Zhang, Kun Duan, Shuangning Liu, Yantao Zheng, Jon Shlens, Xianzhi Du, Zhe Gan, Yinfei Yang(参考訳) ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。 MOFIは、事前トレーニングデータ($i$)とトレーニングレシピ($ii$)の2つの重要な側面において、以前のものと異なる。 データに関しては、ノイズの多い画像テキストペアの画像にエンティティラベルを自動的に割り当てる新しいアプローチを導入する。 提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。 このアプローチは単純で、コストのかかる人間のアノテーションを必要としない。webから採掘された数十億もの画像テキストペアを簡単にスケールできる。 この方法で、我々は10億の画像と200万の異なるエンティティを持つ新しい大規模データセットであるImage-to-Entities (I2E)を開発した。 i2eデータセットに基づいて,教師付き事前学習,コントラスト型事前学習,マルチタスク学習など,さまざまなトレーニングレシピを調査した。 構成的事前学習では、エンティティ名を自由形式のテキストとして扱い、エンティティ記述をさらに強化する。 実験により,大規模粒度ラベルによる教師付き事前学習が画像検索作業に極めて有効であることが示され,マルチタスクトレーニングによりパフォーマンスが向上した。 最後のMOFIモデルは、挑戦的なGPR1200データセット上で86.66%のmAPを達成し、OpenAIのCLIPモデルから72.19%の最先端パフォーマンスを達成している。 ゼロショットおよび線形プローブ画像分類に関するさらなる実験により、MOFIは元の画像テキストデータに基づいて訓練されたCLIPモデルよりも優れており、強い画像表現の学習におけるI2Eデータセットの有効性が示されている。

We present MOFI, a new vision foundation model designed to learn image representations from noisy entity annotated images. MOFI differs from previous work in two key aspects: ($i$) pre-training data, and ($ii$) training recipe. Regarding data, we introduce a new approach to automatically assign entity labels to images from noisy image-text pairs. Our approach involves employing a named entity recognition model to extract entities from the alt-text, and then using a CLIP model to select the correct entities as labels of the paired image. The approach is simple, does not require costly human annotation, and can be readily scaled up to billions of image-text pairs mined from the web. Through this method, we have created Image-to-Entities (I2E), a new large-scale dataset with 1 billion images and 2 million distinct entities, covering rich visual concepts in the wild. Building upon the I2E dataset, we study different training recipes, including supervised pre-training, contrastive pre-training, and multi-task learning. For constrastive pre-training, we treat entity names as free-form text, and further enrich them with entity descriptions. Experiments show that supervised pre-training with large-scale fine-grained entity labels is highly effective for image retrieval tasks, and multi-task training further improves the performance. The final MOFI model achieves 86.66% mAP on the challenging GPR1200 dataset, surpassing the previous state-of-the-art performance of 72.19% from OpenAI's CLIP model. Further experiments on zero-shot and linear probe image classification also show that MOFI outperforms a CLIP model trained on the original image-text data, demonstrating the effectiveness of the I2E dataset in learning strong image representations.
翻訳日:2023-06-27 22:02:25 公開日:2023-06-24
# 不均一意思決定者からのデータを用いた選択的ラベル学習--インストゥルメンタル・変数・アプローチ

Learning under Selective Labels with Data from Heterogeneous Decision-makers: An Instrumental Variable Approach ( http://arxiv.org/abs/2306.07566v2 )

ライセンス: Link先を確認
Jian Chen, Zhehao Li, Xiaojie Mao(参考訳) 歴史的意思決定によって結果が部分的にラベル付けされた場合に生じる,選択的ラベル付きデータを用いた学習の問題について検討する。 ラベル付きデータ分布は、特に歴史的決定と対象とする結果が観測されていない要因によって同時に影響を受ける場合、全人口と大きく異なる可能性がある。 その結果、ラベル付きデータのみによる学習は、全人口に展開する際の重大なバイアスのある結果につながる可能性がある。 本稿は,多くのアプリケーションにおいて,歴史的意思決定が異種意思決定者によってなされたという事実を生かして,この課題に取り組む。 特に、この設定を原則化されたインストゥルメンタル変数(IV)フレームワークで分析する。 観測データから任意の予測規則の完全個体群リスクを特定できる条件を確立し, ポイント識別が失敗した場合に, 鋭いリスク境界を与える。 さらに、ラベル選択バイアスに頑健な予測規則を両方の識別設定で学習する重み付き学習手法を提案する。 最後に,提案手法を半合成財務データセットに適用し,選択バイアスの存在下での優れた性能を示す。

We study the problem of learning with selectively labeled data, which arises when outcomes are only partially labeled due to historical decision-making. The labeled data distribution may substantially differ from the full population, especially when the historical decisions and the target outcome can be simultaneously affected by some unobserved factors. Consequently, learning with only the labeled data may lead to severely biased results when deployed to the full population. Our paper tackles this challenge by exploiting the fact that in many applications the historical decisions were made by a set of heterogeneous decision-makers. In particular, we analyze this setup in a principled instrumental variable (IV) framework. We establish conditions for the full-population risk of any given prediction rule to be point-identified from the observed data and provide sharp risk bounds when the point identification fails. We further propose a weighted learning approach that learns prediction rules robust to the label selection bias in both identification settings. Finally, we apply our proposed approach to a semi-synthetic financial dataset and demonstrate its superior performance in the presence of selection bias.
翻訳日:2023-06-27 22:01:52 公開日:2023-06-24
# サンプル効率適応のためのニューラルプライミング

Neural Priming for Sample-Efficient Adaptation ( http://arxiv.org/abs/2306.10191v2 )

ライセンス: Link先を確認
Matthew Wallingford, Vivek Ramanujan, Alex Fang, Aditya Kusupati, Roozbeh Mottaghi, Aniruddha Kembhavi, Ludwig Schmidt, Ali Farhadi(参考訳) ラベル付き例がほとんど,あるいはまったくない下流タスクに,大規模事前学習モデルを適用する手法であるneural primingを提案する。 クラス名やラベルのないテストサンプルで示されるニューラルプライミングは、モデルが事前トレーニング中に見た関連するデータに基づいてパラメータをリコールし、条件付けし、テスト分布にプライミングする。 LAION-2Bのようなデータセットを事前トレーニングしても、ニューラルプライミングはテスト時に実行できる。 リコールされたデータのライトウェイトな更新は、さまざまな分散シフトと転送学習ベンチマークの精度を大幅に向上させる。 具体的には、ゼロショット設定では、imagenetの精度が2.45%向上し、標準転送学習ベンチマークの平均で3.81%向上しています。 さらに,分布シフトに適応するために推論のニューラルプライミングを用いると,imagenetv2の精度が1.41%向上する。 これらの結果は,限定ラベル付きデータの課題と分布変化に対するニューラルプライミングの有効性を示す。 コードはgithub.com/RAIVNLab/neural-primingで入手できる。

We propose Neural Priming, a technique for adapting large pretrained models to distribution shifts and downstream tasks given few or no labeled examples. Presented with class names or unlabeled test samples, Neural Priming enables the model to recall and conditions its parameters on relevant data seen throughout pretraining, thereby priming it for the test distribution. Neural Priming can be performed at test time, even for pretraining datasets as large as LAION-2B. Performing lightweight updates on the recalled data significantly improves accuracy across a variety of distribution shift and transfer learning benchmarks. Concretely, in the zero-shot setting, we see a 2.45% improvement in accuracy on ImageNet and 3.81% accuracy improvement on average across standard transfer learning benchmarks. Further, using Neural Priming at inference to adapt to distribution shift, we see a 1.41% accuracy improvement on ImageNetV2. These results demonstrate the effectiveness of Neural Priming in addressing the challenge of limited labeled data and changing distributions. Code is available at github.com/RAIVNLab/neural-priming.
翻訳日:2023-06-27 21:53:37 公開日:2023-06-24
# スピンロック超電導量子ビットを有するロバストゲート

Robust gates with spin-locked superconducting qubits ( http://arxiv.org/abs/2306.09149v2 )

ライセンス: Link先を確認
Ido Zuk, Daniel Cohen, Alexey V. Gorshkov, and Alex Retzker(参考訳) 動的デカップリングは、ほとんどの量子計算プラットフォームにおけるゲートエラーの低減に有効であることが示されており、将来のフォールトトレラント構造において重要な役割を果たすと予測されている。 しかし、超伝導回路では、動的疎結合の利点を利用するのは難しいことが証明されている。 本研究では,スピンロックと呼ばれる動的デカップリングの連続バージョンと,トランスモンのためのカプラ型czゲートを組み込んだ理論的提案を行い,その効果を示す解析的および数値的結果を提供する。

Dynamical decoupling has been shown to be effective in reducing gate errors in most quantum computation platforms and is therefore projected to play an essential role in future fault-tolerant constructions. In superconducting circuits, however, it has proven difficult to utilize the benefits of dynamical decoupling. In this work, we present a theoretical proposal that incorporates a continuous version of dynamical decoupling, namely spin locking, with a coupler-based CZ gate for transmons and provide analytical and numerical results that demonstrate its effectiveness.
翻訳日:2023-06-27 21:51:11 公開日:2023-06-24
# 大規模言語モデルを用いたMIT数学とEECSカリキュラムの探索

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models ( http://arxiv.org/abs/2306.08997v2 )

ライセンス: Link先を確認
Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori(参考訳) 学位取得に必要なmit数学・電気工学・コンピュータサイエンス(eecs)コース全体を対象に,問題集合,中間試験,最終試験から4,550の質問とソリューションの包括的なデータセットを収集した。 我々は,MITの数学・脳科学専攻の卒業要件を満たすために,大規模言語モデルの能力を評価する。 その結果, GPT-3.5はMITのカリキュラム全体の3分の1を解くのに成功し, GPT-4は迅速なエンジニアリングにより, 画像に基づく質問を除いたテストセット上で完璧に解けることがわかった。 このデータセットにオープンソースの大言語モデルを微調整します。 我々は、GPT-4を用いて、モデル応答を自動的に評価し、コース、質問、回答タイプによる詳細なパフォーマンス分解を提供する。 質問を低次元空間に埋め込むことにより,質問,話題,クラス間の関係を探究し,他の質問やクラスを解決するのに必要な質問やクラスを,わずかな学習を通じて発見する。 本分析は,言語モデルが数学とEECS教育を学習し,改善する可能性を強調し,授業の前提条件とカリキュラム設計に関する貴重な知見を提供する。

We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.
翻訳日:2023-06-27 21:51:02 公開日:2023-06-24
# informd pomdp: モデルベースのrlで追加情報を活用する

Informed POMDP: Leveraging Additional Information in Model-Based RL ( http://arxiv.org/abs/2306.11488v2 )

ライセンス: Link先を確認
Gaspard Lambrechts, Adrien Bolland, Damien Ernst(参考訳) 本研究では,POMDPにおけるインタラクションによる学習の問題を,トレーニング時に利用できる付加情報から一般化する。 まず,訓練情報と実行観察とを明確に区別する新たな学習パラダイムである情報PMDPを紹介する。 次に,この情報を活用する最適制御のために,歴史から十分な統計を学習する目的を提案する。 次に,このインフォームド・ターゲットが,潜在トラジェクタをサンプル化できる環境モデル学習から成り立っていることを示す。 最後に,このインフォメーション環境モデルを用いて,複数の環境においてポリシーの収束速度が大幅に改善されることをDreamerアルゴリズムで示す。 これらの結果と提案手法の単純さは,モデルベースrlを用いたpomdp学習における最終的な付加情報の体系的考察を示唆するものである。

In this work, we generalize the problem of learning through interaction in a POMDP by accounting for eventual additional information available at training time. First, we introduce the informed POMDP, a new learning paradigm offering a clear distinction between the training information and the execution observation. Next, we propose an objective for learning a sufficient statistic from the history for the optimal control that leverages this information. We then show that this informed objective consists of learning an environment model from which we can sample latent trajectories. Finally, we show for the Dreamer algorithm that the convergence speed of the policies is sometimes greatly improved on several environments by using this informed environment model. Those results and the simplicity of the proposed adaptation advocate for a systematic consideration of eventual additional information when learning in a POMDP using model-based RL.
翻訳日:2023-06-27 20:07:33 公開日:2023-06-24
# アスペクトに基づく感情分析のための新しい非現実的手法

A novel Counterfactual method for aspect-based sentiment analysis ( http://arxiv.org/abs/2306.11260v2 )

ライセンス: Link先を確認
Dongming Wu, Lulu Wen, Chao Chen, Zhaoshu Shi(参考訳) Aspect-based-sentiment-analysis (ABSA)は、評価面の感情極性を分析する微粒な感情評価タスクである。 しかし、従来の研究は意見表現の識別にのみ焦点を合わせており、意見表現の多様性もABSAタスクに大きな影響を与えることも忘れてはならない。 この問題を軽減するために,逆の感情極性を持つ意見表現を生成する新しい反実データ拡張手法を提案する。 特に、意見表現を識別し、隠蔽するために積分勾配を計算する。 そして、逆ラベル付きプロンプトを元のテキストに結合し、最終的にトレーニング済み言語モデル(PLM)T5を用いてマスクを検索する。 実験の結果,提案手法は3つのABSAデータセット,すなわちラップトップ,レストラン,MAMSにおいて,現在の拡張手法よりも優れた結果が得られることがわかった。

Aspect-based-sentiment-analysis (ABSA) is a fine-grained sentiment evaluation task, which analyze the emotional polarity of the evaluation aspects. However, previous works only focus on the identification of opinion expressions, forget that the diversity of opinion expressions also has great impacts on the ABSA task. To mitigate this problem, we propose a novel counterfactual data augmentation method to generate opinion expression with reversed sentiment polarity. Specially, the integrated gradients are calculated to identify and mask the opinion expression. Then, a prompt with the reverse label is combined to the original text, and a pre-trained language model (PLM), T5, is finally employed to retrieve the masks. The experimental results show the proposed counterfactual data augmentation method perform better than current augmentation methods on three ABSA datasets, i.e. Laptop, Restaurant and MAMS.
翻訳日:2023-06-27 20:07:08 公開日:2023-06-24
# すべてのトレーニングサンプルからエビデンスを蓄積する方法:理論と実践

Learn to Accumulate Evidence from All Training Samples: Theory and Practice ( http://arxiv.org/abs/2306.11113v2 )

ライセンス: Link先を確認
Deep Pandey and Qi Yu(参考訳) 信念理論と主観論理に基づいて構築された実証的ディープラーニングは、決定論的ニューラルネットワークの不確実性を認識するための原理的かつ計算効率の高い方法を提供する。 結果の明らかなモデルは、得られた証拠を用いてきめ細かい不確実性を定量化することができる。 理論的に明らかなモデルを確実にするためには、モデルトレーニングと推論に特別なアクティベーション機能を必要とする非負の証拠が必要である。 この制約は、標準的なsoftmaxモデルに比べて予測性能に劣ることが多いため、多くの大規模データセットに拡張するのが困難である。 この非望ましくない行動の本当の原因を明らかにするために、理論的に証拠モデルを調べ、その劣る性能を説明する基本的限界を同定する: 既存の明示的活性化関数はゼロエビデンス領域を作成し、そのような領域に落ちてくるサンプルのトレーニングからモデルが学習することを防ぐ。 我々の理論的根拠に基づく立証活性化関数のより深い分析は、この基本的な限界を効果的に緩和する新しい正規化器の設計を刺激する。 多くの挑戦的な実世界のデータセットと設定に関する広範囲な実験により、理論的な知見を確認し、提案手法の有効性を実証した。

Evidential deep learning, built upon belief theory and subjective logic, offers a principled and computationally efficient way to turn a deterministic neural network uncertainty-aware. The resultant evidential models can quantify fine-grained uncertainty using the learned evidence. To ensure theoretically sound evidential models, the evidence needs to be non-negative, which requires special activation functions for model training and inference. This constraint often leads to inferior predictive performance compared to standard softmax models, making it challenging to extend them to many large-scale datasets. To unveil the real cause of this undesired behavior, we theoretically investigate evidential models and identify a fundamental limitation that explains the inferior performance: existing evidential activation functions create zero evidence regions, which prevent the model to learn from training samples falling into such regions. A deeper analysis of evidential activation functions based on our theoretical underpinning inspires the design of a novel regularizer that effectively alleviates this fundamental limitation. Extensive experiments over many challenging real-world datasets and settings confirm our theoretical findings and demonstrate the effectiveness of our proposed approach.
翻訳日:2023-06-27 20:06:35 公開日:2023-06-24
# MA-NeRF:スパース画像からの顔合成のための運動支援神経放射場

MA-NeRF: Motion-Assisted Neural Radiance Fields for Face Synthesis from Sparse Images ( http://arxiv.org/abs/2306.10350v2 )

ライセンス: Link先を確認
Weichen Zhang, Xiang Zhou, Yukang Cao, Wensen Feng, Chun Yuan(参考訳) スパース画像からの3次元顔アバター合成の課題に対処する。 顔のアバターの復元のための既存のパラメトリックモデルは、入力に由来する詳細を生成するのに苦労しています。 一方、現在のNeRFベースのアバター法は、新しいビュー合成に有望な結果をもたらすが、未知の表現に対してうまく一般化できない。 パラメトリックな3DMMモデルを利用して、高忠実度乾燥可能な顔アバターを再構成し、未知の表現をうまく処理できる新しいフレームワークを提案する。 実装の核となるのは、構造化変位特徴と意味認識学習モジュールです。 構造的変位特性は, 運動を付加的な制約として導入し, 変位量を構成することにより, 未知の表現に対してより良く機能する。 さらに、セマンティック・アウェア・ラーニングには、セマンティック・埋め込み、学習可能な潜在コードなど、複数のレベルの事前処理が組み込まれ、パフォーマンスをより高いレベルに引き上げる。 フレームワークの設計を定量的かつ定性的に実証するために、詳細な実験が行われており、我々の手法は現在の最先端技術よりもはるかに優れた結果が得られる。

We address the problem of photorealistic 3D face avatar synthesis from sparse images. Existing Parametric models for face avatar reconstruction struggle to generate details that originate from inputs. Meanwhile, although current NeRF-based avatar methods provide promising results for novel view synthesis, they fail to generalize well for unseen expressions. We improve from NeRF and propose a novel framework that, by leveraging the parametric 3DMM models, can reconstruct a high-fidelity drivable face avatar and successfully handle the unseen expressions. At the core of our implementation are structured displacement feature and semantic-aware learning module. Our structured displacement feature will introduce the motion prior as an additional constraints and help perform better for unseen expressions, by constructing displacement volume. Besides, the semantic-aware learning incorporates multi-level prior, e.g., semantic embedding, learnable latent code, to lift the performance to a higher level. Thorough experiments have been doen both quantitatively and qualitatively to demonstrate the design of our framework, and our method achieves much better results than the current state-of-the-arts.
翻訳日:2023-06-27 20:05:44 公開日:2023-06-24
# 計算流体力学のためのニューラルマルチグリッドメモリ

Neural Multigrid Memory For Computational Fluid Dynamics ( http://arxiv.org/abs/2306.12545v2 )

ライセンス: Link先を確認
Duc Minh Nguyen, Minh Chau Vu, Tuan Anh Nguyen, Tri Huynh, Nguyen Tri Nguyen, Truong Son Hy(参考訳) 乱流シミュレーションは航空機や船舶の設計、産業プロセス最適化、気象予報など様々な応用において重要な役割を果たす。 本稿では,乱流をシミュレートする高度なデータ駆動手法を提案する。 提案手法は,ビデオ予測変換器 (VPTR) (Ye & Bilodeau, 2022) とマルチグリッドアーキテクチャ (MgConv, MgResnet) (Ke et al., 2017) の長所を組み合わせたものである。 VPTRは複雑な時空間依存のキャプチャと大きな入力データの処理に優れており、乱流の予測には有望な選択肢である。 一方、マルチグリッドアーキテクチャでは、異なる解像度の複数のグリッドを用いて乱流のマルチスケールの性質を捉え、より正確で効率的なシミュレーションを行う。 提案手法であるmgxtransformerを用いて, 様々な地形や流れ条件における非圧縮性乱流の流速, 温度, 乱流強度を正確に予測する実験を行った。 その結果,計算効率を保ちながら,他のベースラインよりも精度が高いことがわかった。 PyTorchの実装はhttps://github.com/Combi2k2/MG-Turbulent-Flowで公開されています。

Turbulent flow simulation plays a crucial role in various applications, including aircraft and ship design, industrial process optimization, and weather prediction. In this paper, we propose an advanced data-driven method for simulating turbulent flow, representing a significant improvement over existing approaches. Our methodology combines the strengths of Video Prediction Transformer (VPTR) (Ye & Bilodeau, 2022) and Multigrid Architecture (MgConv, MgResnet) (Ke et al., 2017). VPTR excels in capturing complex spatiotemporal dependencies and handling large input data, making it a promising choice for turbulent flow prediction. Meanwhile, Multigrid Architecture utilizes multiple grids with different resolutions to capture the multiscale nature of turbulent flows, resulting in more accurate and efficient simulations. Through our experiments, we demonstrate the effectiveness of our proposed approach, named MGxTransformer, in accurately predicting velocity, temperature, and turbulence intensity for incompressible turbulent flows across various geometries and flow conditions. Our results exhibit superior accuracy compared to other baselines, while maintaining computational efficiency. Our implementation in PyTorch is available publicly at https://github.com/Combi2k2/MG-Turbulent-Flow
翻訳日:2023-06-27 19:59:05 公開日:2023-06-24
# コントラスト学習におけるインスタンス間類似性モデリング

Inter-Instance Similarity Modeling for Contrastive Learning ( http://arxiv.org/abs/2306.12243v2 )

ライセンス: Link先を確認
Chengchao Shen, Dawei Liu, Hao Tang, Zhe Qu, Jianxin Wang(参考訳) 既存のコントラスト学習手法は、自然画像間のリッチなインスタンス間類似性を必然的に無視する自己教師付き学習のプリテキストタスクとして、ワンホットのインスタンス識別を広く採用している。 本論文では,視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案し,画像間のインスタンス間類似性をモデル化する。 ViTの特質に従い、ミニバッチからの複数の画像をパッチレベルでランダムに混合し、ViT用の混合画像パッチシーケンスを構築する。 既存のサンプル混合法と比較して,patchmixは2枚以上の画像を柔軟かつ効率的に混合し,自然画像間のより複雑な類似性をシミュレートできる。 このように、我々のコントラスト的枠組みは、現実のコントラスト的目的と基底的真理のギャップを著しく減らすことができる。 実験の結果,提案手法は,ImageNet-1KとCIFARデータセットの双方において,画像Net-1Kの線形精度が3.0%,CIFAR100の8.7%向上した。 さらに,本手法は,下流タスクにおける先行転送性能,オブジェクト検出,COCOデータセット上のインスタンスセグメンテーションを実現する。 コードはhttps://github.com/visresearch/patchmixで入手できる。

The existing contrastive learning methods widely adopt one-hot instance discrimination as pretext task for self-supervised learning, which inevitably neglects rich inter-instance similarities among natural images, then leading to potential representation degeneration. In this paper, we propose a novel image mix method, PatchMix, for contrastive learning in Vision Transformer (ViT), to model inter-instance similarities among images. Following the nature of ViT, we randomly mix multiple images from mini-batch in patch level to construct mixed image patch sequences for ViT. Compared to the existing sample mix methods, our PatchMix can flexibly and efficiently mix more than two images and simulate more complicated similarity relations among natural images. In this manner, our contrastive framework can significantly reduce the gap between contrastive objective and ground truth in reality. Experimental results demonstrate that our proposed method significantly outperforms the previous state-of-the-art on both ImageNet-1K and CIFAR datasets, e.g., 3.0% linear accuracy improvement on ImageNet-1K and 8.7% kNN accuracy improvement on CIFAR100. Moreover, our method achieves the leading transfer performance on downstream tasks, object detection and instance segmentation on COCO dataset. The code is available at https://github.com/visresearch/patchmix
翻訳日:2023-06-27 19:58:43 公開日:2023-06-24
# 6Gエッジネットワークにおける分割学習

Split Learning in 6G Edge Networks ( http://arxiv.org/abs/2306.12194v2 )

ライセンス: Link先を確認
Zheng Lin, Guanqiao Qu, Xianhao Chen, and Kaibin Huang(参考訳) 分散エッジコンピューティングリソースの普及により、6Gモバイルネットワークは、コネクテッドインテリジェンスのためのネットワークへと進化する。 この線に沿って、近年、モバイルエッジにフェデレーション学習を組み込むという提案が大きな関心を集めている。 しかし、大量のリソース制限されたiotデバイスがデバイス上のモデルトレーニングをサポートできないため、フェデレーション学習のデプロイメントは大きな課題に直面している。 これによりスプリットラーニング(SL)が出現し、サーバはデータのプライバシを高めながら、主要なトレーニングワークロードを処理することができる。 本稿では,slにおける重要な進歩の概要と,無線エッジネットワークとのシームレスな統合について述べる。 まず、エッジSLをサポートするために、調整済みの6Gアーキテクチャを図示する。 次に,一辺サーバ下での資源効率学習フレームワークや資源管理戦略など,エッジSLの重要な設計課題について検討する。 さらに、マルチエッジのシナリオにもスコープを広げ、ネットワークの観点からマルチエッジのコラボレーションとモビリティ管理を探求します。 最後に、収束解析、非同期slおよびu字型slを含むエッジslのオープン問題について議論する。

With the proliferation of distributed edge computing resources, the 6G mobile network will evolve into a network for connected intelligence. Along this line, the proposal to incorporate federated learning into the mobile edge has gained considerable interest in recent years. However, the deployment of federated learning faces substantial challenges as massive resource-limited IoT devices can hardly support on-device model training. This leads to the emergence of split learning (SL) which enables servers to handle the major training workload while still enhancing data privacy. In this article, we offer a brief overview of key advancements in SL and articulate its seamless integration with wireless edge networks. We begin by illustrating the tailored 6G architecture to support edge SL. Then, we examine the critical design issues for edge SL, including innovative resource-efficient learning frameworks and resource management strategies under a single edge server. Additionally, we expand the scope to multi-edge scenarios, exploring multi-edge collaboration and mobility management from a networking perspective. Finally, we discuss open problems for edge SL, including convergence analysis, asynchronous SL and U-shaped SL.
翻訳日:2023-06-27 19:58:20 公開日:2023-06-24
# グラフ分類のための構造対応ロバスト性証明書

Structure-Aware Robustness Certificates for Graph Classification ( http://arxiv.org/abs/2306.11915v2 )

ライセンス: Link先を確認
Pierre Osselin, Henry Kenlay and Xiaowen Dong(参考訳) グラフベースの機械学習モデルの堅牢性を証明することは、安全性にとって重要な課題である。 グラフ分類器の現在の堅牢性証明は、ノード対のフリップの総数(エッジ加算またはエッジ削除)に関して出力不変性を保証する。 理論的には魅力的ではあるが、そのような等方性構造ノイズは、いくつかのノード対が他のノードよりも重要な場合、分類器の出力を決定する場合に制限的すぎる可能性がある。 この場合、証明書はグラフモデルの堅牢性に関する悲観的な描写を与える。 この問題に対処するため,入力グラフ構造に異方性雑音分布を付加したランダムな平滑化手法を開発した。 我々のプロセスは、分類器のための構造認識証明書を生成し、これにより、グラフの様々な事前定義された構造に対して、ロバスト性証明書の規模が変化することを示す。 我々は,これらの証明書の利点を合成実験と実世界実験の両方で実証する。

Certifying the robustness of a graph-based machine learning model poses a critical challenge for safety. Current robustness certificates for graph classifiers guarantee output invariance with respect to the total number of node pair flips (edge addition or edge deletion), which amounts to an $l_{0}$ ball centred on the adjacency matrix. Although theoretically attractive, this type of isotropic structural noise can be too restrictive in practical scenarios where some node pairs are more critical than others in determining the classifier's output. The certificate, in this case, gives a pessimistic depiction of the robustness of the graph model. To tackle this issue, we develop a randomised smoothing method based on adding an anisotropic noise distribution to the input graph structure. We show that our process generates structural-aware certificates for our classifiers, whereby the magnitude of robustness certificates can vary across different pre-defined structures of the graph. We demonstrate the benefits of these certificates in both synthetic and real-world experiments.
翻訳日:2023-06-27 19:57:44 公開日:2023-06-24
# 熱2次元混合スピン1/2系の幾何学的位相

Geometric phases for a thermal two-dimensional mixed spin 1/2 system ( http://arxiv.org/abs/2306.11752v2 )

ライセンス: Link先を確認
Y. Ben-Aryeh(参考訳) 混合状態に対する幾何位相を得るための量子力学的手法を解析する。 純粋状態に対する並列輸送方程式は、動的位相を排除した混合状態に一般化される。 混合状態の幾何学的位相はパンチャラトナム相として得られ、これは開サイクルにも有効である。 幾何相は、NMRや中性子干渉実験で用いられるものと異なる混合熱状態のSU(2)変換によって引き起こされる。 ゼロ次ハミルトニアンは、z方向における磁気モーメントと定磁場の相互作用によって与えられるが、本論文で想定される高次摂動は同じz方向の2つの振動磁場からなる。 これらの仮定は、幾何相および干渉強度に関する結果が導出される混合熱状態のSU(2)ユニタリ変換の特別な形式をもたらす。

Quantum mechanical methods for getting geometric phases for mixed states are analyzed. Parallel transport equations for pure states are generalized to mixed states by which dynamical phases are eliminated. The geometric phases of mixed states are obtained as Pancharatnam phases which are valid also for open cycles. The geometric phases are derived here by SU(2) transformations of mixed thermal states which are different from those used in NMR and neutron interference experiments. While the zeroth order Hamiltonian is given by the interaction of a magnetic moment and constant magnetic field in the z direction, the high order perturbations assumed in the present article are composed of two oscillating magnetic fields in the same z direction. These assumptions lead to a special form of the SU(2) unitary transformation of the mixed thermal states by which results for geometric phase and for interference intensity are derived.
翻訳日:2023-06-27 19:56:47 公開日:2023-06-24
# 空間構造量子消去器からの量子状態の工学

Engineering quantum states from a spatially structured quantum eraser ( http://arxiv.org/abs/2306.13821v1 )

ライセンス: Link先を確認
Carlo Schiano, Bereneice Sephton, Roberto Aiello, Francesco Graffitti, Nijil Lal, Andrea Chiuri, Simone Santoro, Luigi Santamaria Amato, Lorenzo Marrucci, Corrado de Lisio, Vincenzo D'Ambrosio(参考訳) 量子干渉は、計算から通信プロトコルまで、多くの量子エンハンシングタスクにおいて中心的な資源である。 通常は同一の入力光子の間に発生するが、量子干渉は量子状態が不明瞭な性質に投影され、光子を区別できない状態にすることで可能となる。 一方、構造光はフォトニクスのもう一つの目印であり、光の自由度を最も基本的なレベルで操作することで達成され、古典的および量子的状態の両方において様々な応用が可能になる。 そこで,これらのアイデアを組み合わせることで,量子干渉を設計・実験し,古典的手法を持たない量子モードの一種である横プロファイルに沿って空間的に構成された結合構造を持つフォトニック状態を設計・設計する。 これを達成するために、偏極の空間的構造化を通じて光子対の識別性を局所的に調整し、構造化量子消去器を作成する。 これらの空間工学的な多光子量子状態は、量子力学、顕微鏡、通信などの分野において重要であると信じている。

Quantum interference is a central resource in many quantum-enhanced tasks, from computation to communication protocols. While it usually occurs between identical input photons, quantum interference can be enabled by projecting the quantum state onto ambiguous properties that render the photons indistinguishable, a process known as a quantum erasing. Structured light, on the other hand, is another hallmark of photonics: it is achieved by manipulating the degrees of freedom of light at the most basic level and enables a multitude of applications in both classical and quantum regimes. By combining these ideas, here we design and experimentally demonstrate a simple and robust scheme that tailors quantum interference to engineer photonic states with spatially structured coalescence along the transverse profile, a type of quantum mode with no classical counterpart. To achieve this, we locally tune the distinguishability of a photon pair via spatial structuring of their polarisation, creating a structured quantum eraser. We believe these spatially-engineered multi-photon quantum states may be of significance in fields such as quantum metrology, microscopy, and communications.
翻訳日:2023-06-27 19:00:48 公開日:2023-06-24
# 事前学習はメタ学習より本当に優れているか?

Is Pre-training Truly Better Than Meta-Learning? ( http://arxiv.org/abs/2306.13841v1 )

ライセンス: Link先を確認
Brando Miranda, Patrick Yu, Saumya Goyal, Yu-Xiong Wang, Sanmi Koyejo(参考訳) 少数ショット学習の文脈では、固定事前学習(pt)モデルは、評価中の最終層を微調整すると同時に、標準的なメタ学習アルゴリズムを上回っていると考えられている。 我々はこれらの主張を再評価し、多種多様なデータセットの詳細な検証を行い、PTとモデル非依存メタラーニング(MAML)を比較した。 以前の作業とは異なり、同じアーキテクチャ、同じオプティマイザ、収束のために訓練されたすべてのモデルを使用することで、公正な比較を強調します。 重要なことは、PTでトレーニングされたモデルとMAMLでトレーニングされたモデルの違いの実用的意義を決定するために、より厳密な統計ツール -- 効果サイズ(コーエンのd)を使います。 次に、以前に提案された指標である多様性係数を使って、データセットの平均的な形式的多様性を計算する。 この分析を用いて, 以下のことを示す。 1.データセットの形式的多様性が低い場合、PTはMAMLを平均で上回り、 2. 形式的多様性が高い場合,MAMLはPTを平均で上回る。 注意すべき点は、効果サイズを用いたptとmamlの平均差の大きさが低く(古典的な統計しきい値により)0.2未満であることである。 しかしながら、この観察は、事前学習されたモデルはメタ学習モデルよりも常に優れているという現在の信念に反している。 当社の広範な実験では,大規模なマイナショット学習データセットを含む,21のマイナショット学習ベンチマークについて検討しています。 また, Openwebtext 上の GPT-2 を用いた MAML モデルと PT モデルとの有意な差も示さなかった。 したがって,事前学習モデルが必ずしもメタ学習モデルに勝っている訳ではなく,データセットの形式的多様性が要因であると結論付ける。

In the context of few-shot learning, it is currently believed that a fixed pre-trained (PT) model, along with fine-tuning the final layer during evaluation, outperforms standard meta-learning algorithms. We re-evaluate these claims under an in-depth empirical examination of an extensive set of formally diverse datasets and compare PT to Model Agnostic Meta-Learning (MAML). Unlike previous work, we emphasize a fair comparison by using: the same architecture, the same optimizer, and all models trained to convergence. Crucially, we use a more rigorous statistical tool -- the effect size (Cohen's d) -- to determine the practical significance of the difference between a model trained with PT vs. a MAML. We then use a previously proposed metric -- the diversity coefficient -- to compute the average formal diversity of a dataset. Using this analysis, we demonstrate the following: 1. when the formal diversity of a data set is low, PT beats MAML on average and 2. when the formal diversity is high, MAML beats PT on average. The caveat is that the magnitude of the average difference between a PT vs. MAML using the effect size is low (according to classical statistical thresholds) -- less than 0.2. Nevertheless, this observation is contrary to the currently held belief that a pre-trained model is always better than a meta-learning model. Our extensive experiments consider 21 few-shot learning benchmarks, including the large-scale few-shot learning dataset Meta-Data set. We also show no significant difference between a MAML model vs. a PT model with GPT-2 on Openwebtext. We, therefore, conclude that a pre-trained model does not always beat a meta-learned model and that the formal diversity of a dataset is a driving factor.
翻訳日:2023-06-27 18:50:22 公開日:2023-06-24
# スケールを超えて:データ品質指標としての多様性係数 LLM は形式的に異なるデータに基づいて事前訓練される

Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data ( http://arxiv.org/abs/2306.13840v1 )

ライセンス: Link先を確認
Alycia Lee, Brando Miranda, Sanmi Koyejo(参考訳) 有能な大規模言語モデル(llm)を事前学習する現在のトレンドは、主にモデルとデータセットサイズのスケーリングに重点を置いている。 しかし、事前学習データの質は強力なLCMを訓練する上で重要な要素であるが、十分に評価されていない誤った概念である。 そこで、最近提案されたTask2Vecの多様性係数を用いて、データ品質の形式的側面を基礎化し、理解し、スケールのみを超えていく。 具体的には、公開事前学習データセットの多様性係数を測定し、それらの形式的多様性が理論的下限および上限と比較して高いことを示す。 さらに、多様性係数の信頼性を高めるために、解釈可能性実験を行い、その係数が多様性の直感的な性質、例えば潜在概念の数が増加するにつれて増加することを確認する。 多様性係数は信頼性が高く、公開可能なLLMデータセットには高い値を示し、LLMのための有用な多様なデータセットを構築するために使用できると推測する。

Current trends to pre-train capable Large Language Models (LLMs) mostly focus on scaling of model and dataset size. However, the quality of pre-training data is an important factor for training powerful LLMs, yet it is a nebulous concept that has not been fully characterized. Therefore, we use the recently proposed Task2Vec diversity coefficient to ground and understand formal aspects of data quality, to go beyond scale alone. Specifically, we measure the diversity coefficient of publicly available pre-training datasets to demonstrate that their formal diversity is high when compared to theoretical lower and upper bounds. In addition, to build confidence in the diversity coefficient, we conduct interpretability experiments and find that the coefficient aligns with intuitive properties of diversity, e.g., it increases as the number of latent concepts increases. We conclude the diversity coefficient is reliable, show it's high for publicly available LLM datasets, and conjecture it can be used to build useful diverse datasets for LLMs.
翻訳日:2023-06-27 18:49:53 公開日:2023-06-24
# DEKGCI:知識グラフとユーザ-テムインタラクショングラフの統合のための両面推薦モデル

DEKGCI: A double-sided recommendation model for integrating knowledge graph and user-item interaction graph ( http://arxiv.org/abs/2306.13837v1 )

ライセンス: Link先を確認
Yajing Yang, Zeyu Zeng, Mao Chen, Ruirui Shang(参考訳) 知識グラフとユーザ-テム相互作用グラフは、ユーザとアイテムをモデリングするための豊富な情報を提供する能力のため、レコメンデーションシステムで頻繁に使用される。 しかし、既存の研究はこれらの情報源(ナレッジグラフやユーザ・テーマ相互作用グラフ)の1つに焦点を合わせ、両方の情報源を統合することで得られる利点を過小に活用していることが多い。 本稿では,新しい2面レコメンデーションモデルであるdekgciを提案する。 dekgciでは,ユーザ間インタラクショングラフからの高次協調信号を用いて,ユーザ側のユーザ表現を充実させる。 さらに,知識グラフからの高次構造情報と意味情報を利用して,項目側における項目表現を充実させる。 DEKGCIはユーザとアイテム表現を同時に学習し、ユーザとアイテム間の共同インタラクションを効果的にキャプチャする。 実世界の3つのデータセットがDECGCIの性能を評価する実験に採用され、実験結果はAUCとACCの7つの最先端ベースラインと比較して高い効果を示した。

Both knowledge graphs and user-item interaction graphs are frequently used in recommender systems due to their ability to provide rich information for modeling users and items. However, existing studies often focused on one of these sources (either the knowledge graph or the user-item interaction graph), resulting in underutilization of the benefits that can be obtained by integrating both sources of information. In this paper, we propose DEKGCI, a novel double-sided recommendation model. In DEKGCI, we use the high-order collaborative signals from the user-item interaction graph to enrich the user representations on the user side. Additionally, we utilize the high-order structural and semantic information from the knowledge graph to enrich the item representations on the item side. DEKGCI simultaneously learns the user and item representations to effectively capture the joint interactions between users and items. Three real-world datasets are adopted in the experiments to evaluate DEKGCI's performance, and experimental results demonstrate its high effectiveness compared to seven state-of-the-art baselines in terms of AUC and ACC.
翻訳日:2023-06-27 18:49:36 公開日:2023-06-24
# 2レベルまたは3レベルの巨大原子に結合した1次元導波路における相関2光子散乱

Correlated two-photon scattering in a 1D waveguide coupled to two- or three-level giant atoms ( http://arxiv.org/abs/2306.13836v1 )

ライセンス: Link先を確認
Wenju Gu, He Huang, Zhen Yi, Lei Chen, Lihui Sun, Huatang Tan(参考訳) 1次元(1次元)導波路の2光子散乱過程を2レベルまたは3レベルの巨大原子にそれぞれ結合させる。 2つの結合点間の累積位相シフトを利用して散乱過程を変化させることができる。 我々は、Lipmann-Schwinger (LS)フォーマリズムに従って、これらの2つの系の正確な相互作用する2光子散乱波動関数を得る。 境界状態の相関によって定義される非コヒーレントスペクトルは、光子-光子相関の有用な指標となる。 2階相関関数は光子-光子相関を直接測定する。 2段階の巨大原子が散乱する光子に対し、累積位相シフトは光子-光子相関を改善し、二階相関の進化を調整できる。 3レベルの巨大原子の系では、光子-光子相関が著しく増加する。 さらに、累積位相シフトをチューニングすることにより、散乱光子の光子-光子相互作用と相関距離をさらに向上させることができる。

We study the two-photon scattering processes in a one-dimensional (1D) waveguide coupled to a two- or three-level giant atom, respectively. The accumulated phase shift between the two coupling points can be utilized to alter the scattering processes. We obtain the exact interacting two-photon scattering wavefunction of these two systems following the Lippmann-Schwinger (LS) formalism, from which the analytical expressions of incoherent power spectra and second-order correlations are also derived. The incoherent spectrum, defined by the correlation of the bound state, serves as a useful indication of photon-photon correlation. The second-order correlation function gives a direct measure of photon-photon correlation. For photons scattered by the two-level giant atom, the accumulated phase shift can be used to improve photon-photon correlation, and adjust the evolution of the second-order correlation. In the system of the three-level giant atom, the photon-photon correlation can be substantially increased. Moreover, the photon-photon interactions and correlation distance of scattered photons can be further enhanced by tuning the accumulated phase shift.
翻訳日:2023-06-27 18:49:16 公開日:2023-06-24
# Computron: モデル並列スワッピングによる分散ディープラーニングモデルの実現

Computron: Serving Distributed Deep Learning Models with Model Parallel Swapping ( http://arxiv.org/abs/2306.13835v1 )

ライセンス: Link先を確認
Daniel Zou, Xinchen Jin, Xueyang Yu, Hao Zhang, James Demmel(参考訳) 現在、言語や画像理解などの分野で最も高性能なディープラーニングモデルは、数十億のパラメータを含む微調整されたモデルである。 このような大規模モデルの多くで異なるタスクを処理するワークロードを想定して、共有gpuクラスタ上で複数の分散モデルを提供するためにメモリスワッピングを使用するcomputronを開発した。 computronは、クラスタのcpu-gpuリンク帯域を集約してモデルパラメータ転送を高速化するモデル並列スワップ設計を実装している。 この設計は、大きなモデルの交換を可能とし、資源利用を改善する。 我々は、Computronが複数のGPU上でモデルスワップの並列化に成功したことを実証し、ランダム化されたワークロードでテストし、バーストネスやスキュードリクエストレートといった現実世界の変動要因を許容できることを示す。 Computronのソースコードはhttps://github.com/dlzou/computron.comで入手できる。

Many of the most performant deep learning models today in fields like language and image understanding are fine-tuned models that contain billions of parameters. In anticipation of workloads that involve serving many of such large models to handle different tasks, we develop Computron, a system that uses memory swapping to serve multiple distributed models on a shared GPU cluster. Computron implements a model parallel swapping design that takes advantage of the aggregate CPU-GPU link bandwidth of a cluster to speed up model parameter transfers. This design makes swapping large models feasible and can improve resource utilization. We demonstrate that Computron successfully parallelizes model swapping on multiple GPUs, and we test it on randomized workloads to show how it can tolerate real world variability factors like burstiness and skewed request rates. Computron's source code is available at https://github.com/dlzou/computron.
翻訳日:2023-06-27 18:48:59 公開日:2023-06-24
# Minigrid & Miniworld: 目標指向タスクのためのモジュール型およびカスタマイズ可能な強化学習環境

Minigrid & Miniworld: Modular & Customizable Reinforcement Learning Environments for Goal-Oriented Tasks ( http://arxiv.org/abs/2306.13831v1 )

ライセンス: Link先を確認
Maxime Chevalier-Boisvert, Bolun Dai, Mark Towers, Rodrigo de Lazcano, Lucas Willems, Salem Lahlou, Suman Pal, Pablo Samuel Castro, Jordan Terry(参考訳) 目標指向の2Dおよび3D環境のスイートを提供するMinigridおよびMiniworldライブラリを提示する。 ライブラリは最小限の設計パラダイムで明示的に作成され、ユーザーは幅広い研究固有のニーズのために新しい環境を迅速に開発できる。 その結果、両者はRLコミュニティによって広く採用され、広範囲の研究が促進された。 本稿では,デザイン哲学,環境詳細,および世界生成APIについて概説する。 また、異なる観測空間間の移動学習(RLエージェントと人間の両方)のケーススタディを通じて、MinigridとMiniworldの統一APIによってもたらされる追加機能についても紹介する。 minigridとminiworldのソースコードは、https://github.com/farama-foundation/{minigrid, miniworld}にある。 farama.org/。

We present the Minigrid and Miniworld libraries which provide a suite of goal-oriented 2D and 3D environments. The libraries were explicitly created with a minimalistic design paradigm to allow users to rapidly develop new environments for a wide range of research-specific needs. As a result, both have received widescale adoption by the RL community, facilitating research in a wide range of areas. In this paper, we outline the design philosophy, environment details, and their world generation API. We also showcase the additional capabilities brought by the unified API between Minigrid and Miniworld through case studies on transfer learning (for both RL agents and humans) between the different observation spaces. The source code of Minigrid and Miniworld can be found at https://github.com/Farama-Foundation/{Minigrid, Miniworld} along with their documentation at https://{minigrid, miniworld}.farama.org/.
翻訳日:2023-06-27 18:48:44 公開日:2023-06-24
# 計量学習による航空機環境影響セグメンテーション

Aircraft Environmental Impact Segmentation via Metric Learning ( http://arxiv.org/abs/2306.13830v1 )

ライセンス: Link先を確認
Zhenyu Gao, Dimitri N. Mavris(参考訳) メトリック学習は、特定のタスクのために調整された距離メトリックを学習するプロセスである。 この高度な機械学習のサブフィールドは、オブジェクト間の距離や類似性の計算に依存する機械学習やデータマイニングタスクに有用である。 近年, 航空機や航空宇宙工学において, 予測, パターン抽出, 知識発見などの機械学習技術が広く用いられている。 それでも、複雑な機械学習タスクのパフォーマンスを前進させる要素であるメトリック学習は、関連する文献ではほとんど使われていない。 本研究では,航空環境影響モデリングに新しい要素を付加した古典的計量学習式を適用する。 弱教師付き計量学習の課題を通じて, 航空機の特性評価と環境影響のセグメンテーションという新たな課題において, 大幅な改善を実現した。 その結果、持続可能な航空において、より効率的で正確な航空機環境影響のモデリングが可能になる。 この研究は、輸送分野における様々な類似の研究において、メートル法学習の可能性と価値を示すデモンストレーションでもある。

Metric learning is the process of learning a tailored distance metric for a particular task. This advanced subfield of machine learning is useful to any machine learning or data mining task that relies on the computation of distances or similarities over objects. In recently years, machine learning techniques have been extensively used in aviation and aerospace engineering to make predictions, extract patterns, discover knowledge, etc. Nevertheless, metric learning, an element that can advance the performance of complex machine learning tasks, has so far been hardly utilized in relevant literature. In this study, we apply classic metric learning formulations with novel components on aviation environmental impact modeling. Through a weakly-supervised metric learning task, we achieve significant improvement in the newly emerged problem of aircraft characterization and segmentation for environmental impacts. The result will enable the more efficient and accurate modeling of aircraft environmental impacts, a focal topic in sustainable aviation. This work is also a demonstration that shows the potential and value of metric learning in a wide variety of similar studies in the transportation domain.
翻訳日:2023-06-27 18:48:27 公開日:2023-06-24
# 一般モデルに対するランダム化群ラスソ推定器を用いた選択推論

Selective inference using randomized group lasso estimators for general models ( http://arxiv.org/abs/2306.13829v1 )

ライセンス: Link先を確認
Yiling Huang, Sarah Pirenne, Snigdha Panigrahi, Gerda Claeskens(参考訳) 多様な分布と損失関数を持つ群ラッソ推定器に対して選択的推論法を開発した。 この方法は指数関数的家族分布の使用や、過剰分散数データに対する準類似モデリングなどを含み、連続共変量と同様に分類的あるいはグループ化された共変量も可能である。 ランダム化群正規化最適化問題について検討する。 追加のランダム化により、群付き共変量の選択のイベントを条件付ける際に、選択推論に適していることを示す選択後可能性を構築することができる。 この可能性はまた、群 lasso の選択を考慮した選択点推定器を提供する。 選択されたモデルにおける回帰パラメータの信頼領域は、ウォルド型領域の形式をとり、境界体積を持つことを示す。 本手法は,全国保健栄養検査調査から得られたデータに基づいて,その行動と他の手法との比較をシミュレーションにより示すものである。

Selective inference methods are developed for group lasso estimators for use with a wide class of distributions and loss functions. The method includes the use of exponential family distributions, as well as quasi-likelihood modeling for overdispersed count data, for example, and allows for categorical or grouped covariates as well as continuous covariates. A randomized group-regularized optimization problem is studied. The added randomization allows us to construct a post-selection likelihood which we show to be adequate for selective inference when conditioning on the event of the selection of the grouped covariates. This likelihood also provides a selective point estimator, accounting for the selection by the group lasso. Confidence regions for the regression parameters in the selected model take the form of Wald-type regions and are shown to have bounded volume. The selective inference method for grouped lasso is illustrated on data from the national health and nutrition examination survey while simulations showcase its behaviour and favorable comparison with other methods.
翻訳日:2023-06-27 18:48:11 公開日:2023-06-24
# グラフニューラルネットワークのための一般化された$f$-Meanアグリゲーション

Generalised $f$-Mean Aggregation for Graph Neural Networks ( http://arxiv.org/abs/2306.13826v1 )

ライセンス: Link先を確認
Ryan Kortvelesy, Steven Morad, Amanda Prorok(参考訳) グラフニューラルネットワーク(GNN)アーキテクチャは、更新および集約モジュールの実装によって定義される。 多くの作業は更新モジュールをパラメトリズする新しい方法に焦点を当てているが、アグリゲーションモジュールは比較的ほとんど注目されない。 集約関数のパラメライズが難しいため、現在のほとんどのメソッドは $\mathrm{mean}$, $\mathrm{sum}$, $\mathrm{max}$ のような「標準集約子」を選択する。 この選択は理由もなく行われることが多いが、アグリゲータの選択はパフォーマンスに大きな影響を与え、アグリゲータの最良の選択は問題依存であることが示されている。 集約はロッキーな操作であるため、情報損失を最小限に抑えるために最も適切なアグリゲータを選択することが重要である。 本稿では,すべての標準アグリゲータを含む関数空間をパラメータとする一般化アグリゲーション演算子genaggを提案する。 実験の結果,GenAggは標準アグリゲータをベースライン法よりもはるかに高い精度で表現できることがわかった。 また、GNNにおける既存のアグリゲータのドロップイン代替としてGenAggを使用することで、様々なタスクにおけるパフォーマンスが大幅に向上することを示す。

Graph Neural Network (GNN) architectures are defined by their implementations of update and aggregation modules. While many works focus on new ways to parametrise the update modules, the aggregation modules receive comparatively little attention. Because it is difficult to parametrise aggregation functions, currently most methods select a "standard aggregator" such as $\mathrm{mean}$, $\mathrm{sum}$, or $\mathrm{max}$. While this selection is often made without any reasoning, it has been shown that the choice in aggregator has a significant impact on performance, and the best choice in aggregator is problem-dependent. Since aggregation is a lossy operation, it is crucial to select the most appropriate aggregator in order to minimise information loss. In this paper, we present GenAgg, a generalised aggregation operator, which parametrises a function space that includes all standard aggregators. In our experiments, we show that GenAgg is able to represent the standard aggregators with much higher accuracy than baseline methods. We also show that using GenAgg as a drop-in replacement for an existing aggregator in a GNN often leads to a significant boost in performance across various tasks.
翻訳日:2023-06-27 18:47:54 公開日:2023-06-24
# 精度優先メカニズムのための適応的プライバシー構成

Adaptive Privacy Composition for Accuracy-first Mechanisms ( http://arxiv.org/abs/2306.13824v1 )

ライセンス: Link先を確認
Ryan Rogers and Gennady Samorodnitsky and Zhiwei Steven Wu and Aaditya Ramdas(参考訳) 差分プライバシーの多くの実践的応用において、実践者は、目標とする精度のレベルに属する最高のプライバシー保証を提供することを目指している。 最近の研究で、WhitehouseWuRaRo22} は 'emph{noise reduction}' というアイデアを活用して、十分な統計量に相関ノイズを加え、より正確な解列を生成することによって、そのような精度優先のメカニズムを開発した。 ノイズ低減メカニズムの大きな利点は、アナリストがリリースした最もノイズが少ない、あるいは最も正確な回答のプライバシーコストのみを支払うことだ。 この魅力ある特性を分離したものの、他の微分的プライベートなメカニズムと併用する方法に関する体系的な研究は行われていない。 根本的な課題は、ノイズ低減メカニズムのプライバシー保証が(必要に応じて) \emph{ex-post privacy} として定式化されていることである。 さらに、ex-postのプライベートメカニズムがどのように構成され、いくつかのメカニズムで蓄積されたプライバシを追跡できるかについては、まだ研究されていない。 我々は,プライバシー保証の対象となる,差分プライベートとポストプライベートのメカニズムを適応的に切り替えることのできるプライバシフィルタ \citep{RogersRoUlVa16,FeldmanZr21,WhitehouseRaRoWu22} を開発した。

In many practical applications of differential privacy, practitioners seek to provide the best privacy guarantees subject to a target level of accuracy. A recent line of work by \cite{LigettNeRoWaWu17, WhitehouseWuRaRo22} has developed such accuracy-first mechanisms by leveraging the idea of \emph{noise reduction} that adds correlated noise to the sufficient statistic in a private computation and produces a sequence of increasingly accurate answers. A major advantage of noise reduction mechanisms is that the analysts only pay the privacy cost of the least noisy or most accurate answer released. Despite this appealing property in isolation, there has not been a systematic study on how to use them in conjunction with other differentially private mechanisms. A fundamental challenge is that the privacy guarantee for noise reduction mechanisms is (necessarily) formulated as \emph{ex-post privacy} that bounds the privacy loss as a function of the released outcome. Furthermore, there has yet to be any study on how ex-post private mechanisms compose, which allows us to track the accumulated privacy over several mechanisms. We develop privacy filters \citep{RogersRoUlVa16, FeldmanZr21, WhitehouseRaRoWu22} that allow an analyst to adaptively switch between differentially private and ex-post private mechanisms subject to an overall privacy guarantee.
翻訳日:2023-06-27 18:47:30 公開日:2023-06-24
# Action Q-Transformer:アクションクエリを用いたエンコーダ・デコーダモデルによる深層強化学習における視覚的説明

Action Q-Transformer: Visual Explanation in Deep Reinforcement Learning with Encoder-Decoder Model using Action Query ( http://arxiv.org/abs/2306.13879v1 )

ライセンス: Link先を確認
Hidenori Itaya, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, Komei Sugiura(参考訳) 教師付き学習におけるトランスフォーマーの優れた性能は、多種多様な問題において高い性能を達成するための深層強化学習(DRL)への潜在的な応用への関心を高めている。 しかし、DRLエージェントの決定はブラックボックスであり、現実世界の問題へのエージェントの適用を著しく妨げている。 そこで本研究では,Qラーニングに基づくDRL法に変換器エンコーダ・デコーダ構造を導入したAQT(Action Q-Transformer)を提案する。 aqtでは、エンコーダは状態値関数を計算し、デコーダはアドバンテージ関数を計算してエージェントの意思決定を示す異なる注意の獲得を促進する。 AQTのデコーダは、各アクションの情報を表すアクションクエリをクエリとして利用する。 これにより、状態値と各アクションに対する注意を得ることができます。 エージェントの意思決定を詳述したこれらの注意点を取得し,視覚化することにより,高い解釈性を有するDRLモデルを実現する。 本稿では,Atari 2600ゲームにおける注意の可視化により,各種ゲームタスクにおけるエージェントの意思決定を詳細に分析できることを示す。 さらに,実験結果から,いくつかのゲームにおいて,ベースラインよりも高い性能が得られることが示された。

The excellent performance of Transformer in supervised learning has led to growing interest in its potential application to deep reinforcement learning (DRL) to achieve high performance on a wide variety of problems. However, the decision making of a DRL agent is a black box, which greatly hinders the application of the agent to real-world problems. To address this problem, we propose the Action Q-Transformer (AQT), which introduces a transformer encoder-decoder structure to Q-learning based DRL methods. In AQT, the encoder calculates the state value function and the decoder calculates the advantage function to promote the acquisition of different attentions indicating the agent's decision-making. The decoder in AQT utilizes action queries, which represent the information of each action, as queries. This enables us to obtain the attentions for the state value and for each action. By acquiring and visualizing these attentions that detail the agent's decision-making, we achieve a DRL model with high interpretability. In this paper, we show that visualization of attention in Atari 2600 games enables detailed analysis of agents' decision-making in various game tasks. Further, experimental results demonstrate that our method can achieve higher performance than the baseline in some games.
翻訳日:2023-06-27 18:42:15 公開日:2023-06-24
# 時空間結合に基づくズーム強調のための実世界ビデオ

Real-World Video for Zoom Enhancement based on Spatio-Temporal Coupling ( http://arxiv.org/abs/2306.13875v1 )

ライセンス: Link先を確認
Zhiling Guo, Yinqiang Zheng, Haoran Zhang, Xiaodan Shi, Zekun Cai, Ryosuke Shibasaki, Jinyue Yan(参考訳) 近年、ズーム効果を考慮し、実世界の短焦点・長焦点画像ペアを用いることにより、sr(single-frame image super- resolution)がより現実的になっている。 本稿では,時空間情報結合によるズーム品質向上を実現するために,現実的なマルチフレームクリップの適用可能性について検討する。 具体的には、同期共軸光学系による実世界のビデオベンチマークであるvideorawを構築した。 データセットには、異なるダイナミックシーンのショートフォーカスとロングフォーカスのsRGBビデオが含まれている。 ビデオRAWに基づいて,STCLと呼ばれる時空間結合損失を示した。 提案するSTCLは,2つのフレームと隣接するフレームからの情報を利用して,時間的・空間的に特徴の整合と融合を図る。 異なるズームシナリオで得られた比較実験の結果から,実世界の映像データセットとstclを既存のsrモデルに統合して画質を向上できることが示され,提案手法が映像ズームの先進的かつ実行可能なツールとして機能できることが判明した。

In recent years, single-frame image super-resolution (SR) has become more realistic by considering the zooming effect and using real-world short- and long-focus image pairs. In this paper, we further investigate the feasibility of applying realistic multi-frame clips to enhance zoom quality via spatio-temporal information coupling. Specifically, we first built a real-world video benchmark, VideoRAW, by a synchronized co-axis optical system. The dataset contains paired short-focus raw and long-focus sRGB videos of different dynamic scenes. Based on VideoRAW, we then presented a Spatio-Temporal Coupling Loss, termed as STCL. The proposed STCL is intended for better utilization of information from paired and adjacent frames to align and fuse features both temporally and spatially at the feature level. The outperformed experimental results obtained in different zoom scenarios demonstrate the superiority of integrating real-world video dataset and STCL into existing SR models for zoom quality enhancement, and reveal that the proposed method can serve as an advanced and viable tool for video zoom.
翻訳日:2023-06-27 18:41:52 公開日:2023-06-24
# 力学系のモデリングと制御のための物理インフォームド機械学習

Physics-Informed Machine Learning for Modeling and Control of Dynamical Systems ( http://arxiv.org/abs/2306.13867v1 )

ライセンス: Link先を確認
Truong X. Nghiem (1), J\'an Drgo\v{n}a (2), Colin Jones (3), Zoltan Nagy (4), Roland Schwan (3), Biswadip Dey (5), Ankush Chakrabarty (6), Stefano Di Cairano (6), Joel A. Paulson (7), Andrea Carron (8), Melanie N. Zeilinger (8), Wenceslao Shaw Cortez (2), and Draguna L. Vrabie (2) ((1) School of Informatics, Computing, and Cyber Systems, Northern Arizona University, Flagstaff, USA, (2) Pacific Northwest National Laboratory, Richland, USA, (3) EPFL, Switzerland, (4) The University of Texas at Austin, USA, (5) Siemens Corporation Technology, Princeton, USA, (6) Mitsubishi Electric Research Laboratories, Cambridge, USA, (7) The Ohio State University, Columbus, USA, (8) ETH Zurich, Switzerland)(参考訳) 物理インフォームド・機械学習(英: Physics-informed machine learning、PIML)は、機械学習(ML)アルゴリズムを物理的制約と抽象数学的モデルと体系的に統合する手法とツールのセットである。 純粋にデータ駆動の手法とは対照的に、PIMLモデルはエネルギーや大量保存といった物理法則を強制することによって得られる追加情報から訓練することができる。 より広範に、PIMLモデルは、安定性、凸性、不変性などの抽象的性質や条件を含むことができる。 PIMLの基本前提は、MLと物理の統合により、より効率的で、物理的に一貫性があり、データ効率のよいモデルが得られることである。 本稿では,動的システムモデリングと制御のためのPIMLの最近の進歩に関するチュートリアル的な概要を提供する。 具体的には、以下のトピックに関する理論、基本的な概念、方法、ツール、応用について概説する。 1) システム識別のための物理情報学習 2)制御のための物理情報学習 3) pimlモデルの解析と検証,及び 4)物理インフォームドデジタル双生児。 本論文は,オープンチャレンジと今後の研究機会を視点としてまとめる。

Physics-informed machine learning (PIML) is a set of methods and tools that systematically integrate machine learning (ML) algorithms with physical constraints and abstract mathematical models developed in scientific and engineering domains. As opposed to purely data-driven methods, PIML models can be trained from additional information obtained by enforcing physical laws such as energy and mass conservation. More broadly, PIML models can include abstract properties and conditions such as stability, convexity, or invariance. The basic premise of PIML is that the integration of ML and physics can yield more effective, physically consistent, and data-efficient models. This paper aims to provide a tutorial-like overview of the recent advances in PIML for dynamical system modeling and control. Specifically, the paper covers an overview of the theory, fundamental concepts and methods, tools, and applications on topics of: 1) physics-informed learning for system identification; 2) physics-informed learning for control; 3) analysis and verification of PIML models; and 4) physics-informed digital twins. The paper is concluded with a perspective on open challenges and future research opportunities.
翻訳日:2023-06-27 18:41:34 公開日:2023-06-24
# MIRACLE:多タスク学習に基づく共通潜伏エピジェネティックスによる自己免疫疾患の解釈制御

MIRACLE: Multi-task Learning based Interpretable Regulation of Autoimmune Diseases through Common Latent Epigenetics ( http://arxiv.org/abs/2306.13866v1 )

ライセンス: Link先を確認
Pengcheng Xu, Jinpu Cai, Yulin Gao, Ziqi Rong, Hongyi Xin(参考訳) DNAメチル化は遺伝子転写の重要な調節因子であり、自己免疫疾患やがんなど様々な疾患と関連付けられている。 しかし、DNAメチル化に基づく診断は、大きな特徴セットと小さなサンプルサイズのために困難に直面し、過度な適合と準最適性能をもたらす。 これらの問題に対処するために、オートエンコーダに基づくマルチタスク学習を利用して複数のデータセットを統合し、DNAメチル化の共通パターンを共同で識別する新しい解釈可能なニューラルネットワークであるMIRACLEを提案する。 MIRACLEのアーキテクチャはメチル化部位、遺伝子、経路間の関係を反映し、生物学的解釈性と意味性を保証する。 ネットワークは、遺伝の基本的な単位として経路情報を表すボトルネック層を有するエンコーダとデコーダとを備える。 カスタマイズされたマスクドリニア層は、説明可能性を提供し、サイト-ジェネ-パスウェイ階層構造を明示的に表現するsite-gene-pathway graph adjacency matrix情報によって制約される。 そして埋め込みから、病気を予測するための様々なマルチタスク分類器が存在する。 慢性関節リウマチ、全身性エリテマトーデス、多発性硬化症、炎症性腸疾患、乾皮症、MIRACLEの6つのデータセットで試験されたMIRACLEは、異なる表現型間でのDNAメチル化の共通機能を同定する上で、ベースライン法よりも高い精度で、堅牢な性能を示す。 生物学的事前知識を取り入れることで、MIRACLEは自己免疫疾患の文脈において、DNAメチル化データ解析のための有意義で解釈可能なフレームワークを提供する。

DNA methylation is a crucial regulator of gene transcription and has been linked to various diseases, including autoimmune diseases and cancers. However, diagnostics based on DNA methylation face challenges due to large feature sets and small sample sizes, resulting in overfitting and suboptimal performance. To address these issues, we propose MIRACLE, a novel interpretable neural network that leverages autoencoder-based multi-task learning to integrate multiple datasets and jointly identify common patterns in DNA methylation. MIRACLE's architecture reflects the relationships between methylation sites, genes, and pathways, ensuring biological interpretability and meaningfulness. The network comprises an encoder and a decoder, with a bottleneck layer representing pathway information as the basic unit of heredity. Customized defined MaskedLinear Layer is constrained by site-gene-pathway graph adjacency matrix information, which provides explainability and expresses the site-gene-pathway hierarchical structure explicitly. And from the embedding, there are different multi-task classifiers to predict diseases. Tested on six datasets, including rheumatoid arthritis, systemic lupus erythematosus, multiple sclerosis, inflammatory bowel disease, psoriasis, and type 1 diabetes, MIRACLE demonstrates robust performance in identifying common functions of DNA methylation across different phenotypes, with higher accuracy in prediction dieseases than baseline methods. By incorporating biological prior knowledge, MIRACLE offers a meaningful and interpretable framework for DNA methylation data analysis in the context of autoimmune diseases.
翻訳日:2023-06-27 18:41:17 公開日:2023-06-24
# ierl: 解釈可能なアンサンブル表現学習 -- クラウドソース知識と分散意味表現を組み合わせる

IERL: Interpretable Ensemble Representation Learning -- Combining CrowdSourced Knowledge and Distributed Semantic Representations ( http://arxiv.org/abs/2306.13865v1 )

ライセンス: Link先を確認
Yuxin Zi, Kaushik Roy, Vignesh Narayanan, Manas Gaur, Amit Sheth(参考訳) 大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。 分散意味論は、大量のデータから言語トークン(単語、句、文)間の共通統計パターンをキャプチャする。 LLMは、入力トークンの意味に対するモデルの理解をテストするために設計された言語理解評価(GLUE)タスクに対して、はるかにうまく機能する。 しかし、最近の研究では、LLMはトレーニング中にめったに見られなかった入力や様々な文脈(例えば言語生成タスクにおけるよく知られた幻覚現象)に関連付けられた入力を処理する際に、出力として意図しない、一貫性のない、または間違ったテキストを生成する傾向があることが示されている。 ConceptNetのようなクラウドソーシングおよび専門家による知識グラフは、明確に定義されたコンテキストのコンパクトなセットから単語の意味を捉えるように設計されている。 したがって、LCMはそのような知識コンテキストを活用することで、出力の不整合を減らすことができる。 本稿では,LLMとクラウドソースによる入力トークンの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。 IERLは、最先端技術(SOTA)メソッドよりも、設計によって解釈可能な(LLMコンテキストとLLMコンテキストはいつ使用されるのか?)という明確な利点があり、モデルのパラメータと組み合わせて入力の精査を可能にし、モデルの一貫性や無関係な出力の分析を容易にする。 IERL は LLM の選択やクラウドソースの知識に依存しないが,BERT と ConceptNet を用いたアプローチを実証する。 我々は,現在のSOTA法よりもGLUEタスク間でのIERLの改良や競争性を報告し,モデル解釈可能性を大幅に向上させた。

Large Language Models (LLMs) encode meanings of words in the form of distributed semantics. Distributed semantics capture common statistical patterns among language tokens (words, phrases, and sentences) from large amounts of data. LLMs perform exceedingly well across General Language Understanding Evaluation (GLUE) tasks designed to test a model's understanding of the meanings of the input tokens. However, recent studies have shown that LLMs tend to generate unintended, inconsistent, or wrong texts as outputs when processing inputs that were seen rarely during training, or inputs that are associated with diverse contexts (e.g., well-known hallucination phenomenon in language generation tasks). Crowdsourced and expert-curated knowledge graphs such as ConceptNet are designed to capture the meaning of words from a compact set of well-defined contexts. Thus LLMs may benefit from leveraging such knowledge contexts to reduce inconsistencies in outputs. We propose a novel ensemble learning method, Interpretable Ensemble Representation Learning (IERL), that systematically combines LLM and crowdsourced knowledge representations of input tokens. IERL has the distinct advantage of being interpretable by design (when was the LLM context used vs. when was the knowledge context used?) over state-of-the-art (SOTA) methods, allowing scrutiny of the inputs in conjunction with the parameters of the model, facilitating the analysis of models' inconsistent or irrelevant outputs. Although IERL is agnostic to the choice of LLM and crowdsourced knowledge, we demonstrate our approach using BERT and ConceptNet. We report improved or competitive results with IERL across GLUE tasks over current SOTA methods and significantly enhanced model interpretability.
翻訳日:2023-06-27 18:40:46 公開日:2023-06-24
# Learning-to-Rank Meets Language: 正規分類のための言語駆動順序付けの強化

Learning-to-Rank Meets Language: Boosting Language-Driven Ordering Alignment for Ordinal Classification ( http://arxiv.org/abs/2306.13856v1 )

ライセンス: Link先を確認
Rui Wang, Peipei Li, Huaibo Huang, Chunshui Cao, Ran He, Zhaofeng He(参考訳) 順序分類のための新しい言語駆動順序付け手法を提案する。 順序分類のラベルには追加の順序関係が含まれており、トレーニングデータのみに依存する場合、オーバーフィットしやすい。 最近の事前訓練された視覚言語モデルの発展は、人間の言語における豊かな序列を、元のタスクを視覚言語アライメントタスクに変換することによって活用することを促す。 そこで本稿では,L2RCLIPを提案する。 まず,従来のランクプロンプトの順序付け関係を強化するために,RandFormerという補完的なプロンプトチューニング手法を導入する。 トークンレベルの注意と、単語埋め込み空間における残差スタイルのプロンプトブレンドを用いる。 第二に,言語事前化をさらに取り入れるために,バニラクロスエントロピー損失の近似境界最適化を再検討し,それをクロスモーダル埋め込み空間に再構成する。 そこで本研究では,テキストと画像がセマンティックアライメントと秩序アライメントの両方を維持できるCLIP特徴空間を洗練するための,クロスモーダルな順序対ロスを提案する。 顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,審美評価など,3つの日常的分類課題に対する広範囲な実験は,その有望な性能を示す。

We present a novel language-driven ordering alignment method for ordinal classification. The labels in ordinal classification contain additional ordering relations, making them prone to overfitting when relying solely on training data. Recent developments in pre-trained vision-language models inspire us to leverage the rich ordinal priors in human language by converting the original task into a vision-language alignment task. Consequently, we propose L2RCLIP, which fully utilizes the language priors from two perspectives. First, we introduce a complementary prompt tuning technique called RankFormer, designed to enhance the ordering relation of original rank prompts. It employs token-level attention with residual-style prompt blending in the word embedding space. Second, to further incorporate language priors, we revisit the approximate bound optimization of vanilla cross-entropy loss and restructure it within the cross-modal embedding space. Consequently, we propose a cross-modal ordinal pairwise loss to refine the CLIP feature space, where texts and images maintain both semantic alignment and ordering alignment. Extensive experiments on three ordinal classification tasks, including facial age estimation, historical color image (HCI) classification, and aesthetic assessment demonstrate its promising performance.
翻訳日:2023-06-27 18:40:12 公開日:2023-06-24
# 相似性保存逆グラフコントラスト学習

Similarity Preserving Adversarial Graph Contrastive Learning ( http://arxiv.org/abs/2306.13854v1 )

ライセンス: Link先を確認
Yeonjun In, Kanghoon Yoon, Chanyoung Park(参考訳) 近年の研究では、GNNモデルは、グラフ構造やノードの特徴に対する知覚不能な摂動を参照して、敵攻撃に弱いことが示されている。 グラフコントラッシブ・ラーニング(GCL)に基づく手法は、グラフが攻撃された際に既にノイズを含む元のグラフから派生した自己超越信号に大きく依存する固有の設計のため、特に敵対的攻撃に苦しむ。 このような攻撃に対する敵対的堅牢性を達成するため、既存の手法では、攻撃されたグラフをGCLフレームワークの強化とみなすGCLフレームワークに対する敵的訓練(AT)を採用している。 しかし,既存の逆向き学習したGCL手法は,ノードの特徴的類似性を保たずに頑健性が得られることがわかった。 本稿では,異なる特性の2つの補助的なビュー(すなわちノード類似性保存ビューと逆方向ビュー)と,クリーングラフを対比する類似性保存型逆向き学習(SP-AGCL)フレームワークを提案する。 大規模な実験により、SP-AGCLはいくつかの下流タスクにおいて競争力を発揮し、敵攻撃、雑音ラベル、異種近傍のネットワークなど、様々なシナリオにおいてその効果を示す。 私たちのコードはhttps://github.com/yeonjun-in/torch-sp-agclで利用可能です。

Recent works demonstrate that GNN models are vulnerable to adversarial attacks, which refer to imperceptible perturbation on the graph structure and node features. Among various GNN models, graph contrastive learning (GCL) based methods specifically suffer from adversarial attacks due to their inherent design that highly depends on the self-supervision signals derived from the original graph, which however already contains noise when the graph is attacked. To achieve adversarial robustness against such attacks, existing methods adopt adversarial training (AT) to the GCL framework, which considers the attacked graph as an augmentation under the GCL framework. However, we find that existing adversarially trained GCL methods achieve robustness at the expense of not being able to preserve the node feature similarity. In this paper, we propose a similarity-preserving adversarial graph contrastive learning (SP-AGCL) framework that contrasts the clean graph with two auxiliary views of different properties (i.e., the node similarity-preserving view and the adversarial view). Extensive experiments demonstrate that SP-AGCL achieves a competitive performance on several downstream tasks, and shows its effectiveness in various scenarios, e.g., a network with adversarial attacks, noisy labels, and heterophilous neighbors. Our code is available at https://github.com/yeonjun-in/torch-SP-AGCL.
翻訳日:2023-06-27 18:39:49 公開日:2023-06-24
# 鏡による不規則化制御への統一的アプローチ

A Unified Approach to Controlling Implicit Regularization via Mirror Descent ( http://arxiv.org/abs/2306.13853v1 )

ライセンス: Link先を確認
Haoyuan Sun, Khashayar Gatmiry, Kwangjun Ahn, Navid Azizan(参考訳) ディープニューラルネットワークの成功に触発されて、過パラメータモデルの一般化性能を理解することには大きな関心が寄せられている。 最適化アルゴリズムが「推奨」解を通じて一般化にどのように影響するかを特徴づけることに、実質的な努力が注がれている。 特に、勾配降下 (gd) は回帰問題や分類問題において暗黙の$\ell_2$-norm正規化を引き起こすと論じられている。 しかし、異なるアルゴリズムの暗黙正則化は特定の幾何学または特定の学習問題に限られており、暗黙正則化を制御する一般的なアプローチのギャップを示している。 そこで本研究では、GDの顕著な一般化であるミラー降下(MD)を用いて、回帰と分類の両方の設定において暗黙の正規化を制御する統一的なアプローチを提案する。 より具体的には、一様ポテンシャル関数の一般クラスを持つMDが線形分類問題に対する一般化最大マージン解に収束していることを示し、したがって分類設定における長年の疑問に答える。 さらに, MDを効率よく, 適切な条件下で実装でき, 高速収束を享受できることを示す。 包括的実験により、md は異なる正規化子を持つ学習モデルを生成するための多用途な手法であることを示した。

Inspired by the remarkable success of deep neural networks, there has been significant interest in understanding the generalization performance of overparameterized models. Substantial efforts have been invested in characterizing how optimization algorithms impact generalization through their "preferred" solutions, a phenomenon commonly referred to as implicit regularization. In particular, it has been argued that gradient descent (GD) induces an implicit $\ell_2$-norm regularization in regression and classification problems. However, the implicit regularization of different algorithms are confined to either a specific geometry or a particular class of learning problems, indicating a gap in a general approach for controlling the implicit regularization. To address this, we present a unified approach using mirror descent (MD), a notable generalization of GD, to control implicit regularization in both regression and classification settings. More specifically, we show that MD with the general class of homogeneous potential functions converges in direction to a generalized maximum-margin solution for linear classification problems, thereby answering a long-standing question in the classification setting. Further, we show that MD can be implemented efficiently and under suitable conditions, enjoys fast convergence. Through comprehensive experiments, we demonstrate that MD is a versatile method to produce learned models with different regularizers, which in turn have different generalization performances.
翻訳日:2023-06-27 18:39:20 公開日:2023-06-24
# 放射線の励起放出とブラックホール情報問題

Stimulated Emission of Radiation and the Black Hole Information Problem ( http://arxiv.org/abs/2306.13845v1 )

ライセンス: Link先を確認
Christoph Adami (Michigan State University)(参考訳) ブラックホールの量子論は一般相対性理論と量子場理論の交点を研究するための窓を開いたが、ブラックホールの地平線に向けられた古典的情報の運命と蒸発過程のユニタリシティに関するパラドックスが認識され、研究者は物理学の真の基礎に疑問を呈するようになった。 本論では、ブラックホールが自然に放射するだけでなく、これらのフィールドの近似クローンを刺激的に放出することで、落下物質や放射線にも反応するという事実の分岐を明らかにする。 アインシュタインのブラックホール処理に基づく初期の純粋に統計的な議論をレビューし、ブラックホールのホレボ容量(古典的な情報を量子チャネルで伝達する能力)が常に正であることを示します。 次に、刺激された放出がブラックホールをほぼ最適な量子クローンマシンにする方法を示し、さらにブラックホールの量子情報伝達能力について論じる。 ブラックホール物理学と非線形光学の類似性を利用すると、ブラックホールの時間経過に伴う進化の計算は、ブラックホールの$s$-matrix経路積分の離散化を用いて、ブラックホール蒸発がユニタリであることを示唆する優れたページ曲線が得られる。 最後に、ブラックホールの放射線放射の観測可能な結果について推測する。

The quantum theory of black holes has opened up a window to study the intersection of general relativity and quantum field theory, but perceived paradoxes concerning the fate of classical information directed at a black hole horizon, as well as concerning the unitarity of the evaporation process, have led researchers to question the very foundations of physics. In this pedagogical review I clarify the ramifications of the fact that black holes not only emit radiation spontaneously, but also respond to infalling matter and radiation by emitting approximate clones of those fields in a stimulated manner. I review early purely statistical arguments based on Einstein's treatment of black bodies, and then show that the Holevo capacity of the black hole (the capacity to transmit classical information through a quantum channel) is always positive. I then show how stimulated emission turns the black hole into an almost optimal quantum cloning machine, and furthermore discuss the capacity of black holes to transmit quantum information. Taking advantage of an analogy between black hole physics and non-linear optics I show that a calculation of the evolution of a black hole over time, using a discretization of the black hole $S$-matrix path integral, yields well-behaved Page curves suggesting that black hole evaporation is unitary. Finally, I speculate about possible observable consequences of stimulated emission of radiation in black holes.
翻訳日:2023-06-27 18:38:56 公開日:2023-06-24
# 回転制約を考慮した光音響画像再構成のためのスコアベース生成モデル

Score-based Generative Models for Photoacoustic Image Reconstruction with Rotation Consistency Constraints ( http://arxiv.org/abs/2306.13843v1 )

ライセンス: Link先を確認
Shangqing Tong, Hengrong Lan, Liming Nie, Jianwen Luo and Fei Gao(参考訳) 光音響トモグラフィ(英: Photoacoustic tomography, PAT)は、高光コントラストと音響透過深度の両方を可能にする新しい画像モダリティである。 光音響トモグラフィーの画像の再構成は,光音響イメージングにおける大きな課題の一つである。 深層学習に基づく先行研究は教師ありの方法で訓練され、入力された部分的なセンサデータを全視野で再構築された地上の真実に直接マッピングする。 近年、スコアベースの生成モデルは生成モデリングにおいてますます重要な役割を担っている。 この確率モデルを活用することで、ランゲヴィンダイナミクスと画像と測定値の回転整合性を利用した制約項の反復サンプリングによりPAT画像を復元する回転整合性制約付きスコアベース生成モデル(RCC-SGM)を提案する。 提案手法は,異なる測定プロセス(ランダムサンプリング法では32.29 PSNR,教師付き手法では28.50)に一般化でき,教師付き手法では特定の逆写像を訓練する必要がある。

Photoacoustic tomography (PAT) is a newly emerged imaging modality which enables both high optical contrast and acoustic depth of penetration. Reconstructing images of photoacoustic tomography from limited amount of senser data is among one of the major challenges in photoacoustic imaging. Previous works based on deep learning were trained in supervised fashion, which directly map the input partially known sensor data to the ground truth reconstructed from full field of view. Recently, score-based generative models played an increasingly significant role in generative modeling. Leveraging this probabilistic model, we proposed Rotation Consistency Constrained Score-based Generative Model (RCC-SGM), which recovers the PAT images by iterative sampling between Langevin dynamics and a constraint term utilizing the rotation consistency between the images and the measurements. Our proposed method can generalize to different measurement processes (32.29 PSNR with 16 measurements under random sampling, whereas 28.50 for supervised counterpart), while supervised methods need to train on specific inverse mappings.
翻訳日:2023-06-27 18:38:32 公開日:2023-06-24
# 問題文の言語的変種生成による算数語問題解決

Math Word Problem Solving by Generating Linguistic Variants of Problem Statements ( http://arxiv.org/abs/2306.13899v1 )

ライセンス: Link先を確認
Syed Rifat Raiyan, Md. Nafis Faiyaz, Shah Md. Jawad Kabir, Mohsinul Kabir, Hasan Mahmud, Md Kamrul Hasan(参考訳) 数学的推論の技術は知的進歩の基本的な柱であり、人間の創造性を育成する中心的な触媒である。 最近、研究者は、数学語問題(MWP)を一般AIへの決定的な一歩として解決する作業を中心に、数多くの研究を公表した。 これらの既存モデルは、解式を導出するために浅いヒューリスティックや急激な相関に依存している。 本稿では,この問題を改善するために,問題テキストの言語的変種生成に基づくMWP問題解決のためのフレームワークを提案する。 このアプローチでは、各変種問題を解決し、予測された表現を過半数で選択する。 DeBERTa (Decoding-enhanced BERT with disentangleed attention) をエンコーダとして使用し、リッチテキスト表現と拡張マスクデコーダを用いて解表現を構築する。 さらに、ベンチマーク $\mathrm{m\small{ara}\normalsize{mawps}}$データセットから選択的にサンプリングされたmwpのパラフラッシド、adversarial、逆変種からなる、挑戦的なデータセットである$\mathrm{p\small{ara}\normalsize{mawps}}$を導入する。 いくつかのベースラインMWPソルバモデルを用いて、他のベンチマークデータセットとともに、このデータセットを広範囲に実験する。 問題文の言語的変形の訓練と候補予測の投票により,モデルの数学的推論とロバスト性が向上することを示す。 コードとデータを公開しています。

The art of mathematical reasoning stands as a fundamental pillar of intellectual progress and is a central catalyst in cultivating human ingenuity. Researchers have recently published a plethora of works centered around the task of solving Math Word Problems (MWP) $-$ a crucial stride towards general AI. These existing models are susceptible to dependency on shallow heuristics and spurious correlations to derive the solution expressions. In order to ameliorate this issue, in this paper, we propose a framework for MWP solvers based on the generation of linguistic variants of the problem text. The approach involves solving each of the variant problems and electing the predicted expression with the majority of the votes. We use DeBERTa (Decoding-enhanced BERT with disentangled attention) as the encoder to leverage its rich textual representations and enhanced mask decoder to construct the solution expressions. Furthermore, we introduce a challenging dataset, $\mathrm{P\small{ARA}\normalsize{MAWPS}}$, consisting of paraphrased, adversarial, and inverse variants of selectively sampled MWPs from the benchmark $\mathrm{M\small{AWPS}}$ dataset. We extensively experiment on this dataset along with other benchmark datasets using some baseline MWP solver models. We show that training on linguistic variants of problem statements and voting on candidate predictions improve the mathematical reasoning and robustness of the model. We make our code and data publicly available.
翻訳日:2023-06-27 18:31:43 公開日:2023-06-24
# ICN:共有マイクロモビリティの旅行需要予測のための対話型畳み込みネットワーク

ICN: Interactive Convolutional Network for Forecasting Travel Demand of Shared Micromobility ( http://arxiv.org/abs/2306.13897v1 )

ライセンス: Link先を確認
Yiming Xu, Qian Ke, Xiaojian Zhang, Xilei Zhao(参考訳) 正確な共有マイクロモビリティ需要予測は交通計画と管理に不可欠である。 ディープラーニングモデルは需要予測問題に対処する強力なツールを提供するが、高度に正確な時空間的共有マイクロモビリティ需要を予測する研究はまだ不足している。 本稿では,マイクロモビリティ共有のための時空間移動需要を予測するために,Interactive Convolutional Network (ICN) というディープラーニングモデルを提案する。 深層学習モデル構築のための旅行行動知識に基づく多次元空間情報(人口統計,機能,交通供給など)を利用して,新しいチャネル拡張手法を開発した。 畳み込み演算を用いて拡張テンソルを処理し,時間的および空間的依存性を同時に捉える。 二分木構造アーキテクチャと対話的畳み込みに基づいて、ICNモデルは異なる時間分解能で特徴を抽出し、完全連結層を用いて予測を生成する。 提案手法はシカゴ, IL, オースチン, TXの2つの実世界のケーススタディに対して評価された。 その結果,ICNモデルが選択したベンチマークモデルよりも有意に優れていた。 モデル予測は、マイクロモビリティーオペレーターが最適な車両再バランススキームを開発し、都市を誘導し、共有マイクロモビリティシステムを管理するのに役立つ。

Accurate shared micromobility demand predictions are essential for transportation planning and management. Although deep learning models provide powerful tools to deal with demand prediction problems, studies on forecasting highly-accurate spatiotemporal shared micromobility demand are still lacking. This paper proposes a deep learning model named Interactive Convolutional Network (ICN) to forecast spatiotemporal travel demand for shared micromobility. The proposed model develops a novel channel dilation method by utilizing multi-dimensional spatial information (i.e., demographics, functionality, and transportation supply) based on travel behavior knowledge for building the deep learning model. We use the convolution operation to process the dilated tensor to simultaneously capture temporal and spatial dependencies. Based on a binary-tree-structured architecture and interactive convolution, the ICN model extracts features at different temporal resolutions, and then generates predictions using a fully-connected layer. The proposed model is evaluated for two real-world case studies in Chicago, IL, and Austin, TX. The results show that the ICN model significantly outperforms all the selected benchmark models. The model predictions can help the micromobility operators develop optimal vehicle rebalancing schemes and guide cities to better manage the shared micromobility system.
翻訳日:2023-06-27 18:31:21 公開日:2023-06-24
# プロトタイプ学習の改善によるオープンセットrfフィンガープリント

Open-Set RF Fingerprinting via Improved Prototype Learning ( http://arxiv.org/abs/2306.13895v1 )

ライセンス: Link先を確認
Weidong Wang, Hongshu Liao, and Lu Gan(参考訳) 深層学習は高周波指紋認証(RF)において広く用いられている。 優れた性能にもかかわらず、既存のほとんどのメソッドはクローズドセットの仮定のみを考慮しており、トレーニング中に見たことのない未知のデバイスから発せられる信号に効果的に対処できない。 本稿では,オープンセットRFフィンガープリントのためのプロトタイプ学習を活用し,一貫性に基づく正規化と,より堅牢な機能空間の学習を目的としたオンラインラベルスムース化の2つの改善を提案する。 実世界のrfデータセットにおける実験結果は,提案手法がプロトタイプ学習を著しく改善し,rfフィンガープリンティングのオープンセット認識性能を期待できることを示した。

Deep learning has been widely used in radio frequency (RF) fingerprinting. Despite its excellent performance, most existing methods only consider a closed-set assumption, which cannot effectively tackle signals emitted from those unknown devices that have never been seen during training. In this letter, we exploit prototype learning for open-set RF fingerprinting and propose two improvements, including consistency-based regularization and online label smoothing, which aim to learn a more robust feature space. Experimental results on a real-world RF dataset demonstrate that our proposed measures can significantly improve prototype learning to achieve promising open-set recognition performance for RF fingerprinting.
翻訳日:2023-06-27 18:31:00 公開日:2023-06-24
# 任意設計による生成逆ネットワークを用いた無線生成

Radio Generation Using Generative Adversarial Networks with An Unrolled Design ( http://arxiv.org/abs/2306.13893v1 )

ライセンス: Link先を確認
Weidong Wang, Jiancheng An, Hongshu Liao, Lu Gan, and Chau Yuen(参考訳) 深層学習の革命的生成パラダイムであるGAN(Generative Adversarial Network)は、現実的なデータを合成するために様々な分野に広く応用されている。 しかし、特に複雑な場合において、従来のGANが生信号データを合成することは困難である。 本稿では,無線生成のための新しいGANフレームワークであるRadio GANを開発する。 従来の方法と比較して,3つの重要な改善点がある。 1つ目は、電波信号のサンプリング分布をモデル化することを目的としたサンプリングポイントに基づく学習である。 2つ目は未ロール発電機の設計で、予測された純粋な信号分布を前もって組み合わせることで、学習の難易度を大幅に低減し、学習精度を効果的に向上できる。 最後に,より優れたトレーニング安定性と収束を実現するためのエネルギー制約付き最適化アルゴリズムを提案する。 広範にシミュレーションを行った結果,ganフレームワークは送信特性や各種チャネル効果を効果的に学習でき,高品質な無線信号を合成するためのサンプリング分布を正確にモデル化できることがわかった。

As a revolutionary generative paradigm of deep learning, generative adversarial networks (GANs) have been widely applied in various fields to synthesize realistic data. However, it is challenging for conventional GANs to synthesize raw signal data, especially in some complex cases. In this paper, we develop a novel GAN framework for radio generation called "Radio GAN". Compared to conventional methods, it benefits from three key improvements. The first is learning based on sampling points, which aims to model an underlying sampling distribution of radio signals. The second is an unrolled generator design, combined with an estimated pure signal distribution as a prior, which can greatly reduce learning difficulty and effectively improve learning precision. Finally, we present an energy-constrained optimization algorithm to achieve better training stability and convergence. Experimental results with extensive simulations demonstrate that our proposed GAN framework can effectively learn transmitter characteristics and various channel effects, thus accurately modeling for an underlying sampling distribution to synthesize radio signals of high quality.
翻訳日:2023-06-27 18:30:48 公開日:2023-06-24
# コンセンサスアルゴリズムを用いた分別分散型深層学習

Differentially Private Decentralized Deep Learning with Consensus Algorithms ( http://arxiv.org/abs/2306.13892v1 )

ライセンス: Link先を確認
Jasmine Bayrooti, Zhan Gao, Amanda Prorok(参考訳) 協調分散ディープラーニングは、通信エージェント間の直接的な情報交換に依存しており、それぞれがプライベートにしておくべきローカルデータセットにアクセスする。 目標は、すべてのエージェントがトレーニング後にモデルパラメータに関するコンセンサスを達成することです。 しかし、信頼できない近隣エージェントとのパラメータ共有は、ローカルデータセットに関する悪用可能な情報を漏洩させる可能性がある。 これに対抗するために,各エージェントの局所的データセットを協調訓練の前後で確保する分散学習を導入する。 提案手法では,集中型深層学習のための分散学習手法DP-SGDを,実践的な下位段階およびADMMに基づく分散学習手法に一般化する。 アルゴリズムの差分プライバシー保証は、任意の深層学習対象関数に対して成り立ち、強凸目的関数に対する収束特性を解析する。 標準分類タスクで集中的に訓練されたモデルと比較し,性能,プライバシ予算,グラフ接続性,エージェント間のトレーニングデータの重なり度との関係を評価した。 偏微分的勾配追跡はスパースグラフと非一様データ分布の下での性能劣化に耐性がある。 さらに, mnist における dp-sgd の 3% を (1, 10^-5) で, cifar-100 で dp-sgd の 6% を (10, 10^-5) で, 生データを他のエージェントと共有することなく, 高確率で dp-sgd を学習できることを示す。 オープンソースコードは、https://github.com/jbayrooti/dp-dec-learningにある。

Cooperative decentralized deep learning relies on direct information exchange between communicating agents, each with access to a local dataset which should be kept private. The goal is for all agents to achieve consensus on model parameters after training. However, sharing parameters with untrustworthy neighboring agents could leak exploitable information about local datasets. To combat this, we introduce differentially private decentralized learning that secures each agent's local dataset during and after cooperative training. In our approach, we generalize Differentially Private Stochastic Gradient Descent (DP-SGD) -- a popular differentially private training method for centralized deep learning -- to practical subgradient- and ADMM-based decentralized learning methods. Our algorithms' differential privacy guarantee holds for arbitrary deep learning objective functions, and we analyze the convergence properties for strongly convex objective functions. We compare our algorithms against centrally trained models on standard classification tasks and evaluate the relationships between performance, privacy budget, graph connectivity, and degree of training data overlap among agents. We find that differentially private gradient tracking is resistant to performance degradation under sparse graphs and non-uniform data distributions. Furthermore, we show that it is possible to learn a model achieving high accuracies, within 3% of DP-SGD on MNIST under (1, 10^-5)-differential privacy and within 6% of DP-SGD on CIFAR-100 under (10, 10^-5)-differential privacy, without ever sharing raw data with other agents. Open source code can be found at: https://github.com/jbayrooti/dp-dec-learning.
翻訳日:2023-06-27 18:30:32 公開日:2023-06-24
# 紙のアクセプタンスに対する早期ArXivingの因果効果の推定

Estimating the Causal Effect of Early ArXiving on Paper Acceptance ( http://arxiv.org/abs/2306.13891v1 )

ライセンス: Link先を確認
Yanai Elazar, Jiayao Zhang, David Wadden, Bo Zhang, Noah A. Smith(参考訳) ピアレビューの提出前に,論文のプレプリントを公開する効果はどのようなものか? ランダム化制御試験は行われていないので、この質問に答えるために観測データに目を向ける。 我々は、ICLRカンファレンス(2018-2022)のデータを用いて、因果推論の手法を用いて、審査期間(初期arXiving)が会議への受け入れに与える影響を推定する。 トピック、著者、品質といった18人の共同創設者を調整すれば、因果効果を見積もることができる。 しかし,品質は推定に難渋する構造であるため,紙の引用数を制御変数として用いた負の結果制御法を用いて,品質共起効果を劣化させる。 以上の結果から,早期のarXivingは,論文の受容可能性に小さな影響を及ぼす可能性が示唆された。 しかし、この効果(存在する場合)は著者の引用数と研究所のランクによって分類されるように、異なる著者のグループ間で大きく異なるわけではない。 これは、早期arXivingが特定のグループに有利でないことを示唆している。

What is the effect of releasing a preprint of a paper before it is submitted for peer review? No randomized controlled trial has been conducted, so we turn to observational data to answer this question. We use data from the ICLR conference (2018--2022) and apply methods from causal inference to estimate the effect of arXiving a paper before the reviewing period (early arXiving) on its acceptance to the conference. Adjusting for 18 confounders such as topic, authors, and quality, we may estimate the causal effect. However, since quality is a challenging construct to estimate, we use the negative outcome control method, using paper citation count as a control variable to debias the quality confounding effect. Our results suggest that early arXiving may have a small effect on a paper's chances of acceptance. However, this effect (when existing) does not differ significantly across different groups of authors, as grouped by author citation count and institute rank. This suggests that early arXiving does not provide an advantage to any particular group.
翻訳日:2023-06-27 18:30:04 公開日:2023-06-24
# l3cube-mahasent-md:マルチドメインマラーティー感情分析データセットとトランスフォーマーモデル

L3Cube-MahaSent-MD: A Multi-domain Marathi Sentiment Analysis Dataset and Transformer Models ( http://arxiv.org/abs/2306.13888v1 )

ライセンス: Link先を確認
Aabha Pingle, Aditya Vyawahare, Isha Joshi, Rahul Tangsali, Raviraj Joshi(参考訳) Marathiのような低リソース言語における感情分析の探索は、適切なデータセットが利用できるため制限されている。 本研究では,映画レビュー,一般ツイート,テレビ番組サブタイトル,政治ツイートの4つのドメインからなるマルチドメインマラーティー感情分析データセットl3cube-mahasent-mdを提案する。 データセットは約60,000の手動タグ付きサンプルで構成され、ポジティブ、ネガティブ、中立の3つの異なる感情をカバーしている。 15kのサンプルを含む各ドメインのサブデータセットを作成します。 mahasent-mdは、indic sentiment landscapeにおける最初の総合的マルチドメイン感情分析データセットである。 これらのデータセット上で単言語モデルと多言語BERTモデルを微調整し、MahaBERTモデルで最良の精度を報告する。 また、広範囲なドメイン内およびクロスドメイン分析を行い、低リソースのマルチドメインデータセットの必要性を強調する。 データとモデルはhttps://github.com/l3cube-pune/marathinlpで入手できる。

The exploration of sentiment analysis in low-resource languages, such as Marathi, has been limited due to the availability of suitable datasets. In this work, we present L3Cube-MahaSent-MD, a multi-domain Marathi sentiment analysis dataset, with four different domains - movie reviews, general tweets, TV show subtitles, and political tweets. The dataset consists of around 60,000 manually tagged samples covering 3 distinct sentiments - positive, negative, and neutral. We create a sub-dataset for each domain comprising 15k samples. The MahaSent-MD is the first comprehensive multi-domain sentiment analysis dataset within the Indic sentiment landscape. We fine-tune different monolingual and multilingual BERT models on these datasets and report the best accuracy with the MahaBERT model. We also present an extensive in-domain and cross-domain analysis thus highlighting the need for low-resource multi-domain datasets. The data and models are available at https://github.com/l3cube-pune/MarathiNLP .
翻訳日:2023-06-27 18:29:43 公開日:2023-06-24
# 小学校教員養成におけるプログラミング課題作成の探求

Exploring Programming Task Creation of Primary School Teachers in Training ( http://arxiv.org/abs/2306.13886v1 )

ライセンス: Link先を確認
Luisa Greifenstein and Ute Heuer and Gordon Fraser(参考訳) 小学校カリキュラムにおける計算思考の導入は,教師が適切な教材を作成する必要があることを示唆している。 プログラミングに関する知識が不足している小学生の教師を圧倒することもある。 不十分なサンプルコードは学習に悪影響を及ぼし、学生は悪いプログラミング習慣や誤解を採用するかもしれない。 この問題を回避するため、自動プログラム解析ツールはタスク作成プロセスの足場構築を支援する可能性がある。 例えば、静的プログラム分析ツールは、良いコードパターンと悪いコードパターンの両方を自動的に検出し、コードを改善するヒントを提供する。 プログラムタスク作成における教師の取り組み,ツールサポートの有効性,教師の認識方法などを検討するため,Scratch の静的解析ツールである LitterBox と 59 名の教師を対象に,26 名の教師による事前学習を行った。 その結果,(1)学習中の教師は,学習目標の設定よりもテーマのアイデアをブレインストーミングすること,(2)タスクテキストの前にコードを記述すること,(3)タスクテキストにヒントを付与すること,(4)LitterBoxでサポートされた場合のバグの少ないこと,(4)ツールの肯定的な側面と改善の提案の両方に言及すること,などが判明した。 これらの知見は、プログラミングタスクを作成する際に教師が必要とする支援について、教師の教育に通知する方法の理解を深めるものである。

Introducing computational thinking in primary school curricula implies that teachers have to prepare appropriate lesson material. Typically this includes creating programming tasks, which may overwhelm primary school teachers with lacking programming subject knowledge. Inadequate resulting example code may negatively affect learning, and students might adopt bad programming habits or misconceptions. To avoid this problem, automated program analysis tools have the potential to help scaffolding task creation processes. For example, static program analysis tools can automatically detect both good and bad code patterns, and provide hints on improving the code. To explore how teachers generally proceed when creating programming tasks, whether tool support can help, and how it is perceived by teachers, we performed a pre-study with 26 and a main study with 59 teachers in training and the LitterBox static analysis tool for Scratch. We find that teachers in training (1) often start with brainstorming thematic ideas rather than setting learning objectives, (2) write code before the task text, (3) give more hints in their task texts and create fewer bugs when supported by LitterBox, and (4) mention both positive aspects of the tool and suggestions for improvement. These findings provide an improved understanding of how to inform teacher training with respect to support needed by teachers when creating programming tasks.
翻訳日:2023-06-27 18:29:17 公開日:2023-06-24
# 説明可能なaiにおける操作リスク--不一致問題の意味

Manipulation Risks in Explainable AI: The Implications of the Disagreement Problem ( http://arxiv.org/abs/2306.13885v1 )

ライセンス: Link先を確認
Sofie Goethals and David Martens and Theodoros Evgeniou(参考訳) ai(artificial intelligence, 人工知能)システムは、私たちの生活の高リスク領域でますます使われており、これらの決定を説明し、彼らがどのように意思決定をしたいかと一致しているかを確認する必要性が高まっている。 説明可能なAI(XAI)の分野が登場した。 しかし、同じaiの決定や予測に対して複数の説明が可能となる不一致問題として知られる重大な課題に直面している。 不一致問題の存在は認識されているが、この問題に関連する潜在的な影響はまだ広く研究されていない。 まず、返された説明を彼らの利益に適応させるために、プロバイダがデプロイできるさまざまな戦略の概要を提供する。 我々は、説明に影響を与えるために機械学習モデルや基礎となるデータを攻撃する戦略と、説明フェーズを直接活用する戦略とを区別する。 次に、提供者がこの行動に関与しなければならないいくつかの目的と具体的なシナリオを分析し、このマニピュレーション行動が社会に与える影響の可能性について分析する。 我々は,これらの手法が広く実施される前に,この問題を調査することが重要であることを強調し,緩和戦略を提案する。

Artificial Intelligence (AI) systems are increasingly used in high-stakes domains of our life, increasing the need to explain these decisions and to make sure that they are aligned with how we want the decision to be made. The field of Explainable AI (XAI) has emerged in response. However, it faces a significant challenge known as the disagreement problem, where multiple explanations are possible for the same AI decision or prediction. While the existence of the disagreement problem is acknowledged, the potential implications associated with this problem have not yet been widely studied. First, we provide an overview of the different strategies explanation providers could deploy to adapt the returned explanation to their benefit. We make a distinction between strategies that attack the machine learning model or underlying data to influence the explanations, and strategies that leverage the explanation phase directly. Next, we analyse several objectives and concrete scenarios the providers could have to engage in this behavior, and the potential dangerous consequences this manipulative behavior could have on society. We emphasize that it is crucial to investigate this issue now, before these methods are widely implemented, and propose some mitigation strategies.
翻訳日:2023-06-27 18:28:23 公開日:2023-06-24
# PINNを用いた電流密度インピーダンスイメージング

Current density impedance imaging with PINNs ( http://arxiv.org/abs/2306.13881v1 )

ライセンス: Link先を確認
Chenguang Duan and Yuling Jiao and Xiliang Lu and Jerry Zhijian Yang(参考訳) 本稿では,Tikhonov 正規化の枠組みにおける PINN を用いたCDII の解法である CDII-PINN を紹介する。 本手法は, 正規化最小二乗出力関数を導電率と電圧の関係を記述する微分方程式にマージすることにより, 物理インフォームド損失関数を構成する。 この損失関数により、それぞれ導電率と電圧を表す一対のニューラルネットワークが結合される。 そして、損失関数の最小化は再構成をもたらす。 厳密な理論的保証が提供される。 我々は,CDII-PINNの誤り解析を行い,予め選択されたニューラルネットワークパラメータに基づいて,サンプル数の観点から収束率を確立する。 数値シミュレーションにより,cdiiピンは効率良く,精度が高く,ロバストであり,ノイズレベルは1-%$から20-%$であることが分かった。

In this paper, we introduce CDII-PINNs, a computationally efficient method for solving CDII using PINNs in the framework of Tikhonov regularization. This method constructs a physics-informed loss function by merging the regularized least-squares output functional with an underlying differential equation, which describes the relationship between the conductivity and voltage. A pair of neural networks representing the conductivity and voltage, respectively, are coupled by this loss function. Then, minimizing the loss function provides a reconstruction. A rigorous theoretical guarantee is provided. We give an error analysis for CDII-PINNs and establish a convergence rate, based on prior selected neural network parameters in terms of the number of samples. The numerical simulations demonstrate that CDII-PINNs are efficient, accurate and robust to noise levels ranging from $1\%$ to $20\%$.
翻訳日:2023-06-27 18:27:50 公開日:2023-06-24
# 自律運転シミュレーションにおけるアクティブデータ取得

Active Data Acquisition in Autonomous Driving Simulation ( http://arxiv.org/abs/2306.13923v1 )

ライセンス: Link先を確認
Jianyu Lai, Zexuan Jia, Boao Li(参考訳) 自律運転アルゴリズムは、トレーニングに大規模なデータセットを必要とする学習ベースのモデルに大きく依存する。 しかし、これらのデータセットには大量の冗長な情報があることが多い一方で、これらのデータセットの収集と処理には時間と費用がかかる。 そこで本研究では,アクティブデータ収集戦略の概念を提案する。 高品質なデータでは、コレクション密度を上げることでデータセット全体の品質が向上し、ラベリングコストが低くデータセットサイズが小さく、元のデータセットと同じような、あるいはさらに優れた結果が得られる。 本稿では、収集したデータセットの品質を検証する実験をデザインし、この戦略がデータセット全体の品質を改善しつつ、ラベリングコストとデータセットサイズを大幅に削減し、自動運転システムの性能を向上させることを実証する。 提案手法を実装するソースコードはhttps://github.com/th1nkmore/carla_dataset_toolsで公開されている。

Autonomous driving algorithms rely heavily on learning-based models, which require large datasets for training. However, there is often a large amount of redundant information in these datasets, while collecting and processing these datasets can be time-consuming and expensive. To address this issue, this paper proposes the concept of an active data-collecting strategy. For high-quality data, increasing the collection density can improve the overall quality of the dataset, ultimately achieving similar or even better results than the original dataset with lower labeling costs and smaller dataset sizes. In this paper, we design experiments to verify the quality of the collected dataset and to demonstrate this strategy can significantly reduce labeling costs and dataset size while improving the overall quality of the dataset, leading to better performance of autonomous driving systems. The source code implementing the proposed approach is publicly available on https://github.com/Th1nkMore/carla_dataset_tools.
翻訳日:2023-06-27 18:21:32 公開日:2023-06-24
# デヴェルバル名詞の引数と対応する言語ラベルの教師なしマッピング

Unsupervised Mapping of Arguments of Deverbal Nouns to Their Corresponding Verbal Labels ( http://arxiv.org/abs/2306.13922v1 )

ライセンス: Link先を確認
Aviv Weinstein and Yoav Goldberg(参考訳) デバーバル名詞は、英語の文章でよく使われる名目上の動詞の形式であり、その議論と同様に、出来事や行動を記述するために使われる。 しかし、多くのNLPシステム、特にパターンベースのシステムでは、そのような名目化された構造を扱うことは無視されている。 名前付き構成の引数を扱うためのソリューションはセマンティックなアノテーションに基づいており、セマンティックなオントロジーを必要とするため、アプリケーションは少数の名詞に制限される。 代わりに、より構文的なアプローチを採用し、デバーバル名詞の議論を対応する動詞構成の普遍的依存関係にマッピングする。 我々は,文脈化された単語表現に基づく教師なしのメカニズムを提案する。この機構により,言語の場合と同じラベルを用いて,デヴェルバル名詞の引数を示す依存弧を持つ普遍依存木を拡張できる。 動詞の場合と同じラベル集合を共有することにより、動詞に対して発達したパターンを修正せずに、高い精度で名目構成にも適用することができる。

Deverbal nouns are nominal forms of verbs commonly used in written English texts to describe events or actions, as well as their arguments. However, many NLP systems, and in particular pattern-based ones, neglect to handle such nominalized constructions. The solutions that do exist for handling arguments of nominalized constructions are based on semantic annotation and require semantic ontologies, making their applications restricted to a small set of nouns. We propose to adopt instead a more syntactic approach, which maps the arguments of deverbal nouns to the universal-dependency relations of the corresponding verbal construction. We present an unsupervised mechanism -- based on contextualized word representations -- which allows to enrich universal-dependency trees with dependency arcs denoting arguments of deverbal nouns, using the same labels as the corresponding verbal cases. By sharing the same label set as in the verbal case, patterns that were developed for verbs can be applied without modification but with high accuracy also to the nominal constructions.
翻訳日:2023-06-27 18:21:18 公開日:2023-06-24
# マルチタスクマルチステーション地震モニタリング:オールインワン地震の位相選択・位置・アソシエーションネットワーク(PLAN)

Multi-task multi-station earthquake monitoring: An all-in-one seismic Phase picking, Location, and Association Network (PLAN) ( http://arxiv.org/abs/2306.13918v1 )

ライセンス: Link先を確認
Xu Si, Xinming Wu, Zefeng Li, Shenghou Wang and Jun Zhu(参考訳) 地震の物理の理解と地震災害の評価には地震モニタリングが不可欠である。 標準的な監視ワークフローには、フェーズピッキング、アソシエーション、ロケーションの相互関連および相互依存のタスクが含まれている。 深層学習手法は地震観測に応用されているが, 主に個別に課題を処理し, 駅間の地理的関係を無視している。 本稿では, マルチステーション地震データを直接処理し, 同時位相選択, 関連, 位置を求めるグラフニューラルネットワークを提案する。 特に、クロスステーションおよびクロスタスク予測間の正確性、解釈性、物理的一貫性を促進するために、ネットワークアーキテクチャにおいて、ステーション間およびタスク間物理的関係が通知される。 リッジクレスト地域および日本地域のデータに適用すると、従来のディープラーニングに基づく位相選択法および局在法よりも優れた性能を示した。 本研究は, 総合的に, 次世代の地震モニタリングの可能性を秘めた, 同時地震相の選択, 関連, 位置の自己整合型オールインワンシステムのプロトタイプを初めて提供する。

Earthquake monitoring is vital for understanding the physics of earthquakes and assessing seismic hazards. A standard monitoring workflow includes the interrelated and interdependent tasks of phase picking, association, and location. Although deep learning methods have been successfully applied to earthquake monitoring, they mostly address the tasks separately and ignore the geographic relationships among stations. Here, we propose a graph neural network that operates directly on multi-station seismic data and achieves simultaneous phase picking, association, and location. Particularly, the inter-station and inter-task physical relationships are informed in the network architecture to promote accuracy, interpretability, and physical consistency among cross-station and cross-task predictions. When applied to data from the Ridgecrest region and Japan regions, this method showed superior performance over previous deep learning-based phase-picking and localization methods. Overall, our study provides for the first time a prototype self-consistent all-in-one system of simultaneous seismic phase picking, association, and location, which has the potential for next-generation autonomous earthquake monitoring.
翻訳日:2023-06-27 18:20:59 公開日:2023-06-24
# ミリグラムスケールイットリウム鉄ガーネット球の磁気浮上と高調波トラップ

Magnetic levitation and harmonic trapping of a milligram-scale Yttrium Iron Garnet sphere ( http://arxiv.org/abs/2306.13917v1 )

ライセンス: Link先を確認
Maria Fuwa, Ryosuke Sakagami, and Tsuyoshi Tamegai(参考訳) 4kで0.3ミリグラム,0.5ミリメートルのイットリウム鉄ガーネット球体の受動磁気浮上と3次元高調波トラッピングを報告した。 浮揚球の動力学は、最大600 hz のトラッピング周波数と機械式$q$-factors ($q \sim 10^3$) の順に光学的に測定された。 これらの結果は3次元有限要素法シミュレーションにより定量的に再現された。 我々の結果は、磁気、剛体運動、マイクロ波、光学が相互作用する新しいシステムを提供することができる。

We report passive magnetic levitation and three-dimensional harmonic trapping of a 0.3 milligram, 0.5 millimeter diameter Yttrium Iron Garnet sphere at 4 K. The gradient of an external magnetic field is used for vertical trapping, while the finite size effect of the diamagnetic effect is used for horizontal trapping. The dynamics of the levitated sphere was optically measured to have trapping frequencies of up to around 600 Hz and mechanical $Q$-factors in the order of $Q \sim 10^3$. These results were quantitatively reproduced by three-dimensional finite element method simulations. Our results can provide a novel system where magnetism, rigid body motions, microwaves, and optics interact.
翻訳日:2023-06-27 18:20:39 公開日:2023-06-24
# g-tracer: 期待シャープネス最適化

G-TRACER: Expected Sharpness Optimization ( http://arxiv.org/abs/2306.13914v1 )

ライセンス: Link先を確認
John Williams, Stephen Roberts(参考訳) 本稿では,フラットな極小を求めることで一般化を促進するg-tracer(geometric trace ratio)というディープラーニングアーキテクチャの最適化のための新しい正規化手法を提案する。 損失関数をトレーサで拡張することで、曲率正規化オプティマイザ(sgd-tracerやadam-tracerなど)は既存のオプティマイザの修正として実装するのが簡単になり、広範なチューニングは不要になる。 本手法は,非正規目的の局所的最小値の近傍(正規化強度に依存する)に収束し,多くのベンチマークコンピュータビジョンとnlpデータセットにおいて,特に低信号対雑音比問題への挑戦に焦点をあてた競合性能を示す。

We propose a new regularization scheme for the optimization of deep learning architectures, G-TRACER ("Geometric TRACE Ratio"), which promotes generalization by seeking flat minima, and has a sound theoretical basis as an approximation to a natural-gradient descent based optimization of a generalized Bayes objective. By augmenting the loss function with a TRACER, curvature-regularized optimizers (eg SGD-TRACER and Adam-TRACER) are simple to implement as modifications to existing optimizers and don't require extensive tuning. We show that the method converges to a neighborhood (depending on the regularization strength) of a local minimum of the unregularized objective, and demonstrate competitive performance on a number of benchmark computer vision and NLP datasets, with a particular focus on challenging low signal-to-noise ratio problems.
翻訳日:2023-06-27 18:20:27 公開日:2023-06-24
# インターフェロメトリ無線過渡再構成のための深層学習に基づくデコンボリューション

Deep learning-based deconvolution for interferometric radio transient reconstruction ( http://arxiv.org/abs/2306.13909v1 )

ライセンス: Link先を確認
Benjamin Naoto Chiche, Julien N. Girard, Joana Frontera-Pons, Arnaud Woiselle, Jean-Luc Starck(参考訳) 電波天文学は現在、近日発売のSquare Kilometre Array(SKA)に備えて、新しい大型地上型電波望遠鏡がオンラインで発売されている。 LOFAR、MeerKAT/SKA、ASKAP/SKA、そして将来のSKA-LOWのような施設は、時間と周波数に非常に敏感で、角分解能が向上し、処理が必要な高速なデータストリームも実現している。 それらは、自然によって揮発し、データから検出または見逃される無線トランジェントに関する高度な研究を可能にする。 これらの過渡現象は電子の高エネルギー加速の指標であり、幅広い時間スケールで現れる。 通常、時系列分析の動的スペクトロスコピーで研究され、大規模な干渉データ集合でそのようなソースを探す動機がある。 これは効率的で堅牢な信号再構成アルゴリズムを必要とする。 データの時間依存性を正確に考慮し、復元問題に時間依存性を加えることにより、古典的画像分解逆問題を改善する。 次に,データの空間的および時間的モデリングとインストゥルメンタルな応答を両立できる2つのニューラルネットワークアーキテクチャを提案する。 次に, 点源分布の時間依存画像立方体とMeerKATの現実望遠鏡ポインティングをシミュレートし, トレーニング, 検証, テストデータセットを構築するための玩具モデルを生成する。 最後に,テストデータに基づいて,提案手法と古典画像デコンボリューションアルゴリズムCLEANを用いたフレーム・バイ・フレームのソースプロファイル再構成性能を評価する。 データフレーム内のノイズレベルが増加する場合,提案手法は,クリーンによるフレームバイフレーム画像と比較し,高レベルなロバスト性を示す。 分解された画像立方体は、復元した時間的プロファイルの忠実度を3倍改善し、背景雑音を2倍改善した。

Radio astronomy is currently thriving with new large ground-based radio telescopes coming online in preparation for the upcoming Square Kilometre Array (SKA). Facilities like LOFAR, MeerKAT/SKA, ASKAP/SKA, and the future SKA-LOW bring tremendous sensitivity in time and frequency, improved angular resolution, and also high-rate data streams that need to be processed. They enable advanced studies of radio transients, volatile by nature, that can be detected or missed in the data. These transients are markers of high-energy accelerations of electrons and manifest in a wide range of temporal scales. Usually studied with dynamic spectroscopy of time series analysis, there is a motivation to search for such sources in large interferometric datasets. This requires efficient and robust signal reconstruction algorithms. To correctly account for the temporal dependency of the data, we improve the classical image deconvolution inverse problem by adding the temporal dependency in the reconstruction problem. Then, we introduce two novel neural network architectures that can do both spatial and temporal modeling of the data and the instrumental response. Then, we simulate representative time-dependent image cubes of point source distributions and realistic telescope pointings of MeerKAT to generate toy models to build the training, validation, and test datasets. Finally, based on the test data, we evaluate the source profile reconstruction performance of the proposed methods and classical image deconvolution algorithm CLEAN applied frame-by-frame. In the presence of increasing noise level in data frame, the proposed methods display a high level of robustness compared to frame-by-frame imaging with CLEAN. The deconvolved image cubes bring a factor of 3 improvement in fidelity of the recovered temporal profiles and a factor of 2 improvement in background denoising.
翻訳日:2023-06-27 18:20:09 公開日:2023-06-24
# ClothFit: 3次元シミュレーションデータセットを用いた仮想トライオンネットワーク

ClothFit: Cloth-Human-Attribute Guided Virtual Try-On Network Using 3D Simulated Dataset ( http://arxiv.org/abs/2306.13908v1 )

ライセンス: Link先を確認
Yunmin Cho, Lala Shakti Swarup Ray, Kundan Sai Prabhu Thota, Sungho Suh, Paul Lukowicz(参考訳) オンライン衣料品ショッピングはますます人気を博しているが、サイズや適合の問題によるリターン率の高さは依然として大きな課題である。 この問題を解決するために、仮想試着システムが開発され、より現実的でパーソナライズされた衣服試着方法を提供する。 本稿では,被服の実際のサイズと人的属性に基づいて,被服の被写体へのドレピング形状を予測できる新しい仮想試着法であるclotfitを提案する。 既存のトライオンモデルとは異なり、ClathFitは実際の人体の比率と衣料仮想化用の布のサイズを考えており、現在のオンラインアパレル・アウトレットに適している。 提案手法は,布と人的属性を組み込んだU-Netネットワークアーキテクチャを用いて,リアルな仮想トライオン合成を導く。 具体的には,自動エンコーダを用いて布画像から特徴を抽出し,ユーザの身長,重量,布の大きさから特徴を合成する。 これらの機能はU-Netエンコーダの機能と結合し、U-Netデコーダは最後の仮想試行画像を生成する。 実験結果から,ClosFitはフォトリアリスティックな仮想試行実験において,既存の最先端手法を大幅に改善できることが示された。

Online clothing shopping has become increasingly popular, but the high rate of returns due to size and fit issues has remained a major challenge. To address this problem, virtual try-on systems have been developed to provide customers with a more realistic and personalized way to try on clothing. In this paper, we propose a novel virtual try-on method called ClothFit, which can predict the draping shape of a garment on a target body based on the actual size of the garment and human attributes. Unlike existing try-on models, ClothFit considers the actual body proportions of the person and available cloth sizes for clothing virtualization, making it more appropriate for current online apparel outlets. The proposed method utilizes a U-Net-based network architecture that incorporates cloth and human attributes to guide the realistic virtual try-on synthesis. Specifically, we extract features from a cloth image using an auto-encoder and combine them with features from the user's height, weight, and cloth size. The features are concatenated with the features from the U-Net encoder, and the U-Net decoder synthesizes the final virtual try-on image. Our experimental results demonstrate that ClothFit can significantly improve the existing state-of-the-art methods in terms of photo-realistic virtual try-on results.
翻訳日:2023-06-27 18:19:38 公開日:2023-06-24
# 深層学習による顔のマイクロ表現を用いた人物認識

Person Recognition using Facial Micro-Expressions with Deep Learning ( http://arxiv.org/abs/2306.13907v1 )

ライセンス: Link先を確認
Tuval Kay, Yuval Ringel, Khen Cohen, Mor-Avi Azulay, David Mendlovic(参考訳) 本研究は,認知度を高めるための軟式バイオメトリックーとしての顔のマイクロ表現の有効性について検討し,被験者の理解を深めることを目的とする。 本研究では,空間的意味論と動きを時間分解能で捉えるための深層学習手法を提案する。 広く使われている3つのマイクロ表現データベースの実験では、既存のベンチマークに比べて識別精度が著しく向上し、様々な分野の人物認識を改善するために顔のマイクロ表現を統合する可能性が示された。

This study investigates the efficacy of facial micro-expressions as a soft biometric for enhancing person recognition, aiming to broaden the understanding of the subject and its potential applications. We propose a deep learning approach designed to capture spatial semantics and motion at a fine temporal resolution. Experiments on three widely-used micro-expression databases demonstrate a notable increase in identification accuracy compared to existing benchmarks, highlighting the potential of integrating facial micro-expressions for improved person recognition across various fields.
翻訳日:2023-06-27 18:19:15 公開日:2023-06-24
# GPT-4は高度な専門知識を必要とする課題におけるテキストデータの分析を支援するか?

Can GPT-4 Support Analysis of Textual Data in Tasks Requiring Highly Specialized Domain Expertise? ( http://arxiv.org/abs/2306.13906v1 )

ライセンス: Link先を確認
Jaromir Savelka, Kevin D. Ashley, Morgan A Gray, Hannes Westermann, Huihui Xu(参考訳) 高度に専門的な専門知識を必要とするタスクにおけるテキストデータの解析において,GPT-4(Generative Pre-trained Transformer)の有効性を評価した。 具体的には,裁判所の意見を分析し,法的概念を解釈することに焦点を当てた。 その結果,GPT-4は,法学生のアノテータと同等に機能することがわかった。 その結果,GPT-4は比較的少ない性能で,バッチ予測を行うことができ,コスト削減に繋がることがわかった。 しかし、チェーン・オブ・ソート・プロンプトの導入は、このタスクの性能を著しく向上させるには至らなかった。 さらに,アノテーションガイドラインの欠陥を識別し軽減するためにgpt-4の予測を分析し,そのモデルの性能を向上させる方法を示した。 最後に,このモデルはかなり不安定であり,プロンプトの小さなフォーマット変更が予測に高い影響を与えていることを観察した。 これらの知見は、高度に専門的なドメイン専門知識を必要とするタスクのコンテキストにおいて、テキストの意味的/プラグマティックなアノテーションに携わる研究者や実践者によって活用できる。

We evaluated the capability of generative pre-trained transformers~(GPT-4) in analysis of textual data in tasks that require highly specialized domain expertise. Specifically, we focused on the task of analyzing court opinions to interpret legal concepts. We found that GPT-4, prompted with annotation guidelines, performs on par with well-trained law student annotators. We observed that, with a relatively minor decrease in performance, GPT-4 can perform batch predictions leading to significant cost reductions. However, employing chain-of-thought prompting did not lead to noticeably improved performance on this task. Further, we demonstrated how to analyze GPT-4's predictions to identify and mitigate deficiencies in annotation guidelines, and subsequently improve the performance of the model. Finally, we observed that the model is quite brittle, as small formatting related changes in the prompt had a high impact on the predictions. These findings can be leveraged by researchers and practitioners who engage in semantic/pragmatic annotations of texts in the context of the tasks requiring highly specialized domain expertise.
翻訳日:2023-06-27 18:19:05 公開日:2023-06-24
# 時空間ストーリーテリング? 意味軌道解析のための生成モデルの活用

Spatio-temporal Storytelling? Leveraging Generative Models for Semantic Trajectory Analysis ( http://arxiv.org/abs/2306.13905v1 )

ライセンス: Link先を確認
Shreya Ghosh, Saptarshi Sengupta, Prasenjit Mitra(参考訳) 本稿では,意味的軌跡を解析し,生成言語モデルを用いて意味的軌跡データ(SST)を生成するためのビジョンを提示する。 Leveraging the advancements in deep learning, as evident by progress in the field of natural language processing (NLP), computer vision, etc. we intend to create intelligent models that can study the semantic trajectories in various contexts, predicting future trends, increasing machine understanding of the movement of animals, humans, goods, etc. enhancing human-computer interactions, and contributing to an array of applications ranging from urban-planning to personalized recommendation engines and business strategy.

In this paper, we lay out a vision for analysing semantic trajectory traces and generating synthetic semantic trajectory data (SSTs) using generative language model. Leveraging the advancements in deep learning, as evident by progress in the field of natural language processing (NLP), computer vision, etc. we intend to create intelligent models that can study the semantic trajectories in various contexts, predicting future trends, increasing machine understanding of the movement of animals, humans, goods, etc. enhancing human-computer interactions, and contributing to an array of applications ranging from urban-planning to personalized recommendation engines and business strategy.
翻訳日:2023-06-27 18:18:48 公開日:2023-06-24
# 磁歪による同期

Synchronization by Magnetostriction ( http://arxiv.org/abs/2306.13942v1 )

ライセンス: Link先を確認
Jiong Cheng, Wenlin Li, Jie Li(参考訳) キャビティマグノメカニカルシステムにおける2つの機械振動モードの同期化に磁歪を利用する方法を示す。 分散磁歪相互作用は同期を達成するために必要な非線形性を与える。 2つのメカニカル発振器間の強相相関が確立でき、熱雑音に対する同期性が得られる。 定常極限サイクルの制約条件を解いて同期を解析するための理論的枠組みを開発した。 強いキャビティとマグノンの線形結合は同期の強化と制御を可能にし、同期を変調する新しい経路を提供する。 この研究は、同期の達成と変調のための新しいメカニズムを明らかにし、キャビティマグノメカニカルシステムは豊富な同期現象を探求するための理想的なプラットフォームであることを示す。

We show how to utilize magnetostriction to synchronize two mechanical vibration modes in a cavity magnomechanical system. The dispersive magnetostrictive interaction provides necessary nonlinearity required for achieving synchronization. Strong phase correlation between two mechanical oscillators can be established, leading to the synchronization robust against thermal noise. We develop a theoretical framework to analyze the synchronization by solving the constraint conditions of steady-state limit cycles. We determine that the strong cavity-magnon linear coupling can enhance and regulate the synchronization, which offers a new path to modulate synchronization. The work reveals a new mechanism for achieving and modulating synchronization and indicates that cavity magnomechanical systems can be an ideal platform to explore rich synchronization phenomena.
翻訳日:2023-06-27 18:10:44 公開日:2023-06-24
# grassrootsのソーシャルネットワーク: twitter/linkedin/whatsappのサーバーレス、パーミッションレスプロトコル

Grassroots Social Networking: Serverless, Permissionless Protocols for Twitter/LinkedIn/WhatsApp ( http://arxiv.org/abs/2306.13941v1 )

ライセンス: Link先を確認
Ehud Shapiro(参考訳) ソーシャルネットワークのための、中央管理のグローバルなデジタルプラットホームに代わる実行可能なアーキテクチャを提供することは、オープンな課題だ。 ここでは、草の根ソーシャルネットワークと呼ばれるサーバーレス、無許可、ピアツーピアのソーシャルネットワークのための草の根アーキテクチャを紹介する。 このアーキテクチャは、信頼性の低いネットワーク上で通信するローミング(アドレス変更)エージェント、例えばUDPを介して通信するスマートフォンを対象としている。 アーキテクチャは (i)各会員が管理し、維持し、その地域のみをグラフに保存する分散社会グラフ (ii)著者及び従者による会員制作フィード (iii)社会グラフの縁に沿ってのみ通信を行う新たな草の根拡散プロトコル。 アーキテクチャは、複製された完全に順序付けられたブロックチェーンの部分的に順序付けられた分散データ構造であるブロックレスデータ構造を使用して、これらのコンポーネントを実現する。 私たちは2つの草の根のソーシャルネットワークプロトコル - twitter/linkedin-like と whatsapp-like -- を提供し、その安全性、ライブ性、プライバシー、スパム/ディープフェイク耐性に対処し、中央制御されたソーシャルネットワークが草の根アーキテクチャに取って代わられることを実証します。

Offering a viable alternative architecture to centrally-controlled global digital platforms for social networking is an open challenge. Here we present a grassroots architecture for serverless, permissionless, peer-to-peer social networks termed grassroots social networking. The architecture is geared for roaming (address-changing) agents communicating over an unreliable network, e.g., smartphones communicating via UDP. The architecture incorporates (i) a decentralized social graph, where each member controls, maintains and stores only their local neighbourhood in the graph; (ii) member-created feeds, with authors and followers; and (iii) a novel grassroots dissemination protocol, in which communication occurs only along the edges of the social graph. The architecture realizes these components using the blocklace data structure -- a distributed partially-ordered counterpart of the replicated totally-ordered blockchain. We provide two example grassroots social networking protocols -- Twitter/LinkedIn-like and WhatsApp-like -- and address their safety, liveness, privacy, and spam/deep-fake resistance, demonstrating how centrally-controlled social networks could be supplanted by a grassroots architecture.
翻訳日:2023-06-27 18:10:32 公開日:2023-06-24
# 善良な説明者は秘密裏に人間であるのか?

Are Good Explainers Secretly Human-in-the-Loop Active Learners? ( http://arxiv.org/abs/2306.13935v1 )

ライセンス: Link先を確認
Emma Thuong Nguyen, Abhishek Ghose(参考訳) 説明可能なAI(XAI)技術は、ここ数年で複数のユースケースで人気を集めている。 ここでは、モデル予測の研究において、追加のトレーニングデータ収集に使用することを検討する。 これは、クエリ戦略がヒューマン・イン・ザ・ループを含むActive Learningに相当する、と我々は主張する。 我々は,人間の役割を数学的に近似し,エンド・ツー・エンドのワークフローを一般化する。 これにより、ワークフローの拡張を可能にしながら、この使用を標準的なActive Learningアルゴリズムと厳格に比較することができます。 さらにメリットは、高価なユーザ調査を行う代わりに、シミュレーションを通じてそのユーティリティを評価することができることだ。 初期の有望な結果も提示する。

Explainable AI (XAI) techniques have become popular for multiple use-cases in the past few years. Here we consider its use in studying model predictions to gather additional training data. We argue that this is equivalent to Active Learning, where the query strategy involves a human-in-the-loop. We provide a mathematical approximation for the role of the human, and present a general formalization of the end-to-end workflow. This enables us to rigorously compare this use with standard Active Learning algorithms, while allowing for extensions to the workflow. An added benefit is that their utility can be assessed via simulation instead of conducting expensive user-studies. We also present some initial promising results.
翻訳日:2023-06-27 18:10:10 公開日:2023-06-24
# モーション適応によるビデオフレーム補間

Boost Video Frame Interpolation via Motion Adaptation ( http://arxiv.org/abs/2306.13933v1 )

ライセンス: Link先を確認
Haoning Wu, Xiaoyun Zhang, Weidi Xie, Ya Zhang, Yanfeng Wang(参考訳) ビデオフレーム補間(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。 既存の学習ベースのvfi手法は大きな成功を収めているが、トレーニングデータセットの動作分布が限られているため、まだ一般化能力が限られている。 本稿では,テスト時に見えない動作に適応できる新しい最適化ベースのVFI手法を提案する。 本手法は,映像フレーム間の動き特性を活用するサイクル一貫性適応戦略に基づく。 また、既存のトレーニング済みVFIモデルの動作推定モジュールに挿入可能な軽量アダプタを導入し、適応効率を向上させる。 各種ベンチマーク実験により,提案手法は2フレームVFIモデルの性能を向上し,既存手法よりも優れた性能を発揮することが示された。

Video frame interpolation (VFI) is a challenging task that aims to generate intermediate frames between two consecutive frames in a video. Existing learning-based VFI methods have achieved great success, but they still suffer from limited generalization ability due to the limited motion distribution of training datasets. In this paper, we propose a novel optimization-based VFI method that can adapt to unseen motions at test time. Our method is based on a cycle-consistency adaptation strategy that leverages the motion characteristics among video frames. We also introduce a lightweight adapter that can be inserted into the motion estimation module of existing pre-trained VFI models to improve the efficiency of adaptation. Extensive experiments on various benchmarks demonstrate that our method can boost the performance of two-frame VFI models, outperforming the existing state-of-the-art methods, even those that use extra input.
翻訳日:2023-06-27 18:10:00 公開日:2023-06-24
# サンプル外および再サンプリング戦略を用いた構造学習アルゴリズムのチューニング

Tuning structure learning algorithms with out-of-sample and resampling strategies ( http://arxiv.org/abs/2306.13932v1 )

ライセンス: Link先を確認
Kiattikun Chobtham, Anthony C. Constantinou(参考訳) データに構造学習アルゴリズムを適用する際の課題の1つは、ハイパーパラメータのセットを決定することであり、そうでなければ、ハイパーパラメータのデフォルトセットが想定される。 最適なハイパーパラメータ構成は、通常未知の真のグラフのサイズと密度、入力データのサンプルサイズ、構造学習アルゴリズムなど、複数の要因に依存することが多い。 入力データセットと構造学習アルゴリズムから,構造学習のための最適なハイパーパラメータ構成を推定するために,アウトオブサンプルと再サンプリング戦略を用いた構造学習のためのアウトオブサンプルチューニング(OTSL)と呼ばれる新しいハイパーパラメータチューニング手法を提案する。 合成実験により、ハイブリッドおよびスコアに基づく構造学習アルゴリズムのハイパーパラメータを調整するための手段としてOTSLを用いると、最先端技術と比較してグラフィカルな精度が向上することが示された。 また、異なる分野の実際のデータセットに対するこのアプローチの適用性についても説明する。

One of the challenges practitioners face when applying structure learning algorithms to their data involves determining a set of hyperparameters; otherwise, a set of hyperparameter defaults is assumed. The optimal hyperparameter configuration often depends on multiple factors, including the size and density of the usually unknown underlying true graph, the sample size of the input data, and the structure learning algorithm. We propose a novel hyperparameter tuning method, called the Out-of-sample Tuning for Structure Learning (OTSL), that employs out-of-sample and resampling strategies to estimate the optimal hyperparameter configuration for structure learning, given the input data set and structure learning algorithm. Synthetic experiments show that employing OTSL as a means to tune the hyperparameters of hybrid and score-based structure learning algorithms leads to improvements in graphical accuracy compared to the state-of-the-art. We also illustrate the applicability of this approach to real datasets from different disciplines.
翻訳日:2023-06-27 18:09:45 公開日:2023-06-24
# ディープラーニングモデルを用いた株価指数予測の比較検討

Comparative Study of Predicting Stock Index Using Deep Learning Models ( http://arxiv.org/abs/2306.13931v1 )

ライセンス: Link先を確認
Harshal Patel, Bharath Kumar Bolla, Sabeesh E, Dinesh Reddy(参考訳) 時系列予測では、従来の技術分析、アルゴリズム統計モデル、最近の機械学習と人工知能アプローチなど、過去数十年にわたって多くの手法が試みられている。 近年,短期的および長期的依存関係を利用したLSTMや従来のRNNアプローチなどの予測シナリオにニューラルネットワークが組み込まれている。 本研究では, ARIMA, SARIMA, SARIMAXなどの従来の予測手法と, RNNを用いて構築したDF-RNN, DSSM, Deep ARなどの新しいニューラルネットワークアプローチを評価する。 Kaggleの標準NIFTY-50データセットは、MSE、RMSE、MAPE、POCID、Theil's Uなどのメトリクスを用いてこれらのモデルを評価するために使用される。 さらに、Deep ARとGRUのパフォーマンスはトレーニングデータの量を減らすと劣化せず、一貫性と信頼性を達成するために大量のデータを必要としない可能性がある。 この研究は、予測シナリオにディープラーニングアプローチを組み込むことが、従来のアプローチを大幅に上回り、複雑なデータセットを処理し、気象予報やその他の時系列アプリケーションといったさまざまなドメインで、現実世界のシナリオで応用できることを示している。

Time series forecasting has seen many methods attempted over the past few decades, including traditional technical analysis, algorithmic statistical models, and more recent machine learning and artificial intelligence approaches. Recently, neural networks have been incorporated into the forecasting scenario, such as the LSTM and conventional RNN approaches, which utilize short-term and long-term dependencies. This study evaluates traditional forecasting methods, such as ARIMA, SARIMA, and SARIMAX, and newer neural network approaches, such as DF-RNN, DSSM, and Deep AR, built using RNNs. The standard NIFTY-50 dataset from Kaggle is used to assess these models using metrics such as MSE, RMSE, MAPE, POCID, and Theil's U. Results show that Deep AR outperformed all other conventional deep learning and traditional approaches, with the lowest MAPE of 0.01 and RMSE of 189. Additionally, the performance of Deep AR and GRU did not degrade when the amount of training data was reduced, suggesting that these models may not require a large amount of data to achieve consistent and reliable performance. The study demonstrates that incorporating deep learning approaches in a forecasting scenario significantly outperforms conventional approaches and can handle complex datasets, with potential applications in various domains, such as weather predictions and other time series applications in a real-world scenario.
翻訳日:2023-06-27 18:09:28 公開日:2023-06-24
# クラスバランスと低資源設定のためのGAN生成合成語彙データの有用性の評価

Evaluating the Utility of GAN Generated Synthetic Tabular Data for Class Balancing and Low Resource Settings ( http://arxiv.org/abs/2306.13929v1 )

ライセンス: Link先を確認
Nagarjuna Chereddy and Bharath Kumar Bolla(参考訳) 本研究の目的は、分類タスクにおける不均衡データの問題に対処し、低リソース環境での分類モデルの性能を向上させるために、合成データを生成するSMOTE、ADASYN、GAN技術の適合性を評価することである。 この研究は、クラスバランス実験のための一般化線形モデル(GLM)アルゴリズムと低リソース設定実験のためのランダムフォレスト(RF)アルゴリズムを用いて、様々なトレーニングデータの下でモデル性能を評価する。 リコールメトリックは、すべての分類モデルの主要な評価指標であった。 クラスバランス実験の結果, GANバランスデータに基づいてトレーニングしたGLMモデルが最も高いリコール値を得た。 同様に、低リソース実験では、GAN合成データで強化されたデータに基づいてトレーニングされたモデルは、元のデータよりも優れたリコール値を示した。 これらの結果は,低リソース環境下でのモデル性能の向上と分類タスクにおける不均衡データの課題に対処するための,GAN生成合成データの可能性を示している。

The present study aimed to address the issue of imbalanced data in classification tasks and evaluated the suitability of SMOTE, ADASYN, and GAN techniques in generating synthetic data to address the class imbalance and improve the performance of classification models in low-resource settings. The study employed the Generalised Linear Model (GLM) algorithm for class balancing experiments and the Random Forest (RF) algorithm for low-resource setting experiments to assess model performance under varying training data. The recall metric was the primary evaluation metric for all classification models. The results of the class balancing experiments showed that the GLM model trained on GAN-balanced data achieved the highest recall value. Similarly, in low-resource experiments, models trained on data enhanced with GAN-synthesized data exhibited better recall values than original data. These findings demonstrate the potential of GAN-generated synthetic data for addressing the challenge of imbalanced data in classification tasks and improving model performance in low-resource settings.
翻訳日:2023-06-27 18:09:03 公開日:2023-06-24
# 非線形・非定常・確率系の凸データ駆動逆最適制御について

On Convex Data-Driven Inverse Optimal Control for Nonlinear, Non-stationary and Stochastic Systems ( http://arxiv.org/abs/2306.13928v1 )

ライセンス: Link先を確認
Emiland Garrabe, Hozefa Jesawada, Carmen Del Vecchio, Giovanni Russo(参考訳) 本稿では,エージェントの動作を駆動する非凸性および非定常コストを観測から推定する目的を持つ有限水平逆制御問題について考察する。 本稿では,エージェントコストが存在しない場合や基礎となるダイナミクスが非線形で非定常で確率的であっても凸である最適化問題を解くことで,コスト推定を可能にする結果を示す。 この結果を得るために、決定変数としてポリシーをランダム化した有限水平前方制御問題についても検討する。 この問題に対して、最適解に対する明示的な表現を与える。 さらに,本研究の成果をアルゴリズム的手法に転換し,本手法の有効性を実ハードウェアで検証し,本手法の有効性を示す。 実験はすべて、我々のアプローチの有効性を確認します。

This paper is concerned with a finite-horizon inverse control problem, which has the goal of inferring, from observations, the possibly non-convex and non-stationary cost driving the actions of an agent. In this context, we present a result that enables cost estimation by solving an optimization problem that is convex even when the agent cost is not and when the underlying dynamics is nonlinear, non-stationary and stochastic. To obtain this result, we also study a finite-horizon forward control problem that has randomized policies as decision variables. For this problem, we give an explicit expression for the optimal solution. Moreover, we turn our findings into algorithmic procedures and we show the effectiveness of our approach via both in-silico and experimental validations with real hardware. All the experiments confirm the effectiveness of our approach.
翻訳日:2023-06-27 18:08:45 公開日:2023-06-24
# グラフニューラルネットワークは構造情報から確実に恩恵を受ける:機能学習の視点から

Graph Neural Networks Provably Benefit from Structural Information: A Feature Learning Perspective ( http://arxiv.org/abs/2306.13926v1 )

ライセンス: Link先を確認
Wei Huang, Yuan Cao, Haonan Wang, Xin Cao, Taiji Suzuki(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習の先駆者であり、グラフ入力を処理する際に多層パーセプトロン(MLP)よりも優れた特徴学習と性能を示す。 しかし、GNNの機能学習の側面を理解することは、まだ初期段階にある。 本研究では,勾配降下学習を用いたニューラルネットワークにおける特徴学習理論の文脈におけるグラフ畳み込みの役割を調べることにより,このギャップを埋めることを目的とする。 二層グラフ畳み込みニューラルネットワーク (gcns) における信号学習と雑音記憶の特徴について検討し, 2層畳み込みニューラルネットワーク (cnns) と対比した。 以上の結果から,信号学習が雑音記憶を超越するCNNに対して,グラフの畳み込みは,約$$\sqrt{D}^{q-2}$でノードの期待値を示す$D$と,$q > 2$でReLU活性化関数のパワーである$q$を大きく増大させることがわかった。 これらの結果は,勾配降下訓練後の特徴学習と一般化能力において,GNNとMLPの相違が顕著であり,実験シミュレーションによりさらに裏付けられた結論である。

Graph neural networks (GNNs) have pioneered advancements in graph representation learning, exhibiting superior feature learning and performance over multilayer perceptrons (MLPs) when handling graph inputs. However, understanding the feature learning aspect of GNNs is still in its initial stage. This study aims to bridge this gap by investigating the role of graph convolution within the context of feature learning theory in neural networks using gradient descent training. We provide a distinct characterization of signal learning and noise memorization in two-layer graph convolutional networks (GCNs), contrasting them with two-layer convolutional neural networks (CNNs). Our findings reveal that graph convolution significantly augments the benign overfitting regime over the counterpart CNNs, where signal learning surpasses noise memorization, by approximately factor $\sqrt{D}^{q-2}$, with $D$ denoting a node's expected degree and $q$ being the power of the ReLU activation function where $q > 2$. These findings highlight a substantial discrepancy between GNNs and MLPs in terms of feature learning and generalization capacity after gradient descent training, a conclusion further substantiated by our empirical simulations.
翻訳日:2023-06-27 18:08:32 公開日:2023-06-24
# 回転同変コントラスト学習を用いた構造的表現幾何学

Structuring Representation Geometry with Rotationally Equivariant Contrastive Learning ( http://arxiv.org/abs/2306.13924v1 )

ライセンス: Link先を確認
Sharut Gupta, Joshua Robinson, Derek Lim, Soledad Villar, Stefanie Jegelka(参考訳) 自己教師付き学習は、画像などの生の知覚データを、ユークリッド距離が有意義なデータの変動を測定するようなコンパクトな空間に変換する。 本稿では、埋め込み空間の単純(線型)変換に対応する入力空間の変換を強制することにより、埋め込み空間に幾何学的構造を加えることにより、この定式化を拡張する。 具体的には, 対照的な学習設定において, 等分散目標を導入し, その最小化が球面埋め込み空間の回転に対応する入力空間の増大を理論的に証明する。 共変項と同変損失を組み合わせるだけで、データ拡張の不変性を必要とせず、非自明な表現が得られることを示す。 最適性能は、入力増強が小さな回転に対応するような近似不変性を奨励することで達成される。 提案手法,注意:コントラスト強化によるローテーション等分散は下流タスクの性能向上につながり,標準コントラスト法では達成できない重要なデータ(色など)への埋め込み空間の感度を保証する。 コードはhttps://github.com/Sharut/CAREで公開されている。

Self-supervised learning converts raw perceptual data such as images to a compact space where simple Euclidean distances measure meaningful variations in data. In this paper, we extend this formulation by adding additional geometric structure to the embedding space by enforcing transformations of input space to correspond to simple (i.e., linear) transformations of embedding space. Specifically, in the contrastive learning setting, we introduce an equivariance objective and theoretically prove that its minima forces augmentations on input space to correspond to rotations on the spherical embedding space. We show that merely combining our equivariant loss with a non-collapse term results in non-trivial representations, without requiring invariance to data augmentations. Optimal performance is achieved by also encouraging approximate invariance, where input augmentations correspond to small rotations. Our method, CARE: Contrastive Augmentation-induced Rotational Equivariance, leads to improved performance on downstream tasks, and ensures sensitivity in embedding space to important variations in data (e.g., color) that standard contrastive methods do not achieve. Code is available at https://github.com/Sharut/CARE.
翻訳日:2023-06-27 18:08:09 公開日:2023-06-24
# ボリューム医用画像解析のための正規SE(3)グループ畳み込み

Regular SE(3) Group Convolutions for Volumetric Medical Image Analysis ( http://arxiv.org/abs/2306.13960v1 )

ライセンス: Link先を確認
Thijs P. Kuipers and Erik J. Bekkers(参考訳) 正規群畳み込みニューラルネットワーク(G-CNN)は、モデル性能を高め、異なる幾何学的対称性に等しくなることが示されている。 本研究は体積データ上のse(3),すなわちroto-translation equivarianceの問題に対処する。 ボリューム画像データは、多くの医療現場で広く使われている。 分離可能な群畳み込みに関する最近の研究により、連続的なSO(3)(回転)カーネルと空間的カーネルに分離されたSE(3)群畳み込みカーネルを考案した。 均一なSO(3)格子をサンプリングすることで連続的な設定に近似する。 我々の連続SO(3)カーネルは同様に一様格子上のRBF補間によってパラメータ化される。 ボリューム画像解析における我々のアプローチの利点を実証する。 医用分類課題において, se(3)同変モデルはcnnと正規離散g-cnnを一貫して上回っており, 一般化能力が著しく向上している。 提案手法は,通常のCNNに比べて最大16.5%の精度向上を実現している。

Regular group convolutional neural networks (G-CNNs) have been shown to increase model performance and improve equivariance to different geometrical symmetries. This work addresses the problem of SE(3), i.e., roto-translation equivariance, on volumetric data. Volumetric image data is prevalent in many medical settings. Motivated by the recent work on separable group convolutions, we devise a SE(3) group convolution kernel separated into a continuous SO(3) (rotation) kernel and a spatial kernel. We approximate equivariance to the continuous setting by sampling uniform SO(3) grids. Our continuous SO(3) kernel is parameterized via RBF interpolation on similarly uniform grids. We demonstrate the advantages of our approach in volumetric medical image analysis. Our SE(3) equivariant models consistently outperform CNNs and regular discrete G-CNNs on challenging medical classification tasks and show significantly improved generalization capabilities. Our approach achieves up to a 16.5% gain in accuracy over regular CNNs.
翻訳日:2023-06-27 18:02:27 公開日:2023-06-24
# 多人数会話における感情フリップ推論

Emotion Flip Reasoning in Multiparty Conversations ( http://arxiv.org/abs/2306.13959v1 )

ライセンス: Link先を確認
Shivani Kumar, Shubham Dudeja, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 会話対話では、話者は異なる感情状態を持ち、そのダイナミクスは対話の感情的談話を理解する上で重要な役割を果たす。 しかし、単に感情を検出するだけでは、会話中に起こる話者固有の感情の変化を完全に理解するには不十分である。 話者の感情のダイナミクスを効果的に理解するためには、話者が表現する感情の変化やフリップの背後にある理性やインスティゲータを特定することが不可欠である。 本稿では,会話中の話者の感情のフリップの背後にあるインスティゲータを特定することを目的とした,Instigator based Emotion Flip Reasoning(EFR)というタスクについて検討する。 例えば、喜びから怒りへの感情の反転は、脅威のような扇動者によって引き起こされる可能性がある。 この作業を容易にするために,感情心理学に則った,地味なERFインスティゲータラベルを含むデータセットMELD-Iを提案する。 このデータセットを評価するために,トランスフォーマーエンコーダと積み重ねられたgrogを使用して対話コンテキスト,話者ダイナミクス,会話中の感情シーケンスをキャプチャする,tgifと呼ばれる新しいニューラルアーキテクチャを提案する。 本評価では,タスクに使用する5つのベースラインに対して,最先端の性能(F1スコアの+4-12%増加)を示す。 さらに、ゼロショット設定において、目に見えないデータセット上でのTGIFの一般化性を確立する。 さらに、競合するモデルの詳細な分析を行い、ニューラルネットワークアーキテクチャの利点と限界を強調します。

In a conversational dialogue, speakers may have different emotional states and their dynamics play an important role in understanding dialogue's emotional discourse. However, simply detecting emotions is not sufficient to entirely comprehend the speaker-specific changes in emotion that occur during a conversation. To understand the emotional dynamics of speakers in an efficient manner, it is imperative to identify the rationale or instigator behind any changes or flips in emotion expressed by the speaker. In this paper, we explore the task called Instigator based Emotion Flip Reasoning (EFR), which aims to identify the instigator behind a speaker's emotion flip within a conversation. For example, an emotion flip from joy to anger could be caused by an instigator like threat. To facilitate this task, we present MELD-I, a dataset that includes ground-truth EFR instigator labels, which are in line with emotional psychology. To evaluate the dataset, we propose a novel neural architecture called TGIF, which leverages Transformer encoders and stacked GRUs to capture the dialogue context, speaker dynamics, and emotion sequence in a conversation. Our evaluation demonstrates state-of-the-art performance (+4-12% increase in F1-score) against five baselines used for the task. Further, we establish the generalizability of TGIF on an unseen dataset in a zero-shot setting. Additionally, we provide a detailed analysis of the competing models, highlighting the advantages and limitations of our neural architecture.
翻訳日:2023-06-27 18:02:12 公開日:2023-06-24
# diffdtm:二重タンパク質を標的とした生物活性分子生成のための条件付き構造フリーフレームワーク

DiffDTM: A conditional structure-free framework for bioactive molecules generation targeted for dual proteins ( http://arxiv.org/abs/2306.13957v1 )

ライセンス: Link先を確認
Lei Huang, Zheng Yuan, Huihui Yan, Rong Sheng, Linjing Liu, Fuzhou Wang, Weidun Xie, Nanjun Chen, Fei Huang, Songfang Huang, Ka-Chun Wong, Yaoyun Zhang(参考訳) 深部生成モデルの進歩は、望ましい性質を持つデ・ノボ分子生成に光を当てた。 しかし、二重タンパク質ターゲットをターゲットとする分子生成は、モデルトレーニングのためのタンパク質3D構造データ取得、自動回帰サンプリング、見えないターゲットのためのモデル一般化など、深刻な課題に直面している。 本稿では, 二重ターゲット分子生成のための拡散モデルに基づく条件付き構造自由深部生成モデルDiffDTMを提案する。 具体的には、DiffDTMはタンパク質配列と分子グラフをタンパク質や分子構造の代わりに入力として受け取り、情報融合モジュールを組み込んで1ショットで条件生成を行う。 我々は、diffdtmが特定の二重タンパク質を標的とした薬物様、合成可能、新規、高結合の親和性分子を生成できることを実証するために、包括的な多視点実験を行った。 さらに,新しい抗精神病薬としてDiffDTMを用いてドパミン受容体D2および5-ヒドロキシトリプタミン受容体1Aに分子を誘導した。 実験の結果, diffdtm は生体活性分子を発生させるため, 生体活性分子を検出できない二重標的に容易に挿入でき, トレーニングに活性分子データ不足や新たな標的に遭遇した場合のリトレーニングの必要性に対処できることが示唆された。

Advances in deep generative models shed light on de novo molecule generation with desired properties. However, molecule generation targeted for dual protein targets still faces formidable challenges including protein 3D structure data requisition for model training, auto-regressive sampling, and model generalization for unseen targets. Here, we proposed DiffDTM, a novel conditional structure-free deep generative model based on a diffusion model for dual targets based molecule generation to address the above issues. Specifically, DiffDTM receives protein sequences and molecular graphs as inputs instead of protein and molecular conformations and incorporates an information fusion module to achieve conditional generation in a one-shot manner. We have conducted comprehensive multi-view experiments to demonstrate that DiffDTM can generate drug-like, synthesis-accessible, novel, and high-binding affinity molecules targeting specific dual proteins, outperforming the state-of-the-art (SOTA) models in terms of multiple evaluation metrics. Furthermore, we utilized DiffDTM to generate molecules towards dopamine receptor D2 and 5-hydroxytryptamine receptor 1A as new antipsychotics. The experimental results indicate that DiffDTM can be easily plugged into unseen dual targets to generate bioactive molecules, addressing the issues of requiring insufficient active molecule data for training as well as the need to retrain when encountering new targets.
翻訳日:2023-06-27 18:01:48 公開日:2023-06-24
# 線形時相論理規則のポイントワイズインタイム説明

Pointwise-in-Time Explanation for Linear Temporal Logic Rules ( http://arxiv.org/abs/2306.13956v1 )

ライセンス: Link先を確認
Noel Brindise and Cedric Langbort(参考訳) 本研究は,特定の経路計画において,個々の時間における線形時間論理(LTL)制約の関連性を評価する枠組みを導入する。 Kripke構造を用いた離散時間離散空間設定で有限計画を実行するエージェントのステータスアセスメントアルゴリズムを特徴とするこのフレームワークを開発した。 この構造に関する計画と、エージェントを制約することで知られる一連のltlルールが与えられた後、アルゴリズムは2種類のユーザークエリに応答して説明を生成する。 選択されたクエリ時間には、フレームワークのステータス基準が形式的かつ直感的に定義されている場合、どのルールがアクティブで、満たしているか、どのルールが不アクティブかが説明される。 説明には、さらなる洞察を提供するために個々のルール引数のステータスも含まれる。 本稿では,この新フレームワークを体系的に提示し,その実装例を示す。

This work introduces a framework to assess the relevance of individual linear temporal logic (LTL) constraints at specific times in a given path plan, a task we refer to as "pointwise-in-time" explanation. We develop this framework, featuring a status assessment algorithm, for agents which execute finite plans in a discrete-time, discrete-space setting expressible via a Kripke structure. Given a plan on this structure and a set of LTL rules which are known to constrain the agent, the algorithm responds to two types of user queries to produce explanation. For the selected query time, explanations identify which rules are active, which have just been satisfied, and which are inactive, where the framework status criteria are formally and intuitively defined. Explanations may also include the status of individual rule arguments to provide further insight. In this paper, we systematically present this novel framework and provide an example of its implementation.
翻訳日:2023-06-27 18:01:21 公開日:2023-06-24
# 新型コロナウイルスの誤報の感情キャリアーの特徴と、インドと米国におけるワクチン接種成績への影響

Characterizing the Emotion Carriers of COVID-19 Misinformation and Their Impact on Vaccination Outcomes in India and the United States ( http://arxiv.org/abs/2306.13954v1 )

ライセンス: Link先を確認
Ridam Pal, Sanjana S, Deepak Mahto, Kriti Agrawal, Gopal Mengi, Sargun Nagpal, Akshaya Devadiga, Tavpritesh Sethi(参考訳) 新型コロナウイルスのインフォデミックは、世界規模で健康行動や結果に前例のない影響を与えた。 感情分析を含む誤情報の質的、定量的な理解に多くの研究が注力してきたが、誤情報の感情・キャリアとその地域間の違いを理解することにはギャップがある。 本研究では,インドと米国での感情キャリアとワクチン接種率への影響を特徴付ける。 手動でラベル付けされたデータセットは、230万のツイートから作成され、3つの公開データセット(CoAID、AntiVax、CMU)と照合して、誤情報分類のためのディープラーニングモデルをトレーニングした。 Plutchik Transformerを利用して各ツイートの感情を判断することで、誤ったラベル付きつぶやきをさらに分析した。 誤情報が時間的・時間的特性に与える影響を調べるために時系列分析を行った。 さらに、誤報ツイートのカテゴリを割り当てるために、トランスフォーマーモデルを用いてカテゴリ分類を行った。 Word2Vec+BiLSTMは誤情報分類の最良のモデルであり、F1スコアは0.92である。 アメリカは偽情報ツイートが最も多く(58.02%)、イギリス(10.38%)とインド(7.33%)が続いた。 嫌悪感、期待、怒りは、誤報ツイートの増加と関連していた。 嫌悪感は米国における誤報のツイートに関連する主要な感情であり、予想はインドにおける主要な感情であった。 インドでは偽情報率は予防接種とリード関係を示し、アメリカでは予防接種に遅れを取っていた。 我々の研究は、感情が地理的および時間にわたって誤情報の異なるキャリアとして振る舞うことを解読した。 これらのキャリアは、誤った情報に対抗する戦略的介入を開発するために監視され、公衆衛生の改善につながる。

The COVID-19 Infodemic had an unprecedented impact on health behaviors and outcomes at a global scale. While many studies have focused on a qualitative and quantitative understanding of misinformation, including sentiment analysis, there is a gap in understanding the emotion-carriers of misinformation and their differences across geographies. In this study, we characterized emotion carriers and their impact on vaccination rates in India and the United States. A manually labelled dataset was created from 2.3 million tweets and collated with three publicly available datasets (CoAID, AntiVax, CMU) to train deep learning models for misinformation classification. Misinformation labelled tweets were further analyzed for behavioral aspects by leveraging Plutchik Transformers to determine the emotion for each tweet. Time series analysis was conducted to study the impact of misinformation on spatial and temporal characteristics. Further, categorical classification was performed using transformer models to assign categories for the misinformation tweets. Word2Vec+BiLSTM was the best model for misinformation classification, with an F1-score of 0.92. The US had the highest proportion of misinformation tweets (58.02%), followed by the UK (10.38%) and India (7.33%). Disgust, anticipation, and anger were associated with an increased prevalence of misinformation tweets. Disgust was the predominant emotion associated with misinformation tweets in the US, while anticipation was the predominant emotion in India. For India, the misinformation rate exhibited a lead relationship with vaccination, while in the US it lagged behind vaccination. Our study deciphered that emotions acted as differential carriers of misinformation across geography and time. These carriers can be monitored to develop strategic interventions for countering misinformation, leading to improved public health.
翻訳日:2023-06-27 18:01:05 公開日:2023-06-24
# 人工知能と生物学的誤用:言語モデルと生物学的デザインツールの差別化リスク

Artificial intelligence and biological misuse: Differentiating risks of language models and biological design tools ( http://arxiv.org/abs/2306.13952v1 )

ライセンス: Link先を確認
Jonas B. Sandbrink(参考訳) 人工知能が生命科学の進歩を促進するにつれ、生物エージェントの兵器化や誤用も可能となるかもしれない。 本稿では,大規模言語モデル (LLM) と生物設計ツール (BDT) の2種類のAIツールを区別する。 gpt-4のようなllmはすでに、歴史的な生物学的兵器開発が成功するためのデュアルユース情報を提供することができる。 LLMを研究室のアシスタントや自律科学ツールに変えることで、研究を支援する能力はさらに向上する。 したがって、LDMは特に生物学的誤用に対する障壁を低くする。 対照的に、BDTは高度なアクターの能力を拡大する。 具体的には、BDTはパンデミックの病原体をこれまで見たことよりもはるかに悪化させ、予測可能で標的となる生物兵器の形式を可能にする可能性がある。 LLMとBDTが組み合わさると、生物剤による害の天井が上がり、広くアクセスできるようになる。 LLMとBDTの異なるリスクプロファイルは、リスク軽減に重要な意味を持つ。 LLMリスクは緊急行動を必要とし、危険な能力へのアクセスを制御することによって効果的に軽減される可能性がある。 開発者が危険な機能をなくすためには、必須のプレリリース評価が不可欠である可能性がある。 科学に特化したaiツールは、正当なユーザーへのアクセスを許可しながら誤用を防止するための差別化戦略を要求する。 一方、BDTからのリスクは定義されておらず、開発者や政策立案者による監視が必要である。 これらのリスクを減らす鍵は、遺伝子合成のスクリーニングを強化すること、高度なアクターによる生物学的誤用を防ぐための介入、BDTの特定の制御の探索である。

As advancements in artificial intelligence propel progress in the life sciences, they may also enable the weaponisation and misuse of biological agents. This article differentiates two classes of AI tools that pose such biosecurity risks: large language models (LLMs) and biological design tools (BDTs). LLMs, such as GPT-4, are already able to provide dual-use information that could have enabled historical biological weapons efforts to succeed. As LLMs are turned into lab assistants and autonomous science tools, this will further increase their ability to support research. Thus, LLMs will in particular lower barriers to biological misuse. In contrast, BDTs will expand the capabilities of sophisticated actors. Concretely, BDTs may enable the creation of pandemic pathogens substantially worse than anything seen to date and could enable forms of more predictable and targeted biological weapons. In combination, LLMs and BDTs could raise the ceiling of harm from biological agents and could make them broadly accessible. The differing risk profiles of LLMs and BDTs have important implications for risk mitigation. LLM risks require urgent action and might be effectively mitigated by controlling access to dangerous capabilities. Mandatory pre-release evaluations could be critical to ensure that developers eliminate dangerous capabilities. Science-specific AI tools demand differentiated strategies to allow access to legitimate users while preventing misuse. Meanwhile, risks from BDTs are less defined and require monitoring by developers and policymakers. Key to reducing these risks will be enhanced screening of gene synthesis, interventions to deter biological misuse by sophisticated actors, and exploration of specific controls of BDTs.
翻訳日:2023-06-27 18:00:34 公開日:2023-06-24
# リアルな空気質予測を解き放つ:purpleairsfデータセットの導入

Unleashing Realistic Air Quality Forecasting: Introducing the Ready-to-Use PurpleAirSF Dataset ( http://arxiv.org/abs/2306.13948v1 )

ライセンス: Link先を確認
Jingwei Zuo, Wenbin Li, Michele Baldo and Hakim Hacid(参考訳) 近年,機械学習やディープラーニングモデルの進歩により,データ駆動型モデルが中心となるなど,品質予測が注目されている。 しかし、研究者は複雑なデータ取得とオープンソースデータセットの欠如で課題に直面し、効率的なモデルの検証を妨げる。 本稿では,PurpleAirネットワークから収集した包括的でアクセスしやすいデータセットであるPurpleAirSFを紹介する。 このデータセットは、高時間分解能、様々な大気質対策、多様な地理的範囲で、新しい予測モデルの開発、大気汚染パターンの研究、健康と環境への影響の調査を目的とした研究者にとって有用なツールである。 本稿では、PurpleAirSFの構築に使用されるデータ収集および処理方法の詳細について述べる。 さらに,従来の時空間予測モデルと現代の時空間予測モデルの両方を用いて予備実験を行い,将来の大気質予測タスクのベンチマークを作成する。

Air quality forecasting has garnered significant attention recently, with data-driven models taking center stage due to advancements in machine learning and deep learning models. However, researchers face challenges with complex data acquisition and the lack of open-sourced datasets, hindering efficient model validation. This paper introduces PurpleAirSF, a comprehensive and easily accessible dataset collected from the PurpleAir network. With its high temporal resolution, various air quality measures, and diverse geographical coverage, this dataset serves as a useful tool for researchers aiming to develop novel forecasting models, study air pollution patterns, and investigate their impacts on health and the environment. We present a detailed account of the data collection and processing methods employed to build PurpleAirSF. Furthermore, we conduct preliminary experiments using both classic and modern spatio-temporal forecasting models, thereby establishing a benchmark for future air quality forecasting tasks.
翻訳日:2023-06-27 18:00:08 公開日:2023-06-24
# トルコ語アドレス解析のための事前学習言語モデルの比較

Comparison of Pre-trained Language Models for Turkish Address Parsing ( http://arxiv.org/abs/2306.13947v1 )

ライセンス: Link先を確認
Muhammed Cihat \"Unal, Bet\"ul Ayg\"un, Ayd{\i}n Gerek(参考訳) BERTなどのトランスフォーマーベースの事前学習モデルとその変種は、大きなコーパスで訓練されており、自然言語処理(NLP)タスクにおいて大きな成功を収めている。 学術研究の大部分は英語に基づいているが、多言語・言語固有の研究は着実に増えている。 さらに、言語固有のモデルは様々なタスクにおいて多言語モデルよりも優れていると主張する研究もある。 したがって、コミュニティはケーススタディの言語、特にケーススタディのモデルを訓練または微調整する傾向がある。 本稿では,トルコの地図データに着目し,多言語とトルコを基盤としたBERT, DistilBERT, ELECTRA, RoBERTaを徹底的に評価する。 また,一層ファインタニングの標準的なアプローチに加えて,細調整BERTのためのMultiLayer Perceptron (MLP)を提案する。 データセットについては、比較的高品質な中規模アドレスパースコーパスを構築する。 このデータセットを用いた実験により、MLPファインチューニングを持つトルコ語固有のモデルは、マルチリンガルファインチューニングモデルと比較してわずかに良い結果が得られることが示された。 さらに、アドレストークンの表現の可視化は、様々なアドレスを分類するためのBERT変種の有効性をさらに示す。

Transformer based pre-trained models such as BERT and its variants, which are trained on large corpora, have demonstrated tremendous success for natural language processing (NLP) tasks. Most of academic works are based on the English language; however, the number of multilingual and language specific studies increase steadily. Furthermore, several studies claimed that language specific models outperform multilingual models in various tasks. Therefore, the community tends to train or fine-tune the models for the language of their case study, specifically. In this paper, we focus on Turkish maps data and thoroughly evaluate both multilingual and Turkish based BERT, DistilBERT, ELECTRA and RoBERTa. Besides, we also propose a MultiLayer Perceptron (MLP) for fine-tuning BERT in addition to the standard approach of one-layer fine-tuning. For the dataset, a mid-sized Address Parsing corpus taken with a relatively high quality is constructed. Conducted experiments on this dataset indicate that Turkish language specific models with MLP fine-tuning yields slightly better results when compared to the multilingual fine-tuned models. Moreover, visualization of address tokens' representations further indicates the effectiveness of BERT variants for classifying a variety of addresses.
翻訳日:2023-06-27 17:59:55 公開日:2023-06-24
# シーケンシャル意思決定のための大規模系列モデル:調査

Large Sequence Models for Sequential Decision-Making: A Survey ( http://arxiv.org/abs/2306.13945v1 )

ライセンス: Link先を確認
Muning Wen, Runji Lin, Hanjing Wang, Yaodong Yang, Ying Wen, Luo Mai, Jun Wang, Haifeng Zhang and Weinan Zhang(参考訳) トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョン、例えば gpt-3 や swin トランスフォーマーの予測タスクのための大規模かつ汎用的なシーケンスモデルの開発を促進する。 本来は予測問題のために設計されたが、サンプル効率、クレジット割り当て、部分的可観測性といった長年の課題に起因した、逐次的な意思決定や強化学習問題への適合性について問うのは自然である。 近年、シークエンスモデル、特にトランスフォーマーはRLコミュニティへの関心を高め、顕著な有効性と一般化性を持った多くのアプローチを生み出している。 本研究は, 逐次意思決定とシーケンスモデリングの関連を議論し, 変圧器の活用法に基づいて分類することにより, 変圧器などの系列モデルを用いた逐次意思決定課題を解決することを目的とした最近の研究の包括的概要を示す。 さらに, ネットワークアーキテクチャ, アルゴリズム, 効率的な学習システムなど, 逐次的意思決定のための大規模シーケンスモデルの有効性向上を目指す今後の研究に向けて, 様々な可能性について述べる。 この記事はコンピュータサイエンスのフロンティアで受け入れられているように、これは初期のバージョンであり、最新のバージョンはhttps://journal.hep.com.cn/fcs/en/10.1007/s11704-023-2689-5で見ることができる。

Transformer architectures have facilitated the development of large-scale and general-purpose sequence models for prediction tasks in natural language processing and computer vision, e.g., GPT-3 and Swin Transformer. Although originally designed for prediction problems, it is natural to inquire about their suitability for sequential decision-making and reinforcement learning problems, which are typically beset by long-standing issues involving sample efficiency, credit assignment, and partial observability. In recent years, sequence models, especially the Transformer, have attracted increasing interest in the RL communities, spawning numerous approaches with notable effectiveness and generalizability. This survey presents a comprehensive overview of recent works aimed at solving sequential decision-making tasks with sequence models such as the Transformer, by discussing the connection between sequential decision-making and sequence modeling, and categorizing them based on the way they utilize the Transformer. Moreover, this paper puts forth various potential avenues for future research intending to improve the effectiveness of large sequence models for sequential decision-making, encompassing theoretical foundations, network architectures, algorithms, and efficient training systems. As this article has been accepted by the Frontiers of Computer Science, here is an early version, and the most up-to-date version can be found at https://journal.hep.com.cn/fcs/EN/10.1007/s11704-023-2689-5
翻訳日:2023-06-27 17:59:36 公開日:2023-06-24
# デッドエンド回避とリカバリによる安全強化学習

Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery ( http://arxiv.org/abs/2306.13944v1 )

ライセンス: Link先を確認
Xiao Zhang, Hai Zhang, Hongtu Zhou, Chang Huang, Di Zhang, Chen Ye, Junqiao Zhao(参考訳) 安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。 トレーニングプロセス中の安全性を確保するため、既存の手法では、過度に保守的なポリシーを採用して安全でない状況を避ける傾向にある。 しかし、過度に保守的な政策は探検を著しく妨げ、アルゴリズムの報酬を実質的に減らした。 本論文では,安全かつ安全でない状態を識別する境界を構築する手法を提案する。 我々が構築する境界は、デッドエンド状態の識別と等価であり、安全な探検が保証される最大範囲を示し、探索に最小の制限がある。 リカバリ強化学習と同様に,脱結合したrlフレームワークを用いて,(1)タスク性能向上のみを考慮に入れたタスクポリシ,(2)安全性を最大化するリカバリポリシの2つのポリシを学習する。 安全評論家は、各州における安全の上限をエージェントの環境安全の意識として評価するオフラインデータセット上で、回復方針と対応する安全評論家とを事前訓練する。 オンライントレーニング中に行動修正機構が採用され、エージェントが安全な行動のみを使用して環境と対話することを保証する。 最後に、連続制御タスクの実験により、我々の手法は最先端のアルゴリズムよりも安全性違反が少なく、タスク性能が良いことを示した。

Safety is one of the main challenges in applying reinforcement learning to realistic environmental tasks. To ensure safety during and after training process, existing methods tend to adopt overly conservative policy to avoid unsafe situations. However, overly conservative policy severely hinders the exploration, and makes the algorithms substantially less rewarding. In this paper, we propose a method to construct a boundary that discriminates safe and unsafe states. The boundary we construct is equivalent to distinguishing dead-end states, indicating the maximum extent to which safe exploration is guaranteed, and thus has minimum limitation on exploration. Similar to Recovery Reinforcement Learning, we utilize a decoupled RL framework to learn two policies, (1) a task policy that only considers improving the task performance, and (2) a recovery policy that maximizes safety. The recovery policy and a corresponding safety critic are pretrained on an offline dataset, in which the safety critic evaluates upper bound of safety in each state as awareness of environmental safety for the agent. During online training, a behavior correction mechanism is adopted, ensuring the agent to interact with the environment using safe actions only. Finally, experiments of continuous control tasks demonstrate that our approach has better task performance with less safety violations than state-of-the-art algorithms.
翻訳日:2023-06-27 17:59:07 公開日:2023-06-24
# データ適応型エネルギー距離を用いた高次元データのロバスト分類

Robust Classification of High-Dimensional Data using Data-Adaptive Energy Distance ( http://arxiv.org/abs/2306.13985v1 )

ライセンス: Link先を確認
Jyotishka Ray Choudhury, Aytijhya Saha, Sarbojit Roy, Subhajit Dutta(参考訳) 高次元低サンプルサイズ(HDLSS)データの分類は、遺伝子発現研究、がん研究、医療画像など、様々な現実の状況において課題となる。 本稿では,HDLSSデータ用に特別に設計された分類器の開発と解析について述べる。 これらの分類器はチューニングパラメータを含まず、基礎となるデータ分布のモーメント条件を欠いているという意味では堅牢である。 比較的一般的な条件下でHDLSS漸近系において完全な分類が得られることが示されている。 また,提案する分類器の比較性能についても検討した。 提案手法が広く認知されている手法に対して,提案手法の有望な優位性を示すため, シミュレーション研究と実データ解析が有効である。

Classification of high-dimensional low sample size (HDLSS) data poses a challenge in a variety of real-world situations, such as gene expression studies, cancer research, and medical imaging. This article presents the development and analysis of some classifiers that are specifically designed for HDLSS data. These classifiers are free of tuning parameters and are robust, in the sense that they are devoid of any moment conditions of the underlying data distributions. It is shown that they yield perfect classification in the HDLSS asymptotic regime, under some fairly general conditions. The comparative performance of the proposed classifiers is also investigated. Our theoretical results are supported by extensive simulation studies and real data analysis, which demonstrate promising advantages of the proposed classification techniques over several widely recognized methods.
翻訳日:2023-06-27 17:51:36 公開日:2023-06-24
# 協調インテリジェンスのためのモバイルクラウド推論

Mobile-Cloud Inference for Collaborative Intelligence ( http://arxiv.org/abs/2306.13982v1 )

ライセンス: Link先を確認
Mateen Ulhaq(参考訳) モバイルデバイス用のAIアプリケーションが普及するにつれて、ディープラーニングモデル推論のための高速な実行と省エネの必要性が高まっている。 歴史的に、モバイルデバイス上で実行されるモデルは、クラウド上でしか実行できない大規模な最先端の研究モデルと比較して、小さく、よりシンプルである。 しかし、クラウドのみの推論には、ネットワーク帯域幅の増大やレイテンシの増大といった欠点がある。 さらに、クラウドのみの推論では、入力データ(画像、音声)を完全にクラウドに転送する必要があるため、潜在的なプライバシー侵害に関する懸念が生じる。 別のアプローチとして、共有モバイルクラウド推論がある。 部分的推論は、入力データの次元性を低減するためにモバイル上で行われ、入力信号の潜在空間表現であるコンパクトな特徴テンソルに到達する。 その後、さらなる推論のために特徴テンソルがサーバに送信される。 この戦略は、推論レイテンシ、エネルギー消費、ネットワーク帯域使用量を削減するだけでなく、元の信号がモバイルを離れることはないため、プライバシ保護を提供する。 伝送前に特徴テンソルを圧縮することにより、さらなる性能向上を実現することができる。

As AI applications for mobile devices become more prevalent, there is an increasing need for faster execution and lower energy consumption for deep learning model inference. Historically, the models run on mobile devices have been smaller and simpler in comparison to large state-of-the-art research models, which can only run on the cloud. However, cloud-only inference has drawbacks such as increased network bandwidth consumption and higher latency. In addition, cloud-only inference requires the input data (images, audio) to be fully transferred to the cloud, creating concerns about potential privacy breaches. There is an alternative approach: shared mobile-cloud inference. Partial inference is performed on the mobile in order to reduce the dimensionality of the input data and arrive at a compact feature tensor, which is a latent space representation of the input signal. The feature tensor is then transmitted to the server for further inference. This strategy can reduce inference latency, energy consumption, and network bandwidth usage, as well as provide privacy protection, because the original signal never leaves the mobile. Further performance gain can be achieved by compressing the feature tensor before its transmission.
翻訳日:2023-06-27 17:51:24 公開日:2023-06-24
# 正規化多変量機能主成分分析

Regularized Multivariate Functional Principal Component Analysis ( http://arxiv.org/abs/2306.13980v1 )

ライセンス: Link先を確認
Hossein Haghbin, Yue Zhao, and Mehdi Maadooliat(参考訳) 多変量関数主成分分析(MFPCA)は,多変量関数データにおける関係の探索と共有パターンの同定に有用なツールである。 しかし,抽出された主成分(pcs)の粗さの制御は困難である。 本稿では, この問題に対処し, 多変量機能PCのスムーズさと解釈可能性を高めるために, 正規化MFPCA (Realized MFPCA) と呼ばれる新しいアプローチを提案する。 ReMFPCAは、各関数変数の滑らかさを制御するためにパラメータベクトルを使用して、ペナル化フレームワークに粗さペナルティを組み込む。 提案手法はスムーズな多変量関数型PCを生成し,データの簡潔かつ解釈可能な表現を提供する。 大規模なシミュレーションと実データ例は、ReMFPCAの有効性と代替手法よりも優れていることを示す。 提案手法は、複雑な多変量関数型データセットにおける関係の分析と発見のための新しい道を開く。

Multivariate Functional Principal Component Analysis (MFPCA) is a valuable tool for exploring relationships and identifying shared patterns of variation in multivariate functional data. However, controlling the roughness of the extracted Principal Components (PCs) can be challenging. This paper introduces a novel approach called regularized MFPCA (ReMFPCA) to address this issue and enhance the smoothness and interpretability of the multivariate functional PCs. ReMFPCA incorporates a roughness penalty within a penalized framework, using a parameter vector to regulate the smoothness of each functional variable. The proposed method generates smoothed multivariate functional PCs, providing a concise and interpretable representation of the data. Extensive simulations and real data examples demonstrate the effectiveness of ReMFPCA and its superiority over alternative methods. The proposed approach opens new avenues for analyzing and uncovering relationships in complex multivariate functional datasets.
翻訳日:2023-06-27 17:51:07 公開日:2023-06-24
# 現代(量子)物理と哲学におけるボーアの反リアリズム的リアリズム

Bohr's Anti-Realist Realism in Contemporary (Quantum) Physics and Philosophy ( http://arxiv.org/abs/2306.13975v1 )

ライセンス: Link先を確認
Christian de Ronde(参考訳) 20世紀に起こった反現実主義的現実主義的物理学の再定義におけるニールス・ボーアの業績の影響力について論じる。 我々は、科学的理解の現代的コリレーショナルマトリックスの開発に焦点をあて、彼の本質的に反現実主義的スキームは、科学的条件ではなく信仰に基づく「宗教的リアリズム」の弱体化によって、科学の現実主義的プログラムを捉え、覆い、打ち破ることができた。 最後に、現在なお、反現実主義的リアリズムは、(量子)物理学と哲学の両方において、現代のポストモダン研究をどのように支配するかに焦点をあてる。

We discuss the influential role of Niels Bohr's work in the anti-realist realist re-foundation of physics that took place during the 20th century. We will focus in how, developing the modern co-relational matrix of scientific understanding, his essentially anti-realist scheme was able to capture, subvert and defeat the realist program of science through the establishment of a weakened impotent form of "religious realism" grounded on faith instead of scientific conditions. Finally, we will focus in how, still today, anti-realist realism continues to rule the contemporary post-modern research in both (quantum) physics and philosophy.
翻訳日:2023-06-27 17:50:50 公開日:2023-06-24
# 赤いダイオードレーザーを用いた連続波窒素空洞ダイヤモンドレーザーシステム

Continuous-wave nitrogen-vacancy diamond laser system assisted by a red diode laser ( http://arxiv.org/abs/2306.13973v1 )

ライセンス: Link先を確認
Lukas Lindner, Felix A. Hahl, Tingpeng Luo, Guillermo Nava Antonio, Xavier Vidal, Marcel Rattunde, Takeshi Ohshima, Marco Capelli, Brant C. Gibson, Andrew D. Greentree, R\"udiger Quay, Jan Jeske(参考訳) ダイヤモンドは長い間、レーザー応用のホスト材料として認識されてきた。 このポテンシャルは、その異常な熱的性質、超広帯域、および可視光スペクトルをまたぐゲインを約束する色中心によって生じる。 最近ではコヒーレントレーザー法が磁気メソメトリーの新しいアプローチを提供する。 しかし、ダイヤモンド製造は他の結晶性マトリックスと比較して難しいため、多くの光学損失チャネルがまだ理解されていない。 ここでは、最初の連続波窒素空洞(NV)色中心レーザーシステムを示す。 これを実現するために,nvダイヤモンド媒体とキャビティ内反反射被覆ダイオードレーザを併用したレーザーキャビティを構築した。 このデュアルメジウムアプローチは、ダイオードレーザの閾値より低い一定の付加利得を提供することにより、キャビティの固有損失を補償する。 レーザシステムの出力における第1の連続波レーザー閾値と,nv中心のグリーンポンプパワーの増加に伴うライン幅の狭さを観測した。 この結果は磁気学へのコヒーレントアプローチに向けた大きな進展である。

Diamond has long been identified as a potential host material for laser applications. This potential arises due to its exceptional thermal properties, ultra-wide bandgap, and color centers which promise gain across the visible spectrum. More recently, coherent laser methods offer new approaches to magnetometry. However, diamond fabrication is difficult in comparison to other crystalline matrices, and many optical loss channels are not yet understood. Here, we demonstrate the first continuous-wave nitrogen-vacancy (NV) color center laser system. To achieve this, we constructed a laser cavity with both, an NV-diamond medium and an intra-cavity anti-reflection coated diode laser. This dual-medium approach compensates intrinsic losses of the cavity by providing a fixed additional gain below threshold of the diode laser. We observe the first clear continuous-wave laser threshold in the output of the laser system as well as linewidth narrowing with increasing green pump power on the NV centers. Our results are a major development towards coherent approaches to magnetometry.
翻訳日:2023-06-27 17:50:37 公開日:2023-06-24
# 非事実拡大によるロバストなアスペクトに基づく感性分析に向けて

Towards Robust Aspect-based Sentiment Analysis through Non-counterfactual Augmentations ( http://arxiv.org/abs/2306.13971v1 )

ライセンス: Link先を確認
Xinyu Liu, Yan Ding, Kaikai An, Chunyang Xiao, Pranava Madhyastha, Tong Xiao and Jingbo Zhu(参考訳) 現状のNLPモデルはアスペクトベース感情分析(ABSA)に優れた性能を示してきたが、その堅牢性の欠如についてかなりの証拠が提示されている。 これは特に、アウトオブディストリビューションデータに直面した場合のパフォーマンスの大幅な低下として現れます。 相反的に拡張されたデータセットに依存する最近のソリューションは有望な結果を示しているが、明示的な因果構造へのアクセスがないため、本質的に制限されている。 本稿では,非数値データ拡張に依拠する代替手法を提案する。 提案手法は,目的とする側面に関連づけられたセマンティクスを格納した,ノイズの多いコスト効率の高いデータ拡張を用いる。 我々のアプローチは、ロバスト性を改善するために、異なるバージョンのデータ間の不変性をモデル化することに依存する。 総合的な実験結果から,提案手法は,標準およびロバスト性に特有なデータセット上で,トレーニング済みの強いベースラインで大幅に改善されることが示された。 我々のアプローチはさらにABSAロバストネスベンチマークの新たな最先端を確立し、ドメイン間でうまく転送する。

While state-of-the-art NLP models have demonstrated excellent performance for aspect based sentiment analysis (ABSA), substantial evidence has been presented on their lack of robustness. This is especially manifested as significant degradation in performance when faced with out-of-distribution data. Recent solutions that rely on counterfactually augmented datasets show promising results, but they are inherently limited because of the lack of access to explicit causal structure. In this paper, we present an alternative approach that relies on non-counterfactual data augmentation. Our proposal instead relies on using noisy, cost-efficient data augmentations that preserve semantics associated with the target aspect. Our approach then relies on modelling invariances between different versions of the data to improve robustness. A comprehensive suite of experiments shows that our proposal significantly improves upon strong pre-trained baselines on both standard and robustness-specific datasets. Our approach further establishes a new state-of-the-art on the ABSA robustness benchmark and transfers well across domains.
翻訳日:2023-06-27 17:50:22 公開日:2023-06-24
# 科学内容の極端抽象テキスト要約(tl;dr)のための超複素空間上のマルチモーダル信号の利用

Fusing Multimodal Signals on Hyper-complex Space for Extreme Abstractive Text Summarization (TL;DR) of Scientific Contents ( http://arxiv.org/abs/2306.13968v1 )

ライセンス: Link先を確認
Yash Kumar Atri, Vikram Goyal, Tanmoy Chakraborty(参考訳) 科学的なテキスト要約の領域は、注釈付きブリーフサマリーと豊富なデータによって著しく進歩した。 しかし、ビデオやオーディオといった複数の入力モードの利用については、まだ十分に検討されていない。 現在、科学的なマルチモーダルインプットベースのテキスト要約システムでは、抽象文のようなより長い対象の要約を用いる傾向にあり、テキスト要約のタスクにおいて、過度なパフォーマンスをもたらす。 本稿では,複数の入力モダリティを活用することで,超抽象的テキスト要約(TL;DR生成)の新たな課題を扱う。 そこで,本稿では,ビデオ,音声,テキスト,著者による要約,専門家による注釈付き要約などを含む,上記のタスクの第一種データセットであるmTLDRを紹介する。 mTLDRデータセットには、ICLR、ACL、CVPRなど、さまざまな学術会議の手順から収集された合計4,182のインスタンスが含まれている。 次に,新しい2重融合超複素変換器とWasserstein Riemannian Encoder Transformerを併用したエンコーダデコーダモデルであるmTLDRgenを提案する。 超複素変換器はモダリティ間の内在的性質を捉える一方、ワッサーシュタインリーマンエンコーダ変換器はラテント空間幾何学におけるモダリティの潜在構造を捉え、モデルが多様な文を生成できるようにする。 mTLDRgenは、mTLDRで20のベースラインを上回り、3つのルージュベースの評価尺度で別の非科学的データセット(How2)を上回ります。 さらに,定性的指標であるBERTScoreとFEQAと人的評価に基づいて,mTLDRgenが生成した要約が原資料と一致することを示す。

The realm of scientific text summarization has experienced remarkable progress due to the availability of annotated brief summaries and ample data. However, the utilization of multiple input modalities, such as videos and audio, has yet to be thoroughly explored. At present, scientific multimodal-input-based text summarization systems tend to employ longer target summaries like abstracts, leading to an underwhelming performance in the task of text summarization. In this paper, we deal with a novel task of extreme abstractive text summarization (aka TL;DR generation) by leveraging multiple input modalities. To this end, we introduce mTLDR, a first-of-its-kind dataset for the aforementioned task, comprising videos, audio, and text, along with both author-composed summaries and expert-annotated summaries. The mTLDR dataset accompanies a total of 4,182 instances collected from various academic conference proceedings, such as ICLR, ACL, and CVPR. Subsequently, we present mTLDRgen, an encoder-decoder-based model that employs a novel dual-fused hyper-complex Transformer combined with a Wasserstein Riemannian Encoder Transformer, to dexterously capture the intricacies between different modalities in a hyper-complex latent geometric space. The hyper-complex Transformer captures the intrinsic properties between the modalities, while the Wasserstein Riemannian Encoder Transformer captures the latent structure of the modalities in the latent space geometry, thereby enabling the model to produce diverse sentences. mTLDRgen outperforms 20 baselines on mTLDR as well as another non-scientific dataset (How2) across three Rouge-based evaluation measures. Furthermore, based on the qualitative metrics, BERTScore and FEQA, and human evaluations, we demonstrate that the summaries generated by mTLDRgen are fluent and congruent to the original source material.
翻訳日:2023-06-27 17:50:03 公開日:2023-06-24
# 高励起状態の断熱的時間発展

Adiabatic time evolution of highly excited states ( http://arxiv.org/abs/2306.13967v1 )

ライセンス: Link先を確認
Hadi Yarloo, Hua-Chen Zhang, Anne E. B. Nielsen(参考訳) 量子システムの断熱時間進化は、状態準備から計算の単純化、位相変換から最適化や量子コンピューティングに至るまで、広く使われているツールである。 断熱時間進化は一般にギャップのある基底状態に対してうまく機能するが、保護エネルギーギャップが欠如しているスペクトルの中央の熱状態には有効ではない。 ここでは、保護エネルギーギャップが存在しないにもかかわらず、特定のタイプの高度に励起された状態が断熱時間の進化に適していることを示す。 テンソルネットワークと2次元分数量子ホールモデルから構築された2つのかなり異なるモデルを考えると、必要な最終忠実度が約0.99のとき、量子不足は断熱力学に関してギャップ付き基底状態と類似する。 1次元モデルの傷痕状態が断熱的に変換できる最大速度は、指数関数的に熱状態と対照的に、システムサイズによるパワー則として減少する。 傾斜速度が一定かつ低かった場合, 単体からの距離のずれはスカー状態の傾斜速度と直線的に一致するが, 接地状態の差は2次的に起こる。 したがって、ガッピングされた基底状態は、0.9999以上の必要なフィディティが非常に高い場合、より良く機能する。 スカー状態から漏れる2つのメカニズムを特定し、その結果を説明するためにそれらを使用します。 単一で孤立した基底状態の操作は量子的応用では一般的であるが、傷跡状態の断熱的進化は、単一のシステムで同時に基底状態のような状態の塔全体を操作できる柔軟性を提供する。

Adiabatic time evolution of quantum systems is a widely used tool with applications ranging from state preparation over computational simplifications and topological transformations to optimization and quantum computing. Adiabatic time evolution generally works well for gapped ground states, but not for thermal states in the middle of the spectrum that lack a protecting energy gap. Here we show that a particular type of highly excited states, called quantum scars, are suitable for adiabatic time evolution despite the absence of a protecting energy gap. Considering two rather different models, namely a one-dimensional model constructed from tensor networks and a two-dimensional fractional quantum Hall model with anyons, we find that the quantum scars perform similarly to gapped ground states with respect to adiabatic dynamics when the required final fidelity is around 0.99. The maximum speed at which the scar state of the one-dimensional model can be adiabatically transformed decreases as a power law with system size, as opposed to exponentially for thermal states. At constant and very low ramp speed, we find that the deviation of the fidelity from unity scales linearly with ramp speed for scar states, but quadratically for gapped ground states. The gapped ground states hence perform better when the required fidelities are very high, such as 0.9999 and above. We identify two mechanisms for leakage out of the scar state and use them to explain our results. While manipulating a single, isolated ground state is common in quantum applications, adiabatic evolution of scar states provides the flexibility to manipulate an entire tower of ground-state-like states simultaneously in a single system.
翻訳日:2023-06-27 17:49:30 公開日:2023-06-24
# 逆例によるモデル反転攻撃の強化

Boosting Model Inversion Attacks with Adversarial Examples ( http://arxiv.org/abs/2306.13965v1 )

ライセンス: Link先を確認
Shuai Zhou, Tianqing Zhu, Dayong Ye, Xin Yu, and Wanlei Zhou(参考訳) モデル反転攻撃は、ターゲットモデルのトレーニングデータを再構築することを含み、機械学習モデルに対する深刻なプライバシー上の懸念を引き起こす。 しかし、これらの攻撃、特に学習に基づく手法は、低攻撃精度、すなわち機械学習分類器による再構成データの低分類精度に悩まされる可能性が高い。 近年の研究では、モデル反転攻撃の代替戦略であるGANに基づく最適化が、攻撃精度を効果的に向上することを示した。 しかし、これらのganベースの攻撃はクラスごとのクラス表現型トレーニングデータのみを再構築するが、学習ベースの攻撃はクラスごとに異なるトレーニングデータのための多様なデータを再構築することができる。 そこで本研究では,ブラックボックス設定において高い攻撃精度を実現する学習ベースモデルインバージョン攻撃のための新しいトレーニングパラダイムを提案する。 第1に,セマンティクス損失関数を付加した攻撃モデルのトレーニングプロセスを規則化し,第2に,学習データに逆例を注入することで,学習データにおけるクラス関連部分(すなわち,分類タスクの必須特徴)の多様性を高める。 このスキームは、データ復元プロセス中に元のデータのクラス関連部分に注意を払うように攻撃モデルを誘導する。 実験の結果,本手法は既存の学習ベースモデルインバージョンアタックの性能を大幅に向上させることがわかった。 ターゲットモデルへの追加クエリが許可されていない場合でも、再構築されたデータの攻撃精度を改善することができる。 この新しい攻撃は、学習ベースのモデル反転敵からの脅威の深刻さが過小評価され、より強固な防御が必要であることを示している。

Model inversion attacks involve reconstructing the training data of a target model, which raises serious privacy concerns for machine learning models. However, these attacks, especially learning-based methods, are likely to suffer from low attack accuracy, i.e., low classification accuracy of these reconstructed data by machine learning classifiers. Recent studies showed an alternative strategy of model inversion attacks, GAN-based optimization, can improve the attack accuracy effectively. However, these series of GAN-based attacks reconstruct only class-representative training data for a class, whereas learning-based attacks can reconstruct diverse data for different training data in each class. Hence, in this paper, we propose a new training paradigm for a learning-based model inversion attack that can achieve higher attack accuracy in a black-box setting. First, we regularize the training process of the attack model with an added semantic loss function and, second, we inject adversarial examples into the training data to increase the diversity of the class-related parts (i.e., the essential features for classification tasks) in training data. This scheme guides the attack model to pay more attention to the class-related parts of the original data during the data reconstruction process. The experimental results show that our method greatly boosts the performance of existing learning-based model inversion attacks. Even when no extra queries to the target model are allowed, the approach can still improve the attack accuracy of reconstructed data. This new attack shows that the severity of the threat from learning-based model inversion adversaries is underestimated and more robust defenses are required.
翻訳日:2023-06-27 17:49:01 公開日:2023-06-24
# 紛争解決へのカテゴリー的アプローチ: 紛争解決のためのグラフモデルにカテゴリ理論を統合する

Categorical Approach to Conflict Resolution: Integrating Category Theory into the Graph Model for Conflict Resolution ( http://arxiv.org/abs/2306.13961v1 )

ライセンス: Link先を確認
Yukiko Kato(参考訳) 本稿では,カテゴリー理論を従来の競合解決グラフモデル(gmcr)に統合する新しい枠組みである,コンフリクト解決のためのカテゴリグラフモデル(c-gmcr)について述べる。 C-GMCRフレームワークは、競合解決をモデル化し分析するためのより抽象的で一般的な方法を提供する。 本稿では, C-GMCRフレームワークの基本概念, 方法, 応用を, 有名な囚人のジレンマやその他の代表例に提示する。 この結果は、カテゴリー的アプローチが安定性の概念に対する新たな視点を与え、より効果的な紛争解決戦略の開発につながる可能性を示唆している。

This paper introduces the Categorical Graph Model for Conflict Resolution (C-GMCR), a novel framework that integrates category theory into the traditional Graph Model for Conflict Resolution (GMCR). The C-GMCR framework provides a more abstract and general way to model and analyze conflict resolution, enabling researchers to uncover deeper insights and connections. We present the basic concepts, methods, and application of the C-GMCR framework to the well-known Prisoner's Dilemma and other representative cases. The findings suggest that the categorical approach offers new perspectives on stability concepts and can potentially lead to the development of more effective conflict resolution strategies.
翻訳日:2023-06-27 17:48:34 公開日:2023-06-24
# 敗血症患者に対するN-BEATSを用いた予測的生体信号の解釈

Interpreting Forecasted Vital Signs Using N-BEATS in Sepsis Patients ( http://arxiv.org/abs/2306.14016v1 )

ライセンス: Link先を確認
Anubhav Bhatti, Naveen Thangavelu, Marium Hassan, Choongmin Kim, San Lee, Yonghwan Kim, Jang Yong Kim(参考訳) 早期の敗血症性ショックの検出と予測は患者の最善の結果に不可欠である。 敗血症患者の生命徴候を正確に予測することは、安定剤の投与や輸液戦略の最適化といったタイムリーな介入のための貴重な洞察を提供する。 本研究は,集中治療室(ICUs)における敗血症患者の3時間の生命予後を予測できる,解釈可能な深層学習予測モデルであるN-BEATSについて検討した。 本研究は,N-BEATSの解釈可能な構成を用いて,バイタルサインの傾向を予測し,実際の傾向と比較し,患者の変化状況と輸液剤がバイタルサインに与える影響をよく理解する。 提案手法は,eicu共同研究データベースデータセットを用いて評価し,サンプル外評価基準を用いてバイタルサイン予測を厳格に評価する。 本研究では,平均二乗誤差 (mse), 平均パーセンテージ誤差 (mape), 動的時間ウォーピング (dtw) などの誤差指標を用いて, 最高スコアが18.52e-4, 7.60, 17.63e-3であるモデルの性能を示す。 予測された傾向が実際の傾向と一致しないサンプルを分析し, 予測された傾向と実際のバイタルサインの変化に与える影響について検討した。 また,実際の傾向と予測された傾向が一致しない患者の死亡率についても検討した。 その結果、実際の傾向と予測された傾向が一致した場合の死亡率(92%)は、類似しない時期(84%)よりも高かった。

Detecting and predicting septic shock early is crucial for the best possible outcome for patients. Accurately forecasting the vital signs of patients with sepsis provides valuable insights to clinicians for timely interventions, such as administering stabilizing drugs or optimizing infusion strategies. Our research examines N-BEATS, an interpretable deep-learning forecasting model that can forecast 3 hours of vital signs for sepsis patients in intensive care units (ICUs). In this work, we use the N-BEATS interpretable configuration to forecast the vital sign trends and compare them with the actual trend to understand better the patient's changing condition and the effects of infused drugs on their vital signs. We evaluate our approach using the publicly available eICU Collaborative Research Database dataset and rigorously evaluate the vital sign forecasts using out-of-sample evaluation criteria. We present the performance of our model using error metrics, including mean squared error (MSE), mean average percentage error (MAPE), and dynamic time warping (DTW), where the best scores achieved are 18.52e-4, 7.60, and 17.63e-3, respectively. We analyze the samples where the forecasted trend does not match the actual trend and study the impact of infused drugs on changing the actual vital signs compared to the forecasted trend. Additionally, we examined the mortality rates of patients where the actual trend and the forecasted trend did not match. We observed that the mortality rate was higher (92%) when the actual and forecasted trends closely matched, compared to when they were not similar (84%).
翻訳日:2023-06-27 17:43:33 公開日:2023-06-24
# 非運動目的関数のためのゼロ集中分散学習

Zero-Concentrated Private Distributed Learning for Nonsmooth Objective Functions ( http://arxiv.org/abs/2306.14012v1 )

ライセンス: Link先を確認
Fran\c{c}ois Gauthier, Cristiano Gratton, Naveen K. D. Venkategowda, Stefan Werner(参考訳) 本稿では,非滑らかな最適化問題を解くために,完全分散差分学習アルゴリズムを開発した。 本研究では,分散設定に従うために多元関数の交互方向法(ADMM)を配布し,非滑らかな目的関数を扱うために拡張ラグランジアンを近似した。 さらに,分散減衰ガウス雑音で各エージェントの計算結果に摂動させることで,ゼロ集中微分プライバシー(zcdp)を確保する。 このプライバシー保護法は、従来の$(\epsilon, \delta)$-DPよりも精度が高く、より最近のR\enyi-DPよりも高い保証が得られる。 開発した完全分散アルゴリズムは、競合的なプライバシ精度のトレードオフを持ち、非スムースおよび非必要に強い凸問題を扱う。 プライバシ保証とアルゴリズムの正確な解への収束の完全な理論的証明を提供する。 また、このアルゴリズムが線形時間で収束するという仮定も示している。 最後に,本アルゴリズムが既存の手法のすべてを上回ることをシミュレーションで観察する。

This paper develops a fully distributed differentially-private learning algorithm to solve nonsmooth optimization problems. We distribute the Alternating Direction Method of Multipliers (ADMM) to comply with the distributed setting and employ an approximation of the augmented Lagrangian to handle nonsmooth objective functions. Furthermore, we ensure zero-concentrated differential privacy (zCDP) by perturbing the outcome of the computation at each agent with a variance-decreasing Gaussian noise. This privacy-preserving method allows for better accuracy than the conventional $(\epsilon, \delta)$-DP and stronger guarantees than the more recent R\'enyi-DP. The developed fully distributed algorithm has a competitive privacy accuracy trade-off and handles nonsmooth and non-necessarily strongly convex problems. We provide complete theoretical proof for the privacy guarantees and the convergence of the algorithm to the exact solution. We also prove under additional assumptions that the algorithm converges in linear time. Finally, we observe in simulations that the developed algorithm outperforms all of the existing methods.
翻訳日:2023-06-27 17:43:04 公開日:2023-06-24
# ペプチドコンフォメーション間の自由エネルギー摂動の学習的マッピング

Learned Mappings for Targeted Free Energy Perturbation between Peptide Conformations ( http://arxiv.org/abs/2306.14010v1 )

ライセンス: Link先を確認
Soohaeng Yoo Willow, Lulu Kang, and David D. L. Minh(参考訳) 対象とする自由エネルギー摂動は、構成空間の重なりと自由エネルギー推定の収束を促進するために可逆写像を用いる。 しかし、適切なマッピングを開発することは困難である。 wirnsberger et al. (2020) は、ボルツマン分布を異なる熱力学状態にマップする深層ニューラルネットワークを訓練する機械学習の使用を実証した。 ここでは, 柔軟な結合分子であるdeca-alanineの自由エネルギー差にそれらのアプローチを適応させ, スプリング中心の異なる調和バイアスを付与する。 実験セットの損失値が増加する「早期停止」までニューラルネットワークを訓練すると、スプリング中心を1 \r{a} と2 \r{a} で分離した熱力学的状態の間の正確な自由エネルギー差を計算する。 より遠い熱力学状態に対しては、マッピングは対象の状態を表す構造を生成しず、この方法は参照計算を再現しない。

Targeted free energy perturbation uses an invertible mapping to promote configuration space overlap and the convergence of free energy estimates. However, developing suitable mappings can be challenging. Wirnsberger et al. (2020) demonstrated the use of machine learning to train deep neural networks that map between Boltzmann distributions for different thermodynamic states. Here, we adapt their approach to free energy differences of a flexible bonded molecule, deca-alanine, with harmonic biases with different spring centers. When the neural network is trained until ``early stopping'' - when the loss value of the test set increases - we calculate accurate free energy differences between thermodynamic states with spring centers separated by 1 \r{A} and sometimes 2 \r{A}. For more distant thermodynamic states, the mapping does not produce structures representative of the target state and the method does not reproduce reference calculations.
翻訳日:2023-06-27 17:42:47 公開日:2023-06-24
# 高次タスクアフィニティによるグラフ上のマルチタスク学習の促進

Boosting Multitask Learning on Graphs through Higher-Order Task Affinities ( http://arxiv.org/abs/2306.14009v1 )

ライセンス: Link先を確認
Dongyue Li, Haotian Ju, Aneesh Sharma, and Hongyang R. Zhang(参考訳) 与えられたグラフ上のノードラベルの予測は、コミュニティ検出や分子グラフ予測など、多くのアプリケーションで広く研究されている問題である。 本稿では,グラフ上の複数のノードラベリング関数を同時に予測し,マルチタスク学習の観点からこの問題を再考する。 各コミュニティメンバシップはバイナリノード分類タスクである。 マルチタスク学習を複数のコミュニティ検出に適用した場合,タスク関係はノードのラベル付けによって非常に非線形であるため,複雑な重複パターンにより負の移動が頻繁に発生する。 この課題に対処するため,高次タスク親和性尺度に基づくグループにタスクをクラスタリングするアルゴリズムを開発した。 そして、各タスクグループにマルチタスクモデルを適合させ、ベースラインモデルの上にブースティング手順を発生させます。 他のタスクと他のタスクのランダムなサブセットの存在下での1つのタスクの予測損失として、2つのタスク間の高次タスク親和性測度を推定する。 次に,アフィニティスコア行列上のスペクトルクラスタリングを用いてタスクグルーピングを同定する。 高次アフィニティスコアを効率的に計算するための速度アップ手法をいくつか設計し,ペアワイズタスクアフィニティよりも高い精度で負の転送を予測できることを示した。 各種のコミュニティ検出および分子グラフ予測データセットを用いて,既存の手法と比較して良好な結果を得た。 最後に、グラフ上のタスクの植込みブロックモデルの下では、アフィニティスコアが確実にタスクをグループに分割できることを示す理論的分析を提供する。

Predicting node labels on a given graph is a widely studied problem with many applications, including community detection and molecular graph prediction. This paper considers predicting multiple node labeling functions on graphs simultaneously and revisits this problem from a multitask learning perspective. For a concrete example, consider overlapping community detection: each community membership is a binary node classification task. Due to complex overlapping patterns, we find that negative transfer is prevalent when we apply naive multitask learning to multiple community detection, as task relationships are highly nonlinear across different node labeling. To address the challenge, we develop an algorithm to cluster tasks into groups based on a higher-order task affinity measure. We then fit a multitask model on each task group, resulting in a boosting procedure on top of the baseline model. We estimate the higher-order task affinity measure between two tasks as the prediction loss of one task in the presence of another task and a random subset of other tasks. Then, we use spectral clustering on the affinity score matrix to identify task grouping. We design several speedup techniques to compute the higher-order affinity scores efficiently and show that they can predict negative transfers more accurately than pairwise task affinities. We validate our procedure using various community detection and molecular graph prediction data sets, showing favorable results compared with existing methods. Lastly, we provide a theoretical analysis to show that under a planted block model of tasks on graphs, our affinity scores can provably separate tasks into groups.
翻訳日:2023-06-27 17:42:29 公開日:2023-06-24
# フルテキスト科学論文の弱い教師付きマルチラベル分類

Weakly Supervised Multi-Label Classification of Full-Text Scientific Papers ( http://arxiv.org/abs/2306.14003v1 )

ライセンス: Link先を確認
Yu Zhang, Bowen Jin, Xiusi Chen, Yanzhen Shen, Yunyi Zhang, Yu Meng, Jiawei Han(参考訳) 分類器を構築するために人間の注釈付きトレーニングサンプルに頼る代わりに、弱い教師付き科学論文分類は、カテゴリ記述(カテゴリ名、カテゴリ指示キーワードなど)のみを使用して論文を分類することを目的としている。 弱教師付き紙の分類に関する既存の研究は,(1)粗粒度研究の話題だけでなく,細粒度研究のテーマにも分類すべきであり,また,大きく細粒度なラベル空間を与えられた複数のテーマに分類すべきであり,(2)全文は論文の題名と要約を補完するために利用すべきである,という2つの課題にあまり関心が持たない。 また, 論文全体を長い線形シーケンスとして見るのではなく, 論文間の引用リンクや各論文の節や段落の階層構造などの構造情報を活用すべきである。 そこで本研究では,クロスペーパーネットワーク構造とインペーパー階層構造を用いて,弱い監督下で全文科学論文を分類するフレームワークであるfutexを提案する。 ネットワークアウェアコントラストファインチューニングモジュールと階層アウェアアグリゲーションモジュールはそれぞれ2種類の構造信号を利用するように設計されている。 2つのベンチマークデータセットの実験では、FUTEXは競争ベースラインを大幅に上回っており、1000から6万のグランドトルーストレーニングサンプルを使用する完全に教師付き分類器と同等であることが示された。

Instead of relying on human-annotated training samples to build a classifier, weakly supervised scientific paper classification aims to classify papers only using category descriptions (e.g., category names, category-indicative keywords). Existing studies on weakly supervised paper classification are less concerned with two challenges: (1) Papers should be classified into not only coarse-grained research topics but also fine-grained themes, and potentially into multiple themes, given a large and fine-grained label space; and (2) full text should be utilized to complement the paper title and abstract for classification. Moreover, instead of viewing the entire paper as a long linear sequence, one should exploit the structural information such as citation links across papers and the hierarchy of sections and paragraphs in each paper. To tackle these challenges, in this study, we propose FUTEX, a framework that uses the cross-paper network structure and the in-paper hierarchy structure to classify full-text scientific papers under weak supervision. A network-aware contrastive fine-tuning module and a hierarchy-aware aggregation module are designed to leverage the two types of structural signals, respectively. Experiments on two benchmark datasets demonstrate that FUTEX significantly outperforms competitive baselines and is on par with fully supervised classifiers that use 1,000 to 60,000 ground-truth training samples.
翻訳日:2023-06-27 17:42:04 公開日:2023-06-24
# クラスター化とグラフ深層学習によるCOVID-19薬物再資源化のためのフレームワーク

A clustering and graph deep learning-based framework for COVID-19 drug repurposing ( http://arxiv.org/abs/2306.13995v1 )

ライセンス: Link先を確認
Chaarvi Bansal, Rohitash Chandra, Vinti Agarwal, P. R. Deepa(参考訳) ドラッグ・リパース(英: drug repurposing、または repositioning)は、薬物規制当局(例えば、食品医薬品局 (FDA) や治療用品局 (TGA) によって承認されている薬物の新しい治療法を見つける過程である。 これには、薬物標的(遺伝子/タンパク質および生物学的経路)や薬物特性などの異なる生物学的実体間の相互作用を分析し、新規な薬物標的または薬物放出の関係を発見することが含まれる。 機械学習やディープラーニングといった人工知能の手法は、生体医学領域における複雑な異種データの解析に成功しており、薬物の再利用にも用いられている。 本研究では,異種薬物データに基づく多機能型クラスタリングのためのグラフベースのオートエンコーダを用いた,教師なし機械学習フレームワークを提案する。 データセットは438の薬から成り、224の薬がcovid-19(カテゴリーa)の臨床試験中である。 残りは、治療の安全性と有効性(カテゴリーB)を確保するために体系的に濾過される。 このフレームワークは、その薬理学的性質、化学的・物理的性質、宿主との相互作用、およびさまざまな公開のCOVID-19アッセイにおける有効性など、報告された薬物データにのみ依存している。 当社の機械学習フレームワークは、3つの関心の集まりを明らかにし、Aカテゴリーの薬物が支配する予測されたクラスターに基づいて、新型コロナウイルスの薬物再服用のためのトップ15の薬剤を推奨している。 この薬剤の抗共生効果は実験的研究によって検証されるべきである。 当社のフレームワークは,オープンソースコードとデータ可用性を前提として,他のデータセットや薬物再資源調査をサポートするように拡張することができます。

Drug repurposing (or repositioning) is the process of finding new therapeutic uses for drugs already approved by drug regulatory authorities (e.g., the Food and Drug Administration (FDA) and Therapeutic Goods Administration (TGA)) for other diseases. This involves analyzing the interactions between different biological entities, such as drug targets (genes/proteins and biological pathways) and drug properties, to discover novel drug-target or drug-disease relations. Artificial intelligence methods such as machine learning and deep learning have successfully analyzed complex heterogeneous data in the biomedical domain and have also been used for drug repurposing. This study presents a novel unsupervised machine learning framework that utilizes a graph-based autoencoder for multi-feature type clustering on heterogeneous drug data. The dataset consists of 438 drugs, of which 224 are under clinical trials for COVID-19 (category A). The rest are systematically filtered to ensure the safety and efficacy of the treatment (category B). The framework solely relies on reported drug data, including its pharmacological properties, chemical/physical properties, interaction with the host, and efficacy in different publicly available COVID-19 assays. Our machine-learning framework reveals three clusters of interest and provides recommendations featuring the top 15 drugs for COVID-19 drug repurposing, which were shortlisted based on the predicted clusters that were dominated by category A drugs. The anti-COVID efficacy of the drugs should be verified by experimental studies. Our framework can be extended to support other datasets and drug repurposing studies, given open-source code and data availability.
翻訳日:2023-06-27 17:41:38 公開日:2023-06-24
# $\ell_0$-Norm ヒンジ損失を持つカーネルサポートベクトルマシン分類器

Kernel Support Vector Machine Classifiers with the $\ell_0$-Norm Hinge Loss ( http://arxiv.org/abs/2306.13991v1 )

ライセンス: Link先を確認
Rongrong Lin, Yingjia Yao, Yulan Liu(参考訳) Support Vector Machine (SVM)は、バイナリ分類問題の最も成功した機械学習技術の1つである。 重要なアイデアは、トレーニングサンプルで正しい分類を行うために、データからハイパープレーンへのマージンを最大化することだ。 一般的なヒンジ損失とそのバリエーションはラベルノイズに敏感であり、アンバウンド性のため再サンプリングが不安定である。 本稿では、カーネルSVMに$\ell_0$-normのヒンジ損失($\ell_0$-KSVM)を集中させ、これをヒンジ損失と$\ell_0$-normの複合関数とし、上記の困難を克服する。 $\ell_0$-norm ヒンジ損失の非凸性と非平滑性を考慮して、まず、$\ell_0$-norm ヒンジ損失の極限部分微分を特徴づけ、次いで、近位定常点、カルーシュ=クーン=タッカー点、および$\ell_0$-KSVMの局所最適解の間の同値関係を導出する。 次に、$\ell_0$-KSVMのADMMアルゴリズムを開発し、提案アルゴリズムによって生成されたシーケンスの任意の極限点が局所最適解であることを示す。 最後に、合成データセットと実データセットに関するいくつかの実験は、$\ell_0$-KSVMが標準のKSVMと同等の精度を達成できることを示した。

Support Vector Machine (SVM) has been one of the most successful machine learning techniques for binary classification problems. The key idea is to maximize the margin from the data to the hyperplane subject to correct classification on training samples. The commonly used hinge loss and its variations are sensitive to label noise, and unstable for resampling due to its unboundedness. This paper is concentrated on the kernel SVM with the $\ell_0$-norm hinge loss (referred as $\ell_0$-KSVM), which is a composite function of hinge loss and $\ell_0$-norm and then could overcome the difficulties mentioned above. In consideration of the nonconvexity and nonsmoothness of $\ell_0$-norm hinge loss, we first characterize the limiting subdifferential of the $\ell_0$-norm hinge loss and then derive the equivalent relationship among the proximal stationary point, the Karush-Kuhn-Tucker point, and the local optimal solution of $\ell_0$-KSVM. Secondly, we develop an ADMM algorithm for $\ell_0$-KSVM, and obtain that any limit point of the sequence generated by the proposed algorithm is a locally optimal solution. Lastly, some experiments on the synthetic and real datasets are illuminated to show that $\ell_0$-KSVM can achieve comparable accuracy compared with the standard KSVM while the former generally enjoys fewer support vectors.
翻訳日:2023-06-27 17:41:07 公開日:2023-06-24
# クロスバリデーションは必要なすべてである - ラベルノイズ推定に対する統計的アプローチ

Cross-Validation Is All You Need: A Statistical Approach To Label Noise Estimation ( http://arxiv.org/abs/2306.13990v1 )

ライセンス: Link先を確認
Jianan Chen and Anne Martel(参考訳) ラベルノイズは機械学習データセットで一般的です。 ノイズデータに基づいてトレーニングされたモデルが精度と一般化性を大幅に低下させる可能性があるため、ラベルノイズの識別と除去が不可欠である。 既存のラベルノイズ検出手法のほとんどは分類タスク用に設計されており、結果予測分析のためのデータクリーニングは比較的未探索である。 クロスバリデーションにおける異なる折り曲げ性能の変動に着想を得て,ラベルノイズ推定(ReCoV)のための繰り返しクロスバリデーションを提案する。 ReCoVは、サンプルIDを最低性能の折り目ごとに記録することにより、多数のクロスバリデーションに基づいてサンプルのノイズレベルをランク付けするノイズヒストグラムを構築する。 さらに,ノイズ分布の複雑化に対応するため,雑音ヒストグラムに基づく雑音サンプル同定手法を3つ提案する。 ReCoVは分類タスクベンチマークにおいてラベルクリーニングの最先端アルゴリズムよりも優れていることを示す。 さらに,2つの医用画像結果予測データセットにおけるReCoV識別ノイズサンプルの除去は,テストセットのモデル性能を著しく向上させることを示した。 ハイパーパラメータやノイズ分布、モデル構造に依存しない統計的アプローチとして、ReCoVは任意の機械学習分析と互換性がある。

Label noise is prevalent in machine learning datasets. It is crucial to identify and remove label noise because models trained on noisy data can have substantially reduced accuracy and generalizability. Most existing label noise detection approaches are designed for classification tasks, and data cleaning for outcome prediction analysis is relatively unexplored. Inspired by the fluctuations in performance across different folds in cross-validation, we propose Repeated Cross-Validations for label noise estimation (ReCoV) to address this gap. ReCoV constructs a noise histogram that ranks the noise level of samples based on a large number of cross-validations by recording sample IDs in each worst-performing fold. We further propose three approaches for identifying noisy samples based on noise histograms to address increasingly complex noise distributions. We show that ReCoV outperforms state-of-the-art algorithms for label cleaning in a classification task benchmark. More importantly, we show that removing ReCoV-identified noisy samples in two medical imaging outcome prediction datasets significantly improves model performance on test sets. As a statistical approach that does not rely on hyperparameters, noise distributions, or model structures, ReCoV is compatible with any machine learning analysis.
翻訳日:2023-06-27 17:40:35 公開日:2023-06-24
# SAM++:意味情報と構造推論を用いた解剖学的マッチングの強化

SAM++: Enhancing Anatomic Matching using Semantic Information and Structural Inference ( http://arxiv.org/abs/2306.13988v1 )

ライセンス: Link先を確認
Xiaoyu Bai, Yong Xia(参考訳) CTやMRIなどの医療画像は、身体の内部構造に関する詳細な情報を提供し、これらの画像から重要な解剖学的構造を特定することは、臨床ワークフローにおいて重要な役割を果たす。 現在のメソッドでは登録またはキーポイント回帰タスクとして扱われており、正確なマッチングには制限があり、事前定義されたランドマークしか扱えない。 近年,これらの制限に対処する手法がいくつか導入されている。 このような手法の1つはSAMと呼ばれ、密度の高い自己教師付きアプローチを用いてCT画像上の各点に対する個別の埋め込みを学習し、有望な結果を達成することを提案する。 それでもSAMは、類似した外観を持つが異なる意味の意味や類似した意味を持つ構造を扱う際にも困難に直面している。 これらの制約を克服するために,新しい固定点マッチング機構で外観と意味の埋め込みを同時に学習するSAM++を提案する。 sam++フレームワークを2つの困難なタスクでテストし、samのパフォーマンスよりも大幅に改善し、他の既存のメソッドよりも優れています。

Medical images like CT and MRI provide detailed information about the internal structure of the body, and identifying key anatomical structures from these images plays a crucial role in clinical workflows. Current methods treat it as a registration or key-point regression task, which has limitations in accurate matching and can only handle predefined landmarks. Recently, some methods have been introduced to address these limitations. One such method, called SAM, proposes using a dense self-supervised approach to learn a distinct embedding for each point on the CT image and achieving promising results. Nonetheless, SAM may still face difficulties when dealing with structures that have similar appearances but different semantic meanings or similar semantic meanings but different appearances. To overcome these limitations, we propose SAM++, a framework that simultaneously learns appearance and semantic embeddings with a novel fixed-points matching mechanism. We tested the SAM++ framework on two challenging tasks, demonstrating a significant improvement over the performance of SAM and outperforming other existing methods.
翻訳日:2023-06-27 17:40:17 公開日:2023-06-24
# Sous Chefsとしての大規模言語モデル: GPT-3によるレシピの改訂

Large Language Models as Sous Chefs: Revising Recipes with GPT-3 ( http://arxiv.org/abs/2306.13986v1 )

ライセンス: Link先を確認
Alyssa Hwang, Bryan Li, Zhaoyi Hou, Dan Roth(参考訳) 大幅に改善されたテキスト生成とプロンプト機能により、大きな言語モデルは、既存の記述された情報を、使いやすく理解しやすい形式に適応させることができる。 私たちの研究では、複雑で多様で広く使われている指示の例としてレシピに焦点を当てています。 レシピをより簡単なステップに分解する,オリジナルのレシピと材料リストに基づくプロンプトを開発した。 このプロンプトを様々な世界料理のレシピに適用し、いくつかの大規模言語モデル(LLM)を用いて実験し、GPT-3.5で最良の結果を得た。 また,レシピリビジョンの品質の人的判断を収集しながら,疲労を軽減するために慎重に設計されたAmazon Mechanical Turkタスクにも貢献する。 注釈家は通常、オリジナルのリビジョンを好み、レシピなどのデジタルソースシェフとしてllmの有望な応用を実証している。 プロンプト、コード、mturkテンプレートを公開して公開しています。

With their remarkably improved text generation and prompting capabilities, large language models can adapt existing written information into forms that are easier to use and understand. In our work, we focus on recipes as an example of complex, diverse, and widely used instructions. We develop a prompt grounded in the original recipe and ingredients list that breaks recipes down into simpler steps. We apply this prompt to recipes from various world cuisines, and experiment with several large language models (LLMs), finding best results with GPT-3.5. We also contribute an Amazon Mechanical Turk task that is carefully designed to reduce fatigue while collecting human judgment of the quality of recipe revisions. We find that annotators usually prefer the revision over the original, demonstrating a promising application of LLMs in serving as digital sous chefs for recipes and beyond. We release our prompt, code, and MTurk template for public use.
翻訳日:2023-06-27 17:39:58 公開日:2023-06-24
# Smoothed $f$-divergence Distributionally Robust Optimization: Exponential Rate efficiency and Complexity-free Calibration

Smoothed $f$-Divergence Distributionally Robust Optimization: Exponential Rate Efficiency and Complexity-Free Calibration ( http://arxiv.org/abs/2306.14041v1 )

ライセンス: Link先を確認
Zhenyuan Liu and Bart P. G. Van Parys and Henry Lam(参考訳) データ駆動最適化では、サンプル平均近似はいわゆるオプティマイザの呪いに苦しめられ、ソリューション性能の評価に楽観的なバイアスを引き起こすことが知られている。 これは、推定された目標値に"マージン"を追加するか、あるいは最悪のケース分析に基づく急速に成長するアプローチである分散ロバスト最適化(DRO)を通じて、達成された目標値に保護的境界を与えることで対処することができる。 しかし、これらすべての既存手法において、真の解のパフォーマンスに統計的に保証された境界は、目的関数の複雑性に関する制限条件と知識を必要とするか、あるいは、分布次元に依存する過保守率を示す。 DRO の特殊型はこれらの課題に関して強い理論的優位性をもたらすと我々は論じる: 関数複雑性に顕著にヒンジしない幅広い目的関数に対して、指数的減衰率の観点から最も厳密な真の解のパフォーマンスに統計的に拘束される。 それに対応して、キャリブレーションには複雑な情報も不要である。 この DRO は、ワッサーシュタインあるいはレヴィ・プロホロフ距離によって、適切な距離最適化によって滑らかにされる KL 分割に基づく曖昧性集合を用いる。 計算学的には、そのようなDROとその一般化版である滑らかな$f$-divergence は、$f$-divergence あるいは Wasserstein 距離を用いた標準 DRO 問題よりもそれほど難しくなく、統計学的に最適かつ計算的に実現可能であることを示す。

In data-driven optimization, sample average approximation is known to suffer from the so-called optimizer's curse that causes optimistic bias in evaluating the solution performance. This can be tackled by adding a "margin" to the estimated objective value, or via distributionally robust optimization (DRO), a fast-growing approach based on worst-case analysis, which gives a protective bound on the attained objective value. However, in all these existing approaches, a statistically guaranteed bound on the true solution performance either requires restrictive conditions and knowledge on the objective function complexity, or otherwise exhibits an over-conservative rate that depends on the distribution dimension. We argue that a special type of DRO offers strong theoretical advantages in regard to these challenges: It attains a statistical bound on the true solution performance that is the tightest possible in terms of exponential decay rate, for a wide class of objective functions that notably does not hinge on function complexity. Correspondingly, its calibration also does not require any complexity information. This DRO uses an ambiguity set based on a KL-divergence smoothed by the Wasserstein or Levy-Prokhorov distance via a suitable distance optimization. Computationally, we also show that such a DRO, and its generalized version using smoothed $f$-divergence, is not much harder than standard DRO problems using the $f$-divergence or Wasserstein distance, thus supporting the strengths of such DRO as both statistically optimal and computationally viable.
翻訳日:2023-06-27 17:32:12 公開日:2023-06-24
# 自然言語タスクのための重み付きオートマトン抽出と繰り返しニューラルネットワークの説明

Weighted Automata Extraction and Explanation of Recurrent Neural Networks for Natural Language Tasks ( http://arxiv.org/abs/2306.14040v1 )

ライセンス: Link先を確認
Zeming Wei, Xiyue Zhang, Yihao Zhang, Meng Sun(参考訳) リカレントニューラルネットワーク(RNN)はシーケンシャルなデータ処理において大きな成功を収めていますが、その動作を理解し分析することは大きな課題です。 この目的のために、RNNから有限オートマトンを抽出する多くの取り組みがなされており、分析や説明に適している。 しかし、モデル抽出のための正確な学習や構成アプローチのような既存のアプローチは、スケーラビリティまたは精度に制限がある。 本稿では,自然言語タスクの制約に取り組むために,重み付き有限オートマトン(wfa)の抽出と説明の新たな枠組みを提案する。 まず、自然言語処理におけるWFA抽出における過渡性や文脈損失の問題に対処するため、遷移図の欠落規則を補完し、遷移行列を調整し、WFAの文脈認識性を高めるための経験的手法を提案する。 また、RNNのよりダイナミックな動作を追跡するための2つのデータ拡張手法を提案し、抽出精度をさらに向上させる。 抽出したモデルに基づいて,単語埋め込み手法であるトランジションマトリックス埋め込み(TME)と,ターゲットRNNに対するタスク指向の説明を含むRNNの説明手法を提案する。 提案手法は,既存の手法よりも精度の高い抽出法と,事前学習および逆例生成への応用におけるTMEに基づく説明法の有効性を示す。

Recurrent Neural Networks (RNNs) have achieved tremendous success in processing sequential data, yet understanding and analyzing their behaviours remains a significant challenge. To this end, many efforts have been made to extract finite automata from RNNs, which are more amenable for analysis and explanation. However, existing approaches like exact learning and compositional approaches for model extraction have limitations in either scalability or precision. In this paper, we propose a novel framework of Weighted Finite Automata (WFA) extraction and explanation to tackle the limitations for natural language tasks. First, to address the transition sparsity and context loss problems we identified in WFA extraction for natural language tasks, we propose an empirical method to complement missing rules in the transition diagram, and adjust transition matrices to enhance the context-awareness of the WFA. We also propose two data augmentation tactics to track more dynamic behaviours of RNN, which further allows us to improve the extraction precision. Based on the extracted model, we propose an explanation method for RNNs including a word embedding method -- Transition Matrix Embeddings (TME) and TME-based task oriented explanation for the target RNN. Our evaluation demonstrates the advantage of our method in extraction precision than existing approaches, and the effectiveness of TME-based explanation method in applications to pretraining and adversarial example generation.
翻訳日:2023-06-27 17:31:39 公開日:2023-06-24
# 深層学習によるチタン被覆Ni線の4次元時空間X線CTにおけるポロシティのセマンティックセグメンテーション

Semantic Segmentation of Porosity in 4D Spatio-Temporal X-ray \mu CT of Titanium Coated Ni wires using Deep Learning ( http://arxiv.org/abs/2306.14039v1 )

ライセンス: Link先を確認
Pradyumna Elavarthi, Arun Bhattacharjee, Ashley Paz y Puente, Anca Ralescu(参考訳) 完全畳み込みニューラルネットワークは、Ti被覆Ni線の均質化における2つの異なるカーケンドール孔の体積分画の進化を測定するために用いられた。 セグメンテーションモデルの訓練のためのマスクを得るために, 大津スしきい値法や最大連結成分分析などの伝統的な手法が用いられた。 一度訓練すると、モデルは進化の異なる段階で2つのタイプの細孔を意味的に分割するために使われた。 ネットワークによって予測された細孔のマスクは、0分間、240分間、および480分間の均質化率を測定するために使用された。 このモデルでは, 孔孔の孔率の増加と孔孔焼結による孔孔率の減少を予測し, F1スコア0.95を得た。

A fully convolutional neural network was used to measure the evolution of the volume fraction of two different Kirkendall pores during the homogenization of Ti coated Ni wires. Traditional methods like Otsus thresholding and the largest connected component analysis were used to obtain the masks for training the segmentation model. Once trained, the model was used to semantically segment the two types of pores at different stages in their evolution. Masks of the pores predicted by the network were then used to measure the volume fraction of porosity at 0 mins, 240 mins, and 480 mins of homogenization. The model predicted an increase in porosity for one type of pore and a decrease in porosity for another type of pore due to pore sintering, and it achieved an F1 Score of 0.95.
翻訳日:2023-06-27 17:31:15 公開日:2023-06-24
# アノテータのように考える:データセットラベリング命令の生成

Thinking Like an Annotator: Generation of Dataset Labeling Instructions ( http://arxiv.org/abs/2306.14035v1 )

ライセンス: Link先を確認
Nadine Chang, Francesco Ferroni, Michael J. Tarr, Martial Hebert, Deva Ramanan(参考訳) 現代のディープラーニングには、大規模なデータセットが不可欠です。 これらのメソッドを理解するには、データセットの透明性(例えば、データセットのキュレーション、モチベーション、コンポジション、コレクションプロセスなど)が必要だ、と主張している。 しかしながら、アノテータが提供する詳細な定義とビジュアルカテゴリの例 - 各データセットに存在するアノテーションの構造を理解するのに不可欠な情報 - のリリースを示唆する人はほとんどいません。 これらのラベルはパブリックデータセットの中心にあるが、それらを生成するのに使われた命令を含むデータはほとんどない。 我々は,公開されたラベル命令の欠落に対処するための新しいタスクであるラベル命令生成を導入する。 ラベル付け命令生成では、合理的な注釈付きデータセットと: 1) データセットの各カテゴリを視覚的に代表する一連の例を生成する。 2) それぞれの例に対応するテキストラベルを提供する。 我々は,この課題を解決するためにモデルトレーニングを必要としないフレームワークを導入し,大規模で事前学習された視覚と言語モデルを活用した,新しい高速検索システムを備える。 このフレームワークは、最後のラベリング命令セットを生成し、その品質を評価するのに役立つヒューマンアノテータのプロキシとして機能する。 我々のフレームワークは、データセットカテゴリの様々な視覚的およびテキスト表現を生成する。 最適化された命令セットは、NuImageの7.06mAP、COCOの12.9mAPで、最強のベースラインを5倍に上回ります。

Large-scale datasets are essential to modern day deep learning. Advocates argue that understanding these methods requires dataset transparency (e.g. "dataset curation, motivation, composition, collection process, etc..."). However, almost no one has suggested the release of the detailed definitions and visual category examples provided to annotators - information critical to understanding the structure of the annotations present in each dataset. These labels are at the heart of public datasets, yet few datasets include the instructions that were used to generate them. We introduce a new task, Labeling Instruction Generation, to address missing publicly available labeling instructions. In Labeling Instruction Generation, we take a reasonably annotated dataset and: 1) generate a set of examples that are visually representative of each category in the dataset; 2) provide a text label that corresponds to each of the examples. We introduce a framework that requires no model training to solve this task and includes a newly created rapid retrieval system that leverages a large, pre-trained vision and language model. This framework acts as a proxy to human annotators that can help to both generate a final labeling instruction set and evaluate its quality. Our framework generates multiple diverse visual and text representations of dataset categories. The optimized instruction set outperforms our strongest baseline across 5 folds by 7.06 mAP for NuImages and 12.9 mAP for COCO.
翻訳日:2023-06-27 17:31:00 公開日:2023-06-24
# 分割誘導K平均:極端モデル圧縮のための極端エンプティクラスター分解能

Partitioning-Guided K-Means: Extreme Empty Cluster Resolution for Extreme Model Compression ( http://arxiv.org/abs/2306.14031v1 )

ライセンス: Link先を確認
Tianhong Huang, Victor Agostinelli, Lizhong Chen(参考訳) ディープラーニングのコンパクト性は、低リソースアプリケーションにおけるモデルの生存性に不可欠であり、極端なモデル圧縮に対する一般的なアプローチは量子化である。 この領域では,量子ノイズを伴う反復的製品量子化(ipq)が最先端であると考えられるが,この量子化フレームワークは,広く普及しているクラスタによる推論品質の低下を防止できる。 本稿では,空クラスタの解消に焦点をあて,Quant-NoiseによるiPQの精度向上を目的とした,新たな拡張を提案する。 私たちのコントリビューションは、Partitioning-Guided k-means(PG k-means)と呼ばれ、3つの主要コンポーネントからなる強化k-means実装である。 まず,初期空クラスタの確保を保証し,クラスタ間分散の促進を図る分割型事前割り当て戦略を提案する。 第2に,大規模クラスタの慎重なパーティショニングによって実行される,経験的に優れた空クラスター分解ヒューリスティックを提案する。 最後に,重みの直観的に密集したクラスタを統合し,共有表現を確実にするための最適化ステップを構築する。 提案手法は,Quant-Noise を用いた iPQ における空クラスタの数を平均で100倍に減らし,空クラスタの解像度を 8 倍削減し,GLUE ベンチマークの様々なタスクで RoBERTa に適用した場合,モデル全体の精度を最大 12% 向上させる。

Compactness in deep learning can be critical to a model's viability in low-resource applications, and a common approach to extreme model compression is quantization. We consider Iterative Product Quantization (iPQ) with Quant-Noise to be state-of-the-art in this area, but this quantization framework suffers from preventable inference quality degradation due to prevalent empty clusters. In this paper, we propose several novel enhancements aiming to improve the accuracy of iPQ with Quant-Noise by focusing on resolving empty clusters. Our contribution, which we call Partitioning-Guided k-means (PG k-means), is a heavily augmented k-means implementation composed of three main components. First, we propose a partitioning-based pre-assignment strategy that ensures no initial empty clusters and encourages an even weight-to-cluster distribution. Second, we propose an empirically superior empty cluster resolution heuristic executed via cautious partitioning of large clusters. Finally, we construct an optional optimization step that consolidates intuitively dense clusters of weights to ensure shared representation. The proposed approach consistently reduces the number of empty clusters in iPQ with Quant-Noise by 100x on average, uses 8x fewer iterations during empty cluster resolution, and improves overall model accuracy by up to 12%, when applied to RoBERTa on a variety of tasks in the GLUE benchmark.
翻訳日:2023-06-27 17:30:37 公開日:2023-06-24
# My Boli: コードミックスのMarathi- English Corpora、事前学習言語モデル、評価ベンチマーク

My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models and Evaluation Benchmarks ( http://arxiv.org/abs/2306.14030v1 )

ライセンス: Link先を確認
Tanmay Chavan, Omkar Gokhale, Aditya Kane, Shantanu Patankar, Raviraj Joshi(参考訳) コード混合データの研究は、専用のコード混合データセットと事前学習された言語モデルが利用できないため、限られている。 この作業では、コードミックスに先立つ作業に欠ける、低リソースのインドの言語であるmarathiに焦点を合わせます。 L3Cube-MeCorpusはMr-Enコーパスで500万ツイートの事前トレーニングを行う。 また、コード混合BERTベースのトランスモデルであるL3Cube-MeBERTとMeRoBERTaをMeCorpusで事前学習した。 さらに、ベンチマークでは、コード混合mr-enヘイトスピーチ検出、感情分析、言語識別などの下流タスクに対して、mehate、mesent、melidの3つの教師付きデータセットを提案する。 これらの評価データセットは、手動で注釈付き \url{~}12,000 Marathi- English code-mixed tweet で構成されている。 アブレーションは、この新しいコーパスで訓練されたモデルは、既存の最先端のBERTモデルよりも大幅に優れていることを示している。 これは、コード混合マラーティー研究の成果物を提示する最初の作品である。 すべてのデータセットとモデルはhttps://github.com/l3cube-pune/MarathiNLPで公開されている。

The research on code-mixed data is limited due to the unavailability of dedicated code-mixed datasets and pre-trained language models. In this work, we focus on the low-resource Indian language Marathi which lacks any prior work in code-mixing. We present L3Cube-MeCorpus, a large code-mixed Marathi-English (Mr-En) corpus with 5 million tweets for pretraining. We also release L3Cube-MeBERT and MeRoBERTa, code-mixed BERT-based transformer models pre-trained on MeCorpus. Furthermore, for benchmarking, we present three supervised datasets MeHate, MeSent, and MeLID for downstream tasks like code-mixed Mr-En hate speech detection, sentiment analysis, and language identification respectively. These evaluation datasets individually consist of manually annotated \url{~}12,000 Marathi-English code-mixed tweets. Ablations show that the models trained on this novel corpus significantly outperform the existing state-of-the-art BERT models. This is the first work that presents artifacts for code-mixed Marathi research. All datasets and models are publicly released at https://github.com/l3cube-pune/MarathiNLP .
翻訳日:2023-06-27 17:30:09 公開日:2023-06-24
# LLMによるハードウェア・アサーションの生成

LLM-assisted Generation of Hardware Assertions ( http://arxiv.org/abs/2306.14027v1 )

ライセンス: Link先を確認
Rahul Kande (1), Hammond Pearce (2), Benjamin Tan (3), Brendan Dolan-Gavitt (4), Shailja Thakur (4), Ramesh Karri (4), Jeyavijayan Rajendran (1) ((1) Texas A&M University, (2) University of New South Wales, (3) University of Calgary, (4) New York University)(参考訳) コンピュータシステムのセキュリティは通常、ハードウェアの信頼基盤に依存している。 ハードウェアの脆弱性はシステムに深刻な影響を及ぼす可能性があるため、セキュリティ検証活動をサポートする技術が必要である。 アサーションベースの検証は、正式な検証やテストベースのチェックに使用できるアサーションセットで設計意図をキャプチャする一般的な検証テクニックである。 しかし、セキュリティ中心のアサーションを書くことは難しい課題です。 本稿では,セキュリティのためのハードウェアアサーション生成におけるコード生成における,新たな大規模言語モデル(LLM)の利用について検討する。 私たちは人気のあるllmに注目し、プロンプトのさまざまな詳細レベルを考慮して、アサーションを最初から記述できることを特徴付けます。 我々は,様々なプロンプトを生成する評価フレームワークを設計し,実世界のハードウェア設計とLLMで生成したい黄金の基準アサーションからなるベンチマークスイートを作成する。

The security of computer systems typically relies on a hardware root of trust. As vulnerabilities in hardware can have severe implications on a system, there is a need for techniques to support security verification activities. Assertion-based verification is a popular verification technique that involves capturing design intent in a set of assertions that can be used in formal verification or testing-based checking. However, writing security-centric assertions is a challenging task. In this work, we investigate the use of emerging large language models (LLMs) for code generation in hardware assertion generation for security, where primarily natural language prompts, such as those one would see as code comments in assertion files, are used to produce SystemVerilog assertions. We focus our attention on a popular LLM and characterize its ability to write assertions out of the box, given varying levels of detail in the prompt. We design an evaluation framework that generates a variety of prompts, and we create a benchmark suite comprising real-world hardware designs and corresponding golden reference assertions that we want to generate with the LLM.
翻訳日:2023-06-27 17:29:52 公開日:2023-06-24
# 高次元木およびグラフモデルにおける構造化パラメータ選択の情報基準

Information criteria for structured parameter selection in high dimensional tree and graph models ( http://arxiv.org/abs/2306.14026v1 )

ライセンス: Link先を確認
Maarten Jansen(参考訳) 高次元モデルのパラメータ選択は通常、(相対的な)偽陽性数の数を制御下におく方法で微調整される。 これは、そうでなければ、少数の真の正が多くの偽陽性によって支配される可能性があるためである。 これは例えば、aic や mallows の cp のような情報基準のナイーブな最適化から選択が導かれるときに起こる。 選択の過大評価は、情報基準が選択とデータ生成プロセスの間の真の分岐を反映しないような方法で、選択された変数の統計を変化させる最適化プロセス自体から生じていると主張することができる。 ラッソでは、過大評価は縮小推定子に関連付けることができ、その結果選択は偽の正の選択に寛容すぎる。 これらの理由から,本論文では,縮小を伴わない推定器で使用するために,偽陽性と偽陰性を慎重にバランスをとる,洗練された情報基準について検討する。 特に,木や図形モデルにおける構造化選択に対するMallowsのCp基準を補正した。

Parameter selection in high-dimensional models is typically finetuned in a way that keeps the (relative) number of false positives under control. This is because otherwise the few true positives may be dominated by the many possible false positives. This happens, for instance, when the selection follows from a naive optimisation of an information criterion, such as AIC or Mallows's Cp. It can be argued that the overestimation of the selection comes from the optimisation process itself changing the statistics of the selected variables, in a way that the information criterion no longer reflects the true divergence between the selection and the data generating process. In lasso, the overestimation can also be linked to the shrinkage estimator, which makes the selection too tolerant of false positive selections. For these reasons, this paper works on refined information criteria, carefully balancing false positives and false negatives, for use with estimators without shrinkage. In particular, the paper develops corrected Mallows's Cp criteria for structured selection in trees and graphical models.
翻訳日:2023-06-27 17:29:35 公開日:2023-06-24
# 準周期駆動量子系における予熱と保存則

Prethermalization and conservation laws in quasi-periodically-driven quantum systems ( http://arxiv.org/abs/2306.14022v1 )

ライセンス: Link先を確認
Matteo Gallone and Beatrice Langella(参考訳) 外部準周期駆動を受ける量子多体系の一般クラスの保存則について検討する。 本研究では, 駆動周波数が十分に大きい場合, 駆動強度が十分に小さい場合には, 摂動パラメータの指数的に長時間の予熱状態を示すことを示す。 さらに、非摂動ハミルトニアンの運動定数の準保存を証明し、それらの物理的意味をいくつかの例で解析する。

We study conservation laws of a general class of quantum many-body systems subjected to an external quasi-periodic driving. We show that, when the frequency of the driving is large enough or the strength of the driving is small enough, the system exhibits a prethermal state for exponentially long times in the perturbative parameter. Moreover, we prove the quasi-conservation of the constants of motion of the unperturbed Hamiltonian and we analyze their physical meaning in a couple of examples.
翻訳日:2023-06-27 17:29:18 公開日:2023-06-24
# 神経固有分解による個別ドーピングダイナミクス

Individualized Dosing Dynamics via Neural Eigen Decomposition ( http://arxiv.org/abs/2306.14020v1 )

ライセンス: Link先を確認
Stav Belogolovsky, Ido Greenberg, Danny Eytan, Shie Mannor(参考訳) ドーシングモデルは生物力学のモデル化に微分方程式を用いることが多い。 特に神経微分方程式は、不規則な時間での予測を可能にするプロセスの微分を予測することを学べる。 しかし、この時間的柔軟性はノイズに対する感度が高く、医療上の問題はしばしばノイズと限られたデータを示す。 さらに、医療用量モデルは個々の患者に対して確実に一般化し、治療方針を変更しなければならない。 これらの課題に対処するために、ニューラル固有確率微分方程式アルゴリズム(NESDE)を導入する。 nesdeは個別化されたモデリング(患者レベルのパラメータよりもハイパーネットワークを使用)、新しい治療方針への一般化(分離制御を使用)、ノイズレベルに応じたチューニング可能な表現性(分割線形性を使用)、高速で連続的でクローズドな予測(スペクトル表現を使用)を提供する。 本研究は, 総合的・現実的な医療問題におけるNESDEの堅牢性を示し, 学習力学を用いて, 模擬医療体育環境の公開を行う。

Dosing models often use differential equations to model biological dynamics. Neural differential equations in particular can learn to predict the derivative of a process, which permits predictions at irregular points of time. However, this temporal flexibility often comes with a high sensitivity to noise, whereas medical problems often present high noise and limited data. Moreover, medical dosing models must generalize reliably over individual patients and changing treatment policies. To address these challenges, we introduce the Neural Eigen Stochastic Differential Equation algorithm (NESDE). NESDE provides individualized modeling (using a hypernetwork over patient-level parameters); generalization to new treatment policies (using decoupled control); tunable expressiveness according to the noise level (using piecewise linearity); and fast, continuous, closed-form prediction (using spectral representation). We demonstrate the robustness of NESDE in both synthetic and real medical problems, and use the learned dynamics to publish simulated medical gym environments.
翻訳日:2023-06-27 17:29:10 公開日:2023-06-24
# UAVとUSVの観点からのボートの安定ヨー推定

Stable Yaw Estimation of Boats from the Viewpoint of UAVs and USVs ( http://arxiv.org/abs/2306.14056v1 )

ライセンス: Link先を確認
Benjamin Kiefer, Timon H\"ofer, Andreas Zell(参考訳) 無人航空機(UAV)や無人表面車両(USV)やボートの観点からのボートのヨー推定は、3Dシーンレンダリング、軌道予測、航法といった様々な用途において重要な課題である。 しかし、UAVの観点からのオブジェクトのヨー推定に関する文献の欠如は、この領域に対処する動機となっている。 本稿では,6次元空間におけるボートの向きを予測するためのHyperPosePDFに基づく手法を提案する。 そのため、PASCAL3D+や独自のデータセット、SeaDronesSee-3D、BOArienTといった既存のデータセットを使っています。 われわれはHyperPosePDFをビデオベースのシナリオに拡張し、時間をかけて堅牢な方向予測を行う。 ビデオデータにHyperPosePDFを内在的に適用すると、単一ポイントの予測が得られ、遠方からの予測や、見当たらないデータや視覚的に異なるデータによる対称方向の誤りが生じる。 この問題を軽減するため,本実験では,ポーズ予測の確率分布を集約し,その結果,性能が著しく向上することを示す。 提案手法は,海洋ロボティクスにおける下流作業に有益である。

Yaw estimation of boats from the viewpoint of unmanned aerial vehicles (UAVs) and unmanned surface vehicles (USVs) or boats is a crucial task in various applications such as 3D scene rendering, trajectory prediction, and navigation. However, the lack of literature on yaw estimation of objects from the viewpoint of UAVs has motivated us to address this domain. In this paper, we propose a method based on HyperPosePDF for predicting the orientation of boats in the 6D space. For that, we use existing datasets, such as PASCAL3D+ and our own datasets, SeaDronesSee-3D and BOArienT, which we annotated manually. We extend HyperPosePDF to work in video-based scenarios, such that it yields robust orientation predictions across time. Naively applying HyperPosePDF on video data yields single-point predictions, resulting in far-off predictions and often incorrect symmetric orientations due to unseen or visually different data. To alleviate this issue, we propose aggregating the probability distributions of pose predictions, resulting in significantly improved performance, as shown in our experimental evaluation. Our proposed method could significantly benefit downstream tasks in marine robotics.
翻訳日:2023-06-27 17:23:32 公開日:2023-06-24
# 視覚障害者のためのガイドロボットへの四足歩行の変換 : ウェイフィンディング,インタラクションモデリング,安全機構の定式化

Transforming a Quadruped into a Guide Robot for the Visually Impaired: Formalizing Wayfinding, Interaction Modeling, and Safety Mechanism ( http://arxiv.org/abs/2306.14055v1 )

ライセンス: Link先を確認
J. Taery Kim, Wenhao Yu, Yash Kothari, Jie Tan, Greg Turk, Sehoon Ha(参考訳) 本稿では,四足歩行ロボットを視覚障害者用ガイドロボットに転換する原理を考察する。 ガイドロボットは、視覚障害者または視覚障害者(bvi)の2〜3%にしかアクセスできないガイド動物を、限定的に利用できるという大きな可能性を秘めている。 ガイドロボットを成功させるためには,(1)ガイド犬と人間のナビゲーション機構の形式化,(2)データ駆動型インタラクションモデルの開発,(3)ユーザ安全性の向上,の3つの主要なトピックについて検討する。 まず、文献とインタビューに基づいてマルコフ決定プロセスを用いて、人間のガイドロボットチームのウェイフィンディングタスクを定式化する。 次に,視覚障害者3名と視覚障害者6名から実際の人間とロボットのインタラクションデータを収集し,‘delayed harness’と呼ばれるインタラクションモデルを開発し,チームのナビゲーション行動を効果的にシミュレーションした。 さらに,危険な動作を予測・フィルタリングすることで,ユーザの安全性を高めるための行動遮蔽機構を導入する。 シミュレーションにおいて開発したインタラクションモデルと安全機構を評価し,予測誤差と衝突数を大幅に削減した。 また,100万ドル以上のトラジェクタを利用者に案内することで,剛性のあるハーネスを持つ四足歩行ロボット上での統合システムを示す。

This paper explores the principles for transforming a quadrupedal robot into a guide robot for individuals with visual impairments. A guide robot has great potential to resolve the limited availability of guide animals that are accessible to only two to three percent of the potential blind or visually impaired (BVI) users. To build a successful guide robot, our paper explores three key topics: (1) formalizing the navigation mechanism of a guide dog and a human, (2) developing a data-driven model of their interaction, and (3) improving user safety. First, we formalize the wayfinding task of the human-guide robot team using Markov Decision Processes based on the literature and interviews. Then we collect real human-robot interaction data from three visually impaired and six sighted people and develop an interaction model called the ``Delayed Harness'' to effectively simulate the navigation behaviors of the team. Additionally, we introduce an action shielding mechanism to enhance user safety by predicting and filtering out dangerous actions. We evaluate the developed interaction model and the safety mechanism in simulation, which greatly reduce the prediction errors and the number of collisions, respectively. We also demonstrate the integrated system on a quadrupedal robot with a rigid harness, by guiding users over $100+$~m trajectories.
翻訳日:2023-06-27 17:23:10 公開日:2023-06-24
# Equality Constrained Deep Declarative Networksにおける勾配近似の理解に向けて

Towards Understanding Gradient Approximation in Equality Constrained Deep Declarative Networks ( http://arxiv.org/abs/2306.14054v1 )

ライセンス: Link先を確認
Stephen Gould, Ming Xu, Zhiwei Xu, Yanbin Liu(参考訳) 我々は、深い宣言ノードの勾配を制約項を無視して近似できる条件を探索し、大域的損失関数の降下方向を導出する。 これは、近似はしばしば真の勾配計算よりも計算効率がずっと高いため、ディープラーニングモデルのトレーニングにおいて重要な実用的応用である。 線形等式制約や正規化制約のある問題の理論的解析を行い、実際に近似がうまく機能する例を示すとともに、それが失敗した場合の注意事項を示す。

We explore conditions for when the gradient of a deep declarative node can be approximated by ignoring constraint terms and still result in a descent direction for the global loss function. This has important practical application when training deep learning models since the approximation is often computationally much more efficient than the true gradient calculation. We provide theoretical analysis for problems with linear equality constraints and normalization constraints, and show examples where the approximation works well in practice as well as some cautionary tales for when it fails.
翻訳日:2023-06-27 17:22:45 公開日:2023-06-24
# グラフニューラルネットワークの高速化に関する調査:アルゴリズム、システム、カスタマイズされたハードウェア

A Survey on Graph Neural Network Acceleration: Algorithms, Systems, and Customized Hardware ( http://arxiv.org/abs/2306.14052v1 )

ライセンス: Link先を確認
Shichang Zhang, Atefeh Sohrabizadeh, Cheng Wan, Zijie Huang, Ziniu Hu, Yewen Wang, Yingyan (Celine) Lin, Jason Cong, Yizhou Sun(参考訳) グラフ構造化データに関する機械学習研究のために、グラフニューラルネットワーク(GNN)が登場している。 GNNは多くのタスクで最先端のパフォーマンスを実現するが、多くのデータと厳格なレイテンシ要件を持つ現実世界のアプリケーションではスケーラビリティの問題に直面している。 これらの課題に対処するために、GNNの加速方法に関する多くの研究がなされている。 これらのアクセラレーション技術は、スマートトレーニングや推論アルゴリズムから効率的なシステムやカスタマイズされたハードウェアに至るまで、GNNパイプラインのさまざまな側面に触れる。 GNN加速の研究の量が急速に増えているため、統合された視点を提供し、関連する作業の複雑さに対処するための体系的な処理が欠けている。 本調査では,GNN加速の分類,既存手法の見直し,今後の研究方向性を提案する。 GNNアクセラレーションの分類学的治療は、既存の作業と結びつき、この分野のさらなる発展の舞台となる。

Graph neural networks (GNNs) are emerging for machine learning research on graph-structured data. GNNs achieve state-of-the-art performance on many tasks, but they face scalability challenges when it comes to real-world applications that have numerous data and strict latency requirements. Many studies have been conducted on how to accelerate GNNs in an effort to address these challenges. These acceleration techniques touch on various aspects of the GNN pipeline, from smart training and inference algorithms to efficient systems and customized hardware. As the amount of research on GNN acceleration has grown rapidly, there lacks a systematic treatment to provide a unified view and address the complexity of relevant works. In this survey, we provide a taxonomy of GNN acceleration, review the existing approaches, and suggest future research directions. Our taxonomic treatment of GNN acceleration connects the existing works and sets the stage for further development in this area.
翻訳日:2023-06-27 17:22:35 公開日:2023-06-24
# 動的エピデミック制御における決定依存分布ロバストマルコフ決定法

Decision-Dependent Distributionally Robust Markov Decision Process Method in Dynamic Epidemic Control ( http://arxiv.org/abs/2306.14051v1 )

ライセンス: Link先を確認
Jun Song, William Yang and Chaoyue Zhao(参考訳) 本稿では,動的流行制御問題に対処する分散ロバストマルコフ決定プロセス(DRMDP)を提案する。 Susceptible-Exposed-Infectious-Recovered(SEIR)モデルは、新型コロナウイルスなどの感染症の確率的拡散を表すために広く用いられている。 マルコフ決定プロセス(MDP)は、予防接種や感染抑制介入などの最適な行動を特定するための数学的枠組みを提供する一方で、SEIRモデルに従って拡散する病気に対処する。 しかし、これらのシナリオにおける不確実性は、より堅牢なアプローチを要求する。 本研究の主な目的は、遷移力学の曖昧な分布を可能にする新しいDRMDPフレームワークの導入である。 具体的には,決定依存的曖昧性集合における遷移確率の最悪の場合分布について考察する。 政策決定に関連する計算の複雑さを克服するために,再編成されたdrmdpモデルに基づく最適なポリシーを,正確かつタイムリーかつスケーラブルに計算できる効率的なリアルタイム動的プログラミング(rtdp)アルゴリズムを提案する。 従来のMDPモデルとの比較分析により、DRMDPは感染率と感受性の低下を低コストで達成していることが示された。

In this paper, we present a Distributionally Robust Markov Decision Process (DRMDP) approach for addressing the dynamic epidemic control problem. The Susceptible-Exposed-Infectious-Recovered (SEIR) model is widely used to represent the stochastic spread of infectious diseases, such as COVID-19. While Markov Decision Processes (MDP) offers a mathematical framework for identifying optimal actions, such as vaccination and transmission-reducing intervention, to combat disease spreading according to the SEIR model. However, uncertainties in these scenarios demand a more robust approach that is less reliant on error-prone assumptions. The primary objective of our study is to introduce a new DRMDP framework that allows for an ambiguous distribution of transition dynamics. Specifically, we consider the worst-case distribution of these transition probabilities within a decision-dependent ambiguity set. To overcome the computational complexities associated with policy determination, we propose an efficient Real-Time Dynamic Programming (RTDP) algorithm that is capable of computing optimal policies based on the reformulated DRMDP model in an accurate, timely, and scalable manner. Comparative analysis against the classic MDP model demonstrates that the DRMDP achieves a lower proportion of infections and susceptibilities at a reduced cost.
翻訳日:2023-06-27 17:22:20 公開日:2023-06-24
# シンボリック・チェーン・オブ・サート蒸留:小さなモデルでもステップバイステップが可能

Symbolic Chain-of-Thought Distillation: Small Models Can Also "Think" Step-by-Step ( http://arxiv.org/abs/2306.14050v1 )

ライセンス: Link先を確認
Liunian Harold Li, Jack Hessel, Youngjae Yu, Xiang Ren, Kai-Wei Chang, Yejin Choi(参考訳) 思考の連鎖(例えば、Let's Thinkby-step)は、大きな言語モデルを素数化し、それらの予測に対する合理化を言語化する。 チェーンオブ思考は劇的なパフォーマンス向上をもたらす可能性があるが、十分な大きなモデル(50Bパラメータ以外)に対してのみメリットが現れるようだ。 桁違いに小さいモデル(125m~1.3bのパラメータ)でも、チェーン・オブ・マイント・プロンプトの恩恵を受けられることを示した。 そこで本研究では,より大きい教師モデルから抽出した合理化について,より小さな学生モデルを訓練する方法であるscotd(symbolic chain-of-thought distillation)を提案する。 いくつかのCommonsenseベンチマークの実験では、こう示されています。 1) SCoTDは, 教師付き, 少数ショット設定, 特に課題セットにおいて, 学生モデルの性能を向上させる。 2)教師からインスタンス毎の推論チェーンをサンプリングすることが最重要である。 3) 蒸留後, 学生の思考連鎖は, 桁違いなパラメーターにもかかわらず, 教師に匹敵するものと判断される。 例えば、多様性対教師の確率対オープン・ディペンデントネスなど、チェーン・オブ・ソート・サンプルのどの特性が重要であるかという仮説をいくつか検証する。 チェーンオブ思考のサンプルとコードのコーパスをリリースします。

Chain-of-thought prompting (e.g., "Let's think step-by-step") primes large language models to verbalize rationalization for their predictions. While chain-of-thought can lead to dramatic performance gains, benefits appear to emerge only for sufficiently large models (beyond 50B parameters). We show that orders-of-magnitude smaller models (125M -- 1.3B parameters) can still benefit from chain-of-thought prompting. To achieve this, we introduce Symbolic Chain-of-Thought Distillation (SCoTD), a method to train a smaller student model on rationalizations sampled from a significantly larger teacher model. Experiments across several commonsense benchmarks show that: 1) SCoTD enhances the performance of the student model in both supervised and few-shot settings, and especially for challenge sets; 2) sampling many reasoning chains per instance from the teacher is paramount; and 3) after distillation, student chain-of-thoughts are judged by humans as comparable to the teacher, despite orders of magnitude fewer parameters. We test several hypotheses regarding what properties of chain-of-thought samples are important, e.g., diversity vs. teacher likelihood vs. open-endedness. We release our corpus of chain-of-thought samples and code.
翻訳日:2023-06-27 17:22:00 公開日:2023-06-24
# h$_2$o: 大きな言語モデルの効率的な生成推論のための重いoracle

H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models ( http://arxiv.org/abs/2306.14048v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng, Ruisi Cai, Zhao Song, Yuandong Tian, Christopher R\'e, Clark Barrett, Zhangyang Wang, Beidi Chen(参考訳) 大規模な言語モデル(llm)は、最近の印象的な成果にもかかわらず、特に、対話システムやストーリーライティングなど、長期コンテンツ生成を含むアプリケーションにおいて、デプロイにコストがかかる。 多くの場合、KVキャッシュと呼ばれる大量の過渡状態情報は、モデルパラメータに加えてGPUメモリに格納され、シーケンス長とバッチサイズに線形にスケーリングされる。 本稿では,KVキャッシュの実装において,メモリフットプリントを大幅に削減する新しい手法を提案する。 我々のアプローチは、少数のトークンが注目度を計算する際に価値の大半に貢献するという注目すべき観察に基づいています。 これらのトークンをヘビーヒッター (H$_2$) と呼ぶ。 包括的な調査を通じて (i)h$_2$の出現は自然であり、テキスト中のトークンの頻繁な共起と強い相関がある。 (ii) 除去すると性能が著しく低下する。 これらの知見に基づき、我々は、最近およびh$_2$トークンのバランスを動的に保持するkvキャッシュ退避ポリシーであるヘビーヒットオラクル(h$_2$o)を提案する。 我々はKVキャッシュ消去を動的部分モジュラー問題として定式化し、将来的な作業のガイドとなる新しい消去アルゴリズムの理論的保証を(軽微な仮定の下で)証明する。 我々は,OPT,LLaMA,GPT-NeoXを用いて,幅広いタスクでアルゴリズムの精度を検証する。 OPT-6.7B と OPT-30B で、最大 29$\times$, 29$\times$, 3$\times$ の3つの主要な推論システム、DeepSpeed Zero-Inference, Hugging Face Accelerate, FlexGen のスループットを改善しました。 同じバッチサイズで、H2Oはレイテンシを最大1.9$\times$まで削減できる。 コードはhttps://github.com/fminference/h2oで入手できる。

Large Language Models (LLMs), despite their recent impressive accomplishments, are notably cost-prohibitive to deploy, particularly for applications involving long-content generation, such as dialogue systems and story writing. Often, a large amount of transient state information, referred to as the KV cache, is stored in GPU memory in addition to model parameters, scaling linearly with the sequence length and batch size. In this paper, we introduce a novel approach for implementing the KV cache which significantly reduces its memory footprint. Our approach is based on the noteworthy observation that a small portion of tokens contributes most of the value when computing attention scores. We call these tokens Heavy Hitters (H$_2$). Through a comprehensive investigation, we find that (i) the emergence of H$_2$ is natural and strongly correlates with the frequent co-occurrence of tokens in the text, and (ii) removing them results in significant performance degradation. Based on these insights, we propose Heavy Hitter Oracle (H$_2$O), a KV cache eviction policy that dynamically retains a balance of recent and H$_2$ tokens. We formulate the KV cache eviction as a dynamic submodular problem and prove (under mild assumptions) a theoretical guarantee for our novel eviction algorithm which could help guide future work. We validate the accuracy of our algorithm with OPT, LLaMA, and GPT-NeoX across a wide range of tasks. Our implementation of H$_2$O with 20% heavy hitters improves the throughput over three leading inference systems DeepSpeed Zero-Inference, Hugging Face Accelerate, and FlexGen by up to 29$\times$, 29$\times$, and 3$\times$ on OPT-6.7B and OPT-30B. With the same batch size, H2O can reduce the latency by up to 1.9$\times$. The code is available at https://github.com/FMInference/H2O.
翻訳日:2023-06-27 17:21:35 公開日:2023-06-24
# 需要応答の最適価格設定に向けて --非パラメトリック制約付き政策最適化アプローチ

Towards Optimal Pricing of Demand Response -- A Nonparametric Constrained Policy Optimization Approach ( http://arxiv.org/abs/2306.14047v1 )

ライセンス: Link先を確認
Jun Song and Chaoyue Zhao(参考訳) 需要応答(DR)は、ピーク負荷を低減し、電力市場の需給両面における不確実性を緩和する有効な方法であることが示されている。 DR研究の重要な問題は、電気負荷をピークからオフピーク時間にシフトさせるために、電気価格を適切に調整する方法である。 近年では、エンドユース顧客のためのモデルの識別を必要としないモデルフリー技術であるため、価格ベースのDR問題に対処するために強化学習(RL)が用いられている。 しかし、RL法の大部分は、安全クリティカルな電力システムでは望ましくない学習価格政策の安定性と最適性を保証することができず、高い顧客の請求書が生じる可能性がある。 本稿では,rl文献の多数派が採用する政策表現の制約的前提を取り除き,政策更新の安定性を確保しつつ最適性を向上させる革新的な非パラメトリック制約付き政策最適化手法を提案する。 提案する制約付きポリシー最適化問題に対処するために,各イテレーションの最適ポリシー更新のクローズドフォーム表現を導出し,効率的なオン・ポリシー・アクタ・クリティックアルゴリズムを開発する。 2つのDRケースに対する実験により,提案した非パラメトリック制約付きポリシー最適化法は,最先端RLアルゴリズムと比較して優れた性能を示した。

Demand response (DR) has been demonstrated to be an effective method for reducing peak load and mitigating uncertainties on both the supply and demand sides of the electricity market. One critical question for DR research is how to appropriately adjust electricity prices in order to shift electrical load from peak to off-peak hours. In recent years, reinforcement learning (RL) has been used to address the price-based DR problem because it is a model-free technique that does not necessitate the identification of models for end-use customers. However, the majority of RL methods cannot guarantee the stability and optimality of the learned pricing policy, which is undesirable in safety-critical power systems and may result in high customer bills. In this paper, we propose an innovative nonparametric constrained policy optimization approach that improves optimality while ensuring stability of the policy update, by removing the restrictive assumption on policy representation that the majority of the RL literature adopts: the policy must be parameterized or fall into a certain distribution class. We derive a closed-form expression of optimal policy update for each iteration and develop an efficient on-policy actor-critic algorithm to address the proposed constrained policy optimization problem. The experiments on two DR cases show the superior performance of our proposed nonparametric constrained policy optimization method compared with state-of-the-art RL algorithms.
翻訳日:2023-06-27 17:20:59 公開日:2023-06-24
# スリット面のミッタグ・リーフラーフォック空間の熱状態

Thermal States on Mittag-Leffler Fock Space of the Slitted Plane ( http://arxiv.org/abs/2306.14044v1 )

ライセンス: Link先を確認
Natanael Alpay, Tiju Cherian John(参考訳) 数状態と熱状態は量子論において重要な物理状態のクラスを形成する。 これらの状態を研究する数学的枠組みは、適切なヒルベルト空間上のフォック空間である。 通常のボソニックフォック空間のいくつかの一般化は、数学やその他の科学分野においてその重要性から近年現れている。 fock空間の最も顕著な一般化の1つは、スリットされた平面のmittag-leffler (ml) fock空間である。 量子論の基本作用素の自然な一般化は、MLフォック空間上で得られる。 ローゼンフェルト、ルッソ、ディクソンによるスリット平面のミッタ・レフラー・フォック空間における生成と消滅作用素の構築に続いて(J. Math. Anal. Appl. 463, 2, 2018)。 我々は,スリットされた平面のmlフォック空間上の数状態と熱状態を構築し,研究する。 通常のフォック空間上の熱状態は、いわゆる量子ガウス状態の重要なサブクラスを形成しており、MLフォック空間上のより一般的な量子状態(圧縮状態やベル状態など)の類似理論は、さらなる探索のために開かれた領域である。

Number states and thermal states form an important class of physical states in quantum theory. A mathematical framework for studying these states is that of a Fock space over an appropriate Hilbert space. Several generalizations of the usual Bosonic Fock space have appeared recently due to their importance in many areas of mathematics and other scientific domains. One of the most prominent generalization of Fock spaces is the Mittag-Leffler (ML) Fock space of the slitted plane. Natural generalizations of the basic operators of quantum theory can be obtained on ML Fock spaces. Following the construction of the creation and annihilation operators in the Mittag-Leffler Fock space of the slitted plane by Rosenfeld, Russo, and Dixon, (J. Math. Anal. Appl. 463, 2, 2018). We construct and study the number states and thermal states on the ML Fock space of the slitted plane. Thermal states on usual Fock space form an important subclass of the so called quantum gaussian states, an analogous theory of more general quantum states (like squeezed states and Bell states) on ML Fock spaces is an area open for further exploration.
翻訳日:2023-06-27 17:20:37 公開日:2023-06-24
# 機械学習には独自のランダムネス標準が必要だ:ランダム化されたスムーシングとPRNGベースの攻撃

Machine Learning needs its own Randomness Standard: Randomised Smoothing and PRNG-based attacks ( http://arxiv.org/abs/2306.14043v1 )

ライセンス: Link先を確認
Pranav Dahiya, Ilia Shumailov, Ross Anderson(参考訳) ランダム性は、最適化、データ選択、プライバシ、セキュリティなど、機械学習(ml)の分野で多くの重要な機能をサポートする。 MLシステムは、ツールチェーン内のコンパイラやクラウドサービスプロバイダなどに対してランダム性の生成または取得のタスクをアウトソースする。 Yet there is a long history of attackers exploiting poor randomness, or even creating it -- as when the NSA put backdoors in random number generators to break cryptography. In this paper we consider whether attackers can compromise an ML system using only the randomness on which they commonly rely. We focus our effort on Randomised Smoothing, a popular approach to train certifiably robust models, and to certify specific input datapoints of an arbitrary model. We choose Randomised Smoothing since it is used for both security and safety -- to counteract adversarial examples and quantify uncertainty respectively. 内部では、ガウスノイズをサンプリングしてデータポイント周辺の体積を探索し、モデルが敵の例に対して脆弱でないことを証明する。 我々は、攻撃者が供給されたランダム性をバックドアし、過大評価または過小評価のいずれかを誤って証明する全く新しい攻撃を示す。 このような攻撃は可能であり、成功するためにはランダム性に非常に小さな変更が必要であり、検出が困難であることを示す。 例えば、乱数生成器に攻撃を隠蔽し、NISTが提案したランダムネステストが検出できないことを示す。 我々は、安全クリティカルでセキュリティクリティカルな機械学習アプリケーションにもっと適するように、乱数テストに関するNISTガイドラインの更新を推奨する。

Randomness supports many critical functions in the field of machine learning (ML) including optimisation, data selection, privacy, and security. ML systems outsource the task of generating or harvesting randomness to the compiler, the cloud service provider or elsewhere in the toolchain. Yet there is a long history of attackers exploiting poor randomness, or even creating it -- as when the NSA put backdoors in random number generators to break cryptography. In this paper we consider whether attackers can compromise an ML system using only the randomness on which they commonly rely. We focus our effort on Randomised Smoothing, a popular approach to train certifiably robust models, and to certify specific input datapoints of an arbitrary model. We choose Randomised Smoothing since it is used for both security and safety -- to counteract adversarial examples and quantify uncertainty respectively. Under the hood, it relies on sampling Gaussian noise to explore the volume around a data point to certify that a model is not vulnerable to adversarial examples. We demonstrate an entirely novel attack against it, where an attacker backdoors the supplied randomness to falsely certify either an overestimate or an underestimate of robustness. We demonstrate that such attacks are possible, that they require very small changes to randomness to succeed, and that they can be hard to detect. As an example, we hide an attack in the random number generator and show that the randomness tests suggested by NIST fail to detect it. We advocate updating the NIST guidelines on random number testing to make them more appropriate for safety-critical and security-critical machine-learning applications.
翻訳日:2023-06-27 17:20:14 公開日:2023-06-24
# SuperBench: 科学機械学習のための超解答ベンチマークデータセット

SuperBench: A Super-Resolution Benchmark Dataset for Scientific Machine Learning ( http://arxiv.org/abs/2306.14070v1 )

ライセンス: Link先を確認
Pu Ren, N. Benjamin Erichson, Shashank Subramanian, Omer San, Zarija Lukic and Michael W. Mahoney(参考訳) 超解法(SR)技術は、データの解像度を高め、細部を検索し、データ表現の全体的な品質と忠実性を改善することを目的としている。 科学機械学習(SciML)コミュニティにおける複雑な時空間システムにSR手法を適用することへの関心が高まっている。 しかし、SRメソッドの比較と検証のための標準化されたベンチマークデータセットがないため、SciMLの進歩と採用が妨げられる。 これを解決するために,流体流,宇宙学,気象学のデータを含む高解像度データセット(最大2048\times2048$ dimensions)を備えた最初のベンチマークデータセットであるSuperBenchを紹介した。 本稿では,データ中心および物理保存の観点からの空間SR性能の検証と,データ劣化に対するロバスト性の評価に着目する。 深層学習に基づくSR手法(コンピュータビジョンコミュニティで開発された)は,従来の物理情報に限られていたにもかかわらず,特定のタスクに優れるが,複雑な微細な特徴を正確に把握し,科学データの基本的物理的特性や制約を保ちながら,これらの手法の限界を特定する。 これらの欠点は、ドメイン知識をMLモデルに組み込むことの重要性と微妙さを強調している。 我々はSuperBenchが科学的タスクのSR手法を大幅に進歩させることを期待している。

Super-Resolution (SR) techniques aim to enhance data resolution, enabling the retrieval of finer details, and improving the overall quality and fidelity of the data representation. There is growing interest in applying SR methods to complex spatiotemporal systems within the Scientific Machine Learning (SciML) community, with the hope of accelerating numerical simulations and/or improving forecasts in weather, climate, and related areas. However, the lack of standardized benchmark datasets for comparing and validating SR methods hinders progress and adoption in SciML. To address this, we introduce SuperBench, the first benchmark dataset featuring high-resolution datasets (up to $2048\times2048$ dimensions), including data from fluid flows, cosmology, and weather. Here, we focus on validating spatial SR performance from data-centric and physics-preserved perspectives, as well as assessing robustness to data degradation tasks. While deep learning-based SR methods (developed in the computer vision community) excel on certain tasks, despite relatively limited prior physics information, we identify limitations of these methods in accurately capturing intricate fine-scale features and preserving fundamental physical properties and constraints in scientific data. These shortcomings highlight the importance and subtlety of incorporating domain knowledge into ML models. We anticipate that SuperBench will significantly advance SR methods for scientific tasks.
翻訳日:2023-06-27 17:13:17 公開日:2023-06-24
# Waypoint Transformer:中間目標を用いた監視学習による強化学習

Waypoint Transformer: Reinforcement Learning via Supervised Learning with Intermediate Targets ( http://arxiv.org/abs/2306.14069v1 )

ライセンス: Link先を確認
Anirudhan Badrinath and Yannis Flet-Berliac and Allen Nie and Emma Brunskill(参考訳) 教師付き学習(RvS)によるオフライン強化学習の最近の進歩と、さまざまな領域における決定変換器(DT)アーキテクチャの成功にもかかわらず、DTはいくつかの挑戦的なベンチマークで不足している。 この低性能の根本原因は、準最適軌道のセグメントをシームレスに接続できないことである。 この限界を克服するために,中間目標を統合することでrss法を強化する新しい手法を提案する。 我々は、DTフレームワーク上に構築され、自動生成されたウェイポイントに条件付けされたアーキテクチャを用いて、WT(Waypoint Transformer)を導入する。 その結果,従来のRvS法と比較して最終帰納率は有意に増加し,従来の時間差分学習法よりも同等以上の性能を示した。 さらに、パフォーマンスと安定性の改善は、AntMaze Large Play/DiverseやKitchen Mixed/Partialなど、最も困難な環境とデータ構成において最大である。

Despite the recent advancements in offline reinforcement learning via supervised learning (RvS) and the success of the decision transformer (DT) architecture in various domains, DTs have fallen short in several challenging benchmarks. The root cause of this underperformance lies in their inability to seamlessly connect segments of suboptimal trajectories. To overcome this limitation, we present a novel approach to enhance RvS methods by integrating intermediate targets. We introduce the Waypoint Transformer (WT), using an architecture that builds upon the DT framework and conditioned on automatically-generated waypoints. The results show a significant increase in the final return compared to existing RvS methods, with performance on par or greater than existing state-of-the-art temporal difference learning-based methods. Additionally, the performance and stability improvements are largest in the most challenging environments and data configurations, including AntMaze Large Play/Diverse and Kitchen Mixed/Partial.
翻訳日:2023-06-27 17:12:35 公開日:2023-06-24
# ualberta - semeval-2023タスク1--多言語視覚単語の曖昧さ解消のための文脈拡張と翻訳

UAlberta at SemEval-2023 Task 1: Context Augmentation and Translation for Multilingual Visual Word Sense Disambiguation ( http://arxiv.org/abs/2306.14067v1 )

ライセンス: Link先を確認
Michael Ogezi, Bradley Hauer, Talgat Omarov, Ning Shi, Grzegorz Kondrak(参考訳) 本稿では,SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Taskについてアルバータ大学のシステムについて述べる。 本稿では,BabelNetから取得したグロスとテキストと画像エンコーダを組み合わせた新しいアルゴリズムを提案する。 さらに,言語固有のエンコーダと,翻訳テキストへの英語エンコーダの適用を比較した。 タスクデータセットのコンテキストは非常に短いので、言語モデルによって生成された記述でこれらのコンテキストを拡張する実験も行います。 これにより精度が大幅に向上する。 画像生成とテキスト条件付き画像セグメンテーションを用いた付加的なV-WSD手法を記述・評価する。 総じて56チーム中18位にランクインしました。 非公式な結果のいくつかは、公式の結果よりも優れている。 私たちのコードはhttps://github.com/UAlberta-NLP/v-wsd.comで公開されています。

We describe the systems of the University of Alberta team for the SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Task. We present a novel algorithm that leverages glosses retrieved from BabelNet, in combination with text and image encoders. Furthermore, we compare language-specific encoders against the application of English encoders to translated texts. As the contexts given in the task datasets are extremely short, we also experiment with augmenting these contexts with descriptions generated by a language model. This yields substantial improvements in accuracy. We describe and evaluate additional V-WSD methods which use image generation and text-conditioned image segmentation. Overall, the results of our official submission rank us 18 out of 56 teams. Some of our unofficial results are even better than the official ones. Our code is publicly available at https://github.com/UAlberta-NLP/v-wsd.
翻訳日:2023-06-27 17:12:18 公開日:2023-06-24
# 種子:拡散モデルを用いた気象予報アンサンブルのエミュレーション

SEEDS: Emulation of Weather Forecast Ensembles with Diffusion Models ( http://arxiv.org/abs/2306.14066v1 )

ライセンス: Link先を確認
Lizao Li, Rob Carver, Ignacio Lopez-Gomez, Fei Sha, John Anderson(参考訳) 確率予測は将来の天候の不確実性の下で意思決定に不可欠である。 主なアプローチは、運用上の数値天気予報の不確実性を表現し定量化するために、予測の集合を用いることである。 しかし、アンサンブルの生成は計算コストがかかる。 本稿では,生成人工知能の最近の進歩を活用して,大規模なアンサンブル予測を生成することを提案する。 本稿では,GEFS再放送データセットからデータ駆動型確率拡散モデルを学習する。 このモデルを効率的にサンプリングして現実的な天気予報を作成でき、運用中のGEFS予測システムの少数のメンバーに条件付けされている。 生成されたアンサンブルはGEFS 31の完全なアンサンブルと同様の予測能力を有し、ERA5の再分析に対して評価され、大きな物理学に基づくアンサンブルの統計をうまくエミュレートする。 また,生成後処理のための拡散モデルの開発にも同様の手法を適用し,トレーニング中にラベルとして再解析データを活用することにより,エミュレートされた予測システムに存在するバイアスを直接学習する。 この生成後処理モデルからのアンサンブルは、特に極端な事象分類において、高い信頼性と正確性を示す。 一般に、GEFSの運用アンサンブルよりも信頼性が高く、極端な天候の確率を正確に予測する。 実運用GEFSシステムの計算コストの10分の1以下でこれらの結果が得られる。

Probabilistic forecasting is crucial to decision-making under uncertainty about future weather. The dominant approach is to use an ensemble of forecasts to represent and quantify uncertainty in operational numerical weather prediction. However, generating ensembles is computationally costly. In this paper, we propose to generate ensemble forecasts at scale by leveraging recent advances in generative artificial intelligence. Our approach learns a data-driven probabilistic diffusion model from the 5-member ensemble GEFS reforecast dataset. The model can then be sampled efficiently to produce realistic weather forecasts, conditioned on a few members of the operational GEFS forecasting system. The generated ensembles have similar predictive skill as the full GEFS 31-member ensemble, evaluated against ERA5 reanalysis, and emulate well the statistics of large physics-based ensembles. We also apply the same methodology to developing a diffusion model for generative post-processing: the model directly learns to correct biases present in the emulated forecasting system by leveraging reanalysis data as labels during training. Ensembles from this generative post-processing model show greater reliability and accuracy, particularly in extreme event classification. In general, they are more reliable and forecast the probability of extreme weather more accurately than the GEFS operational ensemble. Our models achieve these results at less than 1/10th of the computational cost incurred by the operational GEFS system.
翻訳日:2023-06-27 17:12:03 公開日:2023-06-24
# 偏光子駆動の$\mathcal{pt}$再突入と$\mathcal{pt}$-symmetric 3元系における異方性例外点

Polariton-driven $\mathcal{PT}$ Reentry and Anisotropic Exceptional Points in $\mathcal{PT}$-symmetric Ternary System ( http://arxiv.org/abs/2306.14065v1 )

ライセンス: Link先を確認
Chulwon Lee, Kai Zhang, Jinyan Miao, Kai Sun, and Hui Deng(参考訳) 多モードパリティ時対称非エルミート系は、より優れたフォトニック技術を約束する豊富な現象を特徴とするが、しばしば理解と実装が困難である。 ここでは,3モードのポラリトニック系がリエントラントパリティタイム完全位相を持つ最小モデルを形成することを示す。 その相図の解析解は、再帰相は高次および異方性例外点、ほぼゼロゲインパリティ時破壊相を含む多モード系の特別な特徴を伴っていることを示している。 エキシトンカップリングはさらに、センシングの強化と効率的なポラリトンデバイスのための特別な特徴にアクセスするためのシステムのチューニングを促進する。

Multi-mode parity-time symmetric non-Hermitian systems feature rich phenomena that promise better photonic technologies, but they are often difficult to understand and implement. Here we show that a three-mode polaritonic system forms a minimal model with reentrant parity-time exact phase. The analytical solution of its phase diagram indicates the reentrant phase is accompanied by several special features of multi-mode systems, including higher-order and anisotropic exceptional points, and near-zero-gain parity-time broken phase. Exciton coupling further facilitates tuning of the system to access the special features for enhanced sensing and efficient polariton devices.
翻訳日:2023-06-27 17:11:42 公開日:2023-06-24
# 双曲性を超えたグラフモデリング:対称正定値行列におけるグラフニューラルネットワーク

Modeling Graphs Beyond Hyperbolic: Graph Neural Networks in Symmetric Positive Definite Matrices ( http://arxiv.org/abs/2306.14064v1 )

ライセンス: Link先を確認
Wei Zhao, Federico Lopez, J. Maxwell Riestenberg, Michael Strube, Diaaeldin Taha, Steve Trettel(参考訳) 近年の研究では、グラフデータの構造と埋め込み空間の幾何学の整合性は、データの高品質な表現の学習に不可欠であることが示されている。 ユークリッド空間と双曲空間の均一幾何学は、格子や階層のような均一な幾何学的および位相的特徴を持つグラフを最小の歪みで表現することができる。 しかしながら、実世界のグラフデータは、より洗練された幾何学的埋め込み空間を必要とする複数の幾何学的特徴と位相的特徴によって特徴づけられる。 本研究では、対称正定値行列(spd)のリーマン対称空間を用いて、複雑なグラフをロバストに処理できるグラフニューラルネットワークを構築する。 そこで我々は,SPD のジャイロカルスツール \cite{lopez2021gyroSPD} を利用して,SPD における5つのグラフニューラルネットワークの構築ブロックを実装する革新的なライブラリを開発した。 実験の結果, SPD におけるグラフニューラルネットワークは, ユークリッド空間や双曲空間, カルテシア積において, ノードやグラフの分類タスクの複雑なグラフ上で, かなり優れていた。 ライブラリとデータセットは \url{https://github.com/andyweizhao/spd4gnns} でリリースします。

Recent research has shown that alignment between the structure of graph data and the geometry of an embedding space is crucial for learning high-quality representations of the data. The uniform geometry of Euclidean and hyperbolic spaces allows for representing graphs with uniform geometric and topological features, such as grids and hierarchies, with minimal distortion. However, real-world graph data is characterized by multiple types of geometric and topological features, necessitating more sophisticated geometric embedding spaces. In this work, we utilize the Riemannian symmetric space of symmetric positive definite matrices (SPD) to construct graph neural networks that can robustly handle complex graphs. To do this, we develop an innovative library that leverages the SPD gyrocalculus tools \cite{lopez2021gyroSPD} to implement the building blocks of five popular graph neural networks in SPD. Experimental results demonstrate that our graph neural networks in SPD substantially outperform their counterparts in Euclidean and hyperbolic spaces, as well as the Cartesian product thereof, on complex graphs for node and graph classification tasks. We release the library and datasets at \url{https://github.com/andyweizhao/SPD4GNNs}.
翻訳日:2023-06-27 17:11:28 公開日:2023-06-24
# 適応収集データを用いた強化学習のためのオフライン政策評価

Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data ( http://arxiv.org/abs/2306.14063v1 )

ライセンス: Link先を確認
Sunil Madhow, Dan Xiao, Ming Yin, Yu-Xiang Wang(参考訳) オフラインRL手法のサンプル複雑性に関する理論的保証を開発することは、データハングリーRLアルゴリズムを実用的なものにするための重要なステップである。 現在、ほとんどの結果はデータ分散に関する非現実的な仮定にかかっている。すなわち、単一のロギングポリシーによって収集された一連のi.i.d.トラジェクタを含んでいる。 データセットを適応的に収集するより一般的な設定を考える。 我々は,表型MDPの一般化された設定において,TMISオフライン政策評価(OPE)推定器の理論を開発し,その推定誤差に高確率,インスタンス依存境界を導出する。 また,適応環境での最小最適オフライン学習を復元する。 最後に,適応的および非適応的環境下でこれらの推定器の挙動を実証的に解析するシミュレーションを行う。

Developing theoretical guarantees on the sample complexity of offline RL methods is an important step towards making data-hungry RL algorithms practically viable. Currently, most results hinge on unrealistic assumptions about the data distribution -- namely that it comprises a set of i.i.d. trajectories collected by a single logging policy. We consider a more general setting where the dataset may have been gathered adaptively. We develop theory for the TMIS Offline Policy Evaluation (OPE) estimator in this generalized setting for tabular MDPs, deriving high-probability, instance-dependent bounds on its estimation error. We also recover minimax-optimal offline learning in the adaptive setting. Finally, we conduct simulations to empirically analyze the behavior of these estimators under adaptive and non-adaptive regimes.
翻訳日:2023-06-27 17:11:06 公開日:2023-06-24
# 曖昧なサイバー攻撃記述を解釈する大規模言語モデルの利用について

On the Uses of Large Language Models to Interpret Ambiguous Cyberattack Descriptions ( http://arxiv.org/abs/2306.14062v1 )

ライセンス: Link先を確認
Reza Fayyazi, Shanchieh Jay Yang(参考訳) 脆弱性やエクスプロイトの変化量、多様性、速度によって、インシデント脅威分析は、人間の専門知識や経験に挑戦している。 MITRE AT&CKフレームワークは、攻撃者が脆弱性を悪用する方法と理由を説明するために、戦術、テクニック、手順(TTP)を使用している。 しかし、あるセキュリティ専門家によって書かれたTTP記述は、別のセキュリティ専門家によって非常に異なる解釈が可能であり、サイバーセキュリティの運用やビジネス、ポリシー、法的決定の混乱につながる。 一方、AIの進歩は、サイバーオペレーションにおける様々なタスクを支援するために自然言語処理(NLP)アルゴリズムの使用の増加につながっている。 LLM(Large Language Models)の台頭により、LPMのセマンティック理解と拡張性により、NLPタスクは大幅に改善された。 これにより、LCMがTTPや一般的なサイバー攻撃の記述をどの程度うまく解釈できるか疑問が持たれる。 我々は,LLMの直接使用と,ATT&CK記述を用いたBaseLLMsのトレーニングを提案し,解析し,ATT&CKの戦術を予測する能力について検討する。 以上の結果から,指導訓練を施したBaseLLMsは,ATT&CK戦術のより焦点を絞った,より明瞭な分化をもたらすことが明らかとなった。 一方、LLMはサイバー攻撃技術のより広範な解釈を提供する。 LLMの力にもかかわらず、固有の曖昧さはその予測の中に存在する。 そこで我々は,既存の課題を要約し,TLP記述のあいまいさに対処するため,LSMに関する研究の方向性を推奨する。

The volume, variety, and velocity of change in vulnerabilities and exploits have made incident threat analysis challenging with human expertise and experience along. The MITRE AT&CK framework employs Tactics, Techniques, and Procedures (TTPs) to describe how and why attackers exploit vulnerabilities. However, a TTP description written by one security professional can be interpreted very differently by another, leading to confusion in cybersecurity operations or even business, policy, and legal decisions. Meanwhile, advancements in AI have led to the increasing use of Natural Language Processing (NLP) algorithms to assist the various tasks in cyber operations. With the rise of Large Language Models (LLMs), NLP tasks have significantly improved because of the LLM's semantic understanding and scalability. This leads us to question how well LLMs can interpret TTP or general cyberattack descriptions. We propose and analyze the direct use of LLMs as well as training BaseLLMs with ATT&CK descriptions to study their capability in predicting ATT&CK tactics. Our results reveal that the BaseLLMs with supervised training provide a more focused and clearer differentiation between the ATT&CK tactics (if such differentiation exists). On the other hand, LLMs offer a broader interpretation of cyberattack techniques. Despite the power of LLMs, inherent ambiguity exists within their predictions. We thus summarize the existing challenges and recommend research directions on LLMs to deal with the inherent ambiguity of TTP descriptions.
翻訳日:2023-06-27 17:10:51 公開日:2023-06-24
# desco: リッチ言語記述によるオブジェクト認識の学習

DesCo: Learning Object Recognition with Rich Language Descriptions ( http://arxiv.org/abs/2306.14060v1 )

ライセンス: Link先を確認
Liunian Harold Li, Zi-Yi Dou, Nanyun Peng, Kai-Wei Chang(参考訳) 近年の視覚言語アプローチの発展は、言語監督から視覚認識モデルを学ぶパラダイムシフトを引き起こしている。 これらのアプローチは、オブジェクトを言語クエリ(例えば「猫の写真」)にアライメントし、新しいオブジェクトとドメインを識別するためのモデルの適応性を改善する。 近年, 属性, 形状, テクスチャ, 関係性など, きめ細かいセマンティックディテールの仕様を含む複雑な言語表現を用いて, これらのモデルに問い合わせる試みがいくつかある。 しかし、単に言語記述をクエリとして組み込むことは、モデルによる正確な解釈を保証するものではない。 実際、我々の実験は、オブジェクト検出のための最先端のビジョン言語モデルであるGLIPが、言語記述の文脈情報を無視することが多く、その代わりに、名前だけでオブジェクトを検出することに大きく依存していることを示している。 課題に対処するために,2つの主要なイノベーションからなるリッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。 1) オブジェクト名と原文キャプションに基づいてオブジェクトのリッチな言語記述を生成するために,大言語モデルを常識知識エンジンとして採用する。 2) 文脈に敏感なクエリを設計し、記述内に埋め込まれた複雑なニュアンスを解読し、オブジェクト名のみではなくコンテキストにフォーカスするようにモデルを強制する。 LVISとOminiLabelという2つの新しいオブジェクト検出ベンチマークでは、ゼロショット検出設定の下で、従来の最先端モデルであるGLIPとFIBERを大きく上回る34.8 APr minival(+9.1)と29.3 AP(+3.6)を達成した。

Recent development in vision-language approaches has instigated a paradigm shift in learning visual recognition models from language supervision. These approaches align objects with language queries (e.g. "a photo of a cat") and improve the models' adaptability to identify novel objects and domains. Recently, several studies have attempted to query these models with complex language expressions that include specifications of fine-grained semantic details, such as attributes, shapes, textures, and relations. However, simply incorporating language descriptions as queries does not guarantee accurate interpretation by the models. In fact, our experiments show that GLIP, the state-of-the-art vision-language model for object detection, often disregards contextual information in the language descriptions and instead relies heavily on detecting objects solely by their names. To tackle the challenges, we propose a new description-conditioned (DesCo) paradigm of learning object recognition models with rich language descriptions consisting of two major innovations: 1) we employ a large language model as a commonsense knowledge engine to generate rich language descriptions of objects based on object names and the raw image-text caption; 2) we design context-sensitive queries to improve the model's ability in deciphering intricate nuances embedded within descriptions and enforce the model to focus on context rather than object names alone. On two novel object detection benchmarks, LVIS and OminiLabel, under the zero-shot detection setting, our approach achieves 34.8 APr minival (+9.1) and 29.3 AP (+3.6), respectively, surpassing the prior state-of-the-art models, GLIP and FIBER, by a large margin.
翻訳日:2023-06-27 17:10:27 公開日:2023-06-24
# 生成型adversarial networkを用いたリアルな前部セグメント光コヒーレンス断層画像の作成

Creating Realistic Anterior Segment Optical Coherence Tomography Images using Generative Adversarial Networks ( http://arxiv.org/abs/2306.14058v1 )

ライセンス: Link先を確認
Jad F. Assaf, Anthony Abou Mrad, Dan Z. Reinstein, Guillermo Amescua, Cyril Zakka, Timothy Archer, Jeffrey Yammine, Elsa Lamah, Mich\`ele Haykal, and Shady T. Awwad(参考訳) 本稿では,高解像度でリアルな前部セグメント光コヒーレンス・トモグラフィ(AS-OCT)画像の作成を目的としたGAN(Generative Adversarial Network)の開発と検証を行う。 我々は142,628 AS-OCT B-scansを用いて,Style and WAvelet based GAN (SWAGAN) を訓練した。 3人の経験豊富な屈折外科医は、生成した画像のリアリズムを評価するために盲目評価を行い、その結果が実際の画像と合成画像の区別の機会よりも有意に優れていなかったため、高い画像リアリズムを示した。 機械学習タスクに対する適合性を評価するために、畳み込みニューラルネットワーク(CNN)分類器を、実画像とGAN生成画像の両方を含むデータセットでトレーニングした。 cnnは実画像単独で78%の精度を示したが、この精度は生成画像を含むトレーニングで100%に上昇した。 これは、機械学習アプリケーションのための合成画像の有用性を強調するものだ。 従来のアップサンプリング技術より優れる拡張スーパー解像度GAN(ESRGAN)を用いて2倍(2倍)アップサンプリングすることで、生成画像の解像度をさらに向上させた。 結論として、GANは高精細でリアルなAS-OCT画像を効果的に生成することができ、機械学習や画像解析タスクに非常に有益である。

This paper presents the development and validation of a Generative Adversarial Network (GAN) purposed to create high-resolution, realistic Anterior Segment Optical Coherence Tomography (AS-OCT) images. We trained the Style and WAvelet based GAN (SWAGAN) on 142,628 AS-OCT B-scans. Three experienced refractive surgeons performed a blinded assessment to evaluate the realism of the generated images; their results were not significantly better than chance in distinguishing between real and synthetic images, thus demonstrating a high degree of image realism. To gauge their suitability for machine learning tasks, a convolutional neural network (CNN) classifier was trained with a dataset containing both real and GAN-generated images. The CNN demonstrated an accuracy rate of 78% trained on real images alone, but this accuracy rose to 100% when training included the generated images. This underscores the utility of synthetic images for machine learning applications. We further improved the resolution of the generated images by up-sampling them twice (2x) using an Enhanced Super Resolution GAN (ESRGAN), which outperformed traditional up-sampling techniques. In conclusion, GANs can effectively generate high-definition, realistic AS-OCT images, proving highly beneficial for machine learning and image analysis tasks.
翻訳日:2023-06-27 17:09:54 公開日:2023-06-24
# fMRIの解釈型表現学習に先立つ脳のモジュラリティの活用

Leveraging Brain Modularity Prior for Interpretable Representation Learning of fMRI ( http://arxiv.org/abs/2306.14080v1 )

ライセンス: Link先を確認
Qianqian Wang, Wei Wang, Yuqi Fang, P.-T. Yap, Hongtu Zhu, Hong-Jun Li, Lishan Qiao and Mingxia Liu(参考訳) 静止状態機能型磁気共鳴画像(rs-fMRI)は脳の自律神経活動を反映し、脳障害解析に広く用いられている。 しかし、学習した特徴は一般的に生物学的解釈性に欠けており、臨床効果が制限される。 グラフ理論の観点からすると、脳は自発的な脳機能ネットワークにおいて顕著なモジュラー構造を示し、各モジュールは機能的に相互に結合された脳の領域(ROI)から構成される。 しかし、fMRI解析のための既存の学習ベースの手法の多くは、そのような脳のモジュラリティを事前に適切に利用していない。 本稿では、(1)動的グラフ構築、(2)新しいモジュラリティ制約グラフニューラルネットワーク(MGNN)による動的グラフ学習、(3)解釈可能なfMRI解析のための予測とバイオマーカー検出の3つの主要コンポーネントからなる、解釈可能なfMRI分析のための脳モジュール制約動的表現学習(BMR)フレームワークを提案する。 特に、3つのコア神経認知モジュール(サリエンスネットワーク、セントラルエグゼクティブネットワーク、デフォルトモードネットワーク)がMGNNに明示的に組み込まれ、同じモジュール内のノード/ROIが同様の表現を共有するように促される。 また,学習特徴の識別能力をさらに高めるため,mgnnに対して,グラフトポロジー再構成制約による入力グラフのネットワークトポロジーの保持を推奨する。 rs-fMRIによる534名の被験者を対象に,提案手法の有効性を検証した。 識別された脳のroisと機能的結合性は臨床診断に役立つfmriバイオマーカーと見なすことができる。

Resting-state functional magnetic resonance imaging (rs-fMRI) can reflect spontaneous neural activities in brain and is widely used for brain disorder analysis.Previous studies propose to extract fMRI representations through diverse machine/deep learning methods for subsequent analysis. But the learned features typically lack biological interpretability, which limits their clinical utility. From the view of graph theory, the brain exhibits a remarkable modular structure in spontaneous brain functional networks, with each module comprised of functionally interconnected brain regions-of-interest (ROIs). However, most existing learning-based methods for fMRI analysis fail to adequately utilize such brain modularity prior. In this paper, we propose a Brain Modularity-constrained dynamic Representation learning (BMR) framework for interpretable fMRI analysis, consisting of three major components: (1) dynamic graph construction, (2) dynamic graph learning via a novel modularity-constrained graph neural network(MGNN), (3) prediction and biomarker detection for interpretable fMRI analysis. Especially, three core neurocognitive modules (i.e., salience network, central executive network, and default mode network) are explicitly incorporated into the MGNN, encouraging the nodes/ROIs within the same module to share similar representations. To further enhance discriminative ability of learned features, we also encourage the MGNN to preserve the network topology of input graphs via a graph topology reconstruction constraint. Experimental results on 534 subjects with rs-fMRI scans from two datasets validate the effectiveness of the proposed method. The identified discriminative brain ROIs and functional connectivities can be regarded as potential fMRI biomarkers to aid in clinical diagnosis.
翻訳日:2023-06-27 17:02:29 公開日:2023-06-24
# 勾配不確かさとの戦い:拡散スコアマッチングによるオフライン強化学習

Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching ( http://arxiv.org/abs/2306.14079v1 )

ライセンス: Link先を確認
H.J. Terry Suh, Glen Chou, Hongkai Dai, Lujie Yang, Abhishek Gupta, Russ Tedrake(参考訳) オフライン強化学習(rl)や模倣学習(il)のようなオフライン最適化パラダイムは、オフラインデータを利用するポリシー検索アルゴリズムを可能にするが、分散シフトの課題を回避するために不確実性を慎重に組み込む必要がある。 勾配に基づくポリシー探索手法は,高次元での有効性が期待できるが,不確実性推定とどのように相互作用するか,より慎重に検討する必要がある。 我々は、不確実性計量が勾配に基づく最適化に有効であるためには、それは必要であると主張する。 (i)不確実性が勾配で最小化した場合、安定してデータに収束し、 (ii)真の不確実性を過小評価しがちではない。 我々は,データへのスムーズな距離を計量として検討し,安定的にデータに収束するだけでなく,モデルバイアスをリプシッツ定数で解析することができることを示した。 さらに,データ間距離の平滑化とデータ確率の等価性を確立することにより,データ間距離の勾配を学習するためのスコアマッチング手法を活用できる。 重要となるのは,データを最大化するオフラインモデルに基づくポリシ検索問題は,確率の値を必要とせず,ログ確率の勾配(スコア関数)のみを問題とすることである。 この知見を用いて,ゼロ階法がスケールできず,アンサンブルが局所ミニマを克服できない高次元問題において,スコアマッチングを利用したオフラインRLの計画アルゴリズムであるスコアガイドプランニング(SGP)を提案する。 Webサイト: https://sites.google.com/view/score-guided-planning/home

Offline optimization paradigms such as offline Reinforcement Learning (RL) or Imitation Learning (IL) allow policy search algorithms to make use of offline data, but require careful incorporation of uncertainty in order to circumvent the challenges of distribution shift. Gradient-based policy search methods are a promising direction due to their effectiveness in high dimensions; however, we require a more careful consideration of how these methods interplay with uncertainty estimation. We claim that in order for an uncertainty metric to be amenable for gradient-based optimization, it must be (i) stably convergent to data when uncertainty is minimized with gradients, and (ii) not prone to underestimation of true uncertainty. We investigate smoothed distance to data as a metric, and show that it not only stably converges to data, but also allows us to analyze model bias with Lipschitz constants. Moreover, we establish an equivalence between smoothed distance to data and data likelihood, which allows us to use score-matching techniques to learn gradients of distance to data. Importantly, we show that offline model-based policy search problems that maximize data likelihood do not require values of likelihood; but rather only the gradient of the log likelihood (the score function). Using this insight, we propose Score-Guided Planning (SGP), a planning algorithm for offline RL that utilizes score-matching to enable first-order planning in high-dimensional problems, where zeroth-order methods were unable to scale, and ensembles were unable to overcome local minima. Website: https://sites.google.com/view/score-guided-planning/home
翻訳日:2023-06-27 17:02:03 公開日:2023-06-24
# And-Or RecursorとRefiner Oracleによるゴール駆動LDMダイアログスレッドの完全自動化

Full Automation of Goal-driven LLM Dialog Threads with And-Or Recursors and Refiner Oracles ( http://arxiv.org/abs/2306.14077v1 )

ライセンス: Link先を確認
Paul Tarau(参考訳) LLMダイアログスレッドの深層ステップバイステップ推論は,オルタナティブ(ORノード)を再帰的に探索し,詳細(ANDノード)を与えられた深さまで拡張することで自動化する。 1つの簡潔なタスク固有の開始子から始めて、これまでの深度ファーストステップを要約したプロンプトを合成することで、タスクに集中するように自動ダイアログスレッドを操縦します。 我々のアルゴリズムはHhorn Clauseインタプリタの単純な再帰的降下実装から派生しているが、LLMが訓練した自然言語推論パターンに適合するように論理エンジンを適合させる。 探索空間を制限し、答えとして返される正当化ステップの痕跡を検証するために、LLMの別のインスタンスからの基底的事実やオラクルのアドバイスと意味論的に類似している。 最後に、生成したHhorn Clauseプログラムのユニークな最小モデルが推論プロセスの結果を収集する。 応用として, 結果予測, 因果説明, 推薦システム, 話題に焦点をあてた科学文献探索の実装をスケッチする。

We automate deep step-by step reasoning in an LLM dialog thread by recursively exploring alternatives (OR-nodes) and expanding details (AND-nodes) up to a given depth. Starting from a single succinct task-specific initiator we steer the automated dialog thread to stay focussed on the task by synthesizing a prompt that summarizes the depth-first steps taken so far. Our algorithm is derived from a simple recursive descent implementation of a Horn Clause interpreter, except that we accommodate our logic engine to fit the natural language reasoning patterns LLMs have been trained on. Semantic similarity to ground-truth facts or oracle advice from another LLM instance is used to restrict the search space and validate the traces of justification steps returned as answers. At the end, the unique minimal model of a generated Horn Clause program collects the results of the reasoning process. As applications, we sketch implementations of consequence predictions, causal explanations, recommendation systems and topic-focussed exploration of scientific literature.
翻訳日:2023-06-27 17:01:35 公開日:2023-06-24
# 強度のない畳み込み時間点過程:局所的およびグローバルな事象コンテキストを取り入れた

Intensity-free Convolutional Temporal Point Process: Incorporating Local and Global Event Contexts ( http://arxiv.org/abs/2306.14072v1 )

ライセンス: Link先を確認
Wang-Tao Zhou, Zhao Kang, Ling Tian, Yi Su(参考訳) 継続的ドメインでのイベント予測は不可欠だが、かなり難しい作業である。 時間点過程(TPP)学習モデルはこの領域で大きな利点を示している。 既存のモデルは、recurrent neural network(rnn)やself-attention mechanismといったテクニックを使用して、イベントのグローバルコンテキストのエンコーディングに重点を置いている。 しかし、ローカルなイベントコンテキストもイベントの発生において重要な役割を果たす。 局所的なコンテキストキャプチャのために指定された一般的な畳み込みニューラルネットワークは、連続的にモデル化できないため、TPPモデリングには適用されていない。 本研究では、連続時間畳み込みイベントエンコーダとRNNを統合することにより、ローカルコンテキストとグローバルコンテキストを組み合わせた新しいTPPモデリング手法を提案する。 提示されたフレームワークは柔軟でスケーラブルで、長いシーケンスと複雑な潜伏パターンを持つ大きなデータセットを扱うことができる。 実験の結果,提案モデルは確率的逐次モデリングの性能とイベント予測の精度を向上させることがわかった。 我々の知る限りでは、TPPモデリングに畳み込みニューラルネットワークを適用する最初の研究である。

Event prediction in the continuous-time domain is a crucial but rather difficult task. Temporal point process (TPP) learning models have shown great advantages in this area. Existing models mainly focus on encoding global contexts of events using techniques like recurrent neural networks (RNNs) or self-attention mechanisms. However, local event contexts also play an important role in the occurrences of events, which has been largely ignored. Popular convolutional neural networks, which are designated for local context capturing, have never been applied to TPP modelling due to their incapability of modelling in continuous time. In this work, we propose a novel TPP modelling approach that combines local and global contexts by integrating a continuous-time convolutional event encoder with an RNN. The presented framework is flexible and scalable to handle large datasets with long sequences and complex latent patterns. The experimental result shows that the proposed model improves the performance of probabilistic sequential modelling and the accuracy of event prediction. To our best knowledge, this is the first work that applies convolutional neural networks to TPP modelling.
翻訳日:2023-06-27 17:01:15 公開日:2023-06-24
# 中世憲章の効率的な注釈

Efficient Annotation of Medieval Charters ( http://arxiv.org/abs/2306.14071v1 )

ライセンス: Link先を確認
Anguelos Nicolaou, Daniel Luger, Franziska Decker, Nicolas Renet, Vincent Christlein, Georg Vogeler(参考訳) 中世の憲章の分析である外交学は、古生物学を応用する主要な研究分野である。 注釈を付けるには、専門家による検証と修正が必要である。 本稿では,認証セグメンテーションのための効率的かつ効率的なアノテーション手法を提案する。 このアプローチにより、パレグラファーの時間をはるかに効率的に利用することができ、いくつかのユースケースでピクセルレベルのセグメンテーションを競い合い、上回る結果を生み出すことができる。 さらなる実験は、アノテーションの時間と労力を最大限に活用するためにクラスオントロジーを設計する方法に光を当てた。 さらに,画像中のキャリブレーションカードの存在を利用して,画素内の物理長にアノテートし,回帰ニューラルネットワークを訓練し,画像パッチから予測する。

Diplomatics, the analysis of medieval charters, is a major field of research in which paleography is applied. Annotating data, if performed by laymen, needs validation and correction by experts. In this paper, we propose an effective and efficient annotation approach for charter segmentation, essentially reducing it to object detection. This approach allows for a much more efficient use of the paleographer's time and produces results that can compete and even outperform pixel-level segmentation in some use cases. Further experiments shed light on how to design a class ontology in order to make the best use of annotators' time and effort. Exploiting the presence of calibration cards in the image, we further annotate the data with the physical length in pixels and train regression neural networks to predict it from image patches.
翻訳日:2023-06-27 17:00:56 公開日:2023-06-24
# 運動からのインクリメンタル構造に基づく球面画像の3次元再構成

3D Reconstruction of Spherical Images based on Incremental Structure from Motion ( http://arxiv.org/abs/2306.12770v2 )

ライセンス: Link先を確認
San Jiang, Kan You, Yaxin Li, Duojie Weng, Wu Chen(参考訳) 3次元再構成は、現代のフォトグラムシステムにおいてますます重要な役割を担っている。 従来の衛星や空中リモートセンシング(RS)プラットフォームは、大規模な地形や都市の3D再構成に必要なデータソースを提供することができる。 低高度のuav(無人航空機)でも、都市キャニオンや屋内シーンなどの複雑な状況下での3d再構成は、カメラフレーム間の頻繁なトラッキング障害と高いデータ収集コストのために困難である。 近年,一台のカメラから周囲の環境を撮影できるため,球面画像が広く活用されている。 しかし、古典的な3D再構成パイプラインは球面画像には使用できない。 さらに、球面画像の3次元再構成のためのソフトウェアパッケージは少ない。 球面カメラの画像幾何学に基づいて,球面対応を用いた相対配向アルゴリズム,シーンと球面間の3次元対応を用いた絶対配向,BA(バンドル調整)最適化のためのコスト関数について検討した。 さらに,上述したアルゴリズムを用いて球面画像に対して,段階的なSfMワークフローが提案されている。 提案手法は,コンシューマグレードおよびプロの球面カメラで撮影された3つの球面データセットを用いて検証された。 その結果,提案するsfmワークフローは複雑なシーンの3次元再構成を成功させ,オープンソースソフトウェアパッケージの実装に有用な手掛かりを与えることができた。 設計したSfMワークフローのソースコードが公開されている。

3D reconstruction plays an increasingly important role in modern photogrammetric systems. Conventional satellite or aerial-based remote sensing (RS) platforms can provide the necessary data sources for the 3D reconstruction of large-scale landforms and cities. Even with low-altitude UAVs (Unmanned Aerial Vehicles), 3D reconstruction in complicated situations, such as urban canyons and indoor scenes, is challenging due to the frequent tracking failures between camera frames and high data collection costs. Recently, spherical images have been extensively exploited due to the capability of recording surrounding environments from one camera exposure. Classical 3D reconstruction pipelines, however, cannot be used for spherical images. Besides, there exist few software packages for 3D reconstruction of spherical images. Based on the imaging geometry of spherical cameras, this study investigates the algorithms for the relative orientation using spherical correspondences, absolute orientation using 3D correspondences between scene and spherical points, and the cost functions for BA (bundle adjustment) optimization. In addition, an incremental SfM (Structure from Motion) workflow has been proposed for spherical images using the above-mentioned algorithms. The proposed solution is finally verified by using three spherical datasets captured by both consumer-grade and professional spherical cameras. The results demonstrate that the proposed SfM workflow can achieve the successful 3D reconstruction of complex scenes and provide useful clues for the implementation in open-source software packages. The source code of the designed SfM workflow would be made publicly available.
翻訳日:2023-06-27 10:23:17 公開日:2023-06-24