このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230531となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# マルチモーダルデータによるマイクロサービスシステムのロバスト故障診断 Robust Failure Diagnosis of Microservice System through Multimodal Data ( http://arxiv.org/abs/2302.10512v2 ) ライセンス: Link先を確認 | Shenglin Zhang, Pengxiang Jin, Zihan Lin, Yongqian Sun, Bicheng Zhang, Sibo Xia, Zhengdan Li, Zhenyu Zhong, Minghua Ma, Wa Jin, Dai Zhang, Zhenyu Zhu, Dan Pei | (参考訳) 大規模なマイクロサービスシステムには,自動障害診断が不可欠だ。
現在、ほとんどの障害診断方法は単一のモーダルデータのみに依存している(メトリクス、ログ、トレースを使用する)。
本研究では,実世界の障害事例を用いて経験的研究を行い,これらのデータ(マルチモーダルデータ)の組み合わせがより正確な診断につながることを示す。
しかし、これらのデータを効果的に表現し、不均衡な障害に対処することは依然として困難である。
このような問題に対処するため,マルチモーダルデータを用いた堅牢な故障診断手法であるDiagFusionを提案する。
サービスインスタンスのマルチモーダルデータを表現するために組み込み技術とデータ拡張を利用し、デプロイデータとトレースを組み合わせて依存性グラフを構築し、グラフニューラルネットワークを使用して根本原因インスタンスをローカライズし、障害タイプを決定する。
実世界のデータセットを用いた評価では、DagFusionはルート原因インスタンスのローカライゼーション(20.9%から368%)と障害型判定(11.0%から169%)で既存手法よりも優れていた。 Automatic failure diagnosis is crucial for large microservice systems. Currently, most failure diagnosis methods rely solely on single-modal data (i.e., using either metrics, logs, or traces). In this study, we conduct an empirical study using real-world failure cases to show that combining these sources of data (multimodal data) leads to a more accurate diagnosis. However, effectively representing these data and addressing imbalanced failures remain challenging. To tackle these issues, we propose DiagFusion, a robust failure diagnosis approach that uses multimodal data. It leverages embedding techniques and data augmentation to represent the multimodal data of service instances, combines deployment data and traces to build a dependency graph, and uses a graph neural network to localize the root cause instance and determine the failure type. Our evaluations using real-world datasets show that DiagFusion outperforms existing methods in terms of root cause instance localization (improving by 20.9% to 368%) and failure type determination (improving by 11.0% to 169%). | 翻訳日:2023-10-24 13:17:16 公開日:2023-05-31 |
# SlipCover: Pythonのゼロに近いコードカバレッジ SlipCover: Near Zero-Overhead Code Coverage for Python ( http://arxiv.org/abs/2305.02886v4 ) ライセンス: Link先を確認 | Juan Altmayer Pizzorno and Emery D Berger | (参考訳) カバレッジ分析は広く使われているが、オーバーヘッドが高い。
このオーバーヘッドはPythonのコンテキストでは特に深刻で、すでに非常に遅くなっている(最近の研究では、ネイティブコードに対する約30倍のスローダウンが観察されている)。
python の最先端のカバレッジツールである coverage が .net に含まれていることが分かりました。
$pyは、標準のPythonインタープリタで180%の平均的なオーバーヘッドを導入する。
JITコンパイルされたPython実装であるPyPyを使用すると、スローダウンはさらに極端になる。
中央値のオーバーヘッドは1300%である。
このパフォーマンス劣化は、テストやファジィングを含むほとんどのユースケースでカバレッジ分析の有用性を低下させ、デプロイメントでの使用を妨げます。
本稿では、python用の新しい、ほぼゼロのオーバーヘッドカバレッジアナライザであるslipcoverを提案する。
SlipCoverはPythonインタプリタやPyPyに変更を加えることなく動作する。
プログラムのASTを処理して、すべてのブランチと行を正確に識別する。
SlipCoverはPythonバイトコードを動的に書き直して、指定されたブランチと行に軽量なインスツルメンテーションを追加する。
実行時、SlipCoverは定期的にラインとブランチを非インストラクトしていた。
その結果、オーバーヘッドが非常に低く(中央値5%)、SlipCoverはデプロイメントでの使用に適している。
その効率性は、カバレッジベースのクライアントのスピードを大幅に向上させることができる。
概念実証として、SlipCoverを対象とするプロパティベースのテストシステムTPBTに統合し、22倍のスピードアップを観測する。 Coverage analysis is widely used but can suffer from high overhead. This overhead is especially acute in the context of Python, which is already notoriously slow (a recent study observes a roughly 30x slowdown vs. native code). We find that the state-of-the-art coverage tool for Python, coverage$.$py, introduces a median overhead of 180% with the standard Python interpreter. Slowdowns are even more extreme when using PyPy, a JIT-compiled Python implementation, with coverage$.$py imposing a median overhead of 1,300%. This performance degradation reduces the utility of coverage analysis in most use cases, including testing and fuzzing, and precludes its use in deployment. This paper presents SlipCover, a novel, near-zero overhead coverage analyzer for Python. SlipCover works without modifications to either the Python interpreter or PyPy. It first processes a program's AST to accurately identify all branches and lines. SlipCover then dynamically rewrites Python bytecodes to add lightweight instrumentation to each identified branch and line. At run time, SlipCover periodically de-instruments already-covered lines and branches. The result is extremely low overheads -- a median of just 5% -- making SlipCover suitable for use in deployment. We show its efficiency can translate to significant increases in the speed of coverage-based clients. As a proof of concept, we integrate SlipCover into TPBT, a targeted property-based testing system, and observe a 22x speedup. | 翻訳日:2023-10-24 12:13:42 公開日:2023-05-31 |
# クラウドインシデントのための大規模言語モデルによる実用根本原因解析の強化 Empowering Practical Root Cause Analysis by Large Language Models for Cloud Incidents ( http://arxiv.org/abs/2305.15778v3 ) ライセンス: Link先を確認 | Yinfang Chen, Huaibing Xie, Minghua Ma, Yu Kang, Xin Gao, Liu Shi, Yunjie Cao, Xuedong Gao, Hao Fan, Ming Wen, Jun Zeng, Supriyo Ghosh, Xuchao Zhang, Chaoyun Zhang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang | (参考訳) クラウドサービスの信頼性と可用性を確保するには、クラウドインシデントに対する効率的な根本原因分析(RCA)が必要である。
ログやトレースなどのデータソースを手動で調査する従来のRCAメソッドは、しばしば手間がかかり、エラーが発生し、オンコールエンジニアにとって難しい。
本稿では,クラウドインシデントのRCAを自動化するための大規模言語モデルによる革新的なオンコールシステムであるRCACopilotを紹介する。
rcacopilotは、受信したインシデントをアラートタイプに基づいて対応するハンドラにマッチさせ、重要なランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
企業XのServiceXから1年分のインシデントからなる実世界のデータセットを用いてRCACopilotを評価する。
評価の結果,RCACopilotの精度は0.766。
さらに、RCACopilotの診断情報収集コンポーネントは、CountXで4年以上にわたって使用されてきた。 Ensuring the reliability and availability of cloud services necessitates efficient root cause analysis (RCA) for cloud incidents. Traditional RCA methods, which rely on manual investigations of data sources such as logs and traces, are often laborious, error-prone, and challenging for on-call engineers. In this paper, we introduce RCACopilot, an innovative On-call system empowered by the Large Language Model for automating RCA of cloud incidents. RCACopilot matches incoming incidents to corresponding handlers based on their alert types, aggregates the critical runtime diagnostic information, predicts the incident's root cause category, and provides an explanatory narrative. We evaluate RCACopilot using a real-world dataset consisting of a year's worth of incidents from serviceX in companyX. Our evaluation demonstrates that RCACopilot achieves RCA accuracy up to 0.766. Furthermore, the diagnostic information collection component of RCACopilot has been successfully in use at companyX for over four years. | 翻訳日:2023-10-24 05:47:48 公開日:2023-05-31 |
# コードを信頼する - Rustエコシステムの開発者のためのソーシャルネットワークベースの集中度評価 Trusting code in the wild: A social network-based centrality rating for developers in the Rust ecosystem ( http://arxiv.org/abs/2306.00240v1 ) ライセンス: Link先を確認 | Nasif Imtiaz, Preya Shabrina, Laurie Williams | (参考訳) modern softwareが広くオープンソースパッケージを使用しているため、開発者は頻繁なアップデートを通じて、定期的に新しいアップストリームコードをプルする。
上流のすべての変更を手動でレビューすることは現実的ではないかもしれないが、開発者は、新しいコードに必要なレビューのレベルを決定するために、著者とレビュアのアイデンティティに依存するかもしれない。
この研究の目的は、下流のプロジェクト開発者が上流のコードに対するレビュー作業の優先順位付けを支援することであり、そのコードの著者とレビュアーにソーシャルネットワークベースの集中度評価を提供することである。
そのために,1,644のRustパッケージからコラボレーション活動を通じて,6,949人の開発者によるソーシャルネットワークを構築しました。
さらに,より集中度の高い開発者からのコードが,下流プロジェクトのより少ない精査で受け入れられる可能性が高いかどうかを評価するために,ネットワーク内の開発者を調査した。
その結果、調査対象のパッケージの開発者の97.7\%はコラボレーションを通じて相互接続されており、各開発者はネットワーク内の他の4人の開発者から分離していることがわかった。
Rustパッケージの異なる開発者間の相互接続は、エコシステムの中心的な開発者を特定する基盤を確立します。
私たちの調査回答(N=206$)は、上流の変更(60.2\%)をレビューする方法を決定する上で、回答者が開発者を区別しない傾向にあることを示している。
しかし、差別化が進んだ場合、我々の統計分析では、開発者の集中度評価と、ダウンストリームプロジェクトと直面するコードの精査レベルとの間に有意な相関が見られた。 As modern software extensively uses open source packages, developers regularly pull in new upstream code through frequent updates. While a manual review of all upstream changes may not be practical, developers may rely on the authors' and reviewers' identities, among other factors, to decide what level of review the new code may require. The goal of this study is to help downstream project developers prioritize review efforts for upstream code by providing a social network-based centrality rating for the authors and reviewers of that code. To that end, we build a social network of 6,949 developers across the collaboration activity from 1,644 Rust packages. Further, we survey the developers in the network to evaluate if code coming from a developer with a higher centrality rating is likely to be accepted with lesser scrutiny by the downstream projects and, therefore, is perceived to be more trusted. Our results show that 97.7\% of the developers from the studied packages are interconnected via collaboration, with each developer separated from another via only four other developers in the network. The interconnection among developers from different Rust packages establishes the ground for identifying the central developers in the ecosystem. Our survey responses ($N=206$) show that the respondents are more likely to not differentiate between developers in deciding how to review upstream changes (60.2\% of the time). However, when they do differentiate, our statistical analysis showed a significant correlation between developers' centrality ratings and the level of scrutiny their code might face from the downstream projects, as indicated by the respondents. | 翻訳日:2023-10-24 04:57:14 公開日:2023-05-31 |
# システム工学から見たIT-OT統合 IT-OT Integration from a Systems Engineering Perspective ( http://arxiv.org/abs/2305.19735v1 ) ライセンス: Link先を確認 | Georg Sch\"afer, Hannes Waclawek, Christoph Binder, Stefan Huber and Arndt L\"uder | (参考訳) 4つの重要な産業 4.0設計原則 情報透明性、技術支援、相互接続、分散決定は、産業システムに新しい要求をもたらす。
これらの要件は、生産施設のオフィスフロアレベルで普及する情報技術(IT)ソリューションと、店舗フロアで見られる運用技術(OT)ソリューションを統合するという課題をもたらすことが多い。
しかし、ITとOTの世界の異なる特性のため、しばしばシステム要件に矛盾するさまざまな利害関係者のニーズをまとめることが必要であり、それによってシステム全体の複雑さが増大します。
参照アーキテクチャモデル industrie 4.0 (rami4.0) は、産業 4.0 生産システムの設計上の課題に対処するために提案されているが、産業システムアーキテクチャの開発はこの3次元モデルで強く奨励されているが、実際のプロジェクトに適用することは困難である。
そこで本研究では,RAMI4.0の実用化とともに,モデルベースシステム工学(MBSE)を実証する。
it と ot システムの複雑さは,システムの機能を抽象化することで軽減され,双方の要件の理解と満足が容易になっている。
システムアーキテクチャ開発フェーズにおけるドメイン固有モデルの相互接続を実証し、ITとOTソリューションを統合する際のシステム複雑性を低減する。
本研究は,地理的に分散したロボットセルを用いて,Nine Men's Morrisをプレイするゲームシナリオを用いて評価した。 The four essential Industry 4.0 design principles information transparency, technical assistance, interconnection and decentralized decisions introduce new requirements to industrial systems. These requirements often bring the challenge of integrating information technology (IT) solutions, which are prevalent on the office floor level of a production facility and operational technology (OT) solutions, which are found on its shop floor. Due to the different characteristics of the worlds of IT and OT, however, this requires bringing together the needs of different stakeholders with often contradicting system requirements, which leads to increased overall system complexity. The Reference Architecture Model Industrie 4.0 (RAMI4.0) has been proposed to address challenges for the design of Industry 4.0 production systems, however, while developing industrial system architectures is strongly encouraged with this three-dimensional model, it is known to be difficult to apply to actual projects. Thus, in this work, we demonstrate Model-based Systems Engineering (MBSE) along with a practical application of RAMI4.0. Both, IT and OT system complexity, are being reduced by abstracting system functionality, thus making it easier to understand and meet requirements for both sides. We demonstrate the interconnection of domain-specific models during the system architecture development phase, thus reducing system complexity when integrating IT and OT solutions. Our result is evaluated with the gamified scenario of playing the game of Nine Men's Morris using geographically distributed robot cells. | 翻訳日:2023-10-24 04:55:08 公開日:2023-05-31 |
# インターリーブ比較の効率に関する理論的解析 Theoretical Analysis on the Efficiency of Interleaved Comparisons ( http://arxiv.org/abs/2306.10023v1 ) ライセンス: Link先を確認 | Kojiro Iizuka, Hajime Morita, Makoto P. Kato | (参考訳) 本研究では,ランキングのオンライン評価手法であるインターリーブの効率に関する理論的分析を行った。
インターリーブはすでに生産システムに適用されているが、その高い効率の源は文献に明かされていない。
そこで本研究では,インターリーブ手法の効率に関する理論的解析を行う。
まず,従来のインターリーブ法と同様の簡単なインターリーブ法を設計する。
次に,a/bテストよりもインターリーブ手法が効率的である条件を検討し,クリックモデルにおける典型的な仮定であるアイテムの関連度に応じてユーザがランキングを離れる場合がこれであることを示す。
最後に,数値解析とユーザシミュレーションに基づく実験を行い,理論的結果が実験結果と一致していることを示す。 This study presents a theoretical analysis on the efficiency of interleaving, an efficient online evaluation method for rankings. Although interleaving has already been applied to production systems, the source of its high efficiency has not been clarified in the literature. Therefore, this study presents a theoretical analysis on the efficiency of interleaving methods. We begin by designing a simple interleaving method similar to ordinary interleaving methods. Then, we explore a condition under which the interleaving method is more efficient than A/B testing and find that this is the case when users leave the ranking depending on the item's relevance, a typical assumption made in click models. Finally, we perform experiments based on numerical analysis and user simulation, demonstrating that the theoretical results are consistent with the empirical results. | 翻訳日:2023-07-02 13:53:38 公開日:2023-05-31 |
# BN-DRISHTI:手書きテキスト画像のインスタンスレベルのセグメンテーションによる文書認識 BN-DRISHTI: Bangla Document Recognition through Instance-level Segmentation of Handwritten Text Images ( http://arxiv.org/abs/2306.09351v1 ) ライセンス: Link先を確認 | Sheikh Mohammad Jubaer, Nazifa Tabassum, Md. Ataur Rahman, Mohammad Khairul Islam | (参考訳) 書き起こし認識は、行や単語のセグメンテーションの複雑さが、書き起こしの性質と品質データセットの欠如によってもたらされるため、Banglaのような最も話されている言語では依然として難しい。
本稿では,deep learning-based object detection framework(yolo)とhoughとアフィン変換を組み合わせたスキュー補正のための最先端法(bn-drishti)を導入することで,セグメンテーション問題を解決する。
しかし、ディープラーニングモデルのトレーニングには膨大なデータが必要です。
そこで本研究では,全ページ手書きバングラ文書画像786,セグメンテーション用行・単語レベルアノテーション,単語認識用基底真理を含むbn-htrdデータセットの拡張版を提案する。
データセットのテスト部分の評価の結果、f-scoreはラインで99.97%、ワードセグメンテーションで98%であった。
比較分析では,Bangla Writing, WBSUBNdb_text, ICDAR 2013という3つの外部データを用いた。 Handwriting recognition remains challenging for some of the most spoken languages, like Bangla, due to the complexity of line and word segmentation brought by the curvilinear nature of writing and lack of quality datasets. This paper solves the segmentation problem by introducing a state-of-the-art method (BN-DRISHTI) that combines a deep learning-based object detection framework (YOLO) with Hough and Affine transformation for skew correction. However, training deep learning models requires a massive amount of data. Thus, we also present an extended version of the BN-HTRd dataset comprising 786 full-page handwritten Bangla document images, line and word-level annotation for segmentation, and corresponding ground truths for word recognition. Evaluation on the test portion of our dataset resulted in an F-score of 99.97% for line and 98% for word segmentation. For comparative analysis, we used three external Bangla handwritten datasets, namely BanglaWriting, WBSUBNdb_text, and ICDAR 2013, where our system outperformed by a significant margin, further justifying the performance of our approach on completely unseen samples. | 翻訳日:2023-06-26 01:52:56 公開日:2023-05-31 |
# 量子機械学習による金融予測の改善 Improved Financial Forecasting via Quantum Machine Learning ( http://arxiv.org/abs/2306.12965v1 ) ライセンス: Link先を確認 | Sohum Thakkar (1), Skander Kazdaghli (1), Natansh Mathur (1 and 2), Iordanis Kerenidis (1 and 2), Andr\'e J. Ferreira-Martins (3), Samurai Brito (3) ((1) QC Ware Corp, (2) IRIF - Universit\'e Paris Cit\'e and CNRS, (3) Ita\'u Unibanco) | (参考訳) 量子アルゴリズムは、さまざまなドメインやアプリケーションにわたる機械学習を強化する可能性がある。
本研究では,量子機械学習を用いて金融予測を改善する方法を示す。
まず,古典的および量子的決定項過程を用いてチャーン予測のためのランダムフォレストモデルを拡張し,精度を約6%向上させた。
第2に,信用リスク評価のために,直交層と複合層を備えた量子ニューラルネットワークアーキテクチャを設計する。
我々の結果は、量子アイデアを活用することで、量子にインスパイアされた古典的MLソリューションとして、そして将来的には、よりよい量子ハードウェアの出現とともに、機械学習の性能を効果的に向上させることができることを示した。 Quantum algorithms have the potential to enhance machine learning across a variety of domains and applications. In this work, we show how quantum machine learning can be used to improve financial forecasting. First, we use classical and quantum Determinantal Point Processes to enhance Random Forest models for churn prediction, improving precision by almost 6%. Second, we design quantum neural network architectures with orthogonal and compound layers for credit risk assessment, which match classical performance with significantly fewer parameters. Our results demonstrate that leveraging quantum ideas can effectively enhance the performance of machine learning, both today as quantum-inspired classical ML solutions, and even more in the future, with the advent of better quantum hardware. | 翻訳日:2023-06-26 01:11:32 公開日:2023-05-31 |
# リモートセンシング画像シーンのゼロショット分類に向けたコントラスト学習によるマルチレベルクロスモーダル特徴アライメント Multi-level Cross-modal Feature Alignment via Contrastive Learning towards Zero-shot Classification of Remote Sensing Image Scenes ( http://arxiv.org/abs/2306.06066v1 ) ライセンス: Link先を確認 | Chun Liu, Suqiang Ma, Zheng Li, Wei Yang and Zhigang Han | (参考訳) トレーニング段階では見えない画像シーンを認識できる画像シーンのゼロショット分類は、多数のラベル付きサンプルへの依存を低下させる大きな可能性を秘めている。
ゼロショット画像シーン分類に対処するため,近年,クロスモーダルな特徴アライメント手法が提案されている。
これらの手法は主に、潜在空間における各画像シーンの視覚的特徴と対応する意味記述子とのマッチングに焦点を当てている。
異なる画像シーンと異なる意味記述子間の対比関係にはあまり注意が払われていない。
画像シーンと潜在的ノイズサンプル間のクラス間の大きな差異とクラス間類似性の課題を踏まえ、これらの手法は、同じクラスのクラスから遠く、他のクラスのクラスに近いインスタンスの影響を受けやすい。
本研究では,リモートセンシング画像シーンのゼロショット分類のためのコントラスト学習によるマルチレベルクロスモーダル特徴アライメント手法を提案する。
提案手法は,各画像シーンと対応するセマンティック記述子との単一インスタンスレベルの正のアライメントを促進する一方で,クロスインスタンスのコントラスト関係を考慮に入れ,各クラスにおける視覚的特徴と意味的特徴を相互に区別することを学ぶ。
提案手法の性能評価のために, 大規模な実験を行った。
その結果,提案手法は,ゼロショットリモートセンシング画像シーン分類における技術手法の状況よりも優れていた。
すべてのコードとデータはgithub https://github.com/masuqiang/MCFA-Pytorchで入手できる。 Zero-shot classification of image scenes which can recognize the image scenes that are not seen in the training stage holds great promise of lowering the dependence on large numbers of labeled samples. To address the zero-shot image scene classification, the cross-modal feature alignment methods have been proposed in recent years. These methods mainly focus on matching the visual features of each image scene with their corresponding semantic descriptors in the latent space. Less attention has been paid to the contrastive relationships between different image scenes and different semantic descriptors. In light of the challenge of large intra-class difference and inter-class similarity among image scenes and the potential noisy samples, these methods are susceptible to the influence of the instances which are far from these of the same classes and close to these of other classes. In this work, we propose a multi-level cross-modal feature alignment method via contrastive learning for zero-shot classification of remote sensing image scenes. While promoting the single-instance level positive alignment between each image scene with their corresponding semantic descriptors, the proposed method takes the cross-instance contrastive relationships into consideration,and learns to keep the visual and semantic features of different classes in the latent space apart from each other. Extensive experiments have been done to evaluate the performance of the proposed method. The results show that our proposed method outperforms state of the art methods for zero-shot remote sensing image scene classification. All the code and data are available at github https://github.com/masuqiang/MCFA-Pytorch | 翻訳日:2023-06-18 13:12:22 公開日:2023-05-31 |
# ガイドプロジェクタによる自己教師付き学習の強化 Augmentation-aware Self-supervised Learning with Guided Projector ( http://arxiv.org/abs/2306.06082v1 ) ライセンス: Link先を確認 | Marcin Przewi\k{e}\'zlikowski, Mateusz Pyla, Bartosz Zieli\'nski, Bart{\l}omiej Twardowski, Jacek Tabor, Marek \'Smieja | (参考訳) 自己教師付き学習(SSL)は、ラベルのないデータから堅牢な表現を学ぶための強力な技術である。
適用データ拡張に不変であることを学ぶことで、SimCLRやMoCoのようなメソッドは、教師付きアプローチと同等の品質に達することができる。
しかしながら、この不変性は、色などの事前トレーニング中に使用される拡張によって影響を受ける特性に依存する下流タスクの解決に有害である可能性がある。
本稿では,自己教師付きアーキテクチャの共通コンポーネントであるプロジェクタネットワークを変更することにより,表現空間におけるその特性に対する感度を高めることを提案する。
具体的には、プロジェクタに画像に適用される拡張に関する情報を補足する。
SSLタスクを解く際に、プロジェクタがこの補助的なガイダンスを利用するために、特徴抽出器は、その表現中の拡張情報を保存することを学習する。
提案手法は条件付き拡張型自己教師付き学習 (cassle) と呼ばれ, 目的関数によらず, 通常のジョイントエンベディングssl法に直接適用できる。
さらに、ネットワークアーキテクチャやダウンストリームタスクの事前知識に大きな変更は必要ありません。
異なるデータ拡張に対する感度の解析に加えて,CASSLEはさまざまなSSLメソッドよりも改善され,複数のダウンストリームタスクで最先端のパフォーマンスに達することを示す一連の実験を行っている。 Self-supervised learning (SSL) is a powerful technique for learning robust representations from unlabeled data. By learning to remain invariant to applied data augmentations, methods such as SimCLR and MoCo are able to reach quality on par with supervised approaches. However, this invariance may be harmful to solving some downstream tasks which depend on traits affected by augmentations used during pretraining, such as color. In this paper, we propose to foster sensitivity to such characteristics in the representation space by modifying the projector network, a common component of self-supervised architectures. Specifically, we supplement the projector with information about augmentations applied to images. In order for the projector to take advantage of this auxiliary guidance when solving the SSL task, the feature extractor learns to preserve the augmentation information in its representations. Our approach, coined Conditional Augmentation-aware Selfsupervised Learning (CASSLE), is directly applicable to typical joint-embedding SSL methods regardless of their objective functions. Moreover, it does not require major changes in the network architecture or prior knowledge of downstream tasks. In addition to an analysis of sensitivity towards different data augmentations, we conduct a series of experiments, which show that CASSLE improves over various SSL methods, reaching state-of-the-art performance in multiple downstream tasks. | 翻訳日:2023-06-18 13:02:09 公開日:2023-05-31 |
# 画像処理によるトマト葉の遅発病の検出 Detection of Late Blight Disease in Tomato Leaf Using Image Processing Techniques ( http://arxiv.org/abs/2306.06080v1 ) ライセンス: Link先を確認 | Muhammad Shoaib Farooq, Tabir Arif, Shamyla Riaz | (参考訳) =最もよく栽培される作物の1つはトマトである。
ラトブライトは世界で最も一般的なトマト病であり、しばしばトマトの生産量を大幅に減少させる。
農作物としてのトマトの重要性は、遅芽の早期発見を必要とする。
真菌Phytophthoraによって生産される。
トマトの遅芽の初期の兆候は不均一に形成されており、植物園の若い葉の葉に水に浸された病変は、影響された葉の下面に明らかな湿潤な環境に現れる可能性がある。
病変は病気が進行するにつれて増大し、葉は茶色くなり、収縮して死ぬ。
画像セグメンテーションとマルチクラスSVM技術を用いて、この研究で遅発性障害が発見される。
葉の損傷部位の分離には画像セグメンテーションを用い, 信頼性の高い疾患分類にはマルチクラスSVM法を用いる。
合計2770の認定論文から30の研究が選ばれた。
本研究の主な目的は、最新の研究動向、課題、遅発光検出の展望を識別する最先端の研究をまとめることである。
また、夜明けの診断と検出に画像処理を適用する現在のアプローチにも目を向けている。
遅発性検出のための分類法も提案されている。
同様に、問題に対する解決策の開発のためのモデルも提示されている。
最後に,画像処理の今後の方向性について,オープンな課題として研究ギャップが提示されている。 =One of the most frequently farmed crops is the tomato crop. Late blight is the most prevalent tomato disease in the world, and often causes a significant reduction in the production of tomato crops. The importance of tomatoes as an agricultural product necessitates early detection of late blight. It is produced by the fungus Phytophthora. The earliest signs of late blight on tomatoes are unevenly formed, water-soaked lesions on the leaves located on the plant canopy's younger leave White cottony growth may appear in humid environments evident on the undersides of the leaves that have been impacted. Lesions increase as the disease proceeds, turning the leaves brown to shrivel up and die. Using picture segmentation and the Multi-class SVM technique, late blight disorder is discovered in this work. Image segmentation is employed for separating damaged areas on leaves, and the Multi-class SVM method is used for reliable disease categorization. 30 reputable studies were chosen from a total of 2770 recognized papers. The primary goal of this study is to compile cutting-edge research that identifies current research trends, problems, and prospects for late blight detection. It also looks at current approaches for applying image processing to diagnose and detect late blight. A suggested taxonomy for late blight detection has also been provided. In the same way, a model for the development of the solutions to problems is also presented. Finally, the research gaps have been presented in terms of open issues for the provision of future directions in image processing for the researchers. | 翻訳日:2023-06-18 13:01:49 公開日:2023-05-31 |
# Sentinel-1,Sentinel-2,Landsat-9画像の融合による効率的な政策設計のための洪水マッピングの改善 Improved flood mapping for efficient policy design by fusion of Sentinel-1, Sentinel-2, and Landsat-9 imagery to identify population and infrastructure exposed to floods ( http://arxiv.org/abs/2306.06074v1 ) ライセンス: Link先を確認 | Usman Nazir, Muhammad Ahmad Waseem, Falak Sher Khan, Rabia Saeed, Syed Muhammad Hasan, Momin Uppal, Zubair Khalid | (参考訳) 洪水水の拡散を推定するための信頼性の高い安価で安価なツールは,災害管理の効率化に寄与する。
タンデムにおける光学およびSAR画像の応用は、洪水マッピングの可用性と信頼性を高める手段を提供する。
2022年にパキスタンで発生した洪水に対して,これらの2種類の画像を共通データ空間に融合させる手法を提案し,影響を受けた人口とインフラの同定における利用を実証する。
光とSARデータの融合により、雲の激しい地域での観測が改善され、洪水マッピングアプリケーションに関するさらなる洞察を得るために使用される。
人口と道路にそれぞれworldpopとosmのオープンソースデータセットを使用することで、このエクササイズはグローバルに複製できる。
洪水マップと人口とインフラの空間データの統合は、情報的な政策設計を促進する。
パキスタンのシンド州の洪水被害地域のトップ5のうち、影響を受けた人口は31%であり、影響を受ける道路の長さは総面積7537.96kmのうち1410.25kmである。 A reliable yet inexpensive tool for the estimation of flood water spread is conducive for efficient disaster management. The application of optical and SAR imagery in tandem provides a means of extended availability and enhanced reliability of flood mapping. We propose a methodology to merge these two types of imagery into a common data space and demonstrate its use in the identification of affected populations and infrastructure for the 2022 floods in Pakistan. The merging of optical and SAR data provides us with improved observations in cloud-prone regions; that is then used to gain additional insights into flood mapping applications. The use of open source datasets from WorldPop and OSM for population and roads respectively makes the exercise globally replicable. The integration of flood maps with spatial data on population and infrastructure facilitates informed policy design. We have shown that within the top five flood-affected districts in Sindh province, Pakistan, the affected population accounts for 31 %, while the length of affected roads measures 1410.25 km out of a total of 7537.96 km. | 翻訳日:2023-06-18 13:00:21 公開日:2023-05-31 |
# 効率的な木被覆推定のためのセンチネル2多スペクトル画像の特徴選択 Feature Selection on Sentinel-2 Multi-spectral Imagery for Efficient Tree Cover Estimation ( http://arxiv.org/abs/2306.06073v1 ) ライセンス: Link先を確認 | Usman Nazir, Momin Uppal, Muhammad Tahir, Zubair Khalid | (参考訳) 本稿では,都市部の樹冠推定に適した特徴選択とマスキングを備えた多スペクトルランダム林分類器を提案する。
提案する分類器の重要な特徴は,スペクトル指標を用いて組み上げ領域をフィルタリングし,残りのマスク上のランダムフォレスト分類を注意深く選択した。
Sentinel-2衛星画像を用いて,Lahore University of Management Sciences (LUMS) の特定領域 (約82エーカー) における提案手法の性能評価を行い,本手法が欧州宇宙機関 (ESA) WorldCover 10m 2020 製品やDeepLabv3 ディープラーニングアーキテクチャなどの最先端技術と同様に,従来のランダム森林分類器よりも優れていることを示す。 This paper proposes a multi-spectral random forest classifier with suitable feature selection and masking for tree cover estimation in urban areas. The key feature of the proposed classifier is filtering out the built-up region using spectral indices followed by random forest classification on the remaining mask with carefully selected features. Using Sentinel-2 satellite imagery, we evaluate the performance of the proposed technique on a specified area (approximately 82 acres) of Lahore University of Management Sciences (LUMS) and demonstrate that our method outperforms a conventional random forest classifier as well as state-of-the-art methods such as European Space Agency (ESA) WorldCover 10m 2020 product as well as a DeepLabv3 deep learning architecture. | 翻訳日:2023-06-18 13:00:03 公開日:2023-05-31 |
# Gemtelligence: ディープラーニングによるGemstone分類の高速化 Gemtelligence: Accelerating Gemstone classification with Deep Learning ( http://arxiv.org/abs/2306.06069v1 ) ライセンス: Link先を確認 | Tommaso Bendinelli, Luca Biggio, Daniel Nyfeler, Abhigyan Ghosh, Peter Tollan, Moritz Alexander Kirschmann, Olga Fink | (参考訳) 高級品、特に投資適格の宝石の価値は、その起源と真偽に大きく影響され、時には数百万ドルの価値の違いをもたらす。
伝統的に、人間の専門家は、視覚検査と分析方法を通じて、宝石の原点を決定し、治療を検出してきた。
しかし、データの解釈は主観的で時間を要するため、矛盾が生じます。
本研究では,深層学習に基づく新しいアプローチであるgemtelligenceを提案する。
gemtelligenceは、複数の機器が収集した異種データ型を処理する畳み込みおよび注意に基づくニューラルネットワークである。
このアルゴリズムは、比較的安価な分析手法からの入力データを使用しながら、高コストレーザーアブレーション誘導結合プラズマ質量分析法(ICP-MS)分析と人間の視覚的検査に匹敵する予測性能を示した。
我々の革新的な方法論は、分析プロセスパイプライン全体の自動化と堅牢性を大幅に改善することで、宝石分析の分野における大きなブレークスルーを示している。 The value of luxury goods, particularly investment-grade gemstones, is greatly influenced by their origin and authenticity, sometimes resulting in differences worth millions of dollars. Traditionally, human experts have determined the origin and detected treatments on gemstones through visual inspections and a range of analytical methods. However, the interpretation of the data can be subjective and time-consuming, resulting in inconsistencies. In this study, we propose Gemtelligence, a novel approach based on deep learning that enables accurate and consistent origin determination and treatment detection. Gemtelligence comprises convolutional and attention-based neural networks that process heterogeneous data types collected by multiple instruments. Notably, the algorithm demonstrated comparable predictive performance to expensive laser-ablation inductively-coupled-plasma mass-spectrometry (ICP-MS) analysis and visual examination by human experts, despite using input data from relatively inexpensive analytical methods. Our innovative methodology represents a major breakthrough in the field of gemstone analysis by significantly improving the automation and robustness of the entire analytical process pipeline. | 翻訳日:2023-06-18 12:59:20 公開日:2023-05-31 |
# Gibbs-Duhem-Informed Neural Networks for Binary Activity Coefficient Prediction (特集:ニューラルネット) Gibbs-Duhem-Informed Neural Networks for Binary Activity Coefficient Prediction ( http://arxiv.org/abs/2306.07937v1 ) ライセンス: Link先を確認 | Jan G. Rittig, Kobi C. Felton, Alexei A. Lapkin, Alexander Mitsos | (参考訳) 本稿では,Gibs-Duhem-informed Neural Network を用いて,様々な組成における二成分活性係数の予測を行う。
つまり、gibbs-duhem方程式はニューラルネットワークのトレーニングのための損失関数に明示的に含まれている。
最近のハイブリッドMLアプローチとは対照的に、我々のアプローチはニューラルネットワークに特定の熱力学モデルとそれに対応する予測限界を埋め込むことに頼らない。
むしろ、gibbs-duhem一貫性は正規化として機能し、mlモデルの柔軟性が維持される。
Gibbs-Duhem-informed graph neural network and matrix completion method を用いて,活動係数予測における熱力学的一貫性と一般化能力の向上を示した。
また,モデルアーキテクチャ,特にアクティベーション関数は,予測品質に強い影響を与える可能性がある。
このアプローチは、他の熱力学的整合性条件を考慮して容易に拡張できる。 We propose Gibbs-Duhem-informed neural networks for the prediction of binary activity coefficients at varying compositions. That is, we include the Gibbs-Duhem equation explicitly in the loss function for training neural networks, which is straightforward in standard machine learning (ML) frameworks enabling automatic differentiation. In contrast to recent hybrid ML approaches, our approach does not rely on embedding a specific thermodynamic model inside the neural network and corresponding prediction limitations. Rather, Gibbs-Duhem consistency serves as regularization, with the flexibility of ML models being preserved. Our results show increased thermodynamic consistency and generalization capabilities for activity coefficient predictions by Gibbs-Duhem-informed graph neural networks and matrix completion methods. We also find that the model architecture, particularly the activation function, can have a strong influence on the prediction quality. The approach can be easily extended to account for other thermodynamic consistency conditions. | 翻訳日:2023-06-18 12:32:08 公開日:2023-05-31 |
# ソースコードにおけるソフトウェアサプライチェーン脆弱性検出:従来の機械学習アルゴリズムと量子機械学習アルゴリズムの性能比較 Software Supply Chain Vulnerabilities Detection in Source Code: Performance Comparison between Traditional and Quantum Machine Learning Algorithms ( http://arxiv.org/abs/2306.08060v1 ) ライセンス: Link先を確認 | Mst Shapna Akter, Md Jobair Hossain Faruk, Nafisa Anjum, Mohammad Masum, Hossain Shahriar, Akond Rahman, Fan Wu, Alfredo Cuzzocrea | (参考訳) ソフトウェアサプライチェーン(SSC)攻撃は、ソフトウェア開発領域の進歩によって急速に増加している重要な問題の一つになっている。
一般的に、SSC攻撃はソフトウェア開発プロセス中に実行され、下流の顧客をターゲットにしたソフトウェア製品の脆弱性につながる。
機械学習アプローチは、ソフトウェアのセキュリティ脆弱性の検出と防止に有効である。
さらに、新興量子機械学習はSSC攻撃に対処する上で有望である。
従来の機械学習と量子機械学習の区別を考えると、実験データセットの比率によってパフォーマンスが変わる可能性がある。
本稿では,量子ニューラルネットワーク(QNN)と従来のニューラルネットワーク(NN)の比較分析を行い,ClaMPと呼ばれるソフトウェアサプライチェーン攻撃データセットを用いた。
我々の目標は、QNNとNNのパフォーマンスを区別し、実験を行うことであり、従来の量子にはPennylane、TensorFlowとKerasの2つの異なるモデルを開発することである。
クランプデータセットの比率が異なる両モデルの性能を評価し,f1スコア,リコール,精度,精度を同定した。
また、実行時間を測定し、両方のモデルの効率をチェックする。
その結果,QNNの実行時間は,データセットの割合が高いNNよりも遅いことがわかった。
近年のQNNの進歩により,今後の研究において,両モデルを正確に理解するための大規模な実験が実施される。 The software supply chain (SSC) attack has become one of the crucial issues that are being increased rapidly with the advancement of the software development domain. In general, SSC attacks execute during the software development processes lead to vulnerabilities in software products targeting downstream customers and even involved stakeholders. Machine Learning approaches are proven in detecting and preventing software security vulnerabilities. Besides, emerging quantum machine learning can be promising in addressing SSC attacks. Considering the distinction between traditional and quantum machine learning, performance could be varies based on the proportions of the experimenting dataset. In this paper, we conduct a comparative analysis between quantum neural networks (QNN) and conventional neural networks (NN) with a software supply chain attack dataset known as ClaMP. Our goal is to distinguish the performance between QNN and NN and to conduct the experiment, we develop two different models for QNN and NN by utilizing Pennylane for quantum and TensorFlow and Keras for traditional respectively. We evaluated the performance of both models with different proportions of the ClaMP dataset to identify the f1 score, recall, precision, and accuracy. We also measure the execution time to check the efficiency of both models. The demonstration result indicates that execution time for QNN is slower than NN with a higher percentage of datasets. Due to recent advancements in QNN, a large level of experiments shall be carried out to understand both models accurately in our future research. | 翻訳日:2023-06-18 12:10:05 公開日:2023-05-31 |
# RNNTデコードのための編集距離ベースRL Edit Distance based RL for RNNT decoding ( http://arxiv.org/abs/2306.01789v1 ) ライセンス: Link先を確認 | Dongseong Hwang, Changwan Ryu, Khe Chai Sim | (参考訳) RNN-Tは現在、様々なベンチマークテストにおける例外的なWERと、シームレスなストリーミングと長文の書き起こしをサポートする能力のために、ASRの業界標準と考えられている。
しかし、最大の欠点は、そのトレーニングと推論の目的が著しく異なることである。
訓練中、rnn-tは教師の強制によって全てのアライメント確率を最大化するが、推論では最大アライメントを見つけるとは限らないビーム探索を用いる。
さらに、RNN-Tが教師の強制訓練中にミスを経験できないことは、推論におけるミスの発生をより問題にする。
そこで本研究では,トレーニング時間と推論時間とのギャップを最小化する強化学習手法を提案する。
我々のEDRL(Edit Distance based RL)アプローチは、編集距離に基づいて報酬を計算し、各アクションレベルでネットワークを訓練する。
提案手法は600M Conformer RNN-TモデルのLibriSpeech上でSoTA WERを出力する。 RNN-T is currently considered the industry standard in ASR due to its exceptional WERs in various benchmark tests and its ability to support seamless streaming and longform transcription. However, its biggest drawback lies in the significant discrepancy between its training and inference objectives. During training, RNN-T maximizes all alignment probabilities by teacher forcing, while during inference, it uses beam search which may not necessarily find the maximum probable alignment. Additionally, RNN-T's inability to experience mistakes during teacher forcing training makes it more problematic when a mistake occurs in inference. To address this issue, this paper proposes a Reinforcement Learning method that minimizes the gap between training and inference time. Our Edit Distance based RL (EDRL) approach computes rewards based on the edit distance, and trains the network at every action level. The proposed approach yielded SoTA WERs on LibriSpeech for the 600M Conformer RNN-T model. | 翻訳日:2023-06-11 13:47:48 公開日:2023-05-31 |
# QoS Guaranteesによる電力制御: 異なる射影に基づく教師なし学習フレームワーク Power Control with QoS Guarantees: A Differentiable Projection-based Unsupervised Learning Framework ( http://arxiv.org/abs/2306.01787v1 ) ライセンス: Link先を確認 | Mehrazin Alizadeh and Hina Tabassum | (参考訳) NPハード無線リソース割り当て問題を解決する潜在的なソリューションとして、ディープニューラルネットワーク(DNN)が登場している。
しかし、ユーザのQoS(Quality-of-Service)制約のような複雑な制約が存在する場合には、制約満足度を保証することが根本的な課題となる。
本稿では,ユーザの最小データレートやQoS要件,電力予算制約の下でネットワークの総和を最大化することを目的とした,マルチユーザ干渉チャネルにおける古典的電力制御問題を解決するための,教師なし学習フレームワークを提案する。
微分可能射影関数を用いることで、2つの新しいディープラーニング(DL)ソリューションが追求される。
1つはDeep Implicit Projection Network(DIPNet)、2つ目はDeep Explicit Projection Network(DEPNet)と呼ばれる。
dipnetは微分可能な凸最適化層を使用して、暗黙的に投影関数を定義する。
一方、DEPNetは、反復性を持ち、微分可能な補正プロセスに依存する、明示的に定義された射影関数を使用する。
ディプネットは凸制約を必要とするが、デプネットは凸性を必要としず、計算の複雑さが減少する。
さらに,提案モデルの総和性能を向上させるため,提案モデルの出力にフランク・ウルフアルゴリズム(FW)を適用した。
大規模なシミュレーションでは、提案したDNNソリューションは達成可能なデータレートを改善するだけでなく、既存のDNNと比較して制約違反の確率をゼロにする。
提案手法は,計算時間の複雑さの観点から,従来の最適化手法を上回っている。 Deep neural networks (DNNs) are emerging as a potential solution to solve NP-hard wireless resource allocation problems. However, in the presence of intricate constraints, e.g., users' quality-of-service (QoS) constraints, guaranteeing constraint satisfaction becomes a fundamental challenge. In this paper, we propose a novel unsupervised learning framework to solve the classical power control problem in a multi-user interference channel, where the objective is to maximize the network sumrate under users' minimum data rate or QoS requirements and power budget constraints. Utilizing a differentiable projection function, two novel deep learning (DL) solutions are pursued. The first is called Deep Implicit Projection Network (DIPNet), and the second is called Deep Explicit Projection Network (DEPNet). DIPNet utilizes a differentiable convex optimization layer to implicitly define a projection function. On the other hand, DEPNet uses an explicitly-defined projection function, which has an iterative nature and relies on a differentiable correction process. DIPNet requires convex constraints; whereas, the DEPNet does not require convexity and has a reduced computational complexity. To enhance the sum-rate performance of the proposed models even further, Frank-Wolfe algorithm (FW) has been applied to the output of the proposed models. Extensive simulations depict that the proposed DNN solutions not only improve the achievable data rate but also achieve zero constraint violation probability, compared to the existing DNNs. The proposed solutions outperform the classic optimization methods in terms of computation time complexity. | 翻訳日:2023-06-11 13:47:32 公開日:2023-05-31 |
# 法執行機関によるai利用の安全対策に関する市民の視点 Citizen Perspectives on Necessary Safeguards to the Use of AI by Law Enforcement Agencies ( http://arxiv.org/abs/2306.01786v1 ) ライセンス: Link先を確認 | Yasmine Ezzeddine, Petra Saskia Bayerl and Helen Gibson | (参考訳) 現代の技術進歩に照らして、人工知能(AI)は性能の向上、効率の向上、利得の最大化に頼っている。
法執行機関(LEA)にとって、証拠分析の最適化や予防対策の確立に有用である。
それでも市民は、プライバシー侵害、偏見、不平等、不正確な決定に関する正当な懸念を提起する。
本研究では、インタビューを通じて111人の市民のAI使用に対する見解を調査し、サイバー犯罪やテロリズムの文脈におけるLEAによるAI使用のネガティブな影響からの保護の提案と社会的懸念を統合する。 In the light of modern technological advances, Artificial Intelligence (AI) is relied upon to enhance performance, increase efficiency, and maximize gains. For Law Enforcement Agencies (LEAs), it can prove valuable in optimizing evidence analysis and establishing proactive prevention measures. Nevertheless, citizens raise legitimate concerns around privacy invasions, biases, inequalities, and inaccurate decisions. This study explores the views of 111 citizens towards AI use by police through interviews, and integrates societal concerns along with propositions of safeguards from negative effects of AI use by LEAs in the context of cybercrime and terrorism. | 翻訳日:2023-06-11 13:47:07 公開日:2023-05-31 |
# beyond rankings: 有機クリックスルー率に対するserp機能の影響を探る Beyond Rankings: Exploring the Impact of SERP Features on Organic Click-through Rates ( http://arxiv.org/abs/2306.01785v1 ) ライセンス: Link先を確認 | Erik Fubel and Niclas Michael Groll and Patrick Gundlach and Qiwei Han and Maximilian Kaiser | (参考訳) 検索エンジンの結果ページ (SERP) は、インターネットの広範囲へのデジタルゲートウェイとして機能する。
過去数十年、クリックスルー率(CTR)を決定するためにウェブサイトランキングの影響を中心に研究が急増しているのを目撃してきた。
SERPの特徴は、知識パネル、メディアギャラリー、FAQなどの要素を包含するものであり、これらの結果ページの顕著な側面として現れています。
本研究は,これらの特徴の重要な役割を解明し,単に美的要素であるだけでなく,CTRとインターネット利用者の行動に強く影響していることを明らかにする。
これらの機能がどのようにWebトラフィックを著しく変調するかを示します。
67,000のキーワードとそれぞれのGoogle SERPのユニークなデータセットを活用し、40以上の米国ベースのeコマースドメインにまたがる複雑なインタラクション効果を識別し、2400万ビューから600万クリック以上を生成します。
このクロスサイトデータセットは、前例のない範囲で、24種類のSERP特徴が有機CTRに与える影響を評価することができる。
ctrをモデル化するアブレーション研究を通じて、これらの機能が持つ漸進的な予測能力を示す。 Search Engine Result Pages (SERPs) serve as the digital gateways to the vast expanse of the internet. Past decades have witnessed a surge in research primarily centered on the influence of website ranking on these pages, to determine the click-through rate (CTR). However, during this period, the landscape of SERPs has undergone a dramatic evolution: SERP features, encompassing elements such as knowledge panels, media galleries, FAQs, and more, have emerged as an increasingly prominent facet of these result pages. Our study examines the crucial role of these features, revealing them to be not merely aesthetic components, but strongly influence CTR and the associated behavior of internet users. We demonstrate how these features can significantly modulate web traffic, either amplifying or attenuating it. We dissect these intricate interaction effects leveraging a unique dataset of 67,000 keywords and their respective Google SERPs, spanning over 40 distinct US-based e-commerce domains, generating over 6 million clicks from 24 million views. This cross-website dataset, unprecedented in its scope, enables us to assess the impact of 24 different SERP features on organic CTR. Through an ablation study modeling CTR, we illustrate the incremental predictive power these features hold. | 翻訳日:2023-06-11 13:46:55 公開日:2023-05-31 |
# CodeWars' KatasによるGPTのプログラミング能力の評価 Evaluating GPT's Programming Capability through CodeWars' Katas ( http://arxiv.org/abs/2306.01784v1 ) ライセンス: Link先を確認 | Zizhuo Zhang, Lian Wen, Shaoyang Zhang, David Chen, Yanfei Jiang | (参考訳) 人工知能(AI)の急成長する分野では、プログラミング指向モデルの能力と限界を理解することが重要である。
本稿では,生成事前学習型トランスフォーマー(GPT)モデル,特にGPT-3.5とGPT-4のプログラミング能力について,Codewarsから引き出された難易度の異なるコーディング問題に対して,新しい評価を行った。
実験では、これらのGPTモデルがソリューション提供に苦しむ3休レベルでの明確な境界を明らかにした。
これらの結果から,問題の難易度と解決に必要な時間の両方を組み込んだコーディング問題複雑性の尺度が提案された。
この研究は、人間の問題解決技術をうまくエミュレートするために、AIモデルにおける検証と創造的な思考能力の必要性を強調している。
今後の研究は、この提案された複雑性尺度を洗練し、提案された能力でAIモデルを強化し、プログラミングの問題の難しさに対する客観的な尺度を開発することを目的としている。
この研究の結果は、AIプログラミング能力を改善し、AI問題解決能力のフロンティアを前進させるための貴重な洞察を提供する。 In the burgeoning field of artificial intelligence (AI), understanding the capabilities and limitations of programming-oriented models is crucial. This paper presents a novel evaluation of the programming proficiency of Generative Pretrained Transformer (GPT) models, specifically GPT-3.5 and GPT-4, against coding problems of varying difficulty levels drawn from Codewars. The experiments reveal a distinct boundary at the 3kyu level, beyond which these GPT models struggle to provide solutions. These findings led to the proposal of a measure for coding problem complexity that incorporates both problem difficulty and the time required for solution. The research emphasizes the need for validation and creative thinking capabilities in AI models to better emulate human problem-solving techniques. Future work aims to refine this proposed complexity measure, enhance AI models with these suggested capabilities, and develop an objective measure for programming problem difficulty. The results of this research offer invaluable insights for improving AI programming capabilities and advancing the frontier of AI problem-solving abilities. | 翻訳日:2023-06-11 13:46:35 公開日:2023-05-31 |
# CrystalGPT: 時系列変換器を用いた結晶化予測と制御におけるシステム間転送性の向上 CrystalGPT: Enhancing system-to-system transferability in crystallization prediction and control using time-series-transformers ( http://arxiv.org/abs/2306.03099v1 ) ライセンス: Link先を確認 | Niranjan Sitapure, Joseph S. Kwon | (参考訳) 予測とリアルタイム制御タスクでは、機械学習(ml)ベースのデジタルツインが頻繁に用いられる。
しかしながら、これらのモデルは一般的に正確であるが、個々のシステム向けにカスタム設計されており、システム間転送(S2S)が困難である。
これは、異なる化学系にわたる過程のダイナミクスにかなりの類似性が存在する場合でも起こる。
この課題に対処するために、トランスフォーマーアルゴリズムに固有の強力なトランスファー学習機能を利用する新しい時系列変換器(TST)フレームワークを開発した。
これは様々な操作シナリオで異なる結晶化器から得られる容易に利用可能なプロセスデータを用いて実証された。
この広範囲なデータセットを用いて、TSTモデル(CrystalGPT)をトレーニングし、事前に確立されたすべてのシステムにまたがる優れたS2S転送性を示した。
CrystalGPTは既存のMLモデルの8倍の累積誤差を達成した。
さらに,CrystalGPTと予測コントローラを結合して,セットポイントトラッキングのばらつきを1%に抑えることができた。 For prediction and real-time control tasks, machine-learning (ML)-based digital twins are frequently employed. However, while these models are typically accurate, they are custom-designed for individual systems, making system-to-system (S2S) transferability difficult. This occurs even when substantial similarities exist in the process dynamics across different chemical systems. To address this challenge, we developed a novel time-series-transformer (TST) framework that exploits the powerful transfer learning capabilities inherent in transformer algorithms. This was demonstrated using readily available process data obtained from different crystallizers operating under various operational scenarios. Using this extensive dataset, we trained a TST model (CrystalGPT) to exhibit remarkable S2S transferability not only across all pre-established systems, but also to an unencountered system. CrystalGPT achieved a cumulative error across all systems, which is eight times superior to that of existing ML models. Additionally, we coupled CrystalGPT with a predictive controller to reduce the variance in setpoint tracking to just 1%. | 翻訳日:2023-06-11 13:36:39 公開日:2023-05-31 |
# 特別セッション : dnn加速器の近似と耐障害性 Special Session: Approximation and Fault Resiliency of DNN Accelerators ( http://arxiv.org/abs/2306.04645v1 ) ライセンス: Link先を確認 | Mohammad Hasan Ahmadilivani, Mario Barbareschi, Salvatore Barone, Alberto Bosio, Masoud Daneshtalab, Salvatore Della Torca, Gabriele Gavarini, Maksim Jenihhin, Jaan Raik, Annachiara Ruospo, Ernesto Sanchez, and Mahdi Taheri | (参考訳) ディープラーニング、特にディープニューラルネットワーク(dnn)は現在、自動運転のような安全クリティカルなアプリケーションを含む多くのシナリオで広く使われている。
この文脈では、エネルギー効率と性能に加えて、システムの障害が人間の生活を危険にさらすため、信頼性が重要な役割を果たす。
他のデバイスと同様に、DNNを実行するハードウェアアーキテクチャの信頼性は、通常、コストのかかるフォールトインジェクションキャンペーンを通じて評価されなければならない。
本稿ではDNN加速器の近似と耐故障性について考察する。
本稿では,DNNの故障注入を行なわずにハードウェアのエラーを動的にエミュレートするために近似(AxC)演算回路を提案する。
AxC DNNの高速評価を実現するため,GPUを用いた効率的なシミュレーションフレームワークを開発した。
さらに,ネットワークにおける障害伝播とマスキングを検証し,耐故障性の微粒化解析を提案する。 Deep Learning, and in particular, Deep Neural Network (DNN) is nowadays widely used in many scenarios, including safety-critical applications such as autonomous driving. In this context, besides energy efficiency and performance, reliability plays a crucial role since a system failure can jeopardize human life. As with any other device, the reliability of hardware architectures running DNNs has to be evaluated, usually through costly fault injection campaigns. This paper explores the approximation and fault resiliency of DNN accelerators. We propose to use approximate (AxC) arithmetic circuits to agilely emulate errors in hardware without performing fault injection on the DNN. To allow fast evaluation of AxC DNN, we developed an efficient GPU-based simulation framework. Further, we propose a fine-grain analysis of fault resiliency by examining fault propagation and masking in networks | 翻訳日:2023-06-11 13:27:22 公開日:2023-05-31 |
# ミリ波レーダセンサを用いたワンショット学習ドライバの頭部運動同定 One shot learning based drivers head movement identification using a millimetre wave radar sensor ( http://arxiv.org/abs/2306.05291v1 ) ライセンス: Link先を確認 | Hong Nhung Nguyen, Seongwook Lee, Tien Tung Nguyen, Yong Hwa Kim | (参考訳) 交通機関へのドライバーの集中は重要な安全問題であり、道路上のドライバーの監視が必須条件となっている。
監視の主な目的は、運転者の異常な行動を検出し、交通事故に関連する事故を避けるため、直ちに警告を送ることである。
本稿では,この要求を満たすため,著者らはまず,車両の操舵輪に設置した小型ミリメートル波レーダを用いて,運転者の頭部の動きの異なる信号を集める。
受信信号はドライバの頭部の動きに応じて変化する反射パターンで構成される。
そして、これらの異なる動きを識別するために、レーダセンサの測定信号に基づく分類器を設計する。
しかし, 収集したデータセットはそれほど大きくないため, 筆者らは運転者の頭部運動の4症例を分類するためにワンショット学習を提案する。
実験結果から,提案手法は,運転者の頭部の動きに応じて,最大100の精度で4種類の症例を分類できることが示唆された。
さらに,提案手法の分類性能は畳み込みニューラルネットワークモデルよりも有意に優れている。 Concentration of drivers on traffic is a vital safety issue; thus, monitoring a driver being on road becomes an essential requirement. The key purpose of supervision is to detect abnormal behaviours of the driver and promptly send warnings to him her for avoiding incidents related to traffic accidents. In this paper, to meet the requirement, based on radar sensors applications, the authors first use a small sized millimetre wave radar installed at the steering wheel of the vehicle to collect signals from different head movements of the driver. The received signals consist of the reflection patterns that change in response to the head movements of the driver. Then, in order to distinguish these different movements, a classifier based on the measured signal of the radar sensor is designed. However, since the collected data set is not large, in this paper, the authors propose One shot learning to classify four cases of driver's head movements. The experimental results indicate that the proposed method can classify the four types of cases according to the various head movements of the driver with a high accuracy reaching up to 100. In addition, the classification performance of the proposed method is significantly better than that of the convolutional neural network model. | 翻訳日:2023-06-11 13:18:10 公開日:2023-05-31 |
# 学習可能な細粒ウェーブレット変換による船舶適応雑音認識 Adaptive ship-radiated noise recognition with learnable fine-grained wavelet transform ( http://arxiv.org/abs/2306.01002v1 ) ライセンス: Link先を確認 | Yuan Xie, Jiawei Ren, Ji Xu | (参考訳) 海洋音環境の分析は難しい作業だ。
背景雑音と可変チャネル伝送環境は,正確な船舶騒音認識を実現するのを複雑にしている。
既存の認識システムは, 水中環境の変動に対処する上で弱いため, 実用上は性能が低下する。
本研究は,様々な水中環境における認識システムの堅牢性を維持するため,適応型一般化認識システムagnet(adaptive generalized network)を提案する。
固定ウェーブレットパラメータを細粒度学習可能なパラメータに変換することで、agnetは異なる周波数で水中音の特性を学習する。
フレキシブルできめ細かな設計は、よりバックグラウンドな音響情報(例えば、バックグラウンドノイズ、水中の伝送チャンネル)を捉えやすくする。
ウェーブレットスペクトログラムにおける暗黙の情報を利用するため、agnetは並列畳み込み注意モジュールを分類器として畳み込みニューラルネットワークを採用する。
実験の結果、AGNetは水中音響データセットのベースライン法を全て上回り、AGNetは転送学習の恩恵を受けることがわかった。
さらに、agnetは様々な干渉要因に対して堅牢な性能を示す。 Analyzing the ocean acoustic environment is a tricky task. Background noise and variable channel transmission environment make it complicated to implement accurate ship-radiated noise recognition. Existing recognition systems are weak in addressing the variable underwater environment, thus leading to disappointing performance in practical application. In order to keep the recognition system robust in various underwater environments, this work proposes an adaptive generalized recognition system - AGNet (Adaptive Generalized Network). By converting fixed wavelet parameters into fine-grained learnable parameters, AGNet learns the characteristics of underwater sound at different frequencies. Its flexible and fine-grained design is conducive to capturing more background acoustic information (e.g., background noise, underwater transmission channel). To utilize the implicit information in wavelet spectrograms, AGNet adopts the convolutional neural network with parallel convolution attention modules as the classifier. Experiments reveal that our AGNet outperforms all baseline methods on several underwater acoustic datasets, and AGNet could benefit more from transfer learning. Moreover, AGNet shows robust performance against various interference factors. | 翻訳日:2023-06-05 18:52:22 公開日:2023-05-31 |
# DiffLoad: 拡散モデルによる負荷予測の不確実性定量化 DiffLoad: Uncertainty Quantification in Load Forecasting with Diffusion Model ( http://arxiv.org/abs/2306.01001v1 ) ライセンス: Link先を確認 | Zhixian Wang, Qingsong Wen, Chaoli Zhang, Liang Sun, and Yi Wang | (参考訳) 電気負荷予測は、単位コミットメントやエネルギー管理などの電力系統における意思決定において非常に重要である。
近年,電気負荷予測に様々な自己教師付きニューラルネットワークが適用され,予測精度の向上と不確かさの把握が図られている。
しかし、現在のほとんどの手法は、与えられた共変量の下で分布予測を正確に推定することを目的としたガウス的可能性法に基づいている。
このようなアプローチは、時間的データが分布シフトと外れ値を持つ状況に適応するのは困難である。
本稿では,認識的不確かさを推定するための拡散ベースのseq2seq構造を提案し,強固な付加的コーシー分布を用いてアレエータ的不確かさを推定する。
条件付き期待値を正確に予測するのではなく, 2種類の不確かさを分離し, ミュータントシナリオに対処する手法の能力を示す。 Electrical load forecasting is of great significance for the decision makings in power systems, such as unit commitment and energy management. In recent years, various self-supervised neural network-based methods have been applied to electrical load forecasting to improve forecasting accuracy and capture uncertainties. However, most current methods are based on Gaussian likelihood methods, which aim to accurately estimate the distribution expectation under a given covariate. This kind of approach is difficult to adapt to situations where temporal data has a distribution shift and outliers. In this paper, we propose a diffusion-based Seq2seq structure to estimate epistemic uncertainty and use the robust additive Cauchy distribution to estimate aleatoric uncertainty. Rather than accurately forecasting conditional expectations, we demonstrate our method's ability in separating two types of uncertainties and dealing with the mutant scenarios. | 翻訳日:2023-06-05 18:52:02 公開日:2023-05-31 |
# ラムシフトの新しい知見:ラムシフトのスペクトル密度 New Insights into the Lamb Shift: The Spectral density of the Shift ( http://arxiv.org/abs/2306.01000v1 ) ライセンス: Link先を確認 | G. Jordan Maclay | (参考訳) 原子において、束縛された電子と電磁場の真空ゆらぎとの相互作用は、電子のエネルギー準位の複雑なシフトを、エネルギー準位のシフトに対応するシフトの実際の部分とエネルギー準位の幅へのシフトに導く。
最も著名な放射シフトは、水素原子の2S_{1/2}$と2P_{1/2}$のレベルの間のラムシフトである。
1947年のウィリス・ラム・ジュニアによるこのシフトの測定は、エネルギー準位が縮退しているというディラック理論による予測が間違っていることを証明した。
Hans~Bethe によるシフトの計算は、既存の理論を議論する散逸に対処するために必要な再正規化過程を示し、ゼロ点量子真空場との相互作用を含むことが理論にとって不可欠であるとの理解につながった。
これが現代の量子電磁力学(QED)の誕生である。
ラムシフトの他の計算では、ウェルトンとパワーがシフトに繋がる物理的メカニズムを明らかにするために行った。
我々は、シフトのスペクトル密度と呼ばれる関数の周波数の積分としてシフトを与える群理論的アプローチを用いてシフトの計算を行った。
スペクトル密度は、異なる周波数が全体のエネルギーシフトにどのように寄与するかを示す。
例えば、h の基底状態 1s レベルの放射シフトの半分は 9700 ev 以下の光子エネルギーによるもので、パワーとウェルトンによる式は全体のシフトに対してほぼ正しい値を与えるが、正確な低周波挙動を持っていない。 In an atom, the interaction of a bound electron with the vacuum fluctuations of the electromagnetic field leads to complex shifts in the energy levels of the electron, with the real part of the shift corresponding to a shift in the energy level and the imaginary part to the width of the energy level. The most celebrated radiative shift is the Lamb shift between the $2S_{1/2}$ and the $2P_{1/2}$ levels of the hydrogen atom.~The measurement of this shift in 1947 by Willis Lamb Jr. proved that the prediction by Dirac theory that the energy levels were degenerate was incorrect. Hans~Bethe's calculation of the shift demonstrated the renormalization process required to deal with the divergences plaguing the existing theories and led to the understanding that it was essential for theory to include interactions with the zero-point quantum vacuum field. This was the birth of modern quantum electrodynamics (QED). Other calculations of the Lamb shift followed by Welton and Power in an effort to clarify the physical mechanisms leading to the shift. We have done a calculation of the shift using a group theoretical approach which gives the shift as an integral over frequency of a function, which we call the spectral density of the shift. The spectral density reveals how different frequencies contribute to the total energy shift. We find, for example, that half the radiative shift for the ground state 1S level in H comes from photon energies below 9700 eV, and that the expressions by Power and Welton do not have the correct low frequency behavior, although they do give approximately the correct value for the total shift. | 翻訳日:2023-06-05 18:51:47 公開日:2023-05-31 |
# 2次元単位セルモデルに基づくレドックスフローバッテリの物理インフォーム機械学習 Physics-informed machine learning of redox flow battery based on a two-dimensional unit cell model ( http://arxiv.org/abs/2306.01010v1 ) ライセンス: Link先を確認 | Wenqian Chen, Yucheng Fu, Panos Stinis | (参考訳) 本稿では,全バナジウムレドックスフロー電池の性能を予測するための物理インフォームドニューラルネットワーク (PINN) を提案する。
2dモデルは6つの制御方程式と24の境界条件を含み、レドックスフローバッテリ内で起こる電気化学反応、物質輸送、流体力学の詳細な表現を提供する。
pinnアプローチによる2次元モデルを解くために、複合ニューラルネットワークを用いて種濃度とポテンシャルを近似し、入力と出力をバッテリシステムの事前知識に従って正規化し、制御式と境界条件をまず1等程度までスケールし、さらに自己重み付け法でバランスをとる。
その結果,pinnはセル電圧を正確に予測できるが,電位の予測は定常的なシフトを示すことがわかった。
シフトを修正するために、PINNは現在のコレクタ境界から派生したさらなる制約によって強化される。
最後に,少数のラベル付きデータが利用可能であれば,拡張PINNをさらに改善できることを示す。 In this paper, we present a physics-informed neural network (PINN) approach for predicting the performance of an all-vanadium redox flow battery, with its physics constraints enforced by a two-dimensional (2D) mathematical model. The 2D model, which includes 6 governing equations and 24 boundary conditions, provides a detailed representation of the electrochemical reactions, mass transport and hydrodynamics occurring inside the redox flow battery. To solve the 2D model with the PINN approach, a composite neural network is employed to approximate species concentration and potentials; the input and output are normalized according to prior knowledge of the battery system; the governing equations and boundary conditions are first scaled to an order of magnitude around 1, and then further balanced with a self-weighting method. Our numerical results show that the PINN is able to predict cell voltage correctly, but the prediction of potentials shows a constant-like shift. To fix the shift, the PINN is enhanced by further constrains derived from the current collector boundary. Finally, we show that the enhanced PINN can be even further improved if a small number of labeled data is available. | 翻訳日:2023-06-05 18:41:38 公開日:2023-05-31 |
# 生成言語モデルにおける推論推論の創発性の検討 Examining the Emergence of Deductive Reasoning in Generative Language Models ( http://arxiv.org/abs/2306.01009v1 ) ライセンス: Link先を確認 | Peter Belcak, Luca A. Lanzend\"orfer, Roger Wattenhofer | (参考訳) 我々は,生成変圧器モデルが前提から推論する能力について予備的考察を行う。
異なるトレーニング設定から得られるモデルのパフォーマンスの顕著な違いを観察し,その推論能力がスケールとともに増加することを見出した。
さらに,OpenAI GPT-3 モデルと GPT-3.5 モデルを除いて,結論に達するのに必要な導出鎖の長さで性能が低下しないことがわかった。
本研究は,1億7700万から1750億のパラメータを含む,多種多様なトランスフォーマーデコーダモデルについて考察する。 We conduct a preliminary inquiry into the ability of generative transformer models to deductively reason from premises provided. We observe notable differences in the performance of models coming from different training setups and find that the deductive reasoning ability increases with scale. Further, we discover that the performance generally does not decrease with the length of the deductive chain needed to reach the conclusion, with the exception of OpenAI GPT-3 and GPT-3.5 models. Our study considers a wide variety of transformer-decoder models, ranging from 117 million to 175 billion parameters in size. | 翻訳日:2023-06-05 18:41:18 公開日:2023-05-31 |
# 無性生殖最適化によるクレジットカード不正検出 Credit Card Fraud Detection Using Asexual Reproduction Optimization ( http://arxiv.org/abs/2306.01008v1 ) ライセンス: Link先を確認 | Anahita Farhang Ghahfarokhi, Taha Mansouri, Mohammad Reza Sadeghi Moghadam, Nila Bahrambeik, Ramin Yavari, Mohammadreza Fani Sani | (参考訳) クレジットカード利用者の増加に伴い、この領域における不正検出が重要な課題となっている。
従来の文献では、効果的な不正検出システムを見つけるために、様々な教師付きおよび教師なしの機械学習手法を適用してきた。
しかし、これらの手法のいくつかは妥当な精度を達成するのに膨大な時間を必要とする。
本稿では,クレジットカード不正を検知する教師付き手法として,無性生殖最適化(ARO)アプローチを採用した。
AROとは、ある親が子孫を産む生産の一種である。
この方法を適用し、多数クラスのみからサンプリングすることにより、分類の有効性が向上する。
現在のデータセットに実装されている最良の手法の1つである人工免疫システム(AIS)との比較により,提案手法は必要なトレーニング時間を著しく短縮すると同時に,不正検出問題において重要なリコールを増やすことができることを示した。
その結果,AROは短時間で最高のコストを達成でき,その結果,リアルタイムな不正検出システムであることがわかった。 As the number of credit card users has increased, detecting fraud in this domain has become a vital issue. Previous literature has applied various supervised and unsupervised machine learning methods to find an effective fraud detection system. However, some of these methods require an enormous amount of time to achieve reasonable accuracy. In this paper, an Asexual Reproduction Optimization (ARO) approach was employed, which is a supervised method to detect credit card fraud. ARO refers to a kind of production in which one parent produces some offspring. By applying this method and sampling just from the majority class, the effectiveness of the classification is increased. A comparison to Artificial Immune Systems (AIS), which is one of the best methods implemented on current datasets, has shown that the proposed method is able to remarkably reduce the required training time and at the same time increase the recall that is important in fraud detection problems. The obtained results show that ARO achieves the best cost in a short time, and consequently, it can be considered a real-time fraud detection system. | 翻訳日:2023-06-05 18:41:07 公開日:2023-05-31 |
# 環境変化の公平なオンライン学習に向けて Towards Fair Disentangled Online Learning for Changing Environments ( http://arxiv.org/abs/2306.01007v1 ) ライセンス: Link先を確認 | Chen Zhao, Feng Mi, Xintao Wu, Kai Jiang, Latifur Khan, Christan Grant, Feng Chen | (参考訳) 変化する環境に対するオンライン学習の問題では、データは順次順次受信され、分布の仮定は頻繁に変化する可能性がある。
既存の手法は、動的後悔または適応的後悔のどちらかに厳密な拘束を与えて学習アルゴリズムの有効性を示すが、そのほとんどは、異なるサブ人口(人種や性別など)の統計パリティとして定義されるモデルフェアネスによる学習を完全に無視している。
もうひとつの欠点は、オンライン学習者が新しい環境に適応する場合、モデルパラメータをグローバルな変更で更新する必要があることだ。
スパースメカニズムシフト仮説に触発されて、オンライン学習における環境変化は、学習パラメータの部分的変化によるものであり、その残りは環境変化に不変であると主張する。
そこで,本稿では,各時刻に収集したデータを,環境不変意味因子と環境固有の変動係数の2つの表現で分離できると仮定した新しいアルゴリズムを提案する。
この意味因子は、群フェアネス制約の下で公正な予測にさらに用いられる。
学習者によって生成されたモデルパラメータのシーケンスを評価するために、動的および静的な後悔指標の混合形式とフェアネスを意識した長期的制約を取り入れた新しい後悔を提案する。
この詳細な分析は、損失後悔と累積公正性制約違反の理論的保証を提供する。
実世界のデータセットに対する実証的な評価は,提案手法がモデル精度と公正性において,ベースライン法を逐次上回ることを示す。 In the problem of online learning for changing environments, data are sequentially received one after another over time, and their distribution assumptions may vary frequently. Although existing methods demonstrate the effectiveness of their learning algorithms by providing a tight bound on either dynamic regret or adaptive regret, most of them completely ignore learning with model fairness, defined as the statistical parity across different sub-population (e.g., race and gender). Another drawback is that when adapting to a new environment, an online learner needs to update model parameters with a global change, which is costly and inefficient. Inspired by the sparse mechanism shift hypothesis, we claim that changing environments in online learning can be attributed to partial changes in learned parameters that are specific to environments and the rest remain invariant to changing environments. To this end, in this paper, we propose a novel algorithm under the assumption that data collected at each time can be disentangled with two representations, an environment-invariant semantic factor and an environment-specific variation factor. The semantic factor is further used for fair prediction under a group fairness constraint. To evaluate the sequence of model parameters generated by the learner, a novel regret is proposed in which it takes a mixed form of dynamic and static regret metrics followed by a fairness-aware long-term constraint. The detailed analysis provides theoretical guarantees for loss regret and violation of cumulative fairness constraints. Empirical evaluations on real-world datasets demonstrate our proposed method sequentially outperforms baseline methods in model accuracy and fairness. | 翻訳日:2023-06-05 18:40:51 公開日:2023-05-31 |
# 大規模言語モデルによるエビデンスに基づくインストラクショナルデザインエキスパートのスケーリング Scaling Evidence-based Instructional Design Expertise through Large Language Models ( http://arxiv.org/abs/2306.01006v1 ) ライセンス: Link先を確認 | Gautam Yadav | (参考訳) 本稿では,大規模言語モデル(LLM),特に GPT-4 を教育設計の分野で活用するための包括的探索を提案する。
エビデンスに基づくインストラクショナルデザインの専門知識のスケールアップに焦点をあて,理論教育研究と実践的実践のギャップを埋めることを目的とした。
我々は,AIによるコンテンツ生成のメリットと限界について論じ,教育資料の品質確保に人的監督が必要であることを強調した。
本研究は,gpt-4を用いて複雑な高次評価を行い,異なるコースでアクティブラーニングコンポーネントを作成するという,2つの詳細なケーススタディによって明らかにされる。
経験から,テンプレートの利用,微調整,予期せぬ出力処理,LCM連鎖の実装,参照の引用,アウトプットの評価,ルーリックの生成,グレーディング,イントラクタの生成など,教育設計タスクにおいてLLMを効果的に活用するためのベストプラクティスを提供する。
また,gpt-4をカスタマイズした教材設計の原則を教育研究から抽出し,ユーザ独自の教育的文脈に対するパーソナライズされたエビデンスに基づく戦略を作成する,今後のレコメンデーションシステムのビジョンを共有した。
本研究は、ai駆動型言語モデルの潜在能力を理解・最適活用し、教育成果の向上に寄与する。 This paper presents a comprehensive exploration of leveraging Large Language Models (LLMs), specifically GPT-4, in the field of instructional design. With a focus on scaling evidence-based instructional design expertise, our research aims to bridge the gap between theoretical educational studies and practical implementation. We discuss the benefits and limitations of AI-driven content generation, emphasizing the necessity of human oversight in ensuring the quality of educational materials. This work is elucidated through two detailed case studies where we applied GPT-4 in creating complex higher-order assessments and active learning components for different courses. From our experiences, we provide best practices for effectively using LLMs in instructional design tasks, such as utilizing templates, fine-tuning, handling unexpected output, implementing LLM chains, citing references, evaluating output, creating rubrics, grading, and generating distractors. We also share our vision of a future recommendation system, where a customized GPT-4 extracts instructional design principles from educational studies and creates personalized, evidence-supported strategies for users' unique educational contexts. Our research contributes to understanding and optimally harnessing the potential of AI-driven language models in enhancing educational outcomes. | 翻訳日:2023-06-05 18:40:23 公開日:2023-05-31 |
# AbODE: Conjoined ODEs を用いた Ab Initio 抗体設計 AbODE: Ab Initio Antibody Design using Conjoined ODEs ( http://arxiv.org/abs/2306.01005v1 ) ライセンス: Link先を確認 | Yogesh Verma, Markus Heinonen and Vikas Garg | (参考訳) 抗体はy型タンパク質であり、病原体を中和し、我々の適応免疫システムの核となる。
特定の抗原を標的とする新しい抗体の生成は、ワクチンの発見を加速する鍵を握る。
しかし、このアミノ酸配列と3d構造の共設計は、タンパク質の折り畳み(構造への配列)、逆折り畳み(配列への構造)、ドッキング(結合)など、複数のタスクからの中心的な課題を生み出し、強調する。
我々は,コンテキスト情報と外部インタラクションの両方に対応するグラフpdesを拡張する新しい生成モデル abode を用いて,これらの課題を克服することに努める。
既存のアプローチとは異なり、abodeは1ラウンドのフルショットのデコードを使用し、抗体内の潜在的な相互作用と抗原を含む相互作用をカプセル化し、進化させる連続的な微分的注意を喚起する。
我々は,AbODEと時間ネットワーク,およびグラフマッチングネットワークの基本的な関係を明らかにする。
提案モデルは,ベンチマークの標準メトリクスに対する既存の手法を著しく上回っている。 Antibodies are Y-shaped proteins that neutralize pathogens and constitute the core of our adaptive immune system. De novo generation of new antibodies that target specific antigens holds the key to accelerating vaccine discovery. However, this co-design of the amino acid sequence and the 3D structure subsumes and accentuates some central challenges from multiple tasks, including protein folding (sequence to structure), inverse folding (structure to sequence), and docking (binding). We strive to surmount these challenges with a new generative model AbODE that extends graph PDEs to accommodate both contextual information and external interactions. Unlike existing approaches, AbODE uses a single round of full-shot decoding and elicits continuous differential attention that encapsulates and evolves with latent interactions within the antibody as well as those involving the antigen. We unravel fundamental connections between AbODE and temporal networks as well as graph-matching networks. The proposed model significantly outperforms existing methods on standard metrics across benchmarks. | 翻訳日:2023-06-05 18:39:59 公開日:2023-05-31 |
# AoM:マルチモーダルアスペクトに基づく知覚分析のためのアスペクト指向情報検出 AoM: Detecting Aspect-oriented Information for Multimodal Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2306.01004v1 ) ライセンス: Link先を確認 | Ru Zhou, Wenya Guo, Xumeng Liu, Shenglong Yu, Ying Zhang, Xiaojie Yuan | (参考訳) マルチモーダルなアスペクトベース感情分析(MABSA)は、テキストイメージペアからアスペクトを抽出し、その感情を認識することを目的としている。
既存の手法は、画像全体を対応する側面に合わせるために多大な努力をしている。
しかし、画像の異なる領域は同一文の異なる側面に関連し、画像-アスペクトアライメントの粗い確立は、アスペクトベースの感情分析(すなわち視覚ノイズ)にノイズをもたらす。
さらに、特定の側面の感情は、他の側面(例えば、テクストノイズ)の記述によっても妨げられる。
本稿では、上記の雑音を考慮し、アスペクト関連セマンティクスと感情情報を検出するアスペクト指向手法(AoM)を提案する。
具体的には、アスペクト対応アテンションモジュールは、アスペクトに意味的に関連するテキストトークンと画像ブロックを同時に選択するように設計されている。
感情情報を正確に集約するために,感情をAoMに埋め込み,グラフ畳み込みネットワークを用いて視覚・テキスト・テキストインタラクションをモデル化する。
大規模な実験は、既存の方法よりもAoMの方が優れていることを示す。
ソースコードはhttps://github.com/silyrab/aomで公開されている。 Multimodal aspect-based sentiment analysis (MABSA) aims to extract aspects from text-image pairs and recognize their sentiments. Existing methods make great efforts to align the whole image to corresponding aspects. However, different regions of the image may relate to different aspects in the same sentence, and coarsely establishing image-aspect alignment will introduce noise to aspect-based sentiment analysis (i.e., visual noise). Besides, the sentiment of a specific aspect can also be interfered by descriptions of other aspects (i.e., textual noise). Considering the aforementioned noises, this paper proposes an Aspect-oriented Method (AoM) to detect aspect-relevant semantic and sentiment information. Specifically, an aspect-aware attention module is designed to simultaneously select textual tokens and image blocks that are semantically related to the aspects. To accurately aggregate sentiment information, we explicitly introduce sentiment embedding into AoM, and use a graph convolutional network to model the vision-text and text-text interaction. Extensive experiments demonstrate the superiority of AoM to existing methods. The source code is publicly released at https://github.com/SilyRab/AoM. | 翻訳日:2023-06-05 18:39:41 公開日:2023-05-31 |
# 適応型caldeira-leggettモデル Adapted Caldeira-Leggett Model ( http://arxiv.org/abs/2105.14040v2 ) ライセンス: Link先を確認 | Andreas Albrecht, Rose Baunach, Andrew Arrasmith | (参考訳) 環境に結合した高調波発振器のCaldeira-Leggett(CL)モデルの変種をプリセットする。
CLモデルはデコヒーレンスの物理学を研究するための標準ツールである。
我々の"Adapted Caldeira-Leggett"(ACL)モデルは有限ヒルベルト空間上に構築され、数値研究に適している。
数値的なアプローチを採用することで、CLモデルで使用される標準近似スキームの制限を回避することができる。
我々はACLモデルを完全に可逆なユニタリな方法で発展させることができ、時間的非対称性やその他のマスター方程式のメソッドがよく使われる仮定が組み込まれない。
我々はACLモデルを用いて、完全ユニタリ進化が本研究に不可欠なデコヒーレンスと固有選択の分野における新しいトピックを研究してきた。
これらの結果(共同論文に記載されている)には、選抜と時間の矢印の関係の検証、選抜のごく初期の段階の研究が含まれる。
本稿では,ACLモデルと数値解析手法の詳細について述べる。
私たちの数値的アプローチは、物理システムのあらゆる性質を探索し、プロットすることを容易にします。
したがって、ここで紹介する例やイラストは、標準のデコヒーレンス結果への親密性向上を望む人々や、我々の共著の基盤を探究したい人々にとって有用な情報源になると信じています。
ACLモデルは,従来の近似法では研究できない現象を探索するための有用なツールとして期待できる。 We preset a variant of the Caldeira-Leggett (CL) model of a harmonic oscillator coupled to an environment. The CL model is a standard tool for studying the physics of decoherence. Our "adapted Caldeira-Leggett" (ACL) model is built in a finite Hilbert space which makes it suitable for numerical studies. Taking a numerical approach allows us to avoid the limitations of standard approximation schemes used with the CL model. We are able to evolve the ACL model in a fully reversible unitary manner, without the built-in time asymmetry and other assumptions that come with the master equation methods typically used. We have used the ACL model to study new topics in the field of decoherence and einselection where the full unitary evolution is essential to our work. Those results (reported in companion papers) include an examination of the relationship between einselection and the arrow of time, and studies of the very earliest stages of einselection. This paper provides details about the ACL model and our numerical methods. Our numerical approach makes it straightforward to explore and plot any property of the physical system. Thus we believe the examples and illustrations we present here may provide a helpful resource for those wishing to improve their familiarity with standard decoherence results, as well as those looking to probe the underpinnings of our companion papers. We expect the ACL model will be a useful tool for exploring additional phenomena that cannot be studied using traditional approximation schemes. | 翻訳日:2023-06-03 02:33:21 公開日:2023-05-31 |
# einselectionの初期段階におけるcopycatプロセス Copycat process in the early stages of einselection ( http://arxiv.org/abs/2105.14032v2 ) ライセンス: Link先を確認 | Rose Baunach, Andreas Albrecht, Andrew Arrasmith | (参考訳) まず、重ね合わせ状態において、その環境と相互作用する量子システムのユニークな初期動作を同定し、記述する。
この動作 -- コピーキャットプロセス -- はシステムがデコバイルを開始した後に発生するが、einselectionが完了する前に発生する。
システム密度行列とその固有値及び固有状態に対するこの挙動解析解を、システム環境相互作用が開始されてから短時間で提供する。
解の特徴と観測値との関係について論じ、固有状態の固有選択への継続的な進化の予測、スピン期待値の時間依存性、システムのデコヒーレンス時間の推定などについて論じる。
特に,デコヒーレンスの初期段階のどの側面が先行する順序への二次的進化を示し,どの側面がより速い線形挙動を示すかを検討する。
初期の摂動的ソリューションの多くの特徴は、環境のスペクトルに無依存です。
また, 共用紙の数値計算結果と比較するために, 短時間摂動理論を超えて作業を拡張した。 We identify and describe unique early time behavior of a quantum system initially in a superposition, interacting with its environment. This behavior -- the copycat process -- occurs after the system begins to decohere, but before complete einselection. To illustrate this behavior analytic solutions for the system density matrix, its eigenvalues, and eigenstates a short time after system-environment interactions begin are provided. Features of the solutions and their connection to observables are discussed, including predictions for the continued evolution of the eigenstates towards einselection, time dependence of spin expectation values, and an estimate of the system's decoherence time. In particular we explore which aspects of the early stages of decoherence exhibit quadratic evolution to leading order, and which aspects exhibit more rapid linear behavior. Many features of our early time perturbative solutions are agnostic of the spectrum of the environment. We also extend our work beyond short time perturbation theory to compare with numerical work from a companion paper. | 翻訳日:2023-06-03 02:32:53 公開日:2023-05-31 |
# UCB帯域における最適対外攻撃 Near Optimal Adversarial Attack on UCB Bandits ( http://arxiv.org/abs/2008.09312v5 ) ライセンス: Link先を確認 | Shiliang Zuo | (参考訳) 私は、報酬が敵対的腐敗の対象となる確率的多腕バンディット問題を研究する。
私は、ucbアルゴリズムを用いた学習者を操作する新しい攻撃戦略を提案する。ここでは、$t$がラウンド数である$\widehat{o}(\sqrt{\log t})$という累積コストで、非最適ターゲットarm $t - o(t)$を引く。
また、累積攻撃コストに対する最初の下限も証明します。
下限は$O(\log \log T)$ factorまでの上限値と一致し、提案した攻撃戦略がほぼ最適であることを示す。 I study a stochastic multi-arm bandit problem where rewards are subject to adversarial corruption. I propose a novel attack strategy that manipulates a learner employing the UCB algorithm into pulling some non-optimal target arm $T - o(T)$ times with a cumulative cost that scales as $\widehat{O}(\sqrt{\log T})$, where $T$ is the number of rounds. I also prove the first lower bound on the cumulative attack cost. The lower bound matches the upper bound up to $O(\log \log T)$ factors, showing the proposed attack strategy to be near optimal. | 翻訳日:2023-06-03 02:32:36 公開日:2023-05-31 |
# コヒーレントアンシラによる無測定誤差補正 Measurement-free error correction with coherent ancillas ( http://arxiv.org/abs/2007.09804v2 ) ライセンス: Link先を確認 | Michael Perlin, Vickram N. Premakumar, Jiakai Wang, Mark Saffman, Robert Joynt | (参考訳) 測定自由量子誤り訂正(MFQEC)は、無条件の量子ビットリセットゲートを持つプラットフォームにおける標準測定ベースのQECに代わる手段を提供する。
マルチキュービットゲートを利用するsteane符号の計測フリー変種に対して、フォールトトレランスの問題を再検討し、フォールトトレランスを損なう、これまで見過ごされていたフェーズフリップエラーを見つけ出す。
我々は,全ての単一ビット誤りに対して耐性を持つMFQEC回路設計を改良したが,それにもかかわらず,特定の相関誤差を許容することができない。
フォールトトレランスを系統的に調査するために,MFQEC回路を古典的にシミュレートする効率的な手法を提案する。
(i)シンドローム抽出のためのクリフォードゲート
(ii)アンシラ制御されたパウリのデコード操作、及び
(iii)ポーリノイズモデル。
これにより,本論文で以前に検討した制限ノイズモデルに基づくmfqecステイン符号の疑似値である$\sim0.7\%$を求めることができる。
次に,マルチキュービットゲートにおけるフォールトトレランスの一般的な要件を特定するために,ノイズモデルの仮定を緩和し,既存のマルチキュービット中性原子ゲートは,測定ベースと測定フリーのステインコードの両方においてフォールトトレラントシンドローム抽出と相容れないことを発見した。
また,マルチキュービットゲートを2キュービットのゲート集合に分解することで,測定フリーのステイン符号に対するフォールトトレランスが損なわれることも判明した。
最後に,MFQEC符号の耐故障性回復に必要な理論的要素について考察する。 Measurement-free quantum error correction (MFQEC) offers an alternative to standard measurement-based QEC in platforms with an unconditional qubit reset gate. We revisit the question of fault tolerance for a measurement-free variant of the Steane code that leverages multi-qubit gates, finding previously overlooked phase-flip errors that undermine fault tolerance. We construct a revised MFQEC circuit design that is resistant to all single-qubit errors, but which nonetheless cannot tolerate certain correlated errors. In order to investigate fault tolerance systematically, we introduce an efficient method to classically simulate MFQEC circuits with (i) Clifford gates for syndrome extraction, (ii) ancilla-controlled Pauli operations for decoding, and (iii) a Pauli noise model. We thereby find a pseudothreshold of $\sim0.7\%$ for our revised MFQEC Steane code under a restricted noise model previously considered in the literature. We then relax noise model assumptions to identify general requirements for fault tolerance with multi-qubit gates, finding that existing multi-qubit neutral atom gates are incompatible with fault-tolerant syndrome extraction in both the measurement-based and measurement-free Steane code. We also find that decomposing multi-qubit gates down to a two-qubit gate set similarly spoils fault tolerance for the measurement-free Steane code. Finally, we discuss the theoretical ingredients that are necessary to recover fault tolerance for MFQEC codes. | 翻訳日:2023-06-03 02:32:23 公開日:2023-05-31 |
# TC-GNN:GPU上のスパースGNN計算とDense Tensor Coreのブリッジ TC-GNN: Bridging Sparse GNN Computation and Dense Tensor Cores on GPUs ( http://arxiv.org/abs/2112.02052v4 ) ライセンス: Link先を確認 | Yuke Wang, Boyuan Feng, Zheng Wang, Guyue Huang, Yufei Ding | (参考訳) 近年、グラフベース機械学習のバックボーンであるグラフニューラルネットワーク(GNN)は、さまざまな領域(eコマースなど)で大きな成功を収めている。
しかしながら、GNNの性能は、非常にスパースで不規則なグラフベースの操作のため、通常不満足である。
そこで我々は,GPU Tensor Core Units (TCU) をベースとした最初のGNN加速フレームワークであるTC-GNNを提案する。
中心となる考え方は、"スパース" GNN 計算を高性能な "Dense" TCU と整合させることである。
具体的には、メインストリームのGNNコンピューティングフレームワークにおけるスパース操作の詳細な分析を行う。
スパースGNNワークロードのTCU処理を容易にする新しいスパースグラフ変換手法を提案する。
我々は,GPUリソースをフル活用するために,有効なCUDAコアとTCUコラボレーション設計を実装した。
TC-GNNとPyTorchフレームワークを統合し,高いプログラマビリティを実現する。
厳密な実験は、さまざまなモデルとデータセットにわたる最先端のDGLフレームワークの平均1.70倍のスピードアップを示している。 Recently, graph neural networks (GNNs), as the backbone of graph-based machine learning, demonstrate great success in various domains (e.g., e-commerce). However, the performance of GNNs is usually unsatisfactory due to the highly sparse and irregular graph-based operations. To this end, we propose TC-GNN, the first GNN acceleration framework based on GPU Tensor Core Units (TCUs). The core idea is to reconcile the "Sparse" GNN computation with the high-performance "Dense" TCUs. Specifically, we conduct an in-depth analysis of the sparse operations in mainstream GNN computing frameworks. We introduce a novel sparse graph translation technique to facilitate TCU processing of the sparse GNN workload. We implement an effective CUDA core and TCU collaboration design to fully utilize GPU resources. We integrate TC-GNN with the PyTorch framework for high programmability. Rigorous experiments show an average of 1.70X speedup over the state-of-the-art DGL framework across various models and datasets. | 翻訳日:2023-06-03 02:23:30 公開日:2023-05-31 |
# データから動的モデルを抽出する Extracting Dynamical Models from Data ( http://arxiv.org/abs/2110.06917v4 ) ライセンス: Link先を確認 | Michael F. Zimmer | (参考訳) 時間とともに与えられたデータのみを与えられた場合、システムの基盤となるダイナミクスを決定する問題は、何十年も科学者に挑戦してきた。
本稿では、相空間変数の「em update」をモデル化するために機械学習を使う手法を紹介し、相空間変数の関数として実行する。
(より一般的には、モデリングは変数のジェット空間上で行われる。)
このアプローチは、調和振動子、振り子、ダッフィング振動子の例に対する力学を正確に再現することを示し、基礎となる微分方程式もそれぞれの例で正確に復元される。
さらに、データは時間とともにどのようにサンプリングされるか(定期的に、または不規則に)にもよらない。
このアプローチ(FJet)は、RK(Runge-Kutta)数値積分スキームのテイラー級数展開によるモデルと似ていることが示されている。
この類似性は、モデリングで使用する適切な関数を明確に明らかにすることの利点と、更新のエラー推定を明らかにすることの利点である。
このように、この新しいアプローチは、機械学習によってRKスキームの係数を決定する方法として考えられる。
最後に、無損傷の高調波発振器の例で、更新の安定性は4次RKよりも10^9$長く安定であることが示されている。 The problem of determining the underlying dynamics of a system when only given data of its state over time has challenged scientists for decades. In this paper, the approach of using machine learning to model the {\em updates} of the phase space variables is introduced; this is done as a function of the phase space variables. (More generally, the modeling is done over the jet space of the variables.) This approach is shown to accurately replicate the dynamics for the examples of the harmonic oscillator, the pendulum, and the Duffing oscillator; the underlying differential equation is also accurately recovered in each example. In addition, the results in no way depend on how the data is sampled over time (i.e., regularly or irregularly). It is demonstrated that this approach (named "FJet") is similar to the model resulting from a Taylor series expansion of the Runge-Kutta (RK) numerical integration scheme. This analogy confers the advantage of explicitly revealing the appropriate functions to use in the modeling, as well as revealing the error estimate of the updates. Thus, this new approach can be thought of as a way to determine the coefficients of an RK scheme by machine learning. Finally, it is shown in the undamped harmonic oscillator example that the stability of the updates is stable for $10^9$ times longer than with $4$th-order RK. | 翻訳日:2023-06-03 02:22:29 公開日:2023-05-31 |
# バンディットフィードバックを用いたオンライン学習による連合学習における適応的クライアントサンプリング Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback ( http://arxiv.org/abs/2112.14332v4 ) ライセンス: Link先を確認 | Boxin Zhao, Lingxiao Wang, Mladen Kolar, Ziqi Liu, Zhiqiang Zhang, Jun Zhou, and Chaochao Chen | (参考訳) 通信コストが高いため、フェデレーション学習(fl)システムは、各ラウンドのトレーニングに関与しているクライアントのサブセットをサンプリングする必要がある。
その結果、クライアントサンプリングは、機械学習モデルのトレーニングに使用される最適化アルゴリズムの収束率に影響を与えるため、flシステムにおいて重要な役割を果たす。
その重要性にもかかわらず、クライアントを効果的にサンプリングする方法には制限がある。
本稿では,サンプリングの分散を最小化するオンライン確率ミラー降下(OSMD)アルゴリズムを用いて,帯域幅フィードバックを用いたオンライン学習課題としてクライアントサンプリングを行った。
次に,提案手法が最適化アルゴリズムの収束速度をいかに改善するかを理論的に示す。
未知の問題パラメータに依存するOSMDのチューニングパラメータを扱うために,オンラインアンサンブル法と2倍のトリックを用いる。
サンプリングシーケンスに対する動的後悔を証明します。
後悔の束縛は、問題の本質的な難しさを自然に捉えるコンパレータシーケンスの総変分に依存する。
我々の知る限りでは、これらの理論的な貢献は新しいものであり、証明技術は独立した関心事である。
合成データと実データの両方を用いて、広く使用されている一様サンプリングと既存のオンライン学習に基づくサンプリング戦略に対するクライアントサンプリングアルゴリズムの利点を説明する。
提案手法は,ここで検討したfl問題以外にも適用可能であり,確率的勾配降下や確率的座標降下といった確率的最適化手法の性能向上に有用である。 Due to the high cost of communication, federated learning (FL) systems need to sample a subset of clients that are involved in each round of training. As a result, client sampling plays an important role in FL systems as it affects the convergence rate of optimization algorithms used to train machine learning models. Despite its importance, there is limited work on how to sample clients effectively. In this paper, we cast client sampling as an online learning task with bandit feedback, which we solve with an online stochastic mirror descent (OSMD) algorithm designed to minimize the sampling variance. We then theoretically show how our sampling method can improve the convergence speed of optimization algorithms. To handle the tuning parameters in OSMD that depend on the unknown problem parameters, we use the online ensemble method and doubling trick. We prove a dynamic regret bound relative to any sampling sequence. The regret bound depends on the total variation of the comparator sequence, which naturally captures the intrinsic difficulty of the problem. To the best of our knowledge, these theoretical contributions are new and the proof technique is of independent interest. Through both synthetic and real data experiments, we illustrate advantages of the proposed client sampling algorithm over the widely used uniform sampling and existing online learning based sampling strategies. The proposed adaptive sampling procedure is applicable beyond the FL problem studied here and can be used to improve the performance of stochastic optimization procedures such as stochastic gradient descent and stochastic coordinate descent. | 翻訳日:2023-06-03 02:11:44 公開日:2023-05-31 |
# 知覚からプログラムへ:規則化、過剰パラメータ化、償却 From Perception to Programs: Regularize, Overparameterize, and Amortize ( http://arxiv.org/abs/2206.05922v2 ) ライセンス: Link先を確認 | Hao Tang and Kevin Ellis | (参考訳) 帰納的推論と知覚能力を組み合わせることを目的として,まず知覚入力をニューラルネットワークで解析して低次元の解釈可能な表現とし,次に合成プログラムで処理するニューロシンボリックプログラム合成技術を開発した。
本稿では,問題を緩和し,全モジュールを勾配勾配で学習する手法について検討する。マルチタスク学習,償却推論,過度パラメータ化,長大プログラムのペナルティ化のための異なる戦略である。
このツールボックスは、勾配誘導型プログラム探索の安定性を改善し、入力を離散抽象として知覚する方法と、それらの抽象をプログラムとして象徴的に処理する方法の両方を学ぶ方法を提案する。 Toward combining inductive reasoning with perception abilities, we develop techniques for neurosymbolic program synthesis where perceptual input is first parsed by neural nets into a low-dimensional interpretable representation, which is then processed by a synthesized program. We explore several techniques for relaxing the problem and jointly learning all modules end-to-end with gradient descent: multitask learning; amortized inference; overparameterization; and a differentiable strategy for penalizing lengthy programs. Collectedly this toolbox improves the stability of gradient-guided program search, and suggests ways of learning both how to perceive input as discrete abstractions, and how to symbolically process those abstractions as programs. | 翻訳日:2023-06-03 02:03:28 公開日:2023-05-31 |
# StructCoder:コード生成のための構造対応トランス StructCoder: Structure-Aware Transformer for Code Generation ( http://arxiv.org/abs/2206.05239v2 ) ライセンス: Link先を確認 | Sindhu Tipirneni, Ming Zhu, Chandan K. Reddy | (参考訳) 近年,ディープラーニングによるソフトウェアエンジニアリングタスクの自動化に対する関心が高まっている。
本稿では,異なる言語や自然言語記述において,対象とするソースコードを生成することを目標とするコード生成の問題に対処する。
コード生成のための最先端のディープラーニングモデルのほとんどは、主に自然言語用に設計されたトレーニング戦略です。
しかし、コードの理解と生成には、コードの構文とセマンティクスをより厳密に理解する必要がある。
このモチベーションにより、エンコーダとデコーダの両方を明示的に訓練して、ソースおよびターゲットコード内の構文とデータフローを認識するエンコーダ・デコーダ変換モデルを開発する。
ソースコードの構文木とデータフローグラフを活用することでエンコーダ構造を意識するだけでなく,AST(Abstract Syntax Tree)パスの予測とデータフロー予測という2つの新しい補助タスクを導入することで,対象コードの構文とデータフローを保存するためのデコーダもサポートしています。
私たちの知る限りでは、構文とデータフローの両方をモデル化して生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを導入するのは、これが初めてです。
提案したStructCoderモデルは,CodeXGLUEベンチマークにおいて,コード翻訳およびテキスト・ツー・コード生成タスクの最先端性能を実現し,APPSコード生成ベンチマークで同様のサイズのベースラインを改善する。
私たちのコードはhttps://github.com/reddy-lab-code-research/StructCoder/で公開されています。 There has been a recent surge of interest in automating software engineering tasks using deep learning. This paper addresses the problem of code generation where the goal is to generate target code given source code in a different language or a natural language description. Most of the state-of-the-art deep learning models for code generation use training strategies primarily designed for natural language. However, understanding and generating code requires a more rigorous comprehension of the code syntax and semantics. With this motivation, we develop an encoder-decoder Transformer model where both the encoder and decoder are explicitly trained to recognize the syntax and data flow in the source and target codes, respectively. We not only make the encoder structure-aware by leveraging the source code's syntax tree and data flow graph, but we also support the decoder in preserving the syntax and data flow of the target code by introducing two novel auxiliary tasks: AST (Abstract Syntax Tree) paths prediction and data flow prediction. To the best of our knowledge, this is the first work to introduce a structure-aware Transformer decoder that models both syntax and data flow to enhance the quality of generated code. The proposed StructCoder model achieves state-of-the-art performance on code translation and text-to-code generation tasks in the CodeXGLUE benchmark, and improves over baselines of similar size on the APPS code generation benchmark. Our code is publicly available at https://github.com/reddy-lab-code-research/StructCoder/. | 翻訳日:2023-06-03 02:02:54 公開日:2023-05-31 |
# 制約付き単調ニューラルネットワーク Constrained Monotonic Neural Networks ( http://arxiv.org/abs/2205.11775v4 ) ライセンス: Link先を確認 | Davor Runje, Sharath M. Shankaranarayana | (参考訳) 金融や医療といった多くの重要な領域におけるニューラルネットワークの採用は、予測を説明し、追加の制約を加える必要性によって妨げられている。
モノトニック性制約は現実シナリオにおいて最も要求される特性の1つであり,本論文の焦点となっている。
モノトニック完全連結ニューラルネットワークを構築する最も古い方法の1つは、その重みの標識を拘束することである。
残念ながら、この構成は、凸関数を近似できるだけであるため、一般的な非飽和活性化関数では機能しない。
この欠点は、典型的な不飽和単調活性化関数から2つの追加の活性化関数を構築し、それぞれをニューロンの一部に使用することで解決できることを示した。
実験の結果, 単調ニューラルネットワークの構築は, 他の最先端手法と比較して精度が良く, 最小数のパラメータを持つという意味では最も単純であり, 学習手順や学習後のステップの変更は不要であることがわかった。
最後に、$\mathbb{R}^n$ のコンパクト部分集合上の任意の連続単調関数を近似できることを示す。 Wider adoption of neural networks in many critical domains such as finance and healthcare is being hindered by the need to explain their predictions and to impose additional constraints on them. Monotonicity constraint is one of the most requested properties in real-world scenarios and is the focus of this paper. One of the oldest ways to construct a monotonic fully connected neural network is to constrain signs on its weights. Unfortunately, this construction does not work with popular non-saturated activation functions as it can only approximate convex functions. We show this shortcoming can be fixed by constructing two additional activation functions from a typical unsaturated monotonic activation function and employing each of them on the part of neurons. Our experiments show this approach of building monotonic neural networks has better accuracy when compared to other state-of-the-art methods, while being the simplest one in the sense of having the least number of parameters, and not requiring any modifications to the learning procedure or post-learning steps. Finally, we prove it can approximate any continuous monotone function on a compact subset of $\mathbb{R}^n$. | 翻訳日:2023-06-03 02:01:26 公開日:2023-05-31 |
# 混合整数計画を用いたニューラルネットワーク制御系の安定性検証 Stability Verification of Neural Network Controllers using Mixed-Integer Programming ( http://arxiv.org/abs/2206.13374v2 ) ライセンス: Link先を確認 | Roland Schwan, Colin N. Jones, Daniel Kuhn | (参考訳) 本稿では,milp(mixed-integer linear programming)表現可能な制御ポリシーの安定性検証のためのフレームワークを提案する。
このフレームワークは、効率的なパラメータ化を許容し、低い計算コストで評価できる固定候補ポリシーと、安定だが評価に費用がかかると知られている固定基準ポリシーを比較する。
我々は,基本方針に関して最悪の場合の近似誤差の観点から,候補政策の閉ループ安定性の十分条件を示し,混合整数二次プログラム (miqp) を解いて,これらの条件を検証できることを示す。
さらに、MILPを解くことにより、候補ポリシーの安定性領域の外部および内部近似を計算することができることを示す。
提案手法は,ReLUニューラルネットワーク (NN) やパラメトリック二次プログラムの最適解マップ,モデル予測制御 (MPC) ポリシなど,幅広い候補ポリシーに対応するのに十分な一般性を有している。
また,提案フレームワークに基づいたオープンソースツールボックスをPythonで提供し,カスタムNNアーキテクチャやMPCの定式化を容易に検証できるようにする。
本稿では,DC-DC電力変換器のケーススタディにおけるフレームワークの柔軟性と信頼性を示し,その計算複雑性について検討する。 We propose a framework for the stability verification of Mixed-Integer Linear Programming (MILP) representable control policies. This framework compares a fixed candidate policy, which admits an efficient parameterization and can be evaluated at a low computational cost, against a fixed baseline policy, which is known to be stable but expensive to evaluate. We provide sufficient conditions for the closed-loop stability of the candidate policy in terms of the worst-case approximation error with respect to the baseline policy, and we show that these conditions can be checked by solving a Mixed-Integer Quadratic Program (MIQP). Additionally, we demonstrate that an outer and inner approximation of the stability region of the candidate policy can be computed by solving an MILP. The proposed framework is sufficiently general to accommodate a broad range of candidate policies including ReLU Neural Networks (NNs), optimal solution maps of parametric quadratic programs, and Model Predictive Control (MPC) policies. We also present an open-source toolbox in Python based on the proposed framework, which allows for the easy verification of custom NN architectures and MPC formulations. We showcase the flexibility and reliability of our framework in the context of a DC-DC power converter case study and investigate its computational complexity. | 翻訳日:2023-06-03 01:52:07 公開日:2023-05-31 |
# epistemic parity:差分プライバシー評価指標としての再現性 Epistemic Parity: Reproducibility as an Evaluation Metric for Differential Privacy ( http://arxiv.org/abs/2208.12700v3 ) ライセンス: Link先を確認 | Lucas Rosenblatt, Bernease Herman, Anastasia Holovenko, Wonkwon Lee, Joshua Loftus, Elizabeth McKinnie, Taras Rumezhak, Andrii Stadnik, Bill Howe, Julia Stoyanovich | (参考訳) ディファレンシャルプライバシ(dp)データシンセサイザーは機密情報のパブリックリリースをサポートし、プライバシの理論的保証を提供するが、実用的な設定では有用性の限定的な証拠を提供する。
ユーティリティは通常、記述統計、トレーニングされた分類器の精度、クエリのワークロードに対するパフォーマンスなど、代表的なプロキシタスクのエラーとして測定される。
これらの結果が実践者の経験に一般化する能力は、アメリカ合衆国国勢調査など多くの場面で疑問視されてきた。
本稿では,代用課題の代表性に関する仮定を回避し,著者が合成データを使用した場合の結論が変更される可能性,すなわち疫学的パーティ( epistemic parity)と呼ぶ条件を評価できる合成データの評価手法を提案する。
提案手法は,実データおよび公開データを用いたピアレビュー論文の実証的結論を再現し,dp合成データを用いて2回目の実験を行い,結果の比較を行った。
我々はICPSRリポジトリ内の公開データセットを解析する最近のピアレビュー論文のベンチマークで方法論をインスタンス化する。
定量的クレームを計算的にモデル化し,実験ワークフローを自動化し,可視化を再現し,結果を手作業で比較することで質的クレームをモデル化する。
次に,複数の最先端のメカニズムを用いてdp合成データセットを生成し,これらの結論が成立する確率を推定する。
その結果,最先端のdpシンセサイザーは,いくつかの論文で高い認識性を実現することができた。
しかし、いくつかの論文、特に特定の発見は、いずれのシンセサイザーでも再現が困難である。
我々は、より強力なユーティリティ保証を支持し、アプリケーション固有の脅威モデルとリスク評価に焦点を当てたプライバシ保護を提供する新しいタイプのメカニズムを提唱する。 Differential privacy (DP) data synthesizers support public release of sensitive information, offering theoretical guarantees for privacy but limited evidence of utility in practical settings. Utility is typically measured as the error on representative proxy tasks, such as descriptive statistics, accuracy of trained classifiers, or performance over a query workload. The ability for these results to generalize to practitioners' experience has been questioned in a number of settings, including the U.S. Census. In this paper, we propose an evaluation methodology for synthetic data that avoids assumptions about the representativeness of proxy tasks, instead measuring the likelihood that published conclusions would change had the authors used synthetic data, a condition we call epistemic parity. Our methodology consists of reproducing empirical conclusions of peer-reviewed papers on real, publicly available data, then re-running these experiments a second time on DP synthetic data, and comparing the results. We instantiate our methodology over a benchmark of recent peer-reviewed papers that analyze public datasets in the ICPSR repository. We model quantitative claims computationally to automate the experimental workflow, and model qualitative claims by reproducing visualizations and comparing the results manually. We then generate DP synthetic datasets using multiple state-of-the-art mechanisms, and estimate the likelihood that these conclusions will hold. We find that state-of-the-art DP synthesizers are able to achieve high epistemic parity for several papers in our benchmark. However, some papers, and particularly some specific findings, are difficult to reproduce for any of the synthesizers. We advocate for a new class of mechanisms that favor stronger utility guarantees and offer privacy protection with a focus on application-specific threat models and risk-assessment. | 翻訳日:2023-06-03 01:42:19 公開日:2023-05-31 |
# 超伝導体におけるグラフ頂点の非アベリアブレイディング Non-Abelian braiding of graph vertices in a superconducting processor ( http://arxiv.org/abs/2210.10255v2 ) ライセンス: Link先を確認 | Trond I. Andersen, Yuri D. Lensky, Kostyantyn Kechedzhi, Ilya Drozdov, Andreas Bengtsson, Sabrina Hong, Alexis Morvan, Xiao Mi, Alex Opremcak, Rajeev Acharya, Richard Allen, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Ryan Babbush, Dave Bacon, Joseph C. Bardin, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Zijun Chen, Ben Chiaro, Desmond Chik, Charina Chou, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Ben Curtin, Dripto M. Debroy, Alexander Del Toro Barba, Sean Demura, Andrew Dunsworth, Daniel Eppens, Catherine Erickson, Lara Faoro, Edward Farhi, Reza Fatemi, Vinicius S. Ferreira, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Raja Gosula, Alejandro Grajales Dau, Jonathan A. Gross, Steve Habegger, Michael C. Hamilton, Monica Hansen, Matthew P. Harrigan, Sean D. Harrington, Paula Heu, Jeremy Hilton, Markus R. Hoffmann, Trent Huang, Ashley Huff, William J. Huggins, Lev B. Ioffe, Sergei V. Isakov, Justin Iveland, Evan Jeffrey, Zhang Jiang, Cody Jones, Pavol Juhas, Dvir Kafri, Tanuj Khattar, Mostafa Khezri, M\'aria Kieferov\'a, Seon Kim, Alexei Kitaev, Paul V. Klimov, Andrey R. Klots, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Kim-Ming Lau, Lily Laws, Joonho Lee, Kenny Lee, Brian J. Lester, Alexander Lill, Wayne Liu, Aditya Locharla, Erik Lucero, Fionn D. Malone, Orion Martin, Jarrod R. McClean, Trevor McCourt, Matt McEwen, Kevin C. Miao, Amanda Mieszala, Masoud Mohseni, Shirin Montazeri, Emily Mount, Ramis Movassagh, Wojciech Mruczkiewicz, Ofer Naaman, Matthew Neeley, Charles Neill, Ani Nersisyan, Michael Newman, Jiun How Ng, Anthony Nguyen, Murray Nguyen, Murphy Yuezhen Niu, Thomas E. O'Brien, Seun Omonije, Andre Petukhov, Rebecca Potter, Leonid P. Pryadko, Chris Quintana, Charles Rocque, Nicholas C. Rubin, Negar Saei, Daniel Sank, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Jindra Skruzny, W. Clarke Smith, Rolando Somma, George Sterling, Doug Strain, Marco Szalay, Alfredo Torres, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Theodore White, Bryan W. K. Woo, Cheng Xing, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Hartmut Neven, Sergio Boixo, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Eun-Ah Kim, Igor Aleiner, Pedram Roushan | (参考訳) 粒子の不明瞭さは量子力学の基本原理である。
フェルミオン、ボソン、アーベル・アノンを含む、これまで観測された全ての素粒子および準粒子に対して、この原理は同一粒子のブレイディングが系を変化させないことを保証している。
しかし、2つの空間次元において、興味深い可能性が存在する:非可換なアノンのブレイディングは位相的に縮退した波動関数の空間で回転を引き起こす。
したがって、区別不能の原則に違反することなく、システムの可観測性を変更することができる。
非アベリア論の数学的記述や多くの理論的な提案にもかかわらず、それらの交換統計の実験的観察は数十年にわたって解明されてきた。
量子プロセッサ上で生成される制御可能な多体量子状態は、これらの基本的な現象を探索するための別の経路を提供する。
従来の固体プラットフォームへの取り組みは通常、準粒子のハミルトニアンダイナミクスを含むが、超伝導量子プロセッサはユニタリゲートを介して多体波動関数を直接操作できる。
スタビライザ符号が射影的非アベルイジングエノンをホストできるという予測に基づいて、一般化されたスタビライザ符号とユニタリプロトコルを実装し、それらを作成およびブレイドする。
これにより、オニオンの融合規則を実験的に検証し、それらの統計を実現することができる。
次に、量子計算にanyonsを使う可能性を検討し、3つの論理量子ビットをエンコードするanyonsの絡み合った状態を作るのにブレイディングを利用する。
我々の研究は、非アベリアのブレイディングに関する新たな洞察を提供し、トポロジカルな保護を達成するためのエラー修正を将来含めることによって、フォールトトレラントな量子コンピューティングへの道を開くことができる。 Indistinguishability of particles is a fundamental principle of quantum mechanics. For all elementary and quasiparticles observed to date - including fermions, bosons, and Abelian anyons - this principle guarantees that the braiding of identical particles leaves the system unchanged. However, in two spatial dimensions, an intriguing possibility exists: braiding of non-Abelian anyons causes rotations in a space of topologically degenerate wavefunctions. Hence, it can change the observables of the system without violating the principle of indistinguishability. Despite the well developed mathematical description of non-Abelian anyons and numerous theoretical proposals, the experimental observation of their exchange statistics has remained elusive for decades. Controllable many-body quantum states generated on quantum processors offer another path for exploring these fundamental phenomena. While efforts on conventional solid-state platforms typically involve Hamiltonian dynamics of quasi-particles, superconducting quantum processors allow for directly manipulating the many-body wavefunction via unitary gates. Building on predictions that stabilizer codes can host projective non-Abelian Ising anyons, we implement a generalized stabilizer code and unitary protocol to create and braid them. This allows us to experimentally verify the fusion rules of the anyons and braid them to realize their statistics. We then study the prospect of employing the anyons for quantum computation and utilize braiding to create an entangled state of anyons encoding three logical qubits. Our work provides new insights about non-Abelian braiding and - through the future inclusion of error correction to achieve topological protection - could open a path toward fault-tolerant quantum computing. | 翻訳日:2023-06-03 01:34:34 公開日:2023-05-31 |
# 量子コンピュータ上での周期ポテンシャルのgibbsサンプリング Gibbs Sampling of Periodic Potentials on a Quantum Computer ( http://arxiv.org/abs/2210.08104v3 ) ライセンス: Link先を確認 | Arsalan Motamedi and Pooya Ronagh | (参考訳) 連続実数値関数からのgibbsサンプリングは、機械学習に関心のある難しい問題である。
ここでは、関数が周期的であるとき、量子フーリエ変換を利用して、このタスクのための量子アルゴリズムを構築する。
量子アルゴリズムを用いて線形常微分方程式を解き、フォッカー・プランク方程式を解き、ギブス分布をコードする量子状態を作成する。
量子コンピュータ上でのこれらの関数の補間と微分の効率は、関数のフーリエ変換のフーリエ係数の減衰率に依存することを示した。
我々は、この性質をフーリエ領域における測度の集中と捉え、それに対する関数的解析条件も提供する。
我々のアルゴリズムは、関数の量子オラクルに対するゼロエスオーダークエリを生成する。
指数関数的に長い混合時間に苦しむにもかかわらず、このアルゴリズムはサンプリングの精度を指数関数的に向上させ、一般の場合の平均推定における多項式量子スピードアップ、特に幾何学的条件下でエネルギー関数の臨界点を特定することができる。 Gibbs sampling from continuous real-valued functions is a challenging problem of interest in machine learning. Here we leverage quantum Fourier transforms to build a quantum algorithm for this task when the function is periodic. We use the quantum algorithms for solving linear ordinary differential equations to solve the Fokker--Planck equation and prepare a quantum state encoding the Gibbs distribution. We show that the efficiency of interpolation and differentiation of these functions on a quantum computer depends on the rate of decay of the Fourier coefficients of the Fourier transform of the function. We view this property as a concentration of measure in the Fourier domain, and also provide functional analytic conditions for it. Our algorithm makes zeroeth order queries to a quantum oracle of the function. Despite suffering from an exponentially long mixing time, this algorithm allows for exponentially improved precision in sampling, and polynomial quantum speedups in mean estimation in the general case, and particularly under geometric conditions we identify for the critical points of the energy function. | 翻訳日:2023-06-03 01:33:38 公開日:2023-05-31 |
# ビデオ生成のための時間整合トランス Temporally Consistent Transformers for Video Generation ( http://arxiv.org/abs/2210.02396v2 ) ライセンス: Link先を確認 | Wilson Yan, Danijar Hafner, Stephen James, Pieter Abbeel | (参考訳) 正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
現在のアルゴリズムは、短い水平線上で正確な予測を可能にするが、時間的矛盾に悩まされる傾向がある。
生成されたコンテンツが視界外になり、後に再考されると、モデルは代わりに異なるコンテンツを発明する。
この厳しい制限にもかかわらず、時間依存の長いビデオ生成を厳格に評価するための、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,手続き迷路,マインクラフトワールド,屋内スキャンの3dシーンを歩みながら3つの難易度の高い映像データセットをキュレートする。
我々は,現在のモデルの包括的評価を行い,その時間的一貫性の限界を観察する。
さらに, サンプリング時間を短縮しつつ, 長期一貫性を大幅に向上させる生成モデルであるtemporly consistent transformer (teco)を導入する。
入力シーケンスをより少ない埋め込みに圧縮し、時間的トランスフォーマーを適用し、空間的マスクギットで拡張することで、tecoは既存のモデルを多くのメトリクスで上回っている。
ビデオは、Webサイト(https://wilson1yan.github.io/teco)で公開されている。 To generate accurate videos, algorithms have to understand the spatial and temporal dependencies in the world. Current algorithms enable accurate predictions over short horizons but tend to suffer from temporal inconsistencies. When generated content goes out of view and is later revisited, the model invents different content instead. Despite this severe limitation, no established benchmarks on complex data exist for rigorously evaluating video generation with long temporal dependencies. In this paper, we curate 3 challenging video datasets with long-range dependencies by rendering walks through 3D scenes of procedural mazes, Minecraft worlds, and indoor scans. We perform a comprehensive evaluation of current models and observe their limitations in temporal consistency. Moreover, we introduce the Temporally Consistent Transformer (TECO), a generative model that substantially improves long-term consistency while also reducing sampling time. By compressing its input sequence into fewer embeddings, applying a temporal transformer, and expanding back using a spatial MaskGit, TECO outperforms existing models across many metrics. Videos are available on the website: https://wilson1yan.github.io/teco | 翻訳日:2023-06-03 01:32:25 公開日:2023-05-31 |
# 3次元意味マッピングのための畳み込みベイズカーネル推論 Convolutional Bayesian Kernel Inference for 3D Semantic Mapping ( http://arxiv.org/abs/2209.10663v2 ) ライセンス: Link先を確認 | Joey Wilson, Yuewei Fu, Arthur Zhang, Jingyu Song, Andrew Capodieci, Paramsothy Jayakumar, Kira Barton, and Maani Ghaffari | (参考訳) ロボットの知覚は現在、効率的な潜在空間で行動する現代の方法と、数学的に確立され、解釈可能で信頼できる結果を提供する古典的な方法の交差点にある。
本稿では,奥行き分離可能な畳み込み層内で明示ベイズ推論を行うことを学習し,信頼性を維持しつつ効率を最大化する畳み込みベイズ核推論(convbki)層を提案する。
そこで,LDARセンサ情報に対する意味幾何学的確率分布を学習し,意味予測をグローバルマップに組み込む。
kittiデータセット上の最先端セマンティックマッピングアルゴリズムに対するネットワーク評価を行い、同等のセマンティックラベル推論結果によるレイテンシ向上を実証した。 Robotic perception is currently at a cross-roads between modern methods, which operate in an efficient latent space, and classical methods, which are mathematically founded and provide interpretable, trustworthy results. In this paper, we introduce a Convolutional Bayesian Kernel Inference (ConvBKI) layer which learns to perform explicit Bayesian inference within a depthwise separable convolution layer to maximize efficency while maintaining reliability simultaneously. We apply our layer to the task of real-time 3D semantic mapping, where we learn semantic-geometric probability distributions for LiDAR sensor information and incorporate semantic predictions into a global map. We evaluate our network against state-of-the-art semantic mapping algorithms on the KITTI data set, demonstrating improved latency with comparable semantic label inference results. | 翻訳日:2023-06-03 01:31:42 公開日:2023-05-31 |
# bipartite mixed membership distribution-free model の略。
重畳重畳ネットワークにおけるコミュニティ検出のための新しいモデル Bipartite Mixed Membership Distribution-Free Model. A novel model for community detection in overlapping bipartite weighted networks ( http://arxiv.org/abs/2211.00912v2 ) ライセンス: Link先を確認 | Huan Qing and Jingli Wang | (参考訳) 重なり合うユニパートイト非重み付きネットワークに対する混合メンバシップのモデル化と推定は近年よく研究されている。
しかし、我々の知る限り、より一般的な場合、重なり合う二部重み付きネットワークのモデルはない。
このギャップを埋めるために、新しいモデルBiMMDF(Bipartite Mixed Membership Distribution-Free)を導入する。
本モデルでは,ノードメンバシップに関連するブロック構造が期待されている限り,随伴行列は任意の分布に従うことができる。
特に、BiMMDFは重なり合うバイパートイト符号ネットワークをモデル化することができ、一般的な混合会員確率ブルコクモデルを含む、多くの先行モデルの拡張である。
理論的に一貫した推定を保証した効率的なアルゴリズムをBiMMDFに適合させる。
次に,異なる分布に対するbimmdfの分離条件を得る。
さらに,スパースネットワークのエッジ不足についても検討する。
BiMMDFの利点は、広範囲な合成ネットワークと8つの現実世界ネットワークで実証されている。 Modeling and estimating mixed memberships for overlapping unipartite un-weighted networks has been well studied in recent years. However, to our knowledge, there is no model for a more general case, the overlapping bipartite weighted networks. To close this gap, we introduce a novel model, the Bipartite Mixed Membership Distribution-Free (BiMMDF) model. Our model allows an adjacency matrix to follow any distribution as long as its expectation has a block structure related to node membership. In particular, BiMMDF can model overlapping bipartite signed networks and it is an extension of many previous models, including the popular mixed membership stochastic blcokmodels. An efficient algorithm with a theoretical guarantee of consistent estimation is applied to fit BiMMDF. We then obtain the separation conditions of BiMMDF for different distributions. Furthermore, we also consider missing edges for sparse networks. The advantage of BiMMDF is demonstrated in extensive synthetic networks and eight real-world networks. | 翻訳日:2023-06-03 01:24:00 公開日:2023-05-31 |
# ニューラルネットワークの創発的言語構造は脆弱である Emergent Linguistic Structures in Neural Networks are Fragile ( http://arxiv.org/abs/2210.17406v8 ) ライセンス: Link先を確認 | Emanuele La Malfa and Matthew Wicker and Marta Kwiatkowska | (参考訳) 大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
しかし、精度などのパフォーマンス指標は、複雑な言語構造を頑健に表現する能力の観点から、モデルの品質を測るものではない。
本稿では,構文を表現できる言語モデルの能力に着目し,言語表現の一貫性と頑健性を評価する枠組みを提案する。
そこで本研究では,近年のllmからの言語構造抽出の進歩を活かしたニューラルネットワークモデルのロバスト性評価手法,すなわち,構文再構築やルート同定などの言語モデルの単一フェセットに関する意味情報抽出に用いられている単純なタスクについて紹介する。
実験により,6つのコーパスにまたがる4つのLLMの性能を,構文保存摂動に対する性能と頑健性を分析して検討した。
文脈自由表現(例えば手袋)は、現代のllm(例えばbert)の文脈依存表現と競合するが、構文保存摂動に対して等しく不安定である証拠を提供する。
私たちのキーとなる観察は、ニューラルネットワークにおける創発的な構文表現が脆弱であることです。
LLMの能力に関する議論へのコントリビューションとして、コード、トレーニングされたモデル、ログをコミュニティに公開しています。 Large Language Models (LLMs) have been reported to have strong performance on natural language processing tasks. However, performance metrics such as accuracy do not measure the quality of the model in terms of its ability to robustly represent complex linguistic structures. In this paper, focusing on the ability of language models to represent syntax, we propose a framework to assess the consistency and robustness of linguistic representations. To this end, we introduce measures of robustness of neural network models that leverage recent advances in extracting linguistic constructs from LLMs via probing tasks, i.e., simple tasks used to extract meaningful information about a single facet of a language model, such as syntax reconstruction and root identification. Empirically, we study the performance of four LLMs across six different corpora on the proposed robustness measures by analysing their performance and robustness with respect to syntax-preserving perturbations. We provide evidence that context-free representation (e.g., GloVe) are in some cases competitive with context-dependent representations from modern LLMs (e.g., BERT), yet equally brittle to syntax-preserving perturbations. Our key observation is that emergent syntactic representations in neural networks are brittle. We make the code, trained models and logs available to the community as a contribution to the debate about the capabilities of LLMs. | 翻訳日:2023-06-03 01:23:44 公開日:2023-05-31 |
# 分極化確率的二値最適化 Decentralized Stochastic Bilevel Optimization with Improved per-Iteration Complexity ( http://arxiv.org/abs/2210.12839v2 ) ライセンス: Link先を確認 | Xuxing Chen, Minhui Huang, Shiqian Ma, Krishnakumar Balasubramanian | (参考訳) 最近、メタラーニング、強化学習、ハイパーパラメータ最適化といった重要な機械学習問題の解決に成功しているため、バイレベル最適化は大きな注目を集めている。
二階問題の単一エージェントトレーニングを分散化設定に拡張することは自然な一般化であり、分散二階最適化アルゴリズムの研究が盛んに行われている。
しかし、確率最適化のために sgd に匹敵するサンプル複雑性と収束率を持つ分散アルゴリズムをどのように設計するか、また、正確なヘッセン行列やヤコビ行列を直接計算することなく設計するかは不明である。
本稿では,そのようなアルゴリズムを提案する。
具体的には,一階確率オラクル,ヘシアンベクトル製品,ヤコビアンベクトル製品オラクルのみを必要とする分散確率双レベル最適化(DSBO)アルゴリズムを提案する。
我々のアルゴリズムのサンプル複雑性はdsboの現在知られている結果と一致しており、このアルゴリズムの利点は、全ヘッセン行列とジャコビアン行列を推定する必要がなく、イテレーション毎の複雑さが向上していることである。 Bilevel optimization recently has received tremendous attention due to its great success in solving important machine learning problems like meta learning, reinforcement learning, and hyperparameter optimization. Extending single-agent training on bilevel problems to the decentralized setting is a natural generalization, and there has been a flurry of work studying decentralized bilevel optimization algorithms. However, it remains unknown how to design the distributed algorithm with sample complexity and convergence rate comparable to SGD for stochastic optimization, and at the same time without directly computing the exact Hessian or Jacobian matrices. In this paper we propose such an algorithm. More specifically, we propose a novel decentralized stochastic bilevel optimization (DSBO) algorithm that only requires first order stochastic oracle, Hessian-vector product and Jacobian-vector product oracle. The sample complexity of our algorithm matches the currently best known results for DSBO, and the advantage of our algorithm is that it does not require estimating the full Hessian and Jacobian matrices, thereby having improved per-iteration complexity. | 翻訳日:2023-06-03 01:21:53 公開日:2023-05-31 |
# クローズドフォームポリシー改善オペレータによるオフライン強化学習 Offline Reinforcement Learning with Closed-Form Policy Improvement Operators ( http://arxiv.org/abs/2211.15956v2 ) ライセンス: Link先を確認 | Jiachen Li, Edwin Zhang, Ming Yin, Qinxun Bai, Yu-Xiang Wang, William Yang Wang | (参考訳) 行動制約付きポリシー最適化は、オフライン強化学習に取り組むための成功パラダイムであることが示されている。
歴史的遷移を利用することによって、政策は、重要な分布シフトを避けるために行動ポリシーによって制約されながら、学習価値関数を最大化するように訓練される。
本稿では,閉形式政策改善演算子を提案する。
本稿では, 行動制約が一階テイラー近似の利用を自然に動機付け, 政策目標の線形近似に繋がる新規な観察を行う。
さらに,実用的なデータセットは通常,異種ポリシによって収集されるため,ガウス混合として行動ポリシーをモデル化し,logsumsumexpの下限とjensenの不等式を活用して誘導された最適化の困難を克服し,クローズドフォームな政策改善オペレーターを創出する。
オフラインRLアルゴリズムを新しいポリシー改善演算子でインスタンス化し、標準D4RLベンチマークにおける最先端アルゴリズムに対する有効性を実証的に示す。
私たちのコードはhttps://cfpi-icml23.github.io/で利用可能です。 Behavior constrained policy optimization has been demonstrated to be a successful paradigm for tackling Offline Reinforcement Learning. By exploiting historical transitions, a policy is trained to maximize a learned value function while constrained by the behavior policy to avoid a significant distributional shift. In this paper, we propose our closed-form policy improvement operators. We make a novel observation that the behavior constraint naturally motivates the use of first-order Taylor approximation, leading to a linear approximation of the policy objective. Additionally, as practical datasets are usually collected by heterogeneous policies, we model the behavior policies as a Gaussian Mixture and overcome the induced optimization difficulties by leveraging the LogSumExp's lower bound and Jensen's Inequality, giving rise to a closed-form policy improvement operator. We instantiate offline RL algorithms with our novel policy improvement operators and empirically demonstrate their effectiveness over state-of-the-art algorithms on the standard D4RL benchmark. Our code is available at https://cfpi-icml23.github.io/. | 翻訳日:2023-06-03 01:14:36 公開日:2023-05-31 |
# 整数線形プログラムのための局所分岐緩和ヒューリスティックス Local Branching Relaxation Heuristics for Integer Linear Programs ( http://arxiv.org/abs/2212.08183v2 ) ライセンス: Link先を確認 | Taoan Huang, Aaron Ferber, Yuandong Tian, Bistra Dilkina, Benoit Steiner | (参考訳) large neighborhood search (lns) は組合せ最適化問題を解くための一般的なヒューリスティックアルゴリズムである。
問題に対する最初のソリューションから始まり、現在の最良のソリューションの周りに大きな近所を探すことで反復的に改善します。
LNSは、検索する地区を選択するためにヒューリスティックに頼っている。
本稿では,多種多様な cop を ilp として表現できるため,整数線形プログラム (ilp) における lns の効率的かつ効率的なヒューリスティックの設計に着目する。
局所分岐(Local Branching、LB)は、LNSの各イテレーションにおいて、現在のソリューションよりも最大の改善をもたらす近傍を選択するヒューリスティックである。
LBは入力と同じ大きさのILPを解く必要があるため、しばしば遅い。
提案するヒューリスティックス LB-RELAX とその変種は,LB の線形プログラミング緩和を利用して地区を選択する。
実証的には、LB-RELAXとその変種はLBと同じくらいに効率的な近傍を計算するが、より速く走る。
彼らはいくつかのILPベンチマークで常に最先端のパフォーマンスを達成する。 Large Neighborhood Search (LNS) is a popular heuristic algorithm for solving combinatorial optimization problems (COP). It starts with an initial solution to the problem and iteratively improves it by searching a large neighborhood around the current best solution. LNS relies on heuristics to select neighborhoods to search in. In this paper, we focus on designing effective and efficient heuristics in LNS for integer linear programs (ILP) since a wide range of COPs can be represented as ILPs. Local Branching (LB) is a heuristic that selects the neighborhood that leads to the largest improvement over the current solution in each iteration of LNS. LB is often slow since it needs to solve an ILP of the same size as input. Our proposed heuristics, LB-RELAX and its variants, use the linear programming relaxation of LB to select neighborhoods. Empirically, LB-RELAX and its variants compute as effective neighborhoods as LB but run faster. They achieve state-of-the-art anytime performance on several ILP benchmarks. | 翻訳日:2023-06-03 01:03:39 公開日:2023-05-31 |
# 繰り返しネスト予測のための最適ランダム化マルチレベルモンテカルロ Optimal randomized multilevel Monte Carlo for repeatedly nested expectations ( http://arxiv.org/abs/2301.04095v3 ) ライセンス: Link先を確認 | Yasa Syed, Guanyang Wang | (参考訳) 繰り返しネストされた期待の見積は、多くの現実世界システムで発生する課題である。
しかし,従来の手法ではネスト数が大きくなると計算コストが高くなるのが一般的である。
ネスティングの総数に対して、非負整数 $d$ を固定する。
標準モンテカルロ法は通常、少なくとも$\mathcal{o}(\varepsilon^{-(2+d)})$と$\mathcal{o}(\varepsilon^{-2(1+d)})$で、最大$\varepsilon$-errorの推定値を得る。
マルチレベルモンテカルロのようなより高度な手法は現在、$d = 1$ でのみ存在する。
本稿では, "任意の深さに対する再帰的推定子" を意味する "\mathsf{read}$" という新しいモンテカルロ推定器を提案する。
私たちの推定器は、適切な仮定の下で固定された$d$ に対して $\mathcal{o}(\varepsilon^{-2})$ の最適計算コストと、より一般的な仮定の下での任意の$0 < \delta < \frac12$ に対する$\mathcal{o}(\varepsilon^{-2(1 + \delta)}) のほぼ最適計算コストを持っています。
私たちの推定器もバイアスがなく、並列化が容易です。
我々の構築における重要な要素は、問題の再帰的構造とランダム化マルチレベルモンテカルロ法の再帰的利用の観察である。 The estimation of repeatedly nested expectations is a challenging task that arises in many real-world systems. However, existing methods generally suffer from high computational costs when the number of nestings becomes large. Fix any non-negative integer $D$ for the total number of nestings. Standard Monte Carlo methods typically cost at least $\mathcal{O}(\varepsilon^{-(2+D)})$ and sometimes $\mathcal{O}(\varepsilon^{-2(1+D)})$ to obtain an estimator up to $\varepsilon$-error. More advanced methods, such as multilevel Monte Carlo, currently only exist for $D = 1$. In this paper, we propose a novel Monte Carlo estimator called $\mathsf{READ}$, which stands for "Recursive Estimator for Arbitrary Depth.'' Our estimator has an optimal computational cost of $\mathcal{O}(\varepsilon^{-2})$ for every fixed $D$ under suitable assumptions, and a nearly optimal computational cost of $\mathcal{O}(\varepsilon^{-2(1 + \delta)})$ for any $0 < \delta < \frac12$ under much more general assumptions. Our estimator is also unbiased, which makes it easy to parallelize. The key ingredients in our construction are an observation of the problem's recursive structure and the recursive use of the randomized multilevel Monte Carlo method. | 翻訳日:2023-06-03 00:54:30 公開日:2023-05-31 |
# クリップ駆動による臓器分節・腫瘍検出のためのユニバーサルモデル CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection ( http://arxiv.org/abs/2301.00785v4 ) ライセンス: Link先を確認 | Jie Liu, Yixiao Zhang, Jie-Neng Chen, Junfei Xiao, Yongyi Lu, Bennett A. Landman, Yixuan Yuan, Alan Yuille, Yucheng Tang, Zongwei Zhou | (参考訳) 公共データセットの増加は、自動臓器分割と腫瘍検出に顕著な影響を与えている。
しかし、各データセットの小さなサイズと部分的にラベル付けされた問題、および様々な種類の腫瘍の限られた調査のため、結果のモデルは特定の臓器や腫瘍の分節化と解剖学的構造の意味論の無視に制限されることが多く、新しい領域に拡張することもできない。
そこで本研究では,clip(con contrastive language-image pre-training)から学習したテキスト埋め込みをセグメンテーションモデルに組み込む,クリップ駆動ユニバーサルモデルを提案する。
このクリップベースのラベルエンコーディングは解剖学的関係を捉え、25の臓器と6種類の腫瘍の構造的特徴を学習することができる。
提案モデルは14のデータセットの集合から開発され、合計3,410個のCTスキャンを使用してトレーニングを行い、3つの追加データセットから6,162個の外部CTスキャンで評価する。
医用セグメンテーション・デスロン(MSD)の公開リーダーボードにランクインし、BTCV(Beyond The Cranial Vault)で最先端の結果を得る。
さらに、Universal Modelはデータセット固有のモデルに比べて計算効率が良く(6倍高速)、様々なサイトからのCTスキャンより一般化され、新しいタスクにおいてより強力な転送学習性能を示す。 An increasing number of public datasets have shown a marked impact on automated organ segmentation and tumor detection. However, due to the small size and partially labeled problem of each dataset, as well as a limited investigation of diverse types of tumors, the resulting models are often limited to segmenting specific organs/tumors and ignore the semantics of anatomical structures, nor can they be extended to novel domains. To address these issues, we propose the CLIP-Driven Universal Model, which incorporates text embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models. This CLIP-based label encoding captures anatomical relationships, enabling the model to learn a structured feature embedding and segment 25 organs and 6 types of tumors. The proposed model is developed from an assembly of 14 datasets, using a total of 3,410 CT scans for training and then evaluated on 6,162 external CT scans from 3 additional datasets. We rank first on the Medical Segmentation Decathlon (MSD) public leaderboard and achieve state-of-the-art results on Beyond The Cranial Vault (BTCV). Additionally, the Universal Model is computationally more efficient (6x faster) compared with dataset-specific models, generalized better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks. | 翻訳日:2023-06-03 00:53:26 公開日:2023-05-31 |
# 重み空間における学習のための等価なアーキテクチャ Equivariant Architectures for Learning in Deep Weight Spaces ( http://arxiv.org/abs/2301.12780v2 ) ライセンス: Link先を確認 | Aviv Navon, Aviv Shamsian, Idan Achituve, Ethan Fetaya, Gal Chechik, Haggai Maron | (参考訳) ニューラルネットワークを生重量行列形式で処理するための機械学習アーキテクチャの設計は、新しく導入された研究方向である。
残念ながら、深い重み空間のユニークな対称性構造は、この設計を非常に困難にしている。
このようなアーキテクチャが成功すれば、トレーニング済みのネットワークを新しいドメインに適応させることから、関数として表現されるオブジェクト(INRやNeRF)の編集まで、幅広い興味深いタスクを実行できるようになるだろう。
この目標に向けての第一歩として、深層空間で学習するための新しいネットワークアーキテクチャを提案する。
これは、事前訓練されたMLPの重みとバイアスの結合を入力として取り、MLPの重みの自然な置換対称性に同値なレイヤーの合成を用いて処理する: MLPの中間層におけるニューロンの順序を変えることは、その表現する機能に影響を与えない。
これらの対称性に対する全てのアフィン同変層と不変層をフルに評価し、これらの層を3つの基本的な操作(プーリング、ブロードキャスト、完全に接続された層)を用いて適切に実装する方法を示す。
我々は,様々な学習タスクにおいて,自然ベースラインに対するアーキテクチャの有効性とそのアドバンテージを実証する。 Designing machine learning architectures for processing neural networks in their raw weight matrix form is a newly introduced research direction. Unfortunately, the unique symmetry structure of deep weight spaces makes this design very challenging. If successful, such architectures would be capable of performing a wide range of intriguing tasks, from adapting a pre-trained network to a new domain to editing objects represented as functions (INRs or NeRFs). As a first step towards this goal, we present here a novel network architecture for learning in deep weight spaces. It takes as input a concatenation of weights and biases of a pre-trained MLP and processes it using a composition of layers that are equivariant to the natural permutation symmetry of the MLP's weights: Changing the order of neurons in intermediate layers of the MLP does not affect the function it represents. We provide a full characterization of all affine equivariant and invariant layers for these symmetries and show how these layers can be implemented using three basic operations: pooling, broadcasting, and fully connected layers applied to the input in an appropriate manner. We demonstrate the effectiveness of our architecture and its advantages over natural baselines in a variety of learning tasks. | 翻訳日:2023-06-03 00:44:17 公開日:2023-05-31 |
# 火星への洞察を掘り起こす - 限られたデータで教師なしのソース分離 Unearthing InSights into Mars: Unsupervised Source Separation with Limited Data ( http://arxiv.org/abs/2301.11981v2 ) ライセンス: Link先を確認 | Ali Siahkoohi, Rudy Morel, Maarten V. de Hoop, Erwan Allys, Gr\'egory Sainton, Taichi Kawamura | (参考訳) ソース分離は、混合演算子を通して観測されたソース信号のセットを取得するという不適切な問題を含む。
この問題を解決するには、ソース信号に規則性条件を課すことや、既存のデータから教師なしまたは教師なしの方法を通じて暗黙的に学習することで一般的に取り入れられる事前知識が必要である。
データ駆動方式は、ソース分離において大きな可能性を秘めているが、惑星の宇宙ミッションでは滅多に存在しない大量のデータを必要とすることが多い。
この課題に対処するために、ウェーブレット散乱共分散表現空間$\unicode{x2014}$an 解釈可能な、定常過程の低次元表現における最適化問題を含む、限られたデータアクセスを持つ領域に対する教師なしソース分離方式を提案する。
我々は、nasaの火星探査ミッション中に地震計が記録したデータから、過渡的、熱誘起のマイクロチルト$\unicode{x2014}$ (glitches$\unicode{x2014}$) を取り除く実データ例を示す。
確率過程の非ガウス的性質を捉えるウェーブレット散乱共分散の能力により、数個のグリッチフリーデータスニペットを用いてグリッチを分離することができる。 Source separation involves the ill-posed problem of retrieving a set of source signals that have been observed through a mixing operator. Solving this problem requires prior knowledge, which is commonly incorporated by imposing regularity conditions on the source signals, or implicitly learned through supervised or unsupervised methods from existing data. While data-driven methods have shown great promise in source separation, they often require large amounts of data, which rarely exists in planetary space missions. To address this challenge, we propose an unsupervised source separation scheme for domains with limited data access that involves solving an optimization problem in the wavelet scattering covariance representation space$\unicode{x2014}$an interpretable, low-dimensional representation of stationary processes. We present a real-data example in which we remove transient, thermally-induced microtilts$\unicode{x2014}$known as glitches$\unicode{x2014}$from data recorded by a seismometer during NASA's InSight mission on Mars. Thanks to the wavelet scattering covariances' ability to capture non-Gaussian properties of stochastic processes, we are able to separate glitches using only a few glitch-free data snippets. | 翻訳日:2023-06-03 00:43:41 公開日:2023-05-31 |
# グラフ神経接核:大規模グラフ上の収束 Graph Neural Tangent Kernel: Convergence on Large Graphs ( http://arxiv.org/abs/2301.10808v2 ) ライセンス: Link先を確認 | Sanjukta Krishnagopal, Luana Ruiz | (参考訳) グラフニューラルネットワーク(gnns)は、グラフ機械学習タスクにおいて顕著な性能を発揮するが、その学習ダイナミクスが十分に理解されていない大規模グラフデータのトレーニングは困難である。
グラフニューラルタンジェントカーネル(GNTK)とグラフトンを用いた大規模グラフGNNのトレーニングダイナミクスについて検討する。
大きな幅の限界において、過度にパラメータ化されたNNの最適化はNTK上のカーネル回帰と等価である。
ここでは、GNTKが別の独立次元としてどのように進化するかを、グラフサイズとして検討する。
我々は、GNNのリミットオブジェクト(Graphon NN)とGNTKのグラフンNTK(Graphon NTK)を定義し、グラフのシーケンス上で、GNTKがグラフンNTKに収束することを証明する。
さらに、GNTKのスペクトルは、早期停止時に関連性を持つ高速学習の方向と関連し、グラノンNTKのスペクトルに収束することを示す。
これは、大グラフ極限において、中程度の大きさのグラフに収まるGNTKは、大グラフ上の同じタスクを解き、大グラフGNNの学習力学を推測するために使用できることを意味する。
これらの結果はノード回帰と分類タスクで実証的に検証される。 Graph neural networks (GNNs) achieve remarkable performance in graph machine learning tasks but can be hard to train on large-graph data, where their learning dynamics are not well understood. We investigate the training dynamics of large-graph GNNs using graph neural tangent kernels (GNTKs) and graphons. In the limit of large width, optimization of an overparametrized NN is equivalent to kernel regression on the NTK. Here, we investigate how the GNTK evolves as another independent dimension is varied: the graph size. We use graphons to define limit objects -- graphon NNs for GNNs, and graphon NTKs for GNTKs -- , and prove that, on a sequence of graphs, the GNTKs converge to the graphon NTK. We further prove that the spectrum of the GNTK, which is related to the directions of fastest learning which becomes relevant during early stopping, converges to the spectrum of the graphon NTK. This implies that in the large-graph limit, the GNTK fitted on a graph of moderate size can be used to solve the same task on the large graph, and to infer the learning dynamics of the large-graph GNN. These results are verified empirically on node regression and classification tasks. | 翻訳日:2023-06-03 00:42:24 公開日:2023-05-31 |
# 量子保護下での4万キロメーター Forty Thousand Kilometers Under Quantum Protection ( http://arxiv.org/abs/2301.10610v2 ) ライセンス: Link先を確認 | N. S. Kirsanov, V. A. Pastushenko, A. D. Kodukhov, M. V. Yarovikov, A. B. Sagingalieva, D. A. Kronberg, M. Pflitsch, and V. M. Vinokur | (参考訳) 量子鍵分布(QKD)は、量子コンピューティングによるサイバー攻撃の脅威が急速に増大していることに対する暗号の革命的応答である。
しかし、セキュアな量子通信の広大な拡張を制限するブロックは、送信された量子信号が距離で指数関数的に崩壊することである。
今日の量子暗号は、量子リピータに注目してこの問題を解決しようとしている。
しかし、十分な距離で効率よく安全な量子反復は、現代技術にはまだ及ばない。
ここでは、このパラダイムをシフトさせ、伝送された光量子状態に対する第2熱力学法則の量子基盤とエンドツーエンドの物理的監視に基づいて、QKDの長距離セキュリティを構築する。
この手法により、状態の波動特性と位相コヒーレンスを保持する光学増幅器により量子状態の繰り返しを実現することができる。
我々のアプローチによって達成できる前例のない安全な距離範囲は、将来のスケーラブルな量子耐性通信ネットワークの開発の扉を開く。 Quantum key distribution (QKD) is a revolutionary cryptography response to the rapidly growing cyberattacks threat posed by quantum computing. Yet, the roadblock limiting the vast expanse of secure quantum communication is the exponential decay of the transmitted quantum signal with the distance. Today's quantum cryptography is trying to solve this problem by focusing on quantum repeaters. However, efficient and secure quantum repetition at sufficient distances is still far beyond modern technology. Here, we shift the paradigm and build the long-distance security of the QKD upon the quantum foundations of the Second Law of Thermodynamics and end-to-end physical oversight over the transmitted optical quantum states. Our approach enables us to realize quantum states' repetition by optical amplifiers keeping states' wave properties and phase coherence. The unprecedented secure distance range attainable through our approach opens the door for the development of scalable quantum-resistant communication networks of the future. | 翻訳日:2023-06-03 00:42:02 公開日:2023-05-31 |
# 数学生のためのバックプロパゲーションアルゴリズム The Backpropagation algorithm for a math student ( http://arxiv.org/abs/2301.09977v3 ) ライセンス: Link先を確認 | Saeed Damadi, Golnaz Moharrer, Mostafa Cham | (参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は, ベクトル値関数の合成関数であり, DNNを訓練するためには, 全てのパラメータに対する損失関数の勾配を計算する必要がある。
この計算は、dnnの損失関数が複数の非線形関数の合成であり、それぞれに多数のパラメータを持つため、非自明なタスクである。
バックプロパゲーション(BP)アルゴリズムはDNNの合成構造を利用して勾配を効率的に計算する。
その結果、ネットワーク内のレイヤ数は計算の複雑さに大きく影響しない。
本稿では,ジャコビアン作用素を用いた行列乗法を用いて損失関数の勾配を表現することを目的とする。
これは各層のパラメータに対する全微分を考慮し、ジャコビアン行列として表現することで達成できる。
勾配はこれらのヤコビ行列の行列積として表すことができる。
このアプローチはベクトル値関数の合成に連鎖則を適用することができ、ヤコビ行列を用いることで複数の入力と出力を組み込むことができるので有効である。
簡潔な数学的正当化を提供することで、様々な分野から幅広い読者にその結果を理解し有用にすることができる。 A Deep Neural Network (DNN) is a composite function of vector-valued functions, and in order to train a DNN, it is necessary to calculate the gradient of the loss function with respect to all parameters. This calculation can be a non-trivial task because the loss function of a DNN is a composition of several nonlinear functions, each with numerous parameters. The Backpropagation (BP) algorithm leverages the composite structure of the DNN to efficiently compute the gradient. As a result, the number of layers in the network does not significantly impact the complexity of the calculation. The objective of this paper is to express the gradient of the loss function in terms of a matrix multiplication using the Jacobian operator. This can be achieved by considering the total derivative of each layer with respect to its parameters and expressing it as a Jacobian matrix. The gradient can then be represented as the matrix product of these Jacobian matrices. This approach is valid because the chain rule can be applied to a composition of vector-valued functions, and the use of Jacobian matrices allows for the incorporation of multiple inputs and outputs. By providing concise mathematical justifications, the results can be made understandable and useful to a broad audience from various disciplines. | 翻訳日:2023-06-03 00:41:50 公開日:2023-05-31 |
# 帯域フィードバックを伴う多周期マルチクラスパッケージ問題に対する改良アルゴリズム Improved Algorithms for Multi-period Multi-class Packing Problems with Bandit Feedback ( http://arxiv.org/abs/2301.13791v2 ) ライセンス: Link先を確認 | Wonyoung Kim, Garud Iyengar, Assaf Zeevi | (参考訳) 我々は, 消費の合計ベクトルが与えられた予算ベクトル以下であり, 総値が可能な限り大きいようなアイテムをパックすることを目的とした, 線形文脈的マルチ周期パッキング問題 (lmmp) を考える。
本稿では,各アクションに関連付けられた報酬と消費ベクトルがコンテキストのクラス依存線形関数であるような設定を考察し,意思決定者は帯域フィードバックを受け取る。
LMMPには、特殊なケースとして、knapsackとオンライン収益管理を備えた線形コンテキストバンドレットが含まれている。
我々は,より高速な収束率を保証する新しい推定器を構築し,その結果,そのような問題に対する後悔度を低くする。
推定パラメータの閉形式関数であるバンドポリシーを提案する。
文脈が非退化の場合、提案されたポリシーの後悔は文脈次元、クラス数、および予算が少なくとも$\sqrt{T}$として増加するときの時間地平線$T$のサブ線形である。
また、Agrawal & Devanur (2016) が提起したオープンな問題を解決し、結果をマルチクラス設定に拡張する。
数値実験により,我々の方針の性能が文献の他のベンチマークよりも優れていることが明らかとなった。 We consider the linear contextual multi-class multi-period packing problem (LMMP) where the goal is to pack items such that the total vector of consumption is below a given budget vector and the total value is as large as possible. We consider the setting where the reward and the consumption vector associated with each action is a class-dependent linear function of the context, and the decision-maker receives bandit feedback. LMMP includes linear contextual bandits with knapsacks and online revenue management as special cases. We establish a new estimator which guarantees a faster convergence rate, and consequently, a lower regret in such problems. We propose a bandit policy that is a closed-form function of said estimated parameters. When the contexts are non-degenerate, the regret of the proposed policy is sublinear in the context dimension, the number of classes, and the time horizon $T$ when the budget grows at least as $\sqrt{T}$. We also resolve an open problem posed by Agrawal & Devanur (2016) and extend the result to a multi-class setting. Our numerical experiments clearly demonstrate that the performance of our policy is superior to other benchmarks in the literature. | 翻訳日:2023-06-03 00:34:15 公開日:2023-05-31 |
# Delta$DPの廃止: デモグラフィックパーティのための新しい配布レベルメトリクス Retiring $\Delta$DP: New Distribution-Level Metrics for Demographic Parity ( http://arxiv.org/abs/2301.13443v2 ) ライセンス: Link先を確認 | Xiaotian Han, Zhimeng Jiang, Hongye Jin, Zirui Liu, Na Zou, Qifan Wang, Xia Hu | (参考訳) 人口格差は機械学習において最も広く認識されている集団公平度尺度であり、異なる集団の平等な扱いを保証する。
多くの作品は、一般的に使われる計量である$\delta dp$を追求することで、人口格差を達成することを目指している。
残念なことに、本論文では、フェアネス指標の$\Delta DP$は、本質的に以下の欠点があるため、人口統計学的平等違反を正確に測定することはできない。
i) ゼロ値$\Delta DP$は、人口比率のゼロ違反を保証しない。
i)$\Delta DP$値は、分類しきい値によって異なる。
そこで本研究では,確率密度関数曲線 (ABPC) と累積密度関数曲線 (ABCC) の2つの新しい公正度尺度を提案し,分布レベルでの人口統計学的等価性の違反を正確に測定する。
新しい公平度指標は、異なる人口統計グループに対する予測確率の分布の差を直接測定する。
そこで、提案する新しいメトリクスを楽しめます。
一 ABCC/ABPCは、人口格差のゼロを保障する。
二 ABCC/ABPCは、分類基準が調整されている間、人口格差を保証する。
さらに,提案する公平度指標を用いて,既存の公正度モデルを再評価し,新しい測定基準の下で異なる公平度挙動を観察する。
コードはhttps://github.com/ahxt/new_metric_for_demographic_parityで入手できる。 Demographic parity is the most widely recognized measure of group fairness in machine learning, which ensures equal treatment of different demographic groups. Numerous works aim to achieve demographic parity by pursuing the commonly used metric $\Delta DP$. Unfortunately, in this paper, we reveal that the fairness metric $\Delta DP$ can not precisely measure the violation of demographic parity, because it inherently has the following drawbacks: i) zero-value $\Delta DP$ does not guarantee zero violation of demographic parity, ii) $\Delta DP$ values can vary with different classification thresholds. To this end, we propose two new fairness metrics, Area Between Probability density function Curves (ABPC) and Area Between Cumulative density function Curves (ABCC), to precisely measure the violation of demographic parity at the distribution level. The new fairness metrics directly measure the difference between the distributions of the prediction probability for different demographic groups. Thus our proposed new metrics enjoy: i) zero-value ABCC/ABPC guarantees zero violation of demographic parity; ii) ABCC/ABPC guarantees demographic parity while the classification thresholds are adjusted. We further re-evaluate the existing fair models with our proposed fairness metrics and observe different fairness behaviors of those models under the new metrics. The code is available at https://github.com/ahxt/new_metric_for_demographic_parity | 翻訳日:2023-06-03 00:33:25 公開日:2023-05-31 |
# ConCerNet: 自動保存法発見と信頼できる動的システム予測のためのコントラスト学習ベースのフレームワーク ConCerNet: A Contrastive Learning Based Framework for Automated Conservation Law Discovery and Trustworthy Dynamical System Prediction ( http://arxiv.org/abs/2302.05783v2 ) ライセンス: Link先を確認 | Wang Zhang, Tsui-Wei Weng, Subhro Das, Alexandre Megretski, Luca Daniel, Lam M. Nguyen | (参考訳) ディープ・ニューラル・ネットワーク(dnn)は力学系をモデル化する能力が非常に高いが、保存則などの物理学上の制約に従わない。
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
ConCerNetは2つのステップから構成される。
一 軌跡観察に沿ったシステム不変量(すなわち保存特性)を自動的に把握するための対照的な学習方法
(ii)学習力学モデルが学習不変量を保存することを保証するための神経投射層。
理論的には、学習した潜在表現と未知系の不変関数との関数関係を証明している。
実験の結果,提案手法は座標誤差と保存量の両方において,ベースラインニューラルネットワークよりも高い性能を示すことがわかった。
ニューラルネットワークに基づくパラメータ化と事前知識に依存しないので、オートエンコーダを利用することで、我々の手法は複雑で大規模に動的に拡張できる。 Deep neural networks (DNN) have shown great capacity of modeling a dynamical system; nevertheless, they usually do not obey physics constraints such as conservation laws. This paper proposes a new learning framework named ConCerNet to improve the trustworthiness of the DNN based dynamics modeling to endow the invariant properties. ConCerNet consists of two steps: (i) a contrastive learning method to automatically capture the system invariants (i.e. conservation properties) along the trajectory observations; (ii) a neural projection layer to guarantee that the learned dynamics models preserve the learned invariants. We theoretically prove the functional relationship between the learned latent representation and the unknown system invariant function. Experiments show that our method consistently outperforms the baseline neural networks in both coordinate error and conservation metrics by a large margin. With neural network based parameterization and no dependence on prior knowledge, our method can be extended to complex and large-scale dynamics by leveraging an autoencoder. | 翻訳日:2023-06-03 00:24:22 公開日:2023-05-31 |
# 翻訳品質評価のための大規模言語モデル Large Language Models Are State-of-the-Art Evaluators of Translation Quality ( http://arxiv.org/abs/2302.14520v2 ) ライセンス: Link先を確認 | Tom Kocmi and Christian Federmann | (参考訳) 我々はgembaについて述べる。gembaはgptベースの翻訳品質評価指標で、参照翻訳と無翻訳の両方で動作する。
本評価では,ゼロショットプロンプトに着目し,参照の可利用性に基づいて4つのプロンプトを2つのモードで比較する。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
翻訳品質評価法は GPT~3.5 以上のモデルでのみ有効であることを示す。
WMT22のMetrics共有タスクの結果と比較して,本手法はMQMに基づく人間ラベルと比較して,両モードの最先端の精度を実現する。
WMT22Metricsの3つのタスク言語ペア、すなわち英語をドイツ語、英語をロシア語、中国語を英語に分けてシステムレベルで有効である。
これは、翻訳の品質評価のための事前学習された生成型大言語モデルの有用性を初めて垣間見ることができる。
当社は、この作業で記述された実験に使用されるすべてのコードとプロンプトテンプレート、および対応するスコア結果を公開して、外部の検証と再現性を実現しています。 We describe GEMBA, a GPT-based metric for assessment of translation quality, which works both with a reference translation and without. In our evaluation, we focus on zero-shot prompting, comparing four prompt variants in two modes, based on the availability of the reference. We investigate nine versions of GPT models, including ChatGPT and GPT-4. We show that our method for translation quality assessment only works with GPT~3.5 and larger models. Comparing to results from WMT22's Metrics shared task, our method achieves state-of-the-art accuracy in both modes when compared to MQM-based human labels. Our results are valid on the system level for all three WMT22 Metrics shared task language pairs, namely English into German, English into Russian, and Chinese into English. This provides a first glimpse into the usefulness of pre-trained, generative large language models for quality assessment of translations. We publicly release all our code and prompt templates used for the experiments described in this work, as well as all corresponding scoring results, to allow for external validation and reproducibility. | 翻訳日:2023-06-03 00:16:35 公開日:2023-05-31 |
# 言語誘導型エンボディードエージェントのためのマルチモーダル音声認識 Multimodal Speech Recognition for Language-Guided Embodied Agents ( http://arxiv.org/abs/2302.14030v2 ) ライセンス: Link先を確認 | Allen Chang, Xiaoyuan Zhu, Aarav Monga, Seoho Ahn, Tejas Srinivasan, Jesse Thomason | (参考訳) 言語誘導型エンボディエージェントのベンチマークは通常テキストベースの命令を仮定するが、デプロイされたエージェントは音声命令に遭遇する。
自動音声認識(ASR)モデルは入力ギャップを埋めることができるが、誤ったASR書き起こしはエージェントのタスク完了能力を損なう可能性がある。
そこで本研究では,マルチモーダルasrモデルの学習を行い,付随する視覚文脈を考慮した音声指示の書き起こし誤りを低減させる。
alfred task completionデータセットから合成した音声指示のデータセット上でモデルをトレーニングし,音声単語を体系的にマスキングすることで音響雑音をシミュレートした。
マルチモーダルASRモデルは,一助詞よりも最大30%のマスキング語を回復させることで,視覚的観察の活用によりマスキング語回復が促進されることがわかった。
また,マルチモーダルasrモデルから書き起こされた命令に従うことで,テキスト学習型エンボディエージェントがタスクをより多く完了できることがわかった。
github.com/Cylumn/embodied-multimodal-asr Benchmarks for language-guided embodied agents typically assume text-based instructions, but deployed agents will encounter spoken instructions. While Automatic Speech Recognition (ASR) models can bridge the input gap, erroneous ASR transcripts can hurt the agents' ability to complete tasks. In this work, we propose training a multimodal ASR model to reduce errors in transcribing spoken instructions by considering the accompanying visual context. We train our model on a dataset of spoken instructions, synthesized from the ALFRED task completion dataset, where we simulate acoustic noise by systematically masking spoken words. We find that utilizing visual observations facilitates masked word recovery, with multimodal ASR models recovering up to 30% more masked words than unimodal baselines. We also find that a text-trained embodied agent successfully completes tasks more often by following transcribed instructions from multimodal ASR models. github.com/Cylumn/embodied-multimodal-asr | 翻訳日:2023-06-03 00:16:17 公開日:2023-05-31 |
# ニオブ酸リチウムの誘電率および損失タンジェントのミルリキルビン測定 Millikelvin measurements of permittivity and loss tangent of lithium niobate ( http://arxiv.org/abs/2302.12916v4 ) ライセンス: Link先を確認 | Silvia Zorzetti, Changqing Wang, Ivan Gonin, Sergey Kazakov, Timergali Khabiboulline, Alexander Romanenko, Vyacheslav P Yakovlev, Anna Grassellino | (参考訳) ニオブ酸リチウムは電子光学材料であり、マイクロ波信号処理、通信、量子センシング、量子コンピューティングに多くの応用がある。
本報告では, ニオブ酸リチウムのミリケルビン温度における複素電磁誘電率の評価について述べる。
7GHz帯で動作し, 異方性誘電体を特徴付ける超電導高周波キャビティを用いた共振方式を用いて測定を行った。
相対誘電率テンソルと損失接点は前例のない精度で50mkで測定される。 Lithium Niobate is an electro-optic material with many applications in microwave signal processing, communication, quantum sensing, and quantum computing. In this letter, we present findings on evaluating the complex electromagnetic permittivity of lithium niobate at millikelvin temperatures. Measurements are carried out using a resonant-type method with a superconducting radio-frequency (SRF) cavity operating at 7 GHz and designed to characterize anisotropic dielectrics. The relative permittivity tensor and loss tangent are measured at 50 mK with unprecedented accuracy. | 翻訳日:2023-06-03 00:15:47 公開日:2023-05-31 |
# Aux-Drop:補助ドロップアウトを用いたオンライン学習におけるハファザード入力処理 Aux-Drop: Handling Haphazard Inputs in Online Learning Using Auxiliary Dropouts ( http://arxiv.org/abs/2303.05155v2 ) ライセンス: Link先を確認 | Rohit Agarwal, Deepak Gupta, Alexander Horsch and Dilip K. Prasad | (参考訳) オンライン学習に基づく現実世界のアプリケーションの多くは、本質的にハザードなストリーミングデータを生成する。すなわち、欠落した機能、時代遅れになった機能、後続の新機能の出現、入力機能の総数に対する明確さの欠如などである。
これらの課題は、そのようなアプリケーションのための学習可能なシステムを構築するのを難しくし、この問題に対処するディープラーニングの作業はほとんどありません。
本稿では,haphazard 入力機能を効果的に扱うオンライン学習のための補助的ドロップアウト正規化戦略である aux-drop を提案する。
aux-dropは、haphazard入力特徴空間の従来のドロップアウト正規化スキームを採用しており、最終的な出力がそのような特徴のカオス的外観によって最小限の影響を受けることを保証している。
これは、特に補助的特徴と基底的特徴の共適応を防止し、モデルの任意の補助的な入力に対する出力の強い依存を減らすのに役立つ。
これにより、特定の機能が時間内に消失したり、新機能がモデル化される場合のシナリオの学習が向上する。
Aux-Dropの有効性は、イタリア電力需要、HIGGS、SUSY、複数のUCIデータセットを含むSOTAベンチマークデータセットに関する広範な数値実験を通じて実証されている。
コードはhttps://github.com/rohit102497/aux-dropで入手できる。 Many real-world applications based on online learning produce streaming data that is haphazard in nature, i.e., contains missing features, features becoming obsolete in time, the appearance of new features at later points in time and a lack of clarity on the total number of input features. These challenges make it hard to build a learnable system for such applications, and almost no work exists in deep learning that addresses this issue. In this paper, we present Aux-Drop, an auxiliary dropout regularization strategy for online learning that handles the haphazard input features in an effective manner. Aux-Drop adapts the conventional dropout regularization scheme for the haphazard input feature space ensuring that the final output is minimally impacted by the chaotic appearance of such features. It helps to prevent the co-adaptation of especially the auxiliary and base features, as well as reduces the strong dependence of the output on any of the auxiliary inputs of the model. This helps in better learning for scenarios where certain features disappear in time or when new features are to be modelled. The efficacy of Aux-Drop has been demonstrated through extensive numerical experiments on SOTA benchmarking datasets that include Italy Power Demand, HIGGS, SUSY and multiple UCI datasets. The code is available at https://github.com/Rohit102497/Aux-Drop. | 翻訳日:2023-06-03 00:05:09 公開日:2023-05-31 |
# リカレントニューラルネットワークを用いた動的システムの長期統合のためのニューラルネットワーク学習 Neural Operator Learning for Long-Time Integration in Dynamical Systems with Recurrent Neural Networks ( http://arxiv.org/abs/2303.02243v2 ) ライセンス: Link先を確認 | Katarzyna Micha{\l}owska and Somdatta Goswami and George Em Karniadakis and Signe Riemer-S{\o}rensen | (参考訳) ディープニューラルネットワークは複雑な力学系をシミュレートする魅力的な代替手段であり、従来の科学計算法と比較すると、推論中に計算コストを削減し、観測データから直接訓練することができる。
しかし、既存のメソッドは正確な外挿はできず、長期間の統合ではエラーの蓄積が起こりやすい。
本稿では、ニューラル演算子とリカレントニューラルネットワークを組み合わせることで、新しい効率的なアーキテクチャを構築することでこの問題に対処する。
新しいハイブリッドモデルは、時間的依存関係をキャプチャする繰り返し構造を提供しながら、オペレータ学習に基づいている。
統合されたフレームワークは解を安定化し、コルテヴェーグ・ド・ブリーズ方程式の補間と外挿の両方の誤差蓄積を低減する。 Deep neural networks are an attractive alternative for simulating complex dynamical systems, as in comparison to traditional scientific computing methods, they offer reduced computational costs during inference and can be trained directly from observational data. Existing methods, however, cannot extrapolate accurately and are prone to error accumulation in long-time integration. Herein, we address this issue by combining neural operators with recurrent neural networks to construct a novel and effective architecture, resulting in superior accuracy compared to the state-of-the-art. The new hybrid model is based on operator learning while offering a recurrent structure to capture temporal dependencies. The integrated framework is shown to stabilize the solution and reduce error accumulation for both interpolation and extrapolation of the Korteweg-de Vries equation. | 翻訳日:2023-06-03 00:04:16 公開日:2023-05-31 |
# Almanac:臨床医学のための検索言語モデル Almanac: Retrieval-Augmented Language Models for Clinical Medicine ( http://arxiv.org/abs/2303.01229v2 ) ライセンス: Link先を確認 | Cyril Zakka, Akash Chaurasia, Rohan Shad, Alex R. Dalal, Jennifer L. Kim, Michael Moor, Kevin Alexander, Euan Ashley, Jack Boyd, Kathleen Boyd, Karen Hirsch, Curt Langlotz, Joanna Nelson, and William Hiesinger | (参考訳) 大規模言語モデルは最近、要約、対話生成、質問応答など、さまざまな自然言語タスクにおいて印象的なゼロショット能力を示している。
臨床医学における多くの有望な応用にもかかわらず、現実の環境でのこれらのモデルの採用は、誤った、時には有毒なステートメントを生み出す傾向によって大きく制限されている。
本研究では,医療ガイドラインや治療勧告の検索機能を備えた大規模言語モデルフレームワークalmanacを開発した。
臨床シナリオの新たなデータセット(n = 130)の性能は、5人の医師と医師のパネルで評価され、すべての専門分野において事実性(p値が18% < 0.05)が著しく増加し、完全性と安全性が向上した。
以上の結果から,大規模言語モデルが臨床的意思決定プロセスにおいて有効なツールとなる可能性を示すとともに,その欠点を軽減するための注意深いテストと展開の重要性を強調した。 Large-language models have recently demonstrated impressive zero-shot capabilities in a variety of natural language tasks such as summarization, dialogue generation, and question-answering. Despite many promising applications in clinical medicine, adoption of these models in real-world settings has been largely limited by their tendency to generate incorrect and sometimes even toxic statements. In this study, we develop Almanac, a large language model framework augmented with retrieval capabilities for medical guideline and treatment recommendations. Performance on a novel dataset of clinical scenarios (n = 130) evaluated by a panel of 5 board-certified and resident physicians demonstrates significant increases in factuality (mean of 18% at p-value < 0.05) across all specialties, with improvements in completeness and safety. Our results demonstrate the potential for large language models to be effective tools in the clinical decision-making process, while also emphasizing the importance of careful testing and deployment to mitigate their shortcomings. | 翻訳日:2023-06-03 00:03:45 公開日:2023-05-31 |
# End-to-End Diffusion Latent Optimization による分類指導の改善 End-to-End Diffusion Latent Optimization Improves Classifier Guidance ( http://arxiv.org/abs/2303.13703v2 ) ライセンス: Link先を確認 | Bram Wallace, Akash Gokul, Stefano Ermon, Nikhil Naik | (参考訳) 画像分類器の勾配を利用して拡散モデルの世代を操縦する分類器ガイダンスは、画像生成と編集に対する創造的なコントロールを劇的に拡大する可能性がある。
しかし、現在分類器指導は、正確な勾配を得るために新しいノイズ認識モデルを訓練するか、最終世代の1ステップの近似を用いて、不整合勾配と準最適制御をもたらす。
我々は,この近似の欠点を強調し,新しいガイダンス手法を提案する。 拡散遅延の直接最適化(DOODL)は,メモリ効率の高いバックプロパゲーションを実現するために,非可逆拡散プロセスを用いて,事前学習された分類器の真の画素への勾配を最適化することにより,プラグアンドプレイのガイダンスを可能にする。
より正確なガイダンスの可能性を示すために、DOODLは、計算と人的評価のメトリクスに関する一段階の分類器ガイダンスを、さまざまな形式のガイダンスで上回り、CLIPガイダンスを使用して、DrawBenchからの複雑なプロンプトの世代を改良し、きめ細かい視覚分類器を使用して、安定拡散の語彙を拡大し、CLIPビジュアルエンコーダで画像条件付き生成を可能にし、美的評価ネットワークを使用して画像美学を改善する。
コード: https://github.com/salesforce/doodl。 Classifier guidance -- using the gradients of an image classifier to steer the generations of a diffusion model -- has the potential to dramatically expand the creative control over image generation and editing. However, currently classifier guidance requires either training new noise-aware models to obtain accurate gradients or using a one-step denoising approximation of the final generation, which leads to misaligned gradients and sub-optimal control. We highlight this approximation's shortcomings and propose a novel guidance method: Direct Optimization of Diffusion Latents (DOODL), which enables plug-and-play guidance by optimizing diffusion latents w.r.t. the gradients of a pre-trained classifier on the true generated pixels, using an invertible diffusion process to achieve memory-efficient backpropagation. Showcasing the potential of more precise guidance, DOODL outperforms one-step classifier guidance on computational and human evaluation metrics across different forms of guidance: using CLIP guidance to improve generations of complex prompts from DrawBench, using fine-grained visual classifiers to expand the vocabulary of Stable Diffusion, enabling image-conditioned generation with a CLIP visual encoder, and improving image aesthetics using an aesthetic scoring network. Code at https://github.com/salesforce/DOODL. | 翻訳日:2023-06-02 23:54:35 公開日:2023-05-31 |
# 資源制約組み込みデバイスにおけるBERTベースNLPモデルの展開の課題 Exploring Challenges of Deploying BERT-based NLP Models in Resource-Constrained Embedded Devices ( http://arxiv.org/abs/2304.11520v2 ) ライセンス: Link先を確認 | Souvika Sarkar, Mohammad Fakhruddin Babar, Md Mahadi Hassan, Monowar Hasan, and Shubhra Kanti Karmaker Santu | (参考訳) BERTベースのニューラルアーキテクチャは、多くの下流NLPタスクにおいて、最先端のベースラインとして人気を博している。
しかしながら、これらのアーキテクチャはデータ不足であり、多くのメモリとエネルギーを消費し、多くの場合、リアルタイムでリソースに制約のある多くのアプリケーションへのデプロイメントを妨げる。
既存のBERTの軽量バージョン(例えば DistilBERT や TinyBERT)は複雑な NLP タスクではうまく動作しないことが多い。
さらに重要なことは、デザイナの観点からは、利用可能なリソースとエンドユーザが望む最小限の精度との間の最適なトレードオフを打つことができる、与えられたNLPタスクに「正しい」BERTベースのアーキテクチャが何を使用するかは明らかではない。
システムエンジニアは、この質問に答えるために、試行錯誤実験に多くの時間を費やしなければならない。
本稿では,この資源/精度トレードオフに関する経験的考察を導き出すため,異なる資源制約と精度予算下でのBERTモデルに関する探索的研究を行う。
我々の発見は、組み込みシステムのための代替のBERTベースのアーキテクチャにおいて、設計者が情報を得るのに役立つ。 BERT-based neural architectures have established themselves as popular state-of-the-art baselines for many downstream NLP tasks. However, these architectures are data-hungry and consume a lot of memory and energy, often hindering their deployment in many real-time, resource-constrained applications. Existing lighter versions of BERT (eg. DistilBERT and TinyBERT) often cannot perform well on complex NLP tasks. More importantly, from a designer's perspective, it is unclear what is the "right" BERT-based architecture to use for a given NLP task that can strike the optimal trade-off between the resources available and the minimum accuracy desired by the end user. System engineers have to spend a lot of time conducting trial-and-error experiments to find a suitable answer to this question. This paper presents an exploratory study of BERT-based models under different resource constraints and accuracy budgets to derive empirical observations about this resource/accuracy trade-offs. Our findings can help designers to make informed choices among alternative BERT-based architectures for embedded systems, thus saving significant development time and effort. | 翻訳日:2023-06-02 23:46:25 公開日:2023-05-31 |
# 大規模言語モデルにおける創発的および予測可能な記憶 Emergent and Predictable Memorization in Large Language Models ( http://arxiv.org/abs/2304.11158v2 ) ライセンス: Link先を確認 | Stella Biderman and USVSN Sai Prashanth and Lintang Sutawika and Hailey Schoelkopf and Quentin Anthony and Shivanshu Purohit and Edward Raff | (参考訳) 言語モデルが安全にデプロイされる上では、暗記化や、トレーニングデータからシーケンス全体を出力するllm(large language model)の傾向が重要な関心事である。
特に、個人識別情報(PII)を含むモデルにおいて、機密データポイントの記憶を最小化することが不可欠である。
このような望ましくない記憶の頻度は、モデルトレーナーに問題を引き起こす可能性があり、そうでない機能モデルを捨てる必要さえある。
そこで,本研究では,大規模モデルのフルトレインタイム前に,低速トライアルの記憶動作を補間することにより,どのシーケンスが記憶されるかを予測する。
我々は,Pythiaモデルスイートの記憶度を測定し,記憶度を予測するためのスケーリング法則をプロットし,そのような予測の信頼性(リコール)を最大化するための等価な勧告を提供する。
さらに、モデルとデータ間での暗記スコアの分布に関する新たな発見も提供する。
結果の再現に必要なすべてのコードとデータをhttps://github.com/eleutherai/pythiaで公開します。 Memorization, or the tendency of large language models (LLMs) to output entire sequences from their training data verbatim, is a key concern for safely deploying language models. In particular, it is vital to minimize a model's memorization of sensitive datapoints such as those containing personal identifiable information (PII). The prevalence of such undesirable memorization can pose issues for model trainers, and may even require discarding an otherwise functional model. We therefore seek to predict which sequences will be memorized before a large model's full train-time by extrapolating the memorization behavior of lower-compute trial runs. We measure memorization of the Pythia model suite and plot scaling laws for forecasting memorization, allowing us to provide equi-compute recommendations to maximize the reliability (recall) of such predictions. We additionally provide further novel discoveries on the distribution of memorization scores across models and data. We release all code and data necessary to reproduce the results in this paper at https://github.com/EleutherAI/pythia | 翻訳日:2023-06-02 23:46:05 公開日:2023-05-31 |
# 異なる種類のがんの分類のための efficientnet アルゴリズム EfficientNet Algorithm for Classification of Different Types of Cancer ( http://arxiv.org/abs/2304.08715v2 ) ライセンス: Link先を確認 | Romario Sameh Samir | (参考訳) 早期発見と効果的な治療には, がんの分類の正確かつ効率的な分類が不可欠である。
本稿では,脳腫瘍,乳癌,乳癌,皮膚がんの分類のためのEfficientNetアルゴリズムを用いた実験結果について述べる。
公開データセットを使用して、一貫性と互換性を確保するために、イメージを前処理しました。
実験の結果,EfficientNetアルゴリズムは各がんデータセットの精度,精度,リコール,F1スコアを達成し,他の最先端アルゴリズムよりも優れていることがわかった。
また, efficientnetアルゴリズムの長所と短所,臨床応用の可能性についても考察した。
以上の結果から, efficientnetアルゴリズムはがんの分類に適しており,がん診断の正確性と効率を向上させるのに有用であることが示唆された。 Accurate and efficient classification of different types of cancer is critical for early detection and effective treatment. In this paper, we present the results of our experiments using the EfficientNet algorithm for classification of brain tumor, breast cancer mammography, chest cancer, and skin cancer. We used publicly available datasets and preprocessed the images to ensure consistency and comparability. Our experiments show that the EfficientNet algorithm achieved high accuracy, precision, recall, and F1 scores on each of the cancer datasets, outperforming other state-of-the-art algorithms in the literature. We also discuss the strengths and weaknesses of the EfficientNet algorithm and its potential applications in clinical practice. Our results suggest that the EfficientNet algorithm is well-suited for classification of different types of cancer and can be used to improve the accuracy and efficiency of cancer diagnosis. | 翻訳日:2023-06-02 23:45:12 公開日:2023-05-31 |
# オンライン教師なし時系列予測のための脳インスパイクスパイクニューラルネットワーク Brain-Inspired Spiking Neural Network for Online Unsupervised Time Series Prediction ( http://arxiv.org/abs/2304.04697v2 ) ライセンス: Link先を確認 | Biswadeep Chakraborty, Saibal Mukhopadhyay | (参考訳) 進化する動的システムを予測するためのエネルギーとデータ効率のオンライン時系列予測は、いくつかの分野、特にストリーミングデータに基づいて継続的に更新する必要があるエッジAIアプリケーションにおいて重要である。
しかし、現在のDNNベースの教師付きオンライン学習モデルでは、大量のトレーニングデータが必要であり、基礎となるシステムが変化しても迅速に適応できない。
さらに、これらのモデルは、入ってくるデータと連続的なリトレーニングを必要とし、非常に非効率である。
これらの問題を解決するために, スパイクタイミング依存型可塑性(STDP)を訓練した, 連続学習に基づく教師なしリカレントスパイクニューラルネットワークモデル(CLURSNN)を提案する。
CLURSNNは、RSNNのリカレント層におけるニューロンの膜電位を最大間隔で測定することで、ランダム遅延埋め込みを用いて基礎となる力学系を再構築することで、オンライン予測を行う。
また、トポロジカルデータ解析を用いて、予測された時系列と観測された時系列の永続ホモロジー間のワッサーシュタイン距離を損失関数として用いた新しい手法を提案する。
提案手法は,進化するロレンツ63力学系を予測する際に,最先端のDNNモデルよりも優れていることを示す。 Energy and data-efficient online time series prediction for predicting evolving dynamical systems are critical in several fields, especially edge AI applications that need to update continuously based on streaming data. However, current DNN-based supervised online learning models require a large amount of training data and cannot quickly adapt when the underlying system changes. Moreover, these models require continuous retraining with incoming data making them highly inefficient. To solve these issues, we present a novel Continuous Learning-based Unsupervised Recurrent Spiking Neural Network Model (CLURSNN), trained with spike timing dependent plasticity (STDP). CLURSNN makes online predictions by reconstructing the underlying dynamical system using Random Delay Embedding by measuring the membrane potential of neurons in the recurrent layer of the RSNN with the highest betweenness centrality. We also use topological data analysis to propose a novel methodology using the Wasserstein Distance between the persistence homologies of the predicted and observed time series as a loss function. We show that the proposed online time series prediction methodology outperforms state-of-the-art DNN models when predicting an evolving Lorenz63 dynamical system. | 翻訳日:2023-06-02 23:43:58 公開日:2023-05-31 |
# 拡散オーダの最大近似推定のための改良手法 Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs ( http://arxiv.org/abs/2305.03935v2 ) ライセンス: Link先を確認 | Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu | (参考訳) 拡散モデルは様々な領域で優れた性能を示した。
拡散モデルの確率フロー常微分方程式(英: probability flow normal differential equation, ode)は、連続正規化フロー(cnfs)の特別な場合であり、決定論的推論と正確な確率評価を可能にする。
しかし、拡散ODEによる確率推定結果は、まだ最先端の確率ベース生成モデルとはかけ離れている。
そこで本研究では,実験と評価の両面から,拡散型ODEの最大推定精度を向上する手法を提案する。
学習のために,速度パラメータ化を提案し,より高速な収束のための分散低減手法を検討する。
また, ミスバウンドな高次流れマッチングを微調整の目的とし, ODEの精度を向上し, 軌道の平滑化を図る。
評価のために,拡散オデムに共通に存在するトレーニング評価ギャップを埋めるための,新しいトレーニングフリー・トランケート正規化法を提案する。
これらの手法を用いて,画像データセット(CIFAR-10では2.56,ImageNet-32では3.43/3.69)の変動分数化やデータ拡張を伴わず,最先端の推定結果が得られる。 Diffusion models have exhibited excellent performance in various domains. The probability flow ordinary differential equation (ODE) of diffusion models (i.e., diffusion ODEs) is a particular case of continuous normalizing flows (CNFs), which enables deterministic inference and exact likelihood evaluation. However, the likelihood estimation results by diffusion ODEs are still far from those of the state-of-the-art likelihood-based generative models. In this work, we propose several improved techniques for maximum likelihood estimation for diffusion ODEs, including both training and evaluation perspectives. For training, we propose velocity parameterization and explore variance reduction techniques for faster convergence. We also derive an error-bounded high-order flow matching objective for finetuning, which improves the ODE likelihood and smooths its trajectory. For evaluation, we propose a novel training-free truncated-normal dequantization to fill the training-evaluation gap commonly existing in diffusion ODEs. Building upon these techniques, we achieve state-of-the-art likelihood estimation results on image datasets (2.56 on CIFAR-10, 3.43/3.69 on ImageNet-32) without variational dequantization or data augmentation. | 翻訳日:2023-06-02 23:37:25 公開日:2023-05-31 |
# 適度偏差理論による最適学習 Optimal Learning via Moderate Deviations Theory ( http://arxiv.org/abs/2305.14496v2 ) ライセンス: Link先を確認 | Arnab Ganguly, Tobias Sutter | (参考訳) 本稿では,確率的プログラミング問題や様々なSDEモデルとして記述された期待損失の一般パラメータ推定を含む,幅広いモデルにおける信頼区間を用いた関数値の統計的最適学習手法を提案する。
より正確には、適度な偏差原理に基づくアプローチを用いて、高精度な信頼区間を体系的に構築する。
提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
この手法によって示唆される信頼区間は、データ生成過程によって引き起こされる中程度の偏差率関数によって不確実性が表現されるロバスト最適化問題の解として表現される。
多くのモデルにおいて、これらの最適化問題は無限次元であっても有限凸プログラムとして扱いやすい再構成を許すことを実証する。 This paper proposes a statistically optimal approach for learning a function value using a confidence interval in a wide range of models, including general non-parametric estimation of an expected loss described as a stochastic programming problem or various SDE models. More precisely, we develop a systematic construction of highly accurate confidence intervals by using a moderate deviation principle-based approach. It is shown that the proposed confidence intervals are statistically optimal in the sense that they satisfy criteria regarding exponential accuracy, minimality, consistency, mischaracterization probability, and eventual uniformly most accurate (UMA) property. The confidence intervals suggested by this approach are expressed as solutions to robust optimization problems, where the uncertainty is expressed via the underlying moderate deviation rate function induced by the data-generating process. We demonstrate that for many models these optimization problems admit tractable reformulations as finite convex programs even when they are infinite-dimensional. | 翻訳日:2023-06-02 23:26:12 公開日:2023-05-31 |
# プレトレーニング音声埋め込みを用いたASD児の音声言語発達の理解 Understanding Spoken Language Development of Children with ASD Using Pre-trained Speech Embeddings ( http://arxiv.org/abs/2305.14117v2 ) ライセンス: Link先を確認 | Anfeng Xu, Rajat Hebbar, Rimita Lahiri, Tiantian Feng, Lindsay Butler, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan | (参考訳) 音声処理技術は自閉症スペクトラム障害(ASD)児の音声・言語発達を解析するのに有用である。
早期診断と介入は重要であるが,介護者報告のような従来の評価手法は,必要な行動表現型付けには不十分である。
自然言語サンプル(NLS)分析は有望な補完として注目されている。
研究者は、NLSの分析により取得可能な、ASDを持つ小児の音声言語能力のベンチマークを開発した。
本稿では,子供と成人の音声とNLSにおける音声・非言語音声の分類による言語発達の自動評価を支援するための音声処理技術の応用を提案し,それぞれのF1マクロスコアが82.6%,67.8%であり,ASD研究および臨床応用のための正確でスケーラブルなツールの可能性について考察する。 Speech processing techniques are useful for analyzing speech and language development in children with Autism Spectrum Disorder (ASD), who are often varied and delayed in acquiring these skills. Early identification and intervention are crucial, but traditional assessment methodologies such as caregiver reports are not adequate for the requisite behavioral phenotyping. Natural Language Sample (NLS) analysis has gained attention as a promising complement. Researchers have developed benchmarks for spoken language capabilities in children with ASD, obtainable through the analysis of NLS. This paper proposes applications of speech processing technologies in support of automated assessment of children's spoken language development by classification between child and adult speech and between speech and nonverbal vocalization in NLS, with respective F1 macro scores of 82.6% and 67.8%, underscoring the potential for accurate and scalable tools for ASD research and clinical use. | 翻訳日:2023-06-02 23:25:58 公開日:2023-05-31 |
# 実世界政策最適化のためのサイクル調整のコスト削減 Reducing the Cost of Cycle-Time Tuning for Real-World Policy Optimization ( http://arxiv.org/abs/2305.05760v2 ) ライセンス: Link先を確認 | Homayoon Farrahi and A. Rupam Mahmood | (参考訳) 継続的強化学習タスクは一般的に、アクションに固定サイクル時間の離散的なステップを使用する。
実践者は与えられたタスクのアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータが現実世界のロボティクスでは禁止されているサイクル時間の選択ごとに再調整する必要があるかどうかが重要な懸念事項である。
本研究では,2つのポリシー勾配アルゴリズム(ppoとsac)のベースラインハイパーパラメータ値を,異なるサイクル時間にわたって検討する。
両アルゴリズムのベースラインハイパーパラメータが正常に動作しているベンチマークタスクを用いて、タスクデフォルトとは異なるサイクル時間を選択すると、ベースラインハイパーパラメータを持つPPOが学習に失敗することを明らかにする。
さらに、ベースラインのハイパーパラメータを持つPPOとSACは、サイクル時間毎に調整された値よりも大幅に低下する。
サイクル時間に基づいてこれらのハイパーパラメータを設定するための新しい手法を提案する。
シミュレーションおよび実世界のロボットタスクの実験において,提案手法は,少なくともベースラインのハイパーパラメータと同様に,サイクルタイムのほとんどの選択において有意に優れた性能を示し,サイクルタイムの学習に失敗することはなかった。
ハイパーパラメータチューニングは、我々のアプローチでは新しいタスクにいくつかの初期チューニングを必要とするため、実世界のロボティクスにとって依然として重要な障壁です。
提案手法では,与えられたタスクに対してサイクル時間を変更した後に追加のチューニングを必要とせず,現実世界のポリシー最適化のために,広範かつコストのかかるハイパーパラメータチューニングを回避するためのステップとなる。 Continuous-time reinforcement learning tasks commonly use discrete steps of fixed cycle times for actions. As practitioners need to choose the action-cycle time for a given task, a significant concern is whether the hyper-parameters of the learning algorithm need to be re-tuned for each choice of the cycle time, which is prohibitive for real-world robotics. In this work, we investigate the widely-used baseline hyper-parameter values of two policy gradient algorithms -- PPO and SAC -- across different cycle times. Using a benchmark task where the baseline hyper-parameters of both algorithms were shown to work well, we reveal that when a cycle time different than the task default is chosen, PPO with baseline hyper-parameters fails to learn. Moreover, both PPO and SAC with their baseline hyper-parameters perform substantially worse than their tuned values for each cycle time. We propose novel approaches for setting these hyper-parameters based on the cycle time. In our experiments on simulated and real-world robotic tasks, the proposed approaches performed at least as well as the baseline hyper-parameters, with significantly better performance for most choices of the cycle time, and did not result in learning failure for any cycle time. Hyper-parameter tuning still remains a significant barrier for real-world robotics, as our approaches require some initial tuning on a new task, even though it is negligible compared to an extensive tuning for each cycle time. Our approach requires no additional tuning after the cycle time is changed for a given task and is a step toward avoiding extensive and costly hyper-parameter tuning for real-world policy optimization. | 翻訳日:2023-06-02 23:24:28 公開日:2023-05-31 |
# 知覚-NeRF:拡散モデルからの擬似観測によるNeRF再構成の促進 Deceptive-NeRF: Enhancing NeRF Reconstruction using Pseudo-Observations from Diffusion Models ( http://arxiv.org/abs/2305.15171v2 ) ライセンス: Link先を確認 | Xinhang Liu, Shiu-hong Kao, Jiaben Chen, Yu-Wing Tai, Chi-Keung Tang | (参考訳) 本稿では,合成擬似観測を用いて再構成されたNeRFモデルの品質を向上させるための新しい手法であるDeceptive-NeRFについて紹介する。
提案手法には3つの重要なステップがある。
1) 粗いNeRFモデルをスパース入力から再構成すること。
2) 粗いモデルに基づいて擬似観測を生成する。
3) 擬似観測を用いてNeRFモデルを改良し, 高品質な再構成を実現する。
粗いrgb画像と、入力画像から埋め込まれた粗いnerfおよび潜在テキストから派生した深度マップに基づいて、粗いrgb画像と条件付き画像を生成できる整流潜在拡散モデルを開発し、再構成されたシーンの同一性を忠実に保存するフォトリアリスティックな擬似観測を生成する。
広汎な実験により,本手法は有効であり,非常に少ない入力でも知覚的に高品質なNeRFを生成できることが判明した。 This paper introduces Deceptive-NeRF, a new method for enhancing the quality of reconstructed NeRF models using synthetically generated pseudo-observations, capable of handling sparse input and removing floater artifacts. Our proposed method involves three key steps: 1) reconstruct a coarse NeRF model from sparse inputs; 2) generate pseudo-observations based on the coarse model; 3) refine the NeRF model using pseudo-observations to produce a high-quality reconstruction. To generate photo-realistic pseudo-observations that faithfully preserve the identity of the reconstructed scene while remaining consistent with the sparse inputs, we develop a rectification latent diffusion model that generates images conditional on a coarse RGB image and depth map, which are derived from the coarse NeRF and latent text embedding from input images. Extensive experiments show that our method is effective and can generate perceptually high-quality NeRF even with very sparse inputs. | 翻訳日:2023-06-02 21:36:54 公開日:2023-05-31 |
# NLPのすべての再現性:初心者の経験を理解する NLP Reproducibility For All: Understanding Experiences of Beginners ( http://arxiv.org/abs/2305.16579v2 ) ライセンス: Link先を確認 | Shane Storks, Keunwoo Peter Yu, Ziqiao Ma, Joyce Chai | (参考訳) 自然言語処理 (NLP) は近年, 前例のないほど興奮感を呈しており, この分野への参入を熱望する人々が増えていることから, 初心者グループにとって最新の研究成果が有効かどうかは不明である。
本研究は,最近のNLP論文の成果を再現した入門NLPコースにおいて,93名の学生を対象に調査を行った。
驚いたことに、彼らのプログラミングスキルと研究論文の理解は、エクササイズを完了するのに費やした努力に限定的な影響を与えている。
その代わり、完全なドキュメンテーション、より良いコーディングプラクティス、データファイルへのアクセスの容易化など、研究者によるアクセシビリティの取り組みが成功の鍵となることが分かっています。
今後は、NLP研究者がこれらの簡単な側面に注意を払って作業をオープンソース化し、初心者のフィードバックからの洞察を使って、より優れたサポート方法に関する実用的なアイデアを提供することを推奨する。 As natural language processing (NLP) has recently seen an unprecedented level of excitement, and more people are eager to enter the field, it is unclear whether current research reproducibility efforts are sufficient for this group of beginners to apply the latest developments. To understand their needs, we conducted a study with 93 students in an introductory NLP course, where students reproduced the results of recent NLP papers. Surprisingly, we find that their programming skill and comprehension of research papers have a limited impact on their effort spent completing the exercise. Instead, we find accessibility efforts by research authors to be the key to success, including complete documentation, better coding practice, and easier access to data files. Going forward, we recommend that NLP researchers pay close attention to these simple aspects of open-sourcing their work, and use insights from beginners' feedback to provide actionable ideas on how to better support them. | 翻訳日:2023-06-02 21:25:51 公開日:2023-05-31 |
# 効率的な伝達学習のための解釈モデルへのBlackBoxの蒸留 Distilling BlackBox to Interpretable models for Efficient Transfer Learning ( http://arxiv.org/abs/2305.17303v2 ) ライセンス: Link先を確認 | Shantanu Ghosh, Ke Yu, Kayhan Batmanghelich | (参考訳) 一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。
放射線科医は、異常の一般的な記述規則に依存するが、ニューラルネットワーク(nn)モデルは、入力分布(例えばスキャナタイプ)のわずかな変化でも苦しむ。
あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。
本稿では,最小の計算コストで対象領域に効率的に微調整可能な解釈可能なモデルを開発した。
NNの解釈可能なコンポーネントは、ほぼドメイン不変であると仮定する。
しかし、解釈可能なモデルは一般的にブラックボックス(BB)の派生モデルと比べて性能が劣る。
まずソース領域のBBから始まり、人間の理解可能な概念を用いて浅い解釈可能なモデルのemph{mixture}に蒸留する。
各解釈可能なモデルはデータのサブセットをカバーするため、解釈可能なモデルの混合はBBと同等のパフォーマンスを達成する。
さらに、準教師付き学習(SSL)の擬似ラベル技術を用いて、対象領域における概念分類器を学習し、続いて対象領域における解釈可能なモデルを微調整する。
実生活型大規模胸部X線分類データセットを用いて本モデルの評価を行った。
コードは以下の通りである。 \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}。 Building generalizable AI models is one of the primary challenges in the healthcare domain. While radiologists rely on generalizable descriptive rules of abnormality, Neural Network (NN) models suffer even with a slight shift in input distribution (e.g., scanner type). Fine-tuning a model to transfer knowledge from one domain to another requires a significant amount of labeled data in the target domain. In this paper, we develop an interpretable model that can be efficiently fine-tuned to an unseen target domain with minimal computational cost. We assume the interpretable component of NN to be approximately domain-invariant. However, interpretable models typically underperform compared to their Blackbox (BB) variants. We start with a BB in the source domain and distill it into a \emph{mixture} of shallow interpretable models using human-understandable concepts. As each interpretable model covers a subset of data, a mixture of interpretable models achieves comparable performance as BB. Further, we use the pseudo-labeling technique from semi-supervised learning (SSL) to learn the concept classifier in the target domain, followed by fine-tuning the interpretable models in the target domain. We evaluate our model using a real-life large-scale chest-X-ray (CXR) classification dataset. The code is available at: \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}. | 翻訳日:2023-06-02 21:15:39 公開日:2023-05-31 |
# 非矩形不確かさ集合をもつロバストMDPのポリシー勾配アルゴリズム Policy Gradient Algorithms for Robust MDPs with Non-Rectangular Uncertainty Sets ( http://arxiv.org/abs/2305.19004v2 ) ライセンス: Link先を確認 | Mengmeng Li, Tobias Sutter, Daniel Kuhn | (参考訳) 非矩形不確実性集合を持つロバストな無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案し、ロバストなMDP文献におけるオープンな課題に対処する。
実際、統計的最適性特性を示し、限られたデータの最適利用を行う不確実性集合は長方形でないことが多い。
残念なことに、対応する堅牢なMDPは動的プログラミング技術では解決できず、実際は難解である。
これにより,グローバルな最適性保証を提供するロバストポリシー評価問題に適したランゲヴィン動的アルゴリズムの開発が促される。
また,ロバストな政策評価問題を概ね解く決定論的政策勾配法を提案し,不確実性集合の非正方性の新しい尺度を用いて近似誤差がスケールすることを示す。
数値実験により,予測したランジュバンダイナミクスアルゴリズムは局所光学を逃れることができたが,矩形不確かさに合わせたアルゴリズムはそうはならなかった。 We propose a policy gradient algorithm for robust infinite-horizon Markov Decision Processes (MDPs) with non-rectangular uncertainty sets, thereby addressing an open challenge in the robust MDP literature. Indeed, uncertainty sets that display statistical optimality properties and make optimal use of limited data often fail to be rectangular. Unfortunately, the corresponding robust MDPs cannot be solved with dynamic programming techniques and are in fact provably intractable. This prompts us to develop a projected Langevin dynamics algorithm tailored to the robust policy evaluation problem, which offers global optimality guarantees. We also propose a deterministic policy gradient method that solves the robust policy evaluation problem approximately, and we prove that the approximation error scales with a new measure of non-rectangularity of the uncertainty set. Numerical experiments showcase that our projected Langevin dynamics algorithm can escape local optima, while algorithms tailored to rectangular uncertainty fail to do so. | 翻訳日:2023-06-02 21:07:46 公開日:2023-05-31 |
# 集合通信のための帯域幅最適パイプラインスケジュール Bandwidth Optimal Pipeline Schedule for Collective Communication ( http://arxiv.org/abs/2305.18461v2 ) ライセンス: Link先を確認 | Liangyu Zhao, Arvind Krishnamurthy | (参考訳) 我々は,スイッチの有無に関わらず,任意のネットワークトポロジ上で帯域幅の最適allgather/reduce-scatterを生成するための強多項式時間アルゴリズムを提案する。
提案アルゴリズムは,与えられたトポロジ上で最高の帯域幅性能を実現するパイプラインスケジュールを構築する。
普遍的な解法を提供するため、ネットワークトポロジーを不均一なリンク容量を持つ有向グラフとしてモデル化し、グラフ表現の頂点として直接スイッチする。
アルゴリズムはトポロジーサイズに関して強い多項式時間である。
この研究は、エッジ分離スパンディングツリーとエッジ分割に関する以前のグラフ理論の研究に大きく依存している。
allgatherにフォーカスしながら、この論文のメソッドを簡単に拡張して、reduce、casting、reduce-scatter、allreduceのスケジュールを生成することができます。 We present a strongly polynomial-time algorithm to generate bandwidth optimal allgather/reduce-scatter on any network topology, with or without switches. Our algorithm constructs pipeline schedules achieving provably the best possible bandwidth performance on a given topology. To provide a universal solution, we model the network topology as a directed graph with heterogeneous link capacities and switches directly as vertices in the graph representation. The algorithm is strongly polynomial-time with respect to the topology size. This work heavily relies on previous graph theory work on edge-disjoint spanning trees and edge splitting. While we focus on allgather, the methods in this paper can be easily extended to generate schedules for reduce, broadcast, reduce-scatter, and allreduce. | 翻訳日:2023-06-02 21:06:48 公開日:2023-05-31 |
# NeRF評価のためのロバストフレームワークを目指して Towards a Robust Framework for NeRF Evaluation ( http://arxiv.org/abs/2305.18079v3 ) ライセンス: Link先を確認 | Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull | (参考訳) neural radiance field (nerf)の研究は、3dモデリング、バーチャル/拡張現実、視覚効果など、近年注目を集めている。
現在のNeRF実装では、高品質な視覚的結果が得られるが、それらを評価するための信頼性の高い方法が特に欠けている。
従来の画像品質評価手法と分析指標(PSNR、SSIM、LPIPSなど)は、NeRFパイプライン全体の能力を一般化するため、性能の近似指標を提供するだけである。
そこで本稿では,ニューラルレンダリングネットワークをNeRFパイプラインから分離した上で,明示的な放射場表現に基づいてNeRFをトレーニングし,評価することで,パラメトリック評価を行う新しいテストフレームワークを提案する。
また,評価目的に特有な表現を生成するための構成可能なアプローチも導入する。
これは、メッシュモデルを明示的なNeRFサンプルに変換するためにレイキャストを使用し、これらの表現を"シェード"する。
これら2つのアプローチを組み合わせることで、このフレームワーク内で異なる「タスク」(視覚効果や学習戦略の異なるシーン)と種類のネットワーク(nerfs and depth-wise implicit neural representations (inrs))をどのように評価できるかを実証する。
さらに,視覚的パラメータと空間データの分布を考慮に入れたフレームワークのタスク複雑性を測定するための新しい指標を提案する。
我々のアプローチは、NeRF法の比較客観的評価フレームワークを作成する可能性を提供します。 Neural Radiance Field (NeRF) research has attracted significant attention recently, with 3D modelling, virtual/augmented reality, and visual effects driving its application. While current NeRF implementations can produce high quality visual results, there is a conspicuous lack of reliable methods for evaluating them. Conventional image quality assessment methods and analytical metrics (e.g. PSNR, SSIM, LPIPS etc.) only provide approximate indicators of performance since they generalise the ability of the entire NeRF pipeline. Hence, in this paper, we propose a new test framework which isolates the neural rendering network from the NeRF pipeline and then performs a parametric evaluation by training and evaluating the NeRF on an explicit radiance field representation. We also introduce a configurable approach for generating representations specifically for evaluation purposes. This employs ray-casting to transform mesh models into explicit NeRF samples, as well as to "shade" these representations. Combining these two approaches, we demonstrate how different "tasks" (scenes with different visual effects or learning strategies) and types of networks (NeRFs and depth-wise implicit neural representations (INRs)) can be evaluated within this framework. Additionally, we propose a novel metric to measure task complexity of the framework which accounts for the visual parameters and the distribution of the spatial data. Our approach offers the potential to create a comparative objective evaluation framework for NeRF methods. | 翻訳日:2023-06-02 21:06:01 公開日:2023-05-31 |
# 疾患原因の患者特異的根の偽造 Counterfactual Formulation of Patient-Specific Root Causes of Disease ( http://arxiv.org/abs/2305.17574v2 ) ライセンス: Link先を確認 | Eric V. Strobl | (参考訳) 疾患の根原因は、診断の可能性を増加させる根頂点と直感的に一致する。
この根本原因の記述は、データから根本原因を自動的に検出するように設計されたコンピュータアルゴリズムの開発に必要な厳密な数学的定式化を欠いている。
以前の研究では、パール病原病の患者固有の根本原因を、パール病原病の第二のラングにのみ登る介入主義的説明を用いて定義した。
本論では,固定された事実データのみに基づく臨床的直観に一致する対実的定義を提唱し,第3段階まで登頂する。
次に、説明可能な人工知能のShapley値を用いて、各変数に根因果寄与スコアを割り当てる方法を示す。
提案する患者固有の疾患の根源原因の偽りの定式化は,ノイズラベルを伴い,疾患の流行に適応し,偽りのシミュレーションを必要とせずに高速な計算が可能となる。 Root causes of disease intuitively correspond to root vertices that increase the likelihood of a diagnosis. This description of a root cause nevertheless lacks the rigorous mathematical formulation needed for the development of computer algorithms designed to automatically detect root causes from data. Prior work defined patient-specific root causes of disease using an interventionalist account that only climbs to the second rung of Pearl's Ladder of Causation. In this theoretical piece, we climb to the third rung by proposing a counterfactual definition matching clinical intuition based on fixed factual data alone. We then show how to assign a root causal contribution score to each variable using Shapley values from explainable artificial intelligence. The proposed counterfactual formulation of patient-specific root causes of disease accounts for noisy labels, adapts to disease prevalence and admits fast computation without the need for counterfactual simulation. | 翻訳日:2023-06-02 21:04:25 公開日:2023-05-31 |
# 隠れ安定化剤、同相環問題への異種性、およびpSIDHのクリプトアナリシス Hidden Stabilizers, the Isogeny To Endomorphism Ring Problem and the Cryptanalysis of pSIDH ( http://arxiv.org/abs/2305.19897v1 ) ライセンス: Link先を確認 | Mingjie Chen, Muhammad Imran, G\'abor Ivanyos, P\'eter Kutas, Antonin Leroux, Christophe Petit | (参考訳) 同型準同型環問題(isogeny to endomorphism ring problem、iserp)は、標数 $p$ の超特異曲線の間の同族圏の同族圏の自己準同型環を計算し、この同族関係の表現、すなわち、任意のねじれ点におけるこの同族性を評価するためのデータとアルゴリズムのみを与える。
この問題は、pSIDHプロトコル(ASIACRYPT 2022)のセキュリティの下にあり、SIDH鍵交換を破った最近の攻撃の中心にある。
この研究以前には、IsERPを一般等質次数で解く効率的なアルゴリズムは知られていなかったが、その次数が素数であるような場合が最も難しい。
本稿では、次数が奇数で、多くの素因子が$O(\log\log p)$である等質なIsERPを解くための新しい量子多項式時間アルゴリズムを提案する。
主要な技術ツールとして,隠れボレル部分群を計算するための量子アルゴリズム,eurocrypt 2021からの超特異等族に対する群作用,デューリング対応のための様々なアルゴリズム,および任意の四元数次要素を持ち上げる新しいアルゴリズムを用いて,奇数整数$n$ を$o(\log\log p)$ で修飾する。
暗号の主な結果として、pSIDHに対する量子多項式時間鍵回復攻撃が得られる。
私たちが使っている技術ツールも、独立した関心事かもしれません。 The Isogeny to Endomorphism Ring Problem (IsERP) asks to compute the endomorphism ring of the codomain of an isogeny between supersingular curves in characteristic $p$ given only a representation for this isogeny, i.e. some data and an algorithm to evaluate this isogeny on any torsion point. This problem plays a central role in isogeny-based cryptography; it underlies the security of pSIDH protocol (ASIACRYPT 2022) and it is at the heart of the recent attacks that broke the SIDH key exchange. Prior to this work, no efficient algorithm was known to solve IsERP for a generic isogeny degree, the hardest case seemingly when the degree is prime. In this paper, we introduce a new quantum polynomial-time algorithm to solve IsERP for isogenies whose degrees are odd and have $O(\log\log p)$ many prime factors. As main technical tools, our algorithm uses a quantum algorithm for computing hidden Borel subgroups, a group action on supersingular isogenies from EUROCRYPT 2021, various algorithms for the Deuring correspondence and a new algorithm to lift arbitrary quaternion order elements modulo an odd integer $N$ with $O(\log\log p)$ many prime factors to powersmooth elements. As a main consequence for cryptography, we obtain a quantum polynomial-time key recovery attack on pSIDH. The technical tools we use may also be of independent interest. | 翻訳日:2023-06-02 20:57:58 公開日:2023-05-31 |
# 半教師付き群同変cnnによるラジオ銀河の形態分類 Morphological Classification of Radio Galaxies using Semi-Supervised Group Equivariant CNNs ( http://arxiv.org/abs/2306.00031v1 ) ライセンス: Link先を確認 | Mir Sazzat Hossain (1), Sugandha Roy (1), K. M. B. Asad (1 and 2 and 3), Arshad Momen (1 and 2), Amin Ahsan Ali (1), M Ashraful Amin (1), A. K. M. Mahbubur Rahman (1) ((1) Center for Computational & Data Sciences, Independent University, Bangladesh, (2) Department of Physical Sciences, Independent University, Bangladesh, (3) Astronomy and Radio Research Group, SETS, Independent University, Bangladesh) | (参考訳) 推定数兆の銀河のうち、約100万の銀河が電波で検出されており、ほんの一部、約1000の銀河が手動で分類されているだけである。
我々は、半教師付き学習アプローチを用いて、既知のファナロフ・ライリータイプi(fri)とタイプii(frii)のカテゴリに分類することにより、電波銀河のラベル付き画像とラベル付き画像の相違に対処した。
グループ同変畳み込みニューラルネットワーク(g-cnn)は、最先端の自己教師付きメソッドであるsimclr(visual representationsのコントラスト学習のためのシンプルなフレームワーク)とbyol(bootstrap your own latent)のエンコーダとして使用された。
G-CNNはユークリッド群 E(2) の同値を保ち、グローバルに向き付けられた特徴写像の表現を効果的に学習することができる。
表現学習の後、完全接続された分類器を訓練し、ラベル付きデータでトレーニングされたエンコーダを微調整した。
提案手法は,クラスタ品質,収束率,精度,精度,リコール,f1-scoreなど,既存の最先端手法よりも優れていることを示す。
さらに, t-testによる統計的意義試験により, 完全教師付きG-CNNの性能を上回った。
この研究は、ラベル付きデータがまだ乏しいが発見の可能性は非常に大きい電波銀河分類における半教師付き学習の重要性を強調した。 Out of the estimated few trillion galaxies, only around a million have been detected through radio frequencies, and only a tiny fraction, approximately a thousand, have been manually classified. We have addressed this disparity between labeled and unlabeled images of radio galaxies by employing a semi-supervised learning approach to classify them into the known Fanaroff-Riley Type I (FRI) and Type II (FRII) categories. A Group Equivariant Convolutional Neural Network (G-CNN) was used as an encoder of the state-of-the-art self-supervised methods SimCLR (A Simple Framework for Contrastive Learning of Visual Representations) and BYOL (Bootstrap Your Own Latent). The G-CNN preserves the equivariance for the Euclidean Group E(2), enabling it to effectively learn the representation of globally oriented feature maps. After representation learning, we trained a fully-connected classifier and fine-tuned the trained encoder with labeled data. Our findings demonstrate that our semi-supervised approach outperforms existing state-of-the-art methods across several metrics, including cluster quality, convergence rate, accuracy, precision, recall, and the F1-score. Moreover, statistical significance testing via a t-test revealed that our method surpasses the performance of a fully supervised G-CNN. This study emphasizes the importance of semi-supervised learning in radio galaxy classification, where labeled data are still scarce, but the prospects for discovery are immense. | 翻訳日:2023-06-02 20:39:13 公開日:2023-05-31 |
# codetf: 最先端コードllmのためのワンストップトランスフォーマーライブラリ CodeTF: One-stop Transformer Library for State-of-the-art Code LLM ( http://arxiv.org/abs/2306.00029v1 ) ライセンス: Link先を確認 | Nghi D. Q. Bui, Hung Le, Yue Wang, Junnan Li, Akhilesh Deepak Gotmare, Steven C. H. Hoi | (参考訳) コードインテリジェンスは、現代のソフトウェア工学を変える上で重要な役割を果たす。
近年、ディープラーニングベースのモデル、特にTransformerベースの大規模言語モデル(LLM)は、大規模なオープンソースコードデータとプログラミング言語の機能を活用することで、これらのタスクに対処する大きな可能性を実証している。
しかしながら、そのようなモデルの開発とデプロイは、しばしば機械学習とソフトウェア工学の両方の専門知識を必要とし、モデル採用の障壁となる。
本稿では,最先端のCode LLMとコードインテリジェンスのためのオープンソースTransformerベースのライブラリであるCodeTFを提案する。
モジュール設計と拡張可能なフレームワークの原則に従い、さまざまなタイプのモデル、データセット、タスクに対する迅速なアクセスと開発を可能にする統一インターフェースでCodeTFを設計します。
私たちのライブラリは、LLMモデルをトレーニングし、効率的に提供するための標準化されたインターフェースや、言語固有のパーサやコード属性を抽出するユーティリティ機能などのデータ機能を含む、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
本稿では,設計原則,アーキテクチャ,キーモジュール,コンポーネントについて述べるとともに,関連するライブラリツールとの比較を行う。
最後に、CodeTFが機械学習/生成AIとソフトウェアエンジニアリングのギャップを埋め、開発者、研究者、実践者のための包括的なオープンソースソリューションを提供することを願っています。 Code intelligence plays a key role in transforming modern software engineering. Recently, deep learning-based models, especially Transformer-based large language models (LLMs), have demonstrated remarkable potential in tackling these tasks by leveraging massive open-source code data and programming language features. However, the development and deployment of such models often require expertise in both machine learning and software engineering, creating a barrier for the model adoption. In this paper, we present CodeTF, an open-source Transformer-based library for state-of-the-art Code LLMs and code intelligence. Following the principles of modular design and extensible framework, we design CodeTF with a unified interface to enable rapid access and development across different types of models, datasets and tasks. Our library supports a collection of pretrained Code LLM models and popular code benchmarks, including a standardized interface to train and serve code LLMs efficiently, and data features such as language-specific parsers and utility functions for extracting code attributes. In this paper, we describe the design principles, the architecture, key modules and components, and compare with other related library tools. Finally, we hope CodeTF is able to bridge the gap between machine learning/generative AI and software engineering, providing a comprehensive open-source solution for developers, researchers, and practitioners. | 翻訳日:2023-06-02 20:38:40 公開日:2023-05-31 |
# 量子倫理教育への総合的アプローチ A Holistic Approach to Quantum Ethics Education ( http://arxiv.org/abs/2306.00027v1 ) ライセンス: Link先を確認 | Joan \'Etude Arrow, Sara E. Marsh, and Josephine C. Meyer | (参考訳) 本稿ではまず,量子倫理の発達するサブフィールドについて概説する。その内容は,作業定義,様々な量子技術の社会的,経済的,政治的含意に関する研究,今後の研究の方向性などである。
第二に、量子倫理プロジェクト(qep)、その活動、そしてその組織化哲学を紹介する。
第3章では、QEPの進行中のカリキュラム開発作業、すなわち、量子技術の倫理と社会影響に関する最初のフル長コースの1つについて報告している。
授業設計における教育的アプローチを概説し,主要な学習成果,トピック領域,指導方法,合理性などについて概説する。
この後、倫理的理性教育の欠点や、評価と実施のアイデアなど、現在の限界と今後の注目領域に関する短い議論が続く。
最後に、この論文は協力者への呼びかけと、qepネットワークへの参加方法に関する情報で締めくくっている。 This paper first provides an overview of the growing subfield of quantum ethics, including a working definition; research to date into social, economic, and political implications of various quantum technologies; and directions for future research. Second, it introduces the Quantum Ethics Project (QEP), its activities to date, and its organizing philosophy. The third section reports on QEP's ongoing curriculum development work, i.e. creating one of the first full-length courses on Ethics and Social Impacts of Quantum Technology. We outline the pedagogical approach being taken in the course design, including key learning outcomes, topic areas, teaching methods, and rationale. This is followed by a brief discussion of current limitations and future areas of attention, such as drawbacks to teaching ethical reasoning and ideas for assessment and implementation. Finally, the paper concludes with a call for collaborators and information on how people can join the QEP network. | 翻訳日:2023-06-02 20:38:10 公開日:2023-05-31 |
# ミニマックス超過リスク最適化の効率的な確率近似 Efficient Stochastic Approximation of Minimax Excess Risk Optimization ( http://arxiv.org/abs/2306.00026v1 ) ライセンス: Link先を確認 | Lijun Zhang, Wei-Wei Tu | (参考訳) 従来の分散ロバスト最適化(DRO)は、分布の集合に対する最大リスクを最小限にすることを目的としているが、Agarwal と Zhang (2022) は先日、リスクを過剰リスクに置き換える変種を提案した。
DROと比較して、新しい定式化 -- 最小極超過リスク最適化(MERO)は、異なる分布における異種ノイズの影響を抑制する利点がある。
しかし、過剰リスクの選択は、非常に困難なミニマックス最適化問題を引き起こし、現在、経験的MEROの非効率アルゴリズムが存在するのみである。
本稿では,MEROを直接対象とする効率的な確率近似手法を提案する。
具体的には,各分布の最小リスクを推定するために,確率凸最適化の手法を活用し,偏り勾配を持つ確率凸凹最適化(SCCO)問題としてMEROを解く。
バイアスの存在は、SCCOの理論的保証を適用不可能にし、幸運なことに、最小リスクの推定誤差に起因するバイアスが制御下にあることを実証する。
したがって、MEROは依然としてほぼ最適な収束速度で最適化することができる。
さらに,各分布から抽出した試料の量が異なる場合の実用シナリオを考察し,分布依存性の収束率を提供する確率的アプローチを提案する。 While traditional distributionally robust optimization (DRO) aims to minimize the maximal risk over a set of distributions, Agarwal and Zhang (2022) recently proposed a variant that replaces risk with excess risk. Compared to DRO, the new formulation -- minimax excess risk optimization (MERO) has the advantage of suppressing the effect of heterogeneous noise in different distributions. However, the choice of excess risk leads to a very challenging minimax optimization problem, and currently there exists only an inefficient algorithm for empirical MERO. In this paper, we develop efficient stochastic approximation approaches which directly target MERO. Specifically, we leverage techniques from stochastic convex optimization to estimate the minimal risk of every distribution, and solve MERO as a stochastic convex-concave optimization (SCCO) problem with biased gradients. The presence of bias makes existing theoretical guarantees of SCCO inapplicable, and fortunately, we demonstrate that the bias, caused by the estimation error of the minimal risk, is under-control. Thus, MERO can still be optimized with a nearly optimal convergence rate. Moreover, we investigate a practical scenario where the quantity of samples drawn from each distribution may differ, and propose a stochastic approach that delivers distribution-dependent convergence rates. | 翻訳日:2023-06-02 20:37:55 公開日:2023-05-31 |
# 完璧で最悪なスプーフィング対策の作り方--近道学習における警告文 How to Construct Perfect and Worse-than-Coin-Flip Spoofing Countermeasures: A Word of Warning on Shortcut Learning ( http://arxiv.org/abs/2306.00044v1 ) ライセンス: Link先を確認 | Hye-jin Shim, Rosa Gonz\'alez Hautam\"aki, Md Sahidullah, Tomi Kinnunen | (参考訳) ショートカット学習(Clever Hans effect)は、学習エージェント(ディープニューラルネットワークなど)がデータに存在する素早い相関を学習し、バイアスのあるモデルをもたらす状況を指す。
本研究では, 深層学習に基づくスプーフィング対策(CM)におけるショートカットの発見に焦点をあてる。
先行研究はサイレントなどの特定のデータアーティファクトに対処しているが、cmsでショートカット学習を分析する一般的な規範的フレームワークは検討されていない。
本研究では,「ネア・パーフェクト」と「コイン・フリップ」の境界ケースを含む,訓練面と試験面の体系的な介入を導入することで,ショートカットを識別する一般的な手法を提案する。
古典から最先端までの3つのモデルを用いて、5つのシミュレーション条件下でのショートカット学習の存在を実証する。
回帰モデルを用いて評価結果を解析し,バイアスがクラス条件のスコア統計に与える影響を理解する。 Shortcut learning, or `Clever Hans effect` refers to situations where a learning agent (e.g., deep neural networks) learns spurious correlations present in data, resulting in biased models. We focus on finding shortcuts in deep learning based spoofing countermeasures (CMs) that predict whether a given utterance is spoofed or not. While prior work has addressed specific data artifacts, such as silence, no general normative framework has been explored for analyzing shortcut learning in CMs. In this study, we propose a generic approach to identifying shortcuts by introducing systematic interventions on the training and test sides, including the boundary cases of `near-perfect` and `worse than coin flip` (label flip). By using three different models, ranging from classic to state-of-the-art, we demonstrate the presence of shortcut learning in five simulated conditions. We analyze the results using a regression model to understand how biases affect the class-conditional score statistics. | 翻訳日:2023-06-02 20:28:30 公開日:2023-05-31 |
# 空間ネット最適化 Space Net Optimization ( http://arxiv.org/abs/2306.00043v1 ) ライセンス: Link先を確認 | Chun-Wei Tsai, Yi-Cheng Yang, Tzu-Chieh Tang and Che-Wei Hsu | (参考訳) ほとんどのメタヒューリスティックなアルゴリズムは、コンバージェンスプロセス中の後の検索を、単純な理由でガイドするために、いくつかの検索されたソリューションに依存している。
これはまた、ほとんどのメタヒューリスティックアルゴリズムの探索が、まるでボールパークの推測のようなものであることも明らかにしている。
そこで本稿では,空間ネット最適化(sno)と呼ばれる新しいメタヒューリスティックアルゴリズムを提案する。
これはスペースネットと呼ばれる新しいメカニズムを備えており、メタヒューリスティックなアルゴリズムが全ての探索された解によって提供された多くの情報を使用して解空間の風景を描くことができる。
空間ネットでは、メタヒューリスティックなアルゴリズムは、解空間に 'vision'' を持つようなものである。
シミュレーションの結果、snoは、ほとんどのケースでよく知られた1つの目的限定問題に対して、他の全てのメタヒューリスティックアルゴリズムよりも優れています。 Most metaheuristic algorithms rely on a few searched solutions to guide later searches during the convergence process for a simple reason: the limited computing resource of a computer makes it impossible to retain all the searched solutions. This also reveals that each search of most metaheuristic algorithms is just like a ballpark guess. To help address this issue, we present a novel metaheuristic algorithm called space net optimization (SNO). It is equipped with a new mechanism called space net; thus, making it possible for a metaheuristic algorithm to use most information provided by all searched solutions to depict the landscape of the solution space. With the space net, a metaheuristic algorithm is kind of like having a ``vision'' on the solution space. Simulation results show that SNO outperforms all the other metaheuristic algorithms compared in this study for a set of well-known single objective bound constrained problems in most cases. | 翻訳日:2023-06-02 20:28:08 公開日:2023-05-31 |
# 逆攻撃検出のためのグラフに基づく特定分布距離の結合法 Graph-based methods coupled with specific distributional distances for adversarial attack detection ( http://arxiv.org/abs/2306.00042v1 ) ライセンス: Link先を確認 | Dwight Nwaigwe, Lucrezia Carboni, Martial Mermillod, Sophie Achard, Michel Dojat | (参考訳) ニューラルネットワークは、慎重に混乱した入力によって騙されやすくなり、誤った分類を引き起こす。
これらの \textit{adversarial}攻撃は広範な研究の焦点となっている。
同様に、彼らに対する検知と防御方法の研究も数多く行われている。
グラフの観点から,敵攻撃の検出と解釈の新たなアプローチを導入する。
画像、良性、敵対性については、ニューラルネットワークのアーキテクチャが関連するグラフを誘導する方法について検討する。
本稿では,このグラフを検証し,敵攻撃の予測と解釈に使用する具体的な指標を紹介する。
グラフに基づくアプローチが敵攻撃の内部動作の解明に役立つことを示す。 Artificial neural networks are prone to being fooled by carefully perturbed inputs which cause an egregious misclassification. These \textit{adversarial} attacks have been the focus of extensive research. Likewise, there has been an abundance of research in ways to detect and defend against them. We introduce a novel approach of detection and interpretation of adversarial attacks from a graph perspective. For an image, benign or adversarial, we study how a neural network's architecture can induce an associated graph. We study this graph and introduce specific measures used to predict and interpret adversarial attacks. We show that graphs-based approaches help to investigate the inner workings of adversarial attacks. | 翻訳日:2023-06-02 20:27:52 公開日:2023-05-31 |
# 因果的介入に基づく薬物標的相互作用信頼度測定法の研究と実装 Research And Implementation Of Drug Target Interaction Confidence Measurement Method Based On Causal Intervention ( http://arxiv.org/abs/2306.00041v1 ) ライセンス: Link先を確認 | Wenting Ye, Bowen Wang, Yang Xie, Debo Cheng, Zaiwen Feng | (参考訳) 薬物標的相互作用(DTI)の同定と発見は、科学者が新しい薬物を発見し、開発プロセスを加速するのに役立つ薬物研究と開発分野における重要なステップである。
知識グラフと関連する知識グラフ埋め込み(KGE)モデルは, 近年, 薬物発見分野において急速に発展し, 良好な性能を示した。
薬物標的同定の課題では、モデルの信頼性と正確性の欠如は、誤った判断率の増加と薬物開発効率の低下につながる。
以上の課題を解決するため,本研究では,知識マッピングによる薬物標的リンク予測の課題に焦点をあて,因果的介入に基づく信頼度測定手法を採用して,薬物標的相互作用予測モデルの精度を向上させることを目的とした。
従来のKGEモデルとSigmod信頼度測定法を比較して,因果介入に基づく信頼度測定法は,特に高精度モデルにおいて,DTIリンク予測の精度を効果的に向上させることができることを示した。
予測された結果は、薬物開発の効率を改善するために、薬物開発のフォローアップ実験の設計と開発を導くのにもっと役立ちます。 The identification and discovery of drug-target Interaction (DTI) is an important step in the field of Drug research and development, which can help scientists discover new drugs and accelerate the development process. KnowledgeGraph and the related knowledge graph Embedding (KGE) model develop rapidly and show good performance in the field of drug discovery in recent years. In the task of drug target identification, the lack of authenticity and accuracy of the model will lead to the increase of misjudgment rate and the low efficiency of drug development. To solve the above problems, this study focused on the problem of drug target link prediction with knowledge mapping as the core technology, and adopted the confidence measurement method based on causal intervention to measure the triplet score, so as to improve the accuracy of drug target interaction prediction model. By comparing with the traditional Softmax and Sigmod confidence measurement methods on different KGE models, the results show that the confidence measurement method based on causal intervention can effectively improve the accuracy of DTI link prediction, especially for high-precision models. The predicted results are more conducive to guiding the design and development of followup experiments of drug development, so as to improve the efficiency of drug development. | 翻訳日:2023-06-02 20:27:44 公開日:2023-05-31 |
# 性能予測モデルの一般化可能性の評価 Assessing the Generalizability of a Performance Predictive Model ( http://arxiv.org/abs/2306.00040v1 ) ライセンス: Link先を確認 | Ana Nikolikj, Gjorgjina Cenikj, Gordana Ispirova, Diederick Vermetten, Ryan Dieter Lang, Andries Petrus Engelbrecht, Carola Doerr, Peter Koro\v{s}ec, Tome Eftimov | (参考訳) 自動アルゴリズムの選択と構成の重要なコンポーネントは、ほとんどの場合、教師付き機械学習(ML)メソッドを使用して実行されるが、優れたパフォーマンスの予測モデルである。
予測モデルは、問題インスタンスのセットの特徴表現を入力データとして使用し、それらで達成されたアルゴリズム性能を予測する。
一般的な機械学習モデルは、トレーニングデータでカバーされていない特徴表現を持つインスタンスの予測に苦労する。
本研究では,あるベンチマークスイートから別のベンチマークスイートへトレーニングされたアルゴリズム性能予測モデルの一般化可能性を評価するワークフローを提案する。
このワークフローはベンチマークスイート間で予測モデルをトレーニングすることでテストされ、その結果、ランドスケープの特徴空間における一般化可能性パターンがパフォーマンス空間に反映されていることが示された。 A key component of automated algorithm selection and configuration, which in most cases are performed using supervised machine learning (ML) methods is a good-performing predictive model. The predictive model uses the feature representation of a set of problem instances as input data and predicts the algorithm performance achieved on them. Common machine learning models struggle to make predictions for instances with feature representations not covered by the training data, resulting in poor generalization to unseen problems. In this study, we propose a workflow to estimate the generalizability of a predictive model for algorithm performance, trained on one benchmark suite to another. The workflow has been tested by training predictive models across benchmark suites and the results show that generalizability patterns in the landscape feature space are reflected in the performance space. | 翻訳日:2023-06-02 20:27:23 公開日:2023-05-31 |
# FedCSD: コードスメル検出のためのフェデレートラーニングベースのアプローチ FedCSD: A Federated Learning Based Approach for Code-Smell Detection ( http://arxiv.org/abs/2306.00038v1 ) ライセンス: Link先を確認 | Sadi Alawadi, Khalid Alkharabsheh, Fahed Alkhabbas, Victor Kebande, Feras M. Awaysheh, Fabio Palomba | (参考訳) 本稿では,federated learning code smell detection(fedcsd)アプローチを提案する。
これらのアサーションは、3つの実験によってサポートされており、異なるコードの臭いシナリオの検出と検証を目的とした3つの手動検証データセットを著しく活用している。
実験1では、集中型トレーニング実験を対象とし、データセット2が最も低い精度(92.30%)で嗅覚が少なく、データセット1とデータセット3はわずかな差(それぞれ98.90%と99.5%)で最高精度を達成した。
続いて、クロス評価に関するexperiment 2では、各mlモデルを1つのデータセットでトレーニングし、他の2つのデータセットで評価した。
この実験の結果、モデルの精度(最も低い精度:63.80\%)が大幅に低下し、トレーニングデータセットには臭いが少なくなり、モデルの性能に顕著なリフレクション(技術的負債)があることが示された。
最後に、最後の実験と第3の実験では、データセットを10社に分割することで、私たちのアプローチを評価しました。
mlモデルは同社のサイトでトレーニングされ、モデル更新された重みはすべてサーバに転送された。
最終的に98.34%の精度が、100回のトレーニングラウンドで10社でトレーニングされたグローバルモデルによって達成された。
その結果,グローバルモデルの包括的知識,トレーニングコストの低減,データのプライバシの保持,技術的負債の回避を優先して無視できる,集中型モデルの最高精度と比較して,グローバルモデルの正確性に若干の差があることが判明した。 This paper proposes a Federated Learning Code Smell Detection (FedCSD) approach that allows organizations to collaboratively train federated ML models while preserving their data privacy. These assertions have been supported by three experiments that have significantly leveraged three manually validated datasets aimed at detecting and examining different code smell scenarios. In experiment 1, which was concerned with a centralized training experiment, dataset two achieved the lowest accuracy (92.30%) with fewer smells, while datasets one and three achieved the highest accuracy with a slight difference (98.90% and 99.5%, respectively). This was followed by experiment 2, which was concerned with cross-evaluation, where each ML model was trained using one dataset, which was then evaluated over the other two datasets. Results from this experiment show a significant drop in the model's accuracy (lowest accuracy: 63.80\%) where fewer smells exist in the training dataset, which has a noticeable reflection (technical debt) on the model's performance. Finally, the last and third experiments evaluate our approach by splitting the dataset into 10 companies. The ML model was trained on the company's site, then all model-updated weights were transferred to the server. Ultimately, an accuracy of 98.34% was achieved by the global model that has been trained using 10 companies for 100 training rounds. The results reveal a slight difference in the global model's accuracy compared to the highest accuracy of the centralized model, which can be ignored in favour of the global model's comprehensive knowledge, lower training cost, preservation of data privacy, and avoidance of the technical debt problem. | 翻訳日:2023-06-02 20:27:10 公開日:2023-05-31 |
# botartist: twitterのサスペンションに基づくtwitterボット検出機械学習モデル BotArtist: Twitter bot detection Machine Learning model based on Twitter suspension ( http://arxiv.org/abs/2306.00037v1 ) ライセンス: Link先を確認 | Alex Shevtsov, Despoina Antonakaki, Ioannis Lamprou, Polyvios Pratikakis, Sotiris Ioannidis | (参考訳) Twitterは最も人気のあるソーシャルネットワークの1つで、コミュニケーションとオンライン会話のための手段を提供しているが、残念ながらボットや偽アカウントのターゲットであり、偽情報の操作と拡散につながっている。
この目的に向けて、我々は、最近のロシア・ウクライナ戦争に関する900万人のユーザーから生まれた、Twitter上での難解で多言語的なソーシャル談話データセットを収集し、ボットアカウントとそれらに関わる会話を検出する。
Twitter APIの停止アカウントコレクションには,約343Kのボットアカウントと8Mの一般ユーザが含まれています。
さらに、Botometer-V3が提供するデータセットには、1,777のVarol、483のドイツアカウント、1,321の米国アカウントがあります。
公開データセットの他に、2022年のエネルギー危機と2022年の陰謀に関する一般的な議論に関する2つの独立したデータセットも収集しています。
どちらのデータセットも、twitterのサスペンションメカニズムに従ってラベル付けされた。
我々は最先端のXGBoostモデルを用いたボット検出のための新しいMLモデルを構築した。
Twitterのサスペンションメカニズムの真実に則って、このモデルを大量のラベル付きツイートと組み合わせています。
これは、Twitter APIとは独立しているため、コレクションから異なる期間でデータセットのラベル付けを可能にする、限定的なプロファイル機能を必要とする。
ボットメーターと比較すると,本手法は2つの実例のシナリオデータセットよりも平均11%高いroc-aucスコアが得られる。 Twitter as one of the most popular social networks, offers a means for communication and online discourse, which unfortunately has been the target of bots and fake accounts, leading to the manipulation and spreading of false information. Towards this end, we gather a challenging, multilingual dataset of social discourse on Twitter, originating from 9M users regarding the recent Russo-Ukrainian war, in order to detect the bot accounts and the conversation involving them. We collect the ground truth for our dataset through the Twitter API suspended accounts collection, containing approximately 343K of bot accounts and 8M of normal users. Additionally, we use a dataset provided by Botometer-V3 with 1,777 Varol, 483 German accounts, and 1,321 US accounts. Besides the publicly available datasets, we also manage to collect 2 independent datasets around popular discussion topics of the 2022 energy crisis and the 2022 conspiracy discussions. Both of the datasets were labeled according to the Twitter suspension mechanism. We build a novel ML model for bot detection using the state-of-the-art XGBoost model. We combine the model with a high volume of labeled tweets according to the Twitter suspension mechanism ground truth. This requires a limited set of profile features allowing labeling of the dataset in different time periods from the collection, as it is independent of the Twitter API. In comparison with Botometer our methodology achieves an average 11% higher ROC-AUC score over two real-case scenario datasets. | 翻訳日:2023-06-02 20:26:39 公開日:2023-05-31 |
# 構造化部分群を用いた対称性アウェアロボットの設計 Symmetry-Aware Robot Design with Structured Subgroups ( http://arxiv.org/abs/2306.00036v1 ) ライセンス: Link先を確認 | Heng Dong, Junyu Zhang, Tonghan Wang, Chongjie Zhang | (参考訳) ロボットデザインは、容易に制御でき、効率的にタスクを遂行できるロボットを学習することを目的としている。
ロボットの設計に関するこれまでの研究は、さまざまなタスクでロボットを生成できることを証明している。
しかし、これらの作品は広大な設計空間から直接ロボットを探索し、共通の構造を無視し、異常なロボットと低い性能を生み出した。
そこで本研究では,ロボット設計プロセスに対称性探索を組み込むことで,設計空間の構造を活用できる対称性認識ロボット設計(sard)フレームワークを提案する。
具体的には、二面群の部分群の対称性を表現し、構造化された部分群の最適対称性を求める。
そして、ロボットは探索された対称性の下で設計される。
このようにして、SARDは理論的に解析された元の設計空間をカバーしながら効率的な対称ロボットを設計できる。
さらに,SARDを様々なタスクで評価し,その効率性と一般化性を示した。 Robot design aims at learning to create robots that can be easily controlled and perform tasks efficiently. Previous works on robot design have proven its ability to generate robots for various tasks. However, these works searched the robots directly from the vast design space and ignored common structures, resulting in abnormal robots and poor performance. To tackle this problem, we propose a Symmetry-Aware Robot Design (SARD) framework that exploits the structure of the design space by incorporating symmetry searching into the robot design process. Specifically, we represent symmetries with the subgroups of the dihedral group and search for the optimal symmetry in structured subgroups. Then robots are designed under the searched symmetry. In this way, SARD can design efficient symmetric robots while covering the original design space, which is theoretically analyzed. We further empirically evaluate SARD on various tasks, and the results show its superior efficiency and generalizability. | 翻訳日:2023-06-02 20:26:16 公開日:2023-05-31 |
# rosarl: 報酬のみの安全な強化学習 ROSARL: Reward-Only Safe Reinforcement Learning ( http://arxiv.org/abs/2306.00035v1 ) ライセンス: Link先を確認 | Geraud Nangue Tasse, Tamlin Love, Mark Nemecek, Steven James, Benjamin Rosman | (参考訳) 強化学習における重要な問題は、環境において安全にタスクを解決することを学ぶエージェントを設計することである。
一般的な解決策は、人間の専門家が報酬関数のペナルティを定義するか、安全でない状態に達する際に最小化されるコストを定義することである。
しかし、これは自明ではない、ペナルティが小さすぎると、安全でない状態に達するエージェントにつながり、ペナルティが大きすぎると収束するまでの時間が増加するためである。
さらに、報酬やコスト関数を設計することの難しさは、問題の複雑さによって増大する。
したがって、与えられた安全でない状態の集合を持つ環境において、最適な政策がこれらの安全でない状態に到達する確率を最小限に抑えるような安全でない状態における報酬の上限を求めることには興味がある。
我々は、この正確な上限を「ミニマックスペナルティ」と呼び、環境の可制御性と直径の両方を考慮して得られることを示す。
我々は,タスクポリシーを学習しながら,エージェントがこのMinmaxペナルティを学習する簡単な実用的モデルフリーアルゴリズムを提供し,それを用いることで,高次元連続制御環境において安全なポリシーを学ぶエージェントが現れることを示した。 An important problem in reinforcement learning is designing agents that learn to solve tasks safely in an environment. A common solution is for a human expert to define either a penalty in the reward function or a cost to be minimised when reaching unsafe states. However, this is non-trivial, since too small a penalty may lead to agents that reach unsafe states, while too large a penalty increases the time to convergence. Additionally, the difficulty in designing reward or cost functions can increase with the complexity of the problem. Hence, for a given environment with a given set of unsafe states, we are interested in finding the upper bound of rewards at unsafe states whose optimal policies minimise the probability of reaching those unsafe states, irrespective of task rewards. We refer to this exact upper bound as the "Minmax penalty", and show that it can be obtained by taking into account both the controllability and diameter of an environment. We provide a simple practical model-free algorithm for an agent to learn this Minmax penalty while learning the task policy, and demonstrate that using it leads to agents that learn safe policies in high-dimensional continuous control environments. | 翻訳日:2023-06-02 20:26:02 公開日:2023-05-31 |
# 頭頸部癌における人工知能を用いた診断と予後 Diagnosis and Prognosis of Head and Neck Cancer Patients using Artificial Intelligence ( http://arxiv.org/abs/2306.00034v1 ) ライセンス: Link先を確認 | Ikboljon Sobirov | (参考訳) がんは世界中で最も致命的な疾患の1つであり、頭頸部がん(H&N)は毎年数十万件の新しい症例が記録されている。
臨床医は、CTやポジトロン・エミッション・トモグラフィーなどの医療画像モダリティを用いて腫瘍の存在を検知し、その情報と患者の予後に関する臨床データを組み合わせる。
プロセスは大部分が困難で時間を要する。
機械学習とディープラーニングは、これらのタスクを自動化し、医師が非常に有望な結果を得るのを助ける。
本研究は、H&N腫瘍セグメンテーションの2つのアプローチについて研究する。
(i)視覚トランスフォーマ(vit)と畳み込みニューラルネットワークに基づくモデルの探索と比較,及び
(ii)3dデータを扱うための新しい2次元視点の提案。
さらに,本研究では,2つの新しいアーキテクチャを提案する。
いくつかのモデルのアンサンブルは、患者結果を予測する(HECKTOR 2021 Challenge prognosis task)とともに、ViTベースのフレームワークは、患者結果の予測と腫瘍のセグメンテーションを同時に実行し、アンサンブルモデルを上回っている。 Cancer is one of the most life-threatening diseases worldwide, and head and neck (H&N) cancer is a prevalent type with hundreds of thousands of new cases recorded each year. Clinicians use medical imaging modalities such as computed tomography and positron emission tomography to detect the presence of a tumor, and they combine that information with clinical data for patient prognosis. The process is mostly challenging and time-consuming. Machine learning and deep learning can automate these tasks to help clinicians with highly promising results. This work studies two approaches for H&N tumor segmentation: (i) exploration and comparison of vision transformer (ViT)-based and convolutional neural network-based models; and (ii) proposal of a novel 2D perspective to working with 3D data. Furthermore, this work proposes two new architectures for the prognosis task. An ensemble of several models predicts patient outcomes (which won the HECKTOR 2021 challenge prognosis task), and a ViT-based framework concurrently performs patient outcome prediction and tumor segmentation, which outperforms the ensemble model. | 翻訳日:2023-06-02 20:25:40 公開日:2023-05-31 |
# AIによる意思決定のためのヒューマンアライズドキャリブレーション Human-Aligned Calibration for AI-Assisted Decision Making ( http://arxiv.org/abs/2306.00074v1 ) ライセンス: Link先を確認 | Nina L. Corvelo Benz and Manuel Gomez Rodriguez | (参考訳) バイナリ分類器を使用して意思決定支援を行う場合、通常はラベル予測と信頼値の両方を提供する。
次に、意思決定者は、信頼度値を使用して、予測をどれだけ信頼するかを判断する。
この文脈では、信頼度値は、予測されたラベルが基底真理ラベルと一致する確率の十分に校正された推定値に対応するべきであるとしばしば主張されている。
しかし、複数の実証的証拠は、意思決定者がこれらの信頼度値を用いて予測をいつ信頼するかを判断するのに難しいことを示唆している。
本稿では,まずその理由を理解し,より有用な信頼値の構築方法を検討することを目的とする。
我々はまず、広範囲のユーティリティ機能に対して、合理的な意思決定者が一般的に、上記の信頼度値を使って最適な決定方針を発見することができないデータ分布が存在することを論じる。
しかし, 意思決定者自身の予測に対する信頼度に関して, 信頼度値が自然な整合性を満たすならば, 常に, 意思決定者が予測に立たなければならない信頼度が信頼度に単調であり, 発見可能性の向上に寄与する最適決定方針が存在することを示す。
さらに, 意思決定者自身の予測に対する信頼度に対する多重化が, 調整の十分条件であることを示す。
分類器が実際の人間の専門家に意思決定支援を提供する4つのAI支援意思決定タスクの実験は、我々の理論的結果を検証するとともに、アライメントがより良い意思決定につながることを示唆している。 Whenever a binary classifier is used to provide decision support, it typically provides both a label prediction and a confidence value. Then, the decision maker is supposed to use the confidence value to calibrate how much to trust the prediction. In this context, it has been often argued that the confidence value should correspond to a well calibrated estimate of the probability that the predicted label matches the ground truth label. However, multiple lines of empirical evidence suggest that decision makers have difficulties at developing a good sense on when to trust a prediction using these confidence values. In this paper, our goal is first to understand why and then investigate how to construct more useful confidence values. We first argue that, for a broad class of utility functions, there exist data distributions for which a rational decision maker is, in general, unlikely to discover the optimal decision policy using the above confidence values -- an optimal decision maker would need to sometimes place more (less) trust on predictions with lower (higher) confidence values. However, we then show that, if the confidence values satisfy a natural alignment property with respect to the decision maker's confidence on her own predictions, there always exists an optimal decision policy under which the level of trust the decision maker would need to place on predictions is monotone on the confidence values, facilitating its discoverability. Further, we show that multicalibration with respect to the decision maker's confidence on her own predictions is a sufficient condition for alignment. Experiments on four different AI-assisted decision making tasks where a classifier provides decision support to real human experts validate our theoretical results and suggest that alignment may lead to better decisions. | 翻訳日:2023-06-02 20:19:53 公開日:2023-05-31 |
# キャビティQEDシミュレータにおけるBardeen-Cooper-Schrieffer超伝導体の動的相観察 Observing Dynamical Phases of a Bardeen-Cooper-Schrieffer Superconductor in a Cavity QED Simulator ( http://arxiv.org/abs/2306.00066v1 ) ライセンス: Link先を確認 | Dylan J. Young, Anjun Chu, Eric Yilun Song, Diego Barberena, David Wellnitz, Zhijing Niu, Vera M. Sch\"afer, Robert J. Lewis-Swan, Ana Maria Rey, James K. Thompson | (参考訳) 従来のバルディーン・クーパー・シュリーファー超伝導体では、材料中のフォノンによって媒介される魅力的な相互作用により、反対モータを持つ電子がクーパー対に結合する。
超伝導は自然に熱平衡で現れるが、系のパラメータが突然変化したときには平衡から生じることもある。
結果として生じる平衡状態は、実際の物質や超低温のフェルミオン原子で起こると予測されるが、まだ直接観測されていない。
この研究は、空洞量子電磁力学(キャビティQED)を用いて提案された動的相を生成する代替方法を実現する。
我々のシステムは、光学キャビティに結合した$^{88}$Sr原子の長い電子遷移におけるクーパー対の存在または欠如を符号化し、電子間の相互作用を光子による相互作用として表現する。
位相図を完全探索するため, クエンチ後の単一粒子分散と相互作用の比を演算し, 非破壊測定を用いて超伝導秩序パラメータの追従ダイナミクスのリアルタイム追跡を行う。
我々は、順序パラメータがゼロに減衰する状態(フェーズI)、非平衡定常状態値(フェーズII)を仮定する状態、あるいは自生成フロケット位相の形で持続的な振動(フェーズIII)を示す状態を観察している。
実際のクーパー対のない光学キャビティにおけるこれらの動的位相をエミュレートする能力は、プログラマブルシミュレータが従来のアプローチで直面する多くの課題を克服できることを示した。
これは、従来の超伝導体を設計し、スペクトル形成因子のような平均場効果を越えて探究し、量子センシングのコヒーレンス時間を増やす可能性を含む、量子シミュレーションのエキサイティングな可能性を開く。 In conventional Bardeen-Cooper-Schrieffer (BCS) superconductors, electrons with opposite momenta bind into Cooper pairs due to an attractive interaction mediated by phonons in the material. While superconductivity naturally emerges at thermal equilibrium, it can also emerge out of equilibrium when the system's parameters are abruptly changed. The resulting out-of-equilibrium phases are predicted to occur in real materials and ultracold fermionic atoms but have not yet been directly observed. This work realizes an alternate way to generate the proposed dynamical phases using cavity quantum electrodynamics (cavity QED). Our system encodes the presence or absence of a Cooper pair in a long-lived electronic transition in $^{88}$Sr atoms coupled to an optical cavity and represents interactions between electrons as photon-mediated interactions through the cavity. To fully explore the phase diagram, we manipulate the ratio between the single-particle dispersion and the interactions after a quench and perform real-time tracking of subsequent dynamics of the superconducting order parameter using non-destructive measurements. We observe regimes where the order parameter decays to zero ("phase I"), assumes a non-equilibrium steady-state value ("phase II"), or exhibits persistent oscillations ("phase III") in the form of a self-generated Floquet phase. The capability to emulate these dynamical phases in optical cavities without real Cooper pairs demonstrates that programmable simulators can overcome many challenges faced by traditional approaches. This opens up exciting prospects for quantum simulation, including the potential to engineer unconventional superconductors and to probe beyond mean-field effects like the spectral form factor, and for increasing coherence time for quantum sensing. | 翻訳日:2023-06-02 20:19:24 公開日:2023-05-31 |
# 量子機械学習の影 Shadows of quantum machine learning ( http://arxiv.org/abs/2306.00061v1 ) ライセンス: Link先を確認 | Sofiene Jerbi, Casper Gyurik, Simon C. Marshall, Riccardo Molteni, Vedran Dunjko | (参考訳) 量子機械学習はしばしば、量子コンピュータが実用的な問題を解決する最も有望な用途の1つとして強調される。
しかし、実際に量子機械学習モデルが広く使われることの大きな障害は、トレーニングされたとしても、新しいデータで評価するためには量子コンピュータへのアクセスが必要であることである。
この問題を解決するために、量子モデルのトレーニングフェーズに従えば、量子コンピュータは、このモデルの古典的影、すなわち、学習関数の古典的計算可能な近似を生成するのに使うことができることを提案する。
このアイデアを探求し、そのような影モデルを構築するためのアプローチを提案する最近の研究は、完全に古典的なモデルが代わりに訓練される可能性も高めているため、そもそも量子コンピュータの必要性を回避できる。
本研究では,量子線型モデルと古典的影トモグラフィーの枠組みに基づいて,影モデルを定義する新しい手法を提案する。
このアプローチは、広く信じられている暗号の仮定に基づいて、完全に古典的モデルでは難解な特定の学習タスクを解決できる影モデルが存在することを示すことができる。
また、複雑性理論における共通の仮定に基づいて、すべての量子モデルがシャドウフィラブルであるという(非)類似性についても論じる。 Quantum machine learning is often highlighted as one of the most promising uses for a quantum computer to solve practical problems. However, a major obstacle to the widespread use of quantum machine learning models in practice is that these models, even once trained, still require access to a quantum computer in order to be evaluated on new data. To solve this issue, we suggest that following the training phase of a quantum model, a quantum computer could be used to generate what we call a classical shadow of this model, i.e., a classically computable approximation of the learned function. While recent works already explore this idea and suggest approaches to construct such shadow models, they also raise the possibility that a completely classical model could be trained instead, thus circumventing the need for a quantum computer in the first place. In this work, we take a novel approach to define shadow models based on the frameworks of quantum linear models and classical shadow tomography. This approach allows us to show that there exist shadow models which can solve certain learning tasks that are intractable for fully classical models, based on widely-believed cryptography assumptions. We also discuss the (un)likeliness that all quantum models could be shadowfiable, based on common assumptions in complexity theory. | 翻訳日:2023-06-02 20:18:53 公開日:2023-05-31 |
# $\mathbb{Z}_2$対称量子回路におけるクロスエントロピーの普遍性 Universality of the cross entropy in $\mathbb{Z}_2$ symmetric monitored quantum circuits ( http://arxiv.org/abs/2306.00058v1 ) ライセンス: Link先を確認 | Maria Tikhanovskaya, Ali Lavasani, Matthew P. A. Fisher, Sagar Vijay | (参考訳) 線形クロスエントロピー(lxe)は、ある監視量子回路における純状態軌道の体積および面積則エントロピー位相間の計測駆動位相遷移のスケーラブルなプローブとして最近提案されている。
そこで本研究では,lxeが対称性を有するモニタ回路の領域ローエンタングル位相を識別し,これらの位相を分離する臨界点における普遍的挙動を抽出できることを実証する。
我々は、オンサイト$\mathbb{z}_{2}$対称性を持つ(1+1)次元監視回路に焦点を当てる。
初期状態の適切な選択のために、lxeは、監視された軌道の領域ローエンタングルスピングラスと常磁性相を区別する。
2次元のパーコレーションによって説明される臨界点において、LXEは境界条件と初期状態の選択に敏感に依存する普遍的な振舞いを示す。
開境界条件において、lxe は臨界パーコレーションの交叉確率に関係しており、それゆえ力学のアスペクト比の既知の普遍関数によって与えられることが示され、臨界時の lxe の数値的研究と定量的に一致する。
LXEは周期境界条件とパーコレーションにおける他の作用素の相関を探索する。
LXEはシンメトリ・ユニタリゲートの存在下で回路モデルのよりリッチな位相図に敏感であることを示す。
最後に,回路進化におけるノイズの影響を考察し,それに対抗する潜在的な解決策を提案する。 The linear cross-entropy (LXE) has been recently proposed as a scalable probe of the measurement-driven phase transition between volume- and area-law-entangled phases of pure-state trajectories in certain monitored quantum circuits. Here, we demonstrate that the LXE can distinguish distinct area-law-entangled phases of monitored circuits with symmetries, and extract universal behavior at the critical points separating these phases. We focus on (1+1)-dimensional monitored circuits with an on-site $\mathbb{Z}_{2}$ symmetry. For an appropriate choice of initial states, the LXE distinguishes the area-law-entangled spin glass and paramagnetic phases of the monitored trajectories. At the critical point, described by two-dimensional percolation, the LXE exhibits universal behavior which depends sensitively on boundary conditions, and the choice of initial states. With open boundary conditions, we show that the LXE relates to crossing probabilities in critical percolation, and is thus given by a known universal function of the aspect ratio of the dynamics, which quantitatively agrees with numerical studies of the LXE at criticality. The LXE probes correlations of other operators in percolation with periodic boundary conditions. We show that the LXE is sensitive to the richer phase diagram of the circuit model in the presence of symmmetric unitary gates. Lastly, we consider the effect of noise during the circuit evolution, and propose potential solutions to counter it. | 翻訳日:2023-06-02 20:18:34 公開日:2023-05-31 |
# 量子シミュレーションにおける大規模絡み合いの探索 Exploring Large-Scale Entanglement in Quantum Simulation ( http://arxiv.org/abs/2306.00057v1 ) ライセンス: Link先を確認 | Manoj K. Joshi, Christian Kokail, Rick van Bijnen, Florian Kranzl, Torsten V. Zache, Rainer Blatt, Christian F. Roos, Peter Zoller | (参考訳) 絡み合いは量子多体系の特徴であり、量子シミュレーション実験における大きな粒子数の絡み合い構造を明らかにすることは量子情報科学における根本的な課題である。
本研究では, エンタングルメント・ハミルトニアンに基づくエンタングルメントの実験的検討を行い, 大規模サブシステムに対する還元密度作用素の有効性について述べる。
我々は51イオンプログラマブル量子シミュレータ上で1D XXZハイゼンベルク鎖の基底および励起状態を作成し、最大20個の格子サイトのサブシステムに対して、絡み合いハミルトンのサンプル効率の「学習」を行う。
我々の実験は、ハミルトニアンの絡み合いの局所構造に関する説得力のある証拠を提供する。
この観測は、相関量子物質を表す格子モデルに適応したビソニャーノとヴィヒマンによる量子論の基本的な予測を確認する最初の例である。
縮小状態はギブスアンサンブルの形をしており、空間的に変化する温度プロファイルは絡み合いのサインである。
また,フォン・ノイマンのエンタングルメントエントロピーの面積から体積則スケーリングへの遷移についても明らかにした。
量子アドバンテージの実現を目指す中で、我々の発見と手法は、より高い空間次元を含む局所的な相互作用を伴う多体問題における絡み合いの解明と理解に広く適用できると予測している。 Entanglement is a distinguishing feature of quantum many-body systems, and uncovering the entanglement structure for large particle numbers in quantum simulation experiments is a fundamental challenge in quantum information science. Here we perform experimental investigations of entanglement based on the entanglement Hamiltonian, as an effective description of the reduced density operator for large subsystems. We prepare ground and excited states of a 1D XXZ Heisenberg chain on a 51-ion programmable quantum simulator and perform sample-efficient `learning' of the entanglement Hamiltonian for subsystems of up to 20 lattice sites. Our experiments provide compelling evidence for a local structure of the entanglement Hamiltonian. This observation marks the first instance of confirming the fundamental predictions of quantum field theory by Bisognano and Wichmann, adapted to lattice models that represent correlated quantum matter. The reduced state takes the form of a Gibbs ensemble, with a spatially-varying temperature profile as a signature of entanglement. Our results also show the transition from area to volume-law scaling of Von Neumann entanglement entropies from ground to excited states. As we venture towards achieving quantum advantage, we anticipate that our findings and methods have wide-ranging applicability to revealing and understanding entanglement in many-body problems with local interactions including higher spatial dimensions. | 翻訳日:2023-06-02 20:18:12 公開日:2023-05-31 |
# 演算子代数と欠測情報を特徴付ける幾何学的位相 Geometric Phases Characterise Operator Algebras and Missing Information ( http://arxiv.org/abs/2306.00055v1 ) ライセンス: Link先を確認 | Souvik Banerjee, Moritz Dorband, Johanna Erdmenger, Anna-Lena Weigel | (参考訳) ヒルベルト空間の幾何学と位相に関する知識を提供することにより、重力の有無にかかわらず量子系を完全に記述するために幾何位相がどのように用いられるかを示す。
幾何学的位相とフォン・ノイマン代数の直接的な関係を見いだす。
特に、消失する幾何学的位相は代数上のよく定義されたトレース汎関数の存在を意味する。
永遠ブラックホールのAdS/CFT対応の中でどのように実現されるのかを論じる。
一方、バニッシュでない幾何位相は、考慮された量子系の一部のみをカバーする参照フレームに関連する局所観測者の欠落情報を示す。
磁場中の1つのスピンからビラソーロベリー相、AdS時空における永遠ブラックホールに付随する幾何学的位相まで、いくつかの例でこれを説明する。
後者の場合、非消滅幾何学的な位相は、関連するフォン・ノイマン代数の中心の存在と結びついている。 We show how geometric phases may be used to fully describe quantum systems, with or without gravity, by providing knowledge about the geometry and topology of its Hilbert space. We find a direct relation between geometric phases and von Neumann algebras. In particular, we show that a vanishing geometric phase implies the existence of a well-defined trace functional on the algebra. We discuss how this is realised within the AdS/CFT correspondence for the eternal black hole. On the other hand, a non-vanishing geometric phase indicates missing information for a local observer, associated to reference frames covering only parts of the quantum system considered. We illustrate this with several examples, ranging from a single spin in a magnetic field to Virasoro Berry phases and the geometric phase associated to the eternal black hole in AdS spacetime. For the latter, a non-vanishing geometric phase is tied to the presence of a centre in the associated von Neumann algebra. | 翻訳日:2023-06-02 20:17:49 公開日:2023-05-31 |
# 量子熱力学における非可換保存電荷 Noncommuting conserved charges in quantum thermodynamics and beyond ( http://arxiv.org/abs/2306.00054v1 ) ライセンス: Link先を確認 | Shayan Majidy, William F. Braasch Jr., Aleksander Lasek, Twesh Upadhyaya, Amir Kalev, Nicole Yunger Halpern | (参考訳) 熱力学系は通常、エネルギーや粒子数などの量(電荷)を保存する。
電荷はしばしば、互いに通勤するために暗黙的に仮定される。
しかし、不確実性関係のような量子現象は、可観測者の通勤失敗に依存している。
非可換電荷は熱力学現象にどのように影響するか?
この問題は、量子情報理論と熱力学の交点に現れると、最近多体物理学に広がった。
電荷の非可換性は、熱状態の形態の導出を無効にし、エントロピー生成を減少させ、固有状態の熱化仮説と矛盾させる。
このパースペクティブは、非可換電荷の量子熱力学に隣接する重要な結果、機会、および仕事について調査する。
エビデンス(Evidence)は、非可換電荷が熱化を阻害し、他の方法で熱化を高めることを示唆している。 Thermodynamic systems typically conserve quantities ("charges") such as energy and particle number. The charges are often assumed implicitly to commute with each other. Yet quantum phenomena such as uncertainty relations rely on observables' failure to commute. How do noncommuting charges affect thermodynamic phenomena? This question, upon arising at the intersection of quantum information theory and thermodynamics, spread recently across many-body physics. Charges' noncommutation has been found to invalidate derivations of the thermal state's form, decrease entropy production, conflict with the eigenstate thermalization hypothesis, and more. This Perspective surveys key results in, opportunities for, and work adjacent to the quantum thermodynamics of noncommuting charges. Open problems include a conceptual puzzle: Evidence suggests that noncommuting charges may hinder thermalization in some ways while enhancing thermalization in others. | 翻訳日:2023-06-02 20:17:35 公開日:2023-05-31 |
# 縮退安定器符号のためのハミングのようなバインド A Hamming-Like Bound for Degenerate Stabilizer Codes ( http://arxiv.org/abs/2306.00048v1 ) ライセンス: Link先を確認 | Andrew Nemec and Theerapat Tansuwannont | (参考訳) 量子ハミング境界は当初、非退化量子符号のパラメータの上界として提案されたが、過去数十年にわたって多くの退化量子符号もこの境界に従わなければならないことを示すために多くの研究がなされてきた。
本稿では、ある正の整数$N(t)$より大きい長さの$t$-error-correcting stabler符号を退化するために適用される量子ハミング境界よりも厳密なハミングのような境界が存在することを示す。
このバウンダリは、全ての単一エラー訂正縮退安定器符号に対して保持され、少数の最適距離3安定化器符号以外は非退行であることを示す。 The quantum Hamming bound was originally put forward as an upper bound on the parameters of nondegenerate quantum codes, but over the past few decades much work has been done to show that many degenerate quantum codes must also obey this bound. In this paper, we show that there is a Hamming-like bound stricter than the quantum Hamming bound that applies to degenerate $t$-error-correcting stabilizer codes of length greater than some positive integer $N(t)$. We show that this bound holds for all single-error-correcting degenerate stabilizer codes, forcing all but a handful of optimal distance-3 stabilizer codes to be nondegenerate. | 翻訳日:2023-06-02 20:17:21 公開日:2023-05-31 |
# 分子共役学習によるアノテータによる病理画像分割の民主化 Democratizing Pathological Image Segmentation with Lay Annotators via Molecular-empowered Learning ( http://arxiv.org/abs/2306.00047v1 ) ライセンス: Link先を確認 | Ruining Deng, Yanwei Li, Peize Li, Jiacheng Wang, Lucas W. Remedios, Saydolimkhon Agzamkhodjaev, Zuhayr Asad, Quan Liu, Can Cui, Yucheng Tang, Haichun Yang, Yuankai Huo | (参考訳) 高解像度ギガピクセル全スライド画像(WSI)における多クラス細胞セグメンテーションは臨床応用において重要である。
このようなAIモデルをトレーニングするには、通常、経験豊富なドメインエキスパート(例えば病理学者)からの労働集約的なピクセル単位の手動アノテーションが必要である。
また、肉眼で細粒の細胞型(例えば、ポドサイトやメサンギウム細胞)を区別する場合、このようなアノテーションはエラーを起こしやすい。
本研究では,レイアノテータ(医学領域の知識を持たないアノテータ)のみを用いて,病的AIデプロイメントの民主化の実現可能性を評価する。
The contribution of this paper is threefold: (1) We proposed a molecular-empowered learning scheme for multi-class cell segmentation using partial labels from lay annotators; (2) The proposed method integrated Giga-pixel level molecular-morphology cross-modality registration, molecular-informed annotation, and molecular-oriented segmentation model, so as to achieve significantly superior performance via 3 lay annotators as compared with 2 experienced pathologists; (3) A deep corrective learning (learning with imperfect label) method is proposed to further improve the segmentation performance using partially annotated noisy data.
実験結果より,経験豊富な病理学者の従来の形態的アノテーション (f1 = 0.7051) よりも優れた分子インフォームドアノテーションを用いて,f1 = 0.8496を得た。
本手法は,非医学的コンピュータビジョンタスクと類似した学習プロセスをスケールアップし,病理学的なセグメンテーション深層モデルの開発をlay annotatorレベルに民主化する。
公式実装とセルアノテーションはhttps://github.com/hrlblab/MolecularELで公開されている。 Multi-class cell segmentation in high-resolution Giga-pixel whole slide images (WSI) is critical for various clinical applications. Training such an AI model typically requires labor-intensive pixel-wise manual annotation from experienced domain experts (e.g., pathologists). Moreover, such annotation is error-prone when differentiating fine-grained cell types (e.g., podocyte and mesangial cells) via the naked human eye. In this study, we assess the feasibility of democratizing pathological AI deployment by only using lay annotators (annotators without medical domain knowledge). The contribution of this paper is threefold: (1) We proposed a molecular-empowered learning scheme for multi-class cell segmentation using partial labels from lay annotators; (2) The proposed method integrated Giga-pixel level molecular-morphology cross-modality registration, molecular-informed annotation, and molecular-oriented segmentation model, so as to achieve significantly superior performance via 3 lay annotators as compared with 2 experienced pathologists; (3) A deep corrective learning (learning with imperfect label) method is proposed to further improve the segmentation performance using partially annotated noisy data. From the experimental results, our learning method achieved F1 = 0.8496 using molecular-informed annotations from lay annotators, which is better than conventional morphology-based annotations (F1 = 0.7051) from experienced pathologists. Our method democratizes the development of a pathological segmentation deep model to the lay annotator level, which consequently scales up the learning process similar to a non-medical computer vision task. The official implementation and cell annotations are publicly available at https://github.com/hrlblab/MolecularEL. | 翻訳日:2023-06-02 20:17:10 公開日:2023-05-31 |
# 進化的最適化における抽選チケット:スパースバックプロパゲーションフリートレーサビリティについて Lottery Tickets in Evolutionary Optimization: On Sparse Backpropagation-Free Trainability ( http://arxiv.org/abs/2306.00045v1 ) ライセンス: Link先を確認 | Robert Tjarko Lange, Henning Sprekeler | (参考訳) 宝くじ現象は勾配に基づくトレーニングの慣用性か、それとも進化最適化に一般化するのか?
本稿では,進化戦略(ES)の高度にスパースな初期化の存在を確立し,勾配降下(GD)に基づくスパーストレーニングと比較して定性的差異を特徴付ける。
本稿では,ネットワークの刈り込みステップにロス曲率情報を組み込んだ,新しい信号対雑音反復刈り込み手法を提案する。
これにより、gdベースの最適化と比較してブラックボックス進化を使用する際に、スパルサーのトレーニング可能なネットワーク初期化も発見できる。
さらに、これらの初期化は誘導バイアスを符号化し、異なるES、関連するタスク、さらにはGDベースのトレーニングへと移行する。
最後に、異なる最適化パラダイムとスパーシティレベルから生じる局所的オプティマを比較する。
GDとは対照的に、ESは多様で平坦な局所最適条件を探索し、疎度レベルと独立ランの線形モード接続を保たない。
その結果,進化過程と勾配に基づく学習ダイナミクスの質的相違が浮き彫り過程の研究によって明らかにされる。 Is the lottery ticket phenomenon an idiosyncrasy of gradient-based training or does it generalize to evolutionary optimization? In this paper we establish the existence of highly sparse trainable initializations for evolution strategies (ES) and characterize qualitative differences compared to gradient descent (GD)-based sparse training. We introduce a novel signal-to-noise iterative pruning procedure, which incorporates loss curvature information into the network pruning step. This can enable the discovery of even sparser trainable network initializations when using black-box evolution as compared to GD-based optimization. Furthermore, we find that these initializations encode an inductive bias, which transfers across different ES, related tasks and even to GD-based training. Finally, we compare the local optima resulting from the different optimization paradigms and sparsity levels. In contrast to GD, ES explore diverse and flat local optima and do not preserve linear mode connectivity across sparsity levels and independent runs. The results highlight qualitative differences between evolution and gradient-based learning dynamics, which can be uncovered by the study of iterative pruning procedures. | 翻訳日:2023-06-02 20:16:41 公開日:2023-05-31 |
# 駆動型CFTの量子情報幾何学 Quantum information geometry of driven CFTs ( http://arxiv.org/abs/2306.00099v1 ) ライセンス: Link先を確認 | Jan de Boer, Victor Godet, Jani Kastikainen, Esko Keski-Vakkuri | (参考訳) 駆動型量子システムは、様々な興味深い、時にはエキゾチックな現象を示す。
特に興味を持つのは、臨界における量子多体系を記述する共形場理論(CFT)である。
本稿では,2次元CFT上での時空と量子情報幾何学的視点の両方を開発する。
広い種類の駆動プロトコルに対して、理論は時依存距離を持つ時空上で定義されたCFTという観点で、代替だが等価な定式化を認める。
この同値性は作用素の定式化においても理論の経路積分記述においても証明する。
駆動2次元CFTに対する補的量子情報幾何学的視点は、ボゴリューボフ・クボ・モリ計量(Bogoliubov-Kubo-Mori、BKM)と呼ばれる古典情報理論のフィッシャー計量(Fisher metric of classical information theory)に匹敵する計量を用いており、相対エントロピーの摂動膨張から得られる。
熱状態のビラゾロ励起の普遍的セクタに対するbkmメトリックを計算し,多種多様な駆動プロトコルをキャプチャし,異なる種類の運転を分類・特徴付けするための有用なツールであることを示す。
SL(2,R) の部分群で運転する M に対して、BKM 計量は単位円板上の双曲計量となる。
Floquet を駆動する CFT の非自明なダイナミクスが、M\"obius 変換を介して BKM 幾何学にエンコードされていることを示す。
これにより、運転中のエルゴード的および非エルゴード的体制を特定できる。
また、ホログラフィック駆動のcftは、地平線が進化するbtzブラックホールと双対であることも説明できる。
漸近境界から遠ざかるブラックホールの地平線の変形は、フロケットCFTにおける加熱と冷却のホログラフィック的理解をもたらす。 Driven quantum systems exhibit a large variety of interesting and sometimes exotic phenomena. Of particular interest are driven conformal field theories (CFTs) which describe quantum many-body systems at criticality. In this paper, we develop both a spacetime and a quantum information geometry perspective on driven 2d CFTs. We show that for a large class of driving protocols the theories admit an alternative but equivalent formulation in terms of a CFT defined on a spacetime with a time-dependent metric. We prove this equivalence both in the operator formulation as well as in the path integral description of the theory. A complementary quantum information geometric perspective for driven 2d CFTs employs the so-called Bogoliubov-Kubo-Mori (BKM) metric, which is the counterpart of the Fisher metric of classical information theory, and which is obtained from a perturbative expansion of relative entropy. We compute the BKM metric for the universal sector of Virasoro excitations of a thermal state, which captures a large class of driving protocols, and find it to be a useful tool to classify and characterize different types of driving. For M\"obius driving by the SL(2,R) subgroup, the BKM metric becomes the hyperbolic metric on the unit disk. We show how the non-trivial dynamics of Floquet driven CFTs is encoded in the BKM geometry via M\"obius transformations. This allows us to identify ergodic and non-ergodic regimes in the driving. We also explain how holographic driven CFTs are dual to driven BTZ black holes with evolving horizons. The deformation of the black hole horizon towards and away from the asymptotic boundary provides a holographic understanding of heating and cooling in Floquet CFTs. | 翻訳日:2023-06-02 20:08:33 公開日:2023-05-31 |
# 位相感度非バイアスマルチポートを用いた高感度干渉法 Enhanced-sensitivity interferometry with phase-sensitive unbiased multiports ( http://arxiv.org/abs/2306.00098v1 ) ライセンス: Link先を確認 | Christopher R. Schwarze, David S. Simon, Alexander V. Sergienko | (参考訳) ここでは, 従来のビーム分割器とは異なり, 光学的フィードバック(キャビティ)と偏りのないマルチポートを組み合わせることで, 光が元のポートから反射することを可能にするインターフェロメトリデバイスを紹介する。
ミシェルソン干渉計の従来の方向偏差ビームスプリッターを非偏差マルチポートに置き換えることで、散乱振幅の関数依存性が変化する。
これにより、外部位相摂動に対する透過性の導出を実質的に大きくすることができる。
これにより位相測定の解像度が大幅に向上し、外部制御可能な位相シフトを調整することで位相応答曲線をリアルタイムで変化させることができる。 Here we introduce interferometric devices by combining optical feedback (cavities) with unbiased multiports, which unlike traditional beam dividers, allow light to reflect back out of the port from which it originated. By replacing the traditional, directionally-biased beam-splitter in a Michelson interferometer with an unbiased multiport, the functional dependence of the scattering amplitudes changes. As a result, the derivative of transmittance with respect to an external phase perturbation can be made substantially large. This significantly enhances the resolution of phase measurement, and allows the phase response curves to be altered in real time by tuning an externally-controllable phase shift. | 翻訳日:2023-06-02 20:08:05 公開日:2023-05-31 |
# 後悔最小化によるパレートフロント識別 Pareto Front Identification with Regret Minimization ( http://arxiv.org/abs/2306.00096v1 ) ライセンス: Link先を確認 | Wonyoung Kim and Garud Iyengar and Assaf Zeevi | (参考訳) 平均報酬ベクトルが文脈の線形関数である場合、報酬ベクトルが他のいずれにも支配されないアームの集合を識別することを目的として、pareto front identification for linear bandits (pfilin) を考える。
PFILinは、特に、最高の腕識別問題と多目的能動的学習を含んでいる。
提案アルゴリズムのサンプル複雑性は$\tilde{o}(d/\delta^2)$であり、ここで$d$は文脈の次元、$\delta$は問題複雑性の尺度である。
サンプルの複雑さは対数係数まで最適です。
我々のアルゴリズムの新たな特徴は、全てのアクションのコンテキストを使用することである。
パレートフロントを効率的に同定するだけでなく、サンプルの数が$\Omega(d\log dL)$よりも大きい場合、このアルゴリズムは即時パレート後悔に対して$\tilde{O}(\sqrt{d/t})$boundを保証します。
全アームのコンテキストを利用することで,提案アルゴリズムはパレートフロントの識別と後悔の最小化を同時に行う。
数値実験により,提案アルゴリズムは後悔を最小限に抑えつつ,パレートフロントの同定に成功した。 We consider Pareto front identification for linear bandits (PFILin) where the goal is to identify a set of arms whose reward vectors are not dominated by any of the others when the mean reward vector is a linear function of the context. PFILin includes the best arm identification problem and multi-objective active learning as special cases. The sample complexity of our proposed algorithm is $\tilde{O}(d/\Delta^2)$, where $d$ is the dimension of contexts and $\Delta$ is a measure of problem complexity. Our sample complexity is optimal up to a logarithmic factor. A novel feature of our algorithm is that it uses the contexts of all actions. In addition to efficiently identifying the Pareto front, our algorithm also guarantees $\tilde{O}(\sqrt{d/t})$ bound for instantaneous Pareto regret when the number of samples is larger than $\Omega(d\log dL)$ for $L$ dimensional vector rewards. By using the contexts of all arms, our proposed algorithm simultaneously provides efficient Pareto front identification and regret minimization. Numerical experiments demonstrate that the proposed algorithm successfully identifies the Pareto front while minimizing the regret. | 翻訳日:2023-06-02 20:07:53 公開日:2023-05-31 |
# 帰納的リー群上の同変ニューラルネットワークの一般枠組み A General Framework for Equivariant Neural Networks on Reductive Lie Groups ( http://arxiv.org/abs/2306.00091v1 ) ライセンス: Link先を確認 | Ilyes Batatia, Mario Geiger, Jose Munoz, Tess Smidt, Lior Silberman, Christoph Ortner | (参考訳) 直交群、ローレンツ群、またはユニタリ群のような還元的リー群は、高エネルギー物理学、量子力学、量子色力学、分子動力学、コンピュータビジョン、イメージングといった科学分野において重要な役割を果たす。
本稿では,任意の還元的リー群 G の有限次元表現の対称性を尊重することのできる一般同変ニューラルネットワークアーキテクチャを提案する。
また、一般的なG-等価ニューラルネットワークの開発と実装に必要なツールをすべて提供する lie-nn ソフトウェアライブラリについても紹介する。
表現の一般的なテンソル積を既約表現に還元するためのルーチンを実装しており、我々のアーキテクチャを幅広い問題やグループに適用しやすくしています。
このアプローチの汎用性と性能は、トップクォーク崩壊タグ(lorentz group)と形状認識(orthogonal group)のタスクに適用することにより実証される。 Reductive Lie Groups, such as the orthogonal groups, the Lorentz group, or the unitary groups, play essential roles across scientific fields as diverse as high energy physics, quantum mechanics, quantum chromodynamics, molecular dynamics, computer vision, and imaging. In this paper, we present a general Equivariant Neural Network architecture capable of respecting the symmetries of the finite-dimensional representations of any reductive Lie Group G. Our approach generalizes the successful ACE and MACE architectures for atomistic point clouds to any data equivariant to a reductive Lie group action. We also introduce the lie-nn software library, which provides all the necessary tools to develop and implement such general G-equivariant neural networks. It implements routines for the reduction of generic tensor products of representations into irreducible representations, making it easy to apply our architecture to a wide range of problems and groups. The generality and performance of our approach are demonstrated by applying it to the tasks of top quark decay tagging (Lorentz group) and shape recognition (orthogonal group). | 翻訳日:2023-06-02 20:07:31 公開日:2023-05-31 |
# 大規模機械学習のための関係計算の自動微分 Auto-Differentiation of Relational Computations for Very Large Scale Machine Learning ( http://arxiv.org/abs/2306.00088v1 ) ライセンス: Link先を確認 | Yuxin Tang, Zhimin Ding, Dimitrije Jankov, Binhang Yuan, Daniel Bourgeois, Chris Jermaine | (参考訳) 関係データモデルは大規模データ管理と分析を容易にするように設計されている。
関係論的に表現された計算を区別する方法の問題を考える。
自動微分リレーショナルアルゴリズムを実行するリレーショナルエンジンは、非常に大規模なデータセットに容易にスケール可能であることを示し、大規模分散機械学習のための最先端の特殊目的システムと競合することを示す。 The relational data model was designed to facilitate large-scale data management and analytics. We consider the problem of how to differentiate computations expressed relationally. We show experimentally that a relational engine running an auto-differentiated relational algorithm can easily scale to very large datasets, and is competitive with state-of-the-art, special-purpose systems for large-scale distributed machine learning. | 翻訳日:2023-06-02 20:07:14 公開日:2023-05-31 |
# ソーシャル・エンボディド・リレンジメントにおける適応協調 Adaptive Coordination in Social Embodied Rearrangement ( http://arxiv.org/abs/2306.00087v1 ) ライセンス: Link先を確認 | Andrew Szot, Unnat Jain, Dhruv Batra, Zsolt Kira, Ruta Desai, Akshara Rai | (参考訳) 本稿では,ディナーテーブルの設置,家の整理,食料品の包装解除などの協調的な日常的な作業から成る「社会的再配置」の課題について述べる。
ソーシャル・リアレンジメント(Social Rearrangement)では、2つのロボットが、オンボードセンシングとエゴセントリックな観察と、環境に関する特権的な情報を使用して、長い水平タスクを完了するように調整する。
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネーション(ZSC)を研究する。
ZSCアプローチが我々の複雑で視覚的にリッチな設定を一般化するのに苦労する以前、さらなる分析により、トレーニング時に様々な協調行動を生成することができないことが判明した。
これに対応するために,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。
以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。 We present the task of "Social Rearrangement", consisting of cooperative everyday tasks like setting up the dinner table, tidying a house or unpacking groceries in a simulated multi-agent environment. In Social Rearrangement, two robots coordinate to complete a long-horizon task, using onboard sensing and egocentric observations, and no privileged information about the environment. We study zero-shot coordination (ZSC) in this task, where an agent collaborates with a new partner, emulating a scenario where a robot collaborates with a new human partner. Prior ZSC approaches struggle to generalize in our complex and visually rich setting, and on further analysis, we find that they fail to generate diverse coordination behaviors at training time. To counter this, we propose Behavior Diversity Play (BDP), a novel ZSC approach that encourages diversity through a discriminability objective. Our results demonstrate that BDP learns adaptive agents that can tackle visual coordination, and zero-shot generalize to new partners in unseen environments, achieving 35% higher success and 32% higher efficiency compared to baselines. | 翻訳日:2023-06-02 20:07:07 公開日:2023-05-31 |
# カークウッド-ディラック陽性状態の幾何学的特徴付け Characterizing the geometry of the Kirkwood-Dirac positive states ( http://arxiv.org/abs/2306.00086v1 ) ライセンス: Link先を確認 | Christopher Langrenez, David R.M. Arvidsson-Shukur and Stephan De Bi\`evre | (参考訳) kirkwood-dirac (kd) 準確率分布は、2つの観測可能値 $a$ と $b$ の固有基底に関して任意の量子状態を記述することができる。
kd分布は古典的なジョイント確率分布と同様に振る舞うが、負と非実の値を仮定することができる。
近年、kd分布は非古典的現象と量子的利点をマッピングするのに有用であることが証明されている。
これらの量子特徴はkd分布の非正のエントリと結びついている。
したがって、KD陽性状態と非陽性状態の幾何学を理解することが重要である。
これまで、混合状態のKD陽性に関する詳細な分析は行われていない。
ここでは、正のKD分布を持つ状態の全凸集合が、$A$と$B$の固有基底に依存することを特徴付ける。
特に、$A$と$B$の固有プロジェクターの凸結合が唯一のKD陽性状態を構成する3つのレジームを同定する。
(i)次元のどんなシステムでも$2ドル;$
(ii)3次元のオープンで密集した基数の集合に$、および$
(iii)=素次元の離散フーリエ変換基底。
最後に、純粋なKD陽性状態の凸結合として記述できない混合KD陽性状態が存在するかどうかを検討する。
観測可能ないくつかの選択に対して、$A$ と $B$ が実際に発生することを示す。
我々はスピン1$システムに対してそのような状態を明示的に構成する。 The Kirkwood-Dirac (KD) quasiprobability distribution can describe any quantum state with respect to the eigenbases of two observables $A$ and $B$. KD distributions behave similarly to classical joint probability distributions but can assume negative and nonreal values. In recent years, KD distributions have proven instrumental in mapping out nonclassical phenomena and quantum advantages. These quantum features have been connected to nonpositive entries of KD distributions. Consequently, it is important to understand the geometry of the KD-positive and -nonpositive states. Until now, there has been no thorough analysis of the KD positivity of mixed states. Here, we characterize how the full convex set of states with positive KD distributions depends on the eigenbases of $A$ and $B$. In particular, we identify three regimes where convex combinations of the eigenprojectors of $A$ and $B$ constitute the only KD-positive states: $(i)$ any system in dimension $2$; $(ii)$ an open and dense set of bases in dimension $3$; and $(iii)$ the discrete-Fourier-transform bases in prime dimension. Finally, we investigate if there can exist mixed KD-positive states that cannot be written as convex combinations of pure KD-positive states. We show that for some choices of observables $A$ and $B$ this phenomenon does indeed occur. We explicitly construct such states for a spin-$1$ system. | 翻訳日:2023-06-02 20:06:45 公開日:2023-05-31 |
# 量子回路からのベルサンプリング Bell sampling from quantum circuits ( http://arxiv.org/abs/2306.00083v1 ) ライセンス: Link先を確認 | Dominik Hangleiter and Michael J. Gullans | (参考訳) 量子コンピュータの検証における中心的な課題は、パフォーマンス全体をベンチマークし、計算能力を示すことである。
本研究では,両タスクに使用可能な量子計算のモデルであるベルサンプリング(bell sampling)を見つけ,フォールトトレランスへの理想的な一歩を与える。
ベルサンプリングでは,逆ベル基底の量子回路で作成された状態の2つのコピーを測定する。
ベルサンプルは古典的に抽出可能であり、同時に回路シャドーと呼ばれるものを構成することを示し、ベルサンプルから状態を作成する量子回路に関する情報を効率的に抽出し、回路エラーを診断することができる。
ベルサンプルから効率的に抽出できる既知の特性に加えて、回路の深さに対するテストと、回路内のtゲート数に対する下限を推定するアルゴリズムという2つの新しい効率的なプロトコルを与える。
さらに,Tカウントの低い回路で作成した状態の完全な記述をアルゴリズムで学習する。 A central challenge in the verification of quantum computers is benchmarking their performance as a whole and demonstrating their computational capabilities. In this work, we find a model of quantum computation, Bell sampling, that can be used for both of those tasks and thus provides an ideal stepping stone towards fault-tolerance. In Bell sampling, we measure two copies of a state prepared by a quantum circuit in the transversal Bell basis. We show that the Bell samples are classically intractable to produce and at the same time constitute what we call a circuit shadow: from the Bell samples we can efficiently extract information about the quantum circuit preparing the state, as well as diagnose circuit errors. In addition to known properties that can be efficiently extracted from Bell samples, we give two new and efficient protocols, a test for the depth of the circuit and an algorithm to estimate a lower bound to the number of T gates in the circuit. With some additional measurements, our algorithm learns a full description of states prepared by circuits with low T -count. | 翻訳日:2023-06-02 20:06:28 公開日:2023-05-31 |
# AIイメージとオーバートンウィンドウ AI Imagery and the Overton Window ( http://arxiv.org/abs/2306.00080v1 ) ライセンス: Link先を確認 | Sarah K. Amer | (参考訳) aiベースのテキストから画像への生成は、この1年で視覚的に包括的で美的な画像の制作において大きな飛躍を遂げ、人工の芸術作品とaiによって生成された画像との差別化がますます困難になっている。
安定拡散、ミッドジャーニーなどの生成モデルは、技術的および倫理的な側面において、いくつかの主要産業に影響を及ぼすと期待されている。
人間の生活水準と仕事の水準を上げることと、あるグループを利用して他のグループを豊かにすることのバランスを取ることは、議論の複雑で重要な部分です。
この技術の急速な成長、モデルの運営方法、グレーエリアの合法性により、ビデオゲーム産業を含む視覚と芸術のドメインは、aiインフラストラクチャーの所有者によってクリエーターから引き継がれるリスクにさらされている。
本稿は、ID盗難、データ洗浄など、今日のAI開発者とユーザの両方が直面する懸念を調査する文献レビューである。
合法化の課題と倫理的懸念について論じ、適切な規制が与えられた静的メディアとインタラクティブメディアの両方において、AI生成モデルが視覚的創造性のプロセスの合理化にいかに役立つかを結論付けている。
キーワード:AIテキスト・画像生成、Midjourney、安定拡散、AI倫理、ゲームデザイン、デジタルアート、データ洗浄 AI-based text-to-image generation has undergone a significant leap in the production of visually comprehensive and aesthetic imagery over the past year, to the point where differentiating between a man-made piece of art and an AI-generated image is becoming more difficult. Generative Models such as Stable Diffusion, Midjourney and others are expected to affect several major industries in technological and ethical aspects. Striking the balance between raising human standard of life and work vs exploiting one group of people to enrich another is a complex and crucial part of the discussion. Due to the rapid growth of this technology, the way in which its models operate, and gray area legalities, visual and artistic domains - including the video game industry, are at risk of being taken over from creators by AI infrastructure owners. This paper is a literature review examining the concerns facing both AI developers and users today, including identity theft, data laundering and more. It discusses legalization challenges and ethical concerns, and concludes with how AI generative models can be tremendously useful in streamlining the process of visual creativity in both static and interactive media given proper regulation. Keywords: AI text-to-image generation, Midjourney, Stable Diffusion, AI Ethics, Game Design, Digital Art, Data Laundering | 翻訳日:2023-06-02 20:06:13 公開日:2023-05-31 |
# CAROM Air - 航空映像からの車両位置と交通シーンの再構築 CAROM Air -- Vehicle Localization and Traffic Scene Reconstruction from Aerial Videos ( http://arxiv.org/abs/2306.00075v1 ) ライセンス: Link先を確認 | Duo Lu, Eric Eaton, Matt Weg, Wei Wang, Steven Como, Jeffrey Wishart, Hongbin Yu, Yezhou Yang | (参考訳) ビデオからの道路交通シーンの再構築は、道路安全規制当局、都市計画者、研究者、自動運転技術開発者によって望まれている。
しかし、道路インフラストラクチャーにカメラを設置して道路のすべてのマイルをカバーするのは高価で不要である。
本稿では,交通シーンを自動的に再構成し,コンピュータで正確に再現できるように,航空映像を車両軌跡データに処理する手法を提案する。
平均して、車両のローカライゼーション誤差は約0.1mから0.3mであり、120mで飛行する消費者向けドローンを使用する。
また、約100時間の空中映像から50の道路交通シーンのデータセットをコンパイルし、様々な下流交通分析アプリケーションを可能にし、さらなる道路交通関連研究を促進する。
データセットはhttps://github.com/duolu/CAROMで公開されている。 Road traffic scene reconstruction from videos has been desirable by road safety regulators, city planners, researchers, and autonomous driving technology developers. However, it is expensive and unnecessary to cover every mile of the road with cameras mounted on the road infrastructure. This paper presents a method that can process aerial videos to vehicle trajectory data so that a traffic scene can be automatically reconstructed and accurately re-simulated using computers. On average, the vehicle localization error is about 0.1 m to 0.3 m using a consumer-grade drone flying at 120 meters. This project also compiles a dataset of 50 reconstructed road traffic scenes from about 100 hours of aerial videos to enable various downstream traffic analysis applications and facilitate further road traffic related research. The dataset is available at https://github.com/duolu/CAROM. | 翻訳日:2023-06-02 20:05:49 公開日:2023-05-31 |
# ReLUネットワークの最適集合と解経路 Optimal Sets and Solution Paths of ReLU Networks ( http://arxiv.org/abs/2306.00119v1 ) ライセンス: Link先を確認 | Aaron Mishkin, Mert Pilanci | (参考訳) 本研究では,非凸トレーニング問題を凸プログラムとして再構成することにより,最適なReLUニューラルネットワークの集合を特徴付ける分析フレームワークを開発する。
凸パラメータ化の大域的最適性は多面体集合によって与えられ、この特徴は非凸トレーニング目的の最適集合に拡張されることを示す。
ReLUトレーニング問題の定常点はすべて、サブサンプル凸プログラムの最適点として表現できるので、我々の研究は、非凸目的のすべての臨界点に対する一般的な表現を提供する。
そして,この結果を利用して,最小ネットワーク計算のための最適プルーニングアルゴリズム,reluネットワークの正規化経路の連続化条件の確立,および最小reluネットワークに対する感度評価結果の開発を行った。 We develop an analytical framework to characterize the set of optimal ReLU neural networks by reformulating the non-convex training problem as a convex program. We show that the global optima of the convex parameterization are given by a polyhedral set and then extend this characterization to the optimal set of the non-convex training objective. Since all stationary points of the ReLU training problem can be represented as optima of sub-sampled convex programs, our work provides a general expression for all critical points of the non-convex objective. We then leverage our results to provide an optimal pruning algorithm for computing minimal networks, establish conditions for the regularization path of ReLU networks to be continuous, and develop sensitivity results for minimal ReLU networks. | 翻訳日:2023-06-02 20:00:39 公開日:2023-05-31 |
# ロバストな解析合成のためのニューラルテクスチャー付き変形性メッシュ Neural Textured Deformable Meshes for Robust Analysis-by-Synthesis ( http://arxiv.org/abs/2306.00118v1 ) ライセンス: Link先を確認 | Angtian Wang, Wufei Ma, Alan Yuille, Adam Kortylewski | (参考訳) 人間のビジョンは、分散シナリオ下で現在のaiアルゴリズムよりも高い堅牢性を示している。
このようなロバスト性は、合成分析を行うことで得られると推測されている。
本稿では,神経特徴のレンダリング・アンド・コンプリートアルゴリズムによる近似解析を駆使して,3重視覚タスクを一貫した方法で定式化する。
本稿では,カメラパラメータとオブジェクトジオメトリの両方を最適化する,変形可能な形状を持つオブジェクトモデルを含むニューラルテクスチャ・デフォルマブル・メッシュを提案する。
変形可能なメッシュは、ニューラルネットワークとしてパラメータ化され、空間的識別性を持つように訓練された、全表面のニューラルネットワークテクスチャマップで覆われる。
推論中、テスト画像の特徴マップを抽出し、それから微分レンダリングを用いてモデルの3次元ポーズと形状パラメータを最適化し、ターゲットの特徴マップを最適に再構築する。
実世界画像上で評価した場合や, 咬合や領域シフトといった分散的課題においても, 従来型ニューラルネットワークよりもはるかに頑健であることを示す。
我々のアルゴリズムは、従来の性能指標でテストした場合、標準アルゴリズムと競合する。 Human vision demonstrates higher robustness than current AI algorithms under out-of-distribution scenarios. It has been conjectured such robustness benefits from performing analysis-by-synthesis. Our paper formulates triple vision tasks in a consistent manner using approximate analysis-by-synthesis by render-and-compare algorithms on neural features. In this work, we introduce Neural Textured Deformable Meshes, which involve the object model with deformable geometry that allows optimization on both camera parameters and object geometries. The deformable mesh is parameterized as a neural field, and covered by whole-surface neural texture maps, which are trained to have spatial discriminability. During inference, we extract the feature map of the test image and subsequently optimize the 3D pose and shape parameters of our model using differentiable rendering to best reconstruct the target feature map. We show that our analysis-by-synthesis is much more robust than conventional neural networks when evaluated on real-world images and even in challenging out-of-distribution scenarios, such as occlusion and domain shift. Our algorithms are competitive with standard algorithms when tested on conventional performance measures. | 翻訳日:2023-06-02 20:00:25 公開日:2023-05-31 |
# カナディアン・クロプランド・データセット:農業における多時期的深層学習分類のための新しい土地被覆データセット The Canadian Cropland Dataset: A New Land Cover Dataset for Multitemporal Deep Learning Classification in Agriculture ( http://arxiv.org/abs/2306.00114v1 ) ライセンス: Link先を確認 | Amanda A. Boatswain Jacques and Abdoulaye Banir\'e Diallo and Etienne Lord | (参考訳) リモートセンシングによる土地被覆のモニタリングは, 環境変化を調査し, 収量予測による地球規模の食料安全確保に不可欠である。
具体的には、マルチテンポラルリモートセンシング画像は、シーンのダイナミックスに関する関連情報を提供し、よりよい土地被覆分類結果をもたらすことが証明されている。
それでも、信頼性、微粒化、高品質な注釈付きサンプルへのアクセスが難しいため、空間的および時間的解像度のデータから恩恵を受けている研究はほとんどない。
そこで本研究では,カナダ一年次作物目録から得られたラベルを豊かに含む,カナダ作物のテンポラリパッチベースデータセットを提案する。
このデータセットは、4年(2017-2020年)と5か月(6月~10月)で収集された10種類の作物から得られた78,536個の高解像度画像(10 m/ピクセル、640 x 640 m)を手作業で検証し、キュレートした。
各インスタンスには12のスペクトルバンド、RGBイメージ、追加の植生指標バンドが含まれている。
各カテゴリは、少なくとも4,800枚の画像を含む。
さらに、ベンチマークとして、同じ場所から単一の画像(resnet, densenet, efficientnet)または一連の画像(lrcn, 3d-cnn)を使用して、ユーザがクロップクラスを予測できるモデルとソースコードを提供する。
この進化したデータセットは、土地被覆の正確かつ連続的なモニタリングを提供することで、複雑な農業地域の理解を加速できる堅牢な農業環境モデルの作成を促進することを期待する。 Monitoring land cover using remote sensing is vital for studying environmental changes and ensuring global food security through crop yield forecasting. Specifically, multitemporal remote sensing imagery provides relevant information about the dynamics of a scene, which has proven to lead to better land cover classification results. Nevertheless, few studies have benefited from high spatial and temporal resolution data due to the difficulty of accessing reliable, fine-grained and high-quality annotated samples to support their hypotheses. Therefore, we introduce a temporal patch-based dataset of Canadian croplands, enriched with labels retrieved from the Canadian Annual Crop Inventory. The dataset contains 78,536 manually verified and curated high-resolution (10 m/pixel, 640 x 640 m) geo-referenced images from 10 crop classes collected over four crop production years (2017-2020) and five months (June-October). Each instance contains 12 spectral bands, an RGB image, and additional vegetation index bands. Individually, each category contains at least 4,800 images. Moreover, as a benchmark, we provide models and source code that allow a user to predict the crop class using a single image (ResNet, DenseNet, EfficientNet) or a sequence of images (LRCN, 3D-CNN) from the same location. In perspective, we expect this evolving dataset to propel the creation of robust agro-environmental models that can accelerate the comprehension of complex agricultural regions by providing accurate and continuous monitoring of land cover. | 翻訳日:2023-06-02 20:00:05 公開日:2023-05-31 |
# 医用画像の表現学習を改良するadder positive Additional Positive Enables Better Representation Learning for Medical Images ( http://arxiv.org/abs/2306.00112v1 ) ライセンス: Link先を確認 | Dewen Zeng, Yawen Wu, Xinrong Hu, Xiaowei Xu, Jingtong Hu, Yiyu Shi | (参考訳) 本稿では,最先端(SOTA)自己教師型学習フレームワークであるBYOLの新たな肯定的ペアを同定し,表現学習能力を向上させる方法を提案する。
同じ画像の2つの拡張ビューによって生成される1つの正のペアのみに依存する従来のBYOLとは異なり、同一ラベルを持つ異なる画像から得られる情報は、目的の特徴に対してより多様性とバリエーションをもたらすため、表現学習の恩恵を受けることができる。
このようなペアをラベルなしで識別するために,インスタンスベースかつ計算効率の良い影響関数であるtracinをbyolトレーニングのために検討する。
具体的には、TracInは、教師あり学習におけるテストサンプルに対するトレーニングサンプルの影響を明らかにする勾配ベースの手法である。
自己教師付き学習環境に拡張し,訓練中のミニバッチにおけるサンプルの類似性を表現するために,ペアワイズトラシンを推定する効率的なバッチワイズ毎サンプル勾配計算法を提案する。
各画像に対して、他の画像から最も類似したサンプルをプラスとして選択し、BYOL損失とともに特徴を引き出す。
2つの公開医療データセット(ISIC 2019とChestX-ray)による実験結果から,半教師付きおよび移動学習環境における他の競争ベースラインと比較して分類性能を向上させることができることが示された。 This paper presents a new way to identify additional positive pairs for BYOL, a state-of-the-art (SOTA) self-supervised learning framework, to improve its representation learning ability. Unlike conventional BYOL which relies on only one positive pair generated by two augmented views of the same image, we argue that information from different images with the same label can bring more diversity and variations to the target features, thus benefiting representation learning. To identify such pairs without any label, we investigate TracIn, an instance-based and computationally efficient influence function, for BYOL training. Specifically, TracIn is a gradient-based method that reveals the impact of a training sample on a test sample in supervised learning. We extend it to the self-supervised learning setting and propose an efficient batch-wise per-sample gradient computation method to estimate the pairwise TracIn to represent the similarity of samples in the mini-batch during training. For each image, we select the most similar sample from other images as the additional positive and pull their features together with BYOL loss. Experimental results on two public medical datasets (i.e., ISIC 2019 and ChestX-ray) demonstrate that the proposed method can improve the classification performance compared to other competitive baselines in both semi-supervised and transfer learning settings. | 翻訳日:2023-06-02 19:59:34 公開日:2023-05-31 |
# MuseCoco: テキストからシンボリック音楽を生成する MuseCoco: Generating Symbolic Music from Text ( http://arxiv.org/abs/2306.00110v1 ) ライセンス: Link先を確認 | Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian | (参考訳) テキスト記述から音楽を生成することはユーザフレンドリーなモードである。
音楽オーディオ生成を制御するためにテキストを使用するアプローチもあるが、音楽要素の編集はユーザにとって困難である。
対照的に、シンボリック音楽は編集が容易で、ユーザーが特定の音楽要素を操作しやすい。
本稿では,音楽的属性を持つ文章記述から記号的音楽を生成するmusecocoを提案し,そのタスクをテキストから属性への理解と属性から音楽への生成段階に分解する。
MuseCoCoは音楽コンポジション・コパイロット(Music Composition Copilot)の略で、ミュージシャンが与えられたテキストから音楽を直接生成できるようにする。
このシステムには2つの大きな利点がある。
属性対音楽生成段階では、属性を直接音楽シーケンスから抽出することができ、モデルトレーニングを自己教師する。
テキスト・ツー・アトリビュート理解段階では、定義属性テンプレートに基づいて、ChatGPTによってテキストを合成・洗練する。
第二に、システムはテキスト記述の特定の属性で正確に制御でき、属性条件付きまたはテキスト条件付きアプローチによって複数の制御オプションを提供する。
MuseCocoは、音楽性、制御性、総合スコアでそれぞれ1.27、1.08、および1.32のベースラインシステムを上回っている。
さらに、客観的な制御精度が約20%向上している。
さらに12億のパラメータを持つ頑健な大規模モデルを開発し,例外的な制御性と音楽性を示した。 Generating music from text descriptions is a user-friendly mode since the text is a relatively easy interface for user engagement. While some approaches utilize texts to control music audio generation, editing musical elements in generated audio is challenging for users. In contrast, symbolic music offers ease of editing, making it more accessible for users to manipulate specific musical elements. In this paper, we propose MuseCoco, which generates symbolic music from text descriptions with musical attributes as the bridge to break down the task into text-to-attribute understanding and attribute-to-music generation stages. MuseCoCo stands for Music Composition Copilot that empowers musicians to generate music directly from given text descriptions, offering a significant improvement in efficiency compared to creating music entirely from scratch. The system has two main advantages: Firstly, it is data efficient. In the attribute-to-music generation stage, the attributes can be directly extracted from music sequences, making the model training self-supervised. In the text-to-attribute understanding stage, the text is synthesized and refined by ChatGPT based on the defined attribute templates. Secondly, the system can achieve precise control with specific attributes in text descriptions and offers multiple control options through attribute-conditioned or text-conditioned approaches. MuseCoco outperforms baseline systems in terms of musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32 respectively. Besides, there is a notable enhancement of about 20% in objective control accuracy. In addition, we have developed a robust large-scale model with 1.2 billion parameters, showcasing exceptional controllability and musicality. | 翻訳日:2023-06-02 19:59:05 公開日:2023-05-31 |
# majority rule: 自己一貫性によるパッチ適用の改善 Majority Rule: better patching via Self-Consistency ( http://arxiv.org/abs/2306.00108v1 ) ライセンス: Link先を確認 | Toufique Ahmed, Premkumar Devanbu | (参考訳) 大規模言語モデル(LLM)は、図解的な問題解決例を含む「ファウショット」プロンプトで非自明な問題を解決するために誘導することができる。
現在、いくつかのショットに「思考の連鎖」 (CoT) の説明が含まれており、これは問題解の形式であり、LCMは「説明された」解を生成し、さらに良く機能する。
最近のエキサイティングで極めて優れた手法である自己整合[1](S-C)は、正しい解に対して多くの妥当な説明があるという直感に基づいて現れており、LLMが繰り返しサンプリングされて説明解対のプールを生成すると、与えられた問題に対して、プール内で最も頻繁に発生する解(説明を無視して)は、さらに正しいものになりがちである。
残念ながら、ソフトウェアエンジニアリング設定における高性能なS-C(あるいはCoT)アプローチの使用は、説明の欠如によって妨げられている。
本稿では,修正作業のコミットログを説明として用いて,S-C手法のプログラム修復への応用について述べる。
我々は、MODITデータセット上で、プログラムの修正を促そうとする従来のアプローチを破って、最先端の成果を達成し、また、正しいコミットメッセージが、LLMがより良いパッチを作成することを学ぶのに役立つことを示す証拠も見つけました。 Large Language models (LLMs) can be induced to solve non-trivial problems with "few-shot" prompts including illustrative problem-solution examples. Now if the few-shots also include "chain of thought" (CoT) explanations, which are of the form problem-explanation-solution, LLMs will generate a "explained" solution, and perform even better. Recently an exciting, substantially better technique, self-consistency [1] (S-C) has emerged, based on the intuition that there are many plausible explanations for the right solution; when the LLM is sampled repeatedly to generate a pool of explanation-solution pairs, for a given problem, the most frequently occurring solutions in the pool (ignoring the explanations) tend to be even more likely to be correct! Unfortunately, the use of this highly-performant S-C (or even CoT) approach in software engineering settings is hampered by the lack of explanations; most software datasets lack explanations. In this paper, we describe an application of the S-C approach to program repair, using the commit log on the fix as the explanation, only in the illustrative few-shots. We achieve state-of-the art results, beating previous approaches to prompting-based program repair, on the MODIT dataset; we also find evidence suggesting that the correct commit messages are helping the LLM learn to produce better patches. | 翻訳日:2023-06-02 19:58:39 公開日:2023-05-31 |
# MERT:大規模自己指導型音響音楽理解モデル MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training ( http://arxiv.org/abs/2306.00107v1 ) ライセンス: Link先を確認 | Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Yike Guo, Jie Fu | (参考訳) 自己教師付き学習(SSL)は、視覚、テキスト、音声の分野における大規模データに対する一般的なモデルをトレーニングするための有望なパラダイムとして最近登場した。
SSLは音声と音声で有効であることが証明されているが、音楽オーディオへの応用はまだ十分に検討されていない。
これは主に音楽の知識をモデル化すること、特に音楽の調律的特徴とピッチングされた特徴が原因である。
本研究のギャップに対処するために,教師モデルを取り入れた大規模自己教師訓練(mert)を用いた音響音楽理解モデルを提案する。
本研究では,従来の音声と音声のアプローチを性能面で上回る教師モデルの優れた組み合わせを見出した。
この組み合わせには、Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE)に基づく音響教師と、Constant-Q Transform (CQT)に基づく音楽教師が含まれる。
これらの教師は、私たちの学生モデルであるBERTスタイルのトランスフォーマーエンコーダを効果的にガイドし、より良い音楽オーディオをモデル化します。
さらに,表現の堅牢性を高めるために,バッチ内雑音混在拡張を導入する。
さらに,アコースティック言語モデルの事前学習における不安定性を克服し,設計パラダイムを95万から330万のパラメータに拡張可能にするため,幅広い設定を検討する。
実験結果から,本モデルでは14の楽曲理解タスクを一般化し,高いパフォーマンスを達成できることが示唆された。
コードとモデルはオンラインである。 https://github.com/yizhilll/MERT。 Self-supervised learning (SSL) has recently emerged as a promising paradigm for training generalisable models on large-scale data in the fields of vision, text, and speech. Although SSL has been proven effective in speech and audio, its application to music audio has yet to be thoroughly explored. This is primarily due to the distinctive challenges associated with modelling musical knowledge, particularly its tonal and pitched characteristics of music. To address this research gap, we propose an acoustic Music undERstanding model with large-scale self-supervised Training (MERT), which incorporates teacher models to provide pseudo labels in the masked language modelling (MLM) style acoustic pre-training. In our exploration, we identified a superior combination of teacher models, which outperforms conventional speech and audio approaches in terms of performance. This combination includes an acoustic teacher based on Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) and a musical teacher based on the Constant-Q Transform (CQT). These teachers effectively guide our student model, a BERT-style transformer encoder, to better model music audio. In addition, we introduce an in-batch noise mixture augmentation to enhance the representation robustness. Furthermore, we explore a wide range of settings to overcome the instability in acoustic language model pre-training, which allows our designed paradigm to scale from 95M to 330M parameters. Experimental results indicate that our model can generalise and perform well on 14 music understanding tasks and attains state-of-the-art (SOTA) overall scores. The code and models are online: https://github.com/yizhilll/MERT. | 翻訳日:2023-06-02 19:58:12 公開日:2023-05-31 |
# 簡単な回転による一般化ディッケモデルにおける量子情報保存 Storing Quantum Information in a generalised Dicke Model via a Simple Rotation ( http://arxiv.org/abs/2306.00105v1 ) ライセンス: Link先を確認 | R. L\'opez-Pe\~na, S. Cordero, E. Nahmad-Achar, O. Casta\~nos | (参考訳) 単一放射場と双極子的に相互作用する3ドルレベルの原子系に対して、量子情報を格納する方法が提示される。
この方法は、ハミルトニアン上で単純な局所SU(2)回転を実行することを含む。
等分性の下では、これらの変換は、$\lambda$-と$v$-の構成のために電磁場から原子レベルを分離し、2つの効果的な2ドルレベルのシステム(量子ビット)と孤立した原子レベルを与える。
この回転は系の量子位相図を保存する。
この方法は、記憶や検索などの量子情報を操作したり、伝送線を介して通信する手段として用いられる可能性がある。 A method for storing quantum information is presented for $3$-level atomic systems interacting dipolarly with a single radiation field. The method involves performing simple local SU(2) rotations on the Hamiltonian. Under equal detuning, these transformations decouple one of the atomic levels from the electromagnetic field for the $\Lambda$- and $V$-configurations, yielding two effective $2$-level systems (qubits) plus an isolated atomic level; this allows for the exchange of information between the qubits. This rotation preserves the quantum phase diagram of the system. The method could possibly be used as a means to manipulate quantum information, such as storage and retrieval, or communication via a transmission line. | 翻訳日:2023-06-02 19:57:42 公開日:2023-05-31 |
# ManagerTower: ビジョンランゲージ表現学習のためのユニモーダルエキスパートの洞察を集める ManagerTower: Aggregating the Insights of Uni-Modal Experts for Vision-Language Representation Learning ( http://arxiv.org/abs/2306.00103v1 ) ライセンス: Link先を確認 | Xiao Xu, Bei Li, Chenfei Wu, Shao-Yen Tseng, Anahita Bhiwandiwalla, Shachar Rosenman, Vasudev Lal, Wanxiang Che, Nan Duan | (参考訳) 2tower Vision-Language (VL)モデルは、様々な下流VLタスクに有望な改善を示している。
最も進んだ研究はエンコーダ間のブリッジを構築することで性能を向上させるが、一様表現の非効率な層間利用に悩まされ、異なる一様意味知識のレベルを柔軟に活用できない。
本稿では,異なるレベルの訓練済みユニモーダル専門家の洞察を収集し,組み合わせた新しいVLモデルアーキテクチャであるManageTowerを提案する。
各クロスモーダル層に導入されたマネージャは、一様意味知識を適応的に集約し、より包括的なクロスモーダルアライメントと融合を容易にする。
ManagerTowerは、Vision-Language Pre-training (VLP)の両方で、以前の強力なベースラインを上回っている。
ダウンストリームのvlタスクでは、特にvqav2テスト-stdでは79.15%、ir@1では86.56%、flickr30kでは95.64%のtr@1である。
コードとチェックポイントはhttps://github.com/LooperXX/ManagerTower.comで入手できる。 Two-Tower Vision-Language (VL) models have shown promising improvements on various downstream VL tasks. Although the most advanced work improves performance by building bridges between encoders, it suffers from ineffective layer-by-layer utilization of uni-modal representations and cannot flexibly exploit different levels of uni-modal semantic knowledge. In this work, we propose ManagerTower, a novel VL model architecture that gathers and combines the insights of pre-trained uni-modal experts at different levels. The managers introduced in each cross-modal layer can adaptively aggregate uni-modal semantic knowledge to facilitate more comprehensive cross-modal alignment and fusion. ManagerTower outperforms previous strong baselines both with and without Vision-Language Pre-training (VLP). With only 4M VLP data, ManagerTower achieves superior performances on various downstream VL tasks, especially 79.15% accuracy on VQAv2 Test-Std, 86.56% IR@1 and 95.64% TR@1 on Flickr30K. Code and checkpoints are available at https://github.com/LooperXX/ManagerTower. | 翻訳日:2023-06-02 19:57:28 公開日:2023-05-31 |
# MetaXLR -- マルチタスク帯域に基づく低リソース多言語学習のための混合言語メタ表現変換 MetaXLR -- Mixed Language Meta Representation Transformation for Low-resource Cross-lingual Learning based on Multi-Armed Bandit ( http://arxiv.org/abs/2306.00100v1 ) ライセンス: Link先を確認 | Liat Bezalel and Eyal Orgad | (参考訳) 超低リソース言語のための転送学習は、事前トレーニングのための大規模な単言語コーパスや微調整のための十分な注釈データがないため、難しい課題である。
metaxlは、メタ学習を使って単一のソース言語から非常に低いリソース言語への学習を転送することを提案している。
データ駆動方式で選択された複数のソース言語を利用する拡張アプローチを提案する。
さらに,マルチ武装バンディットアルゴリズムを用いて,学習における言語活用のためのサンプル選択手法を提案する。
これら2つの改善により、同じ量のデータを使用しながら、非常に低いリソース言語に対するNERタスクの成果の達成に成功し、表現をより一般化しました。
また、複数の言語を使用するメソッド能力のため、同じ量のデータであっても、以前のMetaXLメソッドよりも優れた結果が得られる一方で、フレームワークははるかに多くのデータを使用することができる。 Transfer learning for extremely low resource languages is a challenging task as there is no large scale monolingual corpora for pre training or sufficient annotated data for fine tuning. We follow the work of MetaXL which suggests using meta learning for transfer learning from a single source language to an extremely low resource one. We propose an enhanced approach which uses multiple source languages chosen in a data driven manner. In addition, we introduce a sample selection strategy for utilizing the languages in training by using a multi armed bandit algorithm. Using both of these improvements we managed to achieve state of the art results on the NER task for the extremely low resource languages while using the same amount of data, making the representations better generalized. Also, due to the method ability to use multiple languages it allows the framework to use much larger amounts of data, while still having superior results over the former MetaXL method even with the same amounts of data. | 翻訳日:2023-06-02 19:57:08 公開日:2023-05-31 |
# ニューラルネットワークの表現力について On the Expressive Power of Neural Networks ( http://arxiv.org/abs/2306.00145v1 ) ライセンス: Link先を確認 | Jan Holstermann | (参考訳) 1989年、ジョージ・シベンコ(George Cybenko)はランドマーク論文で、広い浅いニューラルネットワークはコンパクト集合上の任意の連続関数を近似できることを示した。
この普遍近似定理は、多くのフォローアップ研究を引き起こした。
Shen, Yang, Zhang は、$L^p$-norms と $p \in [1,\infty)$ の ReLU-networks の最適近似速度を決定した。
Kidger と Lyons は深い ReLU-networks に対する普遍近似定理を証明した。
テルガルスキーは、指数的に多くのニューロンがない限り、広い浅いReLU-ネットワークでは近似できない深い狭いReLU-ネットワークの例を示した。
しかし、まだ未解決のままである疑問はさらに多い。
深い狭いReLU-networksではうまく近似できない幅の浅いReLU-networksはありますか?
普遍近似定理は、ソボレフノルム $W^{1,1}$ のような他のノルムに対してまだ真か?
これらの結果は、relu以外のアクティベーション関数に留まっているか?
私たちはこれらの質問に2つの表現力の枠組みで答えます。
最初のものはよく知られており、ReLU-ネットワークによって計算された関数の線型領域の最大数を数えている。
我々はこの表現力の最もよく知られた限界を改善する。
2つ目は全く新しいものです。 In 1989 George Cybenko proved in a landmark paper that wide shallow neural networks can approximate arbitrary continuous functions on a compact set. This universal approximation theorem sparked a lot of follow-up research. Shen, Yang and Zhang determined optimal approximation rates for ReLU-networks in $L^p$-norms with $p \in [1,\infty)$. Kidger and Lyons proved a universal approximation theorem for deep narrow ReLU-networks. Telgarsky gave an example of a deep narrow ReLU-network that cannot be approximated by a wide shallow ReLU-network unless it has exponentially many neurons. However, there are even more questions that still remain unresolved. Are there any wide shallow ReLU-networks that cannot be approximated well by deep narrow ReLU-networks? Is the universal approximation theorem still true for other norms like the Sobolev norm $W^{1,1}$? Do these results hold for activation functions other than ReLU? We will answer all of those questions and more with a framework of two expressive powers. The first one is well-known and counts the maximal number of linear regions of a function calculated by a ReLU-network. We will improve the best known bounds for this expressive power. The second one is entirely new. | 翻訳日:2023-06-02 19:49:40 公開日:2023-05-31 |
# メカニック:学習率チューナー Mechanic: A Learning Rate Tuner ( http://arxiv.org/abs/2306.00144v1 ) ライセンス: Link先を確認 | Ashok Cutkosky, Aaron Defazio, Harsh Mehta | (参考訳) 我々は,任意のベース最適化アルゴリズムの学習率スケール係数とスケジュールを自動的に調整する手法を紹介し,これを \textsc{mechanic} と呼ぶ。
提案手法は,オンライン凸最適化における同様の目標を達成するために,最近の理論的な縮小を実践的に実現する。
我々は,バッチサイズ,スケジュール,ベース最適化アルゴリズムを多用した大規模深層学習タスクで \textsc{mechanic} を厳格に評価した。
これらの実験は、問題に応じて、‘textsc{mechanic} は、学習率のマニュアルチューニングによって非常に近いか、一致するか、あるいは改善されることを示している。 We introduce a technique for tuning the learning rate scale factor of any base optimization algorithm and schedule automatically, which we call \textsc{mechanic}. Our method provides a practical realization of recent theoretical reductions for accomplishing a similar goal in online convex optimization. We rigorously evaluate \textsc{mechanic} on a range of large scale deep learning tasks with varying batch sizes, schedules, and base optimization algorithms. These experiments demonstrate that depending on the problem, \textsc{mechanic} either comes very close to, matches or even improves upon manual tuning of learning rates. | 翻訳日:2023-06-02 19:49:13 公開日:2023-05-31 |
# テキスト対テーブル生成のためのシーケンシャル・ツー・シーケンス・セットモデル A Sequence-to-Sequence&Set Model for Text-to-Table Generation ( http://arxiv.org/abs/2306.00137v1 ) ライセンス: Link先を確認 | Tong Li, Zhihao Wang, Liangying Shao, Xuling Zheng, Xiaoli Wang, Jinsong Su | (参考訳) 近年,テキストからテーブルへの生成タスクが注目されている。
この面では、支配的モデルは、このタスクをシーケンスからシーケンスへの生成タスクとして定式化し、各テーブルをトップダウン順序ですべての行を連結することで、トレーニング中にトークンシーケンスにシリアライズする。
しかし、深刻な欠陥が2つある。
1) 事前定義された順序は,トレーニング中に誤ったバイアスを生じさせ,行間の順序の変化を強く罰する。
2)モデルが長いトークンシーケンスを出力すると,エラー伝搬問題は深刻になる。
本稿では,まず,ほとんどの行の生成が順序に敏感であることを示す予備的研究を行う。
さらに,新しいシーケンシャル・ツー・シーケンス・セットテキスト・ツー・テーブル生成モデルを提案する。
具体的には、入力テキストを符号化するテキストエンコーダに加えて、テーブルヘッダー生成器を備え、テーブルヘッダー、すなわちテーブルの最初の行をシーケンス生成の方法で出力する。
次に、学習可能な行埋め込みと列埋め込みを備えたテーブルボディジェネレータを使用して、テーブルボディ行のセットを並列に生成する。
特に、訓練中に生成されたテーブル本体列とターゲットとの間に対応しない問題に対処するために、生成したテーブル本体列とターゲットの第一セルとの二部間マッチングに基づく目標割当戦略を提案する。
実験結果から,本モデルがベースラインをはるかに上回り,一般用データセットの最先端性能を実現することが示された。 Recently, the text-to-table generation task has attracted increasing attention due to its wide applications. In this aspect, the dominant model formalizes this task as a sequence-to-sequence generation task and serializes each table into a token sequence during training by concatenating all rows in a top-down order. However, it suffers from two serious defects: 1) the predefined order introduces a wrong bias during training, which highly penalizes shifts in the order between rows; 2) the error propagation problem becomes serious when the model outputs a long token sequence. In this paper, we first conduct a preliminary study to demonstrate the generation of most rows is order-insensitive. Furthermore, we propose a novel sequence-to-sequence&set text-to-table generation model. Specifically, in addition to a text encoder encoding the input text, our model is equipped with a table header generator to first output a table header, i.e., the first row of the table, in the manner of sequence generation. Then we use a table body generator with learnable row embeddings and column embeddings to generate a set of table body rows in parallel. Particularly, to deal with the issue that there is no correspondence between each generated table body row and target during training, we propose a target assignment strategy based on the bipartite matching between the first cells of generated table body rows and targets. Experiment results show that our model significantly surpasses the baselines, achieving state-of-the-art performance on commonly-used datasets. | 翻訳日:2023-06-02 19:48:54 公開日:2023-05-31 |
# 量子時系列のオンライン処理のための量子光リカレントニューラルネットワーク A Quantum Optical Recurrent Neural Network for Online Processing of Quantum Times Series ( http://arxiv.org/abs/2306.00134v1 ) ライセンス: Link先を確認 | Robbe De Prins, Guy Van der Sande, and Peter Bienstman | (参考訳) 過去10年間、研究者は量子コンピューティング(QC)と古典機械学習(ML)アルゴリズムのシナジーを研究してきた。
しかし、QCにおける測定はしばしば量子状態を妨害または破壊し、観測可能な値を推定するために複数のデータ処理を必要とする。
特に、これは、測定が一般的に中間段階で行われるように、時間データのオンライン(すなわち、リアルタイム、シングルショット)処理を防止する。
近年,量子出力によるタスクに焦点をあてて,検出器の必要をなくすことにより,この問題の解決が提案されている。
貯水池コンピュータに触発されて、内部パラメータのサブセットのみを最適化し、他のパラメータをランダムな値に固定するモデルが提案された。
ここでは、量子時系列も処理しますが、すべての内部相互作用をトレーニングできる量子光リカレントニューラルネットワーク(qornn)を使用して処理します。
予想通り、QORNNのトレーニングが可能である限り、このアプローチはより高いパフォーマンスをもたらす。
さらに,このモデルにより,特定のメモリ効果を経験する量子チャネルの伝送速度が向上することを示す。
さらに、同様のメモリ効果が望ましくない場合、冗長にエンコードされた入力信号が利用可能であった場合にのみ解決できるタスクである。
最後に、この最後のタスクの小規模なバージョンをフォトニックプロセッサのBorealis上で実行し、現在のハードウェアでQORNNを構築できることを実証した。 Over the last decade, researchers have studied the synergy between quantum computing (QC) and classical machine learning (ML) algorithms. However, measurements in QC often disturb or destroy quantum states, requiring multiple repetitions of data processing to estimate observable values. In particular, this prevents online (i.e., real-time, single-shot) processing of temporal data as measurements are commonly performed during intermediate stages. Recently, it was proposed to sidestep this issue by focusing on tasks with quantum output, thereby removing the need for detectors. Inspired by reservoir computers, a model was proposed where only a subset of the internal parameters are optimized while keeping the others fixed at random values. Here, we also process quantum time series, but we do so using a quantum optical recurrent neural network (QORNN) of which all internal interactions can be trained. As expected, this approach yields higher performance, as long as training the QORNN is feasible. We further show that our model can enhance the transmission rate of quantum channels that experience certain memory effects. Moreover, it can counteract similar memory effects if they are unwanted, a task that could previously only be solved when redundantly encoded input signals were available. Finally, we run a small-scale version of this last task on the photonic processor Borealis, demonstrating that our QORNN can be constructed using currently existing hardware. | 翻訳日:2023-06-02 19:48:25 公開日:2023-05-31 |
# カナリア露光の解釈に関する一考察 A Note On Interpreting Canary Exposure ( http://arxiv.org/abs/2306.00133v1 ) ライセンス: Link先を確認 | Matthew Jagielski | (参考訳) カルリーニ等で導入されたカナリア露光は、機械学習モデルのトレーニングのプライバシを経験的に評価したり、監査するために頻繁に使用される。
このノートの目的は、メンバシップ推論攻撃やディファレンシャルプライバシに関連することを含む、カナリアエクスポージャーの解釈に関する直感を提供することです。 Canary exposure, introduced in Carlini et al. is frequently used to empirically evaluate, or audit, the privacy of machine learning model training. The goal of this note is to provide some intuition on how to interpret canary exposure, including by relating it to membership inference attacks and differential privacy. | 翻訳日:2023-06-02 19:48:01 公開日:2023-05-31 |
# 自己教師付き視覚トランスフォーマによる新規物体の3次元ポーズ推定 Self-supervised Vision Transformers for 3D Pose Estimation of Novel Objects ( http://arxiv.org/abs/2306.00129v1 ) ライセンス: Link先を確認 | Stefan Thalhammer and Jean-Baptiste Weibel and Markus Vincze and Jose Garcia-Rodriguez | (参考訳) オブジェクトのポーズ推定は、オブジェクト操作とシーン理解に重要である。
ポーズ推定装置の一般的な適用性を改善するため,近年の研究では,トレーニング中に見つからない新しい物体に対する推定値の提供に焦点が当てられている。
このような作業では、深いテンプレートマッチング戦略を使用して、クエリイメージに接続された最も近いテンプレートを検索する。
このテンプレート検索は暗黙的にオブジェクトクラスとポーズを提供します。
多くの視覚タスクでcnnよりも視覚トランスフォーマーが成功し、改善されているにもかかわらず、最先端の技術はcnnベースのアプローチを使って新しいオブジェクトポーズ推定を行っている。
本研究は,深いテンプレートマッチングのための自己教師付きcnnと視覚トランスフォーマとの差異を評価し,実証する。
より詳しくは、どちらのタイプのアプローチも、対照的な学習を用いてトレーニング画像と独立したオブジェクトのテンプレートとのマッチングを訓練する。
テスト時に、このようなテンプレートは、マスク付きコサイン類似性を使用して、クラッタ、オクルージョン、オブジェクト対称性などの困難な設定下で、既知のおよび新しいオブジェクトのクエリイメージとマッチングされる。
以上の結果から,視覚トランスフォーマはcnnよりも精度が向上するだけでなく,事前学習された視覚トランスフォーマは微調整を必要としない場合もある。
さらに,これら2種類のネットワークを深層テンプレートマッチングで比較する場合,最適化とネットワークアーキテクチャの違いを強調した。 Object pose estimation is important for object manipulation and scene understanding. In order to improve the general applicability of pose estimators, recent research focuses on providing estimates for novel objects, that is objects unseen during training. Such works use deep template matching strategies to retrieve the closest template connected to a query image. This template retrieval implicitly provides object class and pose. Despite the recent success and improvements of Vision Transformers over CNNs for many vision tasks, the state of the art uses CNN-based approaches for novel object pose estimation. This work evaluates and demonstrates the differences between self-supervised CNNs and Vision Transformers for deep template matching. In detail, both types of approaches are trained using contrastive learning to match training images against rendered templates of isolated objects. At test time, such templates are matched against query images of known and novel objects under challenging settings, such as clutter, occlusion and object symmetries, using masked cosine similarity. The presented results not only demonstrate that Vision Transformers improve in matching accuracy over CNNs, but also that for some cases pre-trained Vision Transformers do not need fine-tuning to do so. Furthermore, we highlight the differences in optimization and network architecture when comparing these two types of network for deep template matching. | 翻訳日:2023-06-02 19:47:55 公開日:2023-05-31 |
# 代理モデル拡張(SME):フェデレートラーニングにおける高速かつ高精度な重み更新攻撃 Surrogate Model Extension (SME): A Fast and Accurate Weight Update Attack on Federated Learning ( http://arxiv.org/abs/2306.00127v1 ) ライセンス: Link先を確認 | Junyi Zhu, Ruicong Yao, Matthew B. Blaschko | (参考訳) Federated Learning(FL)やその他の多くの分散トレーニングフレームワークでは、コラボレータはプライベートデータをローカルに保持し、複数のイテレーション後にローカルデータでトレーニングされたネットワーク重みを共有することができる。
gradient inversionは、生成した勾配からデータを復元するプライバシ攻撃のファミリーである。
flは、単一のステップの勾配が複数の局所的なイテレーションの勾配の蓄積によって隠蔽されるため、重み更新に対する勾配反転攻撃に対するある程度の保護を提供することができる。
本研究では,flに内在するプライバシ保護の弱さを明らかにするため,flの重み付け更新に対する勾配反転攻撃を原則的に拡張する手法を提案する。
特に,2次元勾配流の特性と局所更新の低ランク特性に基づく代理モデルを提案する。
提案手法は,多くの繰り返しを含む重み更新に対する勾配反転攻撃の能力を大幅に向上させ,SOTA(State-of-the-art)性能を実現する。
さらに,本手法は共通FLシナリオにおいて,SOTAベースラインよりも100\times$高速で動作する。
私たちの仕事は、ネットワーク重みを共有するプライバシーリスクを再評価し、強調します。
私たちのコードはhttps://github.com/JunyiZhu-AI/surrogate_model_extensionで利用可能です。 In Federated Learning (FL) and many other distributed training frameworks, collaborators can hold their private data locally and only share the network weights trained with the local data after multiple iterations. Gradient inversion is a family of privacy attacks that recovers data from its generated gradients. Seemingly, FL can provide a degree of protection against gradient inversion attacks on weight updates, since the gradient of a single step is concealed by the accumulation of gradients over multiple local iterations. In this work, we propose a principled way to extend gradient inversion attacks to weight updates in FL, thereby better exposing weaknesses in the presumed privacy protection inherent in FL. In particular, we propose a surrogate model method based on the characteristic of two-dimensional gradient flow and low-rank property of local updates. Our method largely boosts the ability of gradient inversion attacks on weight updates containing many iterations and achieves state-of-the-art (SOTA) performance. Additionally, our method runs up to $100\times$ faster than the SOTA baseline in the common FL scenario. Our work re-evaluates and highlights the privacy risk of sharing network weights. Our code is available at https://github.com/JunyiZhu-AI/surrogate_model_extension. | 翻訳日:2023-06-02 19:47:32 公開日:2023-05-31 |
# ベイジアンCARTの混合速度について On Mixing Rates for Bayesian CART ( http://arxiv.org/abs/2306.00126v1 ) ライセンス: Link先を確認 | Jungeum Kim, Veronika Rockova | (参考訳) MCMCによるベイズ推定の成功は、マルコフ連鎖が急速に後部分布に達することに依存している。
ベイズ非パラメトリックの後方への推論理論が豊富にあるにもかかわらず、そのような理想的な推論対象からシミュレートするMCMCアルゴリズムの収束特性は、完全には理解されていない。
本研究は,BART(Bayesian Additive Regression Trees)のビルディングブロックを形成するBayesian CARTアルゴリズムに焦点を当てる。
種々の提案分布の下で, 典型的な後部における混合時間の上限を導出する。
木々のウェーブレット表現を爆発させると、信号の階層的な接続制限の下でベイジアンCARTがうまく(ポリノミクス的に)混合するのに十分な条件を提供する。
また, ベイズカート(単純な成長ステップとプルーンステップに基づく)が指数的混合時間よりも早く, 深く孤立した信号に到達できないことを示す負の結果も導出する。
筋電図探索を即時的に行うため,提案した分布に小枝全体(単一ノードだけでなく)を取り付け/切り離すTwiggy Bayesian CARTを提案する。
トウィッヒ・ベイジアンCARTの多項式混合は、信号が木に接続されていると仮定せずに示す。
さらに,インフォームド変種がより高速な混合を実現することを示す。
徹底的なシミュレーション研究は、様々な提案の下でスパイク・アンド・スラブ先行とベイジアンCARTの相違を強調している。 The success of Bayesian inference with MCMC depends critically on Markov chains rapidly reaching the posterior distribution. Despite the plentitude of inferential theory for posteriors in Bayesian non-parametrics, convergence properties of MCMC algorithms that simulate from such ideal inferential targets are not thoroughly understood. This work focuses on the Bayesian CART algorithm which forms a building block of Bayesian Additive Regression Trees (BART). We derive upper bounds on mixing times for typical posteriors under various proposal distributions. Exploiting the wavelet representation of trees, we provide sufficient conditions for Bayesian CART to mix well (polynomially) under certain hierarchical connectivity restrictions on the signal. We also derive a negative result showing that Bayesian CART (based on simple grow and prune steps) cannot reach deep isolated signals in faster than exponential mixing time. To remediate myopic tree exploration, we propose Twiggy Bayesian CART which attaches/detaches entire twigs (not just single nodes) in the proposal distribution. We show polynomial mixing of Twiggy Bayesian CART without assuming that the signal is connected on a tree. Going further, we show that informed variants achieve even faster mixing. A thorough simulation study highlights discrepancies between spike-and-slab priors and Bayesian CART under a variety of proposals. | 翻訳日:2023-06-02 19:47:12 公開日:2023-05-31 |
# 多言語構文解析・生成のための事前学習言語意味モデル Pre-Trained Language-Meaning Models for Multilingual Parsing and Generation ( http://arxiv.org/abs/2306.00124v1 ) ライセンス: Link先を確認 | Chunliu Wang, Huiyuan Lai, Malvina Nissim, Johan Bos | (参考訳) プレトレーニング言語モデル(PLM)はNLPにおいて大きな成功を収め、最近は計算意味論のタスクに使われている。
しかしながら、これらのタスクは、事前学習段階に表現が明示的に含まれていないため、PLMの恩恵を完全には受けない。
対話表現構造(DRS)に基づく多言語事前学習型言語意味モデルを導入し、同じモデルにおける自然言語テキスト以外の意味表現を含め、事前学習対象と微調整対象とのギャップを減らすための新しい戦略を設計する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,多言語drs解析とdrs-to-text生成タスクの両方において,最良性能が得られた。
自動測定値と生成課題における人間の判断との相関分析は, モデルの有効性をさらに検証する。
人間の検査により、語彙外トークンが誤った結果の主な原因であることが判明した。 Pre-trained language models (PLMs) have achieved great success in NLP and have recently been used for tasks in computational semantics. However, these tasks do not fully benefit from PLMs since meaning representations are not explicitly included in the pre-training stage. We introduce multilingual pre-trained language-meaning models based on Discourse Representation Structures (DRSs), including meaning representations besides natural language texts in the same model, and design a new strategy to reduce the gap between the pre-training and fine-tuning objectives. Since DRSs are language neutral, cross-lingual transfer learning is adopted to further improve the performance of non-English tasks. Automatic evaluation results show that our approach achieves the best performance on both the multilingual DRS parsing and DRS-to-text generation tasks. Correlation analysis between automatic metrics and human judgements on the generation task further validates the effectiveness of our model. Human inspection reveals that out-of-vocabulary tokens are the main cause of erroneous results. | 翻訳日:2023-06-02 19:46:50 公開日:2023-05-31 |
# 多言語多形言語検出 Multilingual Multi-Figurative Language Detection ( http://arxiv.org/abs/2306.00121v1 ) ライセンス: Link先を確認 | Huiyuan Lai, Antonio Toral, Malvina Nissim | (参考訳) 言葉のフィギュアは、抽象概念を表現し、リテラル表現よりも強い感情を呼び起こし、テキストをより創造的で魅力的なものにする。
その広範で基本的な性格から、自然言語処理ではフィギュラティブ言語理解が取り組まれてきたが、多言語環境では、同時に複数の音声を同時に検討する場合には、非常に未熟である。
このギャップを埋めるために,多言語多形言語モデルを導入し,文レベルのフィギュラブル言語検出のためのベンチマークを提供し,3つの共通表現と7つの言語をカバーする。
具体的には,テンプレートに基づくプロンプト学習に基づく言語認識のためのフレームワークを開発した。
このようにして、タスク固有のモジュールや言語固有のモジュールを必要とせずに、複数の言語や言語にまたがる複数の検出タスクを統一する。
実験の結果,我々のフレームワークはいくつかの強いベースラインより優れており,他の相互関連タスクの協調モデリングの青写真として機能する可能性が示唆された。 Figures of speech help people express abstract concepts and evoke stronger emotions than literal expressions, thereby making texts more creative and engaging. Due to its pervasive and fundamental character, figurative language understanding has been addressed in Natural Language Processing, but it's highly understudied in a multilingual setting and when considering more than one figure of speech at the same time. To bridge this gap, we introduce multilingual multi-figurative language modelling, and provide a benchmark for sentence-level figurative language detection, covering three common figures of speech and seven languages. Specifically, we develop a framework for figurative language detection based on template-based prompt learning. In so doing, we unify multiple detection tasks that are interrelated across multiple figures of speech and languages, without requiring task- or language-specific modules. Experimental results show that our framework outperforms several strong baselines and may serve as a blueprint for the joint modelling of other interrelated tasks. | 翻訳日:2023-06-02 19:46:33 公開日:2023-05-31 |
# 自然言語処理モデルのドメインシフトに対するロバスト性の測定 Measuring the Robustness of Natural Language Processing Models to Domain Shifts ( http://arxiv.org/abs/2306.00168v1 ) ライセンス: Link先を確認 | Nitay Calderon, Naveh Porat, Eyal Ben-David, Zorik Gekhman, Nadav Oved, Roi Reichart | (参考訳) 大規模言語モデルは、微調整、少数ショット学習、ゼロショット学習など、様々なタスクで有望なパフォーマンスを示している。
しかし、ラベル付きデータを持たないドメインでの彼らのパフォーマンスは、ラベル付きデータを持つ領域よりもまだ遅れており、これはドメインロバストネス(dr)チャレンジ(domain robustness)と呼ばれている。
drに関する既存の研究は、異なるセットアップ、評価タスクの多様性の欠如、チャレンジセットへの依存に苦しめられている。
本稿では,自然ドメインシフト設定における微調整学習モデルと少数ショット学習モデルのDR課題について検討する。
文章とトークンレベルの分類、QA、生成を含む多様なNLPタスクからなるDRベンチマークを導入し、各タスクは複数のドメインから構成される。
本稿では,ソース・ドロップ(SD)とターゲット・ドロップ(TD)の2つのDR課題について考察する。
SDもTDも陽性だが両方ではない領域シフトのかなりの割合で、両指標を診断ツールとして考えることの重要性を強調している。
実験の結果,微調整モデルと少数ショット学習モデルの両方において,DRチャレンジが持続的に存在することが示された。
また,微調整されたモデルサイズの増加は,特に分類において,性能の向上にも寄与することがわかった。 Large Language Models have shown promising performance on various tasks, including fine-tuning, few-shot learning, and zero-shot learning. However, their performance on domains without labeled data still lags behind those with labeled data, which we refer as the Domain Robustness (DR) challenge. Existing research on DR suffers from disparate setups, lack of evaluation task variety, and reliance on challenge sets. In this paper, we explore the DR challenge of both fine-tuned and few-shot learning models in natural domain shift settings. We introduce a DR benchmark comprising diverse NLP tasks, including sentence and token-level classification, QA, and generation, each task consists of several domains. We propose two views of the DR challenge: Source Drop (SD) and Target Drop (TD), which alternate between the source and target in-domain performance as reference points. We find that in significant proportions of domain shifts, either SD or TD is positive, but not both, emphasizing the importance of considering both measures as diagnostic tools. Our experimental results demonstrate the persistent existence of the DR challenge in both fine-tuning and few-shot learning models, though it is less pronounced in the latter. We also find that increasing the fine-tuned model size improves performance, particularly in classification. | 翻訳日:2023-06-02 19:40:49 公開日:2023-05-31 |
# ダイヤモンド中における異方性工学的グループIV色中心の超微細分光 Hyperfine Spectroscopy of Isotopically Engineered Group-IV Color Centers in Diamond ( http://arxiv.org/abs/2306.00164v1 ) ライセンス: Link先を確認 | Isaac B. W. Harris, Cathryn P. Michaels, Kevin C. Chen, Ryan A. Parker, Michael Titze, Jesus Arjona Martinez, Madison Sutula, Ian R. Christen, Alexander M. Stramma, William Roth, Carola M. Purser, Martin Hayhurst Appel, Chao Li, Matthew E. Trusheim, Nicola L. Palmer, Matthew L. Markham, Edward S. Bielejec, Mete Atature, Dirk Englund | (参考訳) スピン光子インタフェースに結合された量子レジスタは、量子通信と情報処理において重要なコンポーネントである。
ダイヤモンド(SiV、GeV、SnV)におけるグループIV色中心は、量子レジスタとして核スピンに結合された光遷移を持つ電子スピンを含むこの応用の候補である。
しかし、これらの色中心のための量子レジスタの作成は、決定論的であり、スピン-光子界面と強い結合を持つ。
本稿では,グループiv色中心の超微細構造パラメータの第一原理予測を行い,単一のgevおよびsnvエミッタにおけるスピン活性核とスピン中性内因性ドーパント核のスペクトルを包括的に比較して検証する。
理論的な予測に従って、大きな試料サイズの詳細な分光は、超微細結合がSnVの光学遷移を光学線幅よりも桁違いに分割し、磁場非感応的な遷移をもたらすことを明らかにしている。
この強いカップリングは、ダイヤモンド色中心における量子レジスタの新しいレジームへのアクセスを提供し、これらのよく研究されたエミッタに対する新しいスピン光子エンタングルメントと量子センシングスキームへの道を開く。 A quantum register coupled to a spin-photon interface is a key component in quantum communication and information processing. Group-IV color centers in diamond (SiV, GeV, and SnV) are promising candidates for this application, comprising an electronic spin with optical transitions coupled to a nuclear spin as the quantum register. However, the creation of a quantum register for these color centers with deterministic and strong coupling to the spin-photon interface remains challenging. Here, we make first-principles predictions of the hyperfine parameters of the group-IV color centers, which we verify experimentally with a comprehensive comparison between the spectra of spin active and spin neutral intrinsic dopant nuclei in single GeV and SnV emitters. In line with the theoretical predictions, detailed spectroscopy on large sample sizes reveals that hyperfine coupling causes a splitting of the optical transition of SnV an order of magnitude larger than the optical linewidth and provides a magnetic-field insensitive transition. This strong coupling provides access to a new regime for quantum registers in diamond color centers, opening avenues for novel spin-photon entanglement and quantum sensing schemes for these well-studied emitters. | 翻訳日:2023-06-02 19:40:26 公開日:2023-05-31 |
# 2次元ジャナス層からのナノスクロールのひずみ異方性駆動自然形成 Strain Anisotropy Driven Spontaneous Formation of Nanoscrolls from Two-Dimensional Janus Layers ( http://arxiv.org/abs/2306.00162v1 ) ライセンス: Link先を確認 | Mohammed Sayyad, Ying Qin, Jan Kopaczek, Adway Gupta, Naim Patoary, Shantanu Sinha, Emmie Benard, Austin Davis, Kentaro Yumigeta, Cheng-Lun Wu, Han Li, Shize Yang, Ivan Sanchez Esqueda, Arunima Singh, and Sefaattin Tongay | (参考訳) 2次元ジャヌス遷移金属ジカルコゲナイド(tmds)は、破断ミラー対称性と自己駆動偏光場から生じる創発性のために注目されている。
それらのvdw超格子は圧電性と光電変換において優れた性質を達成する鍵を握ると提案されているが、利用可能な合成は最終的にその実現を制限している。
本稿では,janus tmds から作製した vdw ナノスクロールを,簡易なワンドロップ・ソリューションで紹介する。
Ab-initio シミュレーションを含む実験の結果,Janus M_Se^S (M=Mo, W) における上部硫黄原子と底セレン原子とのボーア半径差は,ナノスクロール生成触媒として作用する永久圧縮表面ひずみをもたらすことが示された。
古典的な2D層とは異なり、Janus TMDの表面ひずみは、大きなボーア半径の原子を上部(M_S^Se)に配置することで圧縮から引張にエンジニアリングすることができる。
詳細な顕微鏡研究は、その形態に関する最初の洞察を与え、容易にモワール格子を形成する。
対照的に、分光法とFETの研究は、その励起特性とデバイス特性を確立し、2D平坦なJanus TMDと比較して大きな違いを浮き彫りにする。
これらの結果は、最初の極性ジャヌスtmdナノスロールを導入し、超格子を作る触媒として固有の歪駆動スクロールダイナミクスを導入する。 Two-dimensional Janus transition metal dichalcogenides (TMDs) have attracted attention due to their emergent properties arising from broken mirror symmetry and self-driven polarisation fields. While it has been proposed that their vdW superlattices hold the key to achieving superior properties in piezoelectricity and photovoltiacs, available synthesis has ultimately limited their realisation. Here, we report the first packed vdW nanoscrolls made from Janus TMDs through a simple one-drop solution technique. Our results, including ab-initio simulations, show that the Bohr radius difference between the top sulphur and the bottom selenium atoms within Janus M_Se^S (M=Mo, W) results in a permanent compressive surface strain that acts as a nanoscroll formation catalyst after small liquid interaction. Unlike classical 2D layers, the surface strain in Janus TMDs can be engineered from compressive to tensile by placing larger Bohr radius atoms on top (M_S^Se) to yield inverted C scrolls. Detailed microscopy studies offer the first insights into their morphology and readily formed Moir\'e lattices. In contrast, spectroscopy and FETs studies establish their excitonic and device properties and highlight significant differences compared to 2D flat Janus TMDs. These results introduce the first polar Janus TMD nanoscrolls and introduce inherent strain-driven scrolling dynamics as a catalyst to create superlattices. | 翻訳日:2023-06-02 19:40:04 公開日:2023-05-31 |
# 軽量反復モデルを用いた雑音環境における音声音声分離 Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model ( http://arxiv.org/abs/2306.00160v1 ) ライセンス: Link先を確認 | H\'ector Martel, Julius Richter, Kai Li, Xiaolin Hu, Timo Gerkmann | (参考訳) 本稿では,雑音環境下での音声-視覚的音声分離を行うために,プログレッシブラーニング(PL)を用いた効果的で軽量なニューラルネットワークであるAVLITを提案する。
この目的のために、A-FRCNN(Asynchronous Fully Recurrent Convolutional Neural Network)を導入し、音声のみの音声分離に成功した。
アーキテクチャはオーディオブランチとビデオブランチで構成され,A-FRCNNの繰り返しブロックが各モードの重みを共有する。
NTCD-TIMITデータセットと、RS3とWHAMを組み合わせた合成データセットを用いて、制御環境におけるモデルの評価を行った。
.
実験は,音声のみのベースラインと視聴覚のベースラインの両方において,モデルが優れていることを示す。
さらに,モデルのフットプリントが削減され,低リソースアプリケーションに適している。 We propose Audio-Visual Lightweight ITerative model (AVLIT), an effective and lightweight neural network that uses Progressive Learning (PL) to perform audio-visual speech separation in noisy environments. To this end, we adopt the Asynchronous Fully Recurrent Convolutional Neural Network (A-FRCNN), which has shown successful results in audio-only speech separation. Our architecture consists of an audio branch and a video branch, with iterative A-FRCNN blocks sharing weights for each modality. We evaluated our model in a controlled environment using the NTCD-TIMIT dataset and in-the-wild using a synthetic dataset that combines LRS3 and WHAM!. The experiments demonstrate the superiority of our model in both settings with respect to various audio-only and audio-visual baselines. Furthermore, the reduced footprint of our model makes it suitable for low resource applications. | 翻訳日:2023-06-02 19:39:39 公開日:2023-05-31 |
# シンボリック・リグレッションによる情報融合:人間の健康の文脈におけるチュートリアル Information Fusion via Symbolic Regression: A Tutorial in the Context of Human Health ( http://arxiv.org/abs/2306.00153v1 ) ライセンス: Link先を確認 | Jennifer J. Schnur and Nitesh V. Chawla | (参考訳) 本チュートリアルでは,解釈可能性の基準に特に焦点をあてた記号回帰(SR)の概要を概説する。
解釈可能なモデリングは、その定義はまだ文献で議論されているが、情報融合を成功させるための実践的な方法であると仮定する。
SRの利点をモデリング手法として示すため,国立衛生栄養検査センター (NHANES) のデータを用いて, 人体脂肪率を推定するために, 人為的マーカーを単純な数学的表現に融合させ, 健康・栄養分野の応用を実証した。
本稿では、SRモデリングに関連する利点と課題について論じ、学習モデルの質的および定量的分析を行う。 This tutorial paper provides a general overview of symbolic regression (SR) with specific focus on standards of interpretability. We posit that interpretable modeling, although its definition is still disputed in the literature, is a practical way to support the evaluation of successful information fusion. In order to convey the benefits of SR as a modeling technique, we demonstrate an application within the field of health and nutrition using publicly available National Health and Nutrition Examination Survey (NHANES) data from the Centers for Disease Control and Prevention (CDC), fusing together anthropometric markers into a simple mathematical expression to estimate body fat percentage. We discuss the advantages and challenges associated with SR modeling and provide qualitative and quantitative analyses of the learned models. | 翻訳日:2023-06-02 19:39:24 公開日:2023-05-31 |
# 正しい層を学ぶ:多層グラフ上の半教師付き学習のためのデータ駆動層集約戦略 Learning the Right Layers: a Data-Driven Layer-Aggregation Strategy for Semi-Supervised Learning on Multilayer Graphs ( http://arxiv.org/abs/2306.00152v1 ) ライセンス: Link先を確認 | Sara Venturini, Andrea Cristofari, Francesco Rinaldi, Francesco Tudisco | (参考訳) 多層グラフ上のクラスタリング(またはコミュニティ検出)は、異なるレイヤが異なる構造と情報のタイプによって特徴づけられるため、標準グラフに関していくつかの複雑さを生じさせる。
主な課題の一つは、多層構造を効果的に活用し、個々の層またはそれらの結合を用いて得られた分類を改善するために、各層がクラスタ割り当てに寄与する範囲を確立することである。
しかし,階層のクラスタリング情報の内容についてa-prioriのインフォームド・アセスメントを行うことは,非常に複雑である。
本研究では,少数のノードのクラスが最初に提供される半教師付き学習環境を仮定し,利用可能な入力ラベルから異なるレイヤの最適非線形結合を学習するパラメータフリーなラプラシアン正規化モデルを提案する。
学習アルゴリズムは、不正確な勾配を持つフランク・ウルフ最適化スキームと、改良されたラベル伝播反復を組み合わせたものである。
本稿では,アルゴリズムの詳細な収束解析と,合成および実世界のデータセットに関する広範な実験を行い,本手法が様々なベースラインと好適に比較され,単独で使用する場合の個々の層の性能が向上することを示した。 Clustering (or community detection) on multilayer graphs poses several additional complications with respect to standard graphs as different layers may be characterized by different structures and types of information. One of the major challenges is to establish the extent to which each layer contributes to the cluster assignment in order to effectively take advantage of the multilayer structure and improve upon the classification obtained using the individual layers or their union. However, making an informed a-priori assessment about the clustering information content of the layers can be very complicated. In this work, we assume a semi-supervised learning setting, where the class of a small percentage of nodes is initially provided, and we propose a parameter-free Laplacian-regularized model that learns an optimal nonlinear combination of the different layers from the available input labels. The learning algorithm is based on a Frank-Wolfe optimization scheme with inexact gradient, combined with a modified Label Propagation iteration. We provide a detailed convergence analysis of the algorithm and extensive experiments on synthetic and real-world datasets, showing that the proposed method compares favourably with a variety of baselines and outperforms each individual layer when used in isolation. | 翻訳日:2023-06-02 19:39:11 公開日:2023-05-31 |
# 量子摩擦におけるキラル遷移の影響 Impact of Chiral-Transitions in Quantum Friction ( http://arxiv.org/abs/2306.00151v1 ) ライセンス: Link先を確認 | Muzzamal I. Shaukat and Mario G. Silveirinha | (参考訳) 平面金属表面に平行な相対速度vで移動する2レベル原子に作用する量子摩擦力におけるキラル遷移の役割を理論的に検討する。
摩擦力は原子遷移双極子モーメントのハンドネスに敏感な成分を有することがわかった。
具体的には、特定の原子遷移による摩擦力は、あるハンドネスを持つ双極子モーメントによって増強され、ほぼ逆ハンドネスを持つ双極子モーメントによって抑制されることを示す。
奇妙なことに、基底状態の摩擦力を高める遷移双極子モーメントのハンドネスは、スピンモーメントロックの古典的な期待とは逆である。
正および負の周波数発振器間の相互作用の観点から、この相違について説明する。 We theoretically investigate the role of chiral-transitions in the quantum friction force that acts on a two-level atom that moves with relative velocity v parallel to a planar metallic surface. We find that the friction force has a component that is sensitive to the handedness of the atomic transition dipole moment. In the particular, we show that the friction force due to a particular atomic transition can be enhanced by a dipole moment with a certain handedness, and almost suppressed by the dipole moment with the opposite handedness. Curiously, the handedness of the transition dipole moment that boosts the ground-state friction force is the opposite of what is classically expected from the spin-momentum locking. We explain this discrepancy in terms of the interaction between positive and negative frequency oscillators. | 翻訳日:2023-06-02 19:38:50 公開日:2023-05-31 |
# NLSTおよびNSCLC-Radiomics計算トモグラフィーコレクションのAI由来アノテーションによる強化 Enrichment of the NLST and NSCLC-Radiomics computed tomography collections with AI-derived annotations ( http://arxiv.org/abs/2306.00150v1 ) ライセンス: Link先を確認 | Deepa Krishnaswamy, Dennis Bontempi, Vamsi Thiriveedhi, Davide Punzo, David Clunie, Christopher P Bridge, Hugo JWL Aerts, Ron Kikinis, Andrey Fedorov | (参考訳) 公共画像データセットは、癌画像における自動化ツールの開発と評価に重要である。
残念なことに、多くのものはアノテーションや画像由来の機能を含んでおらず、下流の分析を複雑にしている。
人工知能ベースのアノテーションツールは許容可能なパフォーマンスを達成するために示されており、大規模なデータセットの自動アノテートに使用できる。
NCI Imaging Data Commons (IDC) の公開データを充実させる取り組みの一環として, 胸部CT画像, NSCLC-Radiomics, National Lung Screening Trialの2つのコレクションに対するAI生成アノテーションを紹介する。
公開されているAIアルゴリズムを使用して、胸部臓器のボリュームアノテーション、それに対応する放射線特性、解剖学的ランドマークと領域のスライスレベルアノテーションを抽出した。
結果として得られたアノテーションはIDC内で公開されており、DICOMフォーマットはデータを調和させ、FAIR原則を達成するために使用される。
アノテーションにはクラウド対応ノートブックが添付されている。
この研究は、大規模で一般公開されたキュレートされたデータセットの必要性を強化し、AIががんイメージングにどのように役立つかを実証する。 Public imaging datasets are critical for the development and evaluation of automated tools in cancer imaging. Unfortunately, many do not include annotations or image-derived features, complicating their downstream analysis. Artificial intelligence-based annotation tools have been shown to achieve acceptable performance and thus can be used to automatically annotate large datasets. As part of the effort to enrich public data available within NCI Imaging Data Commons (IDC), here we introduce AI-generated annotations for two collections of computed tomography images of the chest, NSCLC-Radiomics, and the National Lung Screening Trial. Using publicly available AI algorithms we derived volumetric annotations of thoracic organs at risk, their corresponding radiomics features, and slice-level annotations of anatomical landmarks and regions. The resulting annotations are publicly available within IDC, where the DICOM format is used to harmonize the data and achieve FAIR principles. The annotations are accompanied by cloud-enabled notebooks demonstrating their use. This study reinforces the need for large, publicly accessible curated datasets and demonstrates how AI can be used to aid in cancer imaging. | 翻訳日:2023-06-02 19:38:39 公開日:2023-05-31 |
# 逆制約付き分散オンライン凸最適化:スレーター条件下での累積拘束振動境界の低減 Distributed Online Convex Optimization with Adversarial Constraints: Reduced Cumulative Constraint Violation Bounds under Slater's Condition ( http://arxiv.org/abs/2306.00149v1 ) ライセンス: Link先を確認 | Xinlei Yi, Xiuxian Li, Tao Yang, Lihua Xie, Yiguang Hong, Tianyou Chai, and Karl H. Johansson | (参考訳) 本稿では,対向制約を伴う分散オンライン凸最適化について考察する。
この設定では、エージェントのネットワークが各ラウンドで決定を行い、その後、損失関数の一部と制約関数の座標ブロックのみを各エージェントにプライベートに開示する。
損失関数と制約関数は凸関数であり、ラウンドごとに任意に変化する。
エージェントはネットワークの後悔と累積的制約違反を最小限に抑えるために協力する。
新しい分散オンラインアルゴリズムが提案されており、$\mathcal{o}(t^{\max\{c,1-c\}})$ network regret bound と$\mathcal{o}(t^{1-c/2})$ network cumulative constraints violation bound を達成している。
スレーターの条件が成り立つとき(すなわち、不等式制約を厳密に満たす点が存在する)、ネットワーク累積制約違反境界は$\mathcal{O}(T^{1-c})$に還元される。
さらに、損失関数が強凸であれば、ネットワークの後悔境界は $\mathcal{o}(\log(t))$ に縮小され、ネットワーク累積制約違反境界は $\mathcal{o}(\sqrt{\log(t)t})$ と $\mathcal{o}(\log(t))$ にそれぞれスレーター条件なしで還元される。
最善の知識として,本論文は,スレイター条件下での逆制約を伴う(分散)オンライン凸最適化のための(ネットワーク)累積的制約違反境界を初めて達成した。
最後に, 数値シミュレーションにより理論結果を検証した。 This paper considers distributed online convex optimization with adversarial constraints. In this setting, a network of agents makes decisions at each round, and then only a portion of the loss function and a coordinate block of the constraint function are privately revealed to each agent. The loss and constraint functions are convex and can vary arbitrarily across rounds. The agents collaborate to minimize network regret and cumulative constraint violation. A novel distributed online algorithm is proposed and it achieves an $\mathcal{O}(T^{\max\{c,1-c\}})$ network regret bound and an $\mathcal{O}(T^{1-c/2})$ network cumulative constraint violation bound, where $T$ is the number of rounds and $c\in(0,1)$ is a user-defined trade-off parameter. When Slater's condition holds (i.e, there is a point that strictly satisfies the inequality constraints), the network cumulative constraint violation bound is reduced to $\mathcal{O}(T^{1-c})$. Moreover, if the loss functions are strongly convex, then the network regret bound is reduced to $\mathcal{O}(\log(T))$, and the network cumulative constraint violation bound is reduced to $\mathcal{O}(\sqrt{\log(T)T})$ and $\mathcal{O}(\log(T))$ without and with Slater's condition, respectively. To the best of our knowledge, this paper is the first to achieve reduced (network) cumulative constraint violation bounds for (distributed) online convex optimization with adversarial constraints under Slater's condition. Finally, the theoretical results are verified through numerical simulations. | 翻訳日:2023-06-02 19:38:20 公開日:2023-05-31 |
# SafeDiffuser:拡散確率モデルによる安全な計画 SafeDiffuser: Safe Planning with Diffusion Probabilistic Models ( http://arxiv.org/abs/2306.00148v1 ) ライセンス: Link先を確認 | Wei Xiao and Tsun-Hsuan Wang and Chuang Gan and Daniela Rus | (参考訳) 拡散モデルに基づくアプローチは、データ駆動計画において有望であるが、安全保証がないため、安全クリティカルなアプリケーションに適用することは困難である。
これらの課題に対処するために,制御障壁関数のクラスを用いて拡散確率モデルが仕様を満たすことを保証する,SafeDiffuserと呼ばれる新しい手法を提案する。
提案手法の鍵となる考え方は,有限時間拡散不変性をデノナイジング拡散法に組み込むことであり,信頼性の高い拡散データ生成を可能にする。
さらに, 生成モデルによる有限時間拡散不変性は, 一般化性能を維持するだけでなく, 安全なデータ生成の堅牢性も生み出すことを示した。
本研究では,mazeパス生成,脚型ロボット移動,および3次元空間操作などの安全計画タスクにおいて,ロバスト性とバニラ拡散モデルに対する保証の利点を示す実験を行った。 Diffusion model-based approaches have shown promise in data-driven planning, but there are no safety guarantees, thus making it hard to be applied for safety-critical applications. To address these challenges, we propose a new method, called SafeDiffuser, to ensure diffusion probabilistic models satisfy specifications by using a class of control barrier functions. The key idea of our approach is to embed the proposed finite-time diffusion invariance into the denoising diffusion procedure, which enables trustworthy diffusion data generation. Moreover, we demonstrate that our finite-time diffusion invariance method through generative models not only maintains generalization performance but also creates robustness in safe data generation. We test our method on a series of safe planning tasks, including maze path generation, legged robot locomotion, and 3D space manipulation, with results showing the advantages of robustness and guarantees over vanilla diffusion models. | 翻訳日:2023-06-02 19:37:44 公開日:2023-05-31 |
# テキスト内包フィードバックによる強化学習による事実に一貫性のある要約 Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback ( http://arxiv.org/abs/2306.00186v1 ) ライセンス: Link先を確認 | Paul Roit, Johan Ferret, Lior Shani, Roee Aharoni, Geoffrey Cideron, Robert Dadashi, Matthieu Geist, Sertan Girgin, L\'eonard Hussenot, Orgad Keller, Nikola Momchev, Sabela Ramos, Piotr Stanczyk, Nino Vieillard, Olivier Bachem, Gal Elidan, Avinatan Hassidim, Olivier Pietquin and Idan Szpektor | (参考訳) 現代のテキスト生成システムが成功しているように見えるが、入力に関して現実的に矛盾するテキストを生成する傾向がある。
この現象は要約のようなタスクで強調され、生成した要約はソース記事によって裏付けられるべきである。
本研究は,テキストエンテーメントモデルにおける最近の進歩を活用し,抽象的な要約システムにおいてこの問題に対処する。
私たちは、参照のないテキストによるインセンティブによる強化学習を使用して、事実整合性を最適化し、結果として生じるトレードオフを探求します。
提案手法は,自動測定と人的評価の両方により,生成した要約の忠実さ,敬礼,簡潔さが大幅に向上することを示す。 Despite the seeming success of contemporary grounded text generation systems, they often tend to generate factually inconsistent text with respect to their input. This phenomenon is emphasized in tasks like summarization, in which the generated summaries should be corroborated by their source article. In this work, we leverage recent progress on textual entailment models to directly address this problem for abstractive summarization systems. We use reinforcement learning with reference-free, textual entailment rewards to optimize for factual consistency and explore the ensuing trade-offs, as improved consistency may come at the cost of less informative or more extractive summaries. Our results, according to both automatic metrics and human evaluation, show that our method considerably improves the faithfulness, salience, and conciseness of the generated summaries. | 翻訳日:2023-06-02 19:29:28 公開日:2023-05-31 |
# 事前学習表現における拡散冗長性 Diffused Redundancy in Pre-trained Representations ( http://arxiv.org/abs/2306.00183v1 ) ライセンス: Link先を確認 | Vedant Nanda, Till Speicher, John P. Dickerson, Soheil Feizi, Krishna P. Gummadi, Adrian Weller | (参考訳) 大規模なデータセット上でニューラルネットワークを事前トレーニングすることで学んだ表現は、さまざまな下流タスクの実行に成功している。
本研究では,事前学習された表現で機能がどのようにエンコードされるのかを詳細に検討する。
与えられた層における学習された表現は拡散冗長性の度合いを示すこと、すなわち、しきい値よりも大きい層内の任意のランダムに選択されたニューロンのサブセットは、全層と大きな類似性を持ち、下流の様々なタスクにおいて全層と同様に実行できることを発見した。
例えば、ImageNet1kで事前トレーニングされたResNet50からランダムに選択されたニューロンの20ドル%でトレーニングされた線形プローブは、下流のCIFAR10分類のためにニューロンの全層でトレーニングされた線形プローブの5ドル以内の精度を達成する。
我々は、ImageNet1kとImageNet21kの両方で事前訓練された異なるニューラルネットワーク(CNNとTransformersを含む)の実験を行い、VTABベンチマークから取得したさまざまな下流タスクを評価する。
プレトレーニング中に使用される損失とデータセットは、主に拡散冗長性の程度と、必要なニューロンの「臨界質量」が下流のタスクに依存することが判明し、タスクに依存しない冗長性パフォーマンスのparetoフロンティアが存在することを示唆した。
その結果,事前学習したディープニューラルネットワークで学習された表現の性質が明らかとなり,ダウンストリームタスクの実行には全層が必要でない可能性が示唆された。
下流タスクの効率的な一般化を実現するために,この冗長性を活用する可能性を検討するとともに,意図しない結果に注意を喚起する。 Representations learned by pre-training a neural network on a large dataset are increasingly used successfully to perform a variety of downstream tasks. In this work, we take a closer look at how features are encoded in such pre-trained representations. We find that learned representations in a given layer exhibit a degree of diffuse redundancy, i.e., any randomly chosen subset of neurons in the layer that is larger than a threshold size shares a large degree of similarity with the full layer and is able to perform similarly as the whole layer on a variety of downstream tasks. For example, a linear probe trained on $20\%$ of randomly picked neurons from a ResNet50 pre-trained on ImageNet1k achieves an accuracy within $5\%$ of a linear probe trained on the full layer of neurons for downstream CIFAR10 classification. We conduct experiments on different neural architectures (including CNNs and Transformers) pre-trained on both ImageNet1k and ImageNet21k and evaluate a variety of downstream tasks taken from the VTAB benchmark. We find that the loss & dataset used during pre-training largely govern the degree of diffuse redundancy and the "critical mass" of neurons needed often depends on the downstream task, suggesting that there is a task-inherent redundancy-performance Pareto frontier. Our findings shed light on the nature of representations learned by pre-trained deep neural networks and suggest that entire layers might not be necessary to perform many downstream tasks. We investigate the potential for exploiting this redundancy to achieve efficient generalization for downstream tasks and also draw caution to certain possible unintended consequences. | 翻訳日:2023-06-02 19:29:13 公開日:2023-05-31 |
# 条件付き強log-concave生成モデル Conditionally Strongly Log-Concave Generative Models ( http://arxiv.org/abs/2306.00181v1 ) ライセンス: Link先を確認 | Florentin Guth, Etienne Lempereur, Joan Bruna, St\'ephane Mallat | (参考訳) 深い画像生成モデルの印象的な結果と、理論的保証を提供する古典的なアルゴリズムの間には、ギャップが増している。
前者はモード崩壊や記憶障害に悩まされ、科学データへの応用が制限される。
後者は次元の呪いから逃れるために対数共空のような限定的な仮定を必要とする。
条件付き強いログコンケーブ(cslc)モデルを導入することで、このギャップを部分的に橋渡しし、データ分布を強いログコンケーブである条件付き確率分布の積に分解する。
この分解は、データ分布に適応した直交プロジェクタを用いて得られる。
これは効率的なパラメータ推定とサンプリングアルゴリズムにつながり、理論的な保証があるが、データ分布はグローバルなログコンケーブではない。
本稿では,ウェーブレットパケット直交プロジェクタを用いたマルチスケールプロセスの条件付きログコンケーブについて述べる。
数値的な結果は、$\varphi^4$モデルや弱レンズ収束写像のような物理場に対して、以前の研究よりも高分解能で示される。 There is a growing gap between the impressive results of deep image generative models and classical algorithms that offer theoretical guarantees. The former suffer from mode collapse or memorization issues, limiting their application to scientific data. The latter require restrictive assumptions such as log-concavity to escape the curse of dimensionality. We partially bridge this gap by introducing conditionally strongly log-concave (CSLC) models, which factorize the data distribution into a product of conditional probability distributions that are strongly log-concave. This factorization is obtained with orthogonal projectors adapted to the data distribution. It leads to efficient parameter estimation and sampling algorithms, with theoretical guarantees, although the data distribution is not globally log-concave. We show that several challenging multiscale processes are conditionally log-concave using wavelet packet orthogonal projectors. Numerical results are shown for physical fields such as the $\varphi^4$ model and weak lensing convergence maps with higher resolution than in previous works. | 翻訳日:2023-06-02 19:28:45 公開日:2023-05-31 |
# FlowCam: レンズ付きシーンフローによるカメラポーズなしの汎用3次元放射界の訓練 FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow ( http://arxiv.org/abs/2306.00180v1 ) ライセンス: Link先を確認 | Cameron Smith, Yilun Du, Ayush Tewari, Vincent Sitzmann | (参考訳) ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
大規模ビデオデータへの3dシーン学習者の配置を妨げる鍵となる課題は、動きからの構造から正確なカメラポーズに依存することだ。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
まず,フレームからフレームへの光フローを3次元のシーンフローに拡張可能レンダリングし,局所性と画像処理バックボーンのシフト等価性を維持してポーズを推定する。
SE(3)カメラポーズ推定は、シーンフローフィールドに適合する重み付き最小二乗を通して行われる。
この定式化により、入力ビデオを再レンダリングすることで、ポーズ推定と一般化可能なニューラルシーン表現を共同で監視し、実世界のビデオデータセット上でエンドツーエンドで完全に自己教師されるようにすることができる。
提案手法は,多種多様な実世界の映像,特に従来は最適化に基づくポーズ推定手法に難色を呈するシーケンスに対して,頑健に動作することを示す。 Reconstruction of 3D neural fields from posed images has emerged as a promising method for self-supervised representation learning. The key challenge preventing the deployment of these 3D scene learners on large-scale video data is their dependence on precise camera poses from structure-from-motion, which is prohibitively expensive to run at scale. We propose a method that jointly reconstructs camera poses and 3D neural scene representations online and in a single forward pass. We estimate poses by first lifting frame-to-frame optical flow to 3D scene flow via differentiable rendering, preserving locality and shift-equivariance of the image processing backbone. SE(3) camera pose estimation is then performed via a weighted least-squares fit to the scene flow field. This formulation enables us to jointly supervise pose estimation and a generalizable neural scene representation via re-rendering the input video, and thus, train end-to-end and fully self-supervised on real-world video datasets. We demonstrate that our method performs robustly on diverse, real-world video, notably on sequences traditionally challenging to optimization-based pose estimation techniques. | 翻訳日:2023-06-02 19:28:30 公開日:2023-05-31 |
# 科学的文書要約のための対比階層的談話グラフ Contrastive Hierarchical Discourse Graph for Scientific Document Summarization ( http://arxiv.org/abs/2306.00177v1 ) ライセンス: Link先を確認 | Haopeng Zhang, Xiao Liu, Jiawei Zhang | (参考訳) 構造的文脈が拡張され、科学論文の要約は難しい課題となった。
本稿では,論文要約のためのコントラスト型階層型グラフニューラルネットワークCHANGESを提案する。
CHANGESは階層的な談話グラフを持つ科学論文を表現し、専用の階層的なグラフ情報アグリゲーションで効果的な文表現を学習する。
また,グローバルテーマ認識文表現を学習するためのグラフコントラスト学習モジュールを提案する。
PubMedおよびarXivベンチマークデータセットに関する大規模な実験は、CHANGESの有効性と、科学論文のモデリングにおける階層構造情報の取得の重要性を証明している。 The extended structural context has made scientific paper summarization a challenging task. This paper proposes CHANGES, a contrastive hierarchical graph neural network for extractive scientific paper summarization. CHANGES represents a scientific paper with a hierarchical discourse graph and learns effective sentence representations with dedicated designed hierarchical graph information aggregation. We also propose a graph contrastive learning module to learn global theme-aware sentence representations. Extensive experiments on the PubMed and arXiv benchmark datasets prove the effectiveness of CHANGES and the importance of capturing hierarchical structure information in modeling scientific papers. | 翻訳日:2023-06-02 19:28:08 公開日:2023-05-31 |
# 生成AIによる自動アノテーションは検証を必要とする Automated Annotation with Generative AI Requires Validation ( http://arxiv.org/abs/2306.00176v1 ) ライセンス: Link先を確認 | Nicholas Pangakis, Samuel Wolken, and Neil Fasching | (参考訳) 生成型大規模言語モデル(LLM)は、テキストアノテーションの手続きを増強するための強力なツールであるが、それらの性能は、迅速な品質、テキストデータの慣用性、概念上の困難によって、アノテーションタスクによって異なる。
これらの課題は、llm技術が改善しても継続するので、llmを使った自動アノテーションプロセスは、人間が生成したラベルに対するllmのパフォーマンスを検証する必要があると主張する。
この目的のために, LLMのアノテーションポテンシャルを原則的, 効率的な方法で活用するためのワークフローを概説する。
GPT-4を用いて,最近の社会科学論文の11データセットに27のアノテーションタスクを複製し,本手法の有効性を検証した。
テキストアノテーションのLCM性能は有望だが,データセットとアノテーションの型の両方に強く依存しており,タスク・バイ・タスクによる検証の必要性が強くなっている。
ワークフローを実装し、自動アノテーションのためのLLMのデプロイを合理化するように設計された使いやすいソフトウェアを利用可能にしています。 Generative large language models (LLMs) can be a powerful tool for augmenting text annotation procedures, but their performance varies across annotation tasks due to prompt quality, text data idiosyncrasies, and conceptual difficulty. Because these challenges will persist even as LLM technology improves, we argue that any automated annotation process using an LLM must validate the LLM's performance against labels generated by humans. To this end, we outline a workflow to harness the annotation potential of LLMs in a principled, efficient way. Using GPT-4, we validate this approach by replicating 27 annotation tasks across 11 datasets from recent social science articles in high-impact journals. We find that LLM performance for text annotation is promising but highly contingent on both the dataset and the type of annotation task, which reinforces the necessity to validate on a task-by-task basis. We make available easy-to-use software designed to implement our workflow and streamline the deployment of LLMs for automated annotation. | 翻訳日:2023-06-02 19:28:00 公開日:2023-05-31 |
# newcomblike問題における決定アルゴリズムの比較 A Comparison of Decision Algorithms on Newcomblike Problems ( http://arxiv.org/abs/2306.00175v1 ) ライセンス: Link先を確認 | Alex Altair | (参考訳) ベイズネットワークを用いて定式化されると、囚人のジレンマやいわゆる「ニューカムライク」問題に直面した場合、2つの標準決定アルゴリズム(識別決定理論と因果決定理論)が系統的に失敗することが示される。
我々は,これらの問題に対して一貫して勝利する,無時間決定理論と呼ばれる新しい決定アルゴリズムについて述べる。 When formulated using Bayesian networks, two standard decision algorithms (Evidential Decision Theory and Causal Decision Theory) can be shown to fail systematically when faced with aspects of the prisoner's dilemma and so-called "Newcomblike" problems. We describe a new form of decision algorithm, called Timeless Decision Theory, which consistently wins on these problems. | 翻訳日:2023-06-02 19:27:40 公開日:2023-05-31 |
# ロバスト性保証によるエッジ重み付きオンライン2部マッチングの学習 Learning for Edge-Weighted Online Bipartite Matching with Robustness Guarantees ( http://arxiv.org/abs/2306.00172v1 ) ライセンス: Link先を確認 | Pengfei Li, Jianyi Yang, Shaolei Ren | (参考訳) オンライン広告表示などの多くの問題は、オンラインの2部マッチングとして定式化することができる。
重要な課題は、各ステップで不可逆的なマッチング決定を行うオンラインアイテム情報のシーケンシャルな展開にある。
多くの専門的なオンラインアルゴリズムが、限定された最悪のケースの競合比率で提案されているが、平均的なケースでは十分な性能を提供できない可能性がある。
一方、強化学習(RL)は平均性能向上に応用されているが、頑健性に欠け、任意に性能が劣る。
本稿では,ロバスト性保証 (LOMAR) とエッジ重み付きオンライン双極子マッチング (RL) に対する新しいアプローチを提案する。
lomar の重要な新機能は,将来的な不確実性に対してヘッジするための賢明な条件に基づいて,専門家の判断に従うか,あるいは各オンラインアイテムのrl決定に従うかを決定する,新たなオンラインスイッチング操作である。
我々は、任意の$\rho\in[0,1]$に対して、LOMARが任意の専門家オンラインアルゴリズムに対して$\rho$-competitiveであることを証明する。
平均性能を向上させるため、オンラインスイッチング操作を明示的に考慮してRLポリシーを訓練する。
最後に,既存のベースラインと比較してLOMARの利点を示す実験を行った。
私たちのコードは、https://github.com/Ren-Research/LOMARで利用可能です。 Many problems, such as online ad display, can be formulated as online bipartite matching. The crucial challenge lies in the nature of sequentially-revealed online item information, based on which we make irreversible matching decisions at each step. While numerous expert online algorithms have been proposed with bounded worst-case competitive ratios, they may not offer satisfactory performance in average cases. On the other hand, reinforcement learning (RL) has been applied to improve the average performance, but it lacks robustness and can perform arbitrarily poorly. In this paper, we propose a novel RL-based approach to edge-weighted online bipartite matching with robustness guarantees (LOMAR), achieving both good average-case and worst-case performance. The key novelty of LOMAR is a new online switching operation which, based on a judicious condition to hedge against future uncertainties, decides whether to follow the expert's decision or the RL decision for each online item. We prove that for any $\rho\in[0,1]$, LOMAR is $\rho$-competitive against any given expert online algorithm. To improve the average performance, we train the RL policy by explicitly considering the online switching operation. Finally, we run empirical experiments to demonstrate the advantages of LOMAR compared to existing baselines. Our code is available at: https://github.com/Ren-Research/LOMAR | 翻訳日:2023-06-02 19:27:32 公開日:2023-05-31 |
# 量子対角化による回路深さの低減 Reducing Circuit Depth with Qubitwise Diagonalization ( http://arxiv.org/abs/2306.00170v1 ) ライセンス: Link先を確認 | Edison M. Murairi and Michael J. Cervia | (参考訳) 様々な量子アルゴリズムは、ハミルトニアンのスペクトルや進化を研究するためにパウリ作用素を便利な基礎として採用している。
そのようなアルゴリズムにおける回路の深さを減らす一つの戦略は、ポーリ作用素の同時対角化であり、ユニタリ進化演算子や可観測値を生成する。
本稿では、深さ$\mathcal{O}(n \log r)$$n$-qubit演算子を$r$Pauli演算子で対角化する量子回路を生成する新しいアルゴリズムを提案する。
さらに,本アルゴリズムは,少なくとも1ステップにつき1キュービット以上の演算子を反復的に対角化するので,量子ビット接続に制限のあるハードウェアでも低回路深度を維持するのに適している。
このアルゴリズムは、ランダムに生成されたハミルトニアンと、短い深さと低い2量子ゲート数を持つ分子ハミルトニアンを対角化する量子回路の創出に好適である。 A variety of quantum algorithms employ Pauli operators as a convenient basis for studying the spectrum or evolution of Hamiltonians or measuring multi-body observables. One strategy to reduce circuit depth in such algorithms involves simultaneous diagonalization of Pauli operators generating unitary evolution operators or observables of interest. We propose a novel algorithm yielding quantum circuits with depths $\mathcal{O}(n \log r)$ diagonalizing $n$-qubit operators generated by $r$ Pauli operators. Moreover, as our algorithm iteratively diagonalizes all operators on at least one qubit per step, it is well-suited to maintain low circuit depth even on hardware with limited qubit connectivity. We observe that our algorithm performs favorably in producing quantum circuits diagonalizing randomly generated Hamiltonians as well as molecular Hamiltonians with short depths and low two-qubit gate counts. | 翻訳日:2023-06-02 19:27:09 公開日:2023-05-31 |
# 深部ニューラルネットワークトレーニングの不整合・不安定・一般化ギャップ Inconsistency, Instability, and Generalization Gap of Deep Neural Network Training ( http://arxiv.org/abs/2306.00169v1 ) ライセンス: Link先を確認 | Rie Johnson and Tong Zhang | (参考訳) ディープニューラルネットワークは非常に表現力が高いため、小さな一般化ギャップ(トレーニングデータのパフォーマンスと目に見えないデータとの差)のソリューションを見つけることが重要である。
まず,トレーニングの確率的性質に着目し,一般化ギャップの境界がモデル出力の不整合と不安定性に依存する理論的解析を行い,ラベルなしデータを用いて推定する。
この分析に基づく実証研究により,不安定性と不整合性は様々な環境における一般化ギャップを強く予測できることが示された。
特に,不整合は,損失景観の鋭さよりも,一般化ギャップの信頼性の高い指標であることが示唆された。
さらに,不整合のアルゴリズム的低減が優れた性能をもたらすことを示す。
この結果は、共蒸留やアンサンブルといった既存の手法の理論的基盤も提供する。 As deep neural networks are highly expressive, it is important to find solutions with small generalization gap (the difference between the performance on the training data and unseen data). Focusing on the stochastic nature of training, we first present a theoretical analysis in which the bound of generalization gap depends on what we call inconsistency and instability of model outputs, which can be estimated on unlabeled data. Our empirical study based on this analysis shows that instability and inconsistency are strongly predictive of generalization gap in various settings. In particular, our finding indicates that inconsistency is a more reliable indicator of generalization gap than the sharpness of the loss landscape. Furthermore, we show that algorithmic reduction of inconsistency leads to superior performance. The results also provide a theoretical basis for existing methods such as co-distillation and ensemble. | 翻訳日:2023-06-02 19:26:54 公開日:2023-05-31 |
# 変圧器のSGDよりも早くAdamが収束する理由を理解する Toward Understanding Why Adam Converges Faster Than SGD for Transformers ( http://arxiv.org/abs/2306.00204v1 ) ライセンス: Link先を確認 | Yan Pan, Yuanzhi Li | (参考訳) 確率勾配勾配(SGD)は、まだディープラーニングにおいて最も一般的な最適化アルゴリズムであるが、Adamのような適応アルゴリズムは、トレーニングトランスフォーマーのようなディープラーニングアプリケーションにおいて、SGDに対して経験的な優位性を確立している。
しかし、なぜAdamはこれらのシナリオにおいてSGDよりもはるかに早く収束するのかという疑問が残る。
本稿では,adam が sgd よりも高速に収束する理由を,新しい概念 directional sharpness を用いて一考察する。
最適化アルゴリズムの性能は更新ステップの方向性のシャープネスと密接に関連しており、適応アルゴリズムと比較してSGDの方が方向のシャープネスがはるかに低いことを示す。
さらに,sgdのシャープさと収束速度の低下の原因は,座標のごく一部に過ぎず,sgdや他の最適化アルゴリズムの解として座標クリッピングを用いることを提案する。
様々な条件下での最適化アルゴリズムの収束を高速化し, シャープネス低減に対する座標ワイドクリッピングの効果を示す。
座標ワイドクリッピングは、座標のごく一部だけが粗いシャープネスを持つ場合、局所的な損失低減を改善することを示す。
我々は,適応座標スケールのシャープネス低減効果がadamの成功の理由であり,深層学習最適化を高速化するための普遍的手法としての座標クリッピングの利用を示唆する。 While stochastic gradient descent (SGD) is still the most popular optimization algorithm in deep learning, adaptive algorithms such as Adam have established empirical advantages over SGD in some deep learning applications such as training transformers. However, it remains a question that why Adam converges significantly faster than SGD in these scenarios. In this paper, we propose one explanation of why Adam converges faster than SGD using a new concept directional sharpness. We argue that the performance of optimization algorithms is closely related to the directional sharpness of the update steps, and show SGD has much worse directional sharpness compared to adaptive algorithms. We further observe that only a small fraction of the coordinates causes the bad sharpness and slow convergence of SGD, and propose to use coordinate-wise clipping as a solution to SGD and other optimization algorithms. We demonstrate the effect of coordinate-wise clipping on sharpness reduction and speeding up the convergence of optimization algorithms under various settings. We show that coordinate-wise clipping improves the local loss reduction when only a small fraction of the coordinates has bad sharpness. We conclude that the sharpness reduction effect of adaptive coordinate-wise scaling is the reason for Adam's success in practice and suggest the use of coordinate-wise clipping as a universal technique to speed up deep learning optimization. | 翻訳日:2023-06-02 19:21:37 公開日:2023-05-31 |
# ドメイン適応とデータ拡張を用いた最小・不均衡トレーニングデータによるディープラーニングモデルの構築 Building Manufacturing Deep Learning Models with Minimal and Imbalanced Training Data Using Domain Adaptation and Data Augmentation ( http://arxiv.org/abs/2306.00202v1 ) ライセンス: Link先を確認 | Adrian Shuai Li, Elisa Bertino, Rih-Teng Wu, Ting-Yan Wu | (参考訳) 深層学習(DL)技術は画像からの欠陥検出に極めて有効である。
しかし、dl分類モデルのトレーニングには膨大な量のラベル付きデータが必要である。
多くの場合、利用可能なトレーニングデータは限られているだけでなく、不均衡もある。
本稿では,類似学習課題に使用される既存のソースデータセットから得られた知識を伝達することにより,目標学習課題に対するラベル付きトレーニングデータ不足の問題に対処する,新しいドメイン適応(DA)アプローチを提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
DAアプローチとオートエンコーダベースのデータ拡張アプローチを組み合わせて、不均衡なターゲットデータセットの問題に対処します。
画像データを用いたウェハ欠陥予測手法の評価を行った。
実験は、ターゲットデータセット内のラベル付きサンプルの数が著しく小さく、ターゲットデータセットが不均衡である場合、他のアルゴリズムよりも優れた性能を示す。 Deep learning (DL) techniques are highly effective for defect detection from images. Training DL classification models, however, requires vast amounts of labeled data which is often expensive to collect. In many cases, not only the available training data is limited but may also imbalanced. In this paper, we propose a novel domain adaptation (DA) approach to address the problem of labeled training data scarcity for a target learning task by transferring knowledge gained from an existing source dataset used for a similar learning task. Our approach works for scenarios where the source dataset and the dataset available for the target learning task have same or different feature spaces. We combine our DA approach with an autoencoder-based data augmentation approach to address the problem of imbalanced target datasets. We evaluate our combined approach using image data for wafer defect prediction. The experiments show its superior performance against other algorithms when the number of labeled samples in the target dataset is significantly small and the target dataset is imbalanced. | 翻訳日:2023-06-02 19:21:08 公開日:2023-05-31 |
# 一般化インプリシット追従型正規化リーダ Generalized Implicit Follow-The-Regularized-Leader ( http://arxiv.org/abs/2306.00201v1 ) ライセンス: Link先を確認 | Keyi Chen and Francesco Orabona | (参考訳) 我々は、FTRLフレームワークの範囲を広げる新しいオンライン学習アルゴリズム、一般化された暗黙Follow-The-Regularized-Leader(FTRL)を提案する。
一般化された暗黙的なFTRLは、線形化損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができ、aProxとMirror-ProxのFTRLへの拡張として新しい更新ルールを設計することができる。
私たちの理論は、後悔の最悪の上限を直接的に改善するアップデートを設計するためのシンプルな統一フレームワークを提供するという意味で構成的です。
鍵となる考え方は、損失の線型化をフェンシェル・ヤングの不等式で置き換えることである。
フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。
最後に、新しいフレームワークにより、暗黙的OMDの時間的変動を同じ計算量で再現することができる。 We propose a new class of online learning algorithms, generalized implicit Follow-The-Regularized-Leader (FTRL), that expands the scope of FTRL framework. Generalized implicit FTRL can recover known algorithms, as FTRL with linearized losses and implicit FTRL, and it allows the design of new update rules, as extensions of aProx and Mirror-Prox to FTRL. Our theory is constructive in the sense that it provides a simple unifying framework to design updates that directly improve the worst-case upper bound on the regret. The key idea is substituting the linearization of the losses with a Fenchel-Young inequality. We show the flexibility of the framework by proving that some known algorithms, like the Mirror-Prox updates, are instantiations of the generalized implicit FTRL. Finally, the new framework allows us to recover the temporal variation bound of implicit OMD, with the same computational complexity. | 翻訳日:2023-06-02 19:20:53 公開日:2023-05-31 |
# 固定化3次元キャラクタのゼロショットポス転送 Zero-shot Pose Transfer for Unrigged Stylized 3D Characters ( http://arxiv.org/abs/2306.00200v1 ) ライセンス: Link先を確認 | Jiashun Wang, Xueting Li, Sifei Liu, Shalini De Mello, Orazio Gallo, Xiaolong Wang, Jan Kautz | (参考訳) 参照アバターのポーズを様々な形状のスタイリングされた3D文字に転送することは、コンピュータグラフィックスの基本的な課題である。
既存の方法では、スタイリッシュな文字を整理する必要があるか、トレーニングの根拠として所望のポーズでスタイリッシュな文字を使用するかのどちらかである。
トレーニングでは, 広く利用可能な非スティル化アバターのみを必要とするゼロショット方式を提案し, 推論時に異なる形状のスタイリング文字を変形する。
古典的手法は三角形レベルでメッシュを変形させることで強い一般化を実現するが、これはラベル付き対応を必要とする。
我々は局所的な変形のパワーを利用するが、明確な対応ラベルは必要としない。
実験時に明示的な対応を必要とせず,半教師付き形状理解モジュールと,対象の姿勢に合わせて個々の表面点を変形する暗黙的なポーズ変形モジュールを導入する。
さらに,スタイライズされた文字のリアルで正確な変形を促すため,効率的なボリュームベーステストタイムトレーニング手順を提案する。
トレーニング時にリギングや変形したスタイル化文字は不要であるため,本モデルは,スタイル化四重項などのアノテーションの少ないカテゴリに一般化する。
提案手法の有効性を比較検討した結果,本手法の有効性を比較検討した。
私たちのプロジェクトページはhttps://jiashunwang.github.io/zptで閲覧できます。 Transferring the pose of a reference avatar to stylized 3D characters of various shapes is a fundamental task in computer graphics. Existing methods either require the stylized characters to be rigged, or they use the stylized character in the desired pose as ground truth at training. We present a zero-shot approach that requires only the widely available deformed non-stylized avatars in training, and deforms stylized characters of significantly different shapes at inference. Classical methods achieve strong generalization by deforming the mesh at the triangle level, but this requires labelled correspondences. We leverage the power of local deformation, but without requiring explicit correspondence labels. We introduce a semi-supervised shape-understanding module to bypass the need for explicit correspondences at test time, and an implicit pose deformation module that deforms individual surface points to match the target pose. Furthermore, to encourage realistic and accurate deformation of stylized characters, we introduce an efficient volume-based test-time training procedure. Because it does not need rigging, nor the deformed stylized character at training time, our model generalizes to categories with scarce annotation, such as stylized quadrupeds. Extensive experiments demonstrate the effectiveness of the proposed method compared to the state-of-the-art approaches trained with comparable or more supervision. Our project page is available at https://jiashunwang.github.io/ZPT | 翻訳日:2023-06-02 19:20:33 公開日:2023-05-31 |
# 頂点付近の量子エントロピー円錐 The Quantum Entropy Cone near its Apex ( http://arxiv.org/abs/2306.00199v1 ) ライセンス: Link先を確認 | Matthias Christandl, Bergfinnur Durhuus, Lasse Harboe Wolff | (参考訳) N$粒子量子系の異なる部分のフォン・ノイマンエントロピー間の関係は、スピン系から量子符号化理論、ブラックホールまで、様々な状況の理解に直接影響を与える。
全体とその部分のエントロピーからなる可能なベクトルの集合 $\Sigma^*_N$ で表される最良の方法として、有名な強加法不等式は、凸錐である閉包 $\overline\Sigma^*_N$ を制約する。
さらに均質な制約付き不等式も知られている。
この研究では、$\sigma_n^*$ を $\overline\sigma^*_n$ の頂点(零エントロピーのベクトル)の近くで制約する(非均質な)不等式、特に $\sigma_n^*$ が $n\geq 3$ の円錐ではないことを示す。
我々の不等式は、あるエントロピー制約が飽和しているベクトルに適用され、特に、任意の整数倍数に対してエントロピーベクトルをアップスケールすることは常に可能であるが、それを任意に小さいサイズにダウンスケールすることは必ずしも不可能であることを示している。
本稿では, トポロジカル材料, 絡み合い理論, 量子暗号との関係について論じる。 Relations among von Neumann entropies of different parts of an $N$-partite quantum system have direct impact on our understanding of diverse situations ranging from spin systems to quantum coding theory and black holes. Best formulated in terms of the set $\Sigma^*_N$ of possible vectors comprising the entropies of the whole and its parts, the famous strong subaddivity inequality constrains its closure $\overline\Sigma^*_N$, which is a convex cone. Further homogeneous constrained inequalities are also known. In this work we provide (non-homogeneous) inequalities that constrain $\Sigma_N^*$ near the apex (the vector of zero entropies) of $\overline\Sigma^*_N$, in particular showing that $\Sigma_N^*$ is not a cone for $N\geq 3$. Our inequalities apply to vectors with certain entropy constraints saturated and, in particular, they show that while it is always possible to up-scale an entropy vector to arbitrary integer multiples it is not always possible to down-scale it to arbitrarily small size, thus answering a question posed by A. Winter. Relations of our work to topological materials, entanglement theory, and quantum cryptography are discussed. | 翻訳日:2023-06-02 19:20:09 公開日:2023-05-31 |
# 制御されたテキスト生成の不変学習特性 An Invariant Learning Characterization of Controlled Text Generation ( http://arxiv.org/abs/2306.00198v1 ) ライセンス: Link先を確認 | Carolina Zheng, Claudia Shi, Keyon Vafa, Amir Feder, David M. Blei | (参考訳) 制御された生成は、興味のあるスタイル的または意味的な属性を含むテキストを作成する問題を指す。
多くのアプローチは、望ましい属性の予測器を訓練するためにこの問題を減らす。
例えば、有害でないコンテンツを生成するために大きな言語モデルをデプロイしたい研究者は、生成されたテキストをフィルタリングするために毒性分類器を使用するかもしれない。
実際には、ユーザプロンプトによって決定される、分類する生成されたテキストは、幅広い分布から来る可能性がある。
本稿では,ユーザのプロンプトに対するテキストの分布が,予測者が訓練した分布と異なる場合,制御された生成の性能が低下する可能性があることを示す。
この問題に対処するために、分散シフト下での制御生成を不変学習問題として、複数のテキスト環境において最も効果的な予測器を不変にすべきである。
次に, この特徴から生じる自然解を考察し, 自然環境選択のためのヒューリスティックスを提案する。
本手法を合成データと実データの両方を用いて実験的に検討した。
実験は、制御された生成における分布シフトの課題と、この設定における不変法の可能性の両方を実証する。 Controlled generation refers to the problem of creating text that contains stylistic or semantic attributes of interest. Many approaches reduce this problem to training a predictor of the desired attribute. For example, researchers hoping to deploy a large language model to produce non-toxic content may use a toxicity classifier to filter generated text. In practice, the generated text to classify, which is determined by user prompts, may come from a wide range of distributions. In this paper, we show that the performance of controlled generation may be poor if the distributions of text in response to user prompts differ from the distribution the predictor was trained on. To address this problem, we cast controlled generation under distribution shift as an invariant learning problem: the most effective predictor should be invariant across multiple text environments. We then discuss a natural solution that arises from this characterization and propose heuristics for selecting natural environments. We study this characterization and the proposed method empirically using both synthetic and real data. Experiments demonstrate both the challenge of distribution shift in controlled generation and the potential of invariance methods in this setting. | 翻訳日:2023-06-02 19:19:44 公開日:2023-05-31 |
# SSL-CPCD: 内視鏡画像解析における汎用性向上のための複合プレテキストクラス識別を用いた自己教師型学習 SSL-CPCD: Self-supervised learning with composite pretext-class discrimination for improved generalisability in endoscopic image analysis ( http://arxiv.org/abs/2306.00197v1 ) ライセンス: Link先を確認 | Ziang Xu, Jens Rittscher, and Sharib Ali | (参考訳) データ駆動方式は医用画像解析において著しく進歩している。
この文脈では、ディープラーニングに基づく教師付き手法が広く普及している。
しかし、それらは大量のトレーニングデータを必要とし、臨床翻訳を妨げるデータセットを認識できないという一般的な問題に直面します。
内視鏡画像データには、大きな患者間および患者内変動性が組み込まれており、これらのモデルが下流タスクの代表的特徴を学ぶのをより困難にしている。
したがって、病院内で生成できる公開データセットやデータセットにもかかわらず、ほとんどの教師付きモデルはまだパフォーマンスが低い。
自己教師付き学習は自然シーンデータにおいてある程度この問題に対処しているが、医療画像領域にはかなりの性能差がある。
本稿では,コサイン類似度メトリクス内の加法角マージンを用いて,パッチレベルのインスタンス群識別とクラス間変動のペナルティ化について検討する。
提案手法により,モデルが類似した代表パッチのクラスタ化を学習できるようになり,異なるクラス間の分離性が向上する。
その結果,同種および多種多様なデータセットから,テストセット上でのSOTA(State-of-the-art)メソッドに対する測定値の大幅な改善が示された。
分類,検出,セグメンテーションに対するアプローチを評価した。
SSL-CPCDは潰瘍性大腸炎分類の上位1位で79.77%、ポリプ検出のmAPでは88.62%、セグメンテーションタスクでは82.32%がそれぞれ4%、2%、3%である。
また,本手法は,全SOTA法よりも汎用性が高く,一般性評価において約7%の改善が報告されている。 Data-driven methods have shown tremendous progress in medical image analysis. In this context, deep learning-based supervised methods are widely popular. However, they require a large amount of training data and face issues in generalisability to unseen datasets that hinder clinical translation. Endoscopic imaging data incorporates large inter- and intra-patient variability that makes these models more challenging to learn representative features for downstream tasks. Thus, despite the publicly available datasets and datasets that can be generated within hospitals, most supervised models still underperform. While self-supervised learning has addressed this problem to some extent in natural scene data, there is a considerable performance gap in the medical image domain. In this paper, we propose to explore patch-level instance-group discrimination and penalisation of inter-class variation using additive angular margin within the cosine similarity metrics. Our novel approach enables models to learn to cluster similar representative patches, thereby improving their ability to provide better separation between different classes. Our results demonstrate significant improvement on all metrics over the state-of-the-art (SOTA) methods on the test set from the same and diverse datasets. We evaluated our approach for classification, detection, and segmentation. SSL-CPCD achieves 79.77% on Top 1 accuracy for ulcerative colitis classification, 88.62% on mAP for polyp detection, and 82.32% on dice similarity coefficient for segmentation tasks are nearly over 4%, 2%, and 3%, respectively, compared to the baseline architectures. We also demonstrate that our method generalises better than all SOTA methods to unseen datasets, reporting nearly 7% improvement in our generalisability assessment. | 翻訳日:2023-06-02 19:19:26 公開日:2023-05-31 |
# 平均的リワードを伴うレストレスバンド:一様グローバルアトラクタの推計を破る Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption ( http://arxiv.org/abs/2306.00196v1 ) ライセンス: Link先を確認 | Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang | (参考訳) 平均報酬基準による無限ホリゾンレストレスト・バンディット問題を離散時間と連続時間の両方の設定で検討した。
基本的な問題は、腕の数($n$)が大きくなるにつれて最適なギャップを減少させる計算効率のよいポリシーをどのように設計するかである。
漸近的最適性に関する既存の結果は、すべて一様大域的誘引特性(UGAP)に依存している。
そこで,本論文では,単一武装の方針を元来のn$-armed問題に対する方針に変換する汎用的なシミュレーションベースのフレームワークを提案する。
これは、各腕に単一武装のポリシーをシミュレートし、実状態をシミュレートされた状態に向けて慎重に操ることで達成される。
我々のフレームワークは、$O(1/\sqrt{N})$Optimity gapでポリシーを生成するためにインスタンス化することができる。
離散時間設定では、UGAPを満たさないいくつかの問題事例をカバーする、単純な同期仮定の下で結果が成り立つ。
より注目すべきは、連続時間設定において、我々の結果は標準単鎖条件を超える追加の仮定を必要としないことである。
どちらの設定でも、UGAPを必要としない最初の漸近的最適性結果を確立する。 We study the infinite-horizon restless bandit problem with the average reward criterion, under both discrete-time and continuous-time settings. A fundamental question is how to design computationally efficient policies that achieve a diminishing optimality gap as the number of arms, $N$, grows large. Existing results on asymptotical optimality all rely on the uniform global attractor property (UGAP), a complex and challenging-to-verify assumption. In this paper, we propose a general, simulation-based framework that converts any single-armed policy into a policy for the original $N$-armed problem. This is accomplished by simulating the single-armed policy on each arm and carefully steering the real state towards the simulated state. Our framework can be instantiated to produce a policy with an $O(1/\sqrt{N})$ optimality gap. In the discrete-time setting, our result holds under a simpler synchronization assumption, which covers some problem instances that do not satisfy UGAP. More notably, in the continuous-time setting, our result does not require any additional assumptions beyond the standard unichain condition. In both settings, we establish the first asymptotic optimality result that does not require UGAP. | 翻訳日:2023-06-02 19:18:57 公開日:2023-05-31 |
# テレポーテーションを用いた量子回路の分散 Distributing Quantum Circuits Using Teleportations ( http://arxiv.org/abs/2306.00195v1 ) ライセンス: Link先を確認 | Ranjani G Sundaram, Himanshu Gupta | (参考訳) スケーラビリティは現在、量子コンピューティングの分野で最も求められている目標の1つである。
量子回路を量子ネットワークに分散させることは、現在の量子コンピュータを用いた大規模計算を容易にする方法の1つである。
本稿では,複数のコンピュータにまたがるゲートを実装するのに必要なテレポーテーション(通信コスト)を最小化しながら,異種量子コンピュータのネットワークに量子回路を分散する問題を考察する。
この問題に対して2つのアルゴリズムを設計する。
最初はローカルベスト(Local- Best)と呼ばれ、まずネットワーク全体にキュービットを配布し、その後、必要なときにのみキュービットをテレポートしようとする。
2つめはゼロステッチングと呼ばれ、与えられた回路をサブ回路に分割し、各サブ回路はゼロテレポーテーションを使用して実行可能であり、サブ回路の境界で発生するテレポーテーションコストは最小である。
我々は、アルゴリズムをランダムに生成された回路と既知のベンチマークで評価し、その性能を先行研究と比較する。
私たちの技術は、以前のアプローチをかなり(最大50%)上回っています。 Scalability is currently one of the most sought-after objectives in the field of quantum computing. Distributing a quantum circuit across a quantum network is one way to facilitate large computations using current quantum computers. In this paper, we consider the problem of distributing a quantum circuit across a network of heterogeneous quantum computers, while minimizing the number of teleportations (the communication cost) needed to implement gates spanning multiple computers. We design two algorithms for this problem. The first, called Local- Best, initially distributes the qubits across the network, then tries to teleport qubits only when necessary, with teleportations being influenced by gates in the near future. The second, called Zero- Stitching, divides the given circuit into sub-circuits such that each sub-circuit can be executed using zero teleportations and the teleportation cost incurred at the borders of the sub-circuits is minimal. We evaluate our algorithms over a wide range of randomly-generated circuits as well as known benchmarks, and compare their performance to prior work. We observe that our techniques outperform the prior approach by a significant margin (up to 50%). | 翻訳日:2023-06-02 19:18:36 公開日:2023-05-31 |
# 医療画像のための多環境生涯深部強化学習 Multi-environment lifelong deep reinforcement learning for medical imaging ( http://arxiv.org/abs/2306.00188v1 ) ライセンス: Link先を確認 | Guangyao Zheng, Shuhao Lai, Vladimir Braverman, Michael A. Jacobs, Vishwa S. Parekh | (参考訳) 医用画像の深部強化学習(DRL)が研究されている。
しかし, 医用画像処理の環境は, 画像の向き, 画像の配列, 病理の観点で常に進化している。
そこで我々は,drlフレームワークであるserilを開発し,画像環境変更における新たなタスクを,破滅的な忘れを伴わず継続的に学習した。
選択的経験リプレイに基づく生涯学習法を用いて脳mriにおける5つの解剖学的ランドマークの局在を24種類の異なる画像環境で解析した。
MERT(multi-environment-best-case)とSERT(single-environment-worst-case)の2つの基本設定と比較して、SERILの性能は、望まれる120タスクのランドマークから平均9.90\pm7.35$のピクセルで優れた性能を示し、MERTは10.29\pm9.07$、SERT($p<0.05$)は36.37\pm22.41$であった。 Deep reinforcement learning(DRL) is increasingly being explored in medical imaging. However, the environments for medical imaging tasks are constantly evolving in terms of imaging orientations, imaging sequences, and pathologies. To that end, we developed a Lifelong DRL framework, SERIL to continually learn new tasks in changing imaging environments without catastrophic forgetting. SERIL was developed using selective experience replay based lifelong learning technique for the localization of five anatomical landmarks in brain MRI on a sequence of twenty-four different imaging environments. The performance of SERIL, when compared to two baseline setups: MERT(multi-environment-best-case) and SERT(single-environment-worst-case) demonstrated excellent performance with an average distance of $9.90\pm7.35$ pixels from the desired landmark across all 120 tasks, compared to $10.29\pm9.07$ for MERT and $36.37\pm22.41$ for SERT($p<0.05$), demonstrating the excellent potential for continuously learning multiple tasks across dynamically changing imaging environments. | 翻訳日:2023-06-02 19:18:17 公開日:2023-05-31 |
# ビジュアル・クロップによるBLIP-Family Modelの詳細な質問応答 Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models ( http://arxiv.org/abs/2306.00228v1 ) ライセンス: Link先を確認 | Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski | (参考訳) 視覚的質問回答は、知覚的、言語的、背景的知識システム間のシームレスな相互作用を必要とするため、難しい課題である。
BLIPのような視覚・自然言語モデルの最近の進歩は、このタスクの性能改善につながっているが、そのようなモデルが様々な種類の質問や推論タイプで実行する能力の理解は欠如している。
BLIPファミリーモデルの初期分析から,細部質問への回答が困難であることが判明したので, 細部質問に対する最先端の視覚的質問応答モデルの性能向上に視覚的トリミングを適用できるのか?
近年のBLIPファミリーモデルの成功を踏まえ,ゼロショットモデルと細調整BLIPモデルについて検討した。
一般的なVQA-v2ベンチマークの3つの制御されたサブセットを定義し、作付けがモデル性能に役立つかどうかを測定する。
ヒューマンクロッピングの他に,クリップによるマルチモーダル埋め込みとblip visual qaモデル勾配に基づく2つの自動クロッピング戦略を考案する。
実験の結果, blipモデルの性能は, ヒトのトリッピングにより著しく向上し, 自動トリッピング法が同等の利点を生ずることがわかった。
以上の結果から, ゼロショットモデルでは微調整モデルよりも性能向上が顕著であり, より大きなモデルよりもバウンディングボックスが小さい傾向が示唆された。
質問タイプとデータセット間で定量的な差異と質的観察を結びつけるケーススタディを行う。
最後に,オリジナル画像と勾配画像の連結を単純に入力することで,一般的なVQAランダムタスクにおいて4.59%(絶対値)の改善が達成され,収穫促進が堅牢であることが確認された。
私たちは、質問応答のための視覚的なトリッピングメソッドのさらなるイノベーションを促進するために、コードを利用可能にしています。 Visual Question Answering is a challenging task, as it requires seamless interaction between perceptual, linguistic, and background knowledge systems. While the recent progress of visual and natural language models like BLIP has led to improved performance on this task, we lack understanding of the ability of such models to perform on different kinds of questions and reasoning types. As our initial analysis of BLIP-family models revealed difficulty with answering fine-detail questions, we investigate the following question: Can visual cropping be employed to improve the performance of state-of-the-art visual question answering models on fine-detail questions? Given the recent success of the BLIP-family models, we study a zero-shot and a fine-tuned BLIP model. We define three controlled subsets of the popular VQA-v2 benchmark to measure whether cropping can help model performance. Besides human cropping, we devise two automatic cropping strategies based on multi-modal embedding by CLIP and BLIP visual QA model gradients. Our experiments demonstrate that the performance of BLIP model variants can be significantly improved through human cropping, and automatic cropping methods can produce comparable benefits. A deeper dive into our findings indicates that the performance enhancement is more pronounced in zero-shot models than in fine-tuned models and more salient with smaller bounding boxes than larger ones. We perform case studies to connect quantitative differences with qualitative observations across question types and datasets. Finally, we see that the cropping enhancement is robust, as we gain an improvement of 4.59% (absolute) in the general VQA-random task by simply inputting a concatenation of the original and gradient-based cropped images. We make our code available to facilitate further innovation on visual cropping methods for question answering. | 翻訳日:2023-06-02 19:10:34 公開日:2023-05-31 |
# 人間中心から社会中心の人工知能:破壊的な出来事によるChatGPTの影響を評価する From Human-Centered to Social-Centered Artificial Intelligence: Assessing ChatGPT's Impact through Disruptive Events ( http://arxiv.org/abs/2306.00227v1 ) ライセンス: Link先を確認 | Skyler Wang, Ned Cooper, Margaret Eby, Eun Seo Jo | (参考訳) 大規模言語モデル(llm)と対話エージェントは何年も前から存在するが、最近のgptモデルのリリースは、人工知能(ai)の研究と社会全般にとって大きな節目となった。
ChatGPTはその生成能力と汎用性によってすぐに認識され、技術的および創造的な領域にまたがる卓越した習熟度が広く普及した。
社会は、ChatGPTの文化的影響の高まりに悩まされているが、機械学習コミュニティにおけるChatGPTの影響の批判は、そのパフォーマンスや、バイアス、毒性、そして「ハロシン化」に関連する従来の責任AI評価に結びついている。
後者の批判は、「人間中心」の枠組みの特定の概念化に強く依存しており、テクノロジーの利益と有害さの双方の鍵となるものとして、微粒化された個人を配置する傾向がある。
本稿では, LLMと対話エージェントの影響の別の側面, 社会集団, 機関, それに付随する規範や実践に対する影響に注意を向ける。
3つの破壊的なイベントを通じてChatGPTの社会的影響を説明することで、AI開発における個人主義的アプローチに挑戦し、AIシステムの倫理的かつ責任ある実装に関する継続的な議論に貢献する。
この取り組みは、より包括的で縦断的な評価ツールに注意を向け、技術者に人間中心の思考を超越し、社会中心のAIを通じて彼らの努力を根ざすことを願っている。 Large language models (LLMs) and dialogue agents have existed for years, but the release of recent GPT models has been a watershed moment for artificial intelligence (AI) research and society at large. Immediately recognized for its generative capabilities and versatility, ChatGPT's impressive proficiency across technical and creative domains led to its widespread adoption. While society grapples with the emerging cultural impacts of ChatGPT, critiques of ChatGPT's impact within the machine learning community have coalesced around its performance or other conventional Responsible AI evaluations relating to bias, toxicity, and 'hallucination.' We argue that these latter critiques draw heavily on a particular conceptualization of the 'human-centered' framework, which tends to cast atomized individuals as the key recipients of both the benefits and detriments of technology. In this article, we direct attention to another dimension of LLMs and dialogue agents' impact: their effect on social groups, institutions, and accompanying norms and practices. By illustrating ChatGPT's social impact through three disruptive events, we challenge individualistic approaches in AI development and contribute to ongoing debates around the ethical and responsible implementation of AI systems. We hope this effort will call attention to more comprehensive and longitudinal evaluation tools and compel technologists to go beyond human-centered thinking and ground their efforts through social-centered AI. | 翻訳日:2023-06-02 19:10:03 公開日:2023-05-31 |
# SfTIVeracity Spearheadの信頼に関する人間中心の文献 Human-centric Literature on Trust for SfTI Veracity Spearhead ( http://arxiv.org/abs/2306.00226v1 ) ライセンス: Link先を確認 | Kelly Blincoe, Markus Luczak-Roesch, Tim Miller, Matthias Galster | (参考訳) 本稿では,デジタル技術の信頼に関する文献を人間中心の視点から要約する。
我々は、他の分野からの対面インタラクションにおける信頼に関する文献を要約し、続いて組織的信頼、技術による信頼、ソフトウェア製品の信頼、aiの信頼、ブロックチェーンについて論じる。
このレポートは、ニュージーランドのNational Science Challengesの支援を受けて、Science for Technological Innovation Veracity Spearheadのために作成された。 This article summarizes the literature on trust of digital technologies from a human-centric perspective. We summarize literature on trust in face-to-face interactions from other fields, followed by a discussion of organizational trust, technology-mediated trust, trust of software products, trust of AI, and blockchain. This report was created for the Science for Technological Innovation Veracity Spearhead supported by New Zealand's National Science Challenges. | 翻訳日:2023-06-02 19:09:34 公開日:2023-05-31 |
# 単目的部分グラフに基づく二目的最小スパンニングツリー問題の解法について On Single-Objective Sub-Graph-Based Mutation for Solving the Bi-Objective Minimum Spanning Tree Problem ( http://arxiv.org/abs/2306.00222v1 ) ライセンス: Link先を確認 | Jakob Bossek, Christian Grimme | (参考訳) 我々は、進化計算を取り入れた古典的な$\mathcal{NP}$-hard multi-objective minimum spaning tree problem (moMST)に対するパレート集合の効率的な近似に寄与する。
より正確には、予備的な作業に基づいて、パレート最適スパンディングツリーの近傍構造を分析し、得られた知見に基づいて、高度に偏りのあるサブグラフベースの突然変異演算子を設計する。
一言で言えば、これらの演算子は候補解の(未)連結部分木を局所最適部分木に置き換える。
後者(バイアス)ステップは、Kruskalの単目的MSTアルゴリズムを部分グラフの重み付き和スカラー化に適用することにより実現される。
導入した演算子のランタイム複雑性を実証し,pareto-beneficial特性について検討する。
この性質は、変異体が親によって支配されないことを示している。
さらに,操作者の実用性を示すために,広範な実験ベンチマークを行った。
本結果は,パレートフロントの異なる4種類の完全グラフの関数評価において,計算予算が厳しく制限されても,サブグラフベースの演算子が文献からベースラインアルゴリズムを破ることを確認する。 We contribute to the efficient approximation of the Pareto-set for the classical $\mathcal{NP}$-hard multi-objective minimum spanning tree problem (moMST) adopting evolutionary computation. More precisely, by building upon preliminary work, we analyse the neighborhood structure of Pareto-optimal spanning trees and design several highly biased sub-graph-based mutation operators founded on the gained insights. In a nutshell, these operators replace (un)connected sub-trees of candidate solutions with locally optimal sub-trees. The latter (biased) step is realized by applying Kruskal's single-objective MST algorithm to a weighted sum scalarization of a sub-graph. We prove runtime complexity results for the introduced operators and investigate the desirable Pareto-beneficial property. This property states that mutants cannot be dominated by their parent. Moreover, we perform an extensive experimental benchmark study to showcase the operator's practical suitability. Our results confirm that the sub-graph based operators beat baseline algorithms from the literature even with severely restricted computational budget in terms of function evaluations on four different classes of complete graphs with different shapes of the Pareto-front. | 翻訳日:2023-06-02 19:09:28 公開日:2023-05-31 |
# Diffusion Brush:AI生成画像のための遅延拡散モデルに基づく編集ツール Diffusion Brush: A Latent Diffusion Model-based Editing Tool for AI-generated Images ( http://arxiv.org/abs/2306.00219v1 ) ライセンス: Link先を確認 | Peyman Gholami and Robert Xiao | (参考訳) テキスト・画像生成モデルは高品質な画像の生成において顕著な進歩を遂げている。
しかし、生成した画像は、しばしばモデル制限による望ましくないアーティファクトや他のエラーを含む。
生成した画像を微調整するための既存の技術は、時間消費(手動編集)、貧弱な統合結果(インペイント)、あるいは画像全体の予期せぬ変化(変数選択と迅速な微調整)である。
本研究では,AI合成画像内の所望領域を効率よく微調整する潜在拡散モデル(LDM)ツールであるDiffusion Brushを提案する。
本手法では,対象領域に対する新しいランダムノイズパターンを導入することにより,画像の他の部分に対する元のコンテキストを維持しつつ,特定領域の変更を効率的に行うことができる。
本手法は,アーティストとのユーザスタディを通して,そのユーザビリティと有効性を評価し,他の最先端画像インペインティング手法とai生成画像の微調整のための編集ソフトウェアとの比較を行った。 Text-to-image generative models have made remarkable advancements in generating high-quality images. However, generated images often contain undesirable artifacts or other errors due to model limitations. Existing techniques to fine-tune generated images are time-consuming (manual editing), produce poorly-integrated results (inpainting), or result in unexpected changes across the entire image (variation selection and prompt fine-tuning). In this work, we present Diffusion Brush, a Latent Diffusion Model-based (LDM) tool to efficiently fine-tune desired regions within an AI-synthesized image. Our method introduces new random noise patterns at targeted regions during the reverse diffusion process, enabling the model to efficiently make changes to the specified regions while preserving the original context for the rest of the image. We evaluate our method's usability and effectiveness through a user study with artists, comparing our technique against other state-of-the-art image inpainting techniques and editing software for fine-tuning AI-generated imagery. | 翻訳日:2023-06-02 19:09:09 公開日:2023-05-31 |
# feed pets: ユーフェミズム用語の曖昧さ回避に関するさらなる実験と拡張 FEED PETs: Further Experimentation and Expansion on the Disambiguation of Potentially Euphemistic Terms ( http://arxiv.org/abs/2306.00217v1 ) ライセンス: Link先を確認 | Patrick Lee, Iyanuoluwa Shode, Alain Chirino Trujillo, Yuan Zhao, Olumide Ebenezer Ojo, Diana Cuervas Plancarte, Anna Feldman, Jing Peng | (参考訳) トランスフォーマーは英語のエウヘミズムの曖昧さの課題に対してうまく機能し、ある特定の文脈において、潜在的エウヘミズム用語(PET)はエウヘミズムまたは非エウヘミズムに分類される。
本研究では,タスクを2つの方法で拡張する。
まず,ペットを曖昧性にアノテートし,その言語特性から,トランスフォーマーが一般に曖昧なペットの分類に優れていることを見出し,パフォーマンスに影響を与えるデータにおける言語的差異を示唆する。
第2に, ヨルバ語, スペイン語, マンダリン中国語の3つの異なる言語で, 小説 euphemism corpora を提示する。
我々は、多言語トランスフォーマーモデルmBERTとXLM-RoBERTaを用いて、各言語でエウヘミズムの曖昧化実験を行い、今後の作業を開始するための予備的な結果を確立した。 Transformers have been shown to work well for the task of English euphemism disambiguation, in which a potentially euphemistic term (PET) is classified as euphemistic or non-euphemistic in a particular context. In this study, we expand on the task in two ways. First, we annotate PETs for vagueness, a linguistic property associated with euphemisms, and find that transformers are generally better at classifying vague PETs, suggesting linguistic differences in the data that impact performance. Second, we present novel euphemism corpora in three different languages: Yoruba, Spanish, and Mandarin Chinese. We perform euphemism disambiguation experiments in each language using multilingual transformer models mBERT and XLM-RoBERTa, establishing preliminary results from which to launch future work. | 翻訳日:2023-06-02 19:08:52 公開日:2023-05-31 |
# 安全マルチエージェント強化学習のための一般化ラグランジュ政策最適化 Provably Efficient Generalized Lagrangian Policy Optimization for Safe Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.00212v1 ) ライセンス: Link先を確認 | Dongsheng Ding and Xiaohan Wei and Zhuoran Yang and Zhaoran Wang and Mihailo R. Jovanovi\'c | (参考訳) エージェントが期待する総報酬を最大化することにより競争する制約付きマルコフゲームを用いたオンラインセーフマルチエージェント強化学習について検討する。
我々の焦点は、エージェント、対向報酬関数、確率的効用関数に未知な独立遷移関数を持つエピソードな2つのプレイヤーゼロサム制約マルコフゲームに限られる。
このようなマルコフゲームでは、占有測度に基づいたアプローチを採用し、明示的な制約付きオンライン制約付き鞍点問題として定式化する。
制約付き最適化においてラグランジュ乗算法を拡張し、最小決定原始変数と双対変数を持つ一般化ラグランジアンを作成することで制約に対処する。
次に,探索と搾取のバランスを保ちながら,このラグランジュ問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と投影勾配ステップによる双対変数を更新し,ゲームのT$エピソードをプレイした後の後悔と制約違反に対して,サブラインレート$O(|X|+|Y|) L \sqrt{T(|A|+|B|)})$を満足していることを証明する。
ここで、$l$ は各エピソードの地平線であり、$(|x|,|a|)$ と $(|y|,|b|)$ はそれぞれ min-player と max-player の状態/アクション空間サイズである。
我々の知識を最大限に活用するため、制約付きマルコフゲームにおけるオンライン安全強化学習アルゴリズムを初めて提供する。 We examine online safe multi-agent reinforcement learning using constrained Markov games in which agents compete by maximizing their expected total rewards under a constraint on expected total utilities. Our focus is confined to an episodic two-player zero-sum constrained Markov game with independent transition functions that are unknown to agents, adversarial reward functions, and stochastic utility functions. For such a Markov game, we employ an approach based on the occupancy measure to formulate it as an online constrained saddle-point problem with an explicit constraint. We extend the Lagrange multiplier method in constrained optimization to handle the constraint by creating a generalized Lagrangian with minimax decision primal variables and a dual variable. Next, we develop an upper confidence reinforcement learning algorithm to solve this Lagrangian problem while balancing exploration and exploitation. Our algorithm updates the minimax decision primal variables via online mirror descent and the dual variable via projected gradient step and we prove that it enjoys sublinear rate $ O((|X|+|Y|) L \sqrt{T(|A|+|B|)}))$ for both regret and constraint violation after playing $T$ episodes of the game. Here, $L$ is the horizon of each episode, $(|X|,|A|)$ and $(|Y|,|B|)$ are the state/action space sizes of the min-player and the max-player, respectively. To the best of our knowledge, we provide the first provably efficient online safe reinforcement learning algorithm in constrained Markov games. | 翻訳日:2023-06-02 19:08:34 公開日:2023-05-31 |
# PERFOGRAPH:パフォーマンス最適化とプログラム解析のための数値認識プログラムグラフ表現 PERFOGRAPH: A Numerical Aware Program Graph Representation for Performance Optimization and Program Analysis ( http://arxiv.org/abs/2306.00210v1 ) ライセンス: Link先を確認 | Ali TehraniJamsaz, Quazi Ishtiaque Mahmud, Le Chen, Nasreen K. Ahmed, Ali Jannesari | (参考訳) 機械学習の顕著な成長と大きな成功は、その応用をプログラミング言語やプログラム分析に拡張した。
しかし、最新の機械学習メソッドを採用する上で重要な課題はプログラミング言語の表現であり、プログラムを推論する機械学習メソッドの能力に直接影響を及ぼす。
数値認識の欠如、複合データ構造情報、以前の表現作業における変数の提示方法の不適切さは、その性能を制限している。
現行のプログラム表現の限界と課題を克服するために,新しいグラフベースのプログラム表現であるperfographを提案する。
perfographは、新しいノードとエッジを導入することで、数値情報と複合データ構造をキャプチャできる。
さらに,数値認識を組み込んだ組込み手法を提案する。
これらの拡張によりPERFOGRAPHは、プログラムの複雑な依存関係とセマンティクスを効果的にキャプチャできる、柔軟でスケーラブルな表現になる。
その結果、プログラム分析、性能最適化、並列性発見といった様々なアプリケーションのための強力なツールとして機能する。
実験の結果,よく知られたデバイスマッピングチャレンジでは,エラーレートを7.4% (amdデータセット) と10% (nvidiaデータセット) 削減することで,既存の表現を上回り,新たな最先端結果を設定することができた。
また、並列性の発見やnuma、prefetchersの設定予測など、さまざまなパフォーマンス最適化タスクに最先端の結果を新たに設定する。 The remarkable growth and significant success of machine learning have expanded its applications into programming languages and program analysis. However, a key challenge in adopting the latest machine learning methods is the representation of programming languages, which directly impacts the ability of machine learning methods to reason about programs. The absence of numerical awareness, composite data structure information, and improper way of presenting variables in previous representation works have limited their performances. To overcome the limitations and challenges of current program representations, we propose a novel graph-based program representation called PERFOGRAPH. PERFOGRAPH can capture numerical information and the composite data structure by introducing new nodes and edges. Furthermore, we propose an adapted embedding method to incorporate numerical awareness. These enhancements make PERFOGRAPH a highly flexible and scalable representation that can effectively capture program intricate dependencies and semantics. Consequently, it serves as a powerful tool for various applications such as program analysis, performance optimization, and parallelism discovery. Our experimental results demonstrate that PERFOGRAPH outperforms existing representations and sets new state-of-the-art results by reducing the error rate by 7.4% (AMD dataset) and 10% (NVIDIA dataset) in the well-known Device Mapping challenge. It also sets new state-of-the-art results in various performance optimization tasks like Parallelism Discovery and Numa and Prefetchers Configuration prediction. | 翻訳日:2023-06-02 19:07:59 公開日:2023-05-31 |
# 事前学習したasrモデルに基づくテキスト翻訳における低資源音声の改善戦略 Strategies for improving low resource speech to text translation relying on pre-trained ASR models ( http://arxiv.org/abs/2306.00208v1 ) ライセンス: Link先を確認 | Santosh Kesiraju, Marek Sarvas, Tomas Pavlicek, Cecile Macaire, Alejandro Ciuba | (参考訳) 本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見を提案する。
英語とポルトガル語, タマシェク語, フランス語の2つの言語対について, シミュレーションおよび実環境下で実験を行った。
stのためのエンコーダ・デコーダ・フレームワークを用いて,多言語自動音声認識システムが低リソースシナリオにおいて適切な初期化として機能することを示す。
さらに、CTCをトレーニングとデコードの間の翻訳のための追加の目的として使用することで、内部表現の順序を変更し、最終的な翻訳を改善することができる。
実験を通じて、低リソースのセットアップの改善に最も貢献する様々な要因(初期化、目的、ハイパーパラメータ)を特定しようとする。
トレーニング前の300時間で,Tamasheq - フランスのデータに対して7.3BLEUスコアを達成し,IWSLT 2022の先行公開データよりも1.6ポイント向上した。 This paper presents techniques and findings for improving the performance of low-resource speech to text translation (ST). We conducted experiments on both simulated and real-low resource setups, on language pairs English - Portuguese, and Tamasheq - French respectively. Using the encoder-decoder framework for ST, our results show that a multilingual automatic speech recognition system acts as a good initialization under low-resource scenarios. Furthermore, using the CTC as an additional objective for translation during training and decoding helps to reorder the internal representations and improves the final translation. Through our experiments, we try to identify various factors (initializations, objectives, and hyper-parameters) that contribute the most for improvements in low-resource setups. With only 300 hours of pre-training data, our model achieved 7.3 BLEU score on Tamasheq - French data, outperforming prior published works from IWSLT 2022 by 1.6 points. | 翻訳日:2023-06-02 19:07:37 公開日:2023-05-31 |
# 表現信頼性と下流課題への影響 Representation Reliability and Its Impact on Downstream Tasks ( http://arxiv.org/abs/2306.00206v1 ) ライセンス: Link先を確認 | Young-Jin Park, Hao Wang, Shervin Ardeshir, Navid Azizan | (参考訳) 自己教師付き事前学習モデルは、データから汎用表現を抽出し、ダウンストリームモデルの多くは、これらの表現を自身のタスクの入力として使用するため、それらがどれほど信頼性が高いかを定量化する。
与えられたテスト入力の表現は、その表現の上に構築された下流モデルが一貫してそのテストポイントの正確な予測を生成できる場合に信頼性があると考えられる。
下流タスクを事前に知ることなく、表現信頼性を推定することが望ましい。
教師付き学習における不確実性定量化のための既存のフレームワークがこの目的に適さないことを示す。
代案として,様々な事前学習モデルにまたがる表現空間における近傍整合性の概念に基づいて,表現信頼性を定量化するアンサンブルに基づく手法を提案する。
より具体的には、鍵となる洞察は、異なる表現空間を整列するアンカーとして隣り合う点を共有することである。
本手法が表現信頼性を高精度に予測できることを総合的な数値実験により実証する。 Self-supervised pre-trained models extract general-purpose representations from data, and quantifying how reliable they are is crucial because many downstream models use these representations as input for their own tasks. To this end, we first introduce a formal definition of representation reliability: the representation for a given test input is considered to be reliable if the downstream models built on top of that representation can consistently generate accurate predictions for that test point. It is desired to estimate the representation reliability without knowing the downstream tasks a priori. We provide a negative result showing that existing frameworks for uncertainty quantification in supervised learning are not suitable for this purpose. As an alternative, we propose an ensemble-based method for quantifying representation reliability, based on the concept of neighborhood consistency in the representation spaces across various pre-trained models. More specifically, the key insight is to use shared neighboring points as anchors to align different representation spaces. We demonstrate through comprehensive numerical experiments that our method is capable of predicting representation reliability with high accuracy. | 翻訳日:2023-06-02 19:07:20 公開日:2023-05-31 |
# BetaZero:学習近似を用いた長距離PMDPの信頼状態計画 BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned Approximations ( http://arxiv.org/abs/2306.00249v1 ) ライセンス: Link先を確認 | Robert J. Moss, Anthony Corso, Jef Caers, Mykel J. Kochenderfer | (参考訳) 実世界の計画問題$\unicode{x2014}$には、炭素貯蔵や資源探索のような自律運転および持続可能なエネルギーアプリケーションを含む$\unicode{x2014}$haveは、最近部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決された。
高次元のPOMDPを現実的に解くために、最先端の手法では、問題固有のヒューリスティックを用いたオンラインプランニングを用いて、計画の地平線を小さくし、問題を抽出できるようにする。
ヒューリスティックスを置き換える近似を学習するアルゴリズムは、最近完全に観測可能な領域における大規模問題で成功した。
重要な洞察は、オンラインモンテカルロ木探索と、最適ポリシーと値関数のオフラインニューラルネットワーク近似の組み合わせである。
本研究では、この知見を部分的に観測された領域に適用し、POMDPの信念状態計画アルゴリズムであるBetaZeroを提案する。
BetaZeroは、正確な信念モデルに基づいてオフライン近似を学習し、長期にわたる問題のオンライン意思決定を可能にする。
具体的には, 確率的環境への遷移, 探索予算の制限による行動分岐の優先順位付け, ネットワークへの入力としての信念の表現などである。
文献で見いだされた様々なよく確立されたベンチマークPMDPにBetaZeroを適用する。
実世界のケーススタディとして, 臨界鉱物探査の高次元地質問題についてbetazeroを検証した。
実験によれば、betazeroは様々なタスクで最先端のpomdpソルバを上回っている。 Real-world planning problems$\unicode{x2014}$including autonomous driving and sustainable energy applications like carbon storage and resource exploration$\unicode{x2014}$have recently been modeled as partially observable Markov decision processes (POMDPs) and solved using approximate methods. To solve high-dimensional POMDPs in practice, state-of-the-art methods use online planning with problem-specific heuristics to reduce planning horizons and make the problems tractable. Algorithms that learn approximations to replace heuristics have recently found success in large-scale problems in the fully observable domain. The key insight is the combination of online Monte Carlo tree search with offline neural network approximations of the optimal policy and value function. In this work, we bring this insight to partially observed domains and propose BetaZero, a belief-state planning algorithm for POMDPs. BetaZero learns offline approximations based on accurate belief models to enable online decision making in long-horizon problems. We address several challenges inherent in large-scale partially observable domains; namely challenges of transitioning in stochastic environments, prioritizing action branching with limited search budget, and representing beliefs as input to the network. We apply BetaZero to various well-established benchmark POMDPs found in the literature. As a real-world case study, we test BetaZero on the high-dimensional geological problem of critical mineral exploration. Experiments show that BetaZero outperforms state-of-the-art POMDP solvers on a variety of tasks. | 翻訳日:2023-06-02 19:02:48 公開日:2023-05-31 |
# transact:pinterestのレコメンデーションのためのトランスフォーマーベースのリアルタイムユーザアクションモデル TransAct: Transformer-based Realtime User Action Model for Recommendation at Pinterest ( http://arxiv.org/abs/2306.00248v1 ) ライセンス: Link先を確認 | Xue Xia, Pong Eksombatchai, Nikil Pancha, Dhruvil Deven Badani, Po-Wei Wang, Neng Gu, Saurabh Vishwas Joshi, Nazanin Farahpour, Zhiyuan Zhang, Andrew Zhai | (参考訳) 次のアクション予測のためにユーザアクティビティをエンコードするシーケンシャルモデルが、webスケールのパーソナライズドレコメンデーションシステムを構築する上で、一般的な設計選択となっている。
従来の逐次レコメンデーションの方法は、リアルタイムユーザアクションでエンドツーエンドの学習を利用するか、オフラインのバッチ生成方法でユーザ表現を別々に学習する。
本稿では,pinterestのhomefeedランキング・アーキテクチャ,パーソナライズド・レコメンデーション・プロダクト,最大のエンゲージメント面について述べる。 (2)ユーザの短期的好みをリアルタイムアクティビティから抽出するシーケンシャル・モデルであるtransactを提案し,(3)transactによるエンドツーエンド・シーケンシャル・モデリングとバッチ生成ユーザ埋め込みを組み合わせたランキング・アプローチを提案する。
ハイブリッドアプローチにより、リアルタイムユーザアクティビティを直接学習することによる応答性の利点と、長期間にわたって学習したバッチユーザ表現のコスト効率を組み合わせられます。
本研究は, アブレーション研究の結果, 生産過程における課題, およびハイブリッドランキングモデルの有効性を検証するオンラインA/B実験の結果について述べる。
コンテクストレコメンデーションや検索などの他の面に対するTransActの有効性をさらに示す。
私たちのモデルは、PinterestのHomefeed、関連ピン、通知、検索で運用にデプロイされています。 Sequential models that encode user activity for next action prediction have become a popular design choice for building web-scale personalized recommendation systems. Traditional methods of sequential recommendation either utilize end-to-end learning on realtime user actions, or learn user representations separately in an offline batch-generated manner. This paper (1) presents Pinterest's ranking architecture for Homefeed, our personalized recommendation product and the largest engagement surface; (2) proposes TransAct, a sequential model that extracts users' short-term preferences from their realtime activities; (3) describes our hybrid approach to ranking, which combines end-to-end sequential modeling via TransAct with batch-generated user embeddings. The hybrid approach allows us to combine the advantages of responsiveness from learning directly on realtime user activity with the cost-effectiveness of batch user representations learned over a longer time period. We describe the results of ablation studies, the challenges we faced during productionization, and the outcome of an online A/B experiment, which validates the effectiveness of our hybrid ranking model. We further demonstrate the effectiveness of TransAct on other surfaces such as contextual recommendations and search. Our model has been deployed to production in Homefeed, Related Pins, Notifications, and Search at Pinterest. | 翻訳日:2023-06-02 19:02:22 公開日:2023-05-31 |
# スピンと幾何学の関係 A Relationship Between Spin and Geometry ( http://arxiv.org/abs/2306.00247v1 ) ライセンス: Link先を確認 | Peter T. J. Bradshaw | (参考訳) 最近の論文では、すべての非相対論的スピンに対する代数的記述はリー代数$\specialorthogonalliealgebra{3}$から直接基本的手段によって導き出され、スピンとユークリッド三次元空間の幾何学的関係が描かれた。
しかし、この関係の詳細と初等的な手段による発展の程度は明らかにされていない。
本稿では、クリフォード環の新規で一般化された形式を用いて、スピン代数の幾何学的内容を明らかにする。
このようにしてスピンと非可換幾何学の自然な関係を示し、超体積の測定と量子力学への影響について論じる。 In a recent paper, algebraic descriptions for all non-relativistic spins were derived by elementary means directly from the Lie algebra $\specialorthogonalliealgebra{3}$, and a connection between spin and the geometry of Euclidean three-space was drawn. However, the details of this relationship and the extent to which it can be developed by elementary means were not expounded. In this paper, we will reveal the geometric content of the spin algebras by realising them within a novel, generalised form of Clifford-like algebra. In so doing, we will demonstrate a natural connection between spin and non-commutative geometry, and discuss the impact of this on the measurement of hypervolumes and on quantum mechanics. | 翻訳日:2023-06-02 19:01:57 公開日:2023-05-31 |
# 確率的解離を用いた微粒化評価 Fine-Grained Property Value Assessment using Probabilistic Disaggregation ( http://arxiv.org/abs/2306.00246v1 ) ライセンス: Link先を確認 | Cohen Archbold, Benjamin Brodie, Aram Ansary Ogholbake, Nathan Jacobs | (参考訳) ある不動産の金銭的価値、すなわち小包はしばしば地理的情報システムから容易に入手できる。
しかし, 保険や都市計画などの多くの応用において, 空間分解能の高い資産価値を推定することは有用である。
本研究では,リモートセンシング画像から画素レベルでのプロパティ値の分布を推定する手法を提案する。
大都市における実世界のデータセットを評価した。
本結果から,提案手法は特性値の細粒度推定を可能とし,多様なベースライン手法の収集により大幅な改善が期待できることがわかった。 The monetary value of a given piece of real estate, a parcel, is often readily available from a geographic information system. However, for many applications, such as insurance and urban planning, it is useful to have estimates of property value at much higher spatial resolutions. We propose a method to estimate the distribution over property value at the pixel level from remote sensing imagery. We evaluate on a real-world dataset of a major urban area. Our results show that the proposed approaches are capable of generating fine-level estimates of property values, significantly improving upon a diverse collection of baseline approaches. | 翻訳日:2023-06-02 19:01:43 公開日:2023-05-31 |
# ピクセルからuiアクションへ:グラフィカルユーザインタフェースによる命令に従う学習 From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces ( http://arxiv.org/abs/2306.00245v1 ) ライセンス: Link先を確認 | Peter Shaw, Mandar Joshi, James Cohan, Jonathan Berant, Panupong Pasupat, Hexiang Hu, Urvashi Khandelwal, Kenton Lee, Kristina Toutanova | (参考訳) グラフィカルユーザインタフェース(GUI)のデジタルエージェントに向けたこれまでの作業の多くは、テキストベースの表現(HTMLや他の構造化データソースから派生したもの)に依存しており、必ずしも容易に利用できない。
これらの入力表現は、しばしばカスタムなタスク固有のアクション空間と結合されている。
本稿では,人間がよく使う概念的インタフェースと,キーボードとマウスのアクションに対応する汎用的なアクション空間を用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
近年の画素ベースの事前学習の進歩を踏まえ,GUIベースの命令追従タスクのMiniWob++ベンチマークにおいて,このようなエージェントが人間のクラウドワーカーより優れていることを示す。 Much of the previous work towards digital agents for graphical user interfaces (GUIs) has relied on text-based representations (derived from HTML or other structured data sources), which are not always readily available. These input representations have been often coupled with custom, task-specific action spaces. This paper focuses on creating agents that interact with the digital world using the same conceptual interface that humans commonly use -- via pixel-based screenshots and a generic action space corresponding to keyboard and mouse actions. Building upon recent progress in pixel-based pretraining, we show, for the first time, that it is possible for such agents to outperform human crowdworkers on the MiniWob++ benchmark of GUI-based instruction following tasks. | 翻訳日:2023-06-02 19:01:34 公開日:2023-05-31 |
# 組合せ神経バンディット Combinatorial Neural Bandits ( http://arxiv.org/abs/2306.00242v1 ) ライセンス: Link先を確認 | Taehyun Hwang, Kyuwook Chai, Min-hwan Oh | (参考訳) 各ラウンドにおいて学習エージェントがアームのサブセットを選択し、そのスコアに応じて選択されたアームに対するフィードバックを受け取る、文脈的組合せバンディット問題を考える。
腕のスコアは、腕の特徴の未知の機能である。
この未知のスコア関数をディープニューラルネットワークで近似するアルゴリズムを提案する: Combinatorial Neural UCB ($\texttt{CN-UCB}$)と Combinatorial Neural Thompson Sampling ($\texttt{CN-TS}$)。
我々は、$\textt{cn-ucb}$が$\tilde{\mathcal{o}}(\tilde{d} \sqrt{t})$または$\tilde{\mathcal{o}}(\sqrt{\tilde{d} t k})$ regret であることを証明する。
$\texttt{CN-TS}$に対して、楽観的なサンプリング手法を適用して、サンプリングされた組合せアクションの楽観性を保証し、$\tilde{\mathcal{O}}(\tilde{d} \sqrt{TK})$の最悪の(頻繁な)後悔を達成する。
私たちの知る限りでは、これらは後悔のパフォーマンス保証を備えた最初の組合せ型ニューラルネットワークバンディットアルゴリズムです。
特に、$\texttt{CN-TS}$は、一般的なコンテクスト組合せバンディット問題に対する最悪の後悔の保証を持つ最初のトンプソンサンプリングアルゴリズムである。
数値実験により,提案するアルゴリズムの優れた性能を示す。 We consider a contextual combinatorial bandit problem where in each round a learning agent selects a subset of arms and receives feedback on the selected arms according to their scores. The score of an arm is an unknown function of the arm's feature. Approximating this unknown score function with deep neural networks, we propose algorithms: Combinatorial Neural UCB ($\texttt{CN-UCB}$) and Combinatorial Neural Thompson Sampling ($\texttt{CN-TS}$). We prove that $\texttt{CN-UCB}$ achieves $\tilde{\mathcal{O}}(\tilde{d} \sqrt{T})$ or $\tilde{\mathcal{O}}(\sqrt{\tilde{d} T K})$ regret, where $\tilde{d}$ is the effective dimension of a neural tangent kernel matrix, $K$ is the size of a subset of arms, and $T$ is the time horizon. For $\texttt{CN-TS}$, we adapt an optimistic sampling technique to ensure the optimism of the sampled combinatorial action, achieving a worst-case (frequentist) regret of $\tilde{\mathcal{O}}(\tilde{d} \sqrt{TK})$. To the best of our knowledge, these are the first combinatorial neural bandit algorithms with regret performance guarantees. In particular, $\texttt{CN-TS}$ is the first Thompson sampling algorithm with the worst-case regret guarantees for the general contextual combinatorial bandit problem. The numerical experiments demonstrate the superior performances of our proposed algorithms. | 翻訳日:2023-06-02 19:01:20 公開日:2023-05-31 |
# StyleGAN事前遅延空間を用いた実画像編集のためのGAN変換のバランシング再構成と編集品質 Balancing Reconstruction and Editing Quality of GAN Inversion for Real Image Editing with StyleGAN Prior Latent Space ( http://arxiv.org/abs/2306.00241v1 ) ライセンス: Link先を確認 | Kai Katsumata, Duc Minh Vo, Bei Liu, Hideki Nakayama | (参考訳) StyleGANsとGANインバージョンにおける潜伏空間の探索は、印象的な実世界の画像編集を実証するが、再構築品質と編集品質のトレードオフは未解決の問題である。
本研究では,StyleGANs の超球面以前の $\mathcal{Z}$ と $\mathcal{Z}^+$ を再検討し,編集品質を向上させるためのセミナル GAN インバージョン手法に統合する。
忠実な再構築に加えて,従来のStyleGANの助けを借りて,高度な編集品質を実現する。
提案した空間に実際のイメージを投影して逆コードを取得し、そこから$\mathcal{Z}^{+}$を移動し、画像品質を犠牲にすることなくセマンティックな編集を可能にする。
総合的な実験により、$\mathcal{z}^{+}$ は最も一般的に使われている$\mathcal{w}$、$\mathcal{w}^{+}$、$\mathcal{s}$スペースを置き換えることができることが示され、結果として編集された画像の歪みが減少する。 The exploration of the latent space in StyleGANs and GAN inversion exemplify impressive real-world image editing, yet the trade-off between reconstruction quality and editing quality remains an open problem. In this study, we revisit StyleGANs' hyperspherical prior $\mathcal{Z}$ and $\mathcal{Z}^+$ and integrate them into seminal GAN inversion methods to improve editing quality. Besides faithful reconstruction, our extensions achieve sophisticated editing quality with the aid of the StyleGAN prior. We project the real images into the proposed space to obtain the inverted codes, by which we then move along $\mathcal{Z}^{+}$, enabling semantic editing without sacrificing image quality. Comprehensive experiments show that $\mathcal{Z}^{+}$ can replace the most commonly-used $\mathcal{W}$, $\mathcal{W}^{+}$, and $\mathcal{S}$ spaces while preserving reconstruction quality, resulting in reduced distortion of edited images. | 翻訳日:2023-06-02 19:00:44 公開日:2023-05-31 |
# バイト: ファイルバイト上で直接動作するトランスフォーマー Bytes Are All You Need: Transformers Operating Directly On File Bytes ( http://arxiv.org/abs/2306.00238v1 ) ライセンス: Link先を確認 | Maxwell Horton, Sachin Mehta, Ali Farhadi, Mohammad Rastegari | (参考訳) 現代のディープラーニングアプローチは通常、入力をモダリティ固有の形式に変換する。
例えば、画像分類における最も一般的なディープラーニングアプローチは、画像ファイルバイトをニューラルネットワークに渡されるRGBテンソルにデコードすることである。
代わりに、推論時にファイルの復号化を必要とせず、ファイルバイトを直接分類することを検討する。
ファイルバイトをモデル入力として使用することで、複数の入力モードで操作できるモデルの開発が可能になる。
我々のモデルである \emph{byteformer} は、tiffファイルバイトを直接トレーニングしテストする際に、deit-ti(rgbイメージで操作する場合の精度72.2\%)に似た構成のトランスフォーマーバックボーンを使用して、imagenet top-1の分類精度を7.33\%$で達成する。
修正やハイパーパラメータチューニングなしで、ByteFormerは、Speech Commands v2データセットからWAVファイルを操作する際に、95.42\%$の分類精度を達成している。
さらに、ByteFormerはプライバシ保護推論に応用できることを示す。
byteformerは、精度を損なうことなく、特定の難読化された入力表現で推論を行うことができる。
また、byteformerが仮想プライバシ保存カメラで推論を行う能力も示しています。これは、イメージネットで711.35\%の精度を保ちながら、一貫して90\%のピクセルチャネルをマスクすることでフルイメージを形成するのを防ぎます。
私たちのコードはhttps://github.com/apple/ml-cvnets/tree/main/examples/byteformerで利用可能になります。 Modern deep learning approaches usually transform inputs into a modality-specific form. For example, the most common deep learning approach to image classification involves decoding image file bytes into an RGB tensor which is passed into a neural network. Instead, we investigate performing classification directly on file bytes, without the need for decoding files at inference time. Using file bytes as model inputs enables the development of models which can operate on multiple input modalities. Our model, \emph{ByteFormer}, achieves an ImageNet Top-1 classification accuracy of $77.33\%$ when training and testing directly on TIFF file bytes using a transformer backbone with configuration similar to DeiT-Ti ($72.2\%$ accuracy when operating on RGB images). Without modifications or hyperparameter tuning, ByteFormer achieves $95.42\%$ classification accuracy when operating on WAV files from the Speech Commands v2 dataset (compared to state-of-the-art accuracy of $98.7\%$). Additionally, we demonstrate that ByteFormer has applications in privacy-preserving inference. ByteFormer is capable of performing inference on particular obfuscated input representations with no loss of accuracy. We also demonstrate ByteFormer's ability to perform inference with a hypothetical privacy-preserving camera which avoids forming full images by consistently masking $90\%$ of pixel channels, while still achieving $71.35\%$ accuracy on ImageNet. Our code will be made available at https://github.com/apple/ml-cvnets/tree/main/examples/byteformer. | 翻訳日:2023-06-02 19:00:08 公開日:2023-05-31 |
# 変圧器を用いたユニバーサル潜時フィンガープリントエンハンサー A Universal Latent Fingerprint Enhancer Using Transformers ( http://arxiv.org/abs/2306.00231v1 ) ライセンス: Link先を確認 | Andre Brasil Vieira Wyzykowski, Anil K. Jain | (参考訳) 法医学は潜在指紋の分析に大きく依存しており、犯罪捜査に不可欠である。
しかし、背景雑音、重なり合う印刷物、汚染などの様々な課題は、識別プロセスを困難にしている。
さらに、実犯罪現場への限られたアクセスと実験室で生成されたデータベースは、効率的な認識アルゴリズムの開発を妨げる。
本研究では,ULPrintと呼ばれる高速な手法を開発し,実際の犯罪現場や実験室で作成したサンプルなど,様々な潜伏指紋のタイプを強化し,指紋認識システムの性能を向上させることを目的とする。
クローズドセットの識別精度実験において、拡張された画像は、nist sd27データベースのmsu-afisの性能を61.56\%から75.19\%、mspの潜在データベースの67.63\%から77.02\%、nist sd302データベースの46.90\%から52.12\%に改善することができた。
筆者らは,(1)リッジセグメンテーションをUNetとMix Visual Transformer (MiT) SegFormer-B5エンコーダアーキテクチャと組み合わせた2段階の潜伏指紋強調手法の開発,(2)複雑な非局所パターンをよりよく捕捉し,リッジセグメンテーションを向上するUNetアーキテクチャにおける複数の拡張畳み込みの実装,(3)予測されたリッジマスクと潜伏指紋とのガイドミキシングについて検討した。
この新しいアプローチであるulprintは、強化プロセスを合理化し、さまざまな潜在指紋タイプにまたがる課題に対処し、法医学的な調査と刑事裁判の結果を改善する。 Forensic science heavily relies on analyzing latent fingerprints, which are crucial for criminal investigations. However, various challenges, such as background noise, overlapping prints, and contamination, make the identification process difficult. Moreover, limited access to real crime scene and laboratory-generated databases hinders the development of efficient recognition algorithms. This study aims to develop a fast method, which we call ULPrint, to enhance various latent fingerprint types, including those obtained from real crime scenes and laboratory-created samples, to boost fingerprint recognition system performance. In closed-set identification accuracy experiments, the enhanced image was able to improve the performance of the MSU-AFIS from 61.56\% to 75.19\% in the NIST SD27 database, from 67.63\% to 77.02\% in the MSP Latent database, and from 46.90\% to 52.12\% in the NIST SD302 database. Our contributions include (1) the development of a two-step latent fingerprint enhancement method that combines Ridge Segmentation with UNet and Mix Visual Transformer (MiT) SegFormer-B5 encoder architecture, (2) the implementation of multiple dilated convolutions in the UNet architecture to capture intricate, non-local patterns better and enhance ridge segmentation, and (3) the guided blending of the predicted ridge mask with the latent fingerprint. This novel approach, ULPrint, streamlines the enhancement process, addressing challenges across diverse latent fingerprint types to improve forensic investigations and criminal justice outcomes. | 翻訳日:2023-06-02 18:59:23 公開日:2023-05-31 |
# 渦シーディングにおける物理インフォームニューラルネットワークの予測限界 Predictive Limitations of Physics-Informed Neural Networks in Vortex Shedding ( http://arxiv.org/abs/2306.00230v1 ) ライセンス: Link先を確認 | Pi-Yueh Chuang, Lorena A. Barba | (参考訳) 物理学的非形式ニューラルネットワーク(pinn)法に対する近年の関心の高まりは、偏微分方程式(pdes)の解法と物理系のダイナミクスの予測の可能性を実証する研究の波につながった。
しかし,PINNの予測限界は十分に調査されていない。
2次元円柱まわりの流れを見て、データフリーのピンが渦流を予測できないことに気付く。
データ駆動型PINNは、トレーニングデータ(従来のCFDソルバからの)が利用可能である間のみ渦シーディングを示すが、データフローが停止すると定常状態のソリューションに戻る。
PINNと従来の流体解法 (PetIBM) を用いて, 動的モード分解を行い, クープマンモードの解析を行った。
複素平面上のクープマン固有値の分布は、PINNが数値的に分散し拡散することを示唆している。
PINN法は、おそらくスペクトルバイアスの結果、定常解に回帰する。
このケーススタディでは、不安定な流れ、特に渦流を予測できるピンの能力に関する懸念を再検討する。
本研究は,PINN法の数値特性を解析するための理論的研究の必要性を裏付けるものである。
この論文の結果は透過的で再現可能で、公開リポジトリや永続的なアーカイブで利用可能なすべてのデータとコードを格納している。リンクはペーパーリポジトリの \url{https://github.com/barbagroup/jcs_paper_pinn} で提供され、論文内の再現性ステートメントも提供されている。 The recent surge of interest in physics-informed neural network (PINN) methods has led to a wave of studies that attest to their potential for solving partial differential equations (PDEs) and predicting the dynamics of physical systems. However, the predictive limitations of PINNs have not been thoroughly investigated. We look at the flow around a 2D cylinder and find that data-free PINNs are unable to predict vortex shedding. Data-driven PINN exhibits vortex shedding only while the training data (from a traditional CFD solver) is available, but reverts to the steady state solution when the data flow stops. We conducted dynamic mode decomposition and analyze the Koopman modes in the solutions obtained with PINNs versus a traditional fluid solver (PetIBM). The distribution of the Koopman eigenvalues on the complex plane suggests that PINN is numerically dispersive and diffusive. The PINN method reverts to the steady solution possibly as a consequence of spectral bias. This case study reaises concerns about the ability of PINNs to predict flows with instabilities, specifically vortex shedding. Our computational study supports the need for more theoretical work to analyze the numerical properties of PINN methods. The results in this paper are transparent and reproducible, with all data and code available in public repositories and persistent archives; links are provided in the paper repository at \url{https://github.com/barbagroup/jcs_paper_pinn}, and a Reproducibility Statement within the paper. | 翻訳日:2023-06-02 18:58:45 公開日:2023-05-31 |
# 低データレジームにおけるタンパク質-ペプチド界面予測の改善 Improving Protein-peptide Interface Predictions in the Low Data Regime ( http://arxiv.org/abs/2306.00557v1 ) ライセンス: Link先を確認 | Justin Diamond, Markus Lill | (参考訳) 本稿では,残接の界面結合分布を学習するバイモーダルトランスフォーマーアーキテクチャを用いて,タンパク質-ペプチド相互作用を予測する新しい手法を提案する。
現在の結晶化タンパク質-ペプチド複合体のデータセットは限られており、タンパク質とペプチドの相互作用を正確に予測することは困難である。
この問題に対処するため,PepBDBの既存のデータをPDB由来の擬似タンパク質ペプチド複合体で拡張することを提案する。
拡張データセットは、物理ベースのコンテキスト依存のresidue内相互作用をresidual(inter-residual)ドメインに転送する方法として機能する。
界面残差-残差相互作用の分布は, 界面残差-残差相互作用と重なり合い, バイモーダルトランスアーキテクチャの予測力を高めるのに十分であることを示す。
さらに、このデータ拡張により、プリミティブとして機能するテンプレートベースのモデリングとは対照的に、PDBで利用可能な膨大な量のタンパク質のみのデータを利用してニューラルネットワークをトレーニングすることができる。 We propose a novel approach for predicting protein-peptide interactions using a bi-modal transformer architecture that learns an inter-facial joint distribution of residual contacts. The current data sets for crystallized protein-peptide complexes are limited, making it difficult to accurately predict interactions between proteins and peptides. To address this issue, we propose augmenting the existing data from PepBDB with pseudo protein-peptide complexes derived from the PDB. The augmented data set acts as a method to transfer physics-based contextdependent intra-residue (within a domain) interactions to the inter-residual (between) domains. We show that the distributions of inter-facial residue-residue interactions share overlap with inter residue-residue interactions, enough to increase predictive power of our bi-modal transformer architecture. In addition, this dataaugmentation allows us to leverage the vast amount of protein-only data available in the PDB to train neural networks, in contrast to template-based modeling that acts as a prior | 翻訳日:2023-06-02 16:43:11 公開日:2023-05-31 |
# 相関入力を持つ高次元モデルの感度解析 Sensitivity Analysis of High-Dimensional Models with Correlated Inputs ( http://arxiv.org/abs/2306.00555v1 ) ライセンス: Link先を確認 | Juraj Kardos, Wouter Edeling, Diana Suleimenova, Derek Groen, Olaf Schenk | (参考訳) 感性分析は、数理モデルとパラメータの相互作用に関する洞察を得るか、入力-出力相互作用による不確実性伝播を研究するために、計算科学の多くの分野において重要なツールである。
多くの応用において、入力は確率的に依存しており、最先端の感度分析法における重要な前提の一つに反する。
その結果、相関を無視した結果から、入力パラメータの真の寄与を反映しない値が得られる。
本研究では,多項式カオス展開法とRosenblattおよびColesky変換を用いてパラメータ依存を反映したパラメータ相関に対処する手法を提案する。
相関変数の処理は分散と微分に基づく感度解析の文脈で議論される。
その結果,相関パラメータの感度は大きさだけでなく,導関数に基づく指標の符号も反転できるため,相関を無視する解析の予測と比較して,モデルの挙動が大きく変化することがわかった。
VECMAツールキット内のワークフロー自動化ツールを使用して、数多くの実験が行われている。 Sensitivity analysis is an important tool used in many domains of computational science to either gain insight into the mathematical model and interaction of its parameters or study the uncertainty propagation through the input-output interactions. In many applications, the inputs are stochastically dependent, which violates one of the essential assumptions in the state-of-the-art sensitivity analysis methods. Consequently, the results obtained ignoring the correlations provide values which do not reflect the true contributions of the input parameters. This study proposes an approach to address the parameter correlations using a polynomial chaos expansion method and Rosenblatt and Cholesky transformations to reflect the parameter dependencies. Treatment of the correlated variables is discussed in context of variance and derivative-based sensitivity analysis. We demonstrate that the sensitivity of the correlated parameters can not only differ in magnitude, but even the sign of the derivative-based index can be inverted, thus significantly altering the model behavior compared to the prediction of the analysis disregarding the correlations. Numerous experiments are conducted using workflow automation tools within the VECMA toolkit. | 翻訳日:2023-06-02 16:42:54 公開日:2023-05-31 |
# 自己チェッキング機能を有する新しいフォールトトレラント論理式 A Novel Fault-Tolerant Logic Style with Self-Checking Capability ( http://arxiv.org/abs/2306.00844v1 ) ライセンス: Link先を確認 | Mahdi Taheri, Saeideh Sheikhpour, Ali Mahani, and Maksim Jenihhin | (参考訳) 論理レベルでハードウェアの信頼性を高めるための自己チェック機能を備えた新しい論理形式を導入する。
提案する論理セルは2レールの入出力を持ち、出力の各レールの機能はフォールトトレラントな構成可能な回路の構築を可能にする。
ANDゲートとORゲートは、CNFET技術に基づく8個のトランジスタで構成され、提案されたXORゲートは、CNFET技術と低消費電力MGDI技術の両方のトランジスタ配置による利点がある。
新しい論理ゲートの実現可能性を示すために、AES S-box実装をユースケースとして使用しました。
hspiceを用いた大規模シミュレーション結果から,提案ゲートを用いたケーススタディ回路は,誤差検出性能を持つ他の実装と比較して,速度と消費電力に優れることがわかった。 We introduce a novel logic style with self-checking capability to enhance hardware reliability at logic level. The proposed logic cells have two-rail inputs/outputs, and the functionality for each rail of outputs enables construction of faulttolerant configurable circuits. The AND and OR gates consist of 8 transistors based on CNFET technology, while the proposed XOR gate benefits from both CNFET and low-power MGDI technologies in its transistor arrangement. To demonstrate the feasibility of our new logic gates, we used an AES S-box implementation as the use case. The extensive simulation results using HSPICE indicate that the case-study circuit using on proposed gates has superior speed and power consumption compared to other implementations with error-detection capability | 翻訳日:2023-06-02 14:47:36 公開日:2023-05-31 |
# 言語モデルのプロンプトによる推論:調査 Reasoning with Language Model Prompting: A Survey ( http://arxiv.org/abs/2212.09597v5 ) ライセンス: Link先を確認 | Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen | (参考訳) 推論は複雑な問題解決に不可欠な能力であり、医療診断や交渉など、さまざまな現実世界のアプリケーションに対するバックエンドサポートを提供することができる。
本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。
比較や要約による研究成果を紹介し,初心者を支援するための体系的な資源を提供する。
また,このような推論能力が出現する潜在的な理由を議論し,今後の研究の方向性を強調する。
リソースはhttps://github.com/zjunlp/Prompt4ReasoningPapers(定期的に更新)で入手できる。 Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions. Resources are available at https://github.com/zjunlp/Prompt4ReasoningPapers (updated periodically). | 翻訳日:2023-06-02 11:19:06 公開日:2023-05-31 |
# マスク視覚モデルを用いたエンドツーエンドビデオ言語変換器の実証的研究 An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling ( http://arxiv.org/abs/2209.01540v5 ) ライセンス: Link先を確認 | Tsu-Jui Fu and Linjie Li and Zhe Gan and Kevin Lin and William Yang Wang and Lijuan Wang and Zicheng Liu | (参考訳) Masked Visual Modeling (MVM)は視覚前トレーニングに有効であることが最近証明されている。
ビデオ入力(例えば、マスク付きフレームモデリング)における同様の再構築目的が、ビデオ言語(vidl)事前トレーニングで検討されているが、以前の研究では、下流のパフォーマンスに大きな利益をもたらす真に効果的なmvm戦略を見いだせていない。
本研究では,VidL学習におけるMVMの可能性について,系統的に検討する。
具体的には、MVMトレーニングの監督をビデオピクセル空間に戻すことができる、完全なエンドツーエンドVIOLET(VIdeO-LanguagE Transformer)に基づく。
低レベル画素値と配向勾配から高レベル深度マップ,光フロー,離散的視覚トークン,潜時視覚特徴に至るまで,MVMの8つの異なる再構成対象を探索した。
我々は総合的な実験を行い、MVMの効果的なトレーニングにつながる要因について洞察を提供する。
実験により,MVM目標で事前学習したVIOLETv2は,ビデオ質問応答,ビデオキャプション,テキスト・ツー・ビデオ検索など,13のVidLベンチマークにおいて顕著な改善を実現している。 Masked visual modeling (MVM) has been recently proven effective for visual pre-training. While similar reconstructive objectives on video inputs (e.g., masked frame modeling) have been explored in video-language (VidL) pre-training, previous studies fail to find a truly effective MVM strategy that can largely benefit the downstream performance. In this work, we systematically examine the potential of MVM in the context of VidL learning. Specifically, we base our study on a fully end-to-end VIdeO-LanguagE Transformer (VIOLET), where the supervision from MVM training can be backpropagated to the video pixel space. In total, eight different reconstructive targets of MVM are explored, from low-level pixel values and oriented gradients to high-level depth maps, optical flow, discrete visual tokens, and latent visual features. We conduct comprehensive experiments and provide insights into the factors leading to effective MVM training, resulting in an enhanced model VIOLETv2. Empirically, we show VIOLETv2 pre-trained with MVM objective achieves notable improvements on 13 VidL benchmarks, ranging from video question answering, video captioning, to text-to-video retrieval. | 翻訳日:2023-06-02 11:18:57 公開日:2023-05-31 |
# 言語モデル埋め込み空間における語彙構造的特徴の表現 Representation Of Lexical Stylistic Features In Language Models' Embedding Space ( http://arxiv.org/abs/2305.18657v2 ) ライセンス: Link先を確認 | Qing Lyu, Marianna Apidianaki, Chris Callison-Burch | (参考訳) 事前訓練された言語モデル(LM)の表現空間は、単語とその関係(例えば、類似性、ハイパーネミー、ポリセミー)と抽象意味概念(例えば、強度)に関する豊富な情報を符号化する。
本稿では,この空間において,複雑性,形式性,フィギュラリティといった語彙的様式的概念も同定できることを実証する。
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
これらのベクトルを用いて、対応する埋め込み空間で簡単な計算を行うことで、これらの次元の観点から新しいテキストを特徴付けることができる。
我々は5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確に符号化するのに対し、文脈化されたLMは文でよりよく機能することを示した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因するものであり、標準化のような手法を用いてある程度修正することができる。 The representation space of pretrained Language Models (LMs) encodes rich information about words and their relationships (e.g., similarity, hypernymy, polysemy) as well as abstract semantic notions (e.g., intensity). In this paper, we demonstrate that lexical stylistic notions such as complexity, formality, and figurativeness, can also be identified in this space. We show that it is possible to derive a vector representation for each of these stylistic notions from only a small number of seed pairs. Using these vectors, we can characterize new texts in terms of these dimensions by performing simple calculations in the corresponding embedding space. We conduct experiments on five datasets and find that static embeddings encode these features more accurately at the level of words and phrases, whereas contextualized LMs perform better on sentences. The lower performance of contextualized representations at the word level is partially attributable to the anisotropy of their vector space, which can be corrected to some extent using techniques like standardization. | 翻訳日:2023-06-02 11:11:16 公開日:2023-05-31 |
# 破壊の制御可能な経路 Controllable Path of Destruction ( http://arxiv.org/abs/2305.18553v2 ) ライセンス: Link先を確認 | Matthew Siper, Sam Earle, Zehua Jiang, Ahmed Khalifa, Julian Togelius | (参考訳) Path of Destruction (PoD) は反復ジェネレータを学習するための自己教師型手法である。
基本的な考え方は、一連のアーティファクトを破壊してトレーニングセットを作成し、破壊的なステップ毎に、対応する修復アクションに基づいてトレーニングインスタンスを作成することだ。
このデータセットでトレーニングされたジェネレータは、任意の状態から修復することで新しいアーティファクトを生成することができる。
PoD法は非常にデータ効率が良く、ゲームレベルや離散3D構造などのカテゴリデータからなる機能的アーティファクトに適している。
本稿では,生成したアーティファクトの側面を設計者が制御できるように,破壊の経路を拡張する。
制御性は、修復軌道を構成する状態-作用対に条件入力を追加することによって導入される。
2dダンジョンの設定で制御可能なpodメソッドをテストし、また小さな3dレゴカーの領域でテストした。 Path of Destruction (PoD) is a self-supervised method for learning iterative generators. The core idea is to produce a training set by destroying a set of artifacts, and for each destructive step create a training instance based on the corresponding repair action. A generator trained on this dataset can then generate new artifacts by repairing from arbitrary states. The PoD method is very data-efficient in terms of original training examples and well-suited to functional artifacts composed of categorical data, such as game levels and discrete 3D structures. In this paper, we extend the Path of Destruction method to allow designer control over aspects of the generated artifacts. Controllability is introduced by adding conditional inputs to the state-action pairs that make up the repair trajectories. We test the controllable PoD method in a 2D dungeon setting, as well as in the domain of small 3D Lego cars. | 翻訳日:2023-06-02 11:10:56 公開日:2023-05-31 |
# 低ランクパラメータ効率のファインチューニングを実現するPruning Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2305.18403v2 ) ライセンス: Link先を確認 | Mingyang Zhang and Hao Chen and Chunhua Shen and Zhen Yang and Linlin Ou and Xinyi Yu and Bohan Zhuang | (参考訳) LLaMAやViT-Gのような大型の事前学習モデル(LPM)は、様々なタスクにおいて例外的な性能を示している。
これらの大規模モデルを下流タスクで安価に微調整するためにパラメータ効率の良い微調整(peft)が登場したが、その展開は巨大なモデルスケールと計算コストによって依然として妨げられている。
ニューラルネットワークのプルーニングは冗長パラメータを除去することでモデル圧縮のソリューションを提供するが、既存の手法のほとんどはパラメータ勾配の計算に依存している。
しかし、勾配を求めることは、代替アプローチの探索を必要とするLPMに対して計算的に禁じられている。
そこで我々は,LoRAPrune と呼ばれる LPM の微細調整と展開を効率的に行うための統一的なフレームワークを提案する。
重要度推定のための事前学習パラメータの勾配ではなく,低ランク適応(lora)の値と勾配を利用するペフトアウェアプルーニング基準をまず設計する。
次に,PEFTの利点を最大化しつつ,冗長パラメータを除去する反復的プルーニング手法を提案する。
そこで,我々のLoRAPruneは,効率的な推論のための高精度でコンパクトなモデルを提供する。
各種課題に対する実験結果から,本手法が最先端の成果をもたらすことを示す。
例えば、VTAB-1kベンチマークでは、LoRAPruneはトレーニング可能なパラメータのわずか0.76%しか使用せず、それぞれ5.7%と4.3%のTop-1精度を達成している。
さらに,peft法と同等の性能を達成し,pruningの利点を享受しながら高品質な結果を提供する効果を強調する。 Large pre-trained models (LPMs), such as LLaMA and ViT-G, have shown exceptional performance across various tasks. Although parameter-efficient fine-tuning (PEFT) has emerged to cheaply fine-tune these large models on downstream tasks, their deployment is still hindered by the vast model scale and computational costs. Neural network pruning offers a solution for model compression by removing redundant parameters, but most existing methods rely on computing parameter gradients. However, obtaining the gradients is computationally prohibitive for LPMs, which necessitates the exploration of alternative approaches. To this end, we propose a unified framework for efficient fine-tuning and deployment of LPMs, termed LoRAPrune. We first design a PEFT-aware pruning criterion, which utilizes the values and gradients of Low-Rank Adaption (LoRA), rather than the gradients of pre-trained parameters for importance estimation. We then propose an iterative pruning procedure to remove redundant parameters while maximizing the advantages of PEFT. Thus, our LoRAPrune delivers an accurate, compact model for efficient inference in a highly cost-effective manner. Experimental results on various tasks demonstrate that our method achieves state-of-the-art results. For instance, in the VTAB-1k benchmark, LoRAPrune utilizes only 0.76% of the trainable parameters and outperforms magnitude and movement pruning methods by a significant margin, achieving a mean Top-1 accuracy that is 5.7% and 4.3% higher, respectively. Moreover, our approach achieves comparable performance to PEFT methods, highlighting its efficacy in delivering high-quality results while benefiting from the advantages of pruning. | 翻訳日:2023-06-02 11:10:29 公開日:2023-05-31 |
# reznick's positiveivstellensatzの改良と量子情報理論への応用 A refinement of Reznick's Positivstellensatz with applications to quantum information theory ( http://arxiv.org/abs/1909.01705v3 ) ライセンス: Link先を確認 | Alexander M\"uller-Hermes and Ion Nechita and David Reeb | (参考訳) ヒルベルトの17番目の問題の解において、アルティンはいくつかの変数の任意の正定値多項式を2つの平方和の商として記述できることを示した。
後にレズニックは、アルティンの結果の分母は常に変数の平方ノルムの$N$-番目のパワーとして選ばれ、$N$に明示的な境界を与えることを示した。
量子情報理論(部分的トレース、最適クローンマップ、チリベラによるアイデンティティなど)の概念を用いることで、この結果のより単純な証明と、実数と複素数の両方の微妙な改善を与える。
さらに、ガウス積分を用いたヒルベルト同一性の構成を議論し、複素球面設計を構成する基本手法について検討する。
最後に、実および複素集合における指数量子デファインッティの定理の境界を改良するために、この結果を適用する。 In his solution of Hilbert's 17th problem Artin showed that any positive definite polynomial in several variables can be written as the quotient of two sums of squares. Later Reznick showed that the denominator in Artin's result can always be chosen as an $N$-th power of the squared norm of the variables and gave explicit bounds on $N$. By using concepts from quantum information theory (such as partial traces, optimal cloning maps, and an identity due to Chiribella) we give simpler proofs and minor improvements of both real and complex versions of this result. Moreover, we discuss constructions of Hilbert identities using Gaussian integrals and we review an elementary method to construct complex spherical designs. Finally, we apply our results to give improved bounds for exponential quantum de Finetti theorems in the real and in the complex setting. | 翻訳日:2023-06-02 05:25:12 公開日:2023-05-31 |
# コヒーレントワンウェイ量子鍵分布の簡単なセキュリティ証明 Simple security proof of coherent-one-way quantum key distribution ( http://arxiv.org/abs/2107.09329v4 ) ライセンス: Link先を確認 | Rui-Qi Gao, Yuan-Mei Xie, Jie Gu, Wen-Bo Liu, Chen-Xun Weng, Bing-Hong Li, Hua-Lei Yin, Zeng-Bing Chen | (参考訳) コヒーレントワンウェイ量子鍵分布(COW-QKD)は、単純な実験装置を必要とし、光子数分割攻撃に耐える能力を有し、実験的に実装されているだけでなく、商業的にも応用されている。
しかし、最近の研究では、現在のCOW-QKDシステムは安全ではなく、光ファイバー長の20km以内で秘密鍵を安全に配布できることが示されている。
本研究では,2パルス真空状態を新しいデコイシーケンスとして付加することでCOW-QKDの実現を提案する。
この提案は、オリジナルの実験的な設定と実装の単純さを維持している。
監視線上の詳細な観測を利用して位相誤差率を解析的に上限とし,コヒーレント攻撃に対して漸近的に安全である高性能COW-QKDを提供する。
これにより、100km以内でCOW-QKDが利用可能となり、さらなる応用のための理論的基盤が確立される。 Coherent-one-way quantum key distribution (COW-QKD), which requires a simple experimental setup and has the ability to withstand photon-number-splitting attacks, has been not only experimentally implemented but also commercially applied. However, recent studies have shown that the current COW-QKD system is insecure and can only distribute secret keys safely within 20 km of the optical fiber length. In this study, we propose a practical implementation of COW-QKD by adding a two-pulse vacuum state as a new decoy sequence. This proposal maintains the original experimental setup as well as the simplicity of its implementation. Utilizing detailed observations on the monitoring line to provide an analytical upper bound on the phase error rate, we provide a high-performance COW-QKD asymptotically secure against coherent attacks. This ensures the availability of COW-QKD within 100 km and establishes theoretical foundations for further applications. | 翻訳日:2023-06-02 04:59:16 公開日:2023-05-31 |
# 対人運転:エンドツーエンドの自動運転を攻撃 Adversarial Driving: Attacking End-to-End Autonomous Driving ( http://arxiv.org/abs/2103.09151v7 ) ライセンス: Link先を確認 | Han Wu, Syed Yunas, Sareh Rowlands, Wenjie Ruan, and Johan Wahlstrom | (参考訳) ディープニューラルネットワークの研究が進むにつれて、ディープ畳み込みネットワークは自動運転タスクに有望になる。
特に、自動運転にエンドツーエンドのニューラルネットワークモデルを採用するという、新たなトレンドがある。
しかし、以前の研究では、ディープニューラルネットワーク分類器は敵の攻撃に弱いことが示されている。
回帰作業では、敵攻撃の効果はよく理解されていない。
本研究では、エンドツーエンドの自動運転モデルに対する2つのホワイトボックス攻撃を考案する。
我々の攻撃は,入力画像のゆらぎによって自律運転システムの動作を制御する。
同じ攻撃強度(エプシロン=1)の800の攻撃において、画像特異的および画像非依存の攻撃は、それぞれ元の出力から0.478と0.111のステアリング角度を逸脱し、そのステアリング角度を0.002(ステアリング角度は[-1,1]の範囲)だけ摂動するランダムノイズよりもはるかに強い。
どちらの攻撃もGPUを使わずにCPU上でリアルタイムで開始できる。
デモビデオ: https://youtu.be/I0i8uN2oOP0。 As research in deep neural networks advances, deep convolutional networks become promising for autonomous driving tasks. In particular, there is an emerging trend of employing end-to-end neural network models for autonomous driving. However, previous research has shown that deep neural network classifiers are vulnerable to adversarial attacks. While for regression tasks, the effect of adversarial attacks is not as well understood. In this research, we devise two white-box targeted attacks against end-to-end autonomous driving models. Our attacks manipulate the behavior of the autonomous driving system by perturbing the input image. In an average of 800 attacks with the same attack strength (epsilon=1), the image-specific and image-agnostic attack deviates the steering angle from the original output by 0.478 and 0.111, respectively, which is much stronger than random noises that only perturbs the steering angle by 0.002 (The steering angle ranges from [-1, 1]). Both attacks can be initiated in real-time on CPUs without employing GPUs. Demo video: https://youtu.be/I0i8uN2oOP0. | 翻訳日:2023-06-02 04:58:59 公開日:2023-05-31 |
# InfoMax Termination Criticによる多様なオプションの学習 Learning Diverse Options via InfoMax Termination Critic ( http://arxiv.org/abs/2010.02756v2 ) ライセンス: Link先を確認 | Yuji Kanagawa and Tomoyuki Kaneko | (参考訳) 強化学習において,時間的に拡張された行動や選択肢を自律的に学習する問題を考える。
オプションは再利用可能なビルディングブロックとして機能することで転送学習をスピードアップすることができるが、未知のタスク分散のための再利用可能なオプションの学習は依然として困難である。
近年の相互情報(MI)に基づくスキル学習の成功に触発されて、より多様な選択肢がより再利用できるという仮説を立てた。
そこで本研究では,オプションと対応する状態遷移の間のMIを最大化することにより,オプションの終了条件を学習する手法を提案する。
我々は、勾配上昇によるこのMI最大化のスケーラブルな近似を導出し、InfoMax Termination Critic (IMTC)アルゴリズムを得る。
実験により,imtcは学習オプションの多様性を,内在的オプション学習法と組み合わせることなく大幅に改善することを示した。
さらに, エージェントがオブジェクトを操作する複雑な領域において, IMTCが迅速な適応に役立つことを確認し, 様々なタスクにオプションを転送することで, 学習オプションの再利用性を検証する。 We consider the problem of autonomously learning reusable temporally extended actions, or options, in reinforcement learning. While options can speed up transfer learning by serving as reusable building blocks, learning reusable options for unknown task distribution remains challenging. Motivated by the recent success of mutual information (MI) based skill learning, we hypothesize that more diverse options are more reusable. To this end, we propose a method for learning termination conditions of options by maximizing MI between options and corresponding state transitions. We derive a scalable approximation of this MI maximization via gradient ascent, yielding the InfoMax Termination Critic (IMTC) algorithm. Our experiments demonstrate that IMTC significantly improves the diversity of learned options without extrinsic rewards combined with an intrinsic option learning method. Moreover, we test the reusability of learned options by transferring options into various tasks, confirming that IMTC helps quick adaptation, especially in complex domains where an agent needs to manipulate objects. | 翻訳日:2023-06-02 04:58:01 公開日:2023-05-31 |
# 駆動洞-ゴルドンモデルにおける多体パラメトリック共鳴 Many-body parametric resonances in the driven sine-Gordon model ( http://arxiv.org/abs/2204.07598v2 ) ライセンス: Link先を確認 | Izabella Lovas, Roberta Citro, Eugene Demler, Thierry Giamarchi, Michael Knap, Edmond Orignac | (参考訳) パラメトリック発振器の量子多体変種について,半古典的切断ウィグナー近似(twa)による変調トンネル結合を持つ駆動sine-gordonモデルについて検討した。
まず、我々のモデルギャップを保持するプロトコルのパラメトリック共振系を解析し、TWAを時間依存ガウス変分アンサッツ(TGVA)と比較する。
そして、そのギャップを閉じるドライブに目を向けると、エネルギー吸収が増大します。
この状態においてTGVAのアプローチは崩壊するが、モード分解エネルギー密度のダイナミクスと、前熱加熱状態におけるモード間の高次相関の探索にTWAを適用することができる。
弱い駆動振幅の場合、主共振モードでは指数的に高速なエネルギー吸収が見られ、残りの全てのモードの加熱は短時間でほぼ完全に抑制される。
後年、高励起主共鳴はハミルトニアンの非線形性を通じて高調波の効果的な共振駆動条件を提供し、これらの特定のモードにおいて指数関数的に高速な加熱をもたらす。
これらの共振過程によって引き起こされる強い相関を高次連結相関関数の評価により捉える。
本研究は,変調トンネル結合の存在下での並列1次元準凝縮を伴う超低温原子構成で実験的に検証できる。 We study a quantum many-body variant of the parametric oscillator, by investigating the driven sine-Gordon model with a modulated tunnel coupling via a semi-classical Truncated Wigner Approximation (TWA). We first analyze the parametric resonant regime for driving protocols that retain our model gapped, and compare the TWA to a Time-Dependent Gaussian Variational Ansatz (TGVA). We then turn to a drive which closes the gap, resulting in an enhanced energy absorption. While the TGVA approach breaks down in this regime, we can apply TWA to explore the dynamics of the mode-resolved energy density, and the higher-order correlations between modes in the prethermal heating regime. For weak driving amplitude, we find an exponentially fast energy absorption in the main resonant mode, while the heating of all remaining modes is almost perfectly suppressed on short time scales. At later times, the highly excited main resonance provides effective resonant driving terms for its higher harmonics through the non-linearities in the Hamiltonian, and gives rise to an exponentially fast heating in these particular modes. We capture the strong correlations induced by these resonant processes by evaluating higher order connected correlation functions. Our results can be experimentally probed in ultracold atomic settings, with parallel one-dimensional quasi-condensates in the presence of a modulated tunnel coupling. | 翻訳日:2023-06-02 04:50:31 公開日:2023-05-31 |
# ニューラルネット支援型2段階聴覚装置の軽量残響制御アルゴリズム A neural network-supported two-stage algorithm for lightweight dereverberation on hearing devices ( http://arxiv.org/abs/2204.02978v2 ) ライセンス: Link先を確認 | Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning and Timo Gerkmann | (参考訳) 本稿では,2段階の軽量オンライン補聴器の聴解アルゴリズムについて述べる。
このアプローチは、マルチチャネルマルチフレームリニアフィルタとシングルチャネルシングルフレームポストフィルタを組み合わせたものである。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)が提供するパワースペクトル密度(PSD)の推定に依存している。
様々な時間範囲でデバーバレーション性能を分析する新しい指標を導出することにより、マルチチャネル線形フィルタリングステージの出力における基準に対する直接最適化が、dnnの出力に基準を置き、psd推定を最適化するよりも効率的なデバーバレーションとなることを確認した。
より具体的には、この段階の終末訓練はフィルタにアクセスできる範囲の残響を更に除去し、従って \textit{early-to-moderate} 残響率を増加させることを示す。
その結果,残差残差残響を効果的に抑制するため,残差残差残響率を増加させることで,残差残余残響率と十分に組み合わせることができることを議論し,実証する。
この2段階の手順は、最近の最先端のDNN手法と比較して、デバーベーション性能と計算要求の両方において非常に効果的であることが示されている。
さらに,提案する2段階システムは,早期反射の低減量を制御することで,異なるタイプの聴覚機器ユーザのニーズに適応することができる。 A two-stage lightweight online dereverberation algorithm for hearing devices is presented in this paper. The approach combines a multi-channel multi-frame linear filter with a single-channel single-frame post-filter. Both components rely on power spectral density (PSD) estimates provided by deep neural networks (DNNs). By deriving new metrics analyzing the dereverberation performance in various time ranges, we confirm that directly optimizing for a criterion at the output of the multi-channel linear filtering stage results in a more efficient dereverberation as compared to placing the criterion at the output of the DNN to optimize the PSD estimation. More concretely, we show that training this stage end-to-end helps further remove the reverberation in the range accessible to the filter, thus increasing the \textit{early-to-moderate} reverberation ratio. We argue and demonstrate that it can then be well combined with a post-filtering stage to efficiently suppress the residual late reverberation, thereby increasing the \textit{early-to-final} reverberation ratio. This proposed two stage procedure is shown to be both very effective in terms of dereverberation performance and computational demands, as compared to e.g. recent state-of-the-art DNN approaches. Furthermore, the proposed two-stage system can be adapted to the needs of different types of hearing-device users by controlling the amount of reduction of early reflections. | 翻訳日:2023-06-02 04:50:07 公開日:2023-05-31 |
# 教師なしマルチソース領域適応におけるバイアスと変数のバランスについて On Balancing Bias and Variance in Unsupervised Multi-Source-Free Domain Adaptation ( http://arxiv.org/abs/2202.00796v3 ) ライセンス: Link先を確認 | Maohao Shen, Yuheng Bu, Gregory Wornell | (参考訳) プライバシやストレージ、その他の制約のため、ソースモデルのコレクションのトレーニングに使用されるデータにアクセスする必要のないマシンラーニングにおいて、教師なしのドメイン適応技術がますます必要になる。
既存のマルチソースフリードメイン適応法(MSFDA)は、典型的には、ソースモデルによって生成された擬似ラベル付きデータを使用してターゲットモデルをトレーニングする。
代わりに、MSFDAの基本的限界を分析することを目的としている。
特に,得られた対象モデルの一般化誤差に基づく情報理論境界を構築し,固有バイアス分散トレードオフを示す。
次に、このトレードオフをドメインアグリゲーション、選択的擬似ラベル、ジョイント機能アライメントという3つの視点からバランスさせる方法に関する洞察を与え、新しいアルゴリズムを設計することに繋がる。
複数のデータセットの実験は、我々の理論的分析を評価し、提案アルゴリズムの最先端性能、特にOffice-HomeやDomainNetといった最も困難なデータセットについて実証する。 Due to privacy, storage, and other constraints, there is a growing need for unsupervised domain adaptation techniques in machine learning that do not require access to the data used to train a collection of source models. Existing methods for multi-source-free domain adaptation (MSFDA) typically train a target model using pseudo-labeled data produced by the source models, which focus on improving the pseudo-labeling techniques or proposing new training objectives. Instead, we aim to analyze the fundamental limits of MSFDA. In particular, we develop an information-theoretic bound on the generalization error of the resulting target model, which illustrates an inherent bias-variance trade-off. We then provide insights on how to balance this trade-off from three perspectives, including domain aggregation, selective pseudo-labeling, and joint feature alignment, which leads to the design of novel algorithms. Experiments on multiple datasets validate our theoretical analysis and demonstrate the state-of-art performance of the proposed algorithm, especially on some of the most challenging datasets, including Office-Home and DomainNet. | 翻訳日:2023-06-02 04:49:19 公開日:2023-05-31 |
# ディセプティコン:言語モデルのフェデレーション学習でトランスフォーマーがプライバシーを侵害 Decepticons: Corrupted Transformers Breach Privacy in Federated Learning for Language Models ( http://arxiv.org/abs/2201.12675v2 ) ライセンス: Link先を確認 | Liam Fowl, Jonas Geiping, Steven Reich, Yuxin Wen, Wojtek Czaja, Micah Goldblum, Tom Goldstein | (参考訳) ユーザデータを集中化せずにモデルをトレーニングするフェデレートラーニング(FL)の中心的要素は、プライバシである。
しかし、FLで使用される勾配更新はユーザー情報を漏洩させる可能性がある。
FLの最も工業的な用途はテキストアプリケーション(例えばキーストローク予測)であるが、FLプライバシーに対する攻撃のほとんど全てが単純な画像分類器に焦点を当てている。
本稿では,悪質なパラメータベクトルを配置することでプライベートなユーザテキストを明らかにし,ミニバッチや複数ユーザ,長いシーケンスでも成功する新しい攻撃を提案する。
以前のfl攻撃とは異なり、この攻撃はトランスフォーマーアーキテクチャとトークン埋め込みの両方の特徴を利用して、トークンと位置埋め込みを分離して高忠実度テキストを取得する。
この研究は、これまでプライバシー攻撃に抵抗してきたテキストのflが、これまで考えられていたよりもはるかに脆弱であることを示唆している。 A central tenet of Federated learning (FL), which trains models without centralizing user data, is privacy. However, previous work has shown that the gradient updates used in FL can leak user information. While the most industrial uses of FL are for text applications (e.g. keystroke prediction), nearly all attacks on FL privacy have focused on simple image classifiers. We propose a novel attack that reveals private user text by deploying malicious parameter vectors, and which succeeds even with mini-batches, multiple users, and long sequences. Unlike previous attacks on FL, the attack exploits characteristics of both the Transformer architecture and the token embedding, separately extracting tokens and positional embeddings to retrieve high-fidelity text. This work suggests that FL on text, which has historically been resistant to privacy attacks, is far more vulnerable than previously thought. | 翻訳日:2023-06-02 04:49:01 公開日:2023-05-31 |
# UniFormer: 視覚認識のための畳み込みと自己注意の統合 UniFormer: Unifying Convolution and Self-attention for Visual Recognition ( http://arxiv.org/abs/2201.09450v3 ) ライセンス: Link先を確認 | Kunchang Li, Yali Wang, Junhao Zhang, Peng Gao, Guanglu Song, Yu Liu, Hongsheng Li, Yu Qiao | (参考訳) 画像やビデオから識別表現を学ぶことは、大きな局所冗長性と、これらの視覚データにおける複雑なグローバル依存のため、難しい課題である。
畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)は、ここ数年で2つの主要なフレームワークとなっている。
cnnは小さな近傍での畳み込みによって局所冗長性を効率的に減らすことができるが、限定的な受容場はグローバルな依存を捉えることが困難である。
あるいは、ViTsは自己注意による長距離依存を効果的に捉えることができるが、トークン間の視覚的類似性比較は高い冗長性をもたらす。
これらの問題を解決するために,コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合できる新しいUnified TransFormer(UniFormer)を提案する。
典型的な変換ブロックとは異なり、UniFormerブロック内の関係アグリゲータは、それぞれ浅層と深層に局所的および大域的トークン親和性を備えており、冗長性と依存性の両方に対処し、効率的かつ効率的な表現学習を可能にする。
最後に、UniFormerブロックを柔軟に新しい強力なバックボーンにスタックし、分類から密集した予測まで、画像からビデオ領域まで様々な視覚タスクに適用します。
トレーニングデータなしでは、imagenet-1k分類において86.3top-1精度が得られる。
ImageNet-1Kのみの事前トレーニングでは、幅広いダウンストリームタスクで最先端のパフォーマンスを達成でき、例えば、Kinetics-400/600で82.9/84.8、Sth-Sth V1/V2ビデオ分類で60.9/71.2、COCOオブジェクト検出で53.8ボックスAPと46.4マスクAP、ADE20Kセマンティックセマンティックセグメンテーションで50.8mIoU、COCOで77.4APを推定できる。
さらに、2-4倍高いスループットを持つ効率的なUniFormerを構築します。
コードはhttps://github.com/Sense-X/UniFormer.comで入手できる。 It is a challenging task to learn discriminative representation from images and videos, due to large local redundancy and complex global dependency in these visual data. Convolution neural networks (CNNs) and vision transformers (ViTs) have been two dominant frameworks in the past few years. Though CNNs can efficiently decrease local redundancy by convolution within a small neighborhood, the limited receptive field makes it hard to capture global dependency. Alternatively, ViTs can effectively capture long-range dependency via self-attention, while blind similarity comparisons among all the tokens lead to high redundancy. To resolve these problems, we propose a novel Unified transFormer (UniFormer), which can seamlessly integrate the merits of convolution and self-attention in a concise transformer format. Different from the typical transformer blocks, the relation aggregators in our UniFormer block are equipped with local and global token affinity respectively in shallow and deep layers, allowing to tackle both redundancy and dependency for efficient and effective representation learning. Finally, we flexibly stack our UniFormer blocks into a new powerful backbone, and adopt it for various vision tasks from image to video domain, from classification to dense prediction. Without any extra training data, our UniFormer achieves 86.3 top-1 accuracy on ImageNet-1K classification. With only ImageNet-1K pre-training, it can simply achieve state-of-the-art performance in a broad range of downstream tasks, e.g., it obtains 82.9/84.8 top-1 accuracy on Kinetics-400/600, 60.9/71.2 top-1 accuracy on Sth-Sth V1/V2 video classification, 53.8 box AP and 46.4 mask AP on COCO object detection, 50.8 mIoU on ADE20K semantic segmentation, and 77.4 AP on COCO pose estimation. We further build an efficient UniFormer with 2-4x higher throughput. Code is available at https://github.com/Sense-X/UniFormer. | 翻訳日:2023-06-02 04:48:43 公開日:2023-05-31 |
# ゼロショットマシンアンラーニング Zero-Shot Machine Unlearning ( http://arxiv.org/abs/2201.05629v3 ) ライセンス: Link先を確認 | Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mohan Kankanhalli | (参考訳) 現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
機械学習(ML)アプリケーションの場合、ストレージアーカイブだけでなく、MLモデルからもデータを削除する必要がある。
MLアプリケーションに必要な規制コンプライアンスの必要性が高まっているため、機械学習は新たな研究課題になりつつある。
忘れられる権利は、すでに訓練済みのMLモデルから特定のセットまたはクラスのデータを削除する形で与えられる。
削除されたデータを捨てた後、モデルをスクラッチから再トレーニングすることを妨げる実践的考察。
既存の数少ない研究では、トレーニングデータ全体、またはトレーニングデータのサブセット、あるいはトレーニング中に格納されたメタデータを使用して、未学習のモデルの重みを更新する。
しかし、多くの場合、トレーニングプロセスやトレーニングサンプルに関するデータは、未学習の目的のためにアクセスできない。
ですから私たちは,トレーニングサンプルをゼロにすることで,アンラーニングを達成できますか?
本稿では,ゼロ・ショット・マシン・アンラーニング(ゼロ・ショット・マシン・アンラーニング)という,ゼロ・オリジナル・データ・サンプルが利用できる極端に実用的なシナリオを提案する。
次にゼロショットマシンアンラーニングのための2つの新しい解法を提案する。
(a)誤差最小化・最大化ノイズ、及び
(b)強制的な知識移転
これらの方法は、保持データに対するモデルの有効性を維持しつつ、モデルから忘れデータの情報を除去する。
ゼロショットアプローチは、モデル反転攻撃とメンバーシップ推論攻撃に対する優れた保護を提供する。
アンラーニング手法の品質を効果的に測定するために,新しい評価指標であるAnamnesis Index(AIN)を導入する。
この実験は、ベンチマークビジョンデータセット上でのディープラーニングモデルの学習を未学習にするための有望な結果を示す。
ソースコードはここで入手できる。 https://github.com/ayu987/zero-shot-unlearning Modern privacy regulations grant citizens the right to be forgotten by products, services and companies. In case of machine learning (ML) applications, this necessitates deletion of data not only from storage archives but also from ML models. Due to an increasing need for regulatory compliance required for ML applications, machine unlearning is becoming an emerging research problem. The right to be forgotten requests come in the form of removal of a certain set or class of data from the already trained ML model. Practical considerations preclude retraining of the model from scratch after discarding the deleted data. The few existing studies use either the whole training data, or a subset of training data, or some metadata stored during training to update the model weights for unlearning. However, in many cases, no data related to the training process or training samples may be accessible for the unlearning purpose. We therefore ask the question: is it possible to achieve unlearning with zero training samples? In this paper, we introduce the novel problem of zero-shot machine unlearning that caters for the extreme but practical scenario where zero original data samples are available for use. We then propose two novel solutions for zero-shot machine unlearning based on (a) error minimizing-maximizing noise and (b) gated knowledge transfer. These methods remove the information of the forget data from the model while maintaining the model efficacy on the retain data. The zero-shot approach offers good protection against the model inversion attacks and membership inference attacks. We introduce a new evaluation metric, Anamnesis Index (AIN) to effectively measure the quality of the unlearning method. The experiments show promising results for unlearning in deep learning models on benchmark vision data-sets. The source code is available here: https://github.com/ayu987/zero-shot-unlearning | 翻訳日:2023-06-02 04:48:00 公開日:2023-05-31 |
# 混合モデルによる大域的制約に拘わらず因果推論 Causal Inference Despite Limited Global Confounding via Mixture Models ( http://arxiv.org/abs/2112.11602v5 ) ライセンス: Link先を確認 | Spencer L. Gordon, Bijan Mazaheri, Yuval Rabani, Leonard J. Schulman | (参考訳) ベイジアンネットワーク(英: Bayesian Network)は、$n$の確率変数(頂点)の集合上の有向非巡回グラフ(DAG)であり、ベイジアンネットワーク分布(BND)は、グラフ上のマルコビアンである確率変数上の確率分布である。
そのようなモデルの有限 $k$-mixture は、より大きなグラフで表現され、追加の ``hidden'' (または ``latent''') 確率変数 $u$ があり、$\{1,\ldots,k\}$ と、$u$ から他のすべての頂点への有向辺がある。
このタイプのモデルは因果推論の基本であり、$u$ は観測可能なdagの因果関係を欠く複数の集団の観測不能な共起効果をモデル化する。
混合問題を解き、$U$で結合確率分布を復元することにより、伝統的に特定不可能な因果関係が特定できる。
空グラフ上のよりよく研究された ‘product' ケースへの還元を用いて、空でないDAGの混合を学習する最初のアルゴリズムを与える。 A Bayesian Network is a directed acyclic graph (DAG) on a set of $n$ random variables (the vertices); a Bayesian Network Distribution (BND) is a probability distribution on the random variables that is Markovian on the graph. A finite $k$-mixture of such models is graphically represented by a larger graph which has an additional ``hidden'' (or ``latent'') random variable $U$, ranging in $\{1,\ldots,k\}$, and a directed edge from $U$ to every other vertex. Models of this type are fundamental to causal inference, where $U$ models an unobserved confounding effect of multiple populations, obscuring the causal relationships in the observable DAG. By solving the mixture problem and recovering the joint probability distribution with $U$, traditionally unidentifiable causal relationships become identifiable. Using a reduction to the more well-studied ``product'' case on empty graphs, we give the first algorithm to learn mixtures of non-empty DAGs. | 翻訳日:2023-06-02 04:47:15 公開日:2023-05-31 |
# 高速で効果的な機械学習 Fast Yet Effective Machine Unlearning ( http://arxiv.org/abs/2111.08947v5 ) ライセンス: Link先を確認 | Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Mohan Kankanhalli | (参考訳) 機械学習(ML)モデルのトレーニング中に観測されたデータをアンラーニングすることは、MLベースのアプリケーションのプライバシとセキュリティを強化する上で重要な役割を果たす重要なタスクである。
本稿は以下の疑問を提起する。
(i) トレーニングデータ全体を見ることなく、mlモデルから1つまたは複数のクラス(es)のデータを解き放つことができるか?
(ii)大規模データセットへの高速かつスケーラブルな学習プロセスの構築と、異なるディープネットワークへの一般化は可能か?
本稿では,誤差最大化ノイズ生成と不等度に基づく重み操作を併用した新しい機械学習フレームワークを提案する。
クラスが元のモデルを使って解き放つために、エラー最大化ノイズマトリックスを学習する。
ノイズマトリックスはモデル重みを操作し、ターゲットとするデータクラスを解き放つために使用される。
ネットワーク重みの制御操作のための障害および修復手順を導入する。
不適切なステップでは、モデルに鋭いアンラーニングを誘発するために、非常に高い学習率を伴うノイズマトリックスが使用される。
その後、修理工程を使用して全体の性能を回復する。
ごくわずかな更新ステップで、モデル全体の精度を著しく保ちながら、優れた未学習を示す。
複数のクラスをアンラーニングするには、1つのクラスと同じ数の更新ステップが必要です。
提案手法は,従来の手法と比較して非常に効率的であり,マルチクラス・アンラーニングに役立ち,本来の最適化機構やネットワーク設計に制約を課さず,小型・大規模視覚タスクでも有効である。
この研究は、ディープネットワークでの学習を迅速かつ容易に実装するための重要なステップです。
ソースコード:https://github.com/vikram2000b/Fast-Machine-Unlearning Unlearning the data observed during the training of a machine learning (ML) model is an important task that can play a pivotal role in fortifying the privacy and security of ML-based applications. This paper raises the following questions: (i) can we unlearn a single or multiple class(es) of data from a ML model without looking at the full training data even once? (ii) can we make the process of unlearning fast and scalable to large datasets, and generalize it to different deep networks? We introduce a novel machine unlearning framework with error-maximizing noise generation and impair-repair based weight manipulation that offers an efficient solution to the above questions. An error-maximizing noise matrix is learned for the class to be unlearned using the original model. The noise matrix is used to manipulate the model weights to unlearn the targeted class of data. We introduce impair and repair steps for a controlled manipulation of the network weights. In the impair step, the noise matrix along with a very high learning rate is used to induce sharp unlearning in the model. Thereafter, the repair step is used to regain the overall performance. With very few update steps, we show excellent unlearning while substantially retaining the overall model accuracy. Unlearning multiple classes requires a similar number of update steps as for a single class, making our approach scalable to large problems. Our method is quite efficient in comparison to the existing methods, works for multi-class unlearning, does not put any constraints on the original optimization mechanism or network design, and works well in both small and large-scale vision tasks. This work is an important step towards fast and easy implementation of unlearning in deep networks. Source code: https://github.com/vikram2000b/Fast-Machine-Unlearning | 翻訳日:2023-06-02 04:46:53 公開日:2023-05-31 |
# FedBR:ローカルラーニングバイアス削減による異種データのフェデレーション学習の改善 FedBR: Improving Federated Learning on Heterogeneous Data via Local Learning Bias Reduction ( http://arxiv.org/abs/2205.13462v4 ) ライセンス: Link先を確認 | Yongxin Guo, Xiaoying Tang, Tao Lin | (参考訳) Federated Learning(FL)は、マシンがローカルに保存されたデータから学習し、クライアントのプライバシを保護する方法である。
これは通常、通信効率の向上に役立つローカルSGDを使用して行われる。
しかし、このスキームは現在、異なるクライアントデバイス上の様々なデータのために、遅く不安定な収束によって制約されている。
本研究では,教師付きflにおける局所更新に伴う課題を説明するバイアス付き局所学習の未熟な3つの現象を明らかにする。
そこで我々は,これらの課題に取り組むために,特徴や分類器の局所学習バイアスを低減する新しい統一アルゴリズムfeedbrを提案する。
FedBRには2つのコンポーネントがある。
最初のコンポーネントは、モデルの出力のバランスをとることで、局所分類器のバイアスを低減するのに役立つ。
第2のコンポーネントは、グローバル機能に似たローカル機能を学ぶのに役立つが、他のデータソースから学んだものとは異なる。
実験の結果,他のSOTA FL法よりも優れた結果が得られた。
両方のコンポーネントは個別にパフォーマンスも向上している。
私たちのコードはhttps://github.com/lins-lab/fedbr.comで利用可能です。 Federated Learning (FL) is a way for machines to learn from data that is kept locally, in order to protect the privacy of clients. This is typically done using local SGD, which helps to improve communication efficiency. However, such a scheme is currently constrained by slow and unstable convergence due to the variety of data on different clients' devices. In this work, we identify three under-explored phenomena of biased local learning that may explain these challenges caused by local updates in supervised FL. As a remedy, we propose FedBR, a novel unified algorithm that reduces the local learning bias on features and classifiers to tackle these challenges. FedBR has two components. The first component helps to reduce bias in local classifiers by balancing the output of the models. The second component helps to learn local features that are similar to global features, but different from those learned from other data sources. We conducted several experiments to test \algopt and found that it consistently outperforms other SOTA FL methods. Both of its components also individually show performance gains. Our code is available at https://github.com/lins-lab/fedbr. | 翻訳日:2023-06-02 04:40:59 公開日:2023-05-31 |
# 悪い教えは忘れを誘うか?
無能な教師を用いた深層ネットワークの非学習 Can Bad Teaching Induce Forgetting? Unlearning in Deep Networks using an Incompetent Teacher ( http://arxiv.org/abs/2205.08096v2 ) ライセンス: Link先を確認 | Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mohan Kankanhalli | (参考訳) 機械学習(ML)アプリケーションが新たなデータプライバシ規制に準拠する必要性が高まっているため、機械学習は研究の重要領域となっている。
これにより、スクラッチから再トレーニングする必要がなく、すでにトレーニング済みのMLモデルから特定のセットやクラスのデータを削除できる。
近年,アンラーニングを効果的かつ効率的にするために,いくつかの取り組みが行われている。
そこで本研究では,学習者や教師の指導力の欠如を意識した学習手法を提案する。
有能で無能な教師からの知識は、生徒に選択的に伝達され、忘れられたデータに関する情報を一切含まないモデルを得る。
本手法は高速かつ効果的に一般化できることを実験的に示す。
さらに,無学習法を評価するために,ゼロ・リトレイン・フォーティング(zrf)メトリックを導入する。
既存の未学習のメトリクスとは異なり、ZRFスコアは高価な再学習モデルの可用性に依存しない。
これにより、デプロイ後の未学習モデルの分析にも役立ちます。
本稿では,様々な深層ネットワークおよび異なるアプリケーションドメイン上で,無作為部分集合の欠落とクラス欠落に関する実験結果を示す。
https://github.com/vikram2000b/bad-teaching-unlearning Machine unlearning has become an important area of research due to an increasing need for machine learning (ML) applications to comply with the emerging data privacy regulations. It facilitates the provision for removal of certain set or class of data from an already trained ML model without requiring retraining from scratch. Recently, several efforts have been put in to make unlearning to be effective and efficient. We propose a novel machine unlearning method by exploring the utility of competent and incompetent teachers in a student-teacher framework to induce forgetfulness. The knowledge from the competent and incompetent teachers is selectively transferred to the student to obtain a model that doesn't contain any information about the forget data. We experimentally show that this method generalizes well, is fast and effective. Furthermore, we introduce the zero retrain forgetting (ZRF) metric to evaluate any unlearning method. Unlike the existing unlearning metrics, the ZRF score does not depend on the availability of the expensive retrained model. This makes it useful for analysis of the unlearned model after deployment as well. We present results of experiments conducted for random subset forgetting and class forgetting on various deep networks and across different application domains.~Source code is at: https://github.com/vikram2000b/bad-teaching-unlearning | 翻訳日:2023-06-02 04:40:41 公開日:2023-05-31 |
# RoMFAC: 国家に対する敵対的摂動に対する強靭な平均場-批評家強化学習 RoMFAC: A robust mean-field actor-critic reinforcement learning against adversarial perturbations on states ( http://arxiv.org/abs/2205.07229v2 ) ライセンス: Link先を確認 | Ziyuan Zhou and Guanjun Liu | (参考訳) マルチエージェント深層強化学習は、エージェントが観察するシステム状態に依存する最適決定を下すが、観測上の不確実性はエージェントを誤った行動に導くように誤解させる可能性がある。
MFAC(Mean-Field Actor-Critic reinforcement learning)は,拡張性の問題に効果的に対処できるため,マルチエージェント分野ではよく知られている。
しかし、チームの報酬を著しく下げることのできる状態の混乱に敏感です。
本研究は,2つのイノベーションを持つRoMFAC(Roust Mean-field Actor-Critic reinforcement learning)を提案する。
1)サンプリングされたクリーン状態の累積割引報酬に関連する「emph{policy gradient function」と、クリーン状態と敵対状態の行動の差を表す「emph{action loss function」とからなる、トレーニングアクターの新たな客観的機能。
2) 行為損失の反復的な正規化により、訓練されたアクターが優れたパフォーマンスを得ることができる。
さらに,本稿では,SASG(State-Adversarial Stochastic Game)というゲームモデルを提案する。
SASGのナッシュ平衡は存在しないかもしれないが、RoMFACの状態に対する逆の摂動はSASGに基づいて防御可能であることが証明されている。
実験結果から,RoMFACは対向的摂動に対して頑健であり,摂動のない環境下での競争性能を維持していることがわかった。 Multi-agent deep reinforcement learning makes optimal decisions dependent on system states observed by agents, but any uncertainty on the observations may mislead agents to take wrong actions. The Mean-Field Actor-Critic reinforcement learning (MFAC) is well-known in the multi-agent field since it can effectively handle a scalability problem. However, it is sensitive to state perturbations that can significantly degrade the team rewards. This work proposes a Robust Mean-field Actor-Critic reinforcement learning (RoMFAC) that has two innovations: 1) a new objective function of training actors, composed of a \emph{policy gradient function} that is related to the expected cumulative discount reward on sampled clean states and an \emph{action loss function} that represents the difference between actions taken on clean and adversarial states; and 2) a repetitive regularization of the action loss, ensuring the trained actors to obtain excellent performance. Furthermore, this work proposes a game model named a State-Adversarial Stochastic Game (SASG). Despite the Nash equilibrium of SASG may not exist, adversarial perturbations to states in the RoMFAC are proven to be defensible based on SASG. Experimental results show that RoMFAC is robust against adversarial perturbations while maintaining its competitive performance in environments without perturbations. | 翻訳日:2023-06-02 04:40:13 公開日:2023-05-31 |
# 生体・神経モデルにおける超高速画像分類 Ultrafast Image Categorization in Biology and Neural Models ( http://arxiv.org/abs/2205.03635v4 ) ライセンス: Link先を確認 | Jean-Nicolas J\'er\'emie, Laurent U Perrinet | (参考訳) 人間は画像を非常に効率的に分類することができ、特に動物の存在を素早く検出することができる。
近年、畳み込みニューラルネットワーク(cnns)に基づくディープラーニングアルゴリズムは、幅広い視覚分類タスクにおいて、人間よりも高い精度を達成している。
しかしながら、これらの人工ネットワークを訓練し、評価するタスクは高度に特殊化され、画像回転後の精度低下など、うまく一般化しない傾向にある。
この点において、生体視覚システムは動物を認識するなどのより一般的なタスクのために人工的なシステムよりも柔軟で効率的である。
生物と人工ニューラルネットの比較をさらに進めるために,動物や人工物の存在を検知する2つの独立したタスクについて,標準のvgg 16 cnnを再訓練した。
ネットワークの再トレーニングは、心理物理学的なタスクで報告されたのに匹敵する、人間ライクなパフォーマンスを達成している。
さらに,モデルの出力を組み合わせれば,分類が優れていることを示す。
実際、動物(例:ライオン)は、人工物(例:建物)を含む写真にはほとんど存在しない傾向にある。
さらに、これらの再訓練されたモデルは、ロバスト性から回転(例えば逆さまや傾いた画像)、グレースケール変換など、人間の精神物理学から予期せぬ行動観察を再現することができた。
最後に,このような性能を達成するのに必要なcnn層数を定量化し,超高速画像分類の精度をほんの数層で達成できることを示し,画像認識には視覚オブジェクトの深いシーケンシャル解析が必要であるという信念に異議を唱えた。 Humans are able to categorize images very efficiently, in particular to detect the presence of an animal very quickly. Recently, deep learning algorithms based on convolutional neural networks (CNNs) have achieved higher than human accuracy for a wide range of visual categorization tasks. However, the tasks on which these artificial networks are typically trained and evaluated tend to be highly specialized and do not generalize well, e.g., accuracy drops after image rotation. In this respect, biological visual systems are more flexible and efficient than artificial systems for more general tasks, such as recognizing an animal. To further the comparison between biological and artificial neural networks, we re-trained the standard VGG 16 CNN on two independent tasks that are ecologically relevant to humans: detecting the presence of an animal or an artifact. We show that re-training the network achieves a human-like level of performance, comparable to that reported in psychophysical tasks. In addition, we show that the categorization is better when the outputs of the models are combined. Indeed, animals (e.g., lions) tend to be less present in photographs that contain artifacts (e.g., buildings). Furthermore, these re-trained models were able to reproduce some unexpected behavioral observations from human psychophysics, such as robustness to rotation (e.g., an upside-down or tilted image) or to a grayscale transformation. Finally, we quantified the number of CNN layers required to achieve such performance and showed that good accuracy for ultrafast image categorization can be achieved with only a few layers, challenging the belief that image recognition requires deep sequential analysis of visual objects. | 翻訳日:2023-06-02 04:39:51 公開日:2023-05-31 |
# ラグランジアン緩和法(AL-PINN)による物理インフォームニューラルネットワークの強化 Enhanced Physics-Informed Neural Networks with Augmented Lagrangian Relaxation Method (AL-PINNs) ( http://arxiv.org/abs/2205.01059v2 ) ライセンス: Link先を確認 | Hwijae Son, Sung Woong Cho, Hyung Ju Hwang | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、非線形偏微分方程式(PDE)の解の強力な近似器であるため、科学計算におけるディープラーニングの顕著な応用となっている。
適応的損失分散アルゴリズム(Adaptive loss-balancing algorithm)と呼ばれる,損失関数の各成分の重みを調整することで,PINNのトレーニングプロセスを促進する試みが数多く行われている。
本稿では,PNN(AL-PINN)のための拡張ラグランジアン緩和法を提案する。
PDE残差の最適化問題に対する制約として,初期条件と境界条件を扱う。
拡張ラグランジュ緩和を用いることで、制約付き最適化問題は逐次最大化問題となり、学習可能なパラメータ$\lambda$は各損失成分を適応的にバランスする。
我々の理論的解析は、提案された損失関数の最小化の列がヘルムホルツ、粘性バーガーズ、クライン=ゴードン方程式の実際の解に収束することを明らかにする。
数値実験により,alピンは最先端の適応的損失分散アルゴリズムに比べ,相対誤差がはるかに小さいことを実証した。 Physics-Informed Neural Networks (PINNs) have become a prominent application of deep learning in scientific computation, as they are powerful approximators of solutions to nonlinear partial differential equations (PDEs). There have been numerous attempts to facilitate the training process of PINNs by adjusting the weight of each component of the loss function, called adaptive loss-balancing algorithms. In this paper, we propose an Augmented Lagrangian relaxation method for PINNs (AL-PINNs). We treat the initial and boundary conditions as constraints for the optimization problem of the PDE residual. By employing Augmented Lagrangian relaxation, the constrained optimization problem becomes a sequential max-min problem so that the learnable parameters $\lambda$ adaptively balance each loss component. Our theoretical analysis reveals that the sequence of minimizers of the proposed loss functions converges to an actual solution for the Helmholtz, viscous Burgers, and Klein--Gordon equations. We demonstrate through various numerical experiments that AL-PINNs yield a much smaller relative error compared with that of state-of-the-art adaptive loss-balancing algorithms. | 翻訳日:2023-06-02 04:39:24 公開日:2023-05-31 |
# 動的フレームとしてのエッジモード:一般共変理論におけるポストセレクションからの電荷 Edge modes as dynamical frames: charges from post-selection in generally covariant theories ( http://arxiv.org/abs/2205.00913v2 ) ライセンス: Link先を確認 | Sylvain Carrozza, Stefan Eccles, Philipp A. Hoehn | (参考訳) 重力エッジモードを動的参照フレームとして識別する共変位相空間形式に基づく枠組みを開発した。
これにより、関連する時空領域の同定と、ゲージ不変な方法で境界条件の付与が可能になる。
最近の提案では孤立した有限領域を考慮し、その観点に適合する極大対称性代数を求めたが、これは大域時空に埋め込まれた部分領域とみなし、そのような埋め込みと整合した対称性を研究する。
これは、フレームが部分領域の"new"として現れるが、補空間のフィールド内容から構築されていることを示している。
グローバルな変動原理が与えられれば、ゲージ理論 [arXiv:2109.06184] で以前使われていた体系的なポストセレクション手順を実行して、時間的境界を持つ部分領域に対して一貫したダイナミクスを生成することもできる。
部分領域の漸近構造がダイナミクスによって保存される必要があるため、本質的に一意な処方とあいまいなハミルトニアン電荷が生じる。
他の提案とは異なり、これは部分領域に作用するすべての時空微分同相写像がゲージと可積分であり、従って第一級の制約代数を生成するという利点を持つ。
対照的に、フレーム化された時空に作用する微分同相は物理的であり、境界に平行なものは可積分である。
境界条件を保存するものへのさらなる制限は、保存された電荷の代数をもたらす。
これらの記録は、フレーム再配向によって測定された領域とその相補関係における変化である。
最後に,境界条件と漸近構造を境界作用にエンコードする方法を説明する。
我々の形式主義は一般に共変理論にも当てはまるが、一般相対性理論について説明し、我々の発見と初期の研究との詳細な比較で結論付ける。
abridged (複数形 abridgeds) We develop a framework based on the covariant phase space formalism that identifies gravitational edge modes as dynamical reference frames. They enable the identification of the associated spacetime region and the imposition of boundary conditions in a gauge-invariant manner. While recent proposals considered the finite region in isolation and sought the maximal symmetry algebra compatible with that perspective, we regard it as a subregion embedded in a global spacetime and study the symmetries consistent with such an embedding. This clarifies that the frame, although appearing as "new" for the subregion, is built out of the field content of the complement. Given a global variational principle, this also permits us to invoke a systematic post-selection procedure, previously used in gauge theory [arXiv:2109.06184], to produce consistent dynamics for a subregion with timelike boundary. Requiring the subregion presymplectic structure to be conserved by the dynamics leads to an essentially unique prescription and unambiguous Hamiltonian charges. Unlike other proposals, this has the advantage that all spacetime diffeomorphisms acting on the subregion remain gauge and integrable, thus generating a first-class constraint algebra. By contrast, diffeomorphisms acting on the frame-dressed spacetime are physical, and those that are parallel to the boundary are integrable. Further restricting to ones preserving the boundary conditions yields an algebra of conserved charges. These record changes in the relation between the region and its complement as measured by frame reorientations. Finally, we explain how the boundary conditions and presymplectic structure can be encoded into boundary actions. While our formalism applies to any generally covariant theory, we illustrate it on general relativity, and conclude with a detailed comparison of our findings to earlier works. [abridged] | 翻訳日:2023-06-02 04:39:07 公開日:2023-05-31 |
# 勾配ブースト決定木の適応と影響推定法の評価 Adapting and Evaluating Influence-Estimation Methods for Gradient-Boosted Decision Trees ( http://arxiv.org/abs/2205.00359v3 ) ライセンス: Link先を確認 | Jonathan Brophy, Zayd Hammoudeh, and Daniel Lowd | (参考訳) この分析は、これらの予測、これらの予測を行うモデル、トレーニングされているデータセットをよりよく理解するのに役立ちます。
しかしながら、ほとんどの影響推定手法は連続的なパラメータを持つディープラーニングモデル向けに設計されている。
グラデーションブースト決定木(gbdts)は強力で広く使われているモデルであるが、これらのモデルは不透明な意思決定プロセスを持つブラックボックスである。
GBDTの予測をよりよく理解し、これらのモデルを全般的に改善するために、ディープラーニングモデル用に設計された近年、人気のある影響推定手法をGBDTに適用する。
具体的には、representer-pointメソッドとtracinをそれぞれ適用し、新しいメソッドであるtrexとboostinを示します。ソースコードはhttps://github.com/jjbrophy47/tree_influenceで利用可能です。
提案手法をリーフインフルエンスや他のベースラインと比較し,4つのGBDT実装を持つ22の実世界のデータセットに対する5つの異なる評価尺度を用いた。
これらの実験により、GBDTモデルにおける様々なアプローチがどのように影響するかを概観する。
BoostIn は GBDT の効率的な影響推定手法であり,既存の作業よりも 4 桁高速に動作可能である。
また,LOO(Left-one-out)再トレーニングのゴールドスタンダードアプローチは,最も影響力のあるトレーニング例を一貫して識別するが,与えられた目標予測に対して最も影響力のあるトレーニング例を見つけるには不十分であることを示す。 Influence estimation analyzes how changes to the training data can lead to different model predictions; this analysis can help us better understand these predictions, the models making those predictions, and the data sets they're trained on. However, most influence-estimation techniques are designed for deep learning models with continuous parameters. Gradient-boosted decision trees (GBDTs) are a powerful and widely-used class of models; however, these models are black boxes with opaque decision-making processes. In the pursuit of better understanding GBDT predictions and generally improving these models, we adapt recent and popular influence-estimation methods designed for deep learning models to GBDTs. Specifically, we adapt representer-point methods and TracIn, denoting our new methods TREX and BoostIn, respectively; source code is available at https://github.com/jjbrophy47/tree_influence. We compare these methods to LeafInfluence and other baselines using 5 different evaluation measures on 22 real-world data sets with 4 popular GBDT implementations. These experiments give us a comprehensive overview of how different approaches to influence estimation work in GBDT models. We find BoostIn is an efficient influence-estimation method for GBDTs that performs equally well or better than existing work while being four orders of magnitude faster. Our evaluation also suggests the gold-standard approach of leave-one-out (LOO) retraining consistently identifies the single-most influential training example but performs poorly at finding the most influential set of training examples for a given target prediction. | 翻訳日:2023-06-02 04:38:34 公開日:2023-05-31 |
# 単一コストでのDMRG基底状態探索のための制御結合拡大 Controlled bond expansion for DMRG ground state search at single-site costs ( http://arxiv.org/abs/2207.14712v2 ) ライセンス: Link先を確認 | Andreas Gleis, Jheng-Wei Li, Jan von Delft | (参考訳) 対称性を利用したdmrg基底状態探索アルゴリズムは、エネルギーが低ければ対称性セクタの追加や変更によって仮想結合空間を拡大することができる。
従来のシングルサイトDMRGは結合拡大を許さないが、2サイトDMRGは高い計算コストで行う。
単一コストで2サイト毎の精度と収束性が得られる制御結合拡張(CBE)アルゴリズムを提案する。
行列積状態 $\Psi$ が変動空間を定義すると、CBE は H\Psi$ のかなりの重みを持つ直交空間の一部を特定し、これらのみを含む結合を拡張する。
CBE-DMRGは混合パラメータを使用しず、完全に変動する。
CBE-DMRGを用いて,幅4シリンダー上の近藤・ハイゼンベルクモデルがフェルミ表面体積に異なる2つの相を特徴付けることを示す。 DMRG ground state search algorithms employing symmetries must be able to expand virtual bond spaces by adding or changing symmetry sectors if these lower the energy. Traditional single-site DMRG does not allow bond expansion; two-site DMRG does, but at much higher computational costs. We present a controlled bond expansion (CBE) algorithm that yields two-site accuracy and convergence per sweep, at single-site costs. Given a matrix product state $\Psi$ defining a variational space, CBE identifies parts of the orthogonal space carrying significant weight in $H\Psi$ and expands bonds to include only these. CBE-DMRG uses no mixing parameters and is fully variational. Using CBE-DMRG, we show that the Kondo-Heisenberg model on a width 4 cylinder features two distinct phases differing in their Fermi surface volumes. | 翻訳日:2023-06-02 04:30:03 公開日:2023-05-31 |
# 行列積状態の保留および廃棄空間に対する射影形式 Projector formalism for kept and discarded spaces of matrix product states ( http://arxiv.org/abs/2207.13161v2 ) ライセンス: Link先を確認 | Andreas Gleis, Jheng-Wei Li, Jan von Delft | (参考訳) 任意の行列積 $|\Psi\rangle$ は、それぞれ $|\Psi\rangle$ の記述に必要な、関連付けられた保存空間と破棄された空間の集合を持つ。
これらはシステムの全ヒルベルト空間を ||\psi\rangle$ の既約な $n$-site 変動の相互直交空間に分割する。
ここでは、これらの$n$-site空間を明示的に特徴付けるための便利なプロジェクタ形式と図式表記法を紹介する。
これにより、明示的にあるいは暗黙的に捨てられた空間を使用するMPSアルゴリズムの定式化が大幅に促進される。
例示として、n$-siteエネルギー分散の明示的な表現を導出し、長距離ホッピングモデルに対して数値的に評価する。
また, 有限MPS基底状態よりも低い$n$サイトの励起を効率よく計算するアルゴリズムについても述べる。 Any matrix product state $|\Psi\rangle$ has a set of associated kept and discarded spaces, needed for the description of $|\Psi\rangle$, and changes thereof, respectively. These induce a partition of the full Hilbert space of the system into mutually orthogonal spaces of irreducible $n$-site variations of $|\Psi\rangle$. Here, we introduce a convenient projector formalism and diagrammatic notation to characterize these $n$-site spaces explicitly. This greatly facilitates the formulation of MPS algorithms that explicitly or implicitly employ discarded spaces. As an illustration, we derive an explicit expression for the $n$-site energy variance and evaluate it numerically for a model with long-range hopping. We also describe an efficient algorithm for computing low-lying $n$-site excitations above a finite MPS ground state. | 翻訳日:2023-06-02 04:29:08 公開日:2023-05-31 |
# 多変量長系列予測のための一般化メモリ駆動変圧器 Generalizable Memory-driven Transformer for Multivariate Long Sequence Time-series Forecasting ( http://arxiv.org/abs/2207.07827v3 ) ライセンス: Link先を確認 | Xiaoyun Zhao, Rui Liu, Mingjie Li, Guangsi Shi, Mingfei Han, Changlin Li, Ling Chen, and Xiaojun Chang | (参考訳) 多変量長周期時系列予測(M-LSTF)は実用的だが難しい問題である。
従来のタイマーシリーズ予測タスクとは異なり、M-LSTFタスクは2つの側面からより難しい。
1)M-LSTFモデルは、複数の時間的特徴の中と間の両方で時系列パターンを学習する必要がある。
2) 転がり予測条件下では, 2つの連続トレーニングサンプル間の類似度は, 予測長の増大とともに増大し, モデルが過度に適合しやすくなった。
本稿では,M-LSTF問題を対象とした一般化可能なメモリ駆動トランスを提案する。
具体的には、まず、複数の時系列機能を統合して予測手順を進めるグローバルレベルメモリコンポーネントを提案する。
さらに、一般化性を高めるためにモデルをトレーニングするために進歩的な手法を採用し、徐々にBernoulliノイズをトレーニングサンプルに導入する。
複数のフィールドにまたがる5つの異なるデータセットで広範な実験が行われた。
実験の結果,本手法はトランスフォーマーモデルにシームレスに接続でき,最大30%の性能向上が期待できることがわかった。
特に、私たちの知識を最大限に活用するために、M-LSTFタスクに特に焦点を合わせるのは、これが初めてです。 Multivariate long sequence time-series forecasting (M-LSTF) is a practical but challenging problem. Unlike traditional timer-series forecasting tasks, M-LSTF tasks are more challenging from two aspects: 1) M-LSTF models need to learn time-series patterns both within and between multiple time features; 2) Under the rolling forecasting setting, the similarity between two consecutive training samples increases with the increasing prediction length, which makes models more prone to overfitting. In this paper, we propose a generalizable memory-driven Transformer to target M-LSTF problems. Specifically, we first propose a global-level memory component to drive the forecasting procedure by integrating multiple time-series features. In addition, we adopt a progressive fashion to train our model to increase its generalizability, in which we gradually introduce Bernoulli noises to training samples. Extensive experiments have been performed on five different datasets across multiple fields. Experimental results demonstrate that our approach can be seamlessly plugged into varying Transformer-based models to improve their performances up to roughly 30%. Particularly, this is the first work to specifically focus on the M-LSTF tasks to the best of our knowledge. | 翻訳日:2023-06-02 04:28:53 公開日:2023-05-31 |
# 量子速度制限による断熱量子アルゴリズムの下位境界 Lower bounds for adiabatic quantum algorithms by quantum speed limit ( http://arxiv.org/abs/2207.01604v3 ) ライセンス: Link先を確認 | Jyong-Hao Chen | (参考訳) 本稿では,広範囲の断熱量子アルゴリズムのランタイム上での下位境界を推定するための簡単なフレームワークを提案する。
中心公式は、初期状態に関する最終ハミルトン多様体の分散を計算することで構成される。
特定のキーストーン回路に基づく量子アルゴリズムの断熱バージョンを調べた後、この手法を未決定の高速化を伴う断熱量子アルゴリズムに適用する。
特に,確率グラフにおけるk-クリケを見つけるための断熱アルゴリズムの下限を解析的に求める。
さらに、ハミルトニアンの特定のクラスに対して、我々のフレームワークとスペクトルギャップ分析に基づく従来のアプローチとの等価性を証明することは容易である。 We introduce a simple framework for estimating lower bounds on the runtime of a broad class of adiabatic quantum algorithms. The central formula consists of calculating the variance of the final Hamiltonian with respect to the initial state. After examining adiabatic versions of certain keystone circuit-based quantum algorithms, this technique is applied to adiabatic quantum algorithms with undetermined speedup. In particular, we analytically obtain lower bounds on adiabatic algorithms for finding k-clique in random graphs. Additionally, for a particular class of Hamiltonian, it is straightforward to prove the equivalence between our framework and the conventional approach based on spectral gap analysis. | 翻訳日:2023-06-02 04:28:33 公開日:2023-05-31 |
# 手術用コンピュータビジョンのための自己監督型学習方法の分別 Dissecting Self-Supervised Learning Methods for Surgical Computer Vision ( http://arxiv.org/abs/2207.00449v3 ) ライセンス: Link先を確認 | Sanat Ramesh, Vinkle Srivastav, Deepak Alapatt, Tong Yu, Aditya Murali, Luca Sestini, Chinedu Innocent Nwoye, Idris Hamoud, Saurav Sharma, Antoine Fleurentin, Georgios Exarchakis, Alexandros Karargyris, Nicolas Padoy | (参考訳) 手術用コンピュータビジョンの分野は近年、ディープニューラルネットワークベースの手法が普及し、かなりのブレークスルーを迎えている。
しかし、そのようなモデルを訓練するための標準的な完全教師付きアプローチは、膨大な量の注釈付きデータを必要とし、特に臨床領域において非常に高いコストを課す。
一般のコンピュータビジョンコミュニティで注目を集め始めている自己監視学習(SSL)メソッドは、これらのアノテーションコストに対する潜在的な解決策であり、ラベルのないデータのみから有用な表現を学習することができる。
それでも、医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は限定的かつ未調査のままである。
本研究は,4つの最先端SSL手法 (MoCo v2, SimCLR, DINO, SwAV) を外科的コンピュータビジョンの文脈で検討することによって,この問題に対処する。
本稿では, 外科的文脈理解, 位相認識, ツールの存在検出におけるcholec80データセットにおけるこれらの手法の性能を広範囲に分析する。
半教師付き環境でのデータ量に関するパラメータ化を行い,その振る舞いについて検討する。
この研究で述べられたように、これらの方法の手術への正しい転送は、SSLの一般的な使用よりも、最大で7.4%の位相認識と20%のツール存在検出、そして最先端の半教師付き位相認識アプローチを最大で14%向上させる。
より多種多様な外科的データセットから得られた結果は、強力な一般化特性を示す。
コードはhttps://github.com/camma-public/selfsupsurgで入手できる。 The field of surgical computer vision has undergone considerable breakthroughs in recent years with the rising popularity of deep neural network-based methods. However, standard fully-supervised approaches for training such models require vast amounts of annotated data, imposing a prohibitively high cost; especially in the clinical domain. Self-Supervised Learning (SSL) methods, which have begun to gain traction in the general computer vision community, represent a potential solution to these annotation costs, allowing to learn useful representations from only unlabeled data. Still, the effectiveness of SSL methods in more complex and impactful domains, such as medicine and surgery, remains limited and unexplored. In this work, we address this critical need by investigating four state-of-the-art SSL methods (MoCo v2, SimCLR, DINO, SwAV) in the context of surgical computer vision. We present an extensive analysis of the performance of these methods on the Cholec80 dataset for two fundamental and popular tasks in surgical context understanding, phase recognition and tool presence detection. We examine their parameterization, then their behavior with respect to training data quantities in semi-supervised settings. Correct transfer of these methods to surgery, as described and conducted in this work, leads to substantial performance gains over generic uses of SSL - up to 7.4% on phase recognition and 20% on tool presence detection - as well as state-of-the-art semi-supervised phase recognition approaches by up to 14%. Further results obtained on a highly diverse selection of surgical datasets exhibit strong generalization properties. The code is available at https://github.com/CAMMA-public/SelfSupSurg. | 翻訳日:2023-06-02 04:28:22 公開日:2023-05-31 |
# 分岐境界による正逆ロバスト性検証のためのIPB正規化 IBP Regularization for Verified Adversarial Robustness via Branch-and-Bound ( http://arxiv.org/abs/2206.14772v2 ) ライセンス: Link先を確認 | Alessandro De Palma, Rudy Bunel, Krishnamurthy Dvijotham, M. Pawan Kumar, Robert Stanforth | (参考訳) 最近の研究は、元の摂動よりも大きいドメインに対する攻撃を実行し、目的に様々な正規化条件を加えることで、敵の訓練されたネットワークの検証可能性を高めようとしている。
しかし、これらのアルゴリズムは性能が劣るか、複雑で高価な段階的な訓練手順を必要とするかのいずれかであり、実際の適用性を妨げている。
IBP-Rは、単純かつ効果的に検証された新しいトレーニングアルゴリズムである。
IBP-Rは、非凸検証問題と近似とのギャップを最小限に抑えるために、低間隔境界伝播に基づく正規化項で拡張されたドメインに対する敵攻撃を結合することにより、ネットワークの妥当性を誘導する。
近年のブランチ・アンド・バウンド・フレームワークを活用することで,ICP-RはCIFAR-10上での小さな摂動に対して,従来よりもはるかに高速なトレーニングを行いながら,最先端のロバスト性-精度トレードオフが得られることを示す。
さらに、$\beta$-crownに基づく単純なヒューリスティックに依存する、新しい分岐戦略であるupbを提案する。 Recent works have tried to increase the verifiability of adversarially trained networks by running the attacks over domains larger than the original perturbations and adding various regularization terms to the objective. However, these algorithms either underperform or require complex and expensive stage-wise training procedures, hindering their practical applicability. We present IBP-R, a novel verified training algorithm that is both simple and effective. IBP-R induces network verifiability by coupling adversarial attacks on enlarged domains with a regularization term, based on inexpensive interval bound propagation, that minimizes the gap between the non-convex verification problem and its approximations. By leveraging recent branch-and-bound frameworks, we show that IBP-R obtains state-of-the-art verified robustness-accuracy trade-offs for small perturbations on CIFAR-10 while training significantly faster than relevant previous work. Additionally, we present UPB, a novel branching strategy that, relying on a simple heuristic based on $\beta$-CROWN, reduces the cost of state-of-the-art branching algorithms while yielding splits of comparable quality. | 翻訳日:2023-06-02 04:27:56 公開日:2023-05-31 |
# デュアル露光センサを用いた高ダイナミックレンジシーケンスの映像フレーム補間 Video frame interpolation for high dynamic range sequences captured with dual-exposure sensors ( http://arxiv.org/abs/2206.09485v3 ) ライセンス: Link先を確認 | U\u{g}ur \c{C}o\u{g}alan, Mojtaba Bemana, Hans-Peter Seidel, Karol Myszkowski | (参考訳) ビデオフレーム補間(VFI)は、スローモーション再生のような時間領域やストップモーションシーケンスのような空間領域を含む多くの重要なアプリケーションを可能にする。
我々は,高ダイナミックレンジ(HDR)シーンを複雑な動作で処理する上で重要な課題の1つとして,前者の課題に焦点を当てている。
この目的のために,空間的に登録され,終端が時間的に整列する鋭く短くぼやけた長時間露光を容易に提供できるデュアル露光センサの利点を探究する。
これにより、動きのぼやけはシーンの動きの時間的連続情報を登録し、シャープな参照と組み合わせることで、1つのカメラショット内でより正確な動きサンプリングが可能になる。
本稿では,VFIタスクにおけるより複雑な動き再構成とHDRフレーム再構成が,これまでは補間フレームではなく,最初に捕捉されたフレームに対してのみ考慮されてきたことを実証する。
私たちはこれらのタスクで訓練されたニューラルネットワークを設計します。
また,テスト時間におけるVFI手法の性能に関する重要な洞察を提供する,シーン動作の複雑さの指標も提案する。 Video frame interpolation (VFI) enables many important applications that might involve the temporal domain, such as slow motion playback, or the spatial domain, such as stop motion sequences. We are focusing on the former task, where one of the key challenges is handling high dynamic range (HDR) scenes in the presence of complex motion. To this end, we explore possible advantages of dual-exposure sensors that readily provide sharp short and blurry long exposures that are spatially registered and whose ends are temporally aligned. This way, motion blur registers temporally continuous information on the scene motion that, combined with the sharp reference, enables more precise motion sampling within a single camera shot. We demonstrate that this facilitates a more complex motion reconstruction in the VFI task, as well as HDR frame reconstruction that so far has been considered only for the originally captured frames, not in-between interpolated frames. We design a neural network trained in these tasks that clearly outperforms existing solutions. We also propose a metric for scene motion complexity that provides important insights into the performance of VFI methods at the test time. | 翻訳日:2023-06-02 04:27:36 公開日:2023-05-31 |
# 『特別作戦』:ロシア・ウクライナ戦争における異なるメディア生態系の展開と比較のための定量的アプローチ "A Special Operation": A Quantitative Approach to Dissecting and Comparing Different Media Ecosystems' Coverage of the Russo-Ukrainian War ( http://arxiv.org/abs/2210.03016v4 ) ライセンス: Link先を確認 | Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric | (参考訳) ロシアによるウクライナ侵攻の報道は、プロパガンダ、偽情報、物語のスピンが3つすべてに存在する西欧、ロシア、中国メディアのエコシステムの間で広範囲に及んでいる。
これら3つのニュースエコシステム間のカバー範囲の差異を定量的に解析し,正規化されたポイントワイズ相互情報指標,差分感情分析,word2vecモデル,部分ラベル付きディリクレ割当モデルを用いて分析した。
欧米の報道機関は戦争における軍事的・人道的な側面に注目しているが、ロシアのメディアはウクライナにおける「バイオ兵器」や「ネオナチ」の存在などの「特別軍事作戦」の正当化に重点を置いており、中国のメディアは紛争の外交的・経済的結果に集中している。
いくつかの中国メディアの記事にロシアの偽情報記事があることを検知し、最終的にロシアメディアが中国メディアのニュース記事、Weiboアカウント、Twitterアカウントの中国報道に影響を及ぼした度合いを測定した。
分析によると、ロシアによるウクライナ侵攻以降、中国の国営メディアはロシアのメディアをニュースソースとして引用し、ロシアの偽情報を広めた。 The coverage of the Russian invasion of Ukraine has varied widely between Western, Russian, and Chinese media ecosystems with propaganda, disinformation, and narrative spins present in all three. By utilizing the normalized pointwise mutual information metric, differential sentiment analysis, word2vec models, and partially labeled Dirichlet allocation, we present a quantitative analysis of the differences in coverage amongst these three news ecosystems. We find that while the Western press outlets have focused on the military and humanitarian aspects of the war, Russian media have focused on the purported justifications for the "special military operation" such as the presence in Ukraine of "bio-weapons" and "neo-nazis", and Chinese news media have concentrated on the conflict's diplomatic and economic consequences. Detecting the presence of several Russian disinformation narratives in the articles of several Chinese outlets, we finally measure the degree to which Russian media has influenced Chinese coverage across Chinese outlets' news articles, Weibo accounts, and Twitter accounts. Our analysis indicates that since the Russian invasion of Ukraine, Chinese state media outlets have increasingly cited Russian outlets as news sources and spread Russian disinformation narratives. | 翻訳日:2023-06-02 04:21:43 公開日:2023-05-31 |
# なぜランダム・プルーニングはスパースから始める必要があるのか Why Random Pruning Is All We Need to Start Sparse ( http://arxiv.org/abs/2210.02412v2 ) ライセンス: Link先を確認 | Advait Gadhikar, Sohom Mukherjee and Rebekka Burkholz | (参考訳) ランダムマスクは、実験的に示されたように驚くほど効果的なスパースニューラルネットワークモデルを定義する。
結果として生じるスパースネットワークは、計算コストの高いプルーントレインの反復に頼らず、当初かなりの計算オーバーヘッドなしに描画できるにもかかわらず、密集したアーキテクチャや最先端の抽選チケットの刈り取りアルゴリズムとしばしば競合する。
我々は、ランダムマスクが任意のターゲットネットワークを近似する方法の理論的説明を、逆スパルシティ 1 / \log(1/\text{sparsity})$ の対数係数によってより広くできる場合に提供する。
この過パラメータ化係数は、高間隔で観測されたランダムネットワークの劣化性能を解明する3層ランダムネットワークに対して必要である。
しかし、中程度から高いスパースレベルにおいては、スパルサーネットワークがランダムなソースネットワークに含まれていることを示唆し、探索を固定されたランダムマスクに制限することで、任意の密度からスパースへのトレーニングスキームを計算効率良くスパースからスパースへと変換できることを示した。
異なるプルーニング法における実験において,本手法の有効性を実証し,ランダム・ソース・ネットワークの初期層間スパーシティ比を特に効果的に選択することを提案する。
特例として、ランダムソースネットワークにも強力な抽選券が含まれていることを理論的および実験的に示す。 Random masks define surprisingly effective sparse neural network models, as has been shown empirically. The resulting sparse networks can often compete with dense architectures and state-of-the-art lottery ticket pruning algorithms, even though they do not rely on computationally expensive prune-train iterations and can be drawn initially without significant computational overhead. We offer a theoretical explanation of how random masks can approximate arbitrary target networks if they are wider by a logarithmic factor in the inverse sparsity $1 / \log(1/\text{sparsity})$. This overparameterization factor is necessary at least for 3-layer random networks, which elucidates the observed degrading performance of random networks at higher sparsity. At moderate to high sparsity levels, however, our results imply that sparser networks are contained within random source networks so that any dense-to-sparse training scheme can be turned into a computationally more efficient sparse-to-sparse one by constraining the search to a fixed random mask. We demonstrate the feasibility of this approach in experiments for different pruning methods and propose particularly effective choices of initial layer-wise sparsity ratios of the random source network. As a special case, we show theoretically and experimentally that random source networks also contain strong lottery tickets. | 翻訳日:2023-06-02 04:21:20 公開日:2023-05-31 |
# 時間依存型PDEのための暗黙的空間表現 Implicit Neural Spatial Representations for Time-dependent PDEs ( http://arxiv.org/abs/2210.00124v2 ) ライセンス: Link先を確認 | Honglin Chen, Rundi Wu, Eitan Grinspun, Changxi Zheng, Peter Yichen Chen | (参考訳) Inlicit Neural Spatial Representation (INSR)は、空間依存ベクトル場の効果的な表現として登場した。
本研究は,INSRを用いた時間依存型PDEの解法について検討する。
古典的PDE解法は時間差と空間差の両方を導入している。
一般的な空間的離散化にはメッシュとメッシュレス・ポイント・クラウドがあり、各自由度は空間内の位置に対応する。
これらの明示的な空間対応はモデルや理解に直感的であるが、これらの表現は必ずしも正確性、メモリ使用量、適応性に最適ではない。
古典的時間的離散化は変化しない(例:明示的/単純ユーラー)ため、空間情報はニューラルネットワークの重みに暗黙的に格納される空間的離散化の代替としてINSRを探索する。
ネットワークの重みは時間統合を通じて進化する。
我々のアプローチはソルバ自身であるため、既存のソルバによって生成されたトレーニングデータを必要としない。
本研究では, 弾性変形, 乱流流体, マルチスケール現象を例に, 各種PDEに対するアプローチを検証した。
従来の表現よりも計算が遅いが,本手法は精度が高く,メモリ消費も少ない。
古典的解法は複雑なリメッシングアルゴリズムを利用するだけで空間表現を動的に適応させることができるが、我々のINSRアプローチは本質的に適応的である。
従来の時間積分器(例えば演算子スプリッティングスキーム)の豊かな文献を活用することで、従来のニューラルフィジカルアプローチが苦戦する接触力学や乱流のシミュレーションに挑戦することができる。
ビデオとコードはプロジェクトページで公開されている。 Implicit Neural Spatial Representation (INSR) has emerged as an effective representation of spatially-dependent vector fields. This work explores solving time-dependent PDEs with INSR. Classical PDE solvers introduce both temporal and spatial discretizations. Common spatial discretizations include meshes and meshless point clouds, where each degree-of-freedom corresponds to a location in space. While these explicit spatial correspondences are intuitive to model and understand, these representations are not necessarily optimal for accuracy, memory usage, or adaptivity. Keeping the classical temporal discretization unchanged (e.g., explicit/implicit Euler), we explore INSR as an alternative spatial discretization, where spatial information is implicitly stored in the neural network weights. The network weights then evolve over time via time integration. Our approach does not require any training data generated by existing solvers because our approach is the solver itself. We validate our approach on various PDEs with examples involving large elastic deformations, turbulent fluids, and multi-scale phenomena. While slower to compute than traditional representations, our approach exhibits higher accuracy and lower memory consumption. Whereas classical solvers can dynamically adapt their spatial representation only by resorting to complex remeshing algorithms, our INSR approach is intrinsically adaptive. By tapping into the rich literature of classic time integrators, e.g., operator-splitting schemes, our method enables challenging simulations in contact mechanics and turbulent flows where previous neural-physics approaches struggle. Videos and codes are available on the project page: http://www.cs.columbia.edu/cg/INSR-PDE/ | 翻訳日:2023-06-02 04:20:37 公開日:2023-05-31 |
# FusionRetro:再合成計画のためのインコンテキスト学習による分子表現融合 FusionRetro: Molecule Representation Fusion via In-Context Learning for Retrosynthetic Planning ( http://arxiv.org/abs/2209.15315v4 ) ライセンス: Link先を確認 | Songtao Liu, Zhengkai Tu, Minkai Xu, Zuobai Zhang, Lu Lin, Rex Ying, Jian Tang, Peilin Zhao, Dinghao Wu | (参考訳) 再合成計画(Retrosynthetic Planning)は、材料からターゲット分子への完全な多段階合成経路を考案することを目的としている。
現在の戦略では、単一ステップの逆合成モデルと探索アルゴリズムの分離されたアプローチを用いて、製品のみを入力として各計画ステップの反応を予測し、合成経路に沿った貴重なコンテキスト情報を無視する。
そこで本研究では,文脈情報を利用した新しいフレームワークを提案する。
我々は合成経路を反応グラフとみなし、分子を埋め込みにエンコードし、経路上の情報を集約し、反応物を予測するための読み出しという3つの原理的なステップを通じてコンテキストを組み込むことを提案する。
本手法は,逆合成計画における逆合成予測に文脈学習を利用した最初の試みである。
フレームワーク全体はエンドツーエンドの方法で効率的に最適化でき、より実用的で正確な予測ができる。
総合実験により, 経路上のコンテキスト情報を融合することにより, 特に長い合成経路において, ベースライン上での逆合成計画の性能が著しく向上することを示した。
コードはhttps://github.com/SongtaoLiu0823/FusionRetroで公開されている。 Retrosynthetic planning aims to devise a complete multi-step synthetic route from starting materials to a target molecule. Current strategies use a decoupled approach of single-step retrosynthesis models and search algorithms, taking only the product as the input to predict the reactants for each planning step and ignoring valuable context information along the synthetic route. In this work, we propose a novel framework that utilizes context information for improved retrosynthetic planning. We view synthetic routes as reaction graphs and propose to incorporate context through three principled steps: encode molecules into embeddings, aggregate information over routes, and readout to predict reactants. Our approach is the first attempt to utilize in-context learning for retrosynthesis prediction in retrosynthetic planning. The entire framework can be efficiently optimized in an end-to-end fashion and produce more practical and accurate predictions. Comprehensive experiments demonstrate that by fusing in the context information over routes, our model significantly improves the performance of retrosynthetic planning over baselines that are not context-aware, especially for long synthetic routes. Code is available at https://github.com/SongtaoLiu0823/FusionRetro. | 翻訳日:2023-06-02 04:20:12 公開日:2023-05-31 |
# 3DGTN:ポイントクラウド分類とセグメンテーションのための3次元デュアルアタッチメントGLocal Transformer Network 3DGTN: 3D Dual-Attention GLocal Transformer Network for Point Cloud Classification and Segmentation ( http://arxiv.org/abs/2209.11255v2 ) ライセンス: Link先を確認 | Dening Lu, Kyle Gao, Qian Xie, Linlin Xu, Jonathan Li | (参考訳) 3Dポイントクラウド処理におけるTransformerの適用は、大きな進歩と成功を達成しているが、既存の3D Transformerメソッドが、価値あるグローバル機能と改善されたアプリケーションに有用なローカル機能の両方を効率的に正確に学習することは、依然として困難である。
本稿では,3D Dual Self-attention Global Local (GLocal) Transformer Network (3DGTN) と呼ばれる新しいポイントクラウド表現学習ネットワークを提案する。
まず、gローカルな特徴学習(gfl)ブロックにおいて、gローカルな文脈情報を効率的に学習するように設計する(すなわち、ppsaと呼ばれる新しいポイントパッチ・セルフ・アテンションとチャネルワイズ・セルフアテンション)。
第2に、gflブロックは、多スケールグラフ畳み込みに基づく局所特徴集約(lfa)ブロックと統合され、臨界情報を効率的にキャプチャできるグローバルローカル(glocal)情報抽出モジュールとなる。
第3に、一連のGLocalモジュールを使用して新しい階層エンコーダデコーダ構造を構築し、階層的な方法で異なるスケールでの"GLOCAL"情報の学習を可能にする。
提案手法は,分類とセグメンテーションの両方のデータセット上で評価され,分類とセグメンテーションの両方において最先端の手法を上回ることができることを示した。 Although the application of Transformers in 3D point cloud processing has achieved significant progress and success, it is still challenging for existing 3D Transformer methods to efficiently and accurately learn both valuable global features and valuable local features for improved applications. This paper presents a novel point cloud representational learning network, called 3D Dual Self-attention Global Local (GLocal) Transformer Network (3DGTN), for improved feature learning in both classification and segmentation tasks, with the following key contributions. First, a GLocal Feature Learning (GFL) block with the dual self-attention mechanism (i.e., a novel Point-Patch Self-Attention, called PPSA, and a channel-wise self-attention) is designed to efficiently learn the GLocal context information. Second, the GFL block is integrated with a multi-scale Graph Convolution-based Local Feature Aggregation (LFA) block, leading to a Global-Local (GLocal) information extraction module that can efficiently capture critical information. Third, a series of GLocal modules are used to construct a new hierarchical encoder-decoder structure to enable the learning of "GLocal" information in different scales in a hierarchical manner. The proposed framework is evaluated on both classification and segmentation datasets, demonstrating that the proposed method is capable of outperforming many state-of-the-art methods on both classification and segmentation tasks. | 翻訳日:2023-06-02 04:19:50 公開日:2023-05-31 |
# 多モードマイクロキャビティにおける障害量子エミッタの偏光子局在と分散特性 Polariton Localization and Dispersion Properties of Disordered Quantum Emitters in Multimode Microcavities ( http://arxiv.org/abs/2209.02909v2 ) ライセンス: Link先を確認 | Georg Engelhardt and Jianshu Cao | (参考訳) 実験により、偏光マイクロキャビティにおける強い光物質結合が輸送を著しく促進することが示された。
これらの実験により, 熱力学限界における多モードTavis-Cummingsモデルを解き, この解を用いて分散と局在特性を解析した。
この解は、波動ベクトル分解分光量は単一モードモデルで記述できるが、空間的に解決された量は多重モード解を必要とすることを意味する。
グリーン関数の非対角要素は、コヒーレンス長を定義する距離と指数関数的に崩壊する。
コヒーレンス長は光子重量と強く相関し、ラビ周波数に対する逆スケーリングを示し、障害に対する異常な依存を示す。
平均分子エネルギー$E_{\text{M}}$と閉じ込めエネルギー$E_C$から離れたエネルギーの場合、コヒーレンス長は光子共鳴波長$\lambda_0$を超えるように急速に分散する。
急速な分岐により、局所化と非局在化を区別し、拡散から弾道輸送への移行を識別できる。 Experiments have demonstrated that the strong light-matter coupling in polaritonic microcavities significantly enhances transport. Motivated by these experiments, we have solved the disordered multimode Tavis-Cummings model in the thermodynamic limit and used this solution to analyze its dispersion and localization properties. The solution implies that wave-vector-resolved spectroscopic quantities can be described by single-mode models, but spatially resolved quantities require the multimode solution. Nondiagonal elements of the Green's function decay exponentially with distance, which defines the coherence length. The coherence length is strongly correlated with the photon weight and exhibits inverse scaling with respect to the Rabi frequency and an unusual dependence on disorder. For energies away from the average molecular energy $E_{\text{M}}$ and above the confinement energy $E_C$, the coherence length rapidly diverges such that it exceeds the photon resonance wavelength $\lambda_0$. The rapid divergence allows us to differentiate the localized and delocalized regimes and identify the transition from diffusive to ballistic transport. | 翻訳日:2023-06-02 04:19:22 公開日:2023-05-31 |
# 逆検出:物体検出をリアルタイムで攻撃する Adversarial Detection: Attacking Object Detection in Real Time ( http://arxiv.org/abs/2209.01962v5 ) ライセンス: Link先を確認 | Han Wu, Syed Yunas, Sareh Rowlands, Wenjie Ruan, and Johan Wahlstrom | (参考訳) 知的ロボットは環境を認識するために物体検出モデルに依存している。
ディープラーニングのセキュリティの進歩に続いて、オブジェクト検出モデルは敵の攻撃に対して脆弱であることが判明した。
しかし、以前の研究は主に静的画像やオフラインビデオの攻撃に焦点を当てていた。
したがって、そのような攻撃が動的環境における現実世界のロボットアプリケーションを破壊するかどうかはまだ不明である。
本稿では,オブジェクト検出モデルに対する最初のリアルタイムオンライン攻撃を提案することで,このギャップを埋める。
所望の場所で非存在オブジェクトのバウンディングボックスを構成する3つの攻撃を考案する。
この攻撃は、約20回のイテレーションで約90%の成功率を達成する。
デモビデオはhttps://youtu.be/zjz1anlxsmuで見ることができる。 Intelligent robots rely on object detection models to perceive the environment. Following advances in deep learning security it has been revealed that object detection models are vulnerable to adversarial attacks. However, prior research primarily focuses on attacking static images or offline videos. Therefore, it is still unclear if such attacks could jeopardize real-world robotic applications in dynamic environments. This paper bridges this gap by presenting the first real-time online attack against object detection models. We devise three attacks that fabricate bounding boxes for nonexistent objects at desired locations. The attacks achieve a success rate of about 90% within about 20 iterations. The demo video is available at https://youtu.be/zJZ1aNlXsMU. | 翻訳日:2023-06-02 04:19:02 公開日:2023-05-31 |
# 総合型ゲームにおける準最適$\Phi$-regret学習 Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games ( http://arxiv.org/abs/2208.09747v2 ) ライセンス: Link先を確認 | Ioannis Anagnostides, Gabriele Farina, Tuomas Sandholm | (参考訳) 本稿では,マルチプレイヤーの完全リコール不完全情報多形式ゲームにおいて,全プレイヤーが使用した場合,各プレイヤーのトリガ後悔がt$の繰り返し後に$o(\log t)$となるように,効率的かつ非結合的な学習ダイナミクスを確立する。
これは、以前のよく知られた$O(T^{1/4})$よりも指数関数的に改善され、Bai et al. (2022) による最近の開問題に着目する。
即ち、大域的な相関平衡と粗相関平衡の組への収束を、ほぼ最適のレートである $\frac{\log t}{t}$ で保証する。
我々の構成の核心にある先行研究は、多項式次数を持つ有理関数から導出される不動点に関するより一般的な結果である。
さらに,従来の保証とは異なり,sirgkanis et al. (nips, 2015) が導入した rvu 特性を保存し,cfr 型の後悔の分解に基づく学習ダイナミクス下での最適に近い後悔を確立することに関心を持っている。 In this paper, we establish efficient and uncoupled learning dynamics so that, when employed by all players in multiplayer perfect-recall imperfect-information extensive-form games, the trigger regret of each player grows as $O(\log T)$ after $T$ repetitions of play. This improves exponentially over the prior best known trigger-regret bound of $O(T^{1/4})$, and settles a recent open question by Bai et al. (2022). As an immediate consequence, we guarantee convergence to the set of extensive-form correlated equilibria and coarse correlated equilibria at a near-optimal rate of $\frac{\log T}{T}$. Building on prior work, at the heart of our construction lies a more general result regarding fixed points deriving from rational functions with polynomial degree, a property that we establish for the fixed points of (coarse) trigger deviation functions. Moreover, our construction leverages a refined regret circuit for the convex hull, which -- unlike prior guarantees -- preserves the RVU property introduced by Syrgkanis et al. (NIPS, 2015); this observation has an independent interest in establishing near-optimal regret under learning dynamics based on a CFR-type decomposition of the regret. | 翻訳日:2023-06-02 04:18:53 公開日:2023-05-31 |
# 多体系における量子断熱性と相補部分空間におけるほぼ直交性 Quantum adiabaticity in many-body systems and almost-orthogonality in complementary subspace ( http://arxiv.org/abs/2208.02620v2 ) ライセンス: Link先を確認 | Jyong-Hao Chen, Vadim Cheianov | (参考訳) 量子多体系において、断熱的忠実性と初期状態と瞬時基底状態の重なりが、多くの場合においてほぼ同じ値である理由を考察する。
本稿では,多体系の2つの本質的限界(進化パラメータの小さい値の限界と大きなシステムサイズの限界)の相互作用によって問題がどのように説明できるかを詳述する。
前者の場合、従来の摂動理論は自然な説明を提供する。
後者の場合、重要な観察は、初期状態の補完的ヒルベルト空間にあるベクトルの対がほぼ直交的であることである。
以上の知見は,多体駆動システムの2つのパラダイムモデルであるマイム・ミールモデルと相互作用するキタエフ連鎖モデルによって示される。 We study why in quantum many-body systems the adiabatic fidelity and the overlap between the initial state and instantaneous ground states have nearly the same values in many cases. We elaborate on how the problem may be explained by an interplay between the two intrinsic limits of many-body systems: the limit of small values of evolution parameter and the limit of large system size. In the former case, conventional perturbation theory provides a natural explanation. In the latter case, a crucial observation is that pairs of vectors lying in the complementary Hilbert space of the initial state are almost orthogonal. Our general findings are illustrated with a driven Rice-Mele model and a driven interacting Kitaev chain model, two paradigmatic models of driven many-body systems. | 翻訳日:2023-06-02 04:18:29 公開日:2023-05-31 |
# centroid-based pretrainingを用いたマルチドキュメント要約 Multi-Document Summarization with Centroid-Based Pretraining ( http://arxiv.org/abs/2208.01006v2 ) ライセンス: Link先を確認 | Ratish Puduppully and Parag Jain and Nancy F. Chen and Mark Steedman | (参考訳) Multi-Document Summarization (MDS)では、入力は文書の集合としてモデル化することができ、出力はその要約である。
本稿では,mdsの事前学習目標について述べる。
具体的には,各文書クラスタのルージュベースのセンタロイドを要約のプロキシとして選択する,新しい事前学習目標を提案する。
この目的は人による要約を必要とせず、文書集合のみからなるデータセットの事前学習に利用できる。
ゼロショット、少数ショット、完全に教師された複数のMDSデータセットの実験を通して、私たちのモデルCentrumは最先端のモデルより優れているか、あるいは同等であることを示す。
我々は、事前訓練された、そして微調整されたモデルを、リサーチコミュニティ https://github.com/ratishsp/centrum.comに無料で提供します。 In Multi-Document Summarization (MDS), the input can be modeled as a set of documents, and the output is its summary. In this paper, we focus on pretraining objectives for MDS. Specifically, we introduce a novel pretraining objective, which involves selecting the ROUGE-based centroid of each document cluster as a proxy for its summary. Our objective thus does not require human written summaries and can be utilized for pretraining on a dataset consisting solely of document sets. Through zero-shot, few-shot, and fully supervised experiments on multiple MDS datasets, we show that our model Centrum is better or comparable to a state-of-the-art model. We make the pretrained and fine-tuned models freely available to the research community https://github.com/ratishsp/centrum. | 翻訳日:2023-06-02 04:18:14 公開日:2023-05-31 |
# CAP:高精度スパースビジョンモデルのための相関対応プルーニング CAP: Correlation-Aware Pruning for Highly-Accurate Sparse Vision Models ( http://arxiv.org/abs/2210.09223v2 ) ライセンス: Link先を確認 | Denis Kuznedelev, Eldar Kurtic, Elias Frantar, Dan Alistarh | (参考訳) アーキテクチャ設計とトレーニングパイプラインの大幅な改善によって、コンピュータビジョンはimagenetのような古典的なベンチマークで精度の面で劇的な進歩を経験した。
これらの高精度なモデルは展開が困難であり、刈り取りなどの標準技術を使って圧縮するのが困難である。
本稿では,非構造化プルーニングフレームワークであるRelation Aware Pruner (CAP)を導入し,最先端アーキテクチャの圧縮性限界を大幅に押し上げている。
本手法は, プレニングプロセス自体の複雑な重量相関を精度よく, 効率的に処理できる新しい理論修正プルーナーと, 圧縮後回復のための効率的な微調整手順の2つの技術進歩に基づいている。
私たちは、視覚変換器(ViT)、現代のCNN、ViT-CNNハイブリッドなどの現代の視覚モデルに関する広範な実験を通じて、これらのモデルが高い空間レベル(例えば$\geq 75$%)に到達し、精度に低い影響(相対的なドロップ)を持つことを示す。
本手法は,構造的プルーニングや量子化にも適合しており,精度を損なうことなく1.5倍から2.4倍の実用的高速化を実現することができる。
CAPの精度とスケーラビリティをさらに示すために、自己監督技術を用いて訓練された極めて正確な大規模視覚モデルも、無視できる精度の損失で、適度な間隔に切断できることを示した。 Driven by significant improvements in architectural design and training pipelines, computer vision has recently experienced dramatic progress in terms of accuracy on classic benchmarks such as ImageNet. These highly-accurate models are challenging to deploy, as they appear harder to compress using standard techniques such as pruning. We address this issue by introducing the Correlation Aware Pruner (CAP), a new unstructured pruning framework which significantly pushes the compressibility limits for state-of-the-art architectures. Our method is based on two technical advancements: a new theoretically-justified pruner, which can handle complex weight correlations accurately and efficiently during the pruning process itself, and an efficient finetuning procedure for post-compression recovery. We validate our approach via extensive experiments on several modern vision models such as Vision Transformers (ViT), modern CNNs, and ViT-CNN hybrids, showing for the first time that these can be pruned to high sparsity levels (e.g. $\geq 75$%) with low impact on accuracy ($\leq 1$% relative drop). Our approach is also compatible with structured pruning and quantization, and can lead to practical speedups of 1.5 to 2.4x without accuracy loss. To further showcase CAP's accuracy and scalability, we use it to show for the first time that extremely-accurate large vision models, trained via self-supervised techniques, can also be pruned to moderate sparsities, with negligible accuracy loss. | 翻訳日:2023-06-02 04:10:35 公開日:2023-05-31 |
# 密度ニュートリノ系のマルチニュートリノ絡み合いと相関 Multi-Neutrino Entanglement and Correlations in Dense Neutrino Systems ( http://arxiv.org/abs/2210.08656v3 ) ライセンス: Link先を確認 | Marc Illa and Martin J. Savage | (参考訳) マルチニュートリノの絡み合いと相関の時間発展は、密集したニュートリノ環境に関連する2つのフレーバーの集団ニュートリノ振動で研究されている。
具体的には、QuantinuumのH1-1 20量子ビットトラップイオン量子コンピュータを用いて、最大12個のニュートリノを持つシステムのシミュレーションを行い、n-三角形を計算する。
n-タングル再スケーリングは、大きなシステムサイズで収束し、真のマルチニュートリノの絡み合いの存在を示す。 The time-evolution of multi-neutrino entanglement and correlations are studied in two-flavor collective neutrino oscillations, relevant for dense neutrino environments, building upon previous works. Specifically, simulations performed of systems with up to 12 neutrinos using Quantinuum's H1-1 20 qubit trapped-ion quantum computer are used to compute n-tangles, and two- and three-body correlations, probing beyond mean-field descriptions. n-tangle re-scalings are found to converge for large system sizes, signaling the presence of genuine multi-neutrino entanglement. | 翻訳日:2023-06-02 04:10:04 公開日:2023-05-31 |
# 深層回帰学習 Deep Regression Unlearning ( http://arxiv.org/abs/2210.08196v2 ) ライセンス: Link先を確認 | Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Mohan Kankanhalli | (参考訳) データ保護とプライバシ規制の導入により、マシンラーニング(ML)モデルから、オンデマンドのデータ行を削除することが重要になった。
過去数年間、機械学習において、機械学習モデルから特定のトレーニングデータの情報を効率的に効果的に除去するための顕著な発展があった。
本研究では,特に深層学習モデルにおいて,回帰問題に対するアンラーニングについて検討する。
分類と単純な線形回帰の学習は、かなり研究されてきた。
しかし、深い回帰モデルの未学習は、これまでほとんど未学習の問題のままである。
本研究では,プライバシ攻撃に対して堅牢かつ汎用性の高い深層回帰学習手法を提案する。
本稿では,新しい軽量化プロセスを用いたブラインドスポットアンラーニング手法を提案する。
保持サンプルに部分的に露出したランダム初期化モデルと、元のモデルのコピーを併用して、私たちが忘れたいデータに関する情報を保持し、取り除きたいデータに関する知識を選択的にインプリントする。
また,回帰学習のためのガウス微調整法を提案する。
分類のための既存の未学習メトリクスは、回帰未学習には直接適用されない。
したがって、回帰設定にこれらの指標を適用する。
コンピュータビジョン,自然言語処理,予測アプリケーションのための回帰学習実験を行う。
提案手法は,全メトリクスにわたるこれらのデータセットに対して優れた性能を示す。
ソースコード: https://github.com/ayu987/deep-regression-unlearning With the introduction of data protection and privacy regulations, it has become crucial to remove the lineage of data on demand from a machine learning (ML) model. In the last few years, there have been notable developments in machine unlearning to remove the information of certain training data efficiently and effectively from ML models. In this work, we explore unlearning for the regression problem, particularly in deep learning models. Unlearning in classification and simple linear regression has been considerably investigated. However, unlearning in deep regression models largely remains an untouched problem till now. In this work, we introduce deep regression unlearning methods that generalize well and are robust to privacy attacks. We propose the Blindspot unlearning method which uses a novel weight optimization process. A randomly initialized model, partially exposed to the retain samples and a copy of the original model are used together to selectively imprint knowledge about the data that we wish to keep and scrub off the information of the data we wish to forget. We also propose a Gaussian fine tuning method for regression unlearning. The existing unlearning metrics for classification are not directly applicable to regression unlearning. Therefore, we adapt these metrics for the regression setting. We conduct regression unlearning experiments for computer vision, natural language processing and forecasting applications. Our methods show excellent performance for all these datasets across all the metrics. Source code: https://github.com/ayu987/deep-regression-unlearning | 翻訳日:2023-06-02 04:09:50 公開日:2023-05-31 |
# 反応ロボット制御の推論としての階層的ポリシー Hierarchical Policy Blending as Inference for Reactive Robot Control ( http://arxiv.org/abs/2210.07890v2 ) ライセンス: Link先を確認 | Kay Hansel, Julen Urain, Jan Peters and Georgia Chalvatzaki | (参考訳) 乱雑で密集した動的環境における動き生成はロボット工学の中心的なテーマであり、多目的意思決定問題として表現されている。
現在のアプローチは、安全性とパフォーマンスのトレードオフです。
一方、反応政策は環境変化に対する迅速な対応を最適以下の行動のリスクで保証する。
一方、計画に基づく動き生成は実現可能な軌道を提供するが、高い計算コストは制御周波数を制限し、安全性を損なう可能性がある。
反応ポリシーと計画の利点を組み合わせるために,階層的な動き生成手法を提案する。
さらに,階層モデルと確率的最適化を形式化する確率的推論手法を採用する。
このアプローチは確率的かつリアクティブな専門家ポリシーの重み付け積として実現され,タスク水平線上で最適な重み付けを適応的に計算するために計画が使用される。
この確率的最適化は局所最適を回避し、乱雑で密度の高い環境における経路を見つける実行可能な反応性計画を提案する。
平面ナビゲーションと6DoF操作の広範な実験により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。 Motion generation in cluttered, dense, and dynamic environments is a central topic in robotics, rendered as a multi-objective decision-making problem. Current approaches trade-off between safety and performance. On the one hand, reactive policies guarantee fast response to environmental changes at the risk of suboptimal behavior. On the other hand, planning-based motion generation provides feasible trajectories, but the high computational cost may limit the control frequency and thus safety. To combine the benefits of reactive policies and planning, we propose a hierarchical motion generation method. Moreover, we adopt probabilistic inference methods to formalize the hierarchical model and stochastic optimization. We realize this approach as a weighted product of stochastic, reactive expert policies, where planning is used to adaptively compute the optimal weights over the task horizon. This stochastic optimization avoids local optima and proposes feasible reactive plans that find paths in cluttered and dense environments. Our extensive experimental study in planar navigation and 6DoF manipulation shows that our proposed hierarchical motion generation method outperforms both myopic reactive controllers and online re-planning methods. | 翻訳日:2023-06-02 04:09:32 公開日:2023-05-31 |
# データ中毒の存在下で、クリーンなデータサブセットをふるいにかけるにはどうすればよいか? How to Sift Out a Clean Data Subset in the Presence of Data Poisoning? ( http://arxiv.org/abs/2210.06516v2 ) ライセンス: Link先を確認 | Yi Zeng, Minzhou Pan, Himanshu Jahagirdar, Ming Jin, Lingjuan Lyu and Ruoxi Jia | (参考訳) 現代の機械学習モデルのトレーニングに必要なデータ量を考えると、外部サプライヤーがますます増えている。
しかし、外部データを組み込むことでデータ中毒のリスクが生じ、攻撃者はモデルの有用性や整合性を損なうためにデータを操作します。
ほとんどの中毒防御は、クリーンなデータ(またはベースセット)へのアクセスを想定している。
この仮定は当然のことながら、ステルス性中毒の攻撃に関する研究が急速に進んでいることを考えると、疑問が持ち上がっている: 被告は汚染されたデータセットの中のクリーンなサブセットを本当に特定して、防衛を支援することができるのか?
本論文は, 被毒試料がベースセットに誤って混入した場合の防御効果について検討することから始める。
5つの防御効果を分析し,その性能は1%未満の毒点で劇的に低下することがわかった。
これらの結果は,高い精度でベースセットをふるい取ることが,これらの防御性能の鍵であることを示唆している。
これらの観察により,既存の自動化ツールと人間の検査が,データ中毒の有無でクリーンなデータをいかに正確に識別するかを調べた。
残念ながら、どちらの努力も必要な精度を達成できません。
さらに悪いことに、結果の多くはランダムな選択よりも悪い。
課題を明らかにすることに加えて,実践的な対策であるMeta-Siftを提案する。
提案手法は,既存攻撃の有毒サンプルがクリーンなデータ分布から移行しているという知見に基づく。
したがって、データセットのクリーンな部分のトレーニングと、破損した部分のテストは、高い予測損失をもたらす。
洞察を活用して、クリーンなデータを特定するための二段階最適化を定式化し、さらに効率と精度を改善するための一連のテクニックを導入します。
評価の結果,Meta-Siftは広範囲の毒素攻撃下で100%精度でクリーンなベースセットをシフできることがわかった。
選択されたベースセットは、防御が成功するのに十分な大きさである。 Given the volume of data needed to train modern machine learning models, external suppliers are increasingly used. However, incorporating external data poses data poisoning risks, wherein attackers manipulate their data to degrade model utility or integrity. Most poisoning defenses presume access to a set of clean data (or base set). While this assumption has been taken for granted, given the fast-growing research on stealthy poisoning attacks, a question arises: can defenders really identify a clean subset within a contaminated dataset to support defenses? This paper starts by examining the impact of poisoned samples on defenses when they are mistakenly mixed into the base set. We analyze five defenses and find that their performance deteriorates dramatically with less than 1% poisoned points in the base set. These findings suggest that sifting out a base set with high precision is key to these defenses' performance. Motivated by these observations, we study how precise existing automated tools and human inspection are at identifying clean data in the presence of data poisoning. Unfortunately, neither effort achieves the precision needed. Worse yet, many of the outcomes are worse than random selection. In addition to uncovering the challenge, we propose a practical countermeasure, Meta-Sift. Our method is based on the insight that existing attacks' poisoned samples shifts from clean data distributions. Hence, training on the clean portion of a dataset and testing on the corrupted portion will result in high prediction loss. Leveraging the insight, we formulate a bilevel optimization to identify clean data and further introduce a suite of techniques to improve efficiency and precision. Our evaluation shows that Meta-Sift can sift a clean base set with 100% precision under a wide range of poisoning attacks. The selected base set is large enough to give rise to successful defenses. | 翻訳日:2023-06-02 04:08:18 公開日:2023-05-31 |
# 変分オープンドメイン質問応答 Variational Open-Domain Question Answering ( http://arxiv.org/abs/2210.06345v2 ) ライセンス: Link先を確認 | Valentin Li\'evin, Andreas Geert Motzfeldt, Ida Riis Jensen, Ole Winther | (参考訳) Retrieval-augmented Modelは自然言語処理タスクに有効であることが証明されているが、変分推論を用いた最適化に関する研究はいまだに不足している。
本稿では,検索強化モデルのエンドツーエンドトレーニングと評価を行うための変動型オープンドメイン(VOD)フレームワークについて紹介する。
R'enyi変分境界の自己正規化推定であるVOD目標は、タスク限界確率を近似し、補助サンプリング分布(キャッシュレトリバー及び/または近似後部)から抽出されたサンプルに基づいて評価する。
大型コーパス上で定義されたレトリバー分布に対しても、トラクタブルである。
本研究は,複数選択検診質問に対する読影型BERTサイズのモデルの学習によるVODの汎用性を実証する。
MedMCQAデータセットでは、パラメータが2.500$\times$少ないにもかかわらず、ドメインチューニングされたMed-PaLMを+5.3%上回る。
MedMCQAではBioLinkBERTが62.9%,MedQA-USMLEでは55.0%であった。
最後に,医用セマンティックサーチの文脈において,学習したレトリバーコンポーネントの有効性を示す。 Retrieval-augmented models have proven to be effective in natural language processing tasks, yet there remains a lack of research on their optimization using variational inference. We introduce the Variational Open-Domain (VOD) framework for end-to-end training and evaluation of retrieval-augmented models, focusing on open-domain question answering and language modelling. The VOD objective, a self-normalized estimate of the R\'enyi variational bound, approximates the task marginal likelihood and is evaluated under samples drawn from an auxiliary sampling distribution (cached retriever and/or approximate posterior). It remains tractable, even for retriever distributions defined on large corpora. We demonstrate VOD's versatility by training reader-retriever BERT-sized models on multiple-choice medical exam questions. On the MedMCQA dataset, we outperform the domain-tuned Med-PaLM by +5.3% despite using 2.500$\times$ fewer parameters. Our retrieval-augmented BioLinkBERT model scored 62.9% on the MedMCQA and 55.0% on the MedQA-USMLE. Last, we show the effectiveness of our learned retriever component in the context of medical semantic search. | 翻訳日:2023-06-02 04:07:50 公開日:2023-05-31 |
# 神経odeの前方不変性について On the Forward Invariance of Neural ODEs ( http://arxiv.org/abs/2210.04763v2 ) ライセンス: Link先を確認 | Wei Xiao and Tsun-Hsuan Wang and Ramin Hasani and Mathias Lechner and Yutong Ban and Chuang Gan and Daniela Rus | (参考訳) 本稿では,不変集合伝播を用いて,出力仕様を満たすニューラル常微分方程式(odes)を実現する新しい手法を提案する。
提案手法では,出力仕様を学習システムのパラメータや入力の制約に変換するために,制御障壁関数のクラスを用いる。
この設定により、トレーニングと推論の両方で制約されたパラメータ/インプットを変更するだけで、出力仕様の保証を達成できます。
さらに,データ制御型ニューラルodeによる分散集合の伝播は,一般化性能を維持するだけでなく,システムのパラメータや入力を因果的に操作することで,さらなる頑健性も生み出すことを示した。
本研究では,物理力学や凸面像のモデリング,自動運転車の衝突回避など,一連の表現学習タスクにおいて本手法を検証した。 We propose a new method to ensure neural ordinary differential equations (ODEs) satisfy output specifications by using invariance set propagation. Our approach uses a class of control barrier functions to transform output specifications into constraints on the parameters and inputs of the learning system. This setup allows us to achieve output specification guarantees simply by changing the constrained parameters/inputs both during training and inference. Moreover, we demonstrate that our invariance set propagation through data-controlled neural ODEs not only maintains generalization performance but also creates an additional degree of robustness by enabling causal manipulation of the system's parameters/inputs. We test our method on a series of representation learning tasks, including modeling physical dynamics and convexity portraits, as well as safe collision avoidance for autonomous vehicles. | 翻訳日:2023-06-02 04:07:17 公開日:2023-05-31 |
# 深い平衡モデルを用いたラベル入力グラフニューラルネットワークの統一化 Unifying Label-inputted Graph Neural Networks with Deep Equilibrium Models ( http://arxiv.org/abs/2211.10629v2 ) ライセンス: Link先を確認 | Yi Luo, Guiduo Duan, Guangchun Luo, Aiguo Chen | (参考訳) 非ユークリッドデータの学習におけるグラフニューラルネットワーク(GNN)の成功は、ラベル入力GNN(LGNN)やインプリシットGNN(IGNN)など、多くのサブトピックを喚起する。
GNNに監督情報(ラベル)を明示的に入力するLGNNは、ラベル伝搬を統合して優れた性能を得るが、その伝播距離と適応性の間にジレンマがある。
IGNNはネットワークを無限回繰り返すことで平衡点を出力し、グラフ全体の情報を利用して長距離依存を捕捉するが、ネットワークは平衡の存在を保証するために制約される。
この研究は、IGNNの理論においてLGNNを解釈し、一般的なLGNNをIGNNの形式に還元することで、2つのサブドメインを統一する。
この統一は2つのサブドメイン間の交換を促進し、さらなる研究を促す。
具体的には、IGNNの暗黙的な分化がLGNNに導入され、その無限範囲ラベルの伝播を一定のメモリで区別し、その伝播を遠方かつ適応的にする。
さらに、LGNNのマスク付きラベル戦略は、IGNNのネットワーク非依存性を保証し、ネットワークをより複雑化し、表現力を高めることが証明されている。
LGNNとIGNNの利点を組み合わせることで、ラベル入力型インプリシットGNN(LI-GNN)を提案する。
パフォーマンスを高めるため、特定のGNNに広く適用することができる。
2つの合成データセットと6つの実世界のデータセットのノード分類実験は、その有効性を示している。
コードはhttps://github.com/cf020031308/LI-GNNで入手できる。 The success of Graph Neural Networks (GNN) in learning on non-Euclidean data arouses many subtopics, such as Label-inputted GNN (LGNN) and Implicit GNN (IGNN). LGNN, explicitly inputting supervising information (a.k.a. labels) in GNN, integrates label propagation to achieve superior performance, but with the dilemma between its propagating distance and adaptiveness. IGNN, outputting an equilibrium point by iterating its network infinite times, exploits information in the entire graph to capture long-range dependencies, but with its network constrained to guarantee the existence of the equilibrium. This work unifies the two subdomains by interpreting LGNN in the theory of IGNN and reducing prevailing LGNNs to the form of IGNN. The unification facilitates the exchange between the two subdomains and inspires more studies. Specifically, implicit differentiation of IGNN is introduced to LGNN to differentiate its infinite-range label propagation with constant memory, making the propagation both distant and adaptive. Besides, the masked label strategy of LGNN is proven able to guarantee the well-posedness of IGNN in a network-agnostic manner, granting its network more complex and thus more expressive. Combining the advantages of LGNN and IGNN, Label-inputted Implicit GNN (LI-GNN) is proposed. It can be widely applied to any specific GNN to boost its performance. Node classification experiments on two synthesized and six real-world datasets demonstrate its effectiveness. Code is available at https://github.com/cf020031308/LI-GNN | 翻訳日:2023-06-02 04:01:50 公開日:2023-05-31 |
# MT4SSL:複数ターゲットの統合による自己監督型音声表現学習の促進 MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets ( http://arxiv.org/abs/2211.07321v3 ) ライセンス: Link先を確認 | Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen | (参考訳) 本稿では,学習目標の獲得方法から,自己教師型音声モデルに対する新たな視点を提供する。
対象抽出器をオフラインターゲットエクストラクタ(Off-TE)とオンラインターゲットエクストラクタ(On-TE)に一般化する。
そこで,本研究では,自己教師あり学習のためのマルチタスク学習フレームワークであるmt4sslを提案する。
MT4SSLは、K平均アルゴリズムをオフTEとして、教師ネットワークをオンTEとして使用する。
我々のモデルは、LibriSpeechベンチマークの非自明なマージンで以前のSSLメソッドより優れており、少ないデータを持つ最高のパフォーマンスモデルに匹敵するか、さらに優れている。
さらに,Off-TEとOn-TEの両方を用いることで,事前学習フェーズの収束性が向上することがわかった。
実効性と効率性の両方において,自己教師付き音声モデルを用いたマルチタスク学習は有望なトレンドであると考えられる。 In this paper, we provide a new perspective on self-supervised speech models from how the training targets are obtained. We generalize the targets extractor into Offline Targets Extractor (Off-TE) and Online Targets Extractor (On-TE). Based on this, we propose a new multi-tasking learning framework for self-supervised learning, MT4SSL, which stands for Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. MT4SSL uses the K-means algorithm as an Off-TE and a teacher network without gradients as an On-TE, respectively. Our model outperforms previous SSL methods by nontrivial margins on the LibriSpeech benchmark, and is comparable to or even better than the best-performing models with fewer data. Furthermore, we find that using both Off-TE and On-TE results in better convergence in the pre-training phase. With both effectiveness and efficiency, we think doing multi-task learning on self-supervised speech models from our perspective is a promising trend. | 翻訳日:2023-06-02 04:01:25 公開日:2023-05-31 |
# PAD-Net: 動的ネットワークのための効率的なフレームワーク PAD-Net: An Efficient Framework for Dynamic Networks ( http://arxiv.org/abs/2211.05528v4 ) ライセンス: Link先を確認 | Shwai He, Liang Ding, Daize Dong, Boan Liu, Fuqiang Yu, Dacheng Tao | (参考訳) 動的畳み込み(DY-Conv)やMixture of Experts(MoE)といった動的ネットワークは、許容する計算コストでモデルの表現能力を大幅に改善できるため、広く研究されている。
動的ネットワークを実装する一般的なプラクティスは、与えられた静的レイヤを、すべてのパラメータが動的(少なくとも1つの層内で)で入力によって変化する完全に動的層に変換することである。
しかし、このような完全な動的設定は冗長なパラメータと高いデプロイメントコストを引き起こし、ダイナミックネットワークの適用範囲を幅広いタスクやモデルに制限する可能性がある。
私たちの研究の主な貢献は、動的ネットワークにおける基本的な常識に挑戦し、冗長な動的パラメータを静的に変換するために部分動的ネットワーク、すなわちpad-netを提案することです。
また、動的パラメータと静的パラメータを効率的に分割する反復モード分割を設計する。
本手法は画像分類とGLUEベンチマークの両方において,DY-ConvとMoEという2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。
さらに、完全な動的ネットワークを$+0.7\%$ top-1 accで上回り、ResNet-50の動的パラメータは$30\%、BERTの動的パラメータは$50\%で言語理解の平均スコアは$+1.9\%である。
コードは: \url{https://github.com/Shwai-He/PAD-Net}.orgでリリースされる。 Dynamic networks, e.g., Dynamic Convolution (DY-Conv) and the Mixture of Experts (MoE), have been extensively explored as they can considerably improve the model's representation power with acceptable computational cost. The common practice in implementing dynamic networks is to convert the given static layers into fully dynamic ones where all parameters are dynamic (at least within a single layer) and vary with the input. However, such a fully dynamic setting may cause redundant parameters and high deployment costs, limiting the applicability of dynamic networks to a broader range of tasks and models. The main contributions of our work are challenging the basic commonsense in dynamic networks and proposing a partially dynamic network, namely PAD-Net, to transform the redundant dynamic parameters into static ones. Also, we further design Iterative Mode Partition to partition dynamic and static parameters efficiently. Our method is comprehensively supported by large-scale experiments with two typical advanced dynamic architectures, i.e., DY-Conv and MoE, on both image classification and GLUE benchmarks. Encouragingly, we surpass the fully dynamic networks by $+0.7\%$ top-1 acc with only $30\%$ dynamic parameters for ResNet-50 and $+1.9\%$ average score in language understanding with only $50\%$ dynamic parameters for BERT. Code will be released at: \url{https://github.com/Shwai-He/PAD-Net}. | 翻訳日:2023-06-02 04:01:06 公開日:2023-05-31 |
# Paired Inverse Pyramid StructureとDense MLP Blockに基づく効果的な音声分類網 Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block ( http://arxiv.org/abs/2211.02940v4 ) ライセンス: Link先を確認 | Yunhao Chen, Yunjie Zhu, Zihui Yan, Yifan Huang, Zhen Ren, Jianlu Shen and Lifang Chen | (参考訳) 近年,畳み込みニューラルネットワーク(CNN)と自己認識機構に基づく大規模アーキテクチャが,音声分類に必要となっている。
これらのテクニックは最先端技術であるが、これらの作業の有効性は、膨大な計算コストとパラメータ、大量のデータ拡張、大規模なデータセットからの転送などによってのみ保証される。
本稿では,音声の軽量性を活用することで,ペア化逆ピラミッド構造(pip)とペア化逆ピラミッド構造mlpネットワーク(pipmn)と呼ばれる効率的なネットワーク構造を提案する。
pipmnは、urbansound8kデータセットにおける環境音分類(esc)精度の96\%、gtaznデータセット上の音楽ジャンル分類(mgc)の93.2\%に到達し、パラメータはわずか100万である。
両方の結果はデータ拡張やモデル転送なしで達成されます。
公開コードはhttps://github.com/jnaic/pipmn。 Recently, massive architectures based on Convolutional Neural Network (CNN) and self-attention mechanisms have become necessary for audio classification. While these techniques are state-of-the-art, these works' effectiveness can only be guaranteed with huge computational costs and parameters, large amounts of data augmentation, transfer from large datasets and some other tricks. By utilizing the lightweight nature of audio, we propose an efficient network structure called Paired Inverse Pyramid Structure (PIP) and a network called Paired Inverse Pyramid Structure MLP Network (PIPMN). The PIPMN reaches 96\% of Environmental Sound Classification (ESC) accuracy on the UrbanSound8K dataset and 93.2\% of Music Genre Classification (MGC) on the GTAZN dataset, with only 1 million parameters. Both of the results are achieved without data augmentation or model transfer. Public code is available at: https://github.com/JNAIC/PIPMN | 翻訳日:2023-06-02 04:00:38 公開日:2023-05-31 |
# リコンストラクションのない自己組織型多エージェントシステムの局所的挙動予測 Forecasting Local Behavior of Self-organizing Many-agent System without Reconstruction ( http://arxiv.org/abs/2210.17289v2 ) ライセンス: Link先を確認 | Beomseok Kang, Minah Lee, Harshit Kumar, Saibal Mukhopadhyay | (参考訳) 大規模なマルチエージェントシステムは、しばしば局所的に定義されたエージェント相互作用によって駆動される。
我々の主な目的は、そのような局所的な相互作用の伝播がいつ特定の関心のエージェントに到達するかを決定することである。
全てのエージェント状態を再構築する従来の手法を用いることができるが、不要な計算コストがかかる可能性がある。
本稿では,大規模な自己組織型マルチエージェントシステムにおけるエージェントの状態を予測するためのCNN-LSTMモデルについて検討する。
提案モデルは,低次元ベクトルにおけるシステムを表現するCNNエンコーダと,ベクトル空間におけるエージェントダイナミクスを学習するLSTMモジュールと,エージェントの将来状態を予測するMLPデコーダとを備える。
一例として、特定の樹木が燃え始める時期を予測する森林火災モデルについて考察する。
提案モデルとCNN-LSTMやConvLSTMのような再構成に基づくアプローチを比較した。
提案モデルはAUCと似ているかやや悪いが、ConvLSTMよりもアクティベーションなどの計算コストを大幅に削減する。
さらに、再構成ベースのCNN-LSTMよりも少ない計算で高いAUCを実現する。 Large multi-agent systems are often driven by locally defined agent interactions, which is referred to as self-organization. Our primary objective is to determine when the propagation of such local interactions will reach a specific agent of interest. Although conventional approaches that reconstruct all agent states can be used, they may entail unnecessary computational costs. In this paper, we investigate a CNN-LSTM model to forecast the state of a particular agent in a large self-organizing multi-agent system without the reconstruction. The proposed model comprises a CNN encoder to represent the system in a low-dimensional vector, a LSTM module to learn agent dynamics in the vector space, and a MLP decoder to predict the future state of an agent. As an example, we consider a forest fire model where we aim to predict when a particular tree agent will start burning. We compare the proposed model with reconstruction-based approaches such as CNN-LSTM and ConvLSTM. The proposed model exhibits similar or slightly worse AUC but significantly reduces computational costs such as activation than ConvLSTM. Moreover, it achieves higher AUC with less computation than the recontruction-based CNN-LSTM. | 翻訳日:2023-06-02 04:00:21 公開日:2023-05-31 |
# 2モードボソニックキュートである2T$-qutrit The $2T$-qutrit, a two-mode bosonic qutrit ( http://arxiv.org/abs/2210.16188v3 ) ライセンス: Link先を確認 | Aur\'elie Denys, Anthony Leverrier | (参考訳) 量子コンピュータは、2レベル量子システムで符号化された物理量子ビットをしばしば操作する。
ボソニック量子ビット符号は、無限次元のフォック空間の固有部分空間に情報を符号化することでこのアイデアから逸脱する。
この大きな物理的空間は、実験的な不完全性に対する自然な保護を与え、ボソニック符号は2次元ヒルベルト空間によって制約された状態に適用されるno-go結果を回避することができる。
ボソニックキュービットは通常、単一のボソニックモードで定義されるが、より良いパフォーマンスを示すマルチモードバージョンを探すのは理にかなっている。
本研究では, 猫符号が複素数の有限部分群で指数付けられたコヒーレント状態のスパンに存在するという観測に基づいて, 四元数の二元四面体群 2T$ で指数付けられた24コヒーレント状態のスパンに存在する2モードの一般化を考える。
結果として得られる 2T$-クォートは自然に群 2T$ の代数的性質を継承し、低損失状態において非常に堅牢であるように見える。
我々はその研究を開始し、安定化器とこのボゾン符号の論理演算子を同定する。 Quantum computers often manipulate physical qubits encoded on two-level quantum systems. Bosonic qubit codes depart from this idea by encoding information in a well-chosen subspace of an infinite-dimensional Fock space. This larger physical space provides a natural protection against experimental imperfections and allows bosonic codes to circumvent no-go results that apply to states constrained by a 2-dimensional Hilbert space. A bosonic qubit is usually defined in a single bosonic mode but it makes sense to look for multimode versions that could exhibit better performance. In this work, building on the observation that the cat code lives in the span of coherent states indexed by a finite subgroup of the complex numbers, we consider a two-mode generalisation living in the span of 24 coherent states indexed by the binary tetrahedral group $2T$ of the quaternions. The resulting $2T$-qutrit naturally inherits the algebraic properties of the group $2T$ and appears to be quite robust in the low-loss regime. We initiate its study and identify stabilisers as well as some logical operators for this bosonic code. | 翻訳日:2023-06-02 03:59:33 公開日:2023-05-31 |
# E-MCTS:てんかん不確実性を考慮した計画によるモデルベース強化学習の深層探査 E-MCTS: Deep Exploration in Model-Based Reinforcement Learning by Planning with Epistemic Uncertainty ( http://arxiv.org/abs/2210.13455v2 ) ライセンス: Link先を確認 | Yaniv Oren, Matthijs T. J. Spaan and Wendelin B\"ohmer | (参考訳) Model-Based Reinforcement Learning (MBRL) で最もよく研究され、高機能な計画手法の1つはモンテカルロ木探索 (MCTS) である。
MCTSをベースとしたMBRL法の主な課題は、未知の状況下での深層探査と信頼性であり、MCTSの予測における原則的疫学的不確実性推定によって両者の課題を緩和することができる。
まず,mctsにおける認識的不確かさを伝達する手法を開発し,その予測における認識的不確かさをエージェントが推定できるようにする。
第2に,新しい深層探査アルゴリズムの伝播不確実性を利用して,探索を明示的に計画する。
我々は,MCTSに基づくMBRLアプローチの学習および提供モデルにアプローチを取り入れ,我々のアプローチが達成した疫学的不確実性評価を成功させることで,深い探索を実証的に示す。
本研究は,非計画に基づく深層探査ベースラインと比較し,てんかん性MCTSによる計画が,非計画に基づく調査よりも有意に優れていることを示す。 One of the most well-studied and highly performing planning approaches used in Model-Based Reinforcement Learning (MBRL) is Monte-Carlo Tree Search (MCTS). Key challenges of MCTS-based MBRL methods remain dedicated deep exploration and reliability in the face of the unknown, and both challenges can be alleviated through principled epistemic uncertainty estimation in the predictions of MCTS. We present two main contributions: First, we develop methodology to propagate epistemic uncertainty in MCTS, enabling agents to estimate the epistemic uncertainty in their predictions. Second, we utilize the propagated uncertainty for a novel deep exploration algorithm by explicitly planning to explore. We incorporate our approach into variations of MCTS-based MBRL approaches with learned and provided models, and empirically show deep exploration through successful epistemic uncertainty estimation achieved by our approach. We compare to a non-planning-based deep-exploration baseline, and demonstrate that planning with epistemic MCTS significantly outperforms non-planning based exploration in the investigated setting. | 翻訳日:2023-06-02 03:58:57 公開日:2023-05-31 |
# STAP: Task-Agnostic Policiesのシーケンス STAP: Sequencing Task-Agnostic Policies ( http://arxiv.org/abs/2210.12250v3 ) ライセンス: Link先を確認 | Christopher Agia and Toki Migimatsu and Jiajun Wu and Jeannette Bohg | (参考訳) ロボットスキル獲得の進歩により、下流操作タスクのための学習スキルの汎用ライブラリの構築が可能になった。
しかし、これらのスキルを相次いで生かして実行することは、長期計画に共通する行動間の依存関係を考慮せずに成功する可能性は低い。
タスク非依存型ポリシ(stap)という,操作スキルのトレーニングと,その幾何学的依存関係を計画時にコーディネートするスケーラブルなフレームワークを提案する。
q-函数がスキル実現可能性の尺度をコードしていることを考えると、計画にシーケンスされたすべてのスキルの合同成功を最大化するために最適化問題を定式化する。
実験により,本目的関数は基本真理計画の実現可能性に近似し,計画目的として用いると筋活動が減少し,長期作業の成功が促進されることが示唆された。
さらに,タスクプランナが提供したスキルシーケンスの幾何学的実現可能性を評価することで,STAPをタスク計画や動作計画に利用できることを示す。
我々はシミュレーションと実際のロボットによるアプローチを評価する。
質的な結果とコードはhttps://sites.google.com/stanford.edu/stapで入手できる。 Advances in robotic skill acquisition have made it possible to build general-purpose libraries of learned skills for downstream manipulation tasks. However, naively executing these skills one after the other is unlikely to succeed without accounting for dependencies between actions prevalent in long-horizon plans. We present Sequencing Task-Agnostic Policies (STAP), a scalable framework for training manipulation skills and coordinating their geometric dependencies at planning time to solve long-horizon tasks never seen by any skill during training. Given that Q-functions encode a measure of skill feasibility, we formulate an optimization problem to maximize the joint success of all skills sequenced in a plan, which we estimate by the product of their Q-values. Our experiments indicate that this objective function approximates ground truth plan feasibility and, when used as a planning objective, reduces myopic behavior and thereby promotes long-horizon task success. We further demonstrate how STAP can be used for task and motion planning by estimating the geometric feasibility of skill sequences provided by a task planner. We evaluate our approach in simulation and on a real robot. Qualitative results and code are made available at https://sites.google.com/stanford.edu/stap. | 翻訳日:2023-06-02 03:58:38 公開日:2023-05-31 |
# 低リソース言語のための言語横断検索プロンプト Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages ( http://arxiv.org/abs/2212.09651v3 ) ライセンス: Link先を確認 | Ercong Nie, Sheng Liang, Helmut Schmid, Hinrich Sch\"utze | (参考訳) 多言語前訓練言語モデル(mplms)は、最近の経験的言語間移行研究において、その強い多言語性を示している。
本稿では,低リソース言語 (LRL) におけるゼロショット性能を向上させるために,高リソース言語 (HRL) から取得した意味的に類似した文をプロンプトとして拡張することにより,Pmpts Augmented by Retrieval Crosslingually (PARC) パイプラインを提案する。
PARCは3つの下流タスク(バイナリ感情分類、トピック分類、自然言語推論)におけるゼロショットのパフォーマンスを改善し、ラベルなし設定(+5.1%)とラベル付き設定(+16.3%)の6つの言語ファミリーをカバーする10のLRLにわたる多言語並列テストセットを提供する。
PARC-labeledは微調整ベースラインを3.7%上回っている。
その結果,一方の言語間伝達性能と高・低リソース言語間の類似性,他方の低リソースプリトレーニングデータの量との間に有意な相関が認められた。
堅牢性分析は、PARCがより強力なMPLMでさらに強力な性能を達成する可能性を示唆している。 Multilingual Pretrained Language Models (MPLMs) have shown their strong multilinguality in recent empirical cross-lingual transfer studies. In this paper, we propose the Prompts Augmented by Retrieval Crosslingually (PARC) pipeline to improve the zero-shot performance on low-resource languages (LRLs) by augmenting the context with semantically similar sentences retrieved from a high-resource language (HRL) as prompts. PARC improves the zero-shot performance on three downstream tasks (binary sentiment classification, topic categorization and natural language inference) with multilingual parallel test sets across 10 LRLs covering 6 language families in both unlabeled settings (+5.1%) and labeled settings (+16.3%). PARC-labeled also outperforms the finetuning baseline by 3.7%. We find a significant positive correlation between cross-lingual transfer performance on one side, and the similarity between the high- and low-resource languages as well as the amount of low-resource pretraining data on the other side. A robustness analysis suggests that PARC has the potential to achieve even stronger performance with more powerful MPLMs. | 翻訳日:2023-06-02 03:51:28 公開日:2023-05-31 |
# DuNST: 半スーパービジョン制御可能なテキスト生成のためのデュアルノイズセルフトレーニング DuNST: Dual Noisy Self Training for Semi-Supervised Controllable Text Generation ( http://arxiv.org/abs/2212.08724v2 ) ライセンス: Link先を確認 | Yuxi Feng, Xiaoyuan Yi, Xiting Wang, Laks V.S. Lakshmanan, Xing Xie | (参考訳) ラベル付きデータが不十分な場合、事前学習された言語モデルの微調整を増強することにより、言語理解において再び成長した。
しかし、STを属性制御可能な言語生成に組み込むことは依然として困難である。
自己生成した擬似テキストのみによって拡張され、生成モデルは制限された一般化境界に苦しむ前に学習された空間の活用を過大に強調する。
我々はSTを再検討し、この問題を緩和する新しい方法DuNSTを提案する。
dunstは共用変分オートエンコーダでテキスト生成と分類をモデル化し、生成された擬似テキストを2種類のフレキシブルノイズで分解して空間を乱す。
このようにして、我々のモデルは、与えられたラベルから擬似テキストと利用可能な無ラベルテキストから擬似ラベルの両方を構築し、利用することができる。
理論的には、DuNSTは潜在的な実テキスト空間への探索の強化であり、性能向上の保証となる。
3つの制御可能な生成タスクの実験は、ダンストがいくつかの強力なベースラインに対して同等の世代流束と多様性を維持しながら、制御精度を著しく向上できることを示した。 Self-training (ST) has prospered again in language understanding by augmenting the fine-tuning of pre-trained language models when labeled data is insufficient. However, it remains challenging to incorporate ST into attribute-controllable language generation. Augmented by only self-generated pseudo text, generation models over-emphasize exploitation of the previously learned space, suffering from a constrained generalization boundary. We revisit ST and propose a novel method, DuNST to alleviate this problem. DuNST jointly models text generation and classification with a shared Variational AutoEncoder and corrupts the generated pseudo text by two kinds of flexible noise to disturb the space. In this way, our model could construct and utilize both pseudo text from given labels and pseudo labels from available unlabeled text, which are gradually refined during the ST process. We theoretically demonstrate that DuNST can be regarded as enhancing exploration towards the potential real text space, providing a guarantee of improved performance. Experiments on three controllable generation tasks show that DuNST could significantly boost control accuracy while maintaining comparable generation fluency and diversity against several strong baselines. | 翻訳日:2023-06-02 03:51:05 公開日:2023-05-31 |
# タスク類似性に基づく木構造parzen推定器のメタラーニングによる多目的ハイパーパラメータ最適化の高速化 Speeding Up Multi-Objective Hyperparameter Optimization by Task Similarity-Based Meta-Learning for the Tree-Structured Parzen Estimator ( http://arxiv.org/abs/2212.06751v5 ) ライセンス: Link先を確認 | Shuhei Watanabe, Noor Awad, Masaki Onishi, Frank Hutter | (参考訳) ハイパーパラメータ最適化(HPO)は,ディープラーニング(DL)の性能向上のための重要なステップである。
実践者は、正確性やレイテンシなど、複数の基準の間のトレードオフに直面します。
DLの高い計算要求と効率的なHPOの需要の増大を考えると、多目的最適化(MO)の加速はますます重要になる。
HPOのメタラーニングに多大な努力を払っているにもかかわらず、既存の手法はMO木構造Parzen estimator (MO-TPE) には適用できない。
本稿では,タスク間のトップドメインの重複によって定義されるタスク類似性を用いて,TPEの取得機能をメタ学習環境に拡張する。
また,タスク類似性の限界を理論的に解析し,対処する。
実験では,表付きHPOベンチマークでMO-TPEを高速化し,最先端性能を実現する。
また, AutoML 2022 コンペティション "Multiobjective Hyperparameter Optimization for Transformers" で優勝した。 Hyperparameter optimization (HPO) is a vital step in improving performance in deep learning (DL). Practitioners are often faced with the trade-off between multiple criteria, such as accuracy and latency. Given the high computational needs of DL and the growing demand for efficient HPO, the acceleration of multi-objective (MO) optimization becomes ever more important. Despite the significant body of work on meta-learning for HPO, existing methods are inapplicable to MO tree-structured Parzen estimator (MO-TPE), a simple yet powerful MO-HPO algorithm. In this paper, we extend TPE's acquisition function to the meta-learning setting using a task similarity defined by the overlap of top domains between tasks. We also theoretically analyze and address the limitations of our task similarity. In the experiments, we demonstrate that our method speeds up MO-TPE on tabular HPO benchmarks and attains state-of-the-art performance. Our method was also validated externally by winning the AutoML 2022 competition on "Multiobjective Hyperparameter Optimization for Transformers". | 翻訳日:2023-06-02 03:50:44 公開日:2023-05-31 |
# elixir: 小さなgpuクラスタで大規模な言語モデルをトレーニングする Elixir: Train a Large Language Model on a Small GPU Cluster ( http://arxiv.org/abs/2212.05339v3 ) ライセンス: Link先を確認 | Haichen Huang and Jiarui Fang and Hongxin Liu and Shenggui Li and Yang You | (参考訳) 近年では、前例のない大きさで大きな言語モデルが大きな成功を収めている。
しかし、これらのモデルのトレーニングは多くのGPUを必要とするため、ほとんどの研究者にとって課題となる。
GPUメモリ使用量を削減するため、メモリパーティショニング、メモリオフロードが提案されている。
これらのアプローチは、メモリ冗長性を排除し、cpuとnvmeメモリへのメモリ使用量をオフロードし、小さなgpuクラスタでのトレーニングを可能にする。
しかし、これらのソリューションを直接デプロイすることは、しばしば最適でない効率をもたらす。
経験豊富な専門家だけが、分散構成を慎重に調整することで、ハードウェアの可能性を完全に解き放つことができる。
そこで本研究では,事前実行時のモデルプロファイリングに基づく効率的な大規模モデルのトレーニングを自動化するelixirを提案する。
Elixirは、トレーニングスループットを最大化するために、パーティショニングとオフロードのテクニックの最適な組み合わせを特定することを目指している。
我々の実験では、Elixirは現在の最先端のベースラインを大きく上回っている。
我々の最適構成は、SOTAソリューションと比較してGPT-2モデルの最大3.4$\times$スピードアップを達成する。
私たちの仕事は、コンピューティングリソースと専門知識が不足している個人に利益をもたらし、大きなモデルにアクセスできることを期待しています。
Elixirのベータ版はhttps://github.com/hpcaitech/ColossalAI/tree/feature/elixirで公開されている。 In recent years, large language models have achieved great success due to their unprecedented size. However, training these models poses a challenge for most researchers as it requires a substantial number of GPUs. To reduce GPU memory usage, memory partitioning, and memory offloading have been proposed. These approaches eliminate memory redundancies and offload memory usage to the CPU and NVMe memory, respectively, enabling training on small GPU clusters. However, directly deploying these solutions often leads to suboptimal efficiency. Only experienced experts can unleash the full potential of hardware by carefully tuning the distributed configuration. Thus, we present a novel solution, Elixir, which automates efficient large-model training based on pre-runtime model profiling. Elixir aims to identify the optimal combination of partitioning and offloading techniques to maximize training throughput. In our experiments, Elixir significantly outperforms the current state-of-the-art baseline. Our optimal configuration achieves up to a 3.4$\times$ speedup on GPT-2 models compared with SOTA solutions. We hope that our work will benefit individuals who lack computing resources and expertise, granting them access to large models. The beta version of Elixir is now available at https://github.com/hpcaitech/ColossalAI/tree/feature/elixir. | 翻訳日:2023-06-02 03:50:23 公開日:2023-05-31 |
# X-Paste: CLIPとStableDiffusionを使ったインスタンスセグメンテーションのためのスケーラブルコピーペーストの再検討 X-Paste: Revisiting Scalable Copy-Paste for Instance Segmentation using CLIP and StableDiffusion ( http://arxiv.org/abs/2212.03863v2 ) ライセンス: Link先を確認 | Hanqing Zhao and Dianmo Sheng and Jianmin Bao and Dongdong Chen and Dong Chen and Fang Wen and Lu Yuan and Ce Liu and Wenbo Zhou and Qi Chu and Weiming Zhang and Nenghai Yu | (参考訳) Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。
オブジェクトインスタンスを新しいバックグラウンドイメージにランダムにペーストすることで、新しいトレーニングデータを無償で生成し、特に稀なオブジェクトカテゴリにおいてセグメンテーションのパフォーマンスを大幅に向上する。
コピーペーストで使用される多様で高品質なオブジェクトインスタンスは、より多くのパフォーマンス向上をもたらすが、以前の作品は、人間の注釈付きインスタンスセグメンテーションデータセットからのオブジェクトインスタンスや、3dオブジェクトモデルからのレンダリングを利用する。
本稿では,新たに出現したゼロショット認識モデル(クリップなど)とtext2画像モデル(stablediffusionなど)を用いて,コピーペーストを大規模に再検討する。
我々は、text2imageモデルを用いて画像やゼロショット認識モデルを生成し、さまざまなオブジェクトカテゴリに対してノイズの多いクロール画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにするための実現可能な方法であることを示す。
このような成功を収めるために,系統的な研究を行う「X-Paste」と呼ばれるデータ取得・処理フレームワークを設計する。
LVISデータセットでは、X-Pasteが強力なベースラインであるCenterNet2よりも大幅に改善され、Swin-Lがバックボーンとなっている。
具体的には、すべてのクラスで +2.6 ボックス ap と +2.1 マスク ap をアーカイブし、長テールクラスでは +6.8 ボックス ap と +6.5 マスク ap をアーカイブする。
私たちのコードとモデルはhttps://github.com/yoctta/xpasteで利用可能です。 Copy-Paste is a simple and effective data augmentation strategy for instance segmentation. By randomly pasting object instances onto new background images, it creates new training data for free and significantly boosts the segmentation performance, especially for rare object categories. Although diverse, high-quality object instances used in Copy-Paste result in more performance gain, previous works utilize object instances either from human-annotated instance segmentation datasets or rendered from 3D object models, and both approaches are too expensive to scale up to obtain good diversity. In this paper, we revisit Copy-Paste at scale with the power of newly emerged zero-shot recognition models (e.g., CLIP) and text2image models (e.g., StableDiffusion). We demonstrate for the first time that using a text2image model to generate images or zero-shot recognition model to filter noisily crawled images for different object categories is a feasible way to make Copy-Paste truly scalable. To make such success happen, we design a data acquisition and processing framework, dubbed ``X-Paste", upon which a systematic study is conducted. On the LVIS dataset, X-Paste provides impressive improvements over the strong baseline CenterNet2 with Swin-L as the backbone. Specifically, it archives +2.6 box AP and +2.1 mask AP gains on all classes and even more significant gains with +6.8 box AP, +6.5 mask AP on long-tail classes. Our code and models are available at https://github.com/yoctta/XPaste. | 翻訳日:2023-06-02 03:50:05 公開日:2023-05-31 |
# イグドラジル森林:高速で拡張可能な森林図書館 Yggdrasil Decision Forests: A Fast and Extensible Decision Forests Library ( http://arxiv.org/abs/2212.02934v2 ) ライセンス: Link先を確認 | Mathieu Guillame-Bert, Sebastian Bruch, Richard Stotz, Jan Pfeifer | (参考訳) Yggdrasil Decision Forestsは、C++で実装され、C++、コマンドラインインターフェース、Python(TensorFlow Decision Forestsという名で)、JavaScript、Go、Google Sheets(Simple ML for Sheetsという名で)で利用可能な、研究と運用の両方を対象とした、意思決定林モデルのトレーニング、サービス、解釈のためのライブラリである。
このライブラリは、使用の単純さ、使用の安全性、モジュール化と高レベルの抽象化、他の機械学習ライブラリとの統合という、機械学習ライブラリとフレームワークに適用可能な4つの設計原則のセットに従って、2018年から組織的に開発されている。
本稿では,これらの原則を詳述し,図書館設計の指針として利用した方法について述べる。
次に、古典的な機械学習問題に対する私たちのライブラリの使用を紹介します。
最後に,本ライブラリを関連するソリューションと比較したベンチマークを報告する。 Yggdrasil Decision Forests is a library for the training, serving and interpretation of decision forest models, targeted both at research and production work, implemented in C++, and available in C++, command line interface, Python (under the name TensorFlow Decision Forests), JavaScript, Go, and Google Sheets (under the name Simple ML for Sheets). The library has been developed organically since 2018 following a set of four design principles applicable to machine learning libraries and frameworks: simplicity of use, safety of use, modularity and high-level abstraction, and integration with other machine learning libraries. In this paper, we describe those principles in detail and present how they have been used to guide the design of the library. We then showcase the use of our library on a set of classical machine learning problems. Finally, we report a benchmark comparing our library to related solutions. | 翻訳日:2023-06-02 03:48:47 公開日:2023-05-31 |
# 拡散モデルを用いた画素誘導による細粒画像編集 Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models ( http://arxiv.org/abs/2212.02024v3 ) ライセンス: Link先を確認 | Naoki Matsunaga, Masato Ishii, Akio Hayakawa, Kenji Suzuki, Takuya Narihira | (参考訳) 我々のゴールは、現実世界のアプリケーションに適したきめ細かい実画像編集手法を開発することである。
本稿では,まず,これらの手法の4つの要件を要約し,これらの要件を満たす画素単位のガイダンスを備えた拡散型画像編集フレームワークを提案する。
具体的には,いくつかの注釈データを用いて画素分類器を訓練し,対象画像のセグメンテーションマップを推定する。
ユーザは地図を操作して、画像の編集方法を指示する。
我々は,事前学習した拡散モデルを用いて,ユーザの意図に沿った編集画像を生成する。
提案手法と他の手法の効果的な組み合わせにより,編集領域の外部を保存し,高度に制御可能な編集が可能となる。
実験の結果,提案手法は品質と速度の編集方法よりも優れていることがわかった。 Our goal is to develop fine-grained real-image editing methods suitable for real-world applications. In this paper, we first summarize four requirements for these methods and propose a novel diffusion-based image editing framework with pixel-wise guidance that satisfies these requirements. Specifically, we train pixel-classifiers with a few annotated data and then infer the segmentation map of a target image. Users then manipulate the map to instruct how the image will be edited. We utilize a pre-trained diffusion model to generate edited images aligned with the user's intention with pixel-wise guidance. The effective combination of proposed guidance and other techniques enables highly controllable editing with preserving the outside of the edited area, which results in meeting our requirements. The experimental results demonstrate that our proposal outperforms the GAN-based method for editing quality and speed. | 翻訳日:2023-06-02 03:48:28 公開日:2023-05-31 |
# 基礎モデルの力について On the Power of Foundation Models ( http://arxiv.org/abs/2211.16327v3 ) ライセンス: Link先を確認 | Yang Yuan | (参考訳) 無限に多くの高品質なデータポイント、無限の計算力、完璧なトレーニングアルゴリズムを備えた無限大の基礎モデル、プレテキストタスクにおけるゼロ一般化誤差を保証することで、モデルはあらゆることに利用できるだろうか?
この問題は、それらが主に調査する問題はここでは存在しないと仮定されるため、既存の表現理論、最適化理論、一般化理論によっては答えられない。
本稿では,カテゴリ理論がこの問題に答える強力な機械を提供することを示す。
3つの結果が得られた。
最初の1つは、プロンプトベースの学習のパワーを制限し、そのモデルは、そのタスクが表現可能であれば、プロンプトで下流のタスクを解決できる、と言う。
第二に、ファインチューニングは、必要最小限のパワー(対称性まで)を持つ基礎モデルとして、プリテキストタスクによって定義されたカテゴリの下流タスクを、微調整と十分なリソースで理論的に解くことができるため、この制限を持たないと言う。
我々の最終結果は新たな一般化定理と見なすことができ、基礎モデルが対象のカテゴリ(例えば画像)から、ソースのカテゴリ(例えばテキスト)の構造情報を使って、未発見のオブジェクトを生成できることを示します。
その過程で私たちは,独立した関心を持つ可能性のある,教師付きおよび自己教師型学習のための分類的枠組みを提供する。 With infinitely many high-quality data points, infinite computational power, an infinitely large foundation model with a perfect training algorithm and guaranteed zero generalization error on the pretext task, can the model be used for everything? This question cannot be answered by the existing theory of representation, optimization or generalization, because the issues they mainly investigate are assumed to be nonexistent here. In this paper, we show that category theory provides powerful machinery to answer this question. We have proved three results. The first one limits the power of prompt-based learning, saying that the model can solve a downstream task with prompts if and only if the task is representable. The second one says fine tuning does not have this limit, as a foundation model with the minimum required power (up to symmetry) can theoretically solve downstream tasks for the category defined by pretext task, with fine tuning and enough resources. Our final result can be seen as a new type of generalization theorem, showing that the foundation model can generate unseen objects from the target category (e.g., images) using the structural information from the source category (e.g., texts). Along the way, we provide a categorical framework for supervised and self-supervised learning, which might be of independent interest. | 翻訳日:2023-06-02 03:48:15 公開日:2023-05-31 |
# PEAK: 自動知識抽出による説明可能なプライバシアシスタント PEAK: Explainable Privacy Assistant through Automated Knowledge Extraction ( http://arxiv.org/abs/2301.02079v2 ) ライセンス: Link先を確認 | Gonul Ayci, Arzucan \"Ozg\"ur, Murat \c{S}ensoy, P{\i}nar Yolum | (参考訳) オンラインプライバシーの分野では、プライバシーアシスタントがユーザーのプライバシーを効果的に管理する上で重要な役割を果たしている。
最近の研究では、プライバシ侵害検出やパーソナライズされたプライバシ推奨といったタスクに取り組むことに有望な進展が示されているが、広くユーザ採用される上で重要な側面は、これらのシステムが意思決定プロセスの説明を提供する能力である。
本稿ではプライバシ決定のための説明を生成するためのプライバシアシスタントを提案する。
プライバシーアシスタントは、潜在トピックの発見、説明カテゴリの特定、説明スキームの確立、自動説明の生成に焦点を当てている。
生成された説明は、ユーザーがプライバシーアシスタントの推奨を理解するために使用できる。
実世界の画像のプライバシーデータセットに関するユーザ調査では、ユーザが生成した説明が有用で理解しやすいことがわかった。
さらに、生成された説明は、プライバシアシスタント自身が意思決定を改善するために使用できる。
生成した説明を最先端のプライバシアシスタントに組み込むことで、これを実現する方法を示す。 In the realm of online privacy, privacy assistants play a pivotal role in empowering users to manage their privacy effectively. Although recent studies have shown promising progress in tackling tasks such as privacy violation detection and personalized privacy recommendations, a crucial aspect for widespread user adoption is the capability of these systems to provide explanations for their decision-making processes. This paper presents a privacy assistant for generating explanations for privacy decisions. The privacy assistant focuses on discovering latent topics, identifying explanation categories, establishing explanation schemes, and generating automated explanations. The generated explanations can be used by users to understand the recommendations of the privacy assistant. Our user study of real-world privacy dataset of images shows that users find the generated explanations useful and easy to understand. Additionally, the generated explanations can be used by privacy assistants themselves to improve their decision-making. We show how this can be realized by incorporating the generated explanations into a state-of-the-art privacy assistant. | 翻訳日:2023-06-02 03:42:05 公開日:2023-05-31 |
# 組込みシステムにおけるリアルタイムセマンティックセグメンテーションの不確かさ Uncertainty in Real-Time Semantic Segmentation on Embedded Systems ( http://arxiv.org/abs/2301.01201v3 ) ライセンス: Link先を確認 | Ethan Goan and Clinton Fookes | (参考訳) 自動運転車や人間のコンピュータインタラクションといった分野におけるセマンティックセグメンテーションモデルの応用には、リアルタイムな予測能力が必要である。
リアルタイムアプリケーションに対処する際の課題は、リソース制約のあるハードウェアを操作する必要性によって増幅される。
これらのプラットフォーム向けのリアルタイムメソッドの開発は増加しているが、不確実性に関する十分な推論はできない。
本稿では,事前学習モデルからの深い特徴抽出とベイズ回帰とモーメント伝搬を組み合わせることで,不確実性を考慮した予測を行う。
提案手法は, 予測性能を維持しつつ, 組込みハードウェアに有意な不確実性をもたらすことを示す。 Application for semantic segmentation models in areas such as autonomous vehicles and human computer interaction require real-time predictive capabilities. The challenges of addressing real-time application is amplified by the need to operate on resource constrained hardware. Whilst development of real-time methods for these platforms has increased, these models are unable to sufficiently reason about uncertainty present. This paper addresses this by combining deep feature extraction from pre-trained models with Bayesian regression and moment propagation for uncertainty aware predictions. We demonstrate how the proposed method can yield meaningful uncertainty on embedded hardware in real-time whilst maintaining predictive performance. | 翻訳日:2023-06-02 03:41:46 公開日:2023-05-31 |
# マルチコースクラウドソーシングにおけるトップ2回答とコンフュージョン確率の回復 Recovering Top-Two Answers and Confusion Probability in Multi-Choice Crowdsourcing ( http://arxiv.org/abs/2301.00006v2 ) ライセンス: Link先を確認 | Hyeonsu Jeong and Hye Won Chung | (参考訳) クラウドソーシングは、大量のデータをコストと時間効率でラベル付けするための効果的なプラットフォームとして登場した。
これまでのほとんどの研究は、データの接地ラベルのみを復元する効率的なアルゴリズムの設計に重点を置いてきた。
本稿では,基礎的真理だけでなく,最も紛らわしい回答と混乱の確率を回復することを目的として,マルチチョイスのクラウドソーシングタスクを検討する。
もっとも紛らわしい答えは、基礎的な真実とそれがいかに妥当であるか以外の最も妥当な答えを明らかにすることで、タスクに関する有用な情報を提供する。
このようなシナリオを理論的に解析するために、各タスクに2つの可能な答えがあり、他の選択肢とは区別されるモデルを提案する。
タスクの難易度はトップ2間の混乱の確率で定量化され、ワーカーの信頼性は上位2間の回答の確率で定量化される。
本モデルでは,上位2つの解と混乱確率の両方を推定する2段階推定アルゴリズムを提案する。
このアルゴリズムが最小最適収束率を達成することを示す。
我々は、合成データと実データの両方の実験を行い、我々のアルゴリズムが他の最近のアルゴリズムより優れていることを示す。
また,タスクの難しさを推定するアルゴリズムの適用性や,上位2つのソフトラベルを用いたニューラルネットワークのトレーニングも示す。 Crowdsourcing has emerged as an effective platform for labeling large amounts of data in a cost- and time-efficient manner. Most previous work has focused on designing an efficient algorithm to recover only the ground-truth labels of the data. In this paper, we consider multi-choice crowdsourcing tasks with the goal of recovering not only the ground truth, but also the most confusing answer and the confusion probability. The most confusing answer provides useful information about the task by revealing the most plausible answer other than the ground truth and how plausible it is. To theoretically analyze such scenarios, we propose a model in which there are the top two plausible answers for each task, distinguished from the rest of the choices. Task difficulty is quantified by the probability of confusion between the top two, and worker reliability is quantified by the probability of giving an answer among the top two. Under this model, we propose a two-stage inference algorithm to infer both the top two answers and the confusion probability. We show that our algorithm achieves the minimax optimal convergence rate. We conduct both synthetic and real data experiments and demonstrate that our algorithm outperforms other recent algorithms. We also show the applicability of our algorithms in inferring the difficulty of tasks and in training neural networks with top-two soft labels. | 翻訳日:2023-06-02 03:41:37 公開日:2023-05-31 |
# 離散情報ボトルネックによる深部RLの表現学習 Representation Learning in Deep RL via Discrete Information Bottleneck ( http://arxiv.org/abs/2212.13835v2 ) ライセンス: Link先を確認 | Riashat Islam, Hongyu Zang, Manan Tomar, Aniket Didolkar, Md Mofijul Islam, Samin Yeasar Arnob, Tariq Iqbal, Xin Li, Anirudh Goyal, Nicolas Heess, Alex Lamb | (参考訳) 強化学習(RL)のための自己教師付き表現学習法がいくつか提案されている。
RLの実際の応用においては、特に知覚入力が無関係で外生的な情報を含む場合、下層の潜伏状態の回復が重要である。
本研究では,タスク関連情報の存在下で,遅延状態の効率的な構築に情報ボトルネックを用いる方法について検討する。
本稿では,構造的因子化表現を学習するために,変動的および離散的情報ボトルネックをrepdibとして用いたアーキテクチャを提案する。
因子化表現によって購入された表現性をエクスプロイトし、RLの既存の自己監督対象と統合可能な、単純かつ効果的でボトルネックを導入する。
我々は、オンラインおよびオフラインのrlベンチマークと実際のロボットアームタスクでこれを実証し、repdibによる圧縮表現は、無関係な情報を無視しながら関連する状態のみを予測するのに役立つため、強力なパフォーマンス改善につながることを見出します。 Several self-supervised representation learning methods have been proposed for reinforcement learning (RL) with rich observations. For real-world applications of RL, recovering underlying latent states is crucial, particularly when sensory inputs contain irrelevant and exogenous information. In this work, we study how information bottlenecks can be used to construct latent states efficiently in the presence of task-irrelevant information. We propose architectures that utilize variational and discrete information bottlenecks, coined as RepDIB, to learn structured factorized representations. Exploiting the expressiveness bought by factorized representations, we introduce a simple, yet effective, bottleneck that can be integrated with any existing self-supervised objective for RL. We demonstrate this across several online and offline RL benchmarks, along with a real robot arm task, where we find that compressed representations with RepDIB can lead to strong performance improvements, as the learned bottlenecks help predict only the relevant state while ignoring irrelevant information. | 翻訳日:2023-06-02 03:41:15 公開日:2023-05-31 |
# ViT/MLP-Mixerのグラフへの一般化 A Generalization of ViT/MLP-Mixer to Graphs ( http://arxiv.org/abs/2212.13350v2 ) ライセンス: Link先を確認 | Xiaoxin He, Bryan Hooi, Thomas Laurent, Adam Perold, Yann LeCun, Xavier Bresson | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ表現学習の分野で大きな可能性を示している。
標準GNNは、複数のレイヤを積み重ねることで、グラフ領域全体に情報を伝達するローカルメッセージパッシングメカニズムを定義する。
このパラダイムは、大まかな注意によって解決できるが、計算コストを2次複雑性に格段に増加させるという、2つの大きな制限に苦しめられている。
本稿では,コンピュータビジョンに導入されたViT/MLP-Mixerアーキテクチャを活用することで,これらの構造的制約を克服するための代替手法を提案する。
3つのキープロパティを持つGNNの新しいクラスであるGraph ViT/MLP-Mixerを導入する。
まず、Long Range Graph BenchmarkとTreeNeighbourMatchデータセットで示されているように、長距離依存性をキャプチャしてオーバースカッシングの問題を緩和する。
第二に、ノード数とエッジ数にリニアな複雑さを持つスピードとメモリ効率が向上し、関連するGraph Transformerと表現力のあるGNNモデルを上回っている。
第3に、少なくとも3-wlの非同型グラフを区別できるため、グラフ同型の観点から高い表現性を示す。
4つのシミュレートデータセットと7つの実世界のベンチマークでアーキテクチャをテストし、これらすべてに対して高い競合性を示す。
ソースコードは: \url{https://github.com/XiaoxinHe/Graph-ViT-MLPMixer} で再現可能である。 Graph Neural Networks (GNNs) have shown great potential in the field of graph representation learning. Standard GNNs define a local message-passing mechanism which propagates information over the whole graph domain by stacking multiple layers. This paradigm suffers from two major limitations, over-squashing and poor long-range dependencies, that can be solved using global attention but significantly increases the computational cost to quadratic complexity. In this work, we propose an alternative approach to overcome these structural limitations by leveraging the ViT/MLP-Mixer architectures introduced in computer vision. We introduce a new class of GNNs, called Graph ViT/MLP-Mixer, that holds three key properties. First, they capture long-range dependency and mitigate the issue of over-squashing as demonstrated on Long Range Graph Benchmark and TreeNeighbourMatch datasets. Second, they offer better speed and memory efficiency with a complexity linear to the number of nodes and edges, surpassing the related Graph Transformer and expressive GNN models. Third, they show high expressivity in terms of graph isomorphism as they can distinguish at least 3-WL non-isomorphic graphs. We test our architecture on 4 simulated datasets and 7 real-world benchmarks, and show highly competitive results on all of them. The source code is available for reproducibility at: \url{https://github.com/XiaoxinHe/Graph-ViT-MLPMixer}. | 翻訳日:2023-06-02 03:40:56 公開日:2023-05-31 |
# typeformer:モバイルキーストローク生体認証のためのトランスフォーマー TypeFormer: Transformers for Mobile Keystroke Biometrics ( http://arxiv.org/abs/2212.13075v2 ) ライセンス: Link先を確認 | Giuseppe Stragapede, Paula Delgado-Santos, Ruben Tolosana, Ruben Vera-Rodriguez, Richard Guest, Aythami Morales | (参考訳) 最近のモバイルデバイスの広範な利用、それらの情報に含まれる機密性、および現在のモバイルユーザ認証方法の欠点は、ユーザのアイデンティティを検証するために、新規でセキュアで控えめなソリューションを求めることである。
本稿では,ユーザ認証のためにモバイルデバイス上で実行される自由テキストキーストロークダイナミクスをモデル化する,新しいトランスフォーマーアーキテクチャであるTypeFormerを提案する。
提案手法は,2つのLong Short-Term Memory(LSTM)リカレントレイヤ,ガウスレンジエンコーディング(GRE),マルチヘッド自己保持機構,ブロックリカレント構造を含むテンポラルおよびチャネルモジュールからなる。
aaltoモバイルキーストロークデータベース(aalto mobile key stroke database)の実験では、50キーストロークの5つの問合せセッションだけで3.25%のエラー率(eer)で現在の最先端システムを上回る。
このようにして、デスクトップおよび固定テキストのシナリオに対する挑戦的なモバイル自由テキストシナリオの従来のパフォーマンスギャップを低減することに寄与する。
さらに、キーストローク列の長さやエンローメントセッションの量など、実験的な構成の異なるモデルの振る舞いを分析し、より多くのエンローメントデータによる改善のマージンを示す。
最後に、既存のアプローチと比較してTypeFormerが抽出した機能の堅牢性を示すクロスデータベース評価を行う。 The broad usage of mobile devices nowadays, the sensitiveness of the information contained in them, and the shortcomings of current mobile user authentication methods are calling for novel, secure, and unobtrusive solutions to verify the users' identity. In this article, we propose TypeFormer, a novel Transformer architecture to model free-text keystroke dynamics performed on mobile devices for the purpose of user authentication. The proposed model consists in Temporal and Channel Modules enclosing two Long Short-Term Memory (LSTM) recurrent layers, Gaussian Range Encoding (GRE), a multi-head Self-Attention mechanism, and a Block-Recurrent structure. Experimenting on one of the largest public databases to date, the Aalto mobile keystroke database, TypeFormer outperforms current state-of-the-art systems achieving Equal Error Rate (EER) values of 3.25% using only 5 enrolment sessions of 50 keystrokes each. In such way, we contribute to reducing the traditional performance gap of the challenging mobile free-text scenario with respect to its desktop and fixed-text counterparts. Additionally, we analyse the behaviour of the model with different experimental configurations such as the length of the keystroke sequences and the amount of enrolment sessions, showing margin for improvement with more enrolment data. Finally, a cross-database evaluation is carried out, demonstrating the robustness of the features extracted by TypeFormer in comparison with existing approaches. | 翻訳日:2023-06-02 03:40:31 公開日:2023-05-31 |
# 量子人文科学研究プログラムの紹介:理論的意義 Introducing a Research Program for Quantum Humanities: Theoretical Implications ( http://arxiv.org/abs/2212.12947v2 ) ライセンス: Link先を確認 | Astrid B\"otticher, Zeki C. Seskir, Johannes Ruhland | (参考訳) 量子コンピューティングは、量子力学の原理に基づいたコンピューティングの新しい形態である。
人文科学や社会科学など多くの分野に革命をもたらす可能性がある。
量子人文科学の背後にある考え方は、量子コンピューティングの可能性を探求し、これらの分野における新しい質問に答えることと、この技術の社会的影響を考えることである。
本稿では、量子アルゴリズムを人文科学や社会科学に応用すること、量子コンピューティングの手法と技術に関する考察、その潜在的な社会的含意の評価を含む量子人文科学の研究プログラムを提案する。
本研究プログラムは、量子人文科学の分野を定義し、人文科学と社会科学の重要な部分として確立することを目的とする。 Quantum computing is a new form of computing that is based on the principles of quantum mechanics. It has the potential to revolutionize many fields, including the humanities and social sciences. The idea behind quantum humanities is to explore the potential of quantum computing to answer new questions in these fields, as well as to consider the potential societal impacts of this technology. This paper proposes a research program for quantum humanities, which includes the application of quantum algorithms to humanities and social science research, the reflection on the methods and techniques of quantum computing, and the evaluation of its potential societal implications. This research program aims to define the field of quantum humanities and to establish it as a meaningful part of the humanities and social sciences. | 翻訳日:2023-06-02 03:40:02 公開日:2023-05-31 |
# 絡み込み支援パッキングプロセスを用いたエンタングルメント効率二部分散量子コンピューティング Entanglement-efficient bipartite-distributed quantum computing with entanglement-assisted packing processes ( http://arxiv.org/abs/2212.12688v2 ) ライセンス: Link先を確認 | Jun-Yi Wu, Kosuke Matsui, Tim Forrer, Akihito Soeda, Pablo Andr\'es-Mart\'inez, Daniel Mills, Luciana Henaut, Mio Murao | (参考訳) ノイズの多い中間スケールの量子コンピューティングでは、単一量子処理ユニット(QPU)の限られたスケーラビリティは分散量子コンピューティング(DQC)によって拡張され、2つのQPU上でのグローバルな演算を、絡み合い支援された局所演算と古典的な通信によって実装することができる。
このタイプのDQCを実験で容易にするためには、絡み合い効率の高いプロトコルが必要である。
この目的のために、各制御ユニタリゲートを最大エンタングルペア(eisert et. al., pra, 62:052317(2000)]で実装するゲートテレポーテーションプロトコルをパッキングプロトコルに拡張し、一つの最大エンタングルペアを使用して複数の制御ユニタリゲートをローカルにパックすることができる。
特に2種類のパッキングプロセスがビルディングブロック、すなわち配布プロセスと組込みプロセスとして導入されている。
各分配プロセスは、1つの絡み合ったペアで対応するゲートをローカルに分配する。
エンタングルメントの効率は、2つの非シーケンス分散プロセスをマージしてエンタングルメントコストを節約する埋め込みプロセスによって向上する。
量子回路の分散性と埋め込み性の構造は、対応するパッキンググラフとコンフリクトグラフによって完全に表現できることを示す。
これらのグラフに基づいて、与えられた量子回路の分配過程の絡み合い効率のよいパッキングを見つけるためのヒューリスティックアルゴリズムを導出する。
これらのアルゴリズムは、DQC内の局所補助量子ビットの必要個数を決定できる。
これらのアルゴリズムをユニタリ結合クラスタ回路の2分割DQCに適用し、埋め込みによる絡み合いコストを大幅に削減する。
この方法は、量子回路のDQCの絡み合いコストに関する構築上の上限を決定することができる。 In noisy intermediate-scale quantum computing, the limited scalability of a single quantum processing unit (QPU) can be extended through distributed quantum computing (DQC), in which one can implement global operations over two QPUs by entanglement-assisted local operations and classical communication. To facilitate this type of DQC in experiments, we need an entanglement-efficient protocol. To this end, we extend the gate teleportation protocol implementing each controlled-unitary gate with one maximally entangled pair [Eisert et. al., PRA, 62:052317(2000)] to a packing protocol, which can pack multiple controlled-unitary gates locally using one maximally entangled pair. In particular, two types of packing processes are introduced as the building blocks, namely the distributing processes and embedding processes. Each distributing process distributes corresponding gates locally with one entangled pair. The efficiency of entanglement is then enhanced by embedding processes, which merge two non-sequential distributing processes and hence save the entanglement cost. We show that the structure of distributability and embeddability of a quantum circuit can be fully represented by the corresponding packing graphs and conflict graphs. Based on these graphs, we derive heuristic algorithms for finding an entanglement-efficient packing of distributing processes for a given quantum circuit to be implemented by two parties. These algorithms can determine the required number of local auxiliary qubits in the DQC. We apply these algorithms for bipartite DQC of unitary coupled-cluster circuits and find a significant reduction of entanglement cost through embeddings. This method can determine a constructive upper bound on the entanglement cost for the DQC of quantum circuits. | 翻訳日:2023-06-02 03:39:49 公開日:2023-05-31 |
# 差分解析と説明による時間的推論 Generic Temporal Reasoning with Differential Analysis and Explanation ( http://arxiv.org/abs/2212.10467v2 ) ライセンス: Link先を確認 | Yu Feng, Ben Zhou, Haoyu Wang, Helen Jin, Dan Roth | (参考訳) 時間的推論は事象対の時間関係を予測するタスクである。
時間的推論モデルはドメイン内のベンチマークで合理的に機能するが、既存のデータセットの制限のため、これらのシステムの一般化可能性はほとんど見当たらない。
本研究では,このギャップを時間差分解析で埋めるTODAYという新しいタスクを紹介し,その名が示すように,システムが漸進的変化の効果を正しく理解できるかどうかを評価する。
具体的には、TODAYは、与えられたイベントペアに対してわずかなコンテキスト変化を導入し、この微妙なコンテキスト変化が関連する時間的関係分布にどのように影響するかをシステムに指示する。
学習を容易にするため、TODAYは人間の説明にも注釈を付ける。
gpt-3.5を含む既存のモデルは、現在ランダムな推測に落ちており、時間的予測の適切な推論よりも、スプリアスな情報に大きく依存していることを示唆している。
一方,TODAYの指導スタイルや説明アノテーションは共同学習に利用でき,トレーニング中により適切な信号を使用するようモデルに促すことで,複数のベンチマークにおいて性能が向上することを示す。
今日では、gpt-3.5のような騒がしい情報源から付随的な監督を要請するためにモデルを訓練することもでき、汎用的な時間的推論システムの目標に向かって私たちを移動させることができます。 Temporal reasoning is the task of predicting temporal relations of event pairs. While temporal reasoning models can perform reasonably well on in-domain benchmarks, we have little idea of these systems' generalizability due to existing datasets' limitations. In this work, we introduce a novel task named TODAY that bridges this gap with temporal differential analysis, which as the name suggests, evaluates whether systems can correctly understand the effect of incremental changes. Specifically, TODAY introduces slight contextual changes for given event pairs, and systems are asked to tell how this subtle contextual change would affect relevant temporal relation distributions. To facilitate learning, TODAY also annotates human explanations. We show that existing models, including GPT-3.5, drop to random guessing on TODAY, suggesting that they heavily rely on spurious information rather than proper reasoning for temporal predictions. On the other hand, we show that TODAY's supervision style and explanation annotations can be used in joint learning, encouraging models to use more appropriate signals during training and thus outperform across several benchmarks. TODAY can also be used to train models to solicit incidental supervision from noisy sources such as GPT-3.5, thus moving us more toward the goal of generic temporal reasoning systems. | 翻訳日:2023-06-02 03:39:20 公開日:2023-05-31 |
# 国家強化と減刑による強化強化学習の高度化 Solving Richly Constrained Reinforcement Learning through State Augmentation and Reward Penalties ( http://arxiv.org/abs/2301.11592v2 ) ライセンス: Link先を確認 | Hao Jiang and Tien Mai and Pradeep Varakantham and Minh Huy Hoang | (参考訳) 制約付き強化学習は、期待されるコスト制約を利用することで、ポリシーに安全性の制約を課すために採用されている。
重要な課題は、単一のステップではなく、ポリシーを使って累積される期待されるコストに対処することだ。
既存の手法は、ポリシー全体に対するこのコスト制約を(各ステップで)局所的な決定に関する制約に変換する革新的な方法を開発した。
このようなアプローチは客観的な解決策を提供してきたが、コストに関して過度に攻撃的あるいは保守的である可能性がある。
これは、局所的なコスト制約の「将来の」コストや「後方」コストの見積もりを使用するためである。
そのために、拡張状態空間と報酬ペナルティを持つ制約付きRLに等価な制約のない定式化を提供する。
この直感的な定式化は一般であり、興味深い理論的性質を持つ。
さらに重要なのは、制約付きRL問題を効果的に解くための新しいパラダイムを提供することだ。
実験結果に示すように、文献から複数のベンチマーク問題に対する先行的アプローチを上回ることができる。 Constrained Reinforcement Learning has been employed to enforce safety constraints on policy through the use of expected cost constraints. The key challenge is in handling expected cost accumulated using the policy and not just in a single step. Existing methods have developed innovative ways of converting this cost constraint over entire policy to constraints over local decisions (at each time step). While such approaches have provided good solutions with regards to objective, they can either be overly aggressive or conservative with respect to costs. This is owing to use of estimates for "future" or "backward" costs in local cost constraints. To that end, we provide an equivalent unconstrained formulation to constrained RL that has an augmented state space and reward penalties. This intuitive formulation is general and has interesting theoretical properties. More importantly, this provides a new paradigm for solving constrained RL problems effectively. As we show in our experimental results, we are able to outperform leading approaches on multiple benchmark problems from literature. | 翻訳日:2023-06-02 03:31:13 公開日:2023-05-31 |
# オフポリシー強化学習のための軌道認識適性トレース Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2301.11321v2 ) ライセンス: Link先を確認 | Brett Daley, Martha White, Christopher Amato, Marlos C. Machado | (参考訳) 多段階回帰からのオフポリシー学習はサンプル効率のよい強化学習には不可欠であるが、分散を悪化させることなくオフポリシーバイアスを相殺することは困難である。
伝統的に、オフ・ポリシーのバイアスは分解ごとに補正され、過去の時間差誤差は、適性トレースによる各アクションの後に瞬時重要度サンプリング(is)比率によって再重み付けされる。
多くの非政治アルゴリズムは、IS比をカットしてIS推定器のばらつきに対処するための異なるプロトコルとともに、このメカニズムに依存している。
残念なことに、一度トレースが完全にカットされると、その効果は逆転できない。
これは、一度に複数の過去の経験を説明するクレジット割り当て戦略の開発につながった。
これらの軌道認識法は広くは分析されておらず、理論上の正当性は不明である。
本稿では,分解法と軌道認識法の両方を表現できるマルチステップ演算子を提案する。
表の設定において演算子の収束条件を証明し、既存のいくつかのメソッドと多くの新しいメソッドに対する最初の保証を確立する。
最後に,オフポリシー制御タスクで$\lambda$値に対してロバストに実行するために,軌跡認識を利用するrecency-bounded importance sampling (rbis)を導入する。 Off-policy learning from multistep returns is crucial for sample-efficient reinforcement learning, but counteracting off-policy bias without exacerbating variance is challenging. Classically, off-policy bias is corrected in a per-decision manner: past temporal-difference errors are re-weighted by the instantaneous Importance Sampling (IS) ratio after each action via eligibility traces. Many off-policy algorithms rely on this mechanism, along with differing protocols for cutting the IS ratios to combat the variance of the IS estimator. Unfortunately, once a trace has been fully cut, the effect cannot be reversed. This has led to the development of credit-assignment strategies that account for multiple past experiences at a time. These trajectory-aware methods have not been extensively analyzed, and their theoretical justification remains uncertain. In this paper, we propose a multistep operator that can express both per-decision and trajectory-aware methods. We prove convergence conditions for our operator in the tabular setting, establishing the first guarantees for several existing methods as well as many new ones. Finally, we introduce Recency-Bounded Importance Sampling (RBIS), which leverages trajectory awareness to perform robustly across $\lambda$-values in an off-policy control task. | 翻訳日:2023-06-02 03:30:58 公開日:2023-05-31 |
# グラフニューラルネットワークは、グラフ構造のみから隠れた特徴を回復できる Graph Neural Networks can Recover the Hidden Features Solely from the Graph Structure ( http://arxiv.org/abs/2301.10956v2 ) ライセンス: Link先を確認 | Ryoma Sato | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ学習問題の一般的なモデルである。
gnnは多くの実用的なタスクで強い経験的パフォーマンスを示します。
しかし、理論的な性質は完全に解明されていない。
本稿では,GNNの表現力の観点から,GNNがグラフ構造を活用できるかどうかを検討する。
本分析では,グラフ構造に関するすべての情報を含む隠れノード特徴(あるいは潜在ノード特徴)によって制御されるグラフ生成プロセスについて考察する。
このフレームワークの典型的な例は、隠れた特徴から構築されたkNNグラフである。
本研究の主目的は,隠れた特徴自身や間接的なヒントを含むすべてのノード特徴が利用できない場合でも,GNNが入力グラフのみから隠れたノード特徴を復元できることである。
gnnは、ダウンストリームタスクで回復したノード機能をさらに使用できる。
これらの結果から、GNNはグラフ構造を自分自身で完全に活用でき、事実上、GNNは下流タスクに隠されたノード機能と明示的なノード機能の両方を利用することができる。
実験では,理論解析に基づいて構築されたGNNアーキテクチャを用いて,GNNが隠れた特徴を正確に復元できることを示し,その妥当性を確認した。 Graph Neural Networks (GNNs) are popular models for graph learning problems. GNNs show strong empirical performance in many practical tasks. However, the theoretical properties have not been completely elucidated. In this paper, we investigate whether GNNs can exploit the graph structure from the perspective of the expressive power of GNNs. In our analysis, we consider graph generation processes that are controlled by hidden (or latent) node features, which contain all information about the graph structure. A typical example of this framework is kNN graphs constructed from the hidden features. In our main results, we show that GNNs can recover the hidden node features from the input graph alone, even when all node features, including the hidden features themselves and any indirect hints, are unavailable. GNNs can further use the recovered node features for downstream tasks. These results show that GNNs can fully exploit the graph structure by themselves, and in effect, GNNs can use both the hidden and explicit node features for downstream tasks. In the experiments, we confirm the validity of our results by showing that GNNs can accurately recover the hidden features using a GNN architecture built based on our theoretical analysis. | 翻訳日:2023-06-02 03:30:36 公開日:2023-05-31 |
# 紫外発散を有する多スピンボソンモデルの自己共役性 Self-adjointness of a class of multi-spin-boson models with ultraviolet divergences ( http://arxiv.org/abs/2301.10694v2 ) ライセンス: Link先を確認 | Davide Lonigro | (参考訳) 我々は、N$2レベルの系(スピン)と正のMasの構造ボソン場とを結合し、紫外線の発散を示す可能性のある形状因子(従って、非正規化不可能)を介する回転波のカップリングを、量子ハミルトニアンモデルのクラスとして研究する。
励起の総数を変化させないスピンスピン相互作用も含む。
単スピンの場合の以前の結果を一般化し、自己共役領域とそのようなモデルの分解作用素に対して明示的な表現を提供し、どちらも連結プロパゲータ群を介してスピン場とスピンスピンのカップリングに複雑な依存を持つ。
この構造は、例えば紫外線遮断のような正規化可能なものによる形状因子の近似の下で、標準分解剤の意味で安定であることが示される。 We study a class of quantum Hamiltonian models describing a family of $N$ two-level systems (spins) coupled with a structured boson field of positive mas, with a rotating-wave coupling mediated by form factors possibly exhibiting ultraviolet divergences (hence, non-normalizable). Spin-spin interactions which do not modify the total number of excitations are also included. Generalizing previous results in the single-spin case, we provide explicit expressions for the self-adjointness domain and the resolvent operator of such models, both of them carrying an intricate dependence on both the spin-field and spin-spin coupling via a family of concatenated propagators. This construction is also shown to be stable, in the norm resolvent sense, under approximations of the form factors via normalizable ones, for example an ultraviolet cutoff. | 翻訳日:2023-06-02 03:30:01 公開日:2023-05-31 |
# 差分位相シフト量子鍵分布の有限鍵セキュリティ解析 Finite-key security analysis of differential-phase-shift quantum key distribution ( http://arxiv.org/abs/2301.09844v2 ) ライセンス: Link先を確認 | Akihiro Mizutani, Yuki Takeuchi, Kiyoshi Tamaki | (参考訳) 微分位相シフト(DPS)量子鍵分布(QKD)は、レーザー源と受動検出ユニットを用いて簡単な設定で実装できる主要なQKDプロトコルの1つである。
近年, [npj Quant. Inf. 5, 87 (2019)] において, 無限個のパルスを仮定して, このプロトコルの情報理論的セキュリティ証明が確立されている。
dpsプロトコルを現実の世界に実装するには,有限個のパルス数でセキュリティを分析することが不可欠である。
セキュリティ証明の有限サイズ体制への拡張は、プライバシーの増幅の量を決定するために統計的変動の調節を必要とする。
このような場合、吾妻の不平等がしばしば用いられるが、残念ながら、DPSプロトコルの場合、これはキーレートがかなり低いことを示す。
この低い鍵レートは、発生確率が非常に小さい3光子放出に関する確率の合計を緩やかに見積もることによるものである。
我々の研究の主な貢献は、最近発見された新しい濃度不等式である加藤の不等式を利用して、この障害を克服できることである。
その結果、DPSプロトコルのキーレートが大幅に向上する。
例えば、典型的な実験パラメータを仮定すると、3Mbitのシークレットキーが77km以上8.3時間生成され、現実的な設定でDPS QKDの実現可能性を示す。 Differential-phase-shift (DPS) quantum key distribution (QKD) is one of the major QKD protocols that can be implemented with a simple setup using a laser source and a passive detection unit. Recently, an information-theoretic security proof of this protocol has been established in [npj Quant. Inf. 5, 87 (2019)] assuming the infinitely large number of emitted pulses. To implement the DPS protocol in a real-life world, it is indispensable to analyze the security with the finite number of emitted pulses. The extension of the security proof to the finite-size regime requires the accommodation of the statistical fluctuations to determine the amount of privacy amplification. In doing so, Azuma's inequality is often employed, but unfortunately we show that in the case of the DPS protocol, this results in a substantially low key rate. This low key rate is due to a loose estimation of the sum of probabilities regarding three-photon emission whose probability of occurrence is very small. The main contribution of our work is to show that this obstacle can be overcome by exploiting the recently found novel concentration inequality, Kato's inequality. As a result, the key rate of the DPS protocol is drastically improved. For instance, assuming typical experimental parameters, a 3 Mbit secret key can be generated over 77 km for 8.3 hours, which shows the feasibility of DPS QKD under a realistic setup. | 翻訳日:2023-06-02 03:29:44 公開日:2023-05-31 |
# エネルギーモデル学習における非収束サンプリングの効果について Explaining the effects of non-convergent sampling in the training of Energy-Based Models ( http://arxiv.org/abs/2301.09428v2 ) ライセンス: Link先を確認 | Elisabeth Agoritsas, Giovanni Catania, Aur\'elien Decelle, Beatriz Seoane | (参考訳) 本稿では,非収束マルコフ連鎖を用いたエネルギーベースモデル(EBM)の訓練の効果を定量化する。
特に,非永続的ショートランで訓練したESMを用いて勾配を推定することにより,平衡測定のレベルでではなく,正確な動的プロセスによって,データの経験的統計を完璧に再現できることを示す。
本研究は,ESMの高品質試料を効率よく生成し,ESMを拡散モデルとして用いるための基礎となる基礎となる手法として,ランダム初期条件からのショートランの利用戦略を提案する。
この効果を汎用ebmsで説明した後、訓練パラメータにおける非収束サンプリングの効果を詳細に記述できる2つの可解モデルの解析を行った。
最後に、これらの予測をConvNet EBMとボルツマンマシンで数値的に検証する。 In this paper, we quantify the impact of using non-convergent Markov chains to train Energy-Based models (EBMs). In particular, we show analytically that EBMs trained with non-persistent short runs to estimate the gradient can perfectly reproduce a set of empirical statistics of the data, not at the level of the equilibrium measure, but through a precise dynamical process. Our results provide a first-principles explanation for the observations of recent works proposing the strategy of using short runs starting from random initial conditions as an efficient way to generate high-quality samples in EBMs, and lay the groundwork for using EBMs as diffusion models. After explaining this effect in generic EBMs, we analyze two solvable models in which the effect of the non-convergent sampling in the trained parameters can be described in detail. Finally, we test these predictions numerically on a ConvNet EBM and a Boltzmann machine. | 翻訳日:2023-06-02 03:29:20 公開日:2023-05-31 |
# 擬似微分作用素の効率的な量子ブロック符号化について On efficient quantum block encoding of pseudo-differential operators ( http://arxiv.org/abs/2301.08908v3 ) ライセンス: Link先を確認 | Haoya Li, Hongkang Ni, Lexing Ying | (参考訳) ブロック符号化は多くの既存の量子アルゴリズムの中核にある。
一方、高密度作用素の効率的かつ明示的なブロック符号化は、一般に難しい問題として認識される。
本稿では、擬微分演算子(PDOs)と呼ばれる高密度演算子のリッチなファミリーのブロック符号化に関する包括的研究を行う。
まず、汎用PDOのブロック符号化方式を開発する。
次に、分離可能な構造を持つPDOのより効率的なスキームを提案する。
最後に,完全分離構造を持つpdoに対する明示的かつ効率的なブロック符号化アルゴリズムを示す。
複雑度解析は、提示された全てのブロック符号化アルゴリズムに対して提供される。
理論結果の適用例は、変数係数楕円演算子の表現や、量子線形系アルゴリズム(QLSA)を起動せずに楕円演算子の逆演算などである。 Block encoding lies at the core of many existing quantum algorithms. Meanwhile, efficient and explicit block encodings of dense operators are commonly acknowledged as a challenging problem. This paper presents a comprehensive study of the block encoding of a rich family of dense operators: the pseudo-differential operators (PDOs). First, a block encoding scheme for generic PDOs is developed. Then we propose a more efficient scheme for PDOs with a separable structure. Finally, we demonstrate an explicit and efficient block encoding algorithm for PDOs with a dimension-wise fully separable structure. Complexity analysis is provided for all block encoding algorithms presented. The application of theoretical results is illustrated with worked examples, including the representation of variable coefficient elliptic operators and the computation of the inverse of elliptic operators without invoking quantum linear system algorithms (QLSAs). | 翻訳日:2023-06-02 03:29:02 公開日:2023-05-31 |
# 適応型MLPを用いた3次元MRI画像再構成 Computationally Efficient 3D MRI Reconstruction with Adaptive MLP ( http://arxiv.org/abs/2301.08868v2 ) ライセンス: Link先を確認 | Eric Z. Chen, Chi Zhang, Xiao Chen, Yikang Liu, Terrence Chen, Shanhui Sun | (参考訳) 2次元MRIと比較して、3次元MRIは空間分解能と信号-雑音比が優れている。
しかし,3次元MRI画像の再構成は困難である。
現在の手法は主に、小さなカーネルを持つ畳み込みニューラルネットワーク(CNN)に基づいており、大きな画像サイズとGPUメモリの制約のため、3D MRI再構成に十分な適合能力を持つにはスケールアップが困難である。
さらに、MRI再構成は非畳み込み問題であり、小さな畳み込みカーネルを持つCNNが捉えにくい長距離情報を必要とする。
多層パーセプトロン(MLP)はそのような長距離情報をモデル化することができるが、一定の入力サイズを必要とする。
本稿では,低周波再構成用CNNモジュールと低周波再構成用DMLPモジュールを併用したRecon3DMLPを提案する。
さらに,dMLPが任意の画像サイズを受け入れ,FOV全体からグローバル情報を抽出できるように,MRI物理に基づく円形シフト操作を利用した。
また、gpuメモリ効率の良いデータフィデリティモジュールを提案し、$>$50$\%$メモリを削減できる。
我々はRecon3DMLPを高分解能(HR)3次元MRIデータセット上で他のCNNモデルと比較した。
Recon3DMLPはHR 3Dの再構成を改善し、同様のGPUメモリ消費下で既存のCNNベースのモデルより優れており、Recon3DMLPがHR 3D MRI再構成の実用的なソリューションであることを示している。 Compared with 2D MRI, 3D MRI provides superior volumetric spatial resolution and signal-to-noise ratio. However, it is more challenging to reconstruct 3D MRI images. Current methods are mainly based on convolutional neural networks (CNN) with small kernels, which are difficult to scale up to have sufficient fitting power for 3D MRI reconstruction due to the large image size and GPU memory constraint. Furthermore, MRI reconstruction is a deconvolution problem, which demands long-distance information that is difficult to capture by CNNs with small convolution kernels. The multi-layer perceptron (MLP) can model such long-distance information, but it requires a fixed input size. In this paper, we proposed Recon3DMLP, a hybrid of CNN modules with small kernels for low-frequency reconstruction and adaptive MLP (dMLP) modules with large kernels to boost the high-frequency reconstruction, for 3D MRI reconstruction. We further utilized the circular shift operation based on MRI physics such that dMLP accepts arbitrary image size and can extract global information from the entire FOV. We also propose a GPU memory efficient data fidelity module that can reduce $>$50$\%$ memory. We compared Recon3DMLP with other CNN-based models on a high-resolution (HR) 3D MRI dataset. Recon3DMLP improves HR 3D reconstruction and outperforms several existing CNN-based models under similar GPU memory consumption, which demonstrates that Recon3DMLP is a practical solution for HR 3D MRI reconstruction. | 翻訳日:2023-06-02 03:28:51 公開日:2023-05-31 |
# オフラインデータを用いたオンライン強化学習の効率化 Efficient Online Reinforcement Learning with Offline Data ( http://arxiv.org/abs/2302.02948v4 ) ライセンス: Link先を確認 | Philip J. Ball, Laura Smith, Ilya Kostrikov, Sergey Levine | (参考訳) サンプル効率と探索は、オンライン強化学習(RL)の主要な課題である。
これらの問題に対処できる強力なアプローチは、人間の専門家による事前の軌跡や準最適探査ポリシーのようなオフラインデータを含めることである。
従来の手法は、このデータの有効利用を保証するために、広範囲な修正と追加の複雑さに依存してきた。
オンライン学習時にオフラインデータを活用するために、既存のオフポリシーメソッドを単に適用できるのでしょうか?
本稿では,既存のオフポリシーrlアルゴリズムに対する最小だが重要な変更点のセットが,信頼性の高い性能を実現するために必要であることを示す。
私たちは、これらの設計選択を広範囲に否定し、パフォーマンスに最も影響を及ぼす重要な要素を実証し、そのデータが少数の専門家によるデモンストレーションか、あるいは大量の最適サブトラジェクタであるかに関わらず、実践者が容易に適用できる一連の推奨事項に到達します。
これらの単純な推奨の正しい適用は、計算オーバーヘッドを増すことなく、さまざまな競合ベンチマークで既存のアプローチに対して$\mathbf{2.5\times}$の改善を提供することができる。
私たちはコードをhttps://github.com/ikostrikov/rlpdでリリースした。 Sample efficiency and exploration remain major challenges in online reinforcement learning (RL). A powerful approach that can be applied to address these issues is the inclusion of offline data, such as prior trajectories from a human expert or a sub-optimal exploration policy. Previous methods have relied on extensive modifications and additional complexity to ensure the effective use of this data. Instead, we ask: can we simply apply existing off-policy methods to leverage offline data when learning online? In this work, we demonstrate that the answer is yes; however, a set of minimal but important changes to existing off-policy RL algorithms are required to achieve reliable performance. We extensively ablate these design choices, demonstrating the key factors that most affect performance, and arrive at a set of recommendations that practitioners can readily apply, whether their data comprise a small number of expert demonstrations or large volumes of sub-optimal trajectories. We see that correct application of these simple recommendations can provide a $\mathbf{2.5\times}$ improvement over existing approaches across a diverse set of competitive benchmarks, with no additional computational overhead. We have released our code at https://github.com/ikostrikov/rlpd. | 翻訳日:2023-06-02 03:22:17 公開日:2023-05-31 |
# CHiLS:階層ラベル集合を用いたゼロショット画像分類 CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets ( http://arxiv.org/abs/2302.02551v3 ) ライセンス: Link先を確認 | Zachary Novack, Julian McAuley, Zachary C. Lipton, Saurabh Garg | (参考訳) オープン語彙モデル(例えばCLIP)は、ゼロショット分類において、各クラス(自然言語)の名前に基づいて埋め込みを生成する能力を通じて、強い性能を示している。
事前の作業は、プロンプトエンジニアリングや(微調整による)少量のラベル付きダウンストリームデータの導入による、これらのモデルの精度の向上に重点を置いている。
しかし、クラス名自体の豊かさの改善にはほとんど焦点が当てられておらず、クラスラベルが粗い定義であり、非形式的である場合に問題を引き起こす可能性がある。
暗黙的な意味階層を持つデータセット用に特別に設計されたゼロショット分類の代替戦略である階層ラベル集合(chils)を用いた分類を提案する。
CHiLSは3つのステップで進みます。
i) 各クラスに対して、既存のラベル階層またはGPT-3をクエリすることで、一連のサブクラスを生成する。
(ii)これらのサブクラスが関心のラベルであるかのように、標準のゼロショットCLIP手順を実行する。
(iii)予測サブクラスを親にマップして最終的な予測を生成する。
基盤となる階層構造を持つ多数のデータセットにわたって、chilsは階層情報の有無に関わらず、状況において精度が向上する。
chilsは既存のゼロショットパイプラインで簡単に実装でき、追加のトレーニングコストは必要ない。
コードは、https://github.com/acmi-lab/CHILS.comで入手できる。 Open vocabulary models (e.g. CLIP) have shown strong performance on zero-shot classification through their ability generate embeddings for each class based on their (natural language) names. Prior work has focused on improving the accuracy of these models through prompt engineering or by incorporating a small amount of labeled downstream data (via finetuning). However, there has been little focus on improving the richness of the class names themselves, which can pose issues when class labels are coarsely-defined and are uninformative. We propose Classification with Hierarchical Label Sets (or CHiLS), an alternative strategy for zero-shot classification specifically designed for datasets with implicit semantic hierarchies. CHiLS proceeds in three steps: (i) for each class, produce a set of subclasses, using either existing label hierarchies or by querying GPT-3; (ii) perform the standard zero-shot CLIP procedure as though these subclasses were the labels of interest; (iii) map the predicted subclass back to its parent to produce the final prediction. Across numerous datasets with underlying hierarchical structure, CHiLS leads to improved accuracy in situations both with and without ground-truth hierarchical information. CHiLS is simple to implement within existing zero-shot pipelines and requires no additional training cost. Code is available at: https://github.com/acmi-lab/CHILS. | 翻訳日:2023-06-02 03:21:56 公開日:2023-05-31 |
# 視覚ロボット操作のためのマルチビューマスク世界モデル Multi-View Masked World Models for Visual Robotic Manipulation ( http://arxiv.org/abs/2302.02408v2 ) ライセンス: Link先を確認 | Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel | (参考訳) 視覚ロボット操作の研究やアプリケーションは、世界をよりよく知覚するために複数のカメラやビューを使用することが多い。
マルチビューデータのリッチさをどのように活用できるのか?
本稿では,多視点データを用いて優れた表現を学習し,視覚ロボット操作に活用する方法を検討する。
具体的には、ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練し、オートエンコーダから表現に基づく世界モデルを学ぶ。
提案手法の有効性を,多視点制御や補助カメラを用いた一視点制御など,様々なシナリオで実証する。
また,複数視点で学習した多視点マスク付きオートエンコーダは,カメラキャリブレーションや適応手順を使わずに,強力な視点ランダム化のポリシーを訓練し,実際のロボットタスクを解くためのポリシーを移譲することができることを示した。
https://sites.google.com/view/mv-mwm。 Visual robotic manipulation research and applications often use multiple cameras, or views, to better perceive the world. How else can we utilize the richness of multi-view data? In this paper, we investigate how to learn good representations with multi-view data and utilize them for visual robotic manipulation. Specifically, we train a multi-view masked autoencoder which reconstructs pixels of randomly masked viewpoints and then learn a world model operating on the representations from the autoencoder. We demonstrate the effectiveness of our method in a range of scenarios, including multi-view control and single-view control with auxiliary cameras for representation learning. We also show that the multi-view masked autoencoder trained with multiple randomized viewpoints enables training a policy with strong viewpoint randomization and transferring the policy to solve real-robot tasks without camera calibration and an adaptation procedure. Video demonstrations are available at: https://sites.google.com/view/mv-mwm. | 翻訳日:2023-06-02 03:21:35 公開日:2023-05-31 |
# 最適輸送コスト変更による開錠スロットの注意 Unlocking Slot Attention by Changing Optimal Transport Costs ( http://arxiv.org/abs/2301.13197v2 ) ライセンス: Link先を確認 | Yan Zhang, David W. Zhang, Simon Lacoste-Julien, Gertjan J. Burghouts, Cees G. M. Snoek | (参考訳) スロットアテンションは、画像やビデオにおけるオブジェクト中心モデリングの強力な方法である。
しかし、そのセット等価性は、結合を壊すことができないため、動的数のオブジェクトを持つビデオを扱う能力を制限する。
この制限を克服するために,まずスロットアテンションと最適トランスポートの接続を確立する。
この新たな視点に基づいて,非正規化された最適輸送と正則化された最適輸送の速度を結合するクロスアテンションモジュール MESH (Minimize Entropy of Sinkhorn) を提案する。
複数のオブジェクト中心学習ベンチマークでMESHを用いてスロットアテンションを評価し,各設定においてスロットアテンションよりも顕著な改善が得られた。 Slot attention is a powerful method for object-centric modeling in images and videos. However, its set-equivariance limits its ability to handle videos with a dynamic number of objects because it cannot break ties. To overcome this limitation, we first establish a connection between slot attention and optimal transport. Based on this new perspective we propose MESH (Minimize Entropy of Sinkhorn): a cross-attention module that combines the tiebreaking properties of unregularized optimal transport with the speed of regularized optimal transport. We evaluate slot attention using MESH on multiple object-centric learning benchmarks and find significant improvements over slot attention in every setting. | 翻訳日:2023-06-02 03:21:15 公開日:2023-05-31 |
# 学習によるプログラム構成による階層型プログラム強化学習 Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs ( http://arxiv.org/abs/2301.12950v2 ) ライセンス: Link先を確認 | Guan-Ting Liu, En-Pei Hu, Pu-Jen Cheng, Hung-yi Lee, Shao-Hua Sun | (参考訳) Trivedi et al. (2021)は、人間に解釈可能な強化学習(RL)ポリシーを作成することを目的として、まずプログラム埋め込み空間を学習し、事前に生成されたプログラムデータセットから多様なプログラムを継続的にパラメータ化し、タスクが与えられた時に学習プログラム埋め込み空間内のタスク解決プログラムを探索する手法(LEAPS)を提案する。
奨励的な結果にもかかわらず、LEAPSが生成できるプログラムポリシーはプログラムデータセットの分布によって制限される。
さらに、探索中、LEAPSは各候補プログラムのリターンのみに基づいて評価し、プログラムの正しい部分を正確に報酬し、不正部分を罰することができない。
これらの問題に対処するために,学習プログラム埋め込み空間からサンプル化された一連のプログラムを構成するメタ政治の学習を提案する。
プログラム作成の学習を通じて,提案する階層型プログラム強化学習(HPRL)フレームワークは,分布外の複雑な振る舞いを記述したプログラムポリシーを作成し,望ましい振る舞いを誘導するプログラムに直接クレジットを割り当てる。
karelドメインの実験結果は,提案フレームワークがベースラインを上回ることを示している。
アブレーション研究はLEAPSの限界を確認し、我々の設計選択を正当化する。 Aiming to produce reinforcement learning (RL) policies that are human-interpretable and can generalize better to novel scenarios, Trivedi et al. (2021) present a method (LEAPS) that first learns a program embedding space to continuously parameterize diverse programs from a pre-generated program dataset, and then searches for a task-solving program in the learned program embedding space when given a task. Despite the encouraging results, the program policies that LEAPS can produce are limited by the distribution of the program dataset. Furthermore, during searching, LEAPS evaluates each candidate program solely based on its return, failing to precisely reward correct parts of programs and penalize incorrect parts. To address these issues, we propose to learn a meta-policy that composes a series of programs sampled from the learned program embedding space. By learning to compose programs, our proposed hierarchical programmatic reinforcement learning (HPRL) framework can produce program policies that describe out-of-distributionally complex behaviors and directly assign credits to programs that induce desired behaviors. The experimental results in the Karel domain show that our proposed framework outperforms baselines. The ablation studies confirm the limitations of LEAPS and justify our design choices. | 翻訳日:2023-06-02 03:21:04 公開日:2023-05-31 |
# アーティストとしての拡散モデル:人間と機械のギャップを縮めるのか? Diffusion Models as Artists: Are we Closing the Gap between Humans and Machines? ( http://arxiv.org/abs/2301.11722v3 ) ライセンス: Link先を確認 | Victor Boutin, Thomas Fel, Lakshya Singhal, Rishav Mukherji, Akash Nagaraj, Julien Colin and Thomas Serre | (参考訳) AIの重要なマイルストーンは、人間のものと区別できない描画を生成できるアルゴリズムの開発である。
ここでは、boutin et al, 2022の'diversity vs. recognizability'スコアリングフレームワークを採用し、ワンショット拡散モデルが実際に人間と機械のギャップを縮め始めたことを見出します。
しかし, 個々の試料の原性についてよりきめ細かい測定値を用いて, 拡散モデルによるガイダンスの強化は, 図面の人文性向上に寄与するが, 図面の原性や認識性には及ばないことを示す。
オンライン心理物理学実験を通じて収集されたヒトカテゴリー診断の特徴と拡散モデルから得られた特徴を比較すると、ヒトはより局所的な特徴に頼っていることが分かる。
我々の研究は、拡散モデルが機械が生成した図面の品質を著しく向上させたことを示唆しているが、人間と機械の間のギャップは、部分的には視覚戦略の相違によって説明できる。 An important milestone for AI is the development of algorithms that can produce drawings that are indistinguishable from those of humans. Here, we adapt the 'diversity vs. recognizability' scoring framework from Boutin et al, 2022 and find that one-shot diffusion models have indeed started to close the gap between humans and machines. However, using a finer-grained measure of the originality of individual samples, we show that strengthening the guidance of diffusion models helps improve the humanness of their drawings, but they still fall short of approximating the originality and recognizability of human drawings. Comparing human category diagnostic features, collected through an online psychophysics experiment, against those derived from diffusion models reveals that humans rely on fewer and more localized features. Overall, our study suggests that diffusion models have significantly helped improve the quality of machine-generated drawings; however, a gap between humans and machines remains -- in part explainable by discrepancies in visual strategies. | 翻訳日:2023-06-02 03:19:59 公開日:2023-05-31 |
# 確率微分方程式を用いた画像復元 Image Restoration with Mean-Reverting Stochastic Differential Equations ( http://arxiv.org/abs/2301.11699v3 ) ライセンス: Link先を確認 | Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sj\"olund and Thomas B. Sch\"on | (参考訳) 本稿では,汎用画像復元のための確率微分方程式(SDE)を提案する。
鍵となる構成は、高品質な画像をガウス雑音が固定された平均状態として劣化した状態に変換する平均回帰SDEである。
そして、対応する逆時間SDEをシミュレートすることにより、タスク固有の事前知識に頼ることなく、低品質画像の原点を復元することができる。
重要なことは、提案した平均回帰SDEは閉形式解を持ち、真理時間依存スコアを計算してニューラルネットワークで学習することができる。
さらに, 学習を安定させ, 復元結果を改善するための最適逆行路を学習するための最大帰結目標を提案する。
実験により,提案手法は画像デレーシング,デブローリング,デノージングにおける定量的比較において高い競合性能を達成し,2つのデレーチングデータセットに新たな最先端を設定できることを示した。
最後に, 画像の超解像, 塗装, 脱湿に関する定性的な結果により, 提案手法の一般適用性をさらに実証した。
コードはhttps://github.com/algolzw/image-restoration-sdeで入手できる。 This paper presents a stochastic differential equation (SDE) approach for general-purpose image restoration. The key construction consists in a mean-reverting SDE that transforms a high-quality image into a degraded counterpart as a mean state with fixed Gaussian noise. Then, by simulating the corresponding reverse-time SDE, we are able to restore the origin of the low-quality image without relying on any task-specific prior knowledge. Crucially, the proposed mean-reverting SDE has a closed-form solution, allowing us to compute the ground truth time-dependent score and learn it with a neural network. Moreover, we propose a maximum likelihood objective to learn an optimal reverse trajectory that stabilizes the training and improves the restoration results. The experiments show that our proposed method achieves highly competitive performance in quantitative comparisons on image deraining, deblurring, and denoising, setting a new state-of-the-art on two deraining datasets. Finally, the general applicability of our approach is further demonstrated via qualitative results on image super-resolution, inpainting, and dehazing. Code is available at https://github.com/Algolzw/image-restoration-sde. | 翻訳日:2023-06-02 03:19:40 公開日:2023-05-31 |
# スパース観測された相互作用系のダイナミクスの学習 Learning the Dynamics of Sparsely Observed Interacting Systems ( http://arxiv.org/abs/2301.11647v2 ) ライセンス: Link先を確認 | Linus Bleistein, Adeline Fermanian, Anne-Sophie Jannot, Agathe Guilloux | (参考訳) ターゲットと特徴時系列をリンクする未知の非パラメトリックシステムのダイナミクスを学習する問題に対処する。
特徴時系列は、ばらばらで不規則なグリッド上で測定されますが、対象の時系列のほんの数ポイントしかアクセスできません。
学んだら、これらのダイナミクスを使って、特徴時系列の以前の値からターゲットの値を予測できます。
このタスクは、制御微分方程式(CDE)の解写像を学習するものである。
符号のリッチ理論を活用することで、この非線形問題を高次元線形回帰として考えることができる。
個人固有のサンプリングスキームへの明示的な依存を示す予測誤差に縛られたオラクルを提供する。
シミュレーションにより,本手法は計算量的に安価でありながら全時系列を復元する既存のアルゴリズムよりも優れていることを示した。
結論として,実世界の疫学データにその可能性を示す。 We address the problem of learning the dynamics of an unknown non-parametric system linking a target and a feature time series. The feature time series is measured on a sparse and irregular grid, while we have access to only a few points of the target time series. Once learned, we can use these dynamics to predict values of the target from the previous values of the feature time series. We frame this task as learning the solution map of a controlled differential equation (CDE). By leveraging the rich theory of signatures, we are able to cast this non-linear problem as a high-dimensional linear regression. We provide an oracle bound on the prediction error which exhibits explicit dependencies on the individual-specific sampling schemes. Our theoretical results are illustrated by simulations which show that our method outperforms existing algorithms for recovering the full time series while being computationally cheap. We conclude by demonstrating its potential on real-world epidemiological data. | 翻訳日:2023-06-02 03:19:20 公開日:2023-05-31 |
# K-SHAP:匿名状態対応ペアのためのポリシークラスタリングアルゴリズム K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs ( http://arxiv.org/abs/2302.11996v3 ) ライセンス: Link先を確認 | Andrea Coletta, Svitlana Vyetrenko, Tucker Balch | (参考訳) 観察データからエージェントの行動を学ぶことで、意思決定プロセスの理解が向上し、環境や他のエージェントとの相互作用を説明する能力が向上した。
複数の学習手法が文献で提案されているが、まだ研究されていない特定の設定が一つある: エージェントのアイデンティティが匿名のままであるマルチエージェントシステム。
例えば、市場参加者戦略を特定するラベル付きデータは通常、プロプライエタリであり、複数の市場参加者のインタラクションから生じる匿名のステートアクションペアのみが公開されています。
その結果、エージェントアクションのシーケンスは観測不能となり、既存の作業の適用性が制限される。
本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するK-SHAPと呼ばれるポリシークラスタリングアルゴリズムを提案する。
我々は、問題を模倣学習(il)タスクとして捉え、異なる環境状態における全てのエージェントの振る舞いを模倣できる世界政治を学ぶ。
我々は,shap(shapley additive descriptions)と呼ばれる付加的特徴帰属法を用いて,各匿名観察を説明するために,世界政治を利用する。
最後に,これらの説明をクラスタリングすることで,異なるエージェントポリシーやグループ観察を識別できることを示す。
シミュレーションされた市場データと実世界の金融データセットに対するアプローチを評価した。
我々は,提案手法が既存の手法を著しくかつ一貫して上回り,異なるエージェント戦略を特定していることを示す。 Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies. | 翻訳日:2023-06-02 03:11:53 公開日:2023-05-31 |
# FedST: 時系列分類のためのセキュアなフェデレーションシェイプレット変換 FedST: Secure Federated Shapelet Transformation for Time Series Classification ( http://arxiv.org/abs/2302.10631v3 ) ライセンス: Link先を確認 | Zhiyu Liang, Hongzhi Wang | (参考訳) 本稿では,プライバシ保護フェデレーション学習(FL)シナリオにおいて,外部データを利用して時系列分類(TSC)手法をカスタマイズする方法を検討する。
私たちの知る限りでは、私たちはこの本質的なトピックについて最初に研究しました。
この目標を達成するためには、データマイニング、機械学習、セキュリティなど、複数の分野からのテクニックをシームレスに統合する必要があります。
本稿では,集中型シナリオのための既存のTSCソリューションを体系的に検討し,シェイプレット変換法に基づく新しいFL対応TSCフレームワークであるFedSTを提案する。
我々はフェデレートされたシェープレット探索ステップをFedSTのカーネルとして認識する。
したがって、我々はFedSTカーネルの基本プロトコルを設計し、安全で正確であることを証明した。
しかし,基本プロトコルは効率のボトルネックに悩まされており,セキュリティ上の問題により中央集権的加速技術は効率を損なう。
セキュリティ保証付きフェデレーションプロトコルを高速化するため,FL設定に適した最適化をいくつか提案する。
理論的解析により,提案手法は安全で効率がよいことが示された。
我々は,合成データと実世界データの両方を用いて広範な実験を行う。
実験の結果,提案手法はTSC精度で有効であり,提案手法は3桁の高速化を実現することができることがわかった。 This paper explores how to customize time series classification (TSC) methods with the help of external data in a privacy-preserving federated learning (FL) scenario. To the best of our knowledge, we are the first to study on this essential topic. Achieving this goal requires us to seamlessly integrate the techniques from multiple fields including Data Mining, Machine Learning, and Security. In this paper, we systematically investigate existing TSC solutions for the centralized scenario and propose FedST, a novel FL-enabled TSC framework based on a shapelet transformation method. We recognize the federated shapelet search step as the kernel of FedST. Thus, we design a basic protocol for the FedST kernel that we prove to be secure and accurate. However, we identify that the basic protocol suffers from efficiency bottlenecks and the centralized acceleration techniques lose their efficacy due to the security issues. To speed up the federated protocol with security guarantee, we propose several optimizations tailored for the FL setting. Our theoretical analysis shows that the proposed methods are secure and more efficient. We conduct extensive experiments using both synthetic and real-world datasets. Empirical results show that our FedST solution is effective in terms of TSC accuracy, and the proposed optimizations can achieve three orders of magnitude of speedup. | 翻訳日:2023-06-02 03:11:30 公開日:2023-05-31 |
# maskedkd: マスク画像を用いた視覚トランスフォーマーの効率的な蒸留 MaskedKD: Efficient Distillation of Vision Transformers with Masked Images ( http://arxiv.org/abs/2302.10494v2 ) ライセンス: Link先を確認 | Seungwoo Son and Namhoon Lee and Jaeho Lee | (参考訳) 知識蒸留は軽量モデルの訓練に有効な方法であるが、その方法には教師の指導を受ける必要があるため、訓練コストにかなりの計算オーバーヘッドをもたらす。
蒸留コストと呼ばれるこの追加コストは、視覚変換器(ViT)のような大規模な教師モデルを採用する際に最も顕著である。
学生モデルの予測精度を犠牲にすることなく,ViTの蒸留コストを大幅に削減できる簡易かつ効果的な方法であるMaskedKDを提案する。
具体的には、 maskedkd は教師に供給されるイメージパッチトークンのごく一部をマスキングすることで、推論における教師の実行コストを削減し、そのパッチを処理するのに必要な計算をスキップする。
マスク位置は、学生モデルが予測に使用する画像の核となる特徴をマスキングするのを防ぐために選択される。
このマスク選択機構は、学生のフォワードパス中に既に計算されている学生モデルの注意スコアに基づいて動作し、そのため追加の計算がほとんど行われない。
最終学生の精度を犠牲にすることなく、MaskedKDはViTの蒸留に必要な計算量を劇的に削減する。
maskedkdは、学生の成績が低下することなく、蒸留コストを50〜%削減できることを実証し、全体のトレーニングフラップが約28〜%低下することを示した。 Knowledge distillation is an effective method for training lightweight models, but it introduces a significant amount of computational overhead to the training cost, as the method requires acquiring teacher supervisions on training samples. This additional cost -- called distillation cost -- is most pronounced when we employ large-scale teacher models such as vision transformers (ViTs). We present MaskedKD, a simple yet effective strategy that can significantly reduce the cost of distilling ViTs without sacrificing the prediction accuracy of the student model. Specifically, MaskedKD diminishes the cost of running teacher at inference by masking a fraction of image patch tokens fed to the teacher, and therefore skipping the computations required to process those patches. The mask locations are selected to prevent masking away the core features of an image that the student model uses for prediction. This mask selection mechanism operates based on some attention score of the student model, which is already computed during the student forward pass, and thus incurs almost no additional computation. Without sacrificing the final student accuracy, MaskedKD dramatically reduces the amount of computations required for distilling ViTs. We demonstrate that MaskedKD can save up the distillation cost by $50\%$ without any student performance drop, leading to approximately $28\%$ drop in the overall training FLOPs. | 翻訳日:2023-06-02 03:11:11 公開日:2023-05-31 |
# マシンラーニングのセキュリティ防衛における品質測定 Measuring Equality in Machine Learning Security Defenses ( http://arxiv.org/abs/2302.08973v4 ) ライセンス: Link先を確認 | Luke E. Richards, Edward Raff, Cynthia Matuszek | (参考訳) 機械学習セキュリティコミュニティは、過去10年間にわたって、回避攻撃に対する無数の防御を開発してきた。
このコミュニティの未熟な疑問は: この防御策は誰を擁護するのか?
本研究では,学習システムを守るための一般的なアプローチと,それらのアプローチが異なるサブ集団で使用する場合,予期せぬ性能の低下をもたらすかどうかを検討する。
機械学習のセキュリティ手法の公正性に関する実証的な結果を通じて、この問題に答えることのできる単純なパリティ指標と分析のためのフレームワークについて概説する。
直接的害を引き起こす可能性のある多くの手法が提案されているが、これは偏りの脆弱性と偏りの拒絶である。
当社のフレームワークとメトリックは,堅牢にトレーニングされたモデル,前処理ベースのメソッド,セキュリティ予算を越える行動をキャプチャする拒否メソッドにも適用可能です。
我々は、防衛の平等性を測定するのに適した合理的な計算コストを持つ現実的なデータセットを特定する。
音声認識におけるケーススタディを通じて、このような防衛が社会的サブグループに対して平等な保護を提供していないこと、そして、ロバストネストレーニングのためにそのような分析を行う方法を示し、ランダム化スムーシングとニューラルリジェクションの2つの拒否に基づく防御の公平性の比較を示す。
我々は, 公平防衛と相関する要因のさらなる分析を行い, 今後, 防衛体制の整備を支援する方法についての調査を促進させる。
我々の知る限りでは、音声データの正確さと損益性とのトレードオフの公平性を検証し、拒絶に基づく防御に対する公平性評価に対処する最初の研究である。 The machine learning security community has developed myriad defenses for evasion attacks over the past decade. An understudied question in that community is: for whom do these defenses defend? In this work, we consider some common approaches to defending learned systems and whether those approaches may offer unexpected performance inequities when used by different sub-populations. We outline simple parity metrics and a framework for analysis that can begin to answer this question through empirical results of the fairness implications of machine learning security methods. Many methods have been proposed that can cause direct harm, which we describe as biased vulnerability and biased rejection. Our framework and metric can be applied to robustly trained models, preprocessing-based methods, and rejection methods to capture behavior over security budgets. We identify a realistic dataset with a reasonable computational cost suitable for measuring the equality of defenses. Through a case study in speech command recognition, we show how such defenses do not offer equal protection for social subgroups and how to perform such analyses for robustness training, and we present a comparison of fairness between two rejection-based defenses: randomized smoothing and neural rejection. We offer further analysis of factors that correlate to equitable defenses to stimulate the future investigation of how to assist in building such defenses. To the best of our knowledge, this is the first work that examines the fairness disparity in the accuracy-robustness trade-off in speech data and addresses fairness evaluation for rejection-based defenses. | 翻訳日:2023-06-02 03:10:30 公開日:2023-05-31 |
# 自律走行車の車両制御のための残留ポリシー学習 Residual Policy Learning for Vehicle Control of Autonomous Racing Cars ( http://arxiv.org/abs/2302.07035v2 ) ライセンス: Link先を確認 | Raphael Trumpp, Denis Hoornaert, Marco Caccamo | (参考訳) 自動走行のための車両制御装置の開発は、レーシングカーが物理的な運転制限で作動するため、困難である。
パフォーマンス向上の需要により、自律レース研究は機械学習ベースのコントローラが急増している。
これらのアプローチは競争性能を示すが、実用性はしばしば制限される。
残留ポリシー学習は、古典的なコントローラと学習された残留コントローラを組み合わせることで、この欠点を軽減することを約束する。
残留コントローラの重要な利点は、古典的なコントローラの安定な動作と平行な高い適応性である。
レースラインの経路追従のための古典的制御系を改良する自律走行車用残留車両制御装置を提案する。
本研究では,F1TENTH自動レースシリーズのシミュレートカーとして,提案手法の性能評価を行った。
実世界のレーストラック12台の評価により、残差コントローラは従来のコントローラと比較して平均4.55パーセントのラップタイムを削減でき、未知のレーストラックでのラップタイムのゲインも可能となった。 The development of vehicle controllers for autonomous racing is challenging because racing cars operate at their physical driving limit. Prompted by the demand for improved performance, autonomous racing research has seen the proliferation of machine learning-based controllers. While these approaches show competitive performance, their practical applicability is often limited. Residual policy learning promises to mitigate this drawback by combining classical controllers with learned residual controllers. The critical advantage of residual controllers is their high adaptability parallel to the classical controller's stable behavior. We propose a residual vehicle controller for autonomous racing cars that learns to amend a classical controller for the path-following of racing lines. In an extensive study, performance gains of our approach are evaluated for a simulated car of the F1TENTH autonomous racing series. The evaluation for twelve replicated real-world racetracks shows that the residual controller reduces lap times by an average of 4.55 % compared to a classical controller and even enables lap time gains on unknown racetracks. | 翻訳日:2023-06-02 03:09:53 公開日:2023-05-31 |
# フェデレート自己重み付けドメイン適応 Federated Auto-weighted Domain Adaptation ( http://arxiv.org/abs/2302.05049v3 ) ライセンス: Link先を確認 | Enyi Jiang, Yibo Jacky Zhang, Oluwasanmi Koyejo | (参考訳) フェデレーションドメイン適応(fda)は、限られたデータが利用可能なターゲットクライアントのパフォーマンスを改善するために、ソースクライアントのセットが協調して動作するフェデレーション学習設定を記述する。
ソースとターゲットドメイン間のドメインシフトと、ターゲットドメイン内のスパースデータの組み合わせは、FDAを困難な問題にしている。
この問題を総合的に理解するために,fda設定を特徴付ける指標を導入し,集約ルールの性能分析のための理論的枠組みを提示する。
我々はまた、トレーニング中にソース勾配とターゲット勾配を集約するために使われるFDAの新たなアグリゲーションルールであるFederated Gradient Projection(\texttt{FedGP}$)を提案する。
重要なことに、我々のフレームワークはソースとターゲットの勾配を最適に組み合わせた$\textit{auto-weighting scheme}$の開発を可能にする。
このスキームは$\texttt{FedGP}$とより単純なヒューリスティックアグリゲーションルール(\texttt{FedDA}$)の両方を改善します。
合成および実世界のデータセットの実験は理論的洞察を検証し、提案手法の有効性を実証する。 Federated Domain Adaptation (FDA) describes the federated learning setting where a set of source clients work collaboratively to improve the performance of a target client where limited data is available. The domain shift between the source and target domains, coupled with sparse data in the target domain, makes FDA a challenging problem, e.g., common techniques such as FedAvg and fine-tuning, often fail with the presence of significant domain shift and data scarcity. To comprehensively understand the problem, we introduce metrics that characterize the FDA setting and put forth a theoretical framework for analyzing the performance of aggregation rules. We also propose a novel aggregation rule for FDA, Federated Gradient Projection ($\texttt{FedGP}$), used to aggregate the source gradients and target gradient during training. Importantly, our framework enables the development of an $\textit{auto-weighting scheme}$ that optimally combines the source and target gradients. This scheme improves both $\texttt{FedGP}$ and a simpler heuristic aggregation rule ($\texttt{FedDA}$). Experiments on synthetic and real-world datasets verify the theoretical insights and illustrate the effectiveness of the proposed method in practice. | 翻訳日:2023-06-02 03:09:36 公開日:2023-05-31 |
# ゼロショット協調のための協調学習フレームワーク Cooperative Open-ended Learning Framework for Zero-shot Coordination ( http://arxiv.org/abs/2302.04831v2 ) ライセンス: Link先を確認 | Yang Li, Shao Zhang, Jichen Sun, Yali Du, Ying Wen, Xinbing Wang, Wei Pan | (参考訳) 協調型人工知能(ai)におけるゼロショットコーディネーションは依然として大きな課題であり、幅広い未知のパートナーと効果的に協調することを意味する。
以前のアルゴリズムは、戦略や行動の多様性を改善するために集団内の固定目標を最適化することで、この問題に対処しようとした。
しかし、これらのアプローチは学習の喪失と集団内の特定の戦略、すなわち協調的非互換性の欠如に繋がる可能性がある。
そこで本稿では,各戦略の協調能力を評価するために,グラフ理論の観点から2人のプレイヤーと協調ゲームにおけるオープンエンド目標を構築する協調オープンエンド学習(cole)フレームワークを提案する。
さらに,ゲーム理論とグラフ理論の知識を活用した実用的なアルゴリズムを提案する。
さらに,アルゴリズムの学習過程の解析により,協調的不整合を効率的に克服できることを示した。
オーバークッキングゲーム環境における実験結果から,本手法は,異なるレベルのパートナとのコーディネートにおいて,現在の最先端手法よりも優れていることが示された。
デモはhttps://sites.google.com/view/cole-2023で公開しています。 Zero-shot coordination in cooperative artificial intelligence (AI) remains a significant challenge, which means effectively coordinating with a wide range of unseen partners. Previous algorithms have attempted to address this challenge by optimizing fixed objectives within a population to improve strategy or behaviour diversity. However, these approaches can result in a loss of learning and an inability to cooperate with certain strategies within the population, known as cooperative incompatibility. To address this issue, we propose the Cooperative Open-ended LEarning (COLE) framework, which constructs open-ended objectives in cooperative games with two players from the perspective of graph theory to assess and identify the cooperative ability of each strategy. We further specify the framework and propose a practical algorithm that leverages knowledge from game theory and graph theory. Furthermore, an analysis of the learning process of the algorithm shows that it can efficiently overcome cooperative incompatibility. The experimental results in the Overcooked game environment demonstrate that our method outperforms current state-of-the-art methods when coordinating with different-level partners. Our demo is available at https://sites.google.com/view/cole-2023. | 翻訳日:2023-06-02 03:09:14 公開日:2023-05-31 |
# 近似輸送地図を用いたサンプリングについて On Sampling with Approximate Transport Maps ( http://arxiv.org/abs/2302.04763v2 ) ライセンス: Link先を確認 | Louis Grenioux, Alain Durmus, \'Eric Moulines, Marylou Gabri\'e | (参考訳) トランスポートマップは、扱いやすい分布に変換することで、非自明なジオメトリを持つ分布のサンプリングを容易にすることができる。
このアプローチのポテンシャルは、ターゲットに向かって参照分布をプッシュするようにトレーニングされたディープニューラルネットワークでパラメータ化されたマップである正規化フロー(NF)の開発によって高まっている。
NF強化サンプリング器が最近提案したブレンド(マルコフ連鎖)モンテカルロ法
(i)その流れから引き出すもの,又は
(ii)フローベースの再パラメータ化。
いずれの場合も、学習した輸送条件の品質が向上する。
本研究は,これら2つのアプローチの相対的強みと弱みを初めて明らかにした。
本研究は,マルチモーダルターゲットを適度な高次元までフローベースの提案で確実に処理できることを結論づける。
対照的に、再パラメトリゼーションに依存する手法はマルチモダリティに苦しむが、高次元の設定や訓練不足においてはより堅牢である。
さらに, 目的-目的の妥当性の影響を明らかにするために, 独立系メトロポリス・ハスティングスサンプリング装置の混合時間に対する新しい定量的境界を導出する。 Transport maps can ease the sampling of distributions with non-trivial geometries by transforming them into distributions that are easier to handle. The potential of this approach has risen with the development of Normalizing Flows (NF) which are maps parameterized with deep neural networks trained to push a reference distribution towards a target. NF-enhanced samplers recently proposed blend (Markov chain) Monte Carlo methods with either (i) proposal draws from the flow or (ii) a flow-based reparametrization. In both cases, the quality of the learned transport conditions performance. The present work clarifies for the first time the relative strengths and weaknesses of these two approaches. Our study concludes that multimodal targets can be reliably handled with flow-based proposals up to moderately high dimensions. In contrast, methods relying on reparametrization struggle with multimodality but are more robust otherwise in high-dimensional settings and under poor training. To further illustrate the influence of target-proposal adequacy, we also derive a new quantitative bound for the mixing time of the Independent Metropolis-Hastings sampler. | 翻訳日:2023-06-02 03:08:54 公開日:2023-05-31 |
# 神経波動関数の一般化 Generalizing Neural Wave Functions ( http://arxiv.org/abs/2302.04168v2 ) ライセンス: Link先を確認 | Nicholas Gao, Stephan G\"unnemann | (参考訳) 最近のニューラルネットワークに基づく波動関数は、アブ初期基底ポテンシャルエネルギー表面のモデリングにおいて最先端の精度を達成した。
しかし、これらのネットワークは同じ原子の集合の異なる空間配置しか解決できない。
この制限を克服するために、我々は、異なる分子に神経波関数を適応できるニューラルネットワークに基づく再パラメータ化法であるグラフ学習軌道埋め込み(Globe)を提案する。
グローブは、分子軌道と共有結合を接続することで、空間的メッセージパッシングを通じて分子間を一般化する局所電子構造の表現を学ぶ。
さらに,分子軌道ネットワーク (moon, molecular orbital network) を用いて,異なる分子のシュル=オディンガー方程式を共同で解く手法を提案する。
我々の実験では、ムーンの収束は以前の方法と同等の精度で4.5倍も小さくなり、同時にエネルギーを下げることがわかった。
さらに, 月面のエネルギー推定値とシステムサイズの増加は, 発散を観測する以前の研究と異なり, 加法的にスケールすることを示した。
計算化学と機械学習の両方において、1つの波動関数が異なる原子を結合した分子のシュリンガー方程式を解くことができることを初めて証明する。 Recent neural network-based wave functions have achieved state-of-the-art accuracies in modeling ab-initio ground-state potential energy surface. However, these networks can only solve different spatial arrangements of the same set of atoms. To overcome this limitation, we present Graph-learned orbital embeddings (Globe), a neural network-based reparametrization method that can adapt neural wave functions to different molecules. Globe learns representations of local electronic structures that generalize across molecules via spatial message passing by connecting molecular orbitals to covalent bonds. Further, we propose a size-consistent wave function Ansatz, the Molecular orbital network (Moon), tailored to jointly solve Schr\"odinger equations of different molecules. In our experiments, we find Moon converging in 4.5 times fewer steps to similar accuracy as previous methods or to lower energies given the same time. Further, our analysis shows that Moon's energy estimate scales additively with increased system sizes, unlike previous work where we observe divergence. In both computational chemistry and machine learning, we are the first to demonstrate that a single wave function can solve the Schr\"odinger equation of molecules with different atoms jointly. | 翻訳日:2023-06-02 03:08:36 公開日:2023-05-31 |
# 臨界非エルミート系における対称性分解エンタングルメント Symmetry-resolved entanglement in critical non-Hermitian systems ( http://arxiv.org/abs/2303.05232v2 ) ライセンス: Link先を確認 | Michele Fossati, Filiberto Ares, Pasquale Calabrese | (参考訳) 理論の対称性セクターにおける絡み合いの研究は、量子多体系のいくつかの側面をよりよく理解するため、最近多くの注目を集めている。
本稿では、この解析を非エルミートモデルに拡張し、還元密度行列 $\rho_a$ は非正定値であり、絡み合いエントロピーは負または偶数複素である。
ここでは、臨界点における非エルミートSu-シュリーファー-ヘーガー鎖の基底状態における対称性分解絡みについて、粒子数を保存し、スケーリング限界が$bc$-ghost非ユニタリCFTであるモデルについて詳細に検討する。
場理論におけるボゾナイズ手法と厳密な格子数値計算を組み合わせることで、解析的に $\rho_a$ と $|\rho_a|$ の荷電モーメントを導出する。
これらから、$\rho_a$ の非正性の起源を理解でき、各電荷セクタにおける正定値還元密度行列を自然に定義することができる。
副産物として臨界絡み合いスペクトルの解析的分布も得られる。 The study of entanglement in the symmetry sectors of a theory has recently attracted a lot of attention since it provides better understanding of some aspects of quantum many-body systems. In this paper, we extend this analysis to the case of non-Hermitian models, in which the reduced density matrix $\rho_A$ may be non-positive definite and the entanglement entropy negative or even complex. Here we examine in detail the symmetry-resolved entanglement in the ground state of the non-Hermitian Su-Schrieffer-Heeger chain at the critical point, a model that preserves particle number and whose scaling limit is a $bc$-ghost non-unitary CFT. By combining bosonization techniques in the field theory and exact lattice numerical calculations, we analytically derive the charged moments of $\rho_A$ and $|\rho_A|$. From them, we can understand the origin of the non-positiveness of $\rho_A$ and naturally define a positive-definite reduced density matrix in each charge sector, which gives a well-defined symmetry-resolved entanglement entropy. As byproduct, we also obtain the analytical distribution of the critical entanglement spectrum. | 翻訳日:2023-06-02 03:02:45 公開日:2023-05-31 |
# MDAMF:Motion-guided deformable Alignment と Multi- resolution Fusion を用いた自由呼吸下心内MRI再構成 MDAMF: Reconstruction of Cardiac Cine MRI under Free-breathing using Motion-guided Deformable Alignment and Multi-resolution Fusion ( http://arxiv.org/abs/2303.04968v2 ) ライセンス: Link先を確認 | Xiaoxiang Han, Yiman Liu, Yuanjie Lin, Keyan Chen, Weikun Zhang and Qiaohong Liu | (参考訳) 心臓シネ磁気共鳴イメージングは、高い撮像速度を必要とするだけでなく、運動アーチファクトに対処する必要がある。
特に自由呼吸の場合、より多くのモーションアーティファクトが必然的に導入される。
これにより、モデルの再構築性能と時間的情報を取得する能力により高い要求が生じる。
従来の手法では, 時間次元情報を利用して運動アーチファクトを補償していない。
本稿では, 時空間情報を完全に活用し, 運動アーチファクトの影響を低減するために, 二方向二方向伝搬を伴う運動誘導変形可能なアライメント法を提案する。
さらに、隣接フレームの整列は、後続の核融合再建に有害な、低い精度や不整合の問題につながる可能性がある。
従来の手法では、整列した特徴情報を十分に統合して修正していない。
本稿では,アライメントエラーやアーティファクトを補正する多分解能融合法を提案する。
提案手法は,他の高度な手法と比較して,ピーク信号対雑音比(PSNR),構造類似度指数(SSIM),視覚効果の面で,画像再構成品質の向上を実現する。
ソースコードはhttps://github.com/GtLinyer/MDAMF.comで入手できる。 Cardiac cine magnetic resonance imaging not only requires higher imaging speed but also needs to address motion artifacts. Especially in the case of free-breathing, more motion artifacts are inevitably introduced. This poses higher demands on the reconstruction performance of the model and its ability to capture temporal information. Previous methods have not effectively utilized the temporal dimension information to compensate for motion artifacts. In order to fully leverage the spatiotemporal information and reduce the impact of motion artifacts, this paper proposes a motion-guided deformable alignment method with second-order bidirectional propagation. Furthermore, aligning adjacent frames may lead to low accuracy or misalignment issues, which are detrimental to subsequent fusion reconstruction. Previous methods have not sufficiently integrated and corrected the aligned feature information. This paper proposes a multi-resolution fusion method to further correct alignment errors or artifacts. Compared to other advanced methods, the proposed approach achieves better image reconstruction quality in terms of peak signal-to-noise ratio (PSNR), structural similarity index (SSIM), and visual effects. The source code will be made available on https://github.com/GtLinyer/MDAMF. | 翻訳日:2023-06-02 03:02:21 公開日:2023-05-31 |
# 解釈可能な因果変数と分散神経表現のアライメントの探索 Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations ( http://arxiv.org/abs/2303.02536v2 ) ライセンス: Link先を確認 | Atticus Geiger and Zhengxuan Wu and Christopher Potts and Thomas Icard and Noah D. Goodman | (参考訳) 因果抽象は、解釈可能な高レベル因果モデルが低レベルのディープラーニングシステムの忠実な単純化である場合を定義する、説明可能な人工知能のための有望な理論的枠組みである。
しかし、既存の因果的抽象法には2つの大きな制限がある: それらは高レベルモデルと低レベルモデルの整合性に関するブルートフォース探索を必要とし、高レベルモデルの変数は低レベルモデルのニューロンの解離集合と整合することを前提としている。
本稿では,これらの制約を克服する分散アライメント探索(DAS)を提案する。
dasでは、ブリュートフォース探索を行うのではなく、勾配降下を用いた高レベルモデルと低レベルモデルのアライメントを見いだし、非標準基底分布表現の表現を解析することにより、個々のニューロンが複数の異なる役割を担えるようにした。
実験の結果,DASは従来のアプローチが見逃す内部構造を発見できることがわかった。
全体として、DASは因果的抽象解析の過去の障害を取り除き、訓練されたニューラルネットワークの概念構造を見つけることができる。 Causal abstraction is a promising theoretical framework for explainable artificial intelligence that defines when an interpretable high-level causal model is a faithful simplification of a low-level deep learning system. However, existing causal abstraction methods have two major limitations: they require a brute-force search over alignments between the high-level model and the low-level one, and they presuppose that variables in the high-level model will align with disjoint sets of neurons in the low-level one. In this paper, we present distributed alignment search (DAS), which overcomes these limitations. In DAS, we find the alignment between high-level and low-level models using gradient descent rather than conducting a brute-force search, and we allow individual neurons to play multiple distinct roles by analyzing representations in non-standard bases-distributed representations. Our experiments show that DAS can discover internal structure that prior approaches miss. Overall, DAS removes previous obstacles to conducting causal abstraction analyses and allows us to find conceptual structure in trained neural nets. | 翻訳日:2023-06-02 03:01:47 公開日:2023-05-31 |
# dnnに基づく乗法マスキングのディープサブバンドフィルタへの拡張による残響改善 Extending DNN-based Multiplicative Masking to Deep Subband Filtering for Improved Dereverberation ( http://arxiv.org/abs/2303.00529v3 ) ライセンス: Link先を確認 | Jean-Marie Lemercier, Julian Tobergte, Timo Gerkmann | (参考訳) 本稿では、時間周波数領域における音声復元のためのディープサブバンドフィルタにディープニューラルネットワークに基づく乗算マスクを拡張させる手法を提案する。
得られた方法は、時間周波数領域にマスクを提供する任意のディープニューラルネットワークに汎用的に適用できるが、トレーニング可能なパラメータと、最先端のニューラルネットワークでは無視できる計算オーバーヘッドは少ない。
その結果, ディープサブバンドフィルタ方式は, 除音性能をほぼ同等に保ちながら, 除音用乗算マスクよりも優れることを示した。
これは、時間周波数領域の深いサブバンドフィルタリングが、非残響の文献でしばしば想定されるサブバンド近似に適合するのに対し、乗法的マスキングは一般に分極に使用される狭帯域近似に対応するためである。 In this paper, we present a scheme for extending deep neural network-based multiplicative maskers to deep subband filters for speech restoration in the time-frequency domain. The resulting method can be generically applied to any deep neural network providing masks in the time-frequency domain, while requiring only few more trainable parameters and a computational overhead that is negligible for state-of-the-art neural networks. We demonstrate that the resulting deep subband filtering scheme outperforms multiplicative masking for dereverberation, while leaving the denoising performance virtually the same. We argue that this is because deep subband filtering in the time-frequency domain fits the subband approximation often assumed in the dereverberation literature, whereas multiplicative masking corresponds to the narrowband approximation generally employed for denoising. | 翻訳日:2023-06-02 03:01:01 公開日:2023-05-31 |
# gnot: 演算子学習のための一般ニューラルネットワークトランスフォーマー GNOT: A General Neural Operator Transformer for Operator Learning ( http://arxiv.org/abs/2302.14376v2 ) ライセンス: Link先を確認 | Zhongkai Hao, Zhengyi Wang, Hang Su, Chengyang Ying, Yinpeng Dong, Songming Liu, Ze Cheng, Jian Song, Jun Zhu | (参考訳) 偏微分方程式(pdes)解演算子の学習は、機械学習において不可欠な問題である。
しかし、不規則メッシュ、複数入力関数、PDEの解の複雑さなど、実践的な応用における演算子学習にはいくつかの課題がある。
そこで本研究では,学習操作者のためのスケーラブルで効果的なトランスフォーマーフレームワークであるgeneral neural operator transformer (gnot)を提案する。
新たな不均一正規化アテンション層を設計することにより,複数の入力関数や不規則メッシュを扱うことができる。
また,マルチスケール問題を解くためにソフトドメイン分解と見なすことのできる幾何学的ゲーティング機構を導入する。
トランスフォーマーアーキテクチャの大規模モデルキャパシティは,大規模データセットと実用上の問題にスケールする可能性をモデルに与える。
異なる領域の複数の挑戦的データセットを広範囲に実験し,代替手法と比較して著しく改善した。
私たちのコードとデータは、 \url{https://github.com/thu-ml/gnot}で公開されている。 Learning partial differential equations' (PDEs) solution operators is an essential problem in machine learning. However, there are several challenges for learning operators in practical applications like the irregular mesh, multiple input functions, and complexity of the PDEs' solution. To address these challenges, we propose a general neural operator transformer (GNOT), a scalable and effective transformer-based framework for learning operators. By designing a novel heterogeneous normalized attention layer, our model is highly flexible to handle multiple input functions and irregular meshes. Besides, we introduce a geometric gating mechanism which could be viewed as a soft domain decomposition to solve the multi-scale problems. The large model capacity of the transformer architecture grants our model the possibility to scale to large datasets and practical problems. We conduct extensive experiments on multiple challenging datasets from different domains and achieve a remarkable improvement compared with alternative methods. Our code and data are publicly available at \url{https://github.com/thu-ml/GNOT}. | 翻訳日:2023-06-02 03:00:45 公開日:2023-05-31 |
# 微分プライベートな線形コンテキスト帯域について On Differentially Private Federated Linear Contextual Bandits ( http://arxiv.org/abs/2302.13945v2 ) ライセンス: Link先を確認 | Xingyu Zhou and Sayak Ray Chowdhury | (参考訳) 複数のサイロ(agents)がローカルユーザと対話し、中央サーバを介して通信し、各ユーザのプライバシを犠牲にすることなくコラボレーションを実現するという、ディファレンシャルプライバシの下でのクロスサイロフェデレーション線形コンテキストバンディット(lcb)問題を考える。
最先端の3つの問題を特定します。
(i)主張されたプライバシー保護の失敗と
(ii)ノイズの誤算と不正確な後悔
(iii)根拠のない通信コスト。
これらの問題を解決するために、我々は2段階の原則的アプローチをとる。
まず,汎用的なLCBアルゴリズムとフレキシブルプライバシプロトコルからなるアルゴリズムフレームワークを設計する。
そこで,提案手法を応用し,2つの異なるプライバシー制約の下でフェデレートされたLCBについて検討した。
私たちはまず、サイロレベルのローカル差分プライバシーの下で、プライバシーと後悔の保証を確立します。
さらに後悔のパフォーマンスを向上させるため,我々は次に差分プライバシーのシャッフルモデルを検討し,信頼されたサーバを使わずに,アルゴリズムがほぼ‘オプティマイズ’の後悔を実現できることを示す。
これを2つの異なるスキームで実現します - 1つはDPメカニズムのシャッフルによるプライバシの増幅による新たな結果に依存し、もう1つは、ベクトル和のためのシャッフルプロトコルをツリーベースのメカニズムに統合したものです。
最後に,合成データと実データの両方から生成されたコンテキストバンディットインスタンス上での数値評価を行い,理論結果を裏付ける。 We consider cross-silo federated linear contextual bandit (LCB) problem under differential privacy, where multiple silos (agents) interact with the local users and communicate via a central server to realize collaboration while without sacrificing each user's privacy. We identify three issues in the state-of-the-art: (i) failure of claimed privacy protection and (ii) incorrect regret bound due to noise miscalculation and (iii) ungrounded communication cost. To resolve these issues, we take a two-step principled approach. First, we design an algorithmic framework consisting of a generic federated LCB algorithm and flexible privacy protocols. Then, leveraging the proposed framework, we study federated LCBs under two different privacy constraints. We first establish privacy and regret guarantees under silo-level local differential privacy, which fix the issues present in state-of-the-art algorithm. To further improve the regret performance, we next consider shuffle model of differential privacy, under which we show that our algorithm can achieve nearly ``optimal'' regret without a trusted server. We accomplish this via two different schemes -- one relies on a new result on privacy amplification via shuffling for DP mechanisms and another one leverages the integration of a shuffle protocol for vector sum into the tree-based mechanism, both of which might be of independent interest. Finally, we support our theoretical results with numerical evaluations over contextual bandit instances generated from both synthetic and real-life data. | 翻訳日:2023-06-02 03:00:28 公開日:2023-05-31 |
# ドメイン適応決定木:正確性と公平性の意味 Domain Adaptive Decision Trees: Implications for Accuracy and Fairness ( http://arxiv.org/abs/2302.13846v2 ) ライセンス: Link先を確認 | Jose M. Alvarez, Kristen M. Scott, Salvatore Ruggieri, Bettina Berendt | (参考訳) 事前訓練された機械学習モデルでは、モデルが展開されているターゲット人口が、モデルが訓練されたソース人口に反映されていない可能性があることが知られている。
これにより、デプロイ時にバイアスドモデルが発生し、モデルパフォーマンスが低下する可能性がある。
一つのリスクは、人口が変化するにつれて、特定の人口集団は、ターゲット人口に代表されるようになってきたとしても、そのモデルによって過小評価されるか、あるいは不利になってしまうことである。
ドメイン適応の分野は,対象人口のラベルデータが存在しない状況において,対象分布に関する情報が存在する場合の手法を提案する。
本稿では、ドメイン適応決定木(DADT)を導入して、ドメイン適応文学に貢献する。
他のより複雑なモデルと比較して、その解釈性とパフォーマンスのために人気が高まり、意思決定木にフォーカスしています。
DADTでは、ターゲットドメイン(またはテストデータ)とは異なるソースドメイン(またはトレーニングデータ)でトレーニングされたモデルの精度を改善することを目的としています。
対象人口の分布に対応する外部情報を用いて情報ゲイン分割基準を調整する処理ステップを提案する。
実データ上でDADTを実証し、シフトしたターゲット集団でテストする場合、標準決定木よりも精度が向上することを示す。
また,人口格差と平等な機会の下での公平性の変化についても検討した。
その結果,DADTにより公正性が向上した。 In uses of pre-trained machine learning models, it is a known issue that the target population in which the model is being deployed may not have been reflected in the source population with which the model was trained. This can result in a biased model when deployed, leading to a reduction in model performance. One risk is that, as the population changes, certain demographic groups will be under-served or otherwise disadvantaged by the model, even as they become more represented in the target population. The field of domain adaptation proposes techniques for a situation where label data for the target population does not exist, but some information about the target distribution does exist. In this paper we contribute to the domain adaptation literature by introducing domain-adaptive decision trees (DADT). We focus on decision trees given their growing popularity due to their interpretability and performance relative to other more complex models. With DADT we aim to improve the accuracy of models trained in a source domain (or training data) that differs from the target domain (or test data). We propose an in-processing step that adjusts the information gain split criterion with outside information corresponding to the distribution of the target population. We demonstrate DADT on real data and find that it improves accuracy over a standard decision tree when testing in a shifted target population. We also study the change in fairness under demographic parity and equal opportunity. Results show an improvement in fairness with the use of DADT. | 翻訳日:2023-06-02 03:00:02 公開日:2023-05-31 |
# DoGはSGDのベストフレンド:パラメータフリーの動的ステップサイズスケジュール DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule ( http://arxiv.org/abs/2302.12022v2 ) ライセンス: Link先を確認 | Maor Ivgi, Oliver Hinder and Yair Carmon | (参考訳) 本研究では,Distance over Gradients (DoG) と呼ばれるチューニング不要な動的SGDステップサイズ公式を提案する。
DoGのステップサイズは単純な経験量(初期点と勾配のノルムに依存している)に依存し、‘学習率’パラメータを持たない。
理論的には、犬の公式のわずかな変化は、確率凸最適化のための強いパラメータフリーな収束保証を享受していることを示す。
実証的に,幅広い視覚・言語伝達学習タスクを考察し,DoGの性能が学習速度を調整したSGDに近いことを示す。
また、一般にSGDよりも優れており、チューニングされたAdamの性能に近づいたDoGの層間変異も提案する。
pytorchの実装はhttps://github.com/formll/dogで利用可能 We propose a tuning-free dynamic SGD step size formula, which we call Distance over Gradients (DoG). The DoG step sizes depend on simple empirical quantities (distance from the initial point and norms of gradients) and have no ``learning rate'' parameter. Theoretically, we show that a slight variation of the DoG formula enjoys strong parameter-free convergence guarantees for stochastic convex optimization assuming only \emph{locally bounded} stochastic gradients. Empirically, we consider a broad range of vision and language transfer learning tasks, and show that DoG's performance is close to that of SGD with tuned learning rate. We also propose a per-layer variant of DoG that generally outperforms tuned SGD, approaching the performance of tuned Adam. A PyTorch implementation is available at https://github.com/formll/dog | 翻訳日:2023-06-02 02:59:40 公開日:2023-05-31 |
# 非整合スコアの再重み付けによる適応等角予測 Adaptive Conformal Prediction by Reweighting Nonconformity Score ( http://arxiv.org/abs/2303.12695v2 ) ライセンス: Link先を確認 | Salim I. Amoukou and Nicolas J.B Brunel | (参考訳) 魅力的な理論的保証と実践的な成功にもかかわらず、 Conformal Prediction (CP) によって与えられる予測インターバル(PI)は、与えられたモデルの不確かさを反映しないかもしれない。
この制限は、全てのテストポイントに対して一定の補正を行い、個々の不確実性を無視してカバレッジ特性を保証するCP法から生じる。
そこで本研究では,質的回帰フォレスト(qrf)を用いて非定形性スコアの分布を学習し,qrfの重みをテストポイントに類似した残差を有する試料に割り当てる手法を提案する。
このアプローチにより、モデルの不確実性により整合したPIの長さが得られる。
さらに、QRFによって学習された重みは特徴空間の分割を提供し、より効率的な計算を可能にし、グループ的に整合化することでPIの適応性を向上させる。
提案手法は,前提のない有限サンプルとトレーニング条件カバレッジを享受し,適切な仮定の下で条件付きカバレッジも確保する。
我々のメソッドはどんな不整合スコアでも動作し、Pythonパッケージとして利用可能です。
シミュレーションデータと実世界のデータを用いて実験を行い,既存の手法と比較して有意な改善が得られた。 Despite attractive theoretical guarantees and practical successes, Predictive Interval (PI) given by Conformal Prediction (CP) may not reflect the uncertainty of a given model. This limitation arises from CP methods using a constant correction for all test points, disregarding their individual uncertainties, to ensure coverage properties. To address this issue, we propose using a Quantile Regression Forest (QRF) to learn the distribution of nonconformity scores and utilizing the QRF's weights to assign more importance to samples with residuals similar to the test point. This approach results in PI lengths that are more aligned with the model's uncertainty. In addition, the weights learnt by the QRF provide a partition of the features space, allowing for more efficient computations and improved adaptiveness of the PI through groupwise conformalization. Our approach enjoys an assumption-free finite sample marginal and training-conditional coverage, and under suitable assumptions, it also ensures conditional coverage. Our methods work for any nonconformity score and are available as a Python package. We conduct experiments on simulated and real-world data that demonstrate significant improvements compared to existing methods. | 翻訳日:2023-06-02 02:51:47 公開日:2023-05-31 |
# メモリ効率の良い双方向変換器を用いた長ビデオのエンドツーエンド生成モデル Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers ( http://arxiv.org/abs/2303.11251v3 ) ライセンス: Link先を確認 | Jaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong | (参考訳) 自己回帰トランスフォーマーはビデオ生成において顕著な成功を収めている。
しかしながら、トランスフォーマーは、自己注意の二次的な複雑さによるビデオの長期依存性を直接学習することは禁止され、本質的には自己回帰プロセスによる推論時間とエラーの伝播が遅くなる。
本稿では,ビデオの長期依存性のエンドツーエンド学習と高速推論のためのメモリ効率2方向変換器(MeBT)を提案する。
近年の双方向変換器の進歩に基づき,部分観察パッチからビデオの時空間体積全体を並列に復号する手法を開発した。
提案したトランスフォーマーは、観測可能なコンテキストトークンを固定数の潜在トークンに投影し、マスクされたトークンをクロスアテンションで復号するように条件付けすることで、符号化と復号の両方において線形時間複雑性を実現する。
線形複雑化と双方向モデリングを応用した本手法は,画質と速度の両方で適度に長いビデオを生成するオートレグレッシブトランスフォーマーよりも大幅に向上したことを示す。
ビデオとコードはhttps://sites.google.com/view/mebt-cvpr2023で入手できる。 Autoregressive transformers have shown remarkable success in video generation. However, the transformers are prohibited from directly learning the long-term dependency in videos due to the quadratic complexity of self-attention, and inherently suffering from slow inference time and error propagation due to the autoregressive process. In this paper, we propose Memory-efficient Bidirectional Transformer (MeBT) for end-to-end learning of long-term dependency in videos and fast inference. Based on recent advances in bidirectional transformers, our method learns to decode the entire spatio-temporal volume of a video in parallel from partially observed patches. The proposed transformer achieves a linear time complexity in both encoding and decoding, by projecting observable context tokens into a fixed number of latent tokens and conditioning them to decode the masked tokens through the cross-attention. Empowered by linear complexity and bidirectional modeling, our method demonstrates significant improvement over the autoregressive Transformers for generating moderately long videos in both quality and speed. Videos and code are available at https://sites.google.com/view/mebt-cvpr2023 . | 翻訳日:2023-06-02 02:50:48 公開日:2023-05-31 |
# バイオメディカルエンティティリンクにおける部分的知識ベース推論の探索 Exploring Partial Knowledge Base Inference in Biomedical Entity Linking ( http://arxiv.org/abs/2303.10330v2 ) ライセンス: Link先を確認 | Hongyi Yuan, Keming Lu, Zheng Yuan | (参考訳) バイオメディカルエンティティリンク(EL)は、名前付きエンティティ認識(NER)と名前付きエンティティ曖昧化(NED)から構成される。
elモデルは事前定義されたkbでラベル付けされたコーパスでトレーニングされる。
しかし、kbのサブセット内のエンティティだけが利害関係者にとって重要であるという共通のシナリオである。
このシナリオを部分的に知識ベース推論と呼びます: ELモデルを1KBでトレーニングし、その部分をそれ以上のトレーニングなしで推論する。
本研究は,この実用的価値あるシナリオについて,詳細な定義と評価手順を述べるとともに,代表的な3つのelパラダイムから手法を評価する。
我々は,部分KB推定ベンチマークを構築し,劇的な精度低下によるEL性能の破滅的な劣化を目撃する。
これらのelパラダイムはunlinkable mentions (nil) を正しく処理できないため,部分的kb推論には頑健ではない。
また,計算オーバーヘッドが少なく,NIL問題に対処するための2つの簡易かつ効果的な償却手法を提案する。 Biomedical entity linking (EL) consists of named entity recognition (NER) and named entity disambiguation (NED). EL models are trained on corpora labeled by a predefined KB. However, it is a common scenario that only entities within a subset of the KB are precious to stakeholders. We name this scenario partial knowledge base inference: training an EL model with one KB and inferring on the part of it without further training. In this work, we give a detailed definition and evaluation procedures for this practically valuable but significantly understudied scenario and evaluate methods from three representative EL paradigms. We construct partial KB inference benchmarks and witness a catastrophic degradation in EL performance due to dramatically precision drop. Our findings reveal these EL paradigms can not correctly handle unlinkable mentions (NIL), so they are not robust to partial KB inference. We also propose two simple-and-effective redemption methods to combat the NIL issue with little computational overhead. | 翻訳日:2023-06-02 02:50:29 公開日:2023-05-31 |
# CoDEPS: 深度推定とパノプティックセグメンテーションのためのオンライン連続学習 CoDEPS: Online Continual Learning for Depth Estimation and Panoptic Segmentation ( http://arxiv.org/abs/2303.10147v2 ) ライセンス: Link先を確認 | Niclas V\"odisch, K\"ursat Petek, Wolfram Burgard, Abhinav Valada | (参考訳) オープンな世界でロボットを運用するには、これまで目に見えない環境に対して高いレベルの堅牢性が必要である。
最適に、ロボットは人間の監督なしに新しい条件に適応できる。例えば、その知覚システムを照明条件の変更に自動的に調整する。
本研究では,新しい環境下での,深層学習に基づく単眼深度推定とパンオプティカルセグメンテーションのための連続学習の課題をオンライン方式で解決する。
複数の現実世界のドメインを包含する連続学習を実現するために,我々は,経験リプレイを活用することで破滅的な忘れを軽減しつつ,CoDEPSを導入している。
特に,パンオプティカルセグメンテーションを適応させるために擬似ラベルを生成する新しいドメイン混合戦略を提案する。
さらに,珍しいセマンティッククラスサンプリングと画像の多様性に基づいて,固定サイズのリプレイバッファを構築するためのサンプリング戦略を活用することで,ロボットシステムの限られたストレージ容量に対処する。
我々は,さまざまな実世界のデータセット上でCoDEPSを広範囲に評価し,従来のドメインの性能を犠牲にすることなく,現状の成果を達成できることを示す。
私たちの作業のコードはhttp://codeps.cs.uni-freiburg.deで公開されています。 Operating a robot in the open world requires a high level of robustness with respect to previously unseen environments. Optimally, the robot is able to adapt by itself to new conditions without human supervision, e.g., automatically adjusting its perception system to changing lighting conditions. In this work, we address the task of continual learning for deep learning-based monocular depth estimation and panoptic segmentation in new environments in an online manner. We introduce CoDEPS to perform continual learning involving multiple real-world domains while mitigating catastrophic forgetting by leveraging experience replay. In particular, we propose a novel domain-mixing strategy to generate pseudo-labels to adapt panoptic segmentation. Furthermore, we explicitly address the limited storage capacity of robotic systems by leveraging sampling strategies for constructing a fixed-size replay buffer based on rare semantic class sampling and image diversity. We perform extensive evaluations of CoDEPS on various real-world datasets demonstrating that it successfully adapts to unseen environments without sacrificing performance on previous domains while achieving state-of-the-art results. The code of our work is publicly available at http://codeps.cs.uni-freiburg.de. | 翻訳日:2023-06-02 02:50:13 公開日:2023-05-31 |
# 小学生に向けて:効率的な画像検索のための容量動的蒸留 Towards a Smaller Student: Capacity Dynamic Distillation for Efficient Image Retrieval ( http://arxiv.org/abs/2303.09230v2 ) ライセンス: Link先を確認 | Yi Xie, Huaidong Zhang, Xuemiao Xu, Jianqing Zhu, Shengfeng He | (参考訳) 従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量ネットワークを用いる。
しかし、軽量な学生モデルは、最も重要な初期訓練期間中に効果的な知識模倣のための十分な表現能力に欠け、最終的な性能劣化を引き起こす。
そこで,本稿では,編集可能な表現能力を有する学生モデルを構築するキャパシティ動的蒸留フレームワークを提案する。
具体的には, 留学生モデルは当初, 初期研修期間における蒸留知識を実効的に学ぶための重厚なモデルであり, 訓練中は徐々に圧縮される。
モデルのキャパシティを動的に調整するために,動的なフレームワークでは,学習可能な畳み込み層を学習モデルの各残留ブロックに挿入する。
このインジケータは画像検索損失と圧縮損失によって同時に最適化され、勾配競合を解放するために検索誘導勾配再設定機構が提案されている。
広範な実験により、例えばveri-776データセットにおいて、教師としてのresnet101が与えられたことにより、精度を犠牲にすることなく67.13%のモデルパラメータと65.67%のフロップ(24.13%、21.94%)を節約できることを示した(約2.11%)。 Previous Knowledge Distillation based efficient image retrieval methods employs a lightweight network as the student model for fast inference. However, the lightweight student model lacks adequate representation capacity for effective knowledge imitation during the most critical early training period, causing final performance degeneration. To tackle this issue, we propose a Capacity Dynamic Distillation framework, which constructs a student model with editable representation capacity. Specifically, the employed student model is initially a heavy model to fruitfully learn distilled knowledge in the early training epochs, and the student model is gradually compressed during the training. To dynamically adjust the model capacity, our dynamic framework inserts a learnable convolutional layer within each residual block in the student model as the channel importance indicator. The indicator is optimized simultaneously by the image retrieval loss and the compression loss, and a retrieval-guided gradient resetting mechanism is proposed to release the gradient conflict. Extensive experiments show that our method has superior inference speed and accuracy, e.g., on the VeRi-776 dataset, given the ResNet101 as a teacher, our method saves 67.13% model parameters and 65.67% FLOPs (around 24.13% and 21.94% higher than state-of-the-arts) without sacrificing accuracy (around 2.11% mAP higher than state-of-the-arts). | 翻訳日:2023-06-02 02:49:53 公開日:2023-05-31 |
# 測度に関する統計的学習--持続性図への応用 Statistical learning on measures: an application to persistence diagrams ( http://arxiv.org/abs/2303.08456v2 ) ライセンス: Link先を確認 | Olympio Hacquard (LMO, DATASHAPE), Gilles Blanchard (LMO, DATASHAPE), Cl\'ement Levrard (LPSM) | (参考訳) 有限次元ユークリッド空間にデータを持つ代わりに、コンパクト空間 $\mathcal{x}$ 上の測度を観測する二元教師付き学習分類問題を考える。
形式的には、$D_N = (\mu_1, Y_1), \ldots, (\mu_N, Y_N)$ ここで、$\mu_i$は$\mathcal{X}$、$Y_i$は$\{0, 1\}$のラベルである。
基本分類子の集合 $\mathcal{f}$ が $\mathcal{x}$ で与えられると、対応する分類子を測度の空間に構築する。
我々は、この新しい分類器のラデマッハ複雑性の上限を上下に与え、それは単に$\mathcal{f}$ のクラスに対応する量で表現できる。
測度 $\mu_i$ が有限集合上で一様であれば、この分類タスクはマルチインスタンス学習問題に沸騰する。
しかし、このアプローチは、私たちが対処できる入力データの柔軟性と多様性をより高めます。
このようなフレームワークには多くの可能なアプリケーションがあるが、この研究は永続性ダイアグラムと呼ばれるトポロジカルディスクリプタによるデータの分類に重点を置いている。
これらの対象は $\mathbb{R}^2$ 上の離散測度であり、各点の座標は位相的特徴が存在するスケールの範囲に対応する。
我々は,いくつかの尺度分類器を提示し,パーシステンス・ダイアグラムの様々な設定において,ヒューリスティックかつ理論的に優れた分類性能を実現する方法を示す。 We consider a binary supervised learning classification problem where instead of having data in a finite-dimensional Euclidean space, we observe measures on a compact space $\mathcal{X}$. Formally, we observe data $D_N = (\mu_1, Y_1), \ldots, (\mu_N, Y_N)$ where $\mu_i$ is a measure on $\mathcal{X}$ and $Y_i$ is a label in $\{0, 1\}$. Given a set $\mathcal{F}$ of base-classifiers on $\mathcal{X}$, we build corresponding classifiers in the space of measures. We provide upper and lower bounds on the Rademacher complexity of this new class of classifiers that can be expressed simply in terms of corresponding quantities for the class $\mathcal{F}$. If the measures $\mu_i$ are uniform over a finite set, this classification task boils down to a multi-instance learning problem. However, our approach allows more flexibility and diversity in the input data we can deal with. While such a framework has many possible applications, this work strongly emphasizes on classifying data via topological descriptors called persistence diagrams. These objects are discrete measures on $\mathbb{R}^2$, where the coordinates of each point correspond to the range of scales at which a topological feature exists. We will present several classifiers on measures and show how they can heuristically and theoretically enable a good classification performance in various settings in the case of persistence diagrams. | 翻訳日:2023-06-02 02:49:26 公開日:2023-05-31 |
# グラフプロンプト手法に関する調査:技術,応用,課題 A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges ( http://arxiv.org/abs/2303.07275v2 ) ライセンス: Link先を確認 | Xuansheng Wu, Kaixiong Zhou, Mingchen Sun, Xin Wang, Ninghao Liu | (参考訳) 最近の"pre-train, prompt, predict training"パラダイムは、ラベル付きデータに制限のある一般化可能なモデルを学習する方法として人気を集めている。
このアプローチでは、事前学習されたモデルと、テンプレートを入力サンプルに適用するプロンプト関数を使用し、指示的コンテキストを追加し、事前学習タスクとしてターゲットタスクを再構成する。
しかし、複雑なタスクでは、プロンプトの設計は困難で時間がかかるかもしれない。
グラフはエンティティ間の相互作用を明示的にモデル化することで構造化された知識リポジトリとして機能する。
本稿では,グラフの知識によって関数が拡張されるグラフの観点から,プロンプトの手法を概観する。
特に,グラフプロンプト学習の基本概念を紹介し,グラフプロンプト関数の設計に関する既存の作業を整理し,それらの応用と今後の課題について述べる。
この調査は、将来の方法論開発を促進するために、グラフと設計の間のギャップを埋める。 The recent "pre-train, prompt, predict training" paradigm has gained popularity as a way to learn generalizable models with limited labeled data. The approach involves using a pre-trained model and a prompting function that applies a template to input samples, adding indicative context and reformulating target tasks as the pre-training task. However, the design of prompts could be a challenging and time-consuming process in complex tasks. The limitation can be addressed by using graph data, as graphs serve as structured knowledge repositories by explicitly modeling the interaction between entities. In this survey, we review prompting methods from the graph perspective, where prompting functions are augmented with graph knowledge. In particular, we introduce the basic concepts of graph prompt learning, organize the existing work of designing graph prompting functions, and describe their applications and future challenges. This survey will bridge the gap between graphs and prompt design to facilitate future methodology development. | 翻訳日:2023-06-02 02:48:56 公開日:2023-05-31 |
# R'enyi divergencesの有効性 Sufficiency of R\'enyi divergences ( http://arxiv.org/abs/2304.12989v2 ) ライセンス: Link先を確認 | Niklas Galke, Lauritz van Luijk, Henrik Wilming | (参考訳) 古典的あるいは量子的状態の集合が、古典的または量子的チャネルのペアが他方にセットされた場合、別のものと同値である。
ディコトミー(状態のペア)の場合、これは(古典的または量子的) R\'enyi divergences (RD) とデータ処理の不等式と密接に結びついている。
ここでは、古典的二分法について、RDs の等式だけでは、2つの方向のいずれかのチャネルの存在に十分であることを示すとともに、いくつかの応用について議論する。
最小量子RDの等式は量子の場合で十分であり、特殊の場合では証明できる。
また、ペッツ量子も最大量子RDも十分でないことを示す。
我々の手法の副作用として、古典、ペッツ量子、最大量子RDによって満たされる無限の不等式のリストを得る。
これらの不等式は最小量子rdsには当てはまらない。 A set of classical or quantum states is equivalent to another one if there exists a pair of classical or quantum channels mapping either set to the other one. For dichotomies (pairs of states) this is closely connected to (classical or quantum) R\'enyi divergences (RD) and the data-processing inequality: If a RD remains unchanged when a channel is applied to the dichotomy, then there is a recovery channel mapping the image back to the initial dichotomy. Here, we prove for classical dichotomies that equality of the RDs alone is already sufficient for the existence of a channel in any of the two directions and discuss some applications. We conjecture that equality of the minimal quantum RDs is sufficient in the quantum case and prove it for special cases. We also show that neither the Petz quantum nor the maximal quantum RDs are sufficient. As a side-result of our techniques we obtain an infinite list of inequalities fulfilled by the classical, the Petz quantum, and the maximal quantum RDs. These inequalities are not true for the minimal quantum RDs. | 翻訳日:2023-06-02 02:43:27 公開日:2023-05-31 |
# 機能近似によるオンライン強化学習は, 一般的なカバレッジ条件から何の恩恵を受けられるか? What can online reinforcement learning with function approximation benefit from general coverage conditions? ( http://arxiv.org/abs/2304.12886v2 ) ライセンス: Link先を確認 | Fanghui Liu, Luca Viano, Volkan Cevher | (参考訳) オンライン強化学習(RL)では、マルコフ決定プロセス(MDP)の標準的な構造仮定を採用する代わりに、特定のカバレッジ条件(元々オフラインRLから)を用いることで、サンプル効率の保証を確保するのに十分である(Xie et al. 2023)。
本研究では,この新たな方向性に焦点をあてて,より可能かつ一般的なカバレッジ条件を掘り下げ,効率的なオンラインrlにおけるその可能性と有用性について検討する。
我々は、集中度の変化、密度比の再現性、部分/レスト被覆条件でのトレードオフなど、より多くの概念を同定し、サンプル効率の良いオンラインRLにも有益であり、改善された後悔境界を達成できる。
さらに,オンラインrlでは,探索的オフラインデータを用いることで,統計的かつ計算効率のよい保証を実現することができる。
さらに、mdp構造(例えば線形mdp)が与えられたとしても、良好なカバレッジ条件は、$\widetilde{o}(\sqrt{t})$ を超えるより早い後悔を得るのに有益であり、また対数順序の後悔も得られる。
これらの結果は、効率的なオンラインRLにおける一般的なカバレッジ条件の使用を正当化する。 In online reinforcement learning (RL), instead of employing standard structural assumptions on Markov decision processes (MDPs), using a certain coverage condition (original from offline RL) is enough to ensure sample-efficient guarantees (Xie et al. 2023). In this work, we focus on this new direction by digging more possible and general coverage conditions, and study the potential and the utility of them in efficient online RL. We identify more concepts, including the $L^p$ variant of concentrability, the density ratio realizability, and trade-off on the partial/rest coverage condition, that can be also beneficial to sample-efficient online RL, achieving improved regret bound. Furthermore, if exploratory offline data are used, under our coverage conditions, both statistically and computationally efficient guarantees can be achieved for online RL. Besides, even though the MDP structure is given, e.g., linear MDP, we elucidate that, good coverage conditions are still beneficial to obtain faster regret bound beyond $\widetilde{O}(\sqrt{T})$ and even a logarithmic order regret. These results provide a good justification for the usage of general coverage conditions in efficient online RL. | 翻訳日:2023-06-02 02:43:03 公開日:2023-05-31 |
# 安定化符号の代数 The Algebra for Stabilizer Codes ( http://arxiv.org/abs/2304.10584v3 ) ライセンス: Link先を確認 | Cole Comfort | (参考訳) 奇数素数次元qudit純安定状態と有限次元シンプレクティックな$\mathbb{f}_p$-vector空間のアフィンラグランジアン部分空間の間には単射が存在する。
安定化形式論の言語において、フルランク安定化テーブルはちょうどアフィンラグランジュ部分空間の基底である。
この対応は、プロップの同型に拡張され、安定化回路の構成は、タドーによって張られるアフィン部分空間の関係合成に対応し、テンソル積は直和に対応する。
本稿では、この安定化器回路とテーブルローの対応を混合設定に拡張し、アフィン共等部分空間として安定化器符号について述べる(奇素キュート次元/キュービットCSS符号の場合のみ)。
安定化器符号のプロジェクタを分割することにより,エラー検出プロトコルとエラー訂正プロトコルをアフィン古典的な処理能力で復元することを示す。 There is a bijection between odd prime dimensional qudit pure stabilizer states modulo invertible scalars and affine Lagrangian subspaces of finite dimensional symplectic $\mathbb{F}_p$-vector spaces. In the language of the stabilizer formalism, full rank stabilizer tableaux are exactly the bases for affine Lagrangian subspaces. This correspondence extends to an isomorphism of props: the composition of stabilizer circuits corresponds to the relational composition of affine subspaces spanned by the tableaux, the tensor product corresponds to the direct sum. In this paper, we extend this correspondence between stabilizer circuits and tableaux to the mixed setting; regarding stabilizer codes as affine coisotropic subspaces (again only in odd prime qudit dimension/for qubit CSS codes). We show that by splitting the projector for a stabilizer code we recover the error detection protocol and the error correction protocol with affine classical processing power. | 翻訳日:2023-06-02 02:42:38 公開日:2023-05-31 |
# 医用イメージングのための不変散乱変換 Invariant Scattering Transform for Medical Imaging ( http://arxiv.org/abs/2304.10582v2 ) ライセンス: Link先を確認 | Md Manjurul Ahsan, Shivakumar Raman, Zahed Siddique | (参考訳) 近年,convolutional neural network (cnn) を用いたウェーブレット変換計算を用いて入力信号におけるパターンのスケールや方向を捉えるなど,医用画像解析において不変散乱変換(ist)技術が普及している。
istは、翻訳、回転、スケーリング、変形といった医療画像で一般的な変換に不変であり、病気の検出、診断、治療計画のための機械学習アルゴリズムに組み込むことができる、セグメンテーション、分類、登録などの医療画像アプリケーションの性能を改善するために使用される。
さらに、ISTとディープラーニングのアプローチを組み合わせることで、その強みを活用し、医療画像解析の結果を高めることができる。
本研究は, 医用画像における IST のタイプ, IST の応用, 限界, 将来的な研究者や実践者に対する潜在的範囲について概説する。 Over the years, the Invariant Scattering Transform (IST) technique has become popular for medical image analysis, including using wavelet transform computation using Convolutional Neural Networks (CNN) to capture patterns' scale and orientation in the input signal. IST aims to be invariant to transformations that are common in medical images, such as translation, rotation, scaling, and deformation, used to improve the performance in medical imaging applications such as segmentation, classification, and registration, which can be integrated into machine learning algorithms for disease detection, diagnosis, and treatment planning. Additionally, combining IST with deep learning approaches has the potential to leverage their strengths and enhance medical image analysis outcomes. This study provides an overview of IST in medical imaging by considering the types of IST, their application, limitations, and potential scopes for future researchers and practitioners. | 翻訳日:2023-06-02 02:42:21 公開日:2023-05-31 |
# 人工知能のためのエンドユーザー開発 : 体系的文献レビュー End-User Development for Artificial Intelligence: A Systematic Literature Review ( http://arxiv.org/abs/2304.09863v2 ) ライセンス: Link先を確認 | Andrea Esposito, Miriana Calvano, Antonio Curci, Giuseppe Desolda, Rosa Lanzilotti, Claudia Lorusso and Antonio Piccinno | (参考訳) 近年,人工知能は社会に益々関連してきている。
AIシステムを開発することは、ほとんど常にITとAIの専門家の偏見である。
しかし、ユーザーは特定のニーズに合わせてインテリジェントなソリューションを作成する必要がある。
このように、非技術者のユーザがAIテクノロジの定義とパーソナライズに直接関与できるように、新しいアプローチが考案された場合、AIシステムは強化される。
エンドユーザ開発(EUD)は、これらの問題に対するソリューションを提供し、AIベースのシステムを自分たちのニーズに合わせて作成、カスタマイズ、あるいは適用することができる。
本稿では,AIシステムにおけるEUDの現在の状況,すなわち,AIやプログラミングのスキルがなくても,AIの振る舞いをニーズに合わせてカスタマイズする方法について,体系的な文献レビューを行う。
本研究は、AIにおけるEUDの現在の課題、潜在的なメリット、そして、EUDをAI開発プロセス全体に統合する将来の意味についても論じる。 In recent years, Artificial Intelligence has become more and more relevant in our society. Creating AI systems is almost always the prerogative of IT and AI experts. However, users may need to create intelligent solutions tailored to their specific needs. In this way, AI systems can be enhanced if new approaches are devised to allow non-technical users to be directly involved in the definition and personalization of AI technologies. End-User Development (EUD) can provide a solution to these problems, allowing people to create, customize, or adapt AI-based systems to their own needs. This paper presents a systematic literature review that aims to shed the light on the current landscape of EUD for AI systems, i.e., how users, even without skills in AI and/or programming, can customize the AI behavior to their needs. This study also discusses the current challenges of EUD for AI, the potential benefits, and the future implications of integrating EUD into the overall AI development process. | 翻訳日:2023-06-02 02:41:57 公開日:2023-05-31 |
# チームジャンボビスタのカロリー予測におけるコンフォメーション回帰 Conformal Regression in Calorie Prediction for Team Jumbo-Visma ( http://arxiv.org/abs/2304.03778v2 ) ライセンス: Link先を確認 | Kristian van Kuijk, Mark Dirksen and Christof Seiler | (参考訳) UCIワールドトゥールレース(UCI WorldTour races, UCI WorldTour races)は、男子ロードレースの最高峰である。
team jumbo-vismaのコーチは長い間、カレンダー上の各レースのオランダチームの各ライダーのエネルギー需要を予測する責任を負ってきた。
これらは、レースを通して高いレベルのパフォーマンスを維持するために必要なエネルギーと資源を確保するために見積もられなければならない。
しかしこのタスクは、レースのスピードと出力を正確に見積もる必要があるため、時間と課題の両方がある。
伝統的に、エネルギー需要を予測するアプローチはコーチの判断と経験に依存しているが、この方法は制限があり、しばしば不正確な予測につながる。
本稿では,サイクリングレースにおけるエネルギー需要を予測するための,より効果的なアプローチを提案する。
回帰モデルを用いて速度とパワーを予測することにより、各ステージ毎の乗車者毎のカロリー需要推定をコーチに提供する。
さらに,共形予測を用いて不確かさを定量化する手法を比較する。
jackknife+, jackknife-minmax, jackknife-minmax-after-bootstrap, cv+, cv-minmax, conformalized quantile regression, inductive conformal prediction method in conformal predictionはすべての手法が有効な予測間隔を達成することを示す。
minmaxベースの手法以外はすべて、意思決定のための十分な狭い予測間隔を生成する。
さらに、固定サイズの予測間隔を計算する手法は、低い値に対してより厳密な間隔を生成する。
入力空間にわたって異なる長さの間隔を計算する手法の中で、帰納的共形予測はより大きな意味レベルでより狭い予測間隔を計算する。 UCI WorldTour races, the premier men's elite road cycling tour, are grueling events that put physical fitness and endurance of riders to the test. The coaches of Team Jumbo-Visma have long been responsible for predicting the energy needs of each rider of the Dutch team for every race on the calendar. Those must be estimated to ensure riders have the energy and resources necessary to maintain a high level of performance throughout a race. This task, however, is both time-consuming and challenging, as it requires precise estimates of race speed and power output. Traditionally, the approach to predicting energy needs has relied on judgement and experience of coaches, but this method has its limitations and often leads to inaccurate predictions. In this paper, we propose a new, more effective approach to predicting energy needs for cycling races. By predicting the speed and power with regression models, we provide the coaches with calorie needs estimates for each individual rider per stage instantly. In addition, we compare methods to quantify uncertainty using conformal prediction. The empirical analysis of the jackknife+, jackknife-minmax, jackknife-minmax-after-bootstrap, CV+, CV-minmax, conformalized quantile regression, and inductive conformal prediction methods in conformal prediction reveals that all methods achieve valid prediction intervals. All but minmax-based methods also produce produce sufficiently narrow prediction intervals for decision-making. Furthermore, methods computing prediction intervals of fixed size produce tighter intervals for low significance values. Among the methods computing intervals of varying length across the input space, inductive conformal prediction computes narrower prediction intervals at larger significance level. | 翻訳日:2023-06-02 02:41:06 公開日:2023-05-31 |
# Pythia: トレーニングとスケーリングを対象とする大規模言語モデル分析スイート Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling ( http://arxiv.org/abs/2304.01373v2 ) ライセンス: Link先を確認 | Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der Wal | (参考訳) 大規模言語モデル(llm)は、トレーニングの過程でどのように発展し進化するのか?
モデルがスケールするにつれて、これらのパターンはどのように変化するのか?
これらの疑問に答えるために、我々は、同じ順序で、70Mから12Bのパラメータで見られる公開データに基づいてトレーニングされた16のLLMからなるスイートである、textit{Pythia}を紹介した。
16モデルごとに154のチェックポイントをパブリックアクセスし、トレーニングデータローダをダウンロードして再構築し、さらなる研究を行うためのツールを提供します。
我々は,様々な分野の研究を容易にするために,<textit{pythia> を意図しており,記憶の新規な結果,短期の頻度効果,性別バイアスの低減など,いくつかの事例研究を行っている。
この高度に制御されたセットアップは、llmとそのトレーニングダイナミクスに対する新たな洞察を得られることを実証する。
トレーニングされたモデル、分析コード、トレーニングコード、トレーニングデータは、 \url{https://github.com/eleutherai/pythia}で見ることができる。 How do large language models (LLMs) develop and evolve over the course of training? How do these patterns change as models scale? To answer these questions, we introduce \textit{Pythia}, a suite of 16 LLMs all trained on public data seen in the exact same order and ranging in size from 70M to 12B parameters. We provide public access to 154 checkpoints for each one of the 16 models, alongside tools to download and reconstruct their exact training dataloaders for further study. We intend \textit{Pythia} to facilitate research in many areas, and we present several case studies including novel results in memorization, term frequency effects on few-shot performance, and reducing gender bias. We demonstrate that this highly controlled setup can be used to yield novel insights toward LLMs and their training dynamics. Trained models, analysis code, training code, and training data can be found at \url{https://github.com/EleutherAI/pythia}. | 翻訳日:2023-06-02 02:40:32 公開日:2023-05-31 |
# 確率的時系列インプテーションへの応用による有理収束型schr\"odinger橋 Provably Convergent Schr\"odinger Bridge with Applications to Probabilistic Time Series Imputation ( http://arxiv.org/abs/2305.07247v2 ) ライセンス: Link先を確認 | Yu Chen and Wei Deng and Shikai Fang and Fengpei Li and Nicole Tianjiao Yang and Yikai Zhang and Kashif Rasul and Shandian Zhe and Anderson Schneider and Yuriy Nevmyvaka | (参考訳) Schr\"odinger bridge problem (SBP) は、スコアベース生成モデル (SGM) と比較して、生成モデルにおいて注目され、有望な可能性を示している。
SBPはエントロピー規則化された最適輸送問題と解釈され、他のすべての辺縁への射影を交互に行う。
しかし、実際には近似射影のみがアクセス可能であり、それらの収束はよく理解されていない。
このギャップを埋めるために、近似射影に基づくSchr\"odinger Bridgeアルゴリズムの第一収束解析を提案する。
実例として,観測データに条件付き欠落値を生成することにより,確率的時系列計算にSBPを適用した。
トランスポートコストの最適化は性能を向上し,提案手法は医療データと環境データにおいて最先端の成果を達成し,確率的時系列インプテーションにおける時間的・特徴的パターンを探索する利点を示す。 The Schr\"odinger bridge problem (SBP) is gaining increasing attention in generative modeling and showing promising potential even in comparison with the score-based generative models (SGMs). SBP can be interpreted as an entropy-regularized optimal transport problem, which conducts projections onto every other marginal alternatingly. However, in practice, only approximated projections are accessible and their convergence is not well understood. To fill this gap, we present a first convergence analysis of the Schr\"odinger bridge algorithm based on approximated projections. As for its practical applications, we apply SBP to probabilistic time series imputation by generating missing values conditioned on observed data. We show that optimizing the transport cost improves the performance and the proposed algorithm achieves the state-of-the-art result in healthcare and environmental data while exhibiting the advantage of exploring both temporal and feature patterns in probabilistic time series imputation. | 翻訳日:2023-06-02 02:32:08 公開日:2023-05-31 |
# 外科ツールの分類と局在:MICCAI 2022 SurgToolLoc Challengeの結果と方法 Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge ( http://arxiv.org/abs/2305.07152v2 ) ライセンス: Link先を確認 | Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Max Berniker, Ziheng Wang, Rogerio Nespolo, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Bo Liu, David Austin, Yiheng Wang, Michal Futrega, Jean-Francois Puget, Zhenqiang Li, Yoichi Sato, Ryo Fujii, Ryo Hachiuma, Mana Masuda, Hideo Saito, An Wang, Mengya Xu, Mobarakol Islam, Long Bai, Winnie Pang, Hongliang Ren, Chinedu Nwoye, Luca Sestini, Nicolas Padoy, Maximilian Nielsen, Samuel Sch\"uttler, Thilo Sentker, H\"umeyra Husseini, Ivo Baltruschat, R\"udiger Schmitz, Ren\'e Werner, Aleksandr Matsun, Mugariya Farooq, Numan Saaed, Jose Renato Restom Viera, Mohammad Yaqub, Neil Getty, Fangfang Xia, Zixuan Zhao, Xiaotian Duan, Xing Yao, Ange Lou, Hao Yang, Jintong Han, Jack Noble, Jie Ying Wu, Tamer Abdulbaki Alshirbaji, Nour Aldeen Jalal, Herag Arabian, Ning Ding, Knut Moeller, Weiliang Chen, Quan He, Muhammad Bilal, Taofeek Akinosho, Adnan Qayyum, Massimo Caputo, Hunaid Vohra, Michael Loizou, Anuoluwapo Ajayi, Ilhem Berrou, Faatihah Niyi-Odumosu, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, Anthony Jarc | (参考訳) 内視鏡ビデオで手術器具を自動的に検出し追跡する能力は、トランスフォーメーションの介入を可能にする。
手術のパフォーマンスと効率を評価し、熟練したツールの使用と振り付けを識別し、リソースの運用的およびロジスティックな側面を計画することは、メリットのあるアプリケーションのほんの一部に過ぎません。
残念ながら、手術ツールを特定しローカライズするために機械学習モデルのトレーニングに必要なアノテーションを取得するのは、難しい作業です。
フレーム単位の注釈付きボックスは面倒で時間を要するが、多種多様な手術器具や手術器具を備えた大量のデータは、堅牢な訓練のために取得する必要がある。
さらに, 手術器具の革新に追随するためには, 進行中のアノテータ訓練が必要である。
しかし、ロボット支援手術では、計器の設置や取り外しのタイムスタンプのような潜在的に有益なデータをプログラム的に収集することができる。
ツールのインストールデータのみに依存する能力は、堅牢なツール追跡モデルをトレーニングする作業負荷を大幅に削減する。
このモチベーションを念頭に、私たちはSurgToolLoc 2022というチャレンジに参加するために、外科データ科学コミュニティを招待しました。
目標は、ツールの存在データを、ツールを検出し、バウンディングボックスでビデオフレームにローカライズするようにトレーニングされた機械学習モデルの弱いラベルとして活用することだった。
この課題の結果を、多くのチームの努力とともに提示します。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
24,695本のビデオクリップとツールの存在ラベルから成るトレーニングデータも公開され、https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022.comでアクセスできる。 The ability to automatically detect and track surgical instruments in endoscopic videos can enable transformational interventions. Assessing surgical performance and efficiency, identifying skilled tool use and choreography, and planning operational and logistical aspects of OR resources are just a few of the applications that could benefit. Unfortunately, obtaining the annotations needed to train machine learning models to identify and localize surgical tools is a difficult task. Annotating bounding boxes frame-by-frame is tedious and time-consuming, yet large amounts of data with a wide variety of surgical tools and surgeries must be captured for robust training. Moreover, ongoing annotator training is needed to stay up to date with surgical instrument innovation. In robotic-assisted surgery, however, potentially informative data like timestamps of instrument installation and removal can be programmatically harvested. The ability to rely on tool installation data alone would significantly reduce the workload to train robust tool-tracking models. With this motivation in mind we invited the surgical data science community to participate in the challenge, SurgToolLoc 2022. The goal was to leverage tool presence data as weak labels for machine learning models trained to detect tools and localize them in video frames with bounding boxes. We present the results of this challenge along with many of the team's efforts. We conclude by discussing these results in the broader context of machine learning and surgical data science. The training data used for this challenge consisting of 24,695 video clips with tool presence labels is also being released publicly and can be accessed at https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022. | 翻訳日:2023-06-02 02:31:50 公開日:2023-05-31 |
# 量子貯水池を用いた統一直接パラメータ推定 Unified direct parameter estimation via quantum reservoirs ( http://arxiv.org/abs/2305.06878v2 ) ライセンス: Link先を確認 | Yinfei Li, Sanjib Ghosh, Jiangwei Shang, Qihua Xiong, Xiangdong Zhang | (参考訳) パラメータ推定は量子情報処理の様々な応用において不可欠である。
後処理の段階でパラメータを予測するためには、まず量子状態を測定プロトコルで知覚し、取得した情報を格納することが本質である。
本研究では,量子リザーバネットワークを用いた任意の量子状態の古典近似を構築するための一般的な枠組みを提案する。
提案手法の重要な利点は,任意のパラメータを推定するには1つの局所的な測定設定のみが必要であるのに対し,従来の手法の多くは指数関数的に計測設定を増加させる必要があることである。
M$パラメータを同時に推定するために、古典近似のサイズは$\ln M$とスケールする。
さらに、この推定スキームは高次元およびハイブリッドシステムにも拡張可能であり、非常に一般的である。
本手法により線形関数と非線形関数の両方を効率的に推定でき,広範な数値シミュレーションにより理論的知見を裏付ける。 Parameter estimation is an indispensable task in various applications of quantum information processing. To predict parameters in the post-processing stage, it is inherent to first perceive the quantum state with a measurement protocol and store the information acquired. In this work, we propose a general framework for constructing classical approximations of arbitrary quantum states with quantum reservoir networks. A key advantage of our method is that only a single local measurement setting is required for estimating arbitrary parameters, while most of the previous methods need exponentially increasing number of measurement settings. To estimate $M$ parameters simultaneously, the size of the classical approximation scales as $\ln M$. Moreover, this estimation scheme is extendable to higher-dimensional as well as hybrid systems, which makes it exceptionally generic. Both linear and nonlinear functions can be estimated efficiently by our scheme, and we support our theoretical findings with extensive numerical simulations. | 翻訳日:2023-06-02 02:31:19 公開日:2023-05-31 |
# 医用画像のショット・ラーニング : 方法論と形式的数学的枠組みの比較分析 Few Shot Learning for Medical Imaging: A Comparative Analysis of Methodologies and Formal Mathematical Framework ( http://arxiv.org/abs/2305.04401v2 ) ライセンス: Link先を確認 | Jannatul Nayem, Sayed Sahriar Hasan, Noshin Amina, Bristy Das, Md Shahin Ali, Md Manjurul Ahsan, Shivakumar Raman | (参考訳) ディープラーニングは多くの機械学習タスクの配置に関する高次の文脈となり、構造化されていないデータから特徴を抽出するブレークスルーの隆起を示している。
医療画像処理分野では、この隆盛が進んでいるが、医療分野における深層学習の容易な適用方法において、問題に依存したトレーニングデータの不足が大きな問題となっている。
限定されたデータソースを解くために、研究者は ``few shot learning" と呼ばれる少ないデータで機械学習問題を解決するモデルを開発した。
分類とセグメンテーション手法を用いて、小さなデータセットから特徴を抽出することにより、データ制限を解くホットラーニングアルゴリズムはほとんどない。
医療分野では、いくつかの機密疾患に関して利用可能なデータセットがしばしば不足している。
それゆえ、このデータ不足セクターのリムジンを得られるショット学習はほとんどない。
本章では、いくつかの学習ショットの背景と基本的な概要を述べる。
このことから、数発学習の分類も記述されている。
医用画像解析における方法論的アプローチを時間とともに比較した。
医用画像に関する少数ショット学習の実践の進歩を概説する。
医療画像分野におけるこの領域の今後の展望についてさらに述べる。 Deep learning becomes an elevated context regarding disposing of many machine learning tasks and has shown a breakthrough upliftment to extract features from unstructured data. Though this flourishing context is developing in the medical image processing sector, scarcity of problem-dependent training data has become a larger issue in the way of easy application of deep learning in the medical sector. To unravel the confined data source, researchers have developed a model that can solve machine learning problems with fewer data called ``Few shot learning". Few hot learning algorithms determine to solve the data limitation problems by extracting the characteristics from a small dataset through classification and segmentation methods. In the medical sector, there is frequently a shortage of available datasets in respect of some confidential diseases. Therefore, Few shot learning gets the limelight in this data scarcity sector. In this chapter, the background and basic overview of a few shots of learning is represented. Henceforth, the classification of few-shot learning is described also. Even the paper shows a comparison of methodological approaches that are applied in medical image analysis over time. The current advancement in the implementation of few-shot learning concerning medical imaging is illustrated. The future scope of this domain in the medical imaging sector is further described. | 翻訳日:2023-06-02 02:31:04 公開日:2023-05-31 |
# マルチモーダル感情空間学習による高忠実度一般化感情対話顔生成 High-fidelity Generalized Emotional Talking Face Generation with Multi-modal Emotion Space Learning ( http://arxiv.org/abs/2305.02572v2 ) ライセンス: Link先を確認 | Chao Xu, Junwei Zhu, Jiangning Zhang, Yue Han, Wenqing Chu, Ying Tai, Chengjie Wang, Zhifeng Xie, Yong Liu | (参考訳) 近年,感情的な対面生成が注目されている。
しかし、既存の手法では、感情条件としてワンホットコーディング、イメージ、音声のみを採用しており、実用的なアプリケーションでは柔軟な制御ができず、セマンティクスに制限があるため、目に見えない感情スタイルを処理できない。
ワンショット設定や生成された顔の品質を無視する。
本稿では,より柔軟で汎用的なフレームワークを提案する。
具体的には、テキストプロンプトで感情のスタイルを補足し、CLIPに先立ってリッチなセマンティクスを継承するテキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
その結果、効果的なマルチモーダル感情空間学習は、テスト中に任意の感情モダリティをサポートし、知覚できない感情スタイルに一般化することができる。
さらに,感情条件と音声シーケンスを構造表現に結びつけるために,感情認識型3DMM変換器を提案する。
追従型高忠実感情顔生成器は、任意の高精細な現実的アイデンティティを生成するように設計されている。
我々のテクスチャジェネレータは階層的に流れ場とアニメーションの顔を残留的に学習する。
広範な実験により,感情制御における手法の柔軟性と一般化,高品質顔合成の有効性が実証された。 Recently, emotional talking face generation has received considerable attention. However, existing methods only adopt one-hot coding, image, or audio as emotion conditions, thus lacking flexible control in practical applications and failing to handle unseen emotion styles due to limited semantics. They either ignore the one-shot setting or the quality of generated faces. In this paper, we propose a more flexible and generalized framework. Specifically, we supplement the emotion style in text prompts and use an Aligned Multi-modal Emotion encoder to embed the text, image, and audio emotion modality into a unified space, which inherits rich semantic prior from CLIP. Consequently, effective multi-modal emotion space learning helps our method support arbitrary emotion modality during testing and could generalize to unseen emotion styles. Besides, an Emotion-aware Audio-to-3DMM Convertor is proposed to connect the emotion condition and the audio sequence to structural representation. A followed style-based High-fidelity Emotional Face generator is designed to generate arbitrary high-resolution realistic identities. Our texture generator hierarchically learns flow fields and animated faces in a residual manner. Extensive experiments demonstrate the flexibility and generalization of our method in emotion control and the effectiveness of high-quality face synthesis. | 翻訳日:2023-06-02 02:30:35 公開日:2023-05-31 |
# タスク指向対話システムのためのタスク最適化アダプタ Task-Optimized Adapters for an End-to-End Task-Oriented Dialogue System ( http://arxiv.org/abs/2305.02468v3 ) ライセンス: Link先を確認 | Namo Bang, Jeehyun Lee, Myoung-Wan Koo | (参考訳) タスク指向対話(tod)システムは、対話状態を追跡し、ユーザが定義された目標を達成するのに役立つ適切な応答を生成することによって、特定のタスクを実行するように設計されている。
近年,大規模データセットに基づいて事前学習したエンドツーエンド対話モデルは,対話システムにおいて有望な性能を示した。
しかし、対話システムのタスク(NLU、DST、NLG)をトレーニングするために同じパラメータを共有するため、各タスクのデバッグは困難である。
また、タスク指向のチャットボットを作成するために、大きなパラメータを微調整するのに多くの労力を必要とします。
したがって、PLMと比較して比較的軽量で高速なモデルを訓練する。
本稿では,タスクごとの学習を個別に行うタスク最適化アダプタを用いたエンドツーエンドTODシステムを提案する。
また,強化学習によるdstおよびnlgモジュールの性能向上,アダプタ学習の欠如した学習曲線の克服,目標に適した自然かつ一貫した応答生成を実現している。
提案手法はモデルに依存しない手法であり,プロンプトを使わずに入力データのみをプロンプトチューニングする必要がない。
実験の結果,既存のエンドツーエンドモデルと比較して,MultiWOZベンチマーク上での競合性能を示した。
特に、2.2データセットのDSTタスクで最先端のパフォーマンスを得る。 Task-Oriented Dialogue (TOD) systems are designed to carry out specific tasks by tracking dialogue states and generating appropriate responses to help users achieve defined goals. Recently, end-to-end dialogue models pre-trained based on large datasets have shown promising performance in the conversational system. However, they share the same parameters to train tasks of the dialogue system (NLU, DST, NLG), so debugging each task is challenging. Also, they require a lot of effort to fine-tune large parameters to create a task-oriented chatbot, making it difficult for non-experts to handle. Therefore, we intend to train relatively lightweight and fast models compared to PLM. In this paper, we propose an End-to-end TOD system with Task-Optimized Adapters which learn independently per task, adding only small number of parameters after fixed layers of pre-trained network. We also enhance the performance of the DST and NLG modules through reinforcement learning, overcoming the learning curve that has lacked at the adapter learning and enabling the natural and consistent response generation that is appropriate for the goal. Our method is a model-agnostic approach and does not require prompt-tuning as only input data without a prompt. As results of the experiment, our method shows competitive performance on the MultiWOZ benchmark compared to the existing end-to-end models. In particular, we attain state-of-the-art performance on the DST task of 2.2 dataset. | 翻訳日:2023-06-02 02:30:10 公開日:2023-05-31 |
# 条件付きスライス・wasserstein流による非パラメトリック生成モデル Nonparametric Generative Modeling with Conditional Sliced-Wasserstein Flows ( http://arxiv.org/abs/2305.02164v2 ) ライセンス: Link先を確認 | Chao Du, Tianbo Li, Tianyu Pang, Shuicheng Yan, Min Lin | (参考訳) sliced-wasserstein flow (swf) は非パラメトリック生成モデリングに有望なアプローチであるが、その準最適生成品質と条件付きモデリング能力の欠如のために広く採用されていない。
この作業では、このギャップを埋めることに2つの大きな貢献をします。
まず,(一定の条件下で)関節分布のSWFが条件分布のSWFと一致するという快適な観察に基づいて,SWFの簡易かつ効果的な拡張である条件スライデッド・ワッサースタインフロー(CSWF)を提案する。
第2に、画像の適切な帰納バイアスをSWFに導入し、局所的な接続性と視覚研究におけるマルチスケール表現に着想を得て、画像の効率と品質を大幅に向上させる。
これらの改良により、条件付きタスクと非条件付きタスクの両方において、多くの深度パラメトリック生成モデルに匹敵する生成性能を実現し、その大きな可能性を示す。 Sliced-Wasserstein Flow (SWF) is a promising approach to nonparametric generative modeling but has not been widely adopted due to its suboptimal generative quality and lack of conditional modeling capabilities. In this work, we make two major contributions to bridging this gap. First, based on a pleasant observation that (under certain conditions) the SWF of joint distributions coincides with those of conditional distributions, we propose Conditional Sliced-Wasserstein Flow (CSWF), a simple yet effective extension of SWF that enables nonparametric conditional modeling. Second, we introduce appropriate inductive biases of images into SWF with two techniques inspired by local connectivity and multiscale representation in vision research, which greatly improve the efficiency and quality of modeling images. With all the improvements, we achieve generative performance comparable with many deep parametric generative models on both conditional and unconditional tasks in a purely nonparametric fashion, demonstrating its great potential. | 翻訳日:2023-06-02 02:29:49 公開日:2023-05-31 |
# 不完全な観測を含むセンサデータによる回帰 Regression with Sensor Data Containing Incomplete Observations ( http://arxiv.org/abs/2304.13415v2 ) ライセンス: Link先を確認 | Takayuki Katsuki, Takayuki Osogami | (参考訳) 本稿では,出力ラベル値が現象の大きさを検知する結果である回帰問題に対処する。
このようなラベルの低い値は、現象の実際の大きさが低いか、またはセンサーが不完全な観察を行ったことを意味する。
これは、ラベルの実際の大きさが高かったとしても、不完全な観測によってラベルが低い値を持つ可能性があるため、ラベルの低い値と結果の学習に対するバイアスをもたらす。
さらに、不完全観察では、不完全を示すタグが提供されないため、それらを排除またはインプットすることはできない。
この問題に対処するため,不完全観測を非対称雑音で明確にモデル化し,常に負の値を持つ学習アルゴリズムを提案する。
我々は,不完全観測を伴わない不完全データから学習したかのように,アルゴリズムが偏りがないことを示す。
本アルゴリズムの利点を数値実験により実証する。 This paper addresses a regression problem in which output label values are the results of sensing the magnitude of a phenomenon. A low value of such labels can mean either that the actual magnitude of the phenomenon was low or that the sensor made an incomplete observation. This leads to a bias toward lower values in labels and the resultant learning because labels may have lower values due to incomplete observations, even if the actual magnitude of the phenomenon was high. Moreover, because an incomplete observation does not provide any tags indicating incompleteness, we cannot eliminate or impute them. To address this issue, we propose a learning algorithm that explicitly models incomplete observations corrupted with an asymmetric noise that always has a negative value. We show that our algorithm is unbiased as if it were learned from uncorrupted data that does not involve incomplete observations. We demonstrate the advantages of our algorithm through numerical experiments. | 翻訳日:2023-06-02 02:29:15 公開日:2023-05-31 |
# Unified Embedding: WebスケールMLシステムのためのバトルテスト機能表現 Unified Embedding: Battle-Tested Feature Representations for Web-Scale ML Systems ( http://arxiv.org/abs/2305.12102v2 ) ライセンス: Link先を確認 | Benjamin Coleman, Wang-Cheng Kang, Matthew Fahrbach, Ruoxi Wang, Lichan Hong, Ed H. Chi, Derek Zhiyuan Cheng | (参考訳) 高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。
典型的なモデルは、数百万から数十億のトークンの順番で語彙を持つ何百もの機能を取り込みます。
標準的なアプローチは、各特徴値をD次元埋め込みとして表現し、非常に高い心的特徴に対して数十億のパラメータを導入することである。
このボトルネックにより、代替埋め込みアルゴリズムが大幅に進歩した。
しかし、これらの手法の多くは、各特徴が独立した埋め込みテーブルを使用すると仮定している。
この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。
我々の理論的および経験的分析により、多重埋め込みは各構成要素の特徴から構成要素に分解でき、モデルが特徴を区別できることがわかった。
多重表現は3つの公開ベンチマークデータセットに対してパレート最適パラメータ精度トレードオフをもたらすことを示す。
さらに,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。機能構成の簡略化,動的データ分散への強力な適応,最新のハードウェアとの互換性である。
統一埋め込みは、オフラインとオンラインの指標において、5つのウェブスケールの検索、広告、レコメンデーションシステムで競争の激しいベースラインと比較して大きな改善をもたらす。 Learning high-quality feature embeddings efficiently and effectively is critical for the performance of web-scale machine learning systems. A typical model ingests hundreds of features with vocabularies on the order of millions to billions of tokens. The standard approach is to represent each feature value as a d-dimensional embedding, introducing hundreds of billions of parameters for extremely high-cardinality features. This bottleneck has led to substantial progress in alternative embedding algorithms. Many of these methods, however, make the assumption that each feature uses an independent embedding table. This work introduces a simple yet highly effective framework, Feature Multiplexing, where one single representation space is used across many different categorical features. Our theoretical and empirical analysis reveals that multiplexed embeddings can be decomposed into components from each constituent feature, allowing models to distinguish between features. We show that multiplexed representations lead to Pareto-optimal parameter-accuracy tradeoffs for three public benchmark datasets. Further, we propose a highly practical approach called Unified Embedding with three major benefits: simplified feature configuration, strong adaptation to dynamic data distributions, and compatibility with modern hardware. Unified embedding gives significant improvements in offline and online metrics compared to highly competitive baselines across five web-scale search, ads, and recommender systems, where it serves billions of users across the world in industry-leading products. | 翻訳日:2023-06-02 02:24:24 公開日:2023-05-31 |
# 結合チャネルにおける不安定状態の生存確率 -threshold-cuspの非指数崩壊- Survival Probability of Unstable States in Coupled-Channels -- nonexponential decay of "threshold-cusp" ( http://arxiv.org/abs/2305.11695v2 ) ライセンス: Link先を確認 | Wren A. Yamada, Osamu Morimatsu, Toru Sato, Koichi Yazaki | (参考訳) 本研究では,不安定状態の生存確率,初期状態の時間依存性を結合チャネルで検討する。
まず, 生存確率の定式化を単一チャネルから連結チャネル(2チャンネル)へ拡張する。
我々は,結合チャネルs行列を単値化する方法である一様化法と,mittag-leffler展開法,すなわち極展開法を用いて,二チャネル生存確率の正確な一般表現を導出する。
次に,2チャンネル生存確率の時間依存性を導出式を用いて算出する。
これは複素エネルギー平面における極と物理的領域の間の最小距離であり、極エネルギーの想像的な部分ではなく、グリーン関数のエネルギースペクトルだけでなく生存確率も決定する。
異常な複素エネルギーリーマンシート上の極によって引き起こされる「threshold-cusp」の生存確率は、極エネルギーの虚部が正であるにもかかわらず、時間とともに成長することはない。
また,「threshold-cusp」の崩壊は非指数的であることを示した。
したがって、"Threshold-cusp"は、結合チャネルでのみ見られる、新しいタイプの不安定モードであることが示されている。 We investigate the survival probability of unstable states, the time-dependence of an initial state, in coupled channels. First, we extend the formulation of the survival probability from single channel to coupled channels (two channels). We derive an exact general expression of the two-channel survival probability using uniformization, a method which makes the coupled-channel S matrix single-valued, and the Mittag-Leffler expansion, i.e. a pole expansion. Second, we calculate the time dependence of the two-channel survival probability by employing the derived expression. It is the minimal distance between the pole and the physical region in the complex energy plane, not the imaginary part of the pole energy, which determines not only the energy spectrum of the Green's function but also the survival probability. The survival probability of the "threshold-cusp" caused by a pole on the unusual complex-energy Riemann sheet is shown to decay, not grow in time though the imaginary part of the pole energy is positive. We also show that the decay of the "threshold-cusp" is non-exponential. Thus, the "threshold-cusp" is shown to be a new type of unstable mode, which is found only in coupled channels. | 翻訳日:2023-06-02 02:24:01 公開日:2023-05-31 |
# quest: 暗黙のセット操作によるエンティティ参照クエリの検索データセット QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations ( http://arxiv.org/abs/2305.11694v2 ) ライセンス: Link先を確認 | Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova | (参考訳) 選択的な情報の定式化は、整合性、和合性、差分などの集合演算を暗黙的に指定するクエリの結果を必要とする。
例えば、"shorebirds that not sandpiper"や"science-fiction films shot in england"を探すことができる。
このような情報ニーズを満たす検索システムの能力を検討するために,wikipedia文書に対応するエンティティ群にマップする,暗黙のセット操作を伴う3357の自然言語クエリのデータセットquestを構築した。
データセットは、クエリで言及される複数の制約とドキュメント内の対応する証拠を一致させ、さまざまなセット操作を正しく実行するモデルに挑戦する。
データセットはWikipediaのカテゴリ名を使って半自動で構築される。
クエリは、個々のカテゴリから自動的に構成され、次にパラフレーズされ、クラウドワーカーによる自然さとフルエンシーについてさらに検証される。
クラウドワーカーはまた、ドキュメントに基づいてエンティティの関連性を評価し、ドキュメントテキストのスパンに対するクエリ制約の属性を強調する。
我々は,現代の検索システムを分析し,そのようなクエリに苦しむことが多いことを発見した。
否定と結合に関するクエリは特に困難であり、システムはこれらの操作の組み合わせでさらに挑戦される。 Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for "shorebirds that are not sandpipers" or "science-fiction films shot in England". To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations. | 翻訳日:2023-06-02 02:23:41 公開日:2023-05-31 |
# マルチスケール特徴ピラミッドネットワークと2重注意機構を用いた腹部mri画像分割アルゴリズム A Subabdominal MRI Image Segmentation Algorithm Based on Multi-Scale Feature Pyramid Network and Dual Attention Mechanism ( http://arxiv.org/abs/2305.10631v3 ) ライセンス: Link先を確認 | Yu Xiao, Xin Yang, Sijuan Huang, Lihua Guo | (参考訳) 本研究の目的は, 直腸癌治療における腹部下MRI像の分割において, U-Netの複数の畳み込み操作とプール操作により, 符号化と復号のセマンティックギャップと不一致を解消することであった。
マルチスケール特徴ピラミッドネットワークとデュアルアテンション機構に基づき,mri画像分割を提案する。
私たちの革新は2つのモジュールの設計です
1)エンコーディングには拡張畳み込みとマルチスケール特徴ピラミッドネットワークを用い,セマンティックギャップを回避する。
2) u-netの空間情報を維持し,誤用を減らすために,二重注意機構が設計されている。
腹腔下MRI画像データセットを用いた実験では,提案手法は他の方法よりも優れた性能を示す。
結論として,マルチスケール機能ピラミッドネットワークは意味的ギャップを低減し,デュアルアテンション機構はエンコーディングとデコードの間の特徴をアライメントすることができる。 This study aimed to solve the semantic gap and misalignment issue between encoding and decoding because of multiple convolutional and pooling operations in U-Net when segmenting subabdominal MRI images during rectal cancer treatment. A MRI Image Segmentation is proposed based on a multi-scale feature pyramid network and dual attention mechanism. Our innovation is the design of two modules: 1) a dilated convolution and multi-scale feature pyramid network are used in the encoding to avoid the semantic gap. 2) a dual attention mechanism is designed to maintain spatial information of U-Net and reduce misalignment. Experiments on a subabdominal MRI image dataset show the proposed method achieves better performance than others methods. In conclusion, a multi-scale feature pyramid network can reduce the semantic gap, and the dual attention mechanism can make an alignment of features between encoding and decoding. | 翻訳日:2023-06-02 02:22:28 公開日:2023-05-31 |
# ZeroFlow: 蒸留による高速ゼロラベルシーンフロー ZeroFlow: Fast Zero Label Scene Flow via Distillation ( http://arxiv.org/abs/2305.10424v3 ) ライセンス: Link先を確認 | Kyle Vedder, Neehar Peri, Nathaniel Chodosh, Ishan Khatri, Eric Eaton, Dinesh Jayaraman, Yang Liu, Deva Ramanan, James Hays | (参考訳) シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。
State-of-the-artメソッドは強力な事前処理とテストタイム最適化技術を使用するが、大規模ポイントクラウドでは数十秒の順序を必要とするため、オープンワールドオブジェクト検出のようなリアルタイムアプリケーションではコンピュータビジョンプリミティブとして使用できない。
フィードフォワード法はかなり高速で、大規模なポイントクラウドでは数十から数百ミリ秒の順序で実行されるが、高価な人的監督が必要である。
両制約に対処するため,ラベルなし最適化手法を用いて,フィードフォワードモデルを監督する擬似ラベルを生成する簡易蒸留フレームワークであるScene Flow via Distillationを提案する。
このフレームワークのインスタンス化であるZeroFlowは、ゼロヒューマンラベルを使用しながら、最先端の手法と競合する大規模ポイントクラウド上で、リアルタイムにシーンフロー推定を生成する。
特に、テスト時にZeroFlowは、大規模なポイントクラウド上のラベルのない最先端の最適化ベースのメソッドよりも1000$\times$高速で、そのデータの人的アノテーションのコストと比較してラベル付きデータでトレーニングするコストが1000$\times$以上である。
研究の再利用を容易にするため、Argoverse 2とWaymo Openデータセット用のコード、トレーニング済みモデルウェイト、高品質な擬似ラベルをリリースしました。 Scene flow estimation is the task of describing the 3D motion field between temporally successive point clouds. State-of-the-art methods use strong priors and test-time optimization techniques, but require on the order of tens of seconds for large-scale point clouds, making them unusable as computer vision primitives for real-time applications such as open world object detection. Feed forward methods are considerably faster, running on the order of tens to hundreds of milliseconds for large-scale point clouds, but require expensive human supervision. To address both limitations, we propose Scene Flow via Distillation, a simple distillation framework that uses a label-free optimization method to produce pseudo-labels to supervise a feed forward model. Our instantiation of this framework, ZeroFlow, produces scene flow estimates in real-time on large-scale point clouds at quality competitive with state-of-the-art methods while using zero human labels. Notably, at test-time ZeroFlow is over 1000$\times$ faster than label-free state-of-the-art optimization-based methods on large-scale point clouds and over 1000$\times$ cheaper to train on unlabeled data compared to the cost of human annotation of that data. To facilitate research reuse, we release our code, trained model weights, and high quality pseudo-labels for the Argoverse 2 and Waymo Open datasets. | 翻訳日:2023-06-02 02:22:12 公開日:2023-05-31 |
# deep learning empowered type-ii codebook: csiフィードバックの強化のための新しいパラダイム Deep Learning Empowered Type-II Codebook: New Paradigm for Enhancing CSI Feedback ( http://arxiv.org/abs/2305.08081v2 ) ライセンス: Link先を確認 | Ke Ma, Yiliang Sang, Yang Ming, Jin Lian, Chang Tian, Zhaocheng Wang | (参考訳) 周波数分割デュプレックスシステムにおける深層学習に基づくチャネル状態情報(csi)フィードバックは、学界と産業の両方で注目を集めている。
本稿では,CSIフィードバックの性能向上を目的として,第5世代以上の無線システム(B5G)にType-IIコードブックを統合することに注力する。
リリース16のtype-iiコードブックとは対照的に、リリース17(r17)のtype-iiコードブックでは、アップリンクとダウンリンクのチャネル間のangular-delay-domain部分的な相互性を利用して、ダウンリンクcsiの測定と送信のためのangular-delay-domainポートの一部を選択している。
そこで本研究では,R17 Type-IIコードブックの性能向上のために,ディープラーニングを採用する新たなパラダイムを提案する。
まず,アップリンクチャネルの信号対雑音比が比較的低いことを考慮し,階層不均衡問題を解決するために焦点損失を利用した支配的な角-遅延領域ポートの選択を深層学習によって洗練する。
次に,ベースステーションにおけるr17 type-iiコードブックのフィードバックに基づき,深層学習によるダウンリンクcsiの再構築を提案し,スパース構造の情報を効果的に活用する。
最後に,重み付きショートカットモジュールを設計し,実際のマルチユーザシナリオに適応するために,平均2乗誤差と和率を組み合わせた2段階の損失関数を提案する。
シミュレーションの結果,従来のR17 Type-IIコードブックやディープラーニングベンチマークと比較して,角遅延領域ポート選択とCSI再構成のパラダイムが10%以上向上できることが示唆された。 Deep learning based channel state information (CSI) feedback in frequency division duplex systems has drawn much attention in both academia and industry. In this paper, we focus on integrating the Type-II codebook in the beyond fifth-generation (B5G) wireless systems with deep learning to enhance the performance of CSI feedback. In contrast to its counterpart in Release 16, the Type-II codebook in Release 17 (R17) exploits the angular-delay-domain partial reciprocity between uplink and downlink channels and selects part of angular-delay-domain ports for measuring and feeding back the downlink CSI, where the performance of the conventional deep learning methods is limited due to the deficiency of sparse structures. To address this issue, we propose the new paradigm of adopting deep learning to improve the performance of R17 Type-II codebook. Firstly, considering the relatively low signal-to-noise ratio of uplink channels, deep learning is utilized to refine the selection of the dominant angular-delay-domain ports, where the focal loss is harnessed to solve the class imbalance problem. Secondly, we propose to reconstruct the downlink CSI by way of deep learning based on the feedback of R17 Type-II codebook at the base station, where the information of sparse structures can be effectively leveraged. Finally, a weighted shortcut module is designed to facilitate the accurate reconstruction, and a two-stage loss function with the combination of the mean squared error and sum rate is proposed for adapting to actual multi-user scenarios. Simulation results demonstrate that our proposed angular-delay-domain port selection and CSI reconstruction paradigm can improve the sum rate performance by more than 10% compared with the traditional R17 Type-II codebook and deep learning benchmarks. | 翻訳日:2023-06-02 02:21:26 公開日:2023-05-31 |
# 医用ビジョンランゲージ事前トレーニングのためのアライメントモデリングによるマルチタスクペアマスキング Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training ( http://arxiv.org/abs/2305.07920v2 ) ライセンス: Link先を確認 | Ke Zhang, Yan Yang, Jun Yu, Hanliang Jiang, Jianping Fan, Qingming Huang and Weidong Han | (参考訳) 近年,医用画像診断の需要が高まり,放射線科医に大きな負担がかかっている。
その結果、医用画像やレポートから普遍表現を学習し、細かなアノテーションを必要とせずに下流課題に便益を与えるためのmed-vlp(med-vlp)法が提案されている。
しかし、既存の手法では、共同画像・テキスト再構成におけるクロスモーダルアライメントの重要性を見落としており、結果としてクロスモーダル相互作用は不十分である。
この制限に対処するため,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統一型Med-VLPフレームワークを提案し,より包括的な相互モーダルインタラクションを実現するために,クロスモーダルアライメントタスクを共同画像テキスト再構成フレームワークに統合する一方,グローバル・ローカルアライメント(GLA)モジュールは,豊富なドメイン知識を持つ意味表現を得るための自己監督パラダイムを支援するように設計されている。
さらに,マルチモーダル表現を適切に融合し,報告の再構築を支援する視覚情報の統合を行うメモリ型クロスモーダル融合(ma-cmf)モジュールを提案する。
実験の結果,提案手法は,ユニモーダルタスク,クロスモーダルタスク,マルチモーダルタスクなど,下流タスクの従来の手法よりも優れていた。 In recent years, the growing demand for medical imaging diagnosis has placed a significant burden on radiologists. As a solution, Medical Vision-Language Pre-training (Med-VLP) methods have been proposed to learn universal representations from medical images and reports, benefiting downstream tasks without requiring fine-grained annotations. However, existing methods have overlooked the importance of cross-modal alignment in joint image-text reconstruction, resulting in insufficient cross-modal interaction. To address this limitation, we propose a unified Med-VLP framework based on Multi-task Paired Masking with Alignment (MPMA) to integrate the cross-modal alignment task into the joint image-text reconstruction framework to achieve more comprehensive cross-modal interaction, while a Global and Local Alignment (GLA) module is designed to assist self-supervised paradigm in obtaining semantic representations with rich domain knowledge. Furthermore, we introduce a Memory-Augmented Cross-Modal Fusion (MA-CMF) module to fully integrate visual information to assist report reconstruction and fuse the multi-modal representations adequately. Experimental results demonstrate that the proposed unified approach outperforms previous methods in all downstream tasks, including uni-modal, cross-modal, and multi-modal tasks. | 翻訳日:2023-06-02 02:20:51 公開日:2023-05-31 |
# リバースエンジニアリングによる自己監督型学習 Reverse Engineering Self-Supervised Learning ( http://arxiv.org/abs/2305.15614v2 ) ライセンス: Link先を確認 | Ido Ben-Shaul, Ravid Shwartz-Ziv, Tomer Galanti, Shai Dekel, Yann LeCun | (参考訳) 自己教師型学習(SSL)は機械学習において強力なツールであるが、学習した表現とその基盤となるメカニズムを理解することは依然として課題である。
本稿では,多様なモデル,アーキテクチャ,ハイパーパラメータを含むSSL学習表現の詳細な実験的検討を行う。
本研究はSSLトレーニングプロセスの興味深い側面を明らかにし,SSL目標の正規化項によって驚くほど駆動されるセマンティックラベルに対するサンプルのクラスタリングを本質的に促進する。
このクラスタリングプロセスは下流の分類を強化するだけでなく、データ情報も圧縮する。
さらに、SSLで訓練された表現が、ランダムクラスよりもセマンティッククラスとより密接に一致していることを確立する。
注目すべきなのは,学習表現がさまざまな階層レベルにわたる意味クラスと整合していることであり,このアライメントはトレーニングやネットワークの奥深くに移動すると増加する。
この結果から,SSLの表現学習機構と,クラス間のパフォーマンスへの影響に関する貴重な知見が得られた。 Self-supervised learning (SSL) is a powerful tool in machine learning, but understanding the learned representations and their underlying mechanisms remains a challenge. This paper presents an in-depth empirical analysis of SSL-trained representations, encompassing diverse models, architectures, and hyperparameters. Our study reveals an intriguing aspect of the SSL training process: it inherently facilitates the clustering of samples with respect to semantic labels, which is surprisingly driven by the SSL objective's regularization term. This clustering process not only enhances downstream classification but also compresses the data information. Furthermore, we establish that SSL-trained representations align more closely with semantic classes rather than random classes. Remarkably, we show that learned representations align with semantic classes across various hierarchical levels, and this alignment increases during training and when moving deeper into the network. Our findings provide valuable insights into SSL's representation learning mechanisms and their impact on performance across different sets of classes. | 翻訳日:2023-06-02 02:11:47 公開日:2023-05-31 |
# vitmatte:プレトレーニングプレーンビジョントランスフォーマーによるイメージマットリングの強化 ViTMatte: Boosting Image Matting with Pretrained Plain Vision Transformers ( http://arxiv.org/abs/2305.15272v2 ) ライセンス: Link先を確認 | Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang | (参考訳) 近年、様々なコンピュータビジョンタスクにおいて、モデリング能力の強化と大規模な事前トレーニングにより、プレーンビジョントランスフォーマー(ViT)の性能が向上している。
しかし、彼らはまだイメージマットングの問題を克服していない。
画像のマッチングはViTsによって促進される可能性があり、ViTMatteと呼ばれる新しい効率的で堅牢なViTベースのマッチングシステムを提案する。
我々の方法は
i) コンボリューションネックと組み合わされたハイブリッドアテンション機構により, マットリング作業における優れた性能計算トレードオフを実現する。
(ii)さらに,マッティングに必要な詳細情報を補完するための単純な軽量畳み込みのみからなる詳細キャプチャモジュールを紹介する。
我々の知る限りでは、ViTMatteは、簡潔な適応で画像マッチングにViTの可能性を解き放つ最初の試みである。
様々な事前訓練戦略、簡潔なアーキテクチャ設計、柔軟な推論戦略など、ViTからマッティングまで多くの優れた特性を継承している。
コンポジション1k と Distinctions-646 の ViTMatte を画像マッチングの最もよく使われるベンチマークとして評価し,提案手法は最先端の性能を達成し,従来よりも大きなマージンを達成している。 Recently, plain vision Transformers (ViTs) have shown impressive performance on various computer vision tasks, thanks to their strong modeling capacity and large-scale pretraining. However, they have not yet conquered the problem of image matting. We hypothesize that image matting could also be boosted by ViTs and present a new efficient and robust ViT-based matting system, named ViTMatte. Our method utilizes (i) a hybrid attention mechanism combined with a convolution neck to help ViTs achieve an excellent performance-computation trade-off in matting tasks. (ii) Additionally, we introduce the detail capture module, which just consists of simple lightweight convolutions to complement the detailed information required by matting. To the best of our knowledge, ViTMatte is the first work to unleash the potential of ViT on image matting with concise adaptation. It inherits many superior properties from ViT to matting, including various pretraining strategies, concise architecture design, and flexible inference strategies. We evaluate ViTMatte on Composition-1k and Distinctions-646, the most commonly used benchmark for image matting, our method achieves state-of-the-art performance and outperforms prior matting works by a large margin. | 翻訳日:2023-06-02 02:11:15 公開日:2023-05-31 |
# 機械学習に基づく情報融合型aiモデルの不確実性定量化のための時系列認識不確実性ラッパー Timeseries-aware Uncertainty Wrappers for Uncertainty Quantification of Information-Fusion-Enhanced AI Models based on Machine Learning ( http://arxiv.org/abs/2305.14872v2 ) ライセンス: Link先を確認 | Janek Gro{\ss}, Michael Kl\"as, Lisa J\"ockel, Pascal Gerber | (参考訳) サイバー物理システムにおける人工知能(AI)コンポーネントの使用が一般的になりつつあるため、信頼性の高いシステムアーキテクチャの必要性が高まっている。
データ駆動モデルは知覚タスクに優れるが、モデルの結果は通常、安全クリティカルなアプリケーションには十分信頼できない。
本稿では,時系列データを用いた不確実性推定のための時系列認識型不確実性ラッパを提案する。
不確実性ラッパーは、連続したモデル予測に対する情報融合と組み合わせて適用される。
不確実性ラッパーの適用は、トラヒックサイン認識ユースケースを用いて実証される。
本稿では,情報融合によるモデル精度の向上と,タイムリー認識による入力品質特性による不確実性推定の品質向上が可能であることを示す。 As the use of Artificial Intelligence (AI) components in cyber-physical systems is becoming more common, the need for reliable system architectures arises. While data-driven models excel at perception tasks, model outcomes are usually not dependable enough for safety-critical applications. In this work,we present a timeseries-aware uncertainty wrapper for dependable uncertainty estimates on timeseries data. The uncertainty wrapper is applied in combination with information fusion over successive model predictions in time. The application of the uncertainty wrapper is demonstrated with a traffic sign recognition use case. We show that it is possible to increase model accuracy through information fusion and additionally increase the quality of uncertainty estimates through timeseries-aware input quality features. | 翻訳日:2023-06-02 02:10:51 公開日:2023-05-31 |
# ビデオマルチモーダル融合のための相互情報最大化による脱ノイズボトルネック Denoising Bottleneck with Mutual Information Maximization for Video Multimodal Fusion ( http://arxiv.org/abs/2305.14652v3 ) ライセンス: Link先を確認 | Shaoxiang Wu, Damai Dai, Ziwei Qin, Tianyu Liu, Binghuai Lin, Yunbo Cao, Zhifang Sui | (参考訳) ビデオマルチモーダル融合は、視覚、音声、テキストなどのビデオにマルチモーダル信号を統合することを目的としており、複数のモーダルコンテンツで補完的な予測を行う。
しかし、他の画像テキストのマルチモーダルタスクとは異なり、ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオの両モードで発生する。
ノイズフィルタリングの粒度は,returning gateのような事前のデノイジング手法が粗い。
彼らはしばしば重要な情報を失うリスクを冒して冗長で騒がしい情報を抑圧する。
そこで本研究では,細粒度ビデオマルチモーダル融合のためのDBFモデルを提案する。
一方,騒音や冗長性を抑制された受容野で排除するボトルネック機構を採用している。
一方、相互情報最大化モジュールを用いてフィルタアウトモジュールを制御し、異なるモダリティ内でキー情報を保持する。
我々のDBFモデルは,マルチモーダル感情分析とマルチモーダル要約タスクを含む複数のベンチマークにおいて,最先端のベースラインよりも大幅に改善されている。
このモデルでは、ノイズや冗長なビデオ、音声、テキスト入力から有能な特徴を効果的に捉えることができる。
本論文のコードはhttps://github.com/WSXRHFG/DBF.comで公開されている。 Video multimodal fusion aims to integrate multimodal signals in videos, such as visual, audio and text, to make a complementary prediction with multiple modalities contents. However, unlike other image-text multimodal tasks, video has longer multimodal sequences with more redundancy and noise in both visual and audio modalities. Prior denoising methods like forget gate are coarse in the granularity of noise filtering. They often suppress the redundant and noisy information at the risk of losing critical information. Therefore, we propose a denoising bottleneck fusion (DBF) model for fine-grained video multimodal fusion. On the one hand, we employ a bottleneck mechanism to filter out noise and redundancy with a restrained receptive field. On the other hand, we use a mutual information maximization module to regulate the filter-out module to preserve key information within different modalities. Our DBF model achieves significant improvement over current state-of-the-art baselines on multiple benchmarks covering multimodal sentiment analysis and multimodal summarization tasks. It proves that our model can effectively capture salient features from noisy and redundant video, audio, and text inputs. The code for this paper is publicly available at https://github.com/WSXRHFG/DBF. | 翻訳日:2023-06-02 02:10:40 公開日:2023-05-31 |
# 音声による自己監督型ニューラル表現は動物呼び出し者を区別できるか? Can Self-Supervised Neural Representations Pre-Trained on Human Speech distinguish Animal Callers? ( http://arxiv.org/abs/2305.14035v2 ) ライセンス: Link先を確認 | Eklavya Sarkar and Mathew Magimai.-Doss | (参考訳) 自己教師付き学習(SSL)モデルは、入力から埋め込み空間へ重要な情報を抽出するために、その音響領域とは独立して与えられた信号の固有の構造のみを使用する。
これは、そのような表現の有用性は、人間の発話のみをモデル化することに限らないことを意味する。
この理解に基づいて,人間の音声から学習したSSLニューラル表現の相互伝達性を調べ,生体音響信号の解析を行う。
各種プリテキストタスクを事前学習した11種類のSSLモデルを用いて、発声者識別分析および発声者検出を行う。
その結果, 埋め込み空間には意味のある発信者情報があり, 微調整なしでマーモセット発呼者の個人識別に成功できることが示唆された。
このことは、人間の発話に事前訓練された表現がバイオ音響領域に効果的に適用できることを示し、この分野での今後の研究に有用な洞察を提供する。 Self-supervised learning (SSL) models use only the intrinsic structure of a given signal, independent of its acoustic domain, to extract essential information from the input to an embedding space. This implies that the utility of such representations is not limited to modeling human speech alone. Building on this understanding, this paper explores the cross-transferability of SSL neural representations learned from human speech to analyze bio-acoustic signals. We conduct a caller discrimination analysis and a caller detection study on Marmoset vocalizations using eleven SSL models pre-trained with various pretext tasks. The results show that the embedding spaces carry meaningful caller information and can successfully distinguish the individual identities of Marmoset callers without fine-tuning. This demonstrates that representations pre-trained on human speech can be effectively applied to the bio-acoustics domain, providing valuable insights for future investigations in this field. | 翻訳日:2023-06-02 02:10:23 公開日:2023-05-31 |
# モデルベースからデータ駆動シミュレーションへ:自律運転の課題と動向 From Model-Based to Data-Driven Simulation: Challenges and Trends in Autonomous Driving ( http://arxiv.org/abs/2305.13960v2 ) ライセンス: Link先を確認 | Ferdinand M\"utsch, Helen Gremmelmaier, Nicolas Becker, Daniel Bogdoll, Marc Ren\'e Zofka, J. Marius Z\"ollner | (参考訳) シミュレーションは自動運転車の開発プロセスにおいて不可欠な部分であり、運転機能の訓練、検証、検証に有利である。
シミュレーションには実世界の実験と比べて様々な利点があるが、バーチャルテストが物理的なテストドライブを完全に置き換えることを防いでいる。
我々の研究は、これらの課題について様々な側面やシミュレーションのタイプについて概説し、克服する現在の傾向を仮定する。
我々は、認識、行動、およびコンテンツリアリズムに関する側面と、シミュレーションの領域における一般的なハードルをカバーしている。
モデルベースシミュレーションの代替として,データ駆動型,生成的アプローチ,高忠実度データ合成のトレンドを考察する。 Simulation is an integral part in the process of developing autonomous vehicles and advantageous for training, validation, and verification of driving functions. Even though simulations come with a series of benefits compared to real-world experiments, various challenges still prevent virtual testing from entirely replacing physical test-drives. Our work provides an overview of these challenges with regard to different aspects and types of simulation and subsumes current trends to overcome them. We cover aspects around perception-, behavior- and content-realism as well as general hurdles in the domain of simulation. Among others, we observe a trend of data-driven, generative approaches and high-fidelity data synthesis to increasingly replace model-based simulation. | 翻訳日:2023-06-02 02:10:07 公開日:2023-05-31 |
# フレンドリーな隣人:コンテキスト化されたシーケンス間リンク予測 Friendly Neighbors: Contextualized Sequence-to-Sequence Link Prediction ( http://arxiv.org/abs/2305.13059v2 ) ライセンス: Link先を確認 | Adrian Kochsiek, Apoorv Saxena, Inderjeet Nair, Rainer Gemulla | (参考訳) 我々は知識グラフ(KG)におけるリンク予測(LP)のための単純なシーケンス・ツー・シーケンス・モデルであるKGT5-contextを提案する。
我々の研究は、KGのテキスト機能を利用した最近のLPモデルであるKGT5を拡張し、小さなモデルサイズを持ち、スケーラブルである。
しかし、優れた予測性能を得るためには、KGT5は知識グラフ埋め込みモデルとのアンサンブルに依存している。
本稿では,クエリエンティティの直接近傍に関する情報などコンテキスト情報を追加することで,KGEモデルを分離して優れた性能を得る必要がなくなることを実証的に示す。
得られたKGT5-contextモデルは非常にシンプルで,モデルサイズを大幅に削減し,本実験では最先端の性能を得る。 We propose KGT5-context, a simple sequence-to-sequence model for link prediction (LP) in knowledge graphs (KG). Our work expands on KGT5, a recent LP model that exploits textual features of the KG, has small model size, and is scalable. To reach good predictive performance, however, KGT5 relies on an ensemble with a knowledge graph embedding model, which itself is excessively large and costly to use. In this short paper, we show empirically that adding contextual information - i.e., information about the direct neighborhood of the query entity - alleviates the need for a separate KGE model to obtain good performance. The resulting KGT5-context model is simple, reduces model size significantly, and obtains state-of-the-art performance in our experimental study. | 翻訳日:2023-06-02 02:09:56 公開日:2023-05-31 |
# NLPにおけるバイアスと公平性について:より公平なテキスト分類の方法? On Bias and Fairness in NLP: How to have a fairer text classification? ( http://arxiv.org/abs/2305.12829v2 ) ライセンス: Link先を確認 | Fatma Elsafoury, Stamos Katsigiannis, Naeem Ramzan | (参考訳) 本稿では,NLPモデルにおける様々なバイアス源,アップストリーム,サンプル,オーバーアンプリケーションのバイアスの包括的解析を行う。
テキスト分類の課題の公平性にどのように影響するかを検討する。
また,テキスト分類の公平性に及ぼすバイアス除去の影響についても検討した。
オーバーアンプリフィケーションバイアスはテキスト分類の公平性に最も影響のあるバイアスであることがわかった。
そして、異なるアイデンティティグループのバランスの取れた表現でデータセット上でLMモデルを微調整することで、過剰増幅バイアスを取り除くことで、より公平なテキスト分類モデルが得られる。
最後に,本研究の成果に基づいて,より公平なテキスト分類モデルを構築するための実践的ガイドラインを導入する。 In this paper, we provide a holistic analysis of the different sources of bias, Upstream, Sample and Overampflication biases, in NLP models. We investigate how they impact the fairness of the task of text classification. We also investigate the impact of removing these biases using different debiasing techniques on the fairness of text classification. We found that overamplification bias is the most impactful bias on the fairness of text classification. And that removing overamplification bias by fine-tuning the LM models on a dataset with balanced representations of the different identity groups leads to fairer text classification models. Finally, we build on our findings and introduce practical guidelines on how to have a fairer text classification model. | 翻訳日:2023-06-02 02:09:42 公開日:2023-05-31 |
# 未熟言語適応のための多言語自己教師付き・弱教師付き音声前訓練の比較 Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech Pre-Training for Adaptation to Unseen Languages ( http://arxiv.org/abs/2305.12606v2 ) ライセンス: Link先を確認 | Andrew Rouditchenko, Sameer Khurana, Samuel Thomas, Rogerio Feris, Leonid Karlinsky, Hilde Kuehne, David Harwath, Brian Kingsbury, James Glass | (参考訳) 近年のXLS-RやWhisperのようなモデルでは、約100言語から音声を事前学習することで、多言語音声技術がより使いやすくなっている。
しかし、世界中に何千もの話し言葉があり、新しい言語への適応は重要な問題である。
本研究は,事前学習中の言語にどのようなモデルが適応するかを理解することを目的とする。
13言語と18言語で、両方のモデルを微調整します。
以上の結果から,事前学習中の言語群と言語群間での時間数の予測は,事前学習方法の大きな違いにもかかわらず,モデルの比較を予測していることが示された。 Recent models such as XLS-R and Whisper have made multilingual speech technologies more accessible by pre-training on audio from around 100 spoken languages each. However, there are thousands of spoken languages worldwide, and adapting to new languages is an important problem. In this work, we aim to understand which model adapts better to languages unseen during pre-training. We fine-tune both models on 13 unseen languages and 18 seen languages. Our results show that the number of hours seen per language and language family during pre-training is predictive of how the models compare, despite the significant differences in the pre-training methods. | 翻訳日:2023-06-02 02:09:29 公開日:2023-05-31 |
# 協調学習に基づくエンド・ツー・エンドディープラーニングアルゴリズム An Analytic End-to-End Deep Learning Algorithm based on Collaborative Learning ( http://arxiv.org/abs/2305.18594v2 ) ライセンス: Link先を確認 | Sitan Li and Chien Chern Cheah | (参考訳) ほとんどの制御応用において、システムの理論的解析は、安全で信頼性の高い操作を確実にし、さらなる発展のためにシステムをよりよく理解するために、安定性や収束を保証するために不可欠である。
しかし、現在のディープラーニング手法のほとんどは、経験的研究に重点を置いたブラックボックスアプローチである。
近年,非スムースreluアクティベーション関数に基づくエンド・ツー・エンドディープラーニングの収束解析が試みられ,制御タスクに対するおしゃべりに繋がる可能性がある。
本稿では, 完全連結ニューラルネットワーク(FNN)の終端深層学習におけるスムーズなアクティベーション機能を持つ収束解析について述べる。
したがって,提案手法は潜在的なおしゃべり問題を回避し,勾配消失問題も容易には生じない。
提案するEnd-to-Endアルゴリズムは,複数の2層完全接続ネットワークを同時に学習し,その強みをさらに組み合わせて精度を向上させる。
提案手法の性能を示すために,完全連結ネットワークとMNISTデータセットに基づく分類ケーススタディを行った。
次に,本アルゴリズムの回帰近似とオンライン更新能力を説明するために,ur5eロボットアームのオンライン運動制御タスクを行った。 In most control applications, theoretical analysis of the systems is crucial in ensuring stability or convergence, so as to ensure safe and reliable operations and also to gain a better understanding of the systems for further developments. However, most current deep learning methods are black-box approaches that are more focused on empirical studies. Recently, some results have been obtained for convergence analysis of end-to end deep learning based on non-smooth ReLU activation functions, which may result in chattering for control tasks. This paper presents a convergence analysis for end-to-end deep learning of fully connected neural networks (FNN) with smooth activation functions. The proposed method therefore avoids any potential chattering problem, and it also does not easily lead to gradient vanishing problems. The proposed End-to-End algorithm trains multiple two-layer fully connected networks concurrently and collaborative learning can be used to further combine their strengths to improve accuracy. A classification case study based on fully connected networks and MNIST dataset was done to demonstrate the performance of the proposed approach. Then an online kinematics control task of a UR5e robot arm was performed to illustrate the regression approximation and online updating ability of our algorithm. | 翻訳日:2023-06-02 02:04:00 公開日:2023-05-31 |
# シングルイメージ人体メッシュ再構成における誤差推定 Error Estimation for Single-Image Human Body Mesh Reconstruction ( http://arxiv.org/abs/2305.17245v2 ) ライセンス: Link先を確認 | Hamoon Jafarian and Faisal Z. Qureshi | (参考訳) 人体の1つ以上の部分が遮蔽されている状況では、人間のポーズや形状推定方法が苦しめられている。
さらに重要なことに、これらのメソッドは、予測されたポーズが間違っていたときに表現できない。
これらの手法が人間とロボットの相互作用のシナリオで使用される場合、これは深刻な結果をもたらす。
この研究はこの問題を研究している。
そこで本研究では,OpenPoseとSPINの2つの一般的なポーズと形状推定手法を組み合わせ,予測されたメッシュ上の領域を最も信頼性の低いものにする手法を提案する。
3dpw, 3doh, human3.6mのデータセットに対する提案手法を評価し, 人体メッシュの不正確な領域同定におけるモデルの有効性を実証した。
私たちのコードはhttps://github.com/hamoon 1987/meshconfidenceで利用可能です。 Human pose and shape estimation methods continue to suffer in situations where one or more parts of the body are occluded. More importantly, these methods cannot express when their predicted pose is incorrect. This has serious consequences when these methods are used in human-robot interaction scenarios, where we need methods that can evaluate their predictions and flag situations where they might be wrong. This work studies this problem. We propose a method that combines information from OpenPose and SPIN -- two popular human pose and shape estimation methods -- to highlight regions on the predicted mesh that are least reliable. We have evaluated the proposed approach on 3DPW, 3DOH, and Human3.6M datasets, and the results demonstrate our model's effectiveness in identifying inaccurate regions of the human body mesh. Our code is available at https://github.com/Hamoon1987/meshConfidence. | 翻訳日:2023-06-02 02:03:20 公開日:2023-05-31 |
# 分散検出のための特徴空間におけるハイブリッドエネルギーモデル Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection ( http://arxiv.org/abs/2305.16966v2 ) ライセンス: Link先を確認 | Marc Lafon, Elias Ramzi, Cl\'ement Rambour, Nicolas Thome | (参考訳) Out-of-distribution(OOD)検出は、ディープニューラルネットワークのデプロイにおいて重要な要件である。
本稿では,事前学習したバックボーンの特徴空間におけるハイブリッドエネルギーベースモデル(EBM)を用いて,分布内サンプルの密度を推定するポストホックOOD検出手法であるHEATモデルを提案する。
HEATは、例えばガウス混合モデル(GMM)のようなパラメトリックモデルのようなID密度の事前密度推定器を補完し、正確で頑健な密度推定を提供する。
第2の貢献は、EBMフレームワークを活用し、統一された密度推定を提供し、いくつかのエネルギー用語を構成することである。
大規模な実験は2つの貢献の重要性を示している。
HEATはCIFAR-10/CIFAR-100ベンチマークと大規模イメージネットベンチマークに、最先端のOOD検出結果を新たに設定する。
コードは、https://github.com/MarcLafon/heatood.comで入手できる。 Out-of-distribution (OOD) detection is a critical requirement for the deployment of deep neural networks. This paper introduces the HEAT model, a new post-hoc OOD detection method estimating the density of in-distribution (ID) samples using hybrid energy-based models (EBM) in the feature space of a pre-trained backbone. HEAT complements prior density estimators of the ID density, e.g. parametric models like the Gaussian Mixture Model (GMM), to provide an accurate yet robust density estimation. A second contribution is to leverage the EBM framework to provide a unified density estimation and to compose several energy terms. Extensive experiments demonstrate the significance of the two contributions. HEAT sets new state-of-the-art OOD detection results on the CIFAR-10 / CIFAR-100 benchmark as well as on the large-scale Imagenet benchmark. The code is available at: https://github.com/MarcLafon/heatood. | 翻訳日:2023-06-02 02:02:48 公開日:2023-05-31 |
# HUB: 継続的プロンプトチューニングによる学習最適化の指導 HUB: Guiding Learned Optimizers with Continuous Prompt Tuning ( http://arxiv.org/abs/2305.16823v2 ) ライセンス: Link先を確認 | Gaole Dai, Wei Wu, Ziyu Wang, Jie Fu, Shanghang Zhang, Tiejun Huang | (参考訳) 学習オプティマイザは、メタラーニングの重要なコンポーネントです。
スケーラブルな学習オプティマイザの最近の進歩は、手作業で設計したオプティマイザよりも優れたパフォーマンスを示している。
しかし、不安定な学習曲線、目に見えないタスクやネットワークアーキテクチャを扱う能力の制限、制御の困難さ、微調整タスクのパフォーマンスの低下など、これらのモデルの特定の特性は、その普及を妨げる。
本稿では,スケーラブルな学習オプティマイザの一般化問題に取り組むために,近年のハードプロンプトチューニングと結果選択技術の進歩に触発されたハイブリッド更新ベース(hub)最適化戦略を提案する。
このアプローチは、手書きまたは学習したオプティマイザを含むあらゆるタスクに容易に適用できる。
手設計のオプティマイザをハイブリッドアプローチの第2のコンポーネントとして組み込むことで、学習したオプティマイザのメリットを維持しながら、トレーニングプロセスを安定化させ、さらに重要なのは、テストパフォーマンスの向上です。
我々は、スクラッチから13のトレーニングと4つの微調整設定からなる合計17のタスクで設計を検証する。
これらのタスクはモデルサイズ、アーキテクチャ、データセットサイズによって異なり、競合するオプティマイザはハイパーパラメータチューニングされている。
テストパフォーマンスが向上したタスクの94%では,すべての競合相手を上回っています。
さらに, ハイブリッド戦略が学習オプティマイザの行動および遺伝特性に与える影響を検討するために, 理論的解析を行った。 Learned optimizers are a crucial component of meta-learning. Recent advancements in scalable learned optimizers have demonstrated their superior performance over hand-designed optimizers in various tasks. However, certain characteristics of these models, such as an unstable learning curve, limited ability to handle unseen tasks and network architectures, difficult-to-control behaviours, and poor performance in fine-tuning tasks impede their widespread adoption. To tackle the issue of generalization in scalable learned optimizers, we propose a hybrid-update-based (HUB) optimization strategy inspired by recent advancements in hard prompt tuning and result selection techniques used in large language and vision models. This approach can be easily applied to any task that involves hand-designed or learned optimizer. By incorporating hand-designed optimizers as the second component in our hybrid approach, we are able to retain the benefits of learned optimizers while stabilizing the training process and, more importantly, improving testing performance. We validate our design through a total of 17 tasks, consisting of thirteen training from scratch and four fine-tuning settings. These tasks vary in model sizes, architectures, or dataset sizes, and the competing optimizers are hyperparameter-tuned. We outperform all competitors in 94% of the tasks with better testing performance. Furthermore, we conduct a theoretical analysis to examine the potential impact of our hybrid strategy on the behaviours and inherited traits of learned optimizers. | 翻訳日:2023-06-02 02:02:35 公開日:2023-05-31 |
# クロスレース・フェイス検証のためのヒューマンマシン比較: パフォーマンスの上限におけるレースバイアス? Human-Machine Comparison for Cross-Race Face Verification: Race Bias at the Upper Limits of Performance? ( http://arxiv.org/abs/2305.16443v2 ) ライセンス: Link先を確認 | Geraldine Jeckeln, Selin Yavuzcan, Kate A. Marquis, Prajay Sandipkumar Mehta, Amy N. Yates, P. Jonathon Phillips, Alice J. O'Toole | (参考訳) 顔認識アルゴリズムは人間よりも精度が高い場合もあるが、人間と機械はどちらも人種による精度の違いを示している。
アルゴリズムが改善を続けるにつれて、人間に対する人種バイアスを継続的に評価することが重要である。
我々は「クロスレース」顔認証の挑戦的なテストを構築し、人間と最先端の顔認識システム2つを比較した。
白人と黒人の同一顔と異なる顔のペアは、人間にとって困難であり、2019年のarcface顔認識アルゴリズムのオープンソース実装である(5)から選択された。
ヒトの被験者(54黒人、51白人)は、顔のペアが7点のlikertタイプのスケールで同一の同一性または異なる同一性を示したかどうかを判断した。
顔認識ベンダによる2つのトップパフォーマンス顔認識システムが同じテスト(7)を行った。
設計上、このテストは、チャンスを上回っていたが完璧に届かなかったグループとして、人間にとって困難であることが判明した。
どちらの最先端の顔認識システムも完璧(エラーなし)であり、両者の精度は同等だった。
我々は,黒と白の2つの顔画像間の身元確認のための最先端のシステムが一般人口を上回ることができると結論付けた。
この結果がwildイメージへの挑戦に一般化するかどうかは、制約のない環境に顔認識システムをデプロイする上で、重要な懸念事項である。 Face recognition algorithms perform more accurately than humans in some cases, though humans and machines both show race-based accuracy differences. As algorithms continue to improve, it is important to continually assess their race bias relative to humans. We constructed a challenging test of 'cross-race' face verification and used it to compare humans and two state-of-the-art face recognition systems. Pairs of same- and different-identity faces of White and Black individuals were selected to be difficult for humans and an open-source implementation of the ArcFace face recognition algorithm from 2019 (5). Human participants (54 Black; 51 White) judged whether face pairs showed the same identity or different identities on a 7-point Likert-type scale. Two top-performing face recognition systems from the Face Recognition Vendor Test-ongoing performed the same test (7). By design, the test proved challenging for humans as a group, who performed above chance, but far less than perfect. Both state-of-the-art face recognition systems scored perfectly (no errors), consequently with equal accuracy for both races. We conclude that state-of-the-art systems for identity verification between two frontal face images of Black and White individuals can surpass the general population. Whether this result generalizes to challenging in-the-wild images is a pressing concern for deploying face recognition systems in unconstrained environments. | 翻訳日:2023-06-02 02:02:09 公開日:2023-05-31 |
# Uni-ControlNet:テキスト間拡散モデルへのオールインワン制御 Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16322v2 ) ライセンス: Link先を確認 | Shihao Zhao and Dongdong Chen and Yen-Chun Chen and Jianmin Bao and Shaozhe Hao and Lu Yuan and Kwan-Yee K. Wong | (参考訳) テキスト間拡散モデルは過去2年間に大きく進歩し、オープンドメインのテキスト記述に基づく非常にリアルな画像の生成を可能にした。
しかし、その成功にもかかわらず、テキスト記述は長く複雑なテキストであっても、詳細な制御を適切に伝えるのに苦労することが多い。
さらに、近年の研究では、これらのモデルがこのような複雑なテキストを理解し、対応する画像を生成する上での課題に直面していることも示されている。
そのため、テキスト記述以上の制御モードを有効にする必要性が増している。
本稿では,Uni-ControlNetについて紹介する。これは,各ローカルコントロール(エッジマップ,深度マップ,セグメンテーションマスクなど)とグローバルコントロール(CLIPイメージ埋め込みなど)を,一つのモデル内で柔軟かつ構成可能な方法で同時利用可能にする,新しいアプローチである。
既存の方法とは異なり、Uni-ControlNetでは、凍結訓練済みのテキスト-画像拡散モデルに2つの追加アダプタを微調整するだけで、トレーニングの膨大なコストをゼロから排除できる。
さらに、いくつかの専用のアダプタ設計のおかげで、uni-controlnetは使用するローカルまたはグローバルコントロールの数に関係なく、アダプタの一定数(つまり2つ)しか必要としない。
これにより、微調整コストとモデルサイズが削減され、現実のデプロイメントにより適するだけでなく、異なる条件のコンポーザビリティも向上する。
定量的および質的な比較を通じて、Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存の方法よりも優れていることを示す。
コードは \url{https://github.com/shihaozhaozsh/uni-controlnet} で入手できる。 Text-to-Image diffusion models have made tremendous progress over the past two years, enabling the generation of highly realistic images based on open-domain text descriptions. However, despite their success, text descriptions often struggle to adequately convey detailed controls, even when composed of long and complex texts. Moreover, recent studies have also shown that these models face challenges in understanding such complex texts and generating the corresponding images. Therefore, there is a growing need to enable more control modes beyond text description. In this paper, we introduce Uni-ControlNet, a novel approach that allows for the simultaneous utilization of different local controls (e.g., edge maps, depth map, segmentation masks) and global controls (e.g., CLIP image embeddings) in a flexible and composable manner within one model. Unlike existing methods, Uni-ControlNet only requires the fine-tuning of two additional adapters upon frozen pre-trained text-to-image diffusion models, eliminating the huge cost of training from scratch. Moreover, thanks to some dedicated adapter designs, Uni-ControlNet only necessitates a constant number (i.e., 2) of adapters, regardless of the number of local or global controls used. This not only reduces the fine-tuning costs and model size, making it more suitable for real-world deployment, but also facilitate composability of different conditions. Through both quantitative and qualitative comparisons, Uni-ControlNet demonstrates its superiority over existing methods in terms of controllability, generation quality and composability. Code is available at \url{https://github.com/ShihaoZhaoZSH/Uni-ControlNet}. | 翻訳日:2023-06-02 02:01:45 公開日:2023-05-31 |
# 超伝導量子プロセッサ上の蒸留閾値を超える忠実度を持つ論理マジック状態生成 Logical Magic State Preparation with Fidelity Beyond the Distillation Threshold on a Superconducting Quantum Processor ( http://arxiv.org/abs/2305.15972v2 ) ライセンス: Link先を確認 | Yangsen Ye, Tan He, He-Liang Huang, Zuolin Wei, Yiming Zhang, Youwei Zhao, Dachao Wu, Qingling Zhu, Huijie Guan, Sirui Cao, Fusheng Chen, Tung-Hsun Chung, Hui Deng, Daojin Fan, Ming Gong, Cheng Guo, Shaojun Guo, Lianchen Han, Na Li, Shaowei Li, Yuan Li, Futian Liang, Jin Lin, Haoran Qian, Hao Rong, Hong Su, Shiyu Wang, Yulin Wu, Yu Xu, Chong Ying, Jiale Yu, Chen Zha, Kaili Zhang, Yong-Heng Huo, Chao-Yang Lu, Cheng-Zhi Peng, Xiaobo Zhu, and Jian-Wei Pan | (参考訳) 表面コードに基づくフォールトトレラント量子コンピューティングは、堅牢なノイズ耐性を実現するための実用的な大規模量子コンピュータの魅力的な候補として浮上している。
普遍性を達成するために、マジックステートの準備は非クリフォードゲートを導入する一般的なアプローチである。
本稿では,回転した曲面コードに対して任意の論理状態を生成するためのハードウェア効率とスケーラブルなプロトコルを提案し,さらにそれを \textit{zuchongzhi} 2.1超伝導量子プロセッサ上で実験的に実装する。
距離3の異なる論理状態におけるhhl{$0.8983 \pm 0.0002$} の論理的忠実度の平均は、状態準備と測定誤差の両方を考慮すると達成される。
特に、'hhl{the magic state $|A^{\pi/4}\rangle_L$, $|H\rangle_L$, $|T\rangle_L$は、それぞれ、状態蒸留プロトコルのしきい値よりも高い$0.8771 \pm 0.0009 $, $0.9090 \pm 0.0009 $, $0.8890 \pm 0.0010$, 0.859(H型マジックステート)と0.827(T型マジックステート)で非破壊的に作成される。
われわれの研究は、表面コードにおける非クリフォード論理ゲートの実現に不可欠である高忠実な生の論理マジック状態を生成するための、実用的で効率的な経路を提供する。 Fault-tolerant quantum computing based on surface code has emerged as an attractive candidate for practical large-scale quantum computers to achieve robust noise resistance. To achieve universality, magic states preparation is a commonly approach for introducing non-Clifford gates. Here, we present a hardware-efficient and scalable protocol for arbitrary logical state preparation for the rotated surface code, and further experimentally implement it on the \textit{Zuchongzhi} 2.1 superconducting quantum processor. An average of \hhl{$0.8983 \pm 0.0002$} logical fidelity at different logical states with distance-three is achieved, \hhl{taking into account both state preparation and measurement errors.} In particular, \hhl{the magic states $|A^{\pi/4}\rangle_L$, $|H\rangle_L$, and $|T\rangle_L$ are prepared non-destructively with logical fidelities of $0.8771 \pm 0.0009 $, $0.9090 \pm 0.0009 $, and $0.8890 \pm 0.0010$, respectively, which are higher than the state distillation protocol threshold, 0.859 (for H-type magic state) and 0.827 (for T -type magic state).} Our work provides a viable and efficient avenue for generating high-fidelity raw logical magic states, which is essential for realizing non-Clifford logical gates in the surface code. | 翻訳日:2023-06-02 02:01:15 公開日:2023-05-31 |
# 適応スライスワッサーシュタイン距離へのPAC-ベイズ光の被覆 Shedding a PAC-Bayesian Light on Adaptive Sliced-Wasserstein Distances ( http://arxiv.org/abs/2206.03230v3 ) ライセンス: Link先を確認 | Ruben Ohana, Kimia Nadjahi, Alain Rakotomamonjy, Liva Ralaivola | (参考訳) スライス・ワッセルシュタイン距離(sliced-wasserstein distance, sw)は、ワッセルシュタイン距離に代わる計算効率と理論上は接地された距離である。
しかし、その統計的性質(あるいはより正確には、その一般化特性)に関する文献は、一様測度を超えたスライス分布についてはほとんどない。
この研究に新たな貢献をもたらすために、我々はPAC-ベイジアン理論とSWを平均リスクとして解釈できるという中心的な観察を活用し、PAC-ベイジアン境界を特徴付けるように設計されている。
3種類の結果が得られます
一 適応スライス・ワッサーシュタイン距離(英: Adaptive Sliced-Wasserstein distances)、すなわちスライス(データ依存分布を含む)の任意の分布について定義されるSWを根拠とするPAC-ベイズ一般化境界
二 理論的境界を最適化することにより、最大差別的swを生じさせるスライスの分布を学習するための原理的手順
三 理論上の知見の実証的な例示 The Sliced-Wasserstein distance (SW) is a computationally efficient and theoretically grounded alternative to the Wasserstein distance. Yet, the literature on its statistical properties -- or, more accurately, its generalization properties -- with respect to the distribution of slices, beyond the uniform measure, is scarce. To bring new contributions to this line of research, we leverage the PAC-Bayesian theory and a central observation that SW may be interpreted as an average risk, the quantity PAC-Bayesian bounds have been designed to characterize. We provide three types of results: i) PAC-Bayesian generalization bounds that hold on what we refer as adaptive Sliced-Wasserstein distances, i.e. SW defined with respect to arbitrary distributions of slices (among which data-dependent distributions), ii) a principled procedure to learn the distribution of slices that yields maximally discriminative SW, by optimizing our theoretical bounds, and iii) empirical illustrations of our theoretical findings. | 翻訳日:2023-06-01 23:37:21 公開日:2023-05-31 |
# 構造幻覚型変圧器カスケードによるフロアプランの復元 Floorplan Restoration by Structure Hallucinating Transformer Cascades ( http://arxiv.org/abs/2206.00645v3 ) ライセンス: Link先を確認 | Sepidehsadat Hosseini, Yasutaka Furukawa | (参考訳) 本稿では,エクストリームフロアプラン再構築タスク,新しいタスクベンチマーク,ニューラルネットワークアーキテクチャを解として提示する。
パノラマ画像から推定またはキュレートされた部分的なフロアプランの再構築を前提として、見えない建築構造を含む完全なフロアプランの再構築を行う。
ニューラルネットワークの提案
1)畳み込みニューラルネットワークとトランスフォーマによって入力された部分床版を一連の潜在ベクトルに符号化する。
2) トランスフォーマーデコーダをカスケードすることにより, 見えない部屋や扉を幻覚しながら, フロアプラン全体を再構築する。
定性的,定量的評価により,701戸の住宅に対するアプローチの有効性が示された。
コード、モデル、データを共有します。 This paper presents an extreme floorplan reconstruction task, a new benchmark for the task, and a neural architecture as a solution. Given a partial floorplan reconstruction inferred or curated from panorama images, the task is to reconstruct a complete floorplan including invisible architectural structures. The proposed neural network 1) encodes an input partial floorplan into a set of latent vectors by convolutional neural networks and a Transformer; and 2) reconstructs an entire floorplan while hallucinating invisible rooms and doors by cascading Transformer decoders. Qualitative and quantitative evaluations demonstrate effectiveness of our approach over the benchmark of 701 houses, outperforming the state-of-the-art reconstruction techniques. We will share our code, models, and data. | 翻訳日:2023-06-01 23:36:59 公開日:2023-05-31 |
# 効率的な探索による予測による静的スケジューリング Static Scheduling with Predictions Learned through Efficient Exploration ( http://arxiv.org/abs/2205.15695v2 ) ライセンス: Link先を確認 | Nadav Merlis, Hugo Richard, Flore Sentenac, Corentin Odic, Mathieu Molina, Vianney Perchet | (参考訳) 本研究では,ジョブの時間分布を決定するジョブタイプに属するジョブの単一マシンスケジューリングについて検討する。
まず、型特性が分かっているシナリオを分析して、タイプが不明な2つの学習シナリオに移行します。非プリエンプティブ問題、別のジョブに移行する前に各開始ジョブを完了しなければならない場合、そして、別のジョブに移行するためにジョブの実行を一時停止できるプリエンプティブ問題です。
いずれの場合も、既知型の性能と比較して、サブ線形超過コストを実現するアルゴリズムを設計し、非プリエンプティブケースの下位境界を証明する。
特に, 理論上およびシミュレーションにより, 異なるジョブタイプの持続時間が互いに遠くなると, プリエンプティブアルゴリズムが非プリエンプティブアルゴリズムを大きく上回ることを示す。 We study single-machine scheduling of jobs, each belonging to a job type that determines its duration distribution. We start by analyzing the scenario where the type characteristics are known and then move to two learning scenarios where the types are unknown: non-preemptive problems, where each started job must be completed before moving to another job; and preemptive problems, where job execution can be paused in the favor of moving to a different job. In both cases, we design algorithms that achieve sublinear excess cost, compared to the performance with known types, and prove lower bounds for the non-preemptive case. Notably, we demonstrate, both theoretically and through simulations, how preemptive algorithms can greatly outperform non-preemptive ones when the durations of different job types are far from one another, a phenomenon that does not occur when the type durations are known. | 翻訳日:2023-06-01 23:36:38 公開日:2023-05-31 |
# カーネルノルムによるwaserstein距離の制御と圧縮統計的学習への応用 Controlling Wasserstein Distances by Kernel Norms with Application to Compressive Statistical Learning ( http://arxiv.org/abs/2112.00423v3 ) ライセンス: Link先を確認 | Titouan Vayer, R\'emi Gribonval | (参考訳) 確率分布を比較することは、多くの機械学習アルゴリズムの要点である。
最大平均差 (MMD) とワッサーシュタイン距離 (Wasserstein distances) は、近年注目されている確率分布間の距離のクラスである。
本稿では,wasserstein距離をmmdノルムで制御できる条件について述べる。
我々の研究は、資源効率の高い大規模学習のための一般的なフレームワークである圧縮統計学習(CSL)理論によって動機付けられ、トレーニングデータを単一のベクトル(スケッチと呼ばれる)にまとめ、検討された学習タスクに関連する情報をキャプチャする。
CSLの既存の結果にインスパイアされ、H\"より古い下限等尺性を導入し、この性質が圧縮統計的学習の興味深い保証をもたらすことを示す。
mmdとwasserstein距離の関係に基づいて,学習タスクのwasserstein正規性の概念,すなわち確率分布間のタスク固有計量をwasserstein距離で境界づけることができる場合を紹介・検討することにより,圧縮的統計学習の保証を提供する。 Comparing probability distributions is at the crux of many machine learning algorithms. Maximum Mean Discrepancies (MMD) and Wasserstein distances are two classes of distances between probability distributions that have attracted abundant attention in past years. This paper establishes some conditions under which the Wasserstein distance can be controlled by MMD norms. Our work is motivated by the compressive statistical learning (CSL) theory, a general framework for resource-efficient large scale learning in which the training data is summarized in a single vector (called sketch) that captures the information relevant to the considered learning task. Inspired by existing results in CSL, we introduce the H\"older Lower Restricted Isometric Property and show that this property comes with interesting guarantees for compressive statistical learning. Based on the relations between the MMD and the Wasserstein distances, we provide guarantees for compressive statistical learning by introducing and studying the concept of Wasserstein regularity of the learning task, that is when some task-specific metric between probability distributions can be bounded by a Wasserstein distance. | 翻訳日:2023-06-01 23:35:30 公開日:2023-05-31 |
# 汎用的・効率的なブラックボックス最適化に向けた最適統計的協調 Optimum-statistical Collaboration Towards General and Efficient Black-box Optimization ( http://arxiv.org/abs/2106.09215v5 ) ライセンス: Link先を確認 | Wenjie Li, Chi-Hua Wang, Guang Cheng, Qifan Song | (参考訳) 本稿では,階層的バンディットに基づくブラックボックス最適化アルゴリズムにおける分解能と統計的不確実性の役割について,より一般的な解析とより効率的なアルゴリズム設計を導く。
本稿では,最適化過程における最適化誤差フラックスと統計誤差フラックスとの相互作用を管理するためのアルゴリズムフレームワークである \textit{optimum-statistical collaboration} を紹介する。
統計的誤差と不確かさの定量化の形式を指定せずに,この枠組みの一般的な解析を行う。
我々のフレームワークとその解析は、その一般化により、局所滑らか性の仮定が異なる局所最適性の仮定を満たす関数や分割の族に適用でき、これは以前の研究で研究された関数のクラスよりもはるかにリッチである。
また,統計的不確実性のより良い測定法を提案し,その結果,分散適応アルゴリズムであるtexttt{VHCT}を提案する。
理論上,このアルゴリズムは局所的な滑らかさの異なる仮定下ではレート最適の後悔の限界を享受していることを証明している。 In this paper, we make the key delineation on the roles of resolution and statistical uncertainty in hierarchical bandits-based black-box optimization algorithms, guiding a more general analysis and a more efficient algorithm design. We introduce the \textit{optimum-statistical collaboration}, an algorithm framework of managing the interaction between optimization error flux and statistical error flux evolving in the optimization process. We provide a general analysis of this framework without specifying the forms of statistical error and uncertainty quantifier. Our framework and its analysis, due to their generality, can be applied to a large family of functions and partitions that satisfy different local smoothness assumptions and have different numbers of local optimums, which is much richer than the class of functions studied in prior works. Our framework also inspires us to propose a better measure of the statistical uncertainty and consequently a variance-adaptive algorithm \texttt{VHCT}. In theory, we prove the algorithm enjoys rate-optimal regret bounds under different local smoothness assumptions; in experiments, we show the algorithm outperforms prior efforts in different settings. | 翻訳日:2023-06-01 23:35:10 公開日:2023-05-31 |
# 木モデル記述のための正確なシェープ値 Accurate Shapley Values for explaining tree-based models ( http://arxiv.org/abs/2106.03820v3 ) ライセンス: Link先を確認 | Salim I. Amoukou, Nicolas J-B. Brunel, Tangi Sala\"un | (参考訳) shapley value(sv)は説明可能なaiで広く使われているが、その推定と解釈は困難であり、不正確な推論と説明につながる。
始点として、SVの不変原理を思い起こさせ、使用する符号化に特に敏感な分類変数のSVを計算するための正しいアプローチを導出する。
木構造モデルの場合、木構造を効率的に利用し、最先端の手法よりも精度の高い2つのシェープ値推定器を導入する。
シミュレーションと比較は最先端アルゴリズムを用いて行われ,本手法の実用的利益を示す。
最後に、局所的な説明としてShapley Valuesの限界について論じる。
これらのメソッドはPythonパッケージとして利用できる。 Shapley Values (SV) are widely used in explainable AI, but their estimation and interpretation can be challenging, leading to inaccurate inferences and explanations. As a starting point, we remind an invariance principle for SV and derive the correct approach for computing the SV of categorical variables that are particularly sensitive to the encoding used. In the case of tree-based models, we introduce two estimators of Shapley Values that exploit the tree structure efficiently and are more accurate than state-of-the-art methods. Simulations and comparisons are performed with state-of-the-art algorithms and show the practical gain of our approach. Finally, we discuss the limitations of Shapley Values as a local explanation. These methods are available as a Python package. | 翻訳日:2023-06-01 23:34:49 公開日:2023-05-31 |
# AmbiFC: 証拠のある曖昧な主張 AmbiFC: Fact-Checking Ambiguous Claims with Evidence ( http://arxiv.org/abs/2104.00640v2 ) ライセンス: Link先を確認 | Max Glockner, Ieva Stali\=unait\.e, James Thorne, Gisela Vallejo, Andreas Vlachos, Iryna Gurevych | (参考訳) 実世界のシナリオにおける自動事実チェックシステムは、正確性を予測するために、クレームと回収された証拠を比較する必要がある。
回収された証拠は,明快にクレームを支持し,反証し,かつ,多様な有効な解釈を与えることができない。
既存のファクトチェックデータセットは、モデルが各クレームに対して単一のveracityラベルを予測し、そのような曖昧さを管理する能力がない必要がある。
本稿では,実世界の情報ニーズから現実的なクレームを抽出した大規模ファクトチェックデータセットAmbiFCを提案する。
データセットには、完全なウィキペディアページからのパスの詳細なエビデンスアノテーションが含まれています。
我々はAmbiFCにおける曖昧な主張から生じる不一致を徹底的に分析し、アノテータの自己評価と専門家による言語現象との強い相関を観察した。
本稿では,ソフトラベルを用いたあいまいなクレームに対するエビデンスに基づくファクトチェックのタスクを紹介し,アノテーション信号と単一ラベル分類アプローチを組み合わせた3つの手法を比較した。
文レベルのエビデンス選択と検証性予測のための注記蒸留のパイプラインが最良の性能をもたらすことを見出した。
あいまいなインスタンスでトレーニングされたモデルは、識別された言語カテゴリの処理性能が向上し、様々な検証解釈に関連付けられた証拠文間のニュアンス的差異の理解を得る。 Automated fact-checking systems in real-world scenarios must compare claims with retrieved evidence to predict the veracity. The retrieved evidence may not unambiguously support or refute the claim and yield diverse valid interpretations. Existing fact-checking datasets necessitate that models predict a single veracity label for each claim and lack the ability to manage such ambiguity. We present AmbiFC, a large-scale fact-checking dataset with realistic claims derived from real-world information needs. Our dataset contains fine-grained evidence annotations of passages from complete Wikipedia pages. We thoroughly analyze disagreements arising from ambiguous claims in AmbiFC, observing a strong correlation of annotator disagreement with their self-assessment and expert-annotated linguistic phenomena. We introduce the task of evidence-based fact-checking for ambiguous claims with soft labels, and compare three methodologies incorporating annotation signals with a single-label classification approach. We find that a pipeline with annotation distillation for sentence-level evidence selection and veracity prediction yields the best performance. Models trained on ambiguous instances exhibit improved performance dealing with the identified linguistic categories, and acquire an understanding of nuanced differences among evidence sentences associated with diverse veracity interpretations. | 翻訳日:2023-06-01 23:34:37 公開日:2023-05-31 |
# ニューラルマシン翻訳のための合成事前学習タスク Synthetic Pre-Training Tasks for Neural Machine Translation ( http://arxiv.org/abs/2212.09864v2 ) ライセンス: Link先を確認 | Zexue He, Graeme Blackwood, Rameswar Panda, Julian McAuley, Rogerio Feris | (参考訳) 大きなクロールコーパスを持つ事前トレーニングモデルは、毒性やバイアス、著作権やプライバシーの懸念といった問題を引き起こす可能性がある。
このような懸念を緩和する有望な方法は、モデルによって現実世界の情報を取り込むことなく、合成タスクとデータで事前トレーニングを行うことである。
本稿では,合成資源を用いた事前学習モデルの有効性に寄与する要因を,特にニューラルマシン翻訳の文脈で理解することを目的とする。
語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルに対するいくつかの新しいアプローチを提案する。
1)大きな平行コーパスから難読データを生成する
2)小語対応コーパスから抽出した句対の連結と
3)人間の言語コーパスを使わずに合成並列データを生成すること。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
総合的な実験分析の結果は、NTTの事前トレーニングに何が必要かを理解し、より効率的で毒性の低いモデルを開発するための道を開くことを願っています。 Pre-training models with large crawled corpora can lead to issues such as toxicity and bias, as well as copyright and privacy concerns. A promising way of alleviating such concerns is to conduct pre-training with synthetic tasks and data, since no real-world information is ingested by the model. Our goal in this paper is to understand the factors that contribute to the effectiveness of pre-training models when using synthetic resources, particularly in the context of neural machine translation. We propose several novel approaches to pre-training translation models that involve different levels of lexical and structural knowledge, including: 1) generating obfuscated data from a large parallel corpus 2) concatenating phrase pairs extracted from a small word-aligned corpus, and 3) generating synthetic parallel data without real human language corpora. Our experiments on multiple language pairs reveal that pre-training benefits can be realized even with high levels of obfuscation or purely synthetic parallel data. We hope the findings from our comprehensive empirical analysis will shed light on understanding what matters for NMT pre-training, as well as pave the way for the development of more efficient and less toxic models. | 翻訳日:2023-06-01 23:29:20 公開日:2023-05-31 |
# Ollivier-Ricci曲率を用いた過スムージングと過スワッシングの再検討 Revisiting Over-smoothing and Over-squashing Using Ollivier-Ricci Curvature ( http://arxiv.org/abs/2211.15779v3 ) ライセンス: Link先を確認 | Khang Nguyen and Hieu Nong and Vinh Nguyen and Nhat Ho and Stanley Osher and Tan Nguyen | (参考訳) グラフニューラルネットワーク(GNN)は、オーバースムーシングとオーバースキャッシングの問題に本質的に感受性があることが示されている。
これらの問題は、GNNが遠隔情報を考慮した複雑なグラフ相互作用をモデル化することを禁じている。
本研究は,局所グラフ幾何とこれら2つの問題の発生との間の重要な関係を明らかにし,Ollivier-Ricci曲率を用いて局所的に研究するための統一的な枠組みを提供する。
具体的には、オーバー・スムーシングが正グラフ曲率に結びつき、オーバー・スクアッシングが負グラフ曲率に結びついていることを示す。
この理論に基づいて,過度なスムージングと過度なスワッシングの両方を同時に処理できる新しいリワイニングアルゴリズムであるBatch Ollivier-Ricci Flowを提案する。 Graph Neural Networks (GNNs) had been demonstrated to be inherently susceptible to the problems of over-smoothing and over-squashing. These issues prohibit the ability of GNNs to model complex graph interactions by limiting their effectiveness in taking into account distant information. Our study reveals the key connection between the local graph geometry and the occurrence of both of these issues, thereby providing a unified framework for studying them at a local scale using the Ollivier-Ricci curvature. Specifically, we demonstrate that over-smoothing is linked to positive graph curvature while over-squashing is linked to negative graph curvature. Based on our theory, we propose the Batch Ollivier-Ricci Flow, a novel rewiring algorithm capable of simultaneously addressing both over-smoothing and over-squashing. | 翻訳日:2023-06-01 23:28:46 公開日:2023-05-31 |
# puzzlefusion:空間パズル解のための拡散モデルの力を解き放つ PuzzleFusion: Unleashing the Power of Diffusion Models for Spatial Puzzle Solving ( http://arxiv.org/abs/2211.13785v2 ) ライセンス: Link先を確認 | Sepidehsadat Hosseini, Mohammad Amin Shabani, Saghar Irandoust, Yasutaka Furukawa | (参考訳) 本稿では,空間パズル解法,特にジグソーパズルとルームアレンジタスクのための拡散モデルに基づくエンドツーエンドニューラルネットワークアーキテクチャを提案する。
後者のタスクでは、例えば「PuzzleFusion」というシステムでは、一組の部屋レイアウトをトップダウンビューの多角形曲線として取り、部屋レイアウトのジグソーパズルの解法と同様に、2次元の翻訳と回転を推定して部屋レイアウトを整列する。
この論文の驚くべき発見は、拡散モデル(Diffusion Model)の簡単な使用により、条件生成プロセスとしてこれらの困難な空間パズルタスクを効果的に解くことである。
本稿では,エンド・ツー・エンドのニューラルネットワークの学習を可能にするために,接地配置を用いた新しいデータセットを提案する。
1) 2d voronoi jigsawデータセット,2d pointsetのvoronoiダイアグラムによってピースが生成される合成データセット,
2) magicplanデータセットは、製品パイプラインからmagicplanが提供する現実のデータセットで、現実の消費者が拡張現実アプリによって構築したルームレイアウトである。
定性的かつ定量的な評価は、我々の手法が全てのタスクにおいて大きなマージンで競合する手法よりも優れていることを示す。
すべてのコードとデータを公開します。 This paper presents an end-to-end neural architecture based on Diffusion Models for spatial puzzle solving, particularly jigsaw puzzle and room arrangement tasks. In the latter task, for instance, the proposed system ``PuzzleFusion'' takes a set of room layouts as polygonal curves in the top-down view and aligns the room layout pieces by estimating their 2D translations and rotations, akin to solving the jigsaw puzzle of room layouts. A surprising discovery of the paper is that the simple use of a Diffusion Model effectively solves these challenging spatial puzzle tasks as a conditional generation process. To enable learning of an end-to-end neural system, the paper introduces new datasets with ground-truth arrangements: 1) 2D Voronoi jigsaw dataset, a synthetic one where pieces are generated by Voronoi diagram of 2D pointset; and 2) MagicPlan dataset, a real one offered by MagicPlan from its production pipeline, where pieces are room layouts constructed by augmented reality App by real-estate consumers. The qualitative and quantitative evaluations demonstrate that our approach outperforms the competing methods by significant margins in all the tasks. We will publicly share all our code and data. | 翻訳日:2023-06-01 23:28:29 公開日:2023-05-31 |
# 一定メモリによるImageNet-1Kへのデータセット蒸留のスケールアップ Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory ( http://arxiv.org/abs/2211.10586v2 ) ライセンス: Link先を確認 | Justin Cui, Ruochen Wang, Si Si, Cho-Jui Hsieh | (参考訳) データセット蒸留法(dataset distillation method)は、大規模なデータセットを小さな合成サンプルに圧縮することを目的としている。
最近提案された手法のうち、MTT(Matching Training Trajectories)は、バックプロパゲーションによるアンロール勾配計算を行う際の大きなメモリ要件のため、ImageNet-1kデータセットへのスケーリングが困難でありながら、CIFAR-10/100における最先端のパフォーマンスを達成する。
意外なことに、トラジェクトリー整合損失の勾配を一定のGPUメモリ要件で正確に計算する手順が存在する(無回転ステップの数に関係している)。
これにより、提案手法は6倍のメモリ削減でImageNet-1Kに容易にスケールできるが、実行時のオーバーヘッドは元のNTTよりも2%程度しか発生しない。
さらに,合成画像にソフトラベルを割り当てることは,より多くのカテゴリ(例えば1,000)にスケールする場合のパフォーマンスに不可欠であり,大規模データセットにおけるモデルトレーニングトラジェクタの整合性が向上した,新しいソフトラベルバージョンの軌道マッチングを提案する。
提案アルゴリズムは,ImageNet-1K の以前の SOTA を超低 IPC (Images Per Class) で上回るだけでなく,ImageNet-1K で50 IPC までのスケールアップを可能にする。
我々の方法(TESLA)は27.9%の精度で、先行技術よりも18.2%の差がある。 Dataset distillation methods aim to compress a large dataset into a small set of synthetic samples, such that when being trained on, competitive performances can be achieved compared to regular training on the entire dataset. Among recently proposed methods, Matching Training Trajectories (MTT) achieves state-of-the-art performance on CIFAR-10/100, while having difficulty scaling to ImageNet-1k dataset due to the large memory requirement when performing unrolled gradient computation through back-propagation. Surprisingly, we show that there exists a procedure to exactly calculate the gradient of the trajectory matching loss with constant GPU memory requirement (irrelevant to the number of unrolled steps). With this finding, the proposed memory-efficient trajectory matching method can easily scale to ImageNet-1K with 6x memory reduction while introducing only around 2% runtime overhead than original MTT. Further, we find that assigning soft labels for synthetic images is crucial for the performance when scaling to larger number of categories (e.g., 1,000) and propose a novel soft label version of trajectory matching that facilities better aligning of model training trajectories on large datasets. The proposed algorithm not only surpasses previous SOTA on ImageNet-1K under extremely low IPCs (Images Per Class), but also for the first time enables us to scale up to 50 IPCs on ImageNet-1K. Our method (TESLA) achieves 27.9% testing accuracy, a remarkable +18.2% margin over prior arts. | 翻訳日:2023-06-01 23:28:04 公開日:2023-05-31 |
# 地域・地域政策としての反現実的説明の再考 Rethinking Counterfactual Explanations as Local and Regional Counterfactual Policies ( http://arxiv.org/abs/2209.14568v2 ) ライセンス: Link先を確認 | Salim I. Amoukou, Nicolas J.B Brunel | (参考訳) Counterfactual Explanations (CE)は、安定性の確保、複数のCEの合成、信頼性とスパーシリティの保証など、いくつかの未解決課題に直面している。
より実践的な視点から見ると、最近の研究[Pawelczyk et al., 2022]では、規定された反ファクト・リコースは個人によって正しく実施されないことが多く、ほとんどの最先端のCEアルゴリズムがこのノイズの多い環境で失敗する可能性が非常に高いことが示されている。
これらの問題に対処するため,各観測値に対して局所的反実律を緩やかに付与し,高い確率で決定を変更できる範囲の値を与える確率的枠組みを提案する。
これらの規則は、様々な反事実的説明の要約として機能し、堅牢な論説をもたらす。
さらに,これらの局所ルールを地域反事実規則に集約し,データのサブグループ間の共有リコースを識別する。
地域ルールと地域ルールはランダムフォレストアルゴリズムから導出され,高密度領域におけるリコースの選択により,データ分布に対する統計的保証と忠実性を提供する。
さらに、私たちのルールは、まず、決定を変更する確率の高い変数の最小セットを選択するため、ばらばらです。
我々は, 標準CEと最近の同様の試みと比較して, 対実ルールの有効性を検証する実験を行った。
私たちのメソッドはpythonパッケージとして利用できます。 Counterfactual Explanations (CE) face several unresolved challenges, such as ensuring stability, synthesizing multiple CEs, and providing plausibility and sparsity guarantees. From a more practical point of view, recent studies [Pawelczyk et al., 2022] show that the prescribed counterfactual recourses are often not implemented exactly by individuals and demonstrate that most state-of-the-art CE algorithms are very likely to fail in this noisy environment. To address these issues, we propose a probabilistic framework that gives a sparse local counterfactual rule for each observation, providing rules that give a range of values capable of changing decisions with high probability. These rules serve as a summary of diverse counterfactual explanations and yield robust recourses. We further aggregate these local rules into a regional counterfactual rule, identifying shared recourses for subgroups of the data. Our local and regional rules are derived from the Random Forest algorithm, which offers statistical guarantees and fidelity to data distribution by selecting recourses in high-density regions. Moreover, our rules are sparse as we first select the smallest set of variables having a high probability of changing the decision. We have conducted experiments to validate the effectiveness of our counterfactual rules in comparison to standard CE and recent similar attempts. Our methods are available as a Python package. | 翻訳日:2023-06-01 23:26:42 公開日:2023-05-31 |
# 広い畳み込みニューラルネットワークで何を学ぶことができるのか? What Can Be Learnt With Wide Convolutional Neural Networks? ( http://arxiv.org/abs/2208.01003v5 ) ライセンス: Link先を確認 | Francesco Cagnetta, Alessandro Favero and Matthieu Wyart | (参考訳) 畳み込みニューラルネットワーク(cnns)が高次元関数を効率的に学習できるかを理解することは、基本的な課題である。
これらのモデルは、画像のような自然データの局所的および階層的構造を利用する、と広く信じられている。
しかし、そのような構造がパフォーマンスに与える影響を定量的に理解していない。例えば、トレーニングサンプルの数による一般化誤差の減衰率である。
本稿ではカーネルシステムにおける無限大深部CNNについて検討する。
まず、対応するカーネルのスペクトルがネットワークの階層構造を継承していることを示し、その漸近性を特徴付ける。
そして、この結果と一般化境界を用いて、深いCNNが対象関数の空間スケールに適応していることを証明する。
特に、ターゲット関数が隣接する入力変数の低次元部分集合に依存する場合、誤差の減衰はこれらの部分集合の有効次元性によって制御される。
逆に、対象関数が入力変数の完全な集合に依存する場合、誤差減衰は入力次元によって制御される。
我々は、ランダムに初期化パラメータを持つ別の深部CNNの出力に基づいて訓練された深部CNNの一般化誤差を計算して結論付ける。
興味深いことに、その階層構造にもかかわらず、無限大の深層CNNによって生成される関数は、高次元で効率的に学習できないほどに豊富である。 Understanding how convolutional neural networks (CNNs) can efficiently learn high-dimensional functions remains a fundamental challenge. A popular belief is that these models harness the local and hierarchical structure of natural data such as images. Yet, we lack a quantitative understanding of how such structure affects performance, e.g., the rate of decay of the generalisation error with the number of training samples. In this paper, we study infinitely-wide deep CNNs in the kernel regime. First, we show that the spectrum of the corresponding kernel inherits the hierarchical structure of the network, and we characterise its asymptotics. Then, we use this result together with generalisation bounds to prove that deep CNNs adapt to the spatial scale of the target function. In particular, we find that if the target function depends on low-dimensional subsets of adjacent input variables, then the decay of the error is controlled by the effective dimensionality of these subsets. Conversely, if the target function depends on the full set of input variables, then the error decay is controlled by the input dimension. We conclude by computing the generalisation error of a deep CNN trained on the output of another deep CNN with randomly-initialised parameters. Interestingly, we find that, despite their hierarchical structure, the functions generated by infinitely-wide deep CNNs are too rich to be efficiently learnable in high dimension. | 翻訳日:2023-06-01 23:25:50 公開日:2023-05-31 |
# エネルギーによるグラフの畳み込みの理解 Understanding convolution on graphs via energies ( http://arxiv.org/abs/2206.10991v4 ) ライセンス: Link先を確認 | Francesco Di Giovanni, James Rowbottom, Benjamin P. Chamberlain, Thomas Markovich, Michael M. Bronstein | (参考訳) グラフニューラルネットワーク(GNN)は一般的にメッセージパッシングによって動作し、隣人から受信した情報に基づいてノードの状態が更新される。
ほとんどのメッセージパッシングモデルはグラフ畳み込みとして機能し、エッジ上に伝播する前に共有線形変換によって特徴が混合される。
ノード分類タスクでは、グラフの畳み込みには2つの制限がある。
これらのモデルがローパスフィルタとして振る舞うため、両方の現象が生じるとよく信じられているため、特徴のディリクレエネルギーは層に沿って減少し、最終的に特徴が区別できないような滑らかな効果をもたらす。
本研究では,単純なグラフ畳み込みモデルが実際に高周波数を増大させ,過度にシャープ化されるという漸近的な振る舞いを生じさせることを厳密に証明する。
対称重みを持つ線形グラフ畳み込みは、ディリクレエネルギーを一般化する多粒子エネルギーを最小化することを示し、この設定では、重み行列は正の(負の)固有値を通じてエッジワイズアトラクション(反発)を誘導し、特徴が平滑化されているかシャープ化されているかを制御する。
また、解析を非線形GNNに拡張し、既存の時間連続GNNが常に低周波数で支配されていることを示す。
最後に,実世界実験とアブレーションにより理論的知見を検証した。 Graph Neural Networks (GNNs) typically operate by message-passing, where the state of a node is updated based on the information received from its neighbours. Most message-passing models act as graph convolutions, where features are mixed by a shared, linear transformation before being propagated over the edges. On node-classification tasks, graph convolutions have been shown to suffer from two limitations: poor performance on heterophilic graphs, and over-smoothing. It is common belief that both phenomena occur because such models behave as low-pass filters, meaning that the Dirichlet energy of the features decreases along the layers incurring a smoothing effect that ultimately makes features no longer distinguishable. In this work, we rigorously prove that simple graph-convolutional models can actually enhance high frequencies and even lead to an asymptotic behaviour we refer to as over-sharpening, opposite to over-smoothing. We do so by showing that linear graph convolutions with symmetric weights minimize a multi-particle energy that generalizes the Dirichlet energy; in this setting, the weight matrices induce edge-wise attraction (repulsion) through their positive (negative) eigenvalues, thereby controlling whether the features are being smoothed or sharpened. We also extend the analysis to non-linear GNNs, and demonstrate that some existing time-continuous GNNs are instead always dominated by the low frequencies. Finally, we validate our theoretical findings through ablations and real-world experiments. | 翻訳日:2023-06-01 23:25:30 公開日:2023-05-31 |
# 大規模言語モデルによる実践的PCG Practical PCG Through Large Language Models ( http://arxiv.org/abs/2305.18243v2 ) ライセンス: Link先を確認 | Muhammad U Nasir and Julian Togelius | (参考訳) 大規模言語モデル(llm)は、自然言語処理という分野以外の様々な分野において有用なツールであることが証明されている。
本研究では,メタボイダル(Metavoidal)という開発下ゲーム用2DゲームルームをLLMで生成する方法の実践的方向性を示す。
提案手法は,局所的制約の多いPCG (Procedural Content Generation) PCG に関して,非自明なゲームシナリオ下では,60個の手作りの部屋として,少ないデータから37%の再生可能・ノーベルレベルを生成できる,ループ内細調整による GPT-3 のパワーを利用することができる。 Large Language Models (LLMs) have proven to be useful tools in various domains outside of the field of their inception, which was natural language processing. In this study, we provide practical directions on how to use LLMs to generate 2D-game rooms for an under-development game, named Metavoidal. Our technique can harness the power of GPT-3 by Human-in-the-loop fine-tuning which allows our method to create 37% Playable-Novel levels from as scarce data as only 60 hand-designed rooms under a scenario of the non-trivial game, with respect to (Procedural Content Generation) PCG, that has a good amount of local and global constraints. | 翻訳日:2023-06-01 23:17:15 公開日:2023-05-31 |
# HICO-DET-SGとV-COCO-SG:人間-物体相互作用検出モデルの系統的一般化性能評価のための新しいデータ分割 HICO-DET-SG and V-COCO-SG: New Data Splits for Evaluating the Systematic Generalization Performance of Human-Object Interaction Detection Models ( http://arxiv.org/abs/2305.09948v2 ) ライセンス: Link先を確認 | Kentaro Takemoto, Moyuru Yamada, Tomotake Sasaki, Hisanao Akima | (参考訳) ヒューマン・オブジェクト・インタラクション(human-object interaction、hoi)は、画像内の人間とオブジェクトをローカライズし、人間とオブジェクトのペアで相互作用を予測するタスクである。
実世界のシナリオでは、列車データは可能なすべての組み合わせの限られた部分をカバーすることが期待されるため、hoi検出モデルは体系的な一般化、すなわち、オブジェクトとインタラクションの新しい組み合わせへの一般化が必要である。
しかし、我々の知る限り、HOI検出モデルの系統的一般化性能を評価するためのオープンベンチマークや以前の研究は存在しない。
そこで我々は,HICO-DETデータセットとV-COCOデータセットに基づいて,HICO-DET-SGとV-COCO-SGという2種類のHOI検出データ分割を新たに作成した。
新しいデータ分割を評価すると、代表HOI検出モデルは元の分割を評価する場合よりもはるかに低性能であった。
これは、系統的な一般化がHOI検出の難しい目標であることを示している。
また, 評価結果を解析することにより, 体系的一般化性能を向上させるための洞察を得るとともに, 4つの今後の研究方向を明らかにする。
新たなデータ分割と解析が,HOI検出における系統的一般化のさらなる研究を促進することを願っている。 Human-Object Interaction (HOI) detection is a task to localize humans and objects in an image and predict the interactions in human-object pairs. In real-world scenarios, HOI detection models are required systematic generalization, i.e., generalization to novel combinations of objects and interactions, because the train data are expected to cover a limited portion of all possible combinations. However, to our knowledge, no open benchmarks or previous work exist for evaluating the systematic generalization performance of HOI detection models. To address this issue, we created two new sets of HOI detection data splits named HICO-DET-SG and V-COCO-SG based on the HICO-DET and V-COCO datasets, respectively. When evaluated on the new data splits, the representative HOI detection models performed much more poorly than when evaluated on the original splits. This reveals that systematic generalization is a challenging goal in HOI detection. By analyzing the evaluation results, we also gain insights for improving the systematic generalization performance and identify four possible future research directions. We hope that our new data splits and presented analysis will encourage further research on systematic generalization in HOI detection. | 翻訳日:2023-06-01 23:16:51 公開日:2023-05-31 |
# 大規模マルチモーダルモデルにおけるOCRの隠れミステリーについて On the Hidden Mystery of OCR in Large Multimodal Models ( http://arxiv.org/abs/2305.07895v2 ) ライセンス: Link先を確認 | Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Lianwen Jin, Xiang Bai | (参考訳) 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。
テキスト関連視覚タスクにおける有効性については,いまだ検討されていない。
本研究では,テキスト認識(文書テキスト,芸術テキスト,手書きテキスト,シーンテキスト),テキストベースの視覚的質問応答(文書テキスト,シーンテキスト,バイリンガルテキスト),キー情報抽出(受信情報,文書,栄養情報),手書きの数学的表現認識において,既存のマルチモーダルモデルの総合的研究を行った。
これらのモデルの強みと弱みは、主に単語認識の意味的理解に依存し、個々の文字形状に対する劣った知覚を示す。
また、テキスト長に対する差分を表示し、画像のきめ細かい特徴を検出する能力に制限がある。
その結果,現在最も強力な大規模マルチモーダルモデルでさえ,従来のテキストタスクではドメイン固有メソッドと一致せず,より複雑なタスクでは大きな課題に直面していることがわかった。
最も重要な点は,ゼロショットマルチモーダル技術の向上を目的とした革新的戦略の構想と評価のための基礎的枠組みを,本研究で提示した基礎的結果が提供できることである。
評価パイプラインはhttps://github.com/Yuliang-Liu/MultimodalOCRで提供される。 Large models have recently played a dominant role in natural language processing and multimodal vision-language learning. It remains less explored about their efficacy in text-related visual tasks. We conducted a comprehensive study of existing publicly available multimodal models, evaluating their performance in text recognition (document text, artistic text, handwritten text, scene text), text-based visual question answering (document text, scene text, and bilingual text), key information extraction (receipts, documents, and nutrition facts) and handwritten mathematical expression recognition. Our findings reveal strengths and weaknesses in these models, which primarily rely on semantic understanding for word recognition and exhibit inferior perception of individual character shapes. They also display indifference towards text length and have limited capabilities in detecting fine-grained features in images. Consequently, these results demonstrate that even the current most powerful large multimodal models cannot match domain-specific methods in traditional text tasks and face greater challenges in more complex tasks. Most importantly, the baseline results showcased in this study could provide a foundational framework for the conception and assessment of innovative strategies targeted at enhancing zero-shot multimodal techniques. Evaluation pipeline will be available at https://github.com/Yuliang-Liu/MultimodalOCR. | 翻訳日:2023-06-01 23:16:27 公開日:2023-05-31 |
# cTBLS:会話テーブルによる大規模言語モデルの拡張 cTBLS: Augmenting Large Language Models with Conversational Tables ( http://arxiv.org/abs/2303.12024v3 ) ライセンス: Link先を確認 | Anirudh S Sundar, Larry Heck | (参考訳) オープンドメイン会話型大言語モデル(llms)の幻覚を排除しつつ、正確性とパフォーマンスを最適化することは、オープンリサーチの課題である。
特に有望な方向は、構造化されたソースからの情報でLLMを増強および接地することである。
本稿では,検索した表情報に基づいて対話応答を検索・生成する3段階アーキテクチャである会話表(cTBLS)を提案する。
cTBLSは、Dense Table RetrievalにTransformerエンコーダの埋め込みを使用しており、HirbiDialogueデータセットの以前の最先端システムで、レトリバーよりも最大125%改善されている。
cTBLSは、エンコーダとデコーダモデル間の共有プロセスを使用して、粗い+細い表の知識(例えばセル)とGPT-3.5 LLM応答生成器を組み合わせてROUGEスコアを2倍改善する。
最後に、人間の評価者は、cTBLs+80%の時間(コヒーレンシー、流派)を好み、以前の最先端よりも4倍良いと判断する。 Optimizing accuracy and performance while eliminating hallucinations of open-domain conversational large language models (LLMs) is an open research challenge. A particularly promising direction is to augment and ground LLMs with information from structured sources. This paper introduces Conversational Tables (cTBLS), a three-step architecture to retrieve and generate dialogue responses grounded on retrieved tabular information. cTBLS uses Transformer encoder embeddings for Dense Table Retrieval and obtains up to 125% relative improvement over the retriever in the previous state-of-the-art system on the HyrbiDialogue dataset. cTBLS then uses a shared process between encoder and decoder models to perform a coarse+fine tabular knowledge (e.g., cell) ranking combined with a GPT-3.5 LLM response generator to yield a 2x relative improvement in ROUGE scores. Finally, human evaluators prefer cTBLs +80% of the time (coherency, fluency) and judge informativeness to be 4x better than the previous state-of-the-art. | 翻訳日:2023-06-01 23:15:52 公開日:2023-05-31 |
# 問合せ要約のための共同モデリングによる問合せ発話注意 Query-Utterance Attention with Joint modeling for Query-Focused Meeting Summarization ( http://arxiv.org/abs/2303.04487v2 ) ライセンス: Link先を確認 | Xingxian Liu, Bin Duan, Bo Xiao, Yajing Xu | (参考訳) クエリ中心のミーティング要約(QFMS)は、所定のクエリに応答して、ミーティングのトランスクリプトから要約を生成することを目的としている。
以前の作業は通常、クエリと会議のトランスクリプトを結合し、トークンレベルでのみクエリ関連性を暗黙的にモデル化する。
しかし、長時間の会議記録によるキークエリ関連情報の希釈により、元のトランスフォーマーモデルではクエリに関連する重要な部分を強調できない。
本稿では,クエリ・Utterance Attentionに基づく共同モデリングトークンと発話を用いた問合せ対応フレームワークを提案する。
クエリーに対する発話レベルの関連性を高密度検索モジュールで計算する。
次に、トークンレベルのクエリ関連性と発話レベルのクエリ関連性を組み合わせ、アテンション機構を明示した生成プロセスに組み込む。
異なる粒度のクエリ関連性が,クエリに関連する要約を生成することに寄与することを示す。
QMSumデータセットの実験結果から,提案モデルが新たな最先端性能を実現することを示す。 Query-focused meeting summarization (QFMS) aims to generate summaries from meeting transcripts in response to a given query. Previous works typically concatenate the query with meeting transcripts and implicitly model the query relevance only at the token level with attention mechanism. However, due to the dilution of key query-relevant information caused by long meeting transcripts, the original transformer-based model is insufficient to highlight the key parts related to the query. In this paper, we propose a query-aware framework with joint modeling token and utterance based on Query-Utterance Attention. It calculates the utterance-level relevance to the query with a dense retrieval module. Then both token-level query relevance and utterance-level query relevance are combined and incorporated into the generation process with attention mechanism explicitly. We show that the query relevance of different granularities contributes to generating a summary more related to the query. Experimental results on the QMSum dataset show that the proposed model achieves new state-of-the-art performance. | 翻訳日:2023-06-01 23:15:31 公開日:2023-05-31 |
# 次世代文予測(MeNSP)としてのマッチング : 理科教育における自動スコーリングのためのゼロショットプロンプト学習 Matching Exemplar as Next Sentence Prediction (MeNSP): Zero-shot Prompt Learning for Automatic Scoring in Science Education ( http://arxiv.org/abs/2301.08771v4 ) ライセンス: Link先を確認 | Xuansheng Wu, Xinyu He, Tianming Liu, Ninghao Liu, Xiaoming Zhai | (参考訳) 科学問題に対する学生の回答を自動的に評価するモデルの開発は、科学教育にとって重要である。
しかし、トレーニングモデルに十分な学生反応の収集とラベル付けには時間と費用がかかる。
近年の研究では、事前学習された言語モデルは、プロンプトを微調整することなく下流のタスクに適応できることが示唆されている。
しかし、科学教育においてこのような急進的なアプローチは研究されていない。
学生の反応は自然言語で表されるので、プロンプトを用いた次の文予測タスクとして採点手順を整列することで、コストのかかる微調整段階をスキップすることができる。
本研究では,Matching ExemplarsをNext Sentence Prediction(MeNSP)として,学生の反応を自動的にスコアするゼロショット手法を開発した。
このアプローチはトレーニングサンプルを使用しない。
まず, 科学的議論の3つの評価課題をMeNSPに適用し, 機械・人的評価協定, Cohen's Kappa は 0.30 から 0.57 まで, F1 は 0.54 から 0.81 までについて検討した。
評価を改善するため,我々は,ラベル付き学生応答をランダムに選択するか,モデルを微調整するために手作業で応答を構築するか,など,数ショット設定に研究を展開する。
一方のタスクのパフォーマンスはより多くのサンプルで改善され、コーエンのKappaは0.30から0.38に、F1は0.54から0.59に改善され、他の2つのタスクではスコアのパフォーマンスは改善されない。
また、ランダムに選択した少数のショットは、人間のエキスパートによるアプローチよりも優れていることも分かりました。
本研究は,モデル学習のコストを大幅に削減しながら,学生の反応に対して参照可能な自動得点が得られることを示唆する。
この方法は、理科教育における低学級評価の実践に役立つ。
今後の研究は,理科教育における様々な評価課題におけるmenspの適用可能性をさらに探究し,モデル性能を向上させる必要がある。 Developing models to automatically score students' written responses to science problems is critical for science education. However, collecting and labeling sufficient student responses for training models is time and cost-consuming. Recent studies suggest that pre-trained language models can be adapted to downstream tasks without fine-tuning with prompts. However, no research has employed such a prompt approach in science education. As student responses are presented with natural language, aligning the scoring procedure as the next sentence prediction task using prompts can skip the costly fine-tuning stage. In this study, we developed a zero-shot approach to automatically score student responses via Matching Exemplars as Next Sentence Prediction (MeNSP). This approach employs no training samples. We first apply MeNSP in scoring three assessment tasks of scientific argumentation and found machine-human scoring agreements, Cohen's Kappa ranges from 0.30 to 0.57, and F1 score ranges from 0.54 to 0.81. To improve the performance, we extend our research to the few-shots setting, either randomly selecting labeled student responses or manually constructing responses to fine-tune the models. We find that one task's performance is improved with more samples, Cohen's Kappa from 0.30 to 0.38, and F1 score from 0.54 to 0.59; for the two others, scoring performance is not improved. We also find that randomly selected few-shots perform better than the human expert-crafted approach. This study suggests that MeNSP can yield referable automatic scoring for student responses while significantly reducing the cost of model training. This method can benefit low-stakes classroom assessment practices in science education. Future research should further explore the applicability of the MeNSP in different types of assessment tasks in science education and improve the model performance. | 翻訳日:2023-06-01 23:14:44 公開日:2023-05-31 |
# ILLUME:人間のインタラクションによる視覚言語モデルの合理化 ILLUME: Rationalizing Vision-Language Models through Human Interactions ( http://arxiv.org/abs/2208.08241v4 ) ライセンス: Link先を確認 | Manuel Brack, Patrick Schramowski, Bj\"orn Deiseroth and Kristian Kersting | (参考訳) 事前学習された言語モデルからのブートストラップは、画像キャプションや視覚的質問応答といったタスクのための視覚言語モデル(VLM)を構築するための効率的なアプローチであることが証明されている。
しかしながら、これらのモデルのアウトプットは、特定の回答に対するユーザの論理と一致することはめったにない。
このアライメントを改善し、コモンセンスの理由を強化するため、機械生成データとの人間インタラクションに基づくチューニングパラダイムを提案する。
我々の ILLUME は以下のループを実行する: 画像検索のプロンプトが与えられたら、VLM は複数の候補論理をサンプリングし、人間の批評家は好みの選択を通じてフィードバックを提供する。
このループはトレーニングデータを増やし、人間の意図に合わせたVLMの合理化能力を徐々に削ります。
我々の徹底的な実験は、ILLUMEが標準的な教師付き微調整と競合する一方で、トレーニングデータが非常に少なく、最小限のフィードバックしか必要としないことを示した。 Bootstrapping from pre-trained language models has been proven to be an efficient approach for building vision-language models (VLM) for tasks such as image captioning or visual question answering. However, outputs of these models rarely align with user's rationales for specific answers. In order to improve this alignment and reinforce commonsense reasons, we propose a tuning paradigm based on human interactions with machine-generated data. Our ILLUME executes the following loop: Given an image-question-answer prompt, the VLM samples multiple candidate rationales, and a human critic provides feedback via preference selection, used for fine-tuning. This loop increases the training data and gradually carves out the VLM's rationalization capabilities that are aligned with human intent. Our exhaustive experiments demonstrate that ILLUME is competitive with standard supervised finetuning while using significantly fewer training data and only requiring minimal feedback. | 翻訳日:2023-06-01 20:57:35 公開日:2023-05-31 |
# omnimae: 画像やビデオに仮装されたシングルモデル OmniMAE: Single Model Masked Pretraining on Images and Videos ( http://arxiv.org/abs/2206.08356v2 ) ライセンス: Link先を確認 | Rohit Girdhar, Alaaeldin El-Nouby, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra | (参考訳) トランスフォーマーベースのアーキテクチャは、画像やビデオなど、さまざまな視覚領域で競合している。
先行研究はこれらのモダリティを分離して研究するが、共通のアーキテクチャを持つことは、複数の視覚モダリティに対して単一の統一モデルを訓練できることを示唆している。
統一モデリングの以前の試みでは、一般的にビジョンタスク用に調整されたアーキテクチャを使うか、単一のモダリティモデルよりも悪いパフォーマンスを得る。
本研究では,マスク付き自動エンコーディングにより,ラベル付きデータを必要としない画像やビデオの単純な視覚トランスフォーマーを訓練できることを実証する。
この単一モデルは、画像とビデオのベンチマークの両方でシングルモダリティ表現に匹敵する、あるいは優れたビジュアル表現を学習し、よりシンプルなアーキテクチャを使用する。
さらに、このモデルは、画像の90%とビデオパッチの95%を削減し、巨大なモデルアーキテクチャの極めて高速なトレーニングを可能にすることで学習することができる。
特に、我々の単一のViT-Hugeモデルでは、ImageNetで86.6%、挑戦的なSomes-v2ビデオベンチマークで75.5%を達成でき、新しい最先端技術が設定できる。 Transformer-based architectures have become competitive across a variety of visual domains, most notably images and videos. While prior work studies these modalities in isolation, having a common architecture suggests that one can train a single unified model for multiple visual modalities. Prior attempts at unified modeling typically use architectures tailored for vision tasks, or obtain worse performance compared to single modality models. In this work, we show that masked autoencoding can be used to train a simple Vision Transformer on images and videos, without requiring any labeled data. This single model learns visual representations that are comparable to or better than single-modality representations on both image and video benchmarks, while using a much simpler architecture. Furthermore, this model can be learned by dropping 90% of the image and 95% of the video patches, enabling extremely fast training of huge model architectures. In particular, we show that our single ViT-Huge model can be finetuned to achieve 86.6% on ImageNet and 75.5% on the challenging Something Something-v2 video benchmark, setting a new state-of-the-art. | 翻訳日:2023-06-01 20:57:18 公開日:2023-05-31 |
# 視覚表現におけるスタイルと内容の単純な切り離し Simple Disentanglement of Style and Content in Visual Representations ( http://arxiv.org/abs/2302.09795v2 ) ライセンス: Link先を確認 | Lilian Ngweta, Subha Maity, Alex Gittens, Yuekai Sun, Mikhail Yurochkin | (参考訳) 解釈可能な特徴を持つ視覚表現、すなわち非絡み合った表現を学習することは難しい問題である。
既存の手法はある程度の成功を示しているが、imagenetのような大規模ビジョンデータセットに適用することは難しい。
本研究では,事前学習した視覚モデルから学習表現の内容とスタイルを分離する簡易な後処理フレームワークを提案する。
事前学習した特徴を,潜在コンテンツとスタイル因子の線形絡み合い結合として確率論的にモデル化し,確率モデルに基づく単純な絡み合いアルゴリズムを開発した。
本手法は,コンテンツとスタイルの特徴を解消し,その効果を実証的に検証する。
我々の後処理機能は、スタイル変化やスタイル関連スプリアス相関による分散シフトが発生すると、ドメインの一般化性能が大幅に向上する。 Learning visual representations with interpretable features, i.e., disentangled representations, remains a challenging problem. Existing methods demonstrate some success but are hard to apply to large-scale vision datasets like ImageNet. In this work, we propose a simple post-processing framework to disentangle content and style in learned representations from pre-trained vision models. We model the pre-trained features probabilistically as linearly entangled combinations of the latent content and style factors and develop a simple disentanglement algorithm based on the probabilistic model. We show that the method provably disentangles content and style features and verify its efficacy empirically. Our post-processed features yield significant domain generalization performance improvements when the distribution shift occurs due to style changes or style-related spurious correlations. | 翻訳日:2023-06-01 20:46:10 公開日:2023-05-31 |
# Attend-and-Excite:テキスト・画像拡散モデルにおける注意に基づく意味指導 Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2301.13826v2 ) ライセンス: Link先を確認 | Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, Daniel Cohen-Or | (参考訳) 最近のテキストから画像への生成モデルは、ターゲットのテキストプロンプトによって誘導される多様で創造的な画像を生成する非並列的な能力を示している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では,公開可能な安定拡散モデルを分析し,モデルが入力プロンプトから1つ以上の被験者を生成できないような破滅的無視の存在を評価する。
さらに、いくつかのケースでは、モデルが属性(例えば色)を対応する主題に正しく結合できないことも分かりました。
これらの障害を緩和するために,我々は,生成画像の忠実性を改善するために,生成過程に短時間で介入することを目的とした生成意味看護(gsn)の概念を導入する。
gsnの注意に基づく定式化(convention-and-excite)を用いることで、テキストプロンプト内のすべての主題トークンに対応するクロスアテンションユニットを洗練し、そのアクティベーションを強化し、モデルにテキストプロンプトで記述されたすべての主題を生成するように促す。
我々のアプローチを代替アプローチと比較し、様々なテキストプロンプトを通して、望ましい概念をより忠実に伝えることを実証する。 Recent text-to-image generative models have demonstrated an unparalleled ability to generate diverse and creative imagery guided by a target text prompt. While revolutionary, current state-of-the-art diffusion models may still fail in generating images that fully convey the semantics in the given text prompt. We analyze the publicly available Stable Diffusion model and assess the existence of catastrophic neglect, where the model fails to generate one or more of the subjects from the input prompt. Moreover, we find that in some cases the model also fails to correctly bind attributes (e.g., colors) to their corresponding subjects. To help mitigate these failure cases, we introduce the concept of Generative Semantic Nursing (GSN), where we seek to intervene in the generative process on the fly during inference time to improve the faithfulness of the generated images. Using an attention-based formulation of GSN, dubbed Attend-and-Excite, we guide the model to refine the cross-attention units to attend to all subject tokens in the text prompt and strengthen - or excite - their activations, encouraging the model to generate all subjects described in the text prompt. We compare our approach to alternative approaches and demonstrate that it conveys the desired concepts more faithfully across a range of text prompts. | 翻訳日:2023-06-01 20:45:57 公開日:2023-05-31 |
# upop:視覚言語トランスフォーマー圧縮のための統一的でプログレッシブなプルーニング UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers ( http://arxiv.org/abs/2301.13741v2 ) ライセンス: Link先を確認 | Dachuan Shi, Chaofan Tao, Ying Jin, Zhendong Yang, Chun Yuan, Jiaqi Wang | (参考訳) 現実世界のデータには膨大なマルチモーダル情報が含まれており、視覚と言語は2つの代表的なモダリティである。
さらに、より重いモデルである \textit{e} も増えている。
\textit{g}。
Transformersは、圧縮をモデル化する研究者の注目を集めている。
しかし、マルチモーダルモデル、特にバイソン言語変換器の圧縮方法はまだ未定である。
本稿では,ユニバーサルビゾン言語トランスフォーマー圧縮フレームワークとして, {textbf{U}nified and \textbf{P}r\textbf{o}gressive \textbf{P}runing (\textbf{\emph{UPop}})を提案する。
1) 圧縮可能なモダリティ及び構造間のプルーニング比の自動割り当てを可能にする原モデルから連続最適化空間内のマルチモーダルサブネットを統一的に探索すること。
2) より高い圧縮率を達成するために探索と再訓練の間の収束を維持するサブネットの段階的な探索と再訓練。
さまざまなタスク、データセット、モデルアーキテクチャの実験は、提案されたUPopフレームワークの有効性と汎用性を示している。
コードはhttps://github.com/sdc17/UPop.comで公開されている。 Real-world data contains a vast amount of multimodal information, among which vision and language are the two most representative modalities. Moreover, increasingly heavier models, \textit{e}.\textit{g}., Transformers, have attracted the attention of researchers to model compression. However, how to compress multimodal models, especially vison-language Transformers, is still under-explored. This paper proposes the \textbf{U}nified and \textbf{P}r\textbf{o}gressive \textbf{P}runing (\textbf{\emph{UPop}}) as a universal vison-language Transformer compression framework, which incorporates 1) unifiedly searching multimodal subnets in a continuous optimization space from the original model, which enables automatic assignment of pruning ratios among compressible modalities and structures; 2) progressively searching and retraining the subnet, which maintains convergence between the search and retrain to attain higher compression ratios. Experiments on various tasks, datasets, and model architectures demonstrate the effectiveness and versatility of the proposed UPop framework. The code is available at https://github.com/sdc17/UPop. | 翻訳日:2023-06-01 20:45:30 公開日:2023-05-31 |
# 私の予測は任意か?
公平な分類における自己一貫性の測定 Is My Prediction Arbitrary? Measuring Self-Consistency in Fair Classification ( http://arxiv.org/abs/2301.11562v3 ) ライセンス: Link先を確認 | A. Feder Cooper, Katherine Lee, Solon Barocas, Christopher De Sa, Siddhartha Sen, Baobao Zhang | (参考訳) 異なる訓練されたモデル間の予測のばらつきは、公平な分類において重要で未熟な誤りの原因である。
経験上、いくつかのインスタンスのばらつきは非常に大きいので、決定を効果的に任意にすることができる。
この問題を研究するため,我々は大規模な実証的研究を行い,4つの総合的な貢献を行った。
1) 偏差から派生した自己整合性と呼ばれる指標を定義し、その指標を任意性の測定及び低減の代用として用いる。
2) 予測が任意である場合に分類を棄却するアンサンブルアルゴリズムを開発する。
3)公平な分類における分散(vis-a-vis自己矛盾と任意性)の役割について、過去最大の実証研究を行い、
4) US Home Mortgage Disclosure Act (HMDA)データセットを将来の研究に容易に利用できるようにするツールキットをリリースする。
その結果,再現性に対する衝撃的な洞察が得られた。
ほとんどの公平性分類ベンチマークは、予測に存在する任意性量を考慮すると、ほぼフェアに近い。
共通フェアネス介入を適用する前に、サブグループエラーレートは似ている Variance in predictions across different trained models is a significant, under-explored source of error in fair classification. Empirically, the variance on some instances is so large that decisions can be effectively arbitrary. To study this problem, we perform a large-scale empirical study and make four overarching contributions: We 1) Define a metric called self-consistency, derived from variance, which we use as a proxy for measuring and reducing arbitrariness; 2) Develop an ensembling algorithm that abstains from classification when a prediction would be arbitrary; 3) Conduct the largest to-date empirical study of the role of variance (vis-a-vis self-consistency and arbitrariness) in fair classification; and, 4) Release a toolkit that makes the US Home Mortgage Disclosure Act (HMDA) datasets easily usable for future research. Altogether, our empirical results reveal shocking insights about reproducibility. Most fairness classification benchmarks are close-to-fair when taking into account the amount of arbitrariness present in predictions. Subgroup error rates are similar before we even try to apply common fairness interventions | 翻訳日:2023-06-01 20:45:10 公開日:2023-05-31 |
# SNeRL:強化学習のための意味認識型ニューラルネットワーク SNeRL: Semantic-aware Neural Radiance Fields for Reinforcement Learning ( http://arxiv.org/abs/2301.11520v3 ) ライセンス: Link先を確認 | Dongseok Shim, Seungjae Lee, H. Jin Kim | (参考訳) 従来の強化学習の表現は、3D環境に対する人間の直感的な理解を効果的に組み込むことができないため、それらは通常、準最適性能に悩まされる。
本稿では,意味認識型ニューラルラディアンスフィールド(NeRF)と畳み込みエンコーダを併用して,多視点画像から3次元認識型ニューラルラディアンスフィールドを学習するセマンティック認識型ニューラルラディアンスフィールド(SNeRL)を提案する。
我々は,NeRFにおけるRGB放射場と平行な3次元意味と蒸留特徴場を導入し,強化学習のための意味と対象中心表現を学習する。
SNeRLは、以前のピクセルベース表現だけでなく、モデルフリーとモデルベース強化学習の両方において、最近の3D対応表現よりも優れている。 As previous representations for reinforcement learning cannot effectively incorporate a human-intuitive understanding of the 3D environment, they usually suffer from sub-optimal performances. In this paper, we present Semantic-aware Neural Radiance Fields for Reinforcement Learning (SNeRL), which jointly optimizes semantic-aware neural radiance fields (NeRF) with a convolutional encoder to learn 3D-aware neural implicit representation from multi-view images. We introduce 3D semantic and distilled feature fields in parallel to the RGB radiance fields in NeRF to learn semantic and object-centric representation for reinforcement learning. SNeRL outperforms not only previous pixel-based representations but also recent 3D-aware representations both in model-free and model-based reinforcement learning. | 翻訳日:2023-06-01 20:44:54 公開日:2023-05-31 |
# 変圧器は勾配降下によって文脈内学習する Transformers learn in-context by gradient descent ( http://arxiv.org/abs/2212.07677v2 ) ライセンス: Link先を確認 | Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, Jo\~ao Sacramento, Alexander Mordvintsev, Andrey Zhmoginov, Max Vladymyrov | (参考訳) 現在,トランスフォーマーにおける文脈内学習のメカニズムはよく理解されておらず,直観がほとんどである。
本稿では,自己回帰目標に対するトランスフォーマーの訓練が,勾配に基づくメタラーニングの定式化と密接に関連していることを示す。
まず、データ変換の等価性を示す単純な重み構造を提供することから始める。
1) 単線自己保持層及びそれによる
2)退行損失に対する勾配日射量(gd)。
この構成により,GD と Transformer が学習したモデルのいずれかが,簡単な回帰作業において自己注意のみの変換器を訓練する場合,最適化によって得られた重みが構成に合致することを示す。
このように、トレーニングされたトランスフォーマーがメザ最適化器となる方法、すなわち、前方通過における勾配降下によるモデル学習方法を示す。
これにより、少なくとも回帰問題の領域では、最適化トランスフォーマーにおけるコンテキスト内学習の内部動作を機械的に理解することができます。
この知見に基づいて,反復曲率補正を学習し,非線形回帰問題を解くために深部データ表現の線形モデルを学ぶことにより,変圧器が平滑勾配降下の性能を乗り越える方法について検討した。
最後に,インコンテクスト学習において重要な機構であるインコンテクスト学習(olsson et al., 2022)の並列性を考察し,トランスフォーマ内の勾配降下学習によるインコンテクスト学習の具体例として理解する方法について述べる。
実験を再現するコードはhttps://github.com/google-research/self-organising-systems/tree/master/transformers_learn_icl_by_gd にある。 At present, the mechanisms of in-context learning in Transformers are not well understood and remain mostly an intuition. In this paper, we suggest that training Transformers on auto-regressive objectives is closely related to gradient-based meta-learning formulations. We start by providing a simple weight construction that shows the equivalence of data transformations induced by 1) a single linear self-attention layer and by 2) gradient-descent (GD) on a regression loss. Motivated by that construction, we show empirically that when training self-attention-only Transformers on simple regression tasks either the models learned by GD and Transformers show great similarity or, remarkably, the weights found by optimization match the construction. Thus we show how trained Transformers become mesa-optimizers i.e. learn models by gradient descent in their forward pass. This allows us, at least in the domain of regression problems, to mechanistically understand the inner workings of in-context learning in optimized Transformers. Building on this insight, we furthermore identify how Transformers surpass the performance of plain gradient descent by learning an iterative curvature correction and learn linear models on deep data representations to solve non-linear regression tasks. Finally, we discuss intriguing parallels to a mechanism identified to be crucial for in-context learning termed induction-head (Olsson et al., 2022) and show how it could be understood as a specific case of in-context learning by gradient descent learning within Transformers. Code to reproduce the experiments can be found at https://github.com/google-research/self-organising-systems/tree/master/transformers_learn_icl_by_gd . | 翻訳日:2023-06-01 20:44:37 公開日:2023-05-31 |
# 安定なアーティスト:拡散ラテント・スペースでセマンティックを操る The Stable Artist: Steering Semantics in Diffusion Latent Space ( http://arxiv.org/abs/2212.06013v3 ) ライセンス: Link先を確認 | Manuel Brack, Patrick Schramowski, Felix Friedrich, Dominik Hintersdorf, Kristian Kersting | (参考訳) テキストコンディショニングによる大規模生成拡散モデルは最近、テキストのみから高精細な画像を生成するという素晴らしい性能で多くの注目を集めている。
しかし、高品質な結果を得ることはほとんど不可能である。
それに対して、テキスト誘導画像生成では、ユーザは、想定された画像を反復的に彫るために、入力にわずかな変更を多く行う。
しかし、入力プロンプトのわずかな変更は、しばしば全く異なる画像が生成されることにつながるため、アーティストの制御はその粒度に制限される。
フレキシビリティを実現するため,画像生成プロセスのきめ細かい制御が可能な画像編集手法であるStable Artistを提案する。
主要なコンポーネントはセマンティックガイダンス(SEGA)であり、セマンティックな方向の変数数に沿って拡散過程を制御している。
これにより、画像の微妙な編集、構成やスタイルの変化、芸術的概念全体の最適化が可能になる。
さらに、SEGAは潜在空間を探索することで、モデルによって学習された概念、例えば「炭素放出」のような複雑な概念の表現についての洞察を得ることができる。
いくつかのタスクで安定したアーティストを示し、高品質な画像編集と構成を示す。 Large, text-conditioned generative diffusion models have recently gained a lot of attention for their impressive performance in generating high-fidelity images from text alone. However, achieving high-quality results is almost unfeasible in a one-shot fashion. On the contrary, text-guided image generation involves the user making many slight changes to inputs in order to iteratively carve out the envisioned image. However, slight changes to the input prompt often lead to entirely different images being generated, and thus the control of the artist is limited in its granularity. To provide flexibility, we present the Stable Artist, an image editing approach enabling fine-grained control of the image generation process. The main component is semantic guidance (SEGA) which steers the diffusion process along variable numbers of semantic directions. This allows for subtle edits to images, changes in composition and style, as well as optimization of the overall artistic conception. Furthermore, SEGA enables probing of latent spaces to gain insights into the representation of concepts learned by the model, even complex ones such as 'carbon emission'. We demonstrate the Stable Artist on several tasks, showcasing high-quality image editing and composition. | 翻訳日:2023-06-01 20:44:07 公開日:2023-05-31 |
# RARR:言語モデルを用いた言語モデルの意味の調査と改訂 RARR: Researching and Revising What Language Models Say, Using Language Models ( http://arxiv.org/abs/2210.08726v3 ) ライセンス: Link先を確認 | Luyu Gao, Zhuyun Dai, Panupong Pasupat, Anthony Chen, Arun Tejasvi Chaganty, Yicheng Fan, Vincent Y. Zhao, Ni Lao, Hongrae Lee, Da-Cheng Juan, Kelvin Guu | (参考訳) 言語モデル(LM)は、少人数の学習、質問応答、推論、ダイアログなど、多くのタスクに優れています。
しかし、時にはサポートされないコンテンツや誤解を招くこともある。
ほとんどのLMには外部の証拠に寄与する機構が組み込まれていないため、ユーザはアウトプットが信頼できるかどうかを容易に判断できない。
近年の次世代モデルの強大な優位性を保ちつつ貢献を可能にするため, RARR(Retrofit Attribution using Research and Revision)を提案する。
1)任意のテキスト生成モデルの出力に対する属性を自動的に発見し、
2) 元の出力を可能な限り保存しながら、出力を修正サポートコンテンツにポスト編集する。
様々な生成タスクにおける最先端のLMの出力に適用すると、RARRは元の入力を以前検討した編集モデルよりもはるかに大きく保ちながら、属性を著しく改善することがわかった。
さらに、RARRの実装には、少数のトレーニング例、大規模な言語モデル、標準的なWeb検索が必要である。 Language models (LMs) now excel at many tasks such as few-shot learning, question answering, reasoning, and dialog. However, they sometimes generate unsupported or misleading content. A user cannot easily determine whether their outputs are trustworthy or not, because most LMs do not have any built-in mechanism for attribution to external evidence. To enable attribution while still preserving all the powerful advantages of recent generation models, we propose RARR (Retrofit Attribution using Research and Revision), a system that 1) automatically finds attribution for the output of any text generation model and 2) post-edits the output to fix unsupported content while preserving the original output as much as possible. When applied to the output of several state-of-the-art LMs on a diverse set of generation tasks, we find that RARR significantly improves attribution while otherwise preserving the original input to a much greater degree than previously explored edit models. Furthermore, the implementation of RARR requires only a handful of training examples, a large language model, and standard web search. | 翻訳日:2023-06-01 20:43:48 公開日:2023-05-31 |
# ヘビー学習を伴うゲームエージェントにおけるクラスターの進化予測 Forecasting Evolution of Clusters in Game Agents with Hebbian Learning ( http://arxiv.org/abs/2209.06904v2 ) ライセンス: Link先を確認 | Beomseok Kang, Saibal Mukhopadhyay | (参考訳) リアルタイム戦略ゲームのような大規模マルチエージェントシステムはエージェントの集団行動によって駆動されることが多い。
例えば、StarCraft IIでは、人間のプレイヤーがエージェントの近くに空間的にグループ化され、相手を倒すためにチームを制御する。
この光では,エージェントのクラスタリングが多エージェント強化学習におけるエージェントの効率的な制御やゲームユーザのためのゲーム分析ツールなど,さまざまな目的で使用されている。
しかし,クラスタリングによって提供される有用な情報にもかかわらず,クラスタレベルでのマルチエージェントシステムのダイナミクスの学習はめったに行われていない。
本稿では,StarCraft IIにおけるクラスタの進化を予測するために,教師なし学習と自己教師付き学習を組み合わせたハイブリッドAIモデルを提案する。
本研究では,クラスタ間モジュールに教師なしのヘビー学習法を開発し,k平均クラスタリングよりも推論時間の複雑度が低いクラスタの可変数を効率的に生成する。
また、長期間のメモリベースの予測モジュールは、クラスタ構成を定義するためにset-to-clusterモジュールによって生成された状態ベクトルを再帰的に予測するように設計されている。
提案モデルを用いて,ゲーム内のクラスタの複雑な動きを予測する実験を行った。 Large multi-agent systems such as real-time strategy games are often driven by collective behavior of agents. For example, in StarCraft II, human players group spatially near agents into a team and control the team to defeat opponents. In this light, clustering the agents in the game has been used for various purposes such as the efficient control of the agents in multi-agent reinforcement learning and game analytic tools for the game users. However, despite the useful information provided by clustering, learning the dynamics of multi-agent systems at a cluster level has been rarely studied yet. In this paper, we present a hybrid AI model that couples unsupervised and self-supervised learning to forecast evolution of the clusters in StarCraft II. We develop an unsupervised Hebbian learning method in a set-to-cluster module to efficiently create a variable number of the clusters with lower inference time complexity than K-means clustering. Also, a long short-term memory based prediction module is designed to recursively forecast state vectors generated by the set-to-cluster module to define cluster configuration. We experimentally demonstrate the proposed model successfully predicts complex movement of the clusters in the game. | 翻訳日:2023-06-01 20:43:17 公開日:2023-05-31 |
# プライバシポリシからの情報抽出への人間によるアプローチ A Human-in-the-Loop Approach for Information Extraction from Privacy Policies under Data Scarcity ( http://arxiv.org/abs/2305.15006v2 ) ライセンス: Link先を確認 | Michael Gebauer, Faraz Maschhur, Nicola Leschke, Elias Gr\"unewald, Frank Pallas | (参考訳) プライバシポリシの機械可読表現は、幅広い新しいプライバシ向上技術、特に透明性向上技術(tets)の扉を開くものである。
このような表現を生成するには、文書化されたプライバシーポリシーから透明性情報を抽出する必要がある。
しかし、それぞれの手動アノテーションと抽出プロセスは手間がかかり、専門家の知識が必要となる。
完全な自動アノテーションに対するアプローチは、プライバシーポリシーの特定の領域における過度に高いエラー率のために、これまで成功していない。
結局、適切な注釈付きプライバシーポリシーの欠如と、各機械可読表現の欠如は、政策認識とデータ対象のインフォームドネスを促進する新しい技術アプローチの開発と確立を永続的に妨げている。
本研究では,ML生成提案と究極的には人間のアノテーション決定を統合したプライバシポリシアノテーションに対するHuman-in-the-Loopアプローチのプロトタイプシステムを提案する。
本稿では,プライバシポリシアノテーションの領域で一般的なデータ不足の制約に特化して,MLに基づく提案システムを提案する。
そこで本研究では,アノテーションプロセスの合理化を図り,ユーザに対して意味のある予測を行う。
さらに,本手法は,本手法が他の法律文書の抽出モデルよりも優れた性能を提供することを示すために,原型的実装を通じて評価する。 Machine-readable representations of privacy policies are door openers for a broad variety of novel privacy-enhancing and, in particular, transparency-enhancing technologies (TETs). In order to generate such representations, transparency information needs to be extracted from written privacy policies. However, respective manual annotation and extraction processes are laborious and require expert knowledge. Approaches for fully automated annotation, in turn, have so far not succeeded due to overly high error rates in the specific domain of privacy policies. In the end, a lack of properly annotated privacy policies and respective machine-readable representations persists and enduringly hinders the development and establishment of novel technical approaches fostering policy perception and data subject informedness. In this work, we present a prototype system for a `Human-in-the-Loop' approach to privacy policy annotation that integrates ML-generated suggestions and ultimately human annotation decisions. We propose an ML-based suggestion system specifically tailored to the constraint of data scarcity prevalent in the domain of privacy policy annotation. On this basis, we provide meaningful predictions to users thereby streamlining the annotation process. Additionally, we also evaluate our approach through a prototypical implementation to show that our ML-based extraction approach provides superior performance over other recently used extraction models for legal documents. | 翻訳日:2023-06-01 20:36:53 公開日:2023-05-31 |
# imagebind: すべてにバインドするための埋め込み空間 ImageBind: One Embedding Space To Bind Them All ( http://arxiv.org/abs/2305.05665v2 ) ライセンス: Link先を確認 | Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra | (参考訳) 本研究では,画像,テキスト,音声,奥行き,熱,およびimuの6種類のデータにまたがるジョイント埋め込みを学ぶためのアプローチであるimagebindを提案する。
このような組込みを訓練するにはペアデータの組み合わせは不要であり,画像ペアデータのみを結合するには十分であることを示す。
ImageBindは、最近の大規模ヴィジュアル言語モデルを活用することができ、画像と自然にペアリングすることで、ゼロショット能力を新しいモダリティに拡張することができる。
クロスモーダル検索、演算によるモダリティの構成、クロスモーダル検出、生成を含む新しい創発的アプリケーションを可能にする。
画像エンコーダの強度により創発的能力は向上し、我々は新たな最先端のゼロショット認識タスクをモダリティ全体にわたって設定し、スペシャリスト教師付きモデルより優れる。
最後に,視覚的タスクと非視覚的タスクの視覚モデルを評価する新しい方法として,ImageBindが有効であることを示す。 We present ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data. We show that all combinations of paired data are not necessary to train such a joint embedding, and only image-paired data is sufficient to bind the modalities together. ImageBind can leverage recent large scale vision-language models, and extends their zero-shot capabilities to new modalities just by using their natural pairing with images. It enables novel emergent applications 'out-of-the-box' including cross-modal retrieval, composing modalities with arithmetic, cross-modal detection and generation. The emergent capabilities improve with the strength of the image encoder and we set a new state-of-the-art on emergent zero-shot recognition tasks across modalities, outperforming specialist supervised models. Finally, we show strong few-shot recognition results outperforming prior work, and that ImageBind serves as a new way to evaluate vision models for visual and non-visual tasks. | 翻訳日:2023-06-01 20:36:32 公開日:2023-05-31 |
# 曲線の精度:データサブポピュレーション間のML性能の非線形相関について Accuracy on the Curve: On the Nonlinear Correlation of ML Performance Between Data Subpopulations ( http://arxiv.org/abs/2305.02995v2 ) ライセンス: Link先を確認 | Weixin Liang, Yining Mao, Yongchan Kwon, Xinyu Yang, James Zou | (参考訳) 多様なデータ分布にわたる機械学習(ML)モデルの性能を理解することは、信頼性の高いアプリケーションにとって極めて重要である。
近年の研究では, 分布内(ID)と分布外(OOD)の相関がほぼ完全であるにもかかわらず, この相関がサブポピュレーションシフトの下でよりニュアンス化されていることが実証されている。
我々は,様々なデータセット,モデル,訓練エポシックの厳密な実験と分析を通じて,OOD性能がサブポピュレーションシフトにおけるID性能と非線形な相関を持つことを実証した。
分布シフト中のモデル性能の線形相関を仮定した先行研究とは対照的に,多数個体群におけるテスト性能と少数個体群における「ムーン形状」相関(放物型上昇曲線)を明らかにした。
この非自明な非線形相関は、モデルアーキテクチャ、ハイパーパラメータ、トレーニング期間、サブポピュレーション間の不均衡にまたがる。
さらに,この「ムーン形状」の非線形性は,トレーニングデータにおけるスプリアス相関の程度に因果的に影響されることがわかった。
制御実験により,トレーニングデータにおけるより強いスプリアス相関が,より非線形な性能相関をもたらすことが示された。
本稿では,この現象の相補的実験および理論的解析を行い,MLの信頼性と公平性について考察する。
本研究は,モデル改善の非線形効果が異なる部分集団のパフォーマンスに与える影響を理解することの重要性を強調し,より公平で責任のある機械学習モデルの開発を知らせる可能性を示す。 Understanding the performance of machine learning (ML) models across diverse data distributions is critically important for reliable applications. Despite recent empirical studies positing a near-perfect linear correlation between in-distribution (ID) and out-of-distribution (OOD) accuracies, we empirically demonstrate that this correlation is more nuanced under subpopulation shifts. Through rigorous experimentation and analysis across a variety of datasets, models, and training epochs, we demonstrate that OOD performance often has a nonlinear correlation with ID performance in subpopulation shifts. Our findings, which contrast previous studies that have posited a linear correlation in model performance during distribution shifts, reveal a "moon shape" correlation (parabolic uptrend curve) between the test performance on the majority subpopulation and the minority subpopulation. This non-trivial nonlinear correlation holds across model architectures, hyperparameters, training durations, and the imbalance between subpopulations. Furthermore, we found that the nonlinearity of this "moon shape" is causally influenced by the degree of spurious correlations in the training data. Our controlled experiments show that stronger spurious correlation in the training data creates more nonlinear performance correlation. We provide complementary experimental and theoretical analyses for this phenomenon, and discuss its implications for ML reliability and fairness. Our work highlights the importance of understanding the nonlinear effects of model improvement on performance in different subpopulations, and has the potential to inform the development of more equitable and responsible machine learning models. | 翻訳日:2023-06-01 20:36:10 公開日:2023-05-31 |
# 逆画像ネットモデルのパラメータ予測に変換器をスケールできるか? Can We Scale Transformers to Predict Parameters of Diverse ImageNet Models? ( http://arxiv.org/abs/2303.04143v2 ) ライセンス: Link先を確認 | Boris Knyazev, Doha Hwang, Simon Lacoste-Julien | (参考訳) 大規模なデータセット上でニューラルネットワークを事前トレーニングすることは、大規模なリソースを持つ少数のコミュニティの手に届く機械学習の基盤になりつつある。
プレトレーニングの民主化という野心的な目標を目指しています。
その目標に向けて、私たちは、他のニューラルネットワークの高品質なイメージネットパラメータを予測できる単一のニューラルネットワークを訓練し、リリースします。
初期化に予測パラメータを使用することで、PyTorchで利用可能なさまざまなImageNetモデルのトレーニングを強化することができます。
他のデータセットに転送されると、予測パラメータで初期化されたモデルもより早く収束し、競合する最終性能に達する。 Pretraining a neural network on a large dataset is becoming a cornerstone in machine learning that is within the reach of only a few communities with large-resources. We aim at an ambitious goal of democratizing pretraining. Towards that goal, we train and release a single neural network that can predict high quality ImageNet parameters of other neural networks. By using predicted parameters for initialization we are able to boost training of diverse ImageNet models available in PyTorch. When transferred to other datasets, models initialized with predicted parameters also converge faster and reach competitive final performance. | 翻訳日:2023-06-01 20:35:24 公開日:2023-05-31 |
# ドロップアウトは不適合を減らす Dropout Reduces Underfitting ( http://arxiv.org/abs/2303.01500v2 ) ライセンス: Link先を確認 | Zhuang Liu, Zhiqiu Xu, Joseph Jin, Zhiqiang Shen, Trevor Darrell | (参考訳) hintonらによって2012年に紹介されたdropoutは、ニューラルネットワークの過剰フィッティングを防ぐためのレギュレータとして、時間テストに耐えてきた。
本研究では,トレーニング開始時に使用した場合,ドロップアウトが不適合を軽減できることを実証する。
初期段階では、ドロップアウトはミニバッチ間の勾配の方向分散を減少させ、データセット全体の勾配とミニバッチ勾配の整合を支援する。
これにより、SGDの確率性に反し、個々のバッチがモデルトレーニングに与える影響を制限することができる。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
早期ドロップアウトを備えたモデルは、ドロップアウトのないモデルに比べて最終トレーニング損失が低い。
さらに、オーバーフィッティングモデルの正則化のための対称的手法として、早期イテレーションではドロップアウトが使用されず、トレーニングの後半でのみアクティブになる、レイトドロップアウトについて検討する。
ImageNetと様々な視覚タスクの実験は,我々の手法が常に一般化精度を向上していることを示す。
その結果,深層学習における正規化の理解に関するさらなる研究が促進され,特に大規模データの時代において,今後のニューラルネットワークトレーニングに有用な手法となることが期待される。
コードはhttps://github.com/facebookresearch/dropoutで入手できる。 Introduced by Hinton et al. in 2012, dropout has stood the test of time as a regularizer for preventing overfitting in neural networks. In this study, we demonstrate that dropout can also mitigate underfitting when used at the start of training. During the early phase, we find dropout reduces the directional variance of gradients across mini-batches and helps align the mini-batch gradients with the entire dataset's gradient. This helps counteract the stochasticity of SGD and limit the influence of individual batches on model training. Our findings lead us to a solution for improving performance in underfitting models - early dropout: dropout is applied only during the initial phases of training, and turned off afterwards. Models equipped with early dropout achieve lower final training loss compared to their counterparts without dropout. Additionally, we explore a symmetric technique for regularizing overfitting models - late dropout, where dropout is not used in the early iterations and is only activated later in training. Experiments on ImageNet and various vision tasks demonstrate that our methods consistently improve generalization accuracy. Our results encourage more research on understanding regularization in deep learning and our methods can be useful tools for future neural network training, especially in the era of large data. Code is available at https://github.com/facebookresearch/dropout. | 翻訳日:2023-06-01 20:35:15 公開日:2023-05-31 |
# 一貫性モデル Consistency Models ( http://arxiv.org/abs/2303.01469v2 ) ライセンス: Link先を確認 | Yang Song, Prafulla Dhariwal, Mark Chen and Ilya Sutskever | (参考訳) 拡散モデルは画像、オーディオ、ビデオ生成の分野を著しく進歩させてきたが、それらは遅い生成を引き起こす反復的なサンプリングプロセスに依存している。
この制限を克服するために、ノイズを直接データにマッピングすることで高品質なサンプルを生成する新しいモデルの一貫性モデルを提案する。
設計による高速なワンステップ生成をサポートするが、マルチステップサンプリングは、サンプル品質のために計算を交換できる。
また、画像インペインティング、カラー化、スーパーレゾリューションなどのゼロショットデータ編集をサポートし、これらのタスクを明示的にトレーニングする必要はない。
一貫性モデルは、事前訓練された拡散モデルを蒸留するか、独立した生成モデルとして訓練することができる。
広範な実験により,1ステップサンプリングで拡散モデルの既存の蒸留法を上回り,cifar-10では3.55,imagenet 64x64では6.20という最新fidを1ステップ生成で達成した。
CIFAR-10、ImageNet 64x64、LSUN 256x256などの標準ベンチマークにおいて、一貫性モデルは既存の一段階の非敵対的生成モデルよりも優れている。 Diffusion models have significantly advanced the fields of image, audio, and video generation, but they depend on an iterative sampling process that causes slow generation. To overcome this limitation, we propose consistency models, a new family of models that generate high quality samples by directly mapping noise to data. They support fast one-step generation by design, while still allowing multistep sampling to trade compute for sample quality. They also support zero-shot data editing, such as image inpainting, colorization, and super-resolution, without requiring explicit training on these tasks. Consistency models can be trained either by distilling pre-trained diffusion models, or as standalone generative models altogether. Through extensive experiments, we demonstrate that they outperform existing distillation techniques for diffusion models in one- and few-step sampling, achieving the new state-of-the-art FID of 3.55 on CIFAR-10 and 6.20 on ImageNet 64x64 for one-step generation. When trained in isolation, consistency models become a new family of generative models that can outperform existing one-step, non-adversarial generative models on standard benchmarks such as CIFAR-10, ImageNet 64x64 and LSUN 256x256. | 翻訳日:2023-06-01 20:34:54 公開日:2023-05-31 |
# IB-RAR:逆ロバスト性のための正則化器としての情報基盤 IB-RAR: Information Bottleneck as Regularizer for Adversarial Robustness ( http://arxiv.org/abs/2302.10896v2 ) ライセンス: Link先を確認 | Xiaoyun Xu, Guilherme Perin, Stjepan Picek | (参考訳) 本稿では, 対人訓練と非対人訓練の両方において, 対人堅牢性を高めるため, 情報ブートネック (IB) を用いた新しい手法 IB-RAR を提案する。
IB理論を用いて、損失関数の学習目的として正規化器を構築する。
IBで訓練されたネットワークは、その特徴に対して容易に識別可能なMIを提供するので、ラベルとの相互情報(MI)に応じて、中間表現の不必要な特徴をフィルタリングする。
実験の結果,本手法はadversarial trainingと自然に組み合わされ,新しいadversarial例において一貫して精度が向上することが示された。
本手法は,vgg16ネットワークの5つの攻撃に対して平均3.07%の精度を向上し,3つの攻撃訓練ベンチマークとcifar-10データセットを用いてトレーニングを行う。
さらに,提案手法は,クロスエントロピー損失のみのトレーニングなど,無防備な手法にも優れたロバスト性を提供する。
最後に、我々の手法を用いてトレーニングされたVGG16ネットワークとCIFAR-10データセットはPGDの例に対して35.86%の精度に達し、すべてのレイヤを使用すると25.61%の精度に達する。 In this paper, we propose a novel method, IB-RAR, which uses Information Bottleneck (IB) to strengthen adversarial robustness for both adversarial training and non-adversarial-trained methods. We first use the IB theory to build regularizers as learning objectives in the loss function. Then, we filter out unnecessary features of intermediate representation according to their mutual information (MI) with labels, as the network trained with IB provides easily distinguishable MI for its features. Experimental results show that our method can be naturally combined with adversarial training and provides consistently better accuracy on new adversarial examples. Our method improves the accuracy by an average of 3.07% against five adversarial attacks for the VGG16 network, trained with three adversarial training benchmarks and the CIFAR-10 dataset. In addition, our method also provides good robustness for undefended methods, such as training with cross-entropy loss only. Finally, in the absence of adversarial training, the VGG16 network trained using our method and the CIFAR-10 dataset reaches an accuracy of 35.86% against PGD examples, while using all layers reaches 25.61% accuracy. | 翻訳日:2023-06-01 20:34:33 公開日:2023-05-31 |
# 3次元トランスを用いたデノイング拡散モデルを用いたMRIからの合成CT生成 Synthetic CT Generation from MRI using 3D Transformer-based Denoising Diffusion Model ( http://arxiv.org/abs/2305.19467v1 ) ライセンス: Link先を確認 | Shaoyan Pan, Elham Abouei, Jacob Wynne, Tonghe Wang, Richard L.J. Qiu, Yuheng Li, Chih-Wei Chang, Junbo Peng, Justin Roper, Pretesh Patel, David S. Yu, Hui Mao and Xiaofeng Yang | (参考訳) mri(mri)ベースの合成ct(sct)は、ctシミュレーションや画像登録の誤りをなくし、最終的に患者の放射線線量と設定の不確かさを低減し、放射線治療の治療計画を単純化する。
本稿では,MRIからCTへの拡散確率モデル(MC-DDPM)を提案し,MRIを高品質なsCTに変換し,放射線治療計画を容易にする。
mc-ddpmはmriからsctを生成するためにシフトウィンドウトランスフォーマネットワークで拡散プロセスを実装する。
提案手法は, 現実のCTスキャンにガウスノイズを付加する前処理と, シフトウインドウトランスフォーマーV-ネット(Swin-Vnet)が同一患者からMRIに条件付きノイズCTスキャンを分解してノイズのないCTスキャンを生成する逆処理の2つのプロセスからなる。
最適なトレーニングを施したSwin-Vnetを用いて,MRI解剖に適合するsCTスキャンを逆拡散法で生成した。
脳データセットと前立腺データセットからmriからsctを生成することにより,提案手法を評価した。
hounsfield unit (hu) の平均絶対誤差 (mae) , peak signal to noise ratio (psnr), multi-scale structure similarity index (ms-ssim) および normalized cross correlation (ncc) index を用いて定性評価を行った。
MC-DDPMは、MAE 43.317 HU、PSNR 27.046 dB、SSIM 0.965、NCC 0.983による最先端の定量的結果を持つ脳sCTを生成する。
前立腺のデータセットでは、MC-DDPMはMAE 59.953 HU、PSNR 26.920 dB、SSIM 0.849、NCC 0.948を達成した。
そこで本研究では,変圧器を用いたDDPMを用いたMRI画像からCT画像を生成する手法を開発した。
このモデルは、CTとMRIの複雑な関係を効果的に捉え、堅牢で高品質な合成CT(sCT)画像を数分で生成することができる。 Magnetic resonance imaging (MRI)-based synthetic computed tomography (sCT) simplifies radiation therapy treatment planning by eliminating the need for CT simulation and error-prone image registration, ultimately reducing patient radiation dose and setup uncertainty. We propose an MRI-to-CT transformer-based denoising diffusion probabilistic model (MC-DDPM) to transform MRI into high-quality sCT to facilitate radiation treatment planning. MC-DDPM implements diffusion processes with a shifted-window transformer network to generate sCT from MRI. The proposed model consists of two processes: a forward process which adds Gaussian noise to real CT scans, and a reverse process in which a shifted-window transformer V-net (Swin-Vnet) denoises the noisy CT scans conditioned on the MRI from the same patient to produce noise-free CT scans. With an optimally trained Swin-Vnet, the reverse diffusion process was used to generate sCT scans matching MRI anatomy. We evaluated the proposed method by generating sCT from MRI on a brain dataset and a prostate dataset. Qualitative evaluation was performed using the mean absolute error (MAE) of Hounsfield unit (HU), peak signal to noise ratio (PSNR), multi-scale Structure Similarity index (MS-SSIM) and normalized cross correlation (NCC) indexes between ground truth CTs and sCTs. MC-DDPM generated brain sCTs with state-of-the-art quantitative results with MAE 43.317 HU, PSNR 27.046 dB, SSIM 0.965, and NCC 0.983. For the prostate dataset, MC-DDPM achieved MAE 59.953 HU, PSNR 26.920 dB, SSIM 0.849, and NCC 0.948. In conclusion, we have developed and validated a novel approach for generating CT images from routine MRIs using a transformer-based DDPM. This model effectively captures the complex relationship between CT and MRI images, allowing for robust and high-quality synthetic CT (sCT) images to be generated in minutes. | 翻訳日:2023-06-01 19:20:01 公開日:2023-05-31 |
# 変圧器の長大化に及ぼす位置符号化の影響 The Impact of Positional Encoding on Length Generalization in Transformers ( http://arxiv.org/abs/2305.19466v1 ) ライセンス: Link先を確認 | Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy | (参考訳) 長さ一般化(long generalization)は、小さなトレーニングコンテキストからより大きなものに一般化する能力であり、トランスフォーマーベースの言語モデルの開発において重要な課題である。
位置符号化(PE)は長さ一般化に影響を及ぼす主要な要因とされているが、下流タスクにおける外挿に対する異なるPEスキームの正確な影響は明らかでない。
本稿では, 絶対位置埋め込み (APE) , T5 の相対 PE, ALiBi, Rotary を含む5つの異なる位置符号化アプローチを用いたデコーダのみの変換器の長さ一般化性能の比較実験を行い, 位置符号化 (NoPE) のない変換器について検討した。
我々の評価は、推論と数学的タスクのバッテリーを含む。
その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
さらに重要なことは、NoPEは他の明示的な位置符号化手法よりも優れており、追加の計算は不要である。
理論的には、NPEは絶対的かつ相対的なPEの両方を表現できるが、SGDで訓練すると、T5の相対的なPE注意パターンにほとんど似ている。
最後に、スクラッチパッドは必ずしも長さの一般化を解くのに役立ちませんし、そのフォーマットがモデルの性能に大きな影響を与えます。
全体としては,デコーダのみのトランスフォーマーがより長いシーケンスをうまく一般化するためには,明示的な位置埋め込みが不可欠ではないことを示唆している。 Length generalization, the ability to generalize from small training context sizes to larger ones, is a critical challenge in the development of Transformer-based language models. Positional encoding (PE) has been identified as a major factor influencing length generalization, but the exact impact of different PE schemes on extrapolation in downstream tasks remains unclear. In this paper, we conduct a systematic empirical study comparing the length generalization performance of decoder-only Transformers with five different position encoding approaches including Absolute Position Embedding (APE), T5's Relative PE, ALiBi, and Rotary, in addition to Transformers without positional encoding (NoPE). Our evaluation encompasses a battery of reasoning and mathematical tasks. Our findings reveal that the most commonly used positional encoding methods, such as ALiBi, Rotary, and APE, are not well suited for length generalization in downstream tasks. More importantly, NoPE outperforms other explicit positional encoding methods while requiring no additional computation. We theoretically demonstrate that NoPE can represent both absolute and relative PEs, but when trained with SGD, it mostly resembles T5's relative PE attention patterns. Finally, we find that scratchpad is not always helpful to solve length generalization and its format highly impacts the model's performance. Overall, our work suggests that explicit position embeddings are not essential for decoder-only Transformers to generalize well to longer sequences. | 翻訳日:2023-06-01 19:19:19 公開日:2023-05-31 |
# プライバシ保証による適応的偽発見率制御 Adaptive False Discovery Rate Control with Privacy Guarantee ( http://arxiv.org/abs/2305.19482v1 ) ライセンス: Link先を確認 | Xintao Xia and Zhanrui Cai | (参考訳) 異なるプライベートな複数のテスト手順は、仮説テストで使用される個人の情報を保護すると同時に、わずかな偽の発見を保証する。
本稿では,dwork et al. (2021) で提案されている微分プライベートなbenjamini-hochberg法と比較して,プライバシ保証を伴うユーザ指定レベル$\alpha$で,従来のfdrメトリックを正確に制御できる微分プライベート適応fdr制御法を提案する。
私たちの分析は2つの重要な洞察に基づいている。
1)プライバシとミラー保守性の両方を保持する新規なp値変換と,
2) 最適停止法のフィルタ構築と適用が可能なミラー剥離アルゴリズムについて検討した。
数値実験により,DP-AdaPTは既存の差分プライベートFDR制御法よりも優れた性能を示した。
非プライベート適応と比較して、精度の低下は少ないが、計算コストは大幅に削減される。 Differentially private multiple testing procedures can protect the information of individuals used in hypothesis tests while guaranteeing a small fraction of false discoveries. In this paper, we propose a differentially private adaptive FDR control method that can control the classic FDR metric exactly at a user-specified level $\alpha$ with privacy guarantee, which is a non-trivial improvement compared to the differentially private Benjamini-Hochberg method proposed in Dwork et al. (2021). Our analysis is based on two key insights: 1) a novel p-value transformation that preserves both privacy and the mirror conservative property, and 2) a mirror peeling algorithm that allows the construction of the filtration and application of the optimal stopping technique. Numerical studies demonstrate that the proposed DP-AdaPT performs better compared to the existing differentially private FDR control methods. Compared to the non-private AdaPT, it incurs a small accuracy loss but significantly reduces the computation cost. | 翻訳日:2023-06-01 19:08:33 公開日:2023-05-31 |
# 時間内2次元骨格配列のアライメントによる学習 Learning by Aligning 2D Skeleton Sequences in Time ( http://arxiv.org/abs/2305.19480v1 ) ライセンス: Link先を確認 | Quoc-Huy Tran, Muhammad Ahmed, Ahmed Mehmood, M. Hassan Ahmed, Murad Popattia, Andrey Konin, M. Zeeshan Zia | (参考訳) 本稿では,人間の活動を理解する上で有用な,新しい自己教師付き時間的映像アライメントフレームワークを提案する。
CASAの最先端手法とは対照的に、3Dスケルトン座標のシーケンスを直接入力として取り込む場合、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。
2次元スケルトンヒートマップを与えられた場合,空間領域と時間領域に自己接触を行うビデオトランスフォーマーを用いて,有効時空間的・文脈的特徴を抽出する。
さらに,自己教師型学習のための2次元骨格に基づく簡易なヒートマップ拡張手法を提案する。
3D情報の欠如にもかかわらず,本手法はCASAよりも高い精度だけでなく,欠落したキーポイントに対する堅牢性も向上する。
本研究では,Penn Action,IKEA ASM,H2Oの3つの公開データセットに対する広範囲な評価を行い,より詳細な人間の活動理解タスク,すなわち位相分類,位相進行,ビデオアライメント,微粒化フレーム検索において,従来の手法よりも優れていることを示した。 This paper presents a novel self-supervised temporal video alignment framework which is useful for several fine-grained human activity understanding applications. In contrast with the state-of-the-art method of CASA, where sequences of 3D skeleton coordinates are taken directly as input, our key idea is to use sequences of 2D skeleton heatmaps as input. Given 2D skeleton heatmaps, we utilize a video transformer which performs self-attention in the spatial and temporal domains for extracting effective spatiotemporal and contextual features. In addition, we introduce simple heatmap augmentation techniques based on 2D skeletons for self-supervised learning. Despite the lack of 3D information, our approach achieves not only higher accuracy but also better robustness against missing and noisy keypoints than CASA. Extensive evaluations on three public datasets, i.e., Penn Action, IKEA ASM, and H2O, demonstrate that our approach outperforms previous methods in different fine-grained human activity understanding tasks, i.e., phase classification, phase progression, video alignment, and fine-grained frame retrieval. | 翻訳日:2023-06-01 19:08:16 公開日:2023-05-31 |
# 教師なしフレーム対セグメントアライメントによる順列認識アクションセグメンテーション Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment ( http://arxiv.org/abs/2305.19478v1 ) ライセンス: Link先を確認 | Quoc-Huy Tran, Ahmed Mehmood, Muhammad Ahmed, Muhammad Naufil, Anas Zafar, Andrey Konin, M. Zeeshan Zia | (参考訳) 本稿では,フレームレベルのキューだけでなくセグメントレベルのキューも活用した,教師なしアクティビティセグメンテーションのためのトランスフォーマティブベースフレームワークを提案する。
これは、フレームレベルの情報のみに依存する従来の方法とは対照的である。
我々のアプローチは、トランスフォーマーエンコーダを介してフレームワイズアクションクラスを推定するフレームレベル予測モジュールから始まる。
フレームレベルの予測モジュールは、時間的最適輸送を介して教師なしの方法で訓練される。
セグメントレベル情報を利用するため,セグメントレベル予測モジュールとフレーム間アライメントモジュールを導入する。
前者はビデオの書き起こしを推定するトランスデコーダを含み、後者はフレームレベルの特徴とセグメントレベルの特徴をマッチさせ、順列対応のセグメンテーション結果が得られる。
さらに,時間的最適移動に触発されて,上述のモジュールの教師なし学習のための単純イット有効擬似ラベルを開発した。
4つのパブリックデータセット、すなわち50のサラダ、youtubeのインストラクション、朝食、デスクトップアセンブリの実験では、教師なしアクティビティセグメンテーションにおける従来の方法と同等あるいは優れたパフォーマンスを達成しています。 This paper presents a novel transformer-based framework for unsupervised activity segmentation which leverages not only frame-level cues but also segment-level cues. This is in contrast with previous methods which often rely on frame-level information only. Our approach begins with a frame-level prediction module which estimates framewise action classes via a transformer encoder. The frame-level prediction module is trained in an unsupervised manner via temporal optimal transport. To exploit segment-level information, we introduce a segment-level prediction module and a frame-to-segment alignment module. The former includes a transformer decoder for estimating video transcripts, while the latter matches frame-level features with segment-level features, yielding permutation-aware segmentation results. Moreover, inspired by temporal optimal transport, we develop simple-yet-effective pseudo labels for unsupervised training of the above modules. Our experiments on four public datasets, i.e., 50 Salads, YouTube Instructions, Breakfast, and Desktop Assembly show that our approach achieves comparable or better performance than previous methods in unsupervised activity segmentation. | 翻訳日:2023-06-01 19:07:55 公開日:2023-05-31 |
# 価値条件エントロピー探索による強化学習の促進 Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration ( http://arxiv.org/abs/2305.19476v1 ) ライセンス: Link先を確認 | Dongyoung Kim, Jinwoo Shin, Pieter Abbeel, Younggyo Seo | (参考訳) 探索のための有望な技術は、訪問状態空間の均一なカバレッジを奨励することによって、訪問状態分布のエントロピー、すなわち状態エントロピーの最大化である。
教師なしのセットアップでは有効だが、エージェントがタスク報酬を利用するために高価値の状態を訪問することを好んだ場合、タスク報酬を伴う教師付きセットアップで苦労する傾向がある。
このような選好は、分布がより均一になったときに増加する状態エントロピーの結果、低値状態領域への探索をバイアスする高値状態と低値状態の分布の不均衡を引き起こす。
この問題は、高値状態が状態空間内で狭く分散している場合に悪化し、エージェントがタスクを完了するのが難しくなる。
本稿では,各状態の値推定に基づく状態エントロピーを別々に推定し,その平均を最大化する,価値条件状態エントロピーを最大化する新しい探索手法を提案する。
本手法は,類似した値推定値を持つ訪問状態の固有ボーナス計算のみを考慮すれば,低値状態の分布が高値状態の探索に影響を与えることを防ぎ,その逆も防止できる。
提案手法は,MiniGrid,DeepMind Control Suite,Meta-Worldベンチマークの各タスクにおける各種強化学習アルゴリズムを,状態エントロピーベースラインの代替として大幅に高速化することを示す。
ソースコードはhttps://sites.google.com/view/rl-vcseで入手できる。 A promising technique for exploration is to maximize the entropy of visited state distribution, i.e., state entropy, by encouraging uniform coverage of visited state space. While it has been effective for an unsupervised setup, it tends to struggle in a supervised setup with a task reward, where an agent prefers to visit high-value states to exploit the task reward. Such a preference can cause an imbalance between the distributions of high-value states and low-value states, which biases exploration towards low-value state regions as a result of the state entropy increasing when the distribution becomes more uniform. This issue is exacerbated when high-value states are narrowly distributed within the state space, making it difficult for the agent to complete the tasks. In this paper, we present a novel exploration technique that maximizes the value-conditional state entropy, which separately estimates the state entropies that are conditioned on the value estimates of each state, then maximizes their average. By only considering the visited states with similar value estimates for computing the intrinsic bonus, our method prevents the distribution of low-value states from affecting exploration around high-value states, and vice versa. We demonstrate that the proposed alternative to the state entropy baseline significantly accelerates various reinforcement learning algorithms across a variety of tasks within MiniGrid, DeepMind Control Suite, and Meta-World benchmarks. Source code is available at https://sites.google.com/view/rl-vcse. | 翻訳日:2023-06-01 19:07:32 公開日:2023-05-31 |
# 二重制約のフェアクラスタリング Doubly Constrained Fair Clustering ( http://arxiv.org/abs/2305.19475v1 ) ライセンス: Link先を確認 | John Dickerson, Seyed A. Esmaeili, Jamie Morgenstern, Claire Jie Zhang | (参考訳) フェアクラスタリングが過去数年間に受けた顕著な注目は、フェアネスというかなりの数の異なる概念をもたらした。
これらの概念は正当であるにもかかわらず、しばしばモチベーションを得て研究され、一方の公平さが他方から排他的に排他的に考慮される不合理な方法で研究される。
これは、フェアクラスタリングにおいて、異なるフェアネス概念間の関係を重要なオープン問題として理解している。
本稿では、この方向への第一歩を踏み出します。
具体的には,(1)集団フェアネス (gf) と(2)センター選択における多様性 (ds) ,(2)選択されたセンターがそれぞれの集団の人口レベル表現に近いと想定されるグループフェアネス (gf) の2つについて考察する。
1つの制約(gfまたはdsのみ)に対する定数近似アルゴリズムが与えられると、両方の制約を同時に満たす定数近似解が得られる。
興味深いことに、GF制約を満たす任意の解は、逆が真でない間にDS制約を付加的に満たすために、常にクラスタリングコストに対する有界分解で後処理できる。
さらに, gf と ds は相容れない(最悪の場合には空集合となる)ことを示し, 他の距離を基準としたフェアネス概念の集まりと比較した。
最後に、理論的な結果を検証する実験を行う。 The remarkable attention which fair clustering has received in the last few years has resulted in a significant number of different notions of fairness. Despite the fact that these notions are well-justified, they are often motivated and studied in a disjoint manner where one fairness desideratum is considered exclusively in isolation from the others. This leaves the understanding of the relations between different fairness notions as an important open problem in fair clustering. In this paper, we take the first step in this direction. Specifically, we consider the two most prominent demographic representation fairness notions in clustering: (1) Group Fairness (GF), where the different demographic groups are supposed to have close to population-level representation in each cluster and (2) Diversity in Center Selection (DS), where the selected centers are supposed to have close to population-level representation of each group. We show that given a constant approximation algorithm for one constraint (GF or DS only) we can obtain a constant approximation solution that satisfies both constraints simultaneously. Interestingly, we prove that any given solution that satisfies the GF constraint can always be post-processed at a bounded degradation to the clustering cost to additionally satisfy the DS constraint while the reverse is not true. Furthermore, we show that both GF and DS are incompatible (having an empty feasibility set in the worst case) with a collection of other distance-based fairness notions. Finally, we carry experiments to validate our theoretical findings. | 翻訳日:2023-06-01 19:07:05 公開日:2023-05-31 |
# 内在言語機械翻訳の倫理的考察:話者に声を与える Ethical Considerations for Machine Translation of Indigenous Languages: Giving a Voice to the Speakers ( http://arxiv.org/abs/2305.19474v1 ) ライセンス: Link先を確認 | Manuel Mager, Elisabeth Mager, Katharina Kann, Ngoc Thang Vu | (参考訳) 近年、高リソース言語ペアでは機械翻訳が非常に成功している。
これはまた、インディネイティブ言語を含む低リソース言語の自動翻訳の研究に新たな関心を喚起した。
しかし後者は、それらについて話す(または話すのに使用される)民族や文化グループと深く関係している。
データ収集、モデリング、機械翻訳システムのデプロイにより、対処しなければならない新たな倫理的問題が発生する。
そこで我々はまず,既存の文献の文書化,翻訳,一般自然言語処理に関する倫理的考察について調査した。
その後,我々は,言語の自動翻訳に関する倫理的懸念について,コミュニティリーダー,教師,言語活動家の立場に光を当てるために,インタビュー研究を実施し,分析する。
以上の結果から,母語話者とコミュニティメンバの包摂性は,先住民言語に関するより優れた倫理的な研究に不可欠であることが示唆された。 In recent years machine translation has become very successful for high-resource language pairs. This has also sparked new interest in research on the automatic translation of low-resource languages, including Indigenous languages. However, the latter are deeply related to the ethnic and cultural groups that speak (or used to speak) them. The data collection, modeling and deploying machine translation systems thus result in new ethical questions that must be addressed. Motivated by this, we first survey the existing literature on ethical considerations for the documentation, translation, and general natural language processing for Indigenous languages. Afterward, we conduct and analyze an interview study to shed light on the positions of community leaders, teachers, and language activists regarding ethical concerns for the automatic translation of their languages. Our results show that the inclusion, at different degrees, of native speakers and community members is vital to performing better and more ethical research on Indigenous languages. | 翻訳日:2023-06-01 19:06:41 公開日:2023-05-31 |
# log-concave マルコフ鎖の鎖 Chain of Log-Concave Markov Chains ( http://arxiv.org/abs/2305.19473v1 ) ライセンス: Link先を確認 | Saeed Saremi, Ji Won Park, Francis Bach | (参考訳) マルコフ連鎖モンテカルロ(MCMC)は、非正規化密度からサンプリングする汎用アルゴリズムのクラスである。
mcmcに直面する高次元の問題は2つある。
(i)利息分布は、確率質量の少ない大領域で区切られたポケットに集中し、
(ii)ログコンケーブのポケット自体は通常不調である。
我々は, 等方性ガウス平滑化を用いてこの問題に取り組むための枠組みを提案する。
密度(密度に関する最小の仮定)から、ノイズレベルの等しいノイズ測定値の蓄積による対数凸条件密度からのサンプリング列へと、常にサンプリングを分解できることを実証する。
この構造はサンプルの履歴を追跡し、全体としてはマルコフ的ではないが、その履歴は経験的平均の形でしか現れず、メモリフットプリントは最小限に抑えられている。
このサンプリングアルゴリズムはウォークジャンプサンプリングを一般化する[1]。
ウォーク」フェーズはログコンケーブランジュバン鎖の(非マルコフ的)連鎖となる。
累積測定からの「ジャンプ」は経験的ベイズによって得られる。
2-wassersteinメトリックを用いてサンプリングアルゴリズムを定量的に検討し,様々なランジュバンmcmcアルゴリズムと比較した。
また,分布のモード間を"トンネル"するアルゴリズムの著明な性能について報告する。 Markov chain Monte Carlo (MCMC) is a class of general-purpose algorithms for sampling from unnormalized densities. There are two well-known problems facing MCMC in high dimensions: (i) The distributions of interest are concentrated in pockets separated by large regions with small probability mass, and (ii) The log-concave pockets themselves are typically ill-conditioned. We introduce a framework to tackle these problems using isotropic Gaussian smoothing. We prove one can always decompose sampling from a density (minimal assumptions made on the density) into a sequence of sampling from log-concave conditional densities via accumulation of noisy measurements with equal noise levels. This construction keeps track of a history of samples, making it non-Markovian as a whole, but the history only shows up in the form of an empirical mean, making the memory footprint minimal. Our sampling algorithm generalizes walk-jump sampling [1]. The "walk" phase becomes a (non-Markovian) chain of log-concave Langevin chains. The "jump" from the accumulated measurements is obtained by empirical Bayes. We study our sampling algorithm quantitatively using the 2-Wasserstein metric and compare it with various Langevin MCMC algorithms. We also report a remarkable capacity of our algorithm to "tunnel" between modes of a distribution. | 翻訳日:2023-06-01 19:06:28 公開日:2023-05-31 |
# PlaSma:(企業)計画のための手続き的知識モデルを改善するための小さな言語モデル PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning ( http://arxiv.org/abs/2305.19472v1 ) ライセンス: Link先を確認 | Faeze Brahman, Chandra Bhagavatula, Valentina Pyatkin, Jena D. Hwang, Xiang Lorraine Li, Hirona J. Arai, Soumya Sanyal, Keisuke Sakaguchi, Xiang Ren, Yejin Choi | (参考訳) 高レベルの目標を時間的に順序付けられた一連のステップに分解する手続き的計画は、マシンにとって重要で複雑な作業である。
これは「電話なしで医師の予約をスケジュールする」など、しばしば事実に反する複雑な状況についての推論に常識的な知識を統合することである。
現在のアプローチでは、大きな言語モデル(LLM)を使用して結果を奨励しているが、コストのかかるAPI呼び出しや再現性の問題といった欠点によって妨げられている。
本稿では,より小さな言語モデルを用いたプランニングを提唱する。
手続き的知識と(非現実的な)計画能力を備えた小型言語モデルを実現するための,新しい2段階のアプローチであるPlasmaを提案する。
より具体的には,小言語モデルにおける暗黙的知識を高めるための記号的手続き的知識蒸留法と,より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。
さらに, 対実的状況に対応するための計画の見直しを必要とする, 対実的計画という新たな課題を導入する。
原型モデルと対物モデルの両方において、770M-11Bパラメータのオーダーが、より大きな教師モデルの能力を競い、しばしば超えることを示す。 Procedural planning, which entails decomposing a high-level goal into a sequence of temporally ordered steps, is an important yet intricate task for machines. It involves integrating common-sense knowledge to reason about complex contextualized situations that are often counterfactual, e.g. "scheduling a doctor's appointment without a phone". While current approaches show encouraging results using large language models (LLMs), they are hindered by drawbacks such as costly API calls and reproducibility issues. In this paper, we advocate planning using smaller language models. We present PlaSma, a novel two-pronged approach to endow small language models with procedural knowledge and (counterfactual) planning capabilities. More concretely, we develop symbolic procedural knowledge distillation to enhance the implicit knowledge in small language models and an inference-time algorithm to facilitate more structured and accurate reasoning. In addition, we introduce a novel task, Counterfactual Planning, that requires a revision of a plan to cope with a counterfactual situation. In both the original and counterfactual setting, we show that orders-of-magnitude smaller models (770M-11B parameters) can compete and often surpass their larger teacher models' capabilities. | 翻訳日:2023-06-01 19:06:11 公開日:2023-05-31 |
# Johnson-Lindenstrauss行列によるラベル埋め込み Label Embedding by Johnson-Lindenstrauss Matrices ( http://arxiv.org/abs/2305.19470v1 ) ライセンス: Link先を確認 | Jianxin Zhang and Clayton Scott | (参考訳) Johnson-Lindenstrauss matrices (JLMs) に基づく超多クラス分類のためのシンプルでスケーラブルなフレームワークを提案する。
JLMの列を使ってラベルを埋め込むと、$C$クラスの分類問題は$\cO(\log C)$出力次元の回帰問題に変換される。
計算効率と予測精度のトレードオフを明らかにする過大なリスクバウンダリを導出し,マッサートノイズ条件下では次元減少のペナルティがなくなることを示す。
私たちのアプローチは容易に並列化でき、実験結果は大規模アプリケーションにおけるその効果と拡張性を示しています。 We present a simple and scalable framework for extreme multiclass classification based on Johnson-Lindenstrauss matrices (JLMs). Using the columns of a JLM to embed the labels, a $C$-class classification problem is transformed into a regression problem with $\cO(\log C)$ output dimension. We derive an excess risk bound, revealing a tradeoff between computational efficiency and prediction accuracy, and further show that under the Massart noise condition, the penalty for dimension reduction vanishes. Our approach is easily parallelizable, and experimental results demonstrate its effectiveness and scalability in large-scale applications. | 翻訳日:2023-06-01 19:05:49 公開日:2023-05-31 |
# FPGA上の複数層自由オンライントレイン型スパイクニューラルネットワークの効率的な実装 Efficient Implementation of a Multi-Layer Gradient-Free Online-Trainable Spiking Neural Network on FPGA ( http://arxiv.org/abs/2305.19468v1 ) ライセンス: Link先を確認 | Ali Mehrabi, Yeshwanth Bethi, Andr\'e van Schaik, Andrew Wabnitz, Saeed Afshar | (参考訳) 本稿では,最近提案されたOptimized Deep Event-driven Spiking Neural Network Architecture (ODESA)のハードウェア実装について述べる。
ODESAは、勾配を使わずに、エンド・ツー・エンドの多層オンラインローカル教師ありトレーニングを行い、効率的な階層構造で重みと閾値を併用した最初のネットワークである。
本研究は,ネットワークアーキテクチャと重みとしきい値のオンライントレーニングを,大規模ハードウェア上で効率的に実施可能であることを示す。
実装は多層スパイキングニューラルネットワーク(snn)と個々のトレーニングモジュールで構成されており、バックプロパゲーションを使わずにオンラインの自己学習を可能にする。
単純な局所適応選択しきい値、各層に対するウィナー・テイク・オール(wta)制約、およびハードウェアに適した修正重量更新ルールを用いることで、トレーナーモジュールは、層間で高い精度の誤差測定を通すことなく、各層で最適な神経細胞資源を割り当てる。
トレーニングモジュールを含むシステム内のすべての要素は、イベントベースのバイナリスパイクを使って対話する。
ハードウェア最適化実装は、ハードウェア要件を著しく低減した複数の時空間分類問題に対して、元のアルゴリズムの性能を維持する。 This paper presents an efficient hardware implementation of the recently proposed Optimized Deep Event-driven Spiking Neural Network Architecture (ODESA). ODESA is the first network to have end-to-end multi-layer online local supervised training without using gradients and has the combined adaptation of weights and thresholds in an efficient hierarchical structure. This research shows that the network architecture and the online training of weights and thresholds can be implemented efficiently on a large scale in hardware. The implementation consists of a multi-layer Spiking Neural Network (SNN) and individual training modules for each layer that enable online self-learning without using back-propagation. By using simple local adaptive selection thresholds, a Winner-Takes-All (WTA) constraint on each layer, and a modified weight update rule that is more amenable to hardware, the trainer module allocates neuronal resources optimally at each layer without having to pass high-precision error measurements across layers. All elements in the system, including the training module, interact using event-based binary spikes. The hardware-optimized implementation is shown to preserve the performance of the original algorithm across multiple spatial-temporal classification problems with significantly reduced hardware requirements. | 翻訳日:2023-06-01 19:05:38 公開日:2023-05-31 |
# m3icro:プログラム可能なマルチモード干渉に基づく機械学習対応コンパクトフォトニックテンソルコア M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference ( http://arxiv.org/abs/2305.19505v1 ) ライセンス: Link先を確認 | Jiaqi Gu, Hanqing Zhu, Chenghao Feng, Zixuan Jiang, Ray T. Chen, David Z. Pan | (参考訳) フォトニックコンピューティングは、超高速、大規模な並列処理、高エネルギー効率を提供する機械学習(ML)アクセラレーションの変革的な進歩を約束している。
しかし、標準光学部品に基づく現在のフォトニックテンソルコア(PTC)は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
そこで我々は,M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
プログラム可能なMOMMIは、本質的な光伝搬原理を活用し、デバイス毎の1つの乗算(MAC)演算の従来の計算パラダイムを超えて、単一デバイスでプログラム可能な行列ユニットを提供する。
時間のかかるシミュレーションを必要とするカスタマイズされたデバイスの最適化の難しさを克服するため、光学系にMLを適用してデバイス挙動を予測し、異なる最適化フローを実現する。
我々は、カスタマイズされたPTCの再構成可能性と行列表現性を徹底的に検討し、複素数値PSCの計算能力を完全に活用するブロック展開手法を導入する。
大規模な評価の結果、M3ICROは3.4-9.6倍のフットプリント、1.6-4.4倍の高速、10.6-42倍の計算密度、3.7-12倍のシステムスループット、最先端のコヒーレントPSC設計よりも優れたノイズ堅牢性を達成し、MLベンチマーク間の密接なタスク精度を維持した。
私たちのコードはhttps://github.com/JeremieMelo/M3ICRO-MOMMIでオープンソース化されています。 Photonic computing shows promise for transformative advancements in machine learning (ML) acceleration, offering ultra-fast speed, massive parallelism, and high energy efficiency. However, current photonic tensor core (PTC) designs based on standard optical components hinder scalability and compute density due to their large spatial footprint. To address this, we propose an ultra-compact PTC using customized programmable multi-operand multimode interference (MOMMI) devices, named M3ICRO. The programmable MOMMI leverages the intrinsic light propagation principle, providing a single-device programmable matrix unit beyond the conventional computing paradigm of one multiply-accumulate (MAC) operation per device. To overcome the optimization difficulty of customized devices that often requires time-consuming simulation, we apply ML for optics to predict the device behavior and enable a differentiable optimization flow. We thoroughly investigate the reconfigurability and matrix expressivity of our customized PTC, and introduce a novel block unfolding method to fully exploit the computing capabilities of a complex-valued PTC for near-universal real-valued linear transformations. Extensive evaluations demonstrate that M3ICRO achieves a 3.4-9.6x smaller footprint, 1.6-4.4x higher speed, 10.6-42x higher compute density, 3.7-12x higher system throughput, and superior noise robustness compared to state-of-the-art coherent PTC designs, while maintaining close-to-digital task accuracy across various ML benchmarks. Our code is open-sourced at https://github.com/JeremieMelo/M3ICRO-MOMMI. | 翻訳日:2023-06-01 19:00:31 公開日:2023-05-31 |
# 半教師付きノード分類のためのグラフエントロピー最小化 Graph Entropy Minimization for Semi-supervised Node Classification ( http://arxiv.org/abs/2305.19502v1 ) ライセンス: Link先を確認 | Yi Luo, Guangchun Luo, Ke Qin, Aiguo Chen | (参考訳) 予測エラー、トレーニングリソース、業界における推論遅延を包括的に削減するために、ノード分類器が必要である。
しかし、ほとんどのグラフニューラルネットワーク(GNN)は1つまたは2つだけに集中している。
このように妥協された側面は、バケット上の最短ボードであり、産業レベルのタスクへの実践的な展開を妨げる。
本研究は,3つの課題を同時に解決するために,グラフエントロピー最小化(GEM)と呼ばれる新しい半教師付き学習手法を提案する。
GEMは巨大な未分類ノードからのワンホップアグリゲーションの恩恵を受けており、予測精度は2つ以上のホップメッセージパッシングを持つGNNに匹敵する。
独立したエッジサンプルのミニバッチによる確率的トレーニングをサポートし、非常に高速なサンプリングと空間節約トレーニングを実現するために分解することができる。
1ホップの集約は深いGNNよりも推論が速いが、オンライン知識蒸留による非ホップ分類器の導出により、GEMは極端に加速することができる。
したがって、gemはリソース制約ハードウェア上で動作するレイテンシ制限とエラーセンシティブなサービスにとって便利な選択肢である。
コードはhttps://github.com/cf020031308/GEMで入手できる。 Node classifiers are required to comprehensively reduce prediction errors, training resources, and inference latency in the industry. However, most graph neural networks (GNN) concentrate only on one or two of them. The compromised aspects thus are the shortest boards on the bucket, hindering their practical deployments for industrial-level tasks. This work proposes a novel semi-supervised learning method termed Graph Entropy Minimization (GEM) to resolve the three issues simultaneously. GEM benefits its one-hop aggregation from massive uncategorized nodes, making its prediction accuracy comparable to GNNs with two or more hops message passing. It can be decomposed to support stochastic training with mini-batches of independent edge samples, achieving extremely fast sampling and space-saving training. While its one-hop aggregation is faster in inference than deep GNNs, GEM can be further accelerated to an extreme by deriving a non-hop classifier via online knowledge distillation. Thus, GEM can be a handy choice for latency-restricted and error-sensitive services running on resource-constraint hardware. Code is available at https://github.com/cf020031308/GEM. | 翻訳日:2023-06-01 18:59:58 公開日:2023-05-31 |
# 事前学習型言語モデルのための宝くじ探索 Exploring Lottery Prompts for Pre-trained Language Models ( http://arxiv.org/abs/2305.19500v1 ) ライセンス: Link先を確認 | Yulin Chen, Ning Ding, Xiaobin Wang, Shengding Hu, Hai-Tao Zheng, Zhiyuan Liu, Pengjun Xie | (参考訳) 継続的に事前訓練された言語モデル(PLM)をスケールすることは、モデル適応にかなりの負担を課し、従来の微調整よりも効率的な代替手段を必要とする。
ゼロショット設定のプロンプトと異なるプロンプト間の観測性能変動の利点を考慮し、インスタンスレベルのプロンプトとその一般化可能性について検討する。
プロンプト空間を探索することで、我々はまず、各インスタンスに対して、ほぼ常に、plmから正しい予測を誘発する抽選プロンプトが存在し、plmの固有の能力により、そのようなプロンプトを低コストで得ることができるという仮定を検証する。
一方で,強い抽選プロンプトがトレーニングセット全体に対して高いパフォーマンスを示し,識別可能な言語的特徴を備えていることが判明した。
最後に,探索した強宝くじのプロンプトをパラメータチューニングを伴わずに,素早いアンサンブル方式で非表示化しようとする。
様々なnlp分類タスクについて実験を行い,提案手法が他の勾配フリーおよび最適化フリーのベースラインと同等の結果が得られることを示す。 Consistently scaling pre-trained language models (PLMs) imposes substantial burdens on model adaptation, necessitating more efficient alternatives to conventional fine-tuning. Given the advantage of prompting in the zero-shot setting and the observed performance fluctuation among different prompts, we explore the instance-level prompt and their generalizability. By searching through the prompt space, we first validate the assumption that for every instance, there is almost always a lottery prompt that induces the correct prediction from the PLM, and such prompt can be obtained at a low cost thanks to the inherent ability of PLMs. Meanwhile, we find that some strong lottery prompts have high performance over the whole training set, and they are equipped with distinguishable linguistic features. Lastly, we attempt to generalize the searched strong lottery prompts to unseen data with prompt ensembling method without any parameter tuning. Experiments are conducted on various types of NLP classification tasks and demonstrate that the proposed method can achieve comparable results with other gradient-free and optimization-free baselines. | 翻訳日:2023-06-01 18:59:39 公開日:2023-05-31 |
# ドメインシフトの奥深く:依存性規則化による移行学習 Deep into The Domain Shift: Transfer Learning through Dependence Regularization ( http://arxiv.org/abs/2305.19499v1 ) ライセンス: Link先を確認 | Shumin Ma, Zhiri Yuan, Qi Wu, Yiyan Huang, Xixu Hu, Cheuk Hang Leung, Dongdong Wang, Zhixiang Huang | (参考訳) 古典的ドメイン適応法は、ソースドメインの特徴(ラベル付き)とターゲットドメインの特徴(ラベルなし)の全体分布の相違を規則化し、転送可能性を取得する。
ドメインの違いが境界や依存構造に由来するかどうかを区別しないことが多い。
多くのビジネス・ファイナンシャル・アプリケーションにおいて、ラベリング関数は通常、限界の変化と依存構造の変化に対して異なる感度を持つ。
全体の分布差を測定することは、転送可能性を取得するのに十分差別的ではない。
必要な構造解決がなければ、学習された転送は最適ではない。
本稿では,内部依存構造と辺縁構造の違いを分離して測定できる新しい領域適応手法を提案する。
相対重みを最適化することにより、新しい正規化戦略は既存のアプローチの剛性を大幅に緩和する。
学習機械は、違いが最も重要となる場所に特別な注意を払うことができる。
3つの実世界のデータセットの実験では、様々なベンチマークドメイン適応モデルと比較して、改善は目立って堅牢である。 Classical Domain Adaptation methods acquire transferability by regularizing the overall distributional discrepancies between features in the source domain (labeled) and features in the target domain (unlabeled). They often do not differentiate whether the domain differences come from the marginals or the dependence structures. In many business and financial applications, the labeling function usually has different sensitivities to the changes in the marginals versus changes in the dependence structures. Measuring the overall distributional differences will not be discriminative enough in acquiring transferability. Without the needed structural resolution, the learned transfer is less optimal. This paper proposes a new domain adaptation approach in which one can measure the differences in the internal dependence structure separately from those in the marginals. By optimizing the relative weights among them, the new regularization strategy greatly relaxes the rigidness of the existing approaches. It allows a learning machine to pay special attention to places where the differences matter the most. Experiments on three real-world datasets show that the improvements are quite notable and robust compared to various benchmark domain adaptation models. | 翻訳日:2023-06-01 18:59:18 公開日:2023-05-31 |
# 逐次信頼度校正のための知覚と意味認識正規化 Perception and Semantic Aware Regularization for Sequential Confidence Calibration ( http://arxiv.org/abs/2305.19498v1 ) ライセンス: Link先を確認 | Zhenghua Peng, Yu Luo, Tianshui Chen, Keke Xu, Shuangping Huang | (参考訳) ディープシークエンス認識(DSR)モデルは、様々な応用に優れているため、注目を集めている。
ほとんどのDSRモデルは、他の関連するシーケンスを考慮せずに、単に対象シーケンスを監視として使用するため、予測に過度な自信が生じる。
ラベルスムーズな正規化ラベルでトレーニングされたDSRモデルは、各トークンを均等かつ独立に滑らかにし、他のトークンに小さな値を割り当て、過信を緩和する。
しかし、トレーニングを規則化する上でより効果的な情報を提供し、それによって準最適パフォーマンスをもたらすトークン/シーケンス相関は考慮していない。
本研究では, より相関性が高く, 効果的な情報を含む, 高知覚・意味相関を持つトークンやシーケンスを見つけ, より効果的な正規化を容易にする。
そこで本研究では,知覚的かつ意味的に関連付けられたトークン/シーケンスを正規化として探索する知覚・意味認識シーケンス正規化フレームワークを提案する。
具体的には,意味的文脈自由認識と言語モデルを導入し,高い知覚的類似性と意味的相関性を持つ類似配列を取得する。
さらに、過信度は、その困難さに応じてサンプルによって異なる。
これにより,各試料の難易度を算出し,細粒度正則化を実現する適応校正インテンシティモジュールを更に設計する。
シーンテキストや音声認識を含む正準シーケンス認識タスクの広範な実験により,新たな最先端結果が得られた。
コードはhttps://github.com/husterpzh/pssrで入手できる。 Deep sequence recognition (DSR) models receive increasing attention due to their superior application to various applications. Most DSR models use merely the target sequences as supervision without considering other related sequences, leading to over-confidence in their predictions. The DSR models trained with label smoothing regularize labels by equally and independently smoothing each token, reallocating a small value to other tokens for mitigating overconfidence. However, they do not consider tokens/sequences correlations that may provide more effective information to regularize training and thus lead to sub-optimal performance. In this work, we find tokens/sequences with high perception and semantic correlations with the target ones contain more correlated and effective information and thus facilitate more effective regularization. To this end, we propose a Perception and Semantic aware Sequence Regularization framework, which explore perceptively and semantically correlated tokens/sequences as regularization. Specifically, we introduce a semantic context-free recognition and a language model to acquire similar sequences with high perceptive similarities and semantic correlation, respectively. Moreover, over-confidence degree varies across samples according to their difficulties. Thus, we further design an adaptive calibration intensity module to compute a difficulty score for each samples to obtain finer-grained regularization. Extensive experiments on canonical sequence recognition tasks, including scene text and speech recognition, demonstrate that our method sets novel state-of-the-art results. Code is available at https://github.com/husterpzh/PSSR. | 翻訳日:2023-06-01 18:59:03 公開日:2023-05-31 |
# オープンドメイン手続きテキストのフローグラフ予測に向けて Towards Flow Graph Prediction of Open-Domain Procedural Texts ( http://arxiv.org/abs/2305.19497v1 ) ライセンス: Link先を確認 | Keisuke Shirai, Hirotaka Kameko, Shinsuke Mori | (参考訳) 手続き文の機械的理解は、手順の推論と手順の自動化に不可欠である。
しかし、これはテキスト内のエンティティを識別し、エンティティ間の関係を解決する必要がある。
これまでの作業は調理領域に焦点を当て、レシピテキストをフローグラフ(FG)表現に変換するためのフレームワークを提案した。
本研究では,オープンドメインの手続きテキストのフローグラフ予測のためのレシピFGに基づくフレームワークを提案する。
非調理領域におけるフローグラフ予測性能を調べるために,ハウツー指導記事のwebサイトwikihowの記事からwikihow-fgコーパスを紹介する。
実験では,既存のレシピコーパスを使用し,調理から対象領域へのドメイン適応を行う。
実験結果から, ドメイン適応モデルでは, 調理データや対象ドメインデータにのみ訓練されたモデルよりも高い性能が得られた。 Machine comprehension of procedural texts is essential for reasoning about the steps and automating the procedures. However, this requires identifying entities within a text and resolving the relationships between the entities. Previous work focused on the cooking domain and proposed a framework to convert a recipe text into a flow graph (FG) representation. In this work, we propose a framework based on the recipe FG for flow graph prediction of open-domain procedural texts. To investigate flow graph prediction performance in non-cooking domains, we introduce the wikiHow-FG corpus from articles on wikiHow, a website of how-to instruction articles. In experiments, we consider using the existing recipe corpus and performing domain adaptation from the cooking to the target domain. Experimental results show that the domain adaptation models achieve higher performance than those trained only on the cooking or target domain data. | 翻訳日:2023-06-01 18:58:37 公開日:2023-05-31 |
# ゲームにおける学習は学習者に良いか? Is Learning in Games Good for the Learners? ( http://arxiv.org/abs/2305.19496v1 ) ライセンス: Link先を確認 | William Brown, Jon Schneider, Kiran Vodrahalli | (参考訳) 2つのエージェント間の繰り返しゲームプレイにおける報酬と後悔のトレードオフに関する多くの質問について考察した。
これを容易にするために、非対称な後悔の制約を許容し、各エージェントと一対の後悔の制約に対して実現可能な値のポリトープを出力する {\it Generalized equilibriumの概念を導入し、そのような平衡が任意の反対者に対する後悔の保証を維持するアルゴリズムのペアによって到達可能であることを示す。
中心となる例として、あるエージェントがno-swapであり、もう一方のエージェントの後悔が制約されていない場合を挙げる。
このことは,最適値が一致するような<it Stackelberg}平衡の拡張を捕捉し,非スワップ学習者に対して非スワップ回帰アルゴリズムから逸脱することで,プレイヤーが有効性を著しく向上できるゲームが広い範囲に存在することを示している(実際,純粋なナッシュ平衡のないゲームはこの形式である)。
さらに,対戦相手のアルゴリズム選択の観点からのトレードオフを考えるために,一般化された平衡を用いる。
我々は,学習者に対して得られる最大報酬を厳密に評価するが,これは共通な<mean-based''のno-regretアルゴリズムのクラスに対して得られる値から切り離されたゲームのクラスを示す。
最後に,ゲーム開始当初不明のエージェントによる繰り返しプレイによる報酬最適戦略の学習について考察する。
また、相手の学習アルゴリズムによるトレードオフを示す: stackelberg戦略は、クエリによって学習可能な任意のゲームに対して、任意の非regretエージェント(および任意の非{\it adaptive}-regretエージェントの多項式時間)で指数時間で学習でき、任意の非swap-regretエージェントに対して多項式時間で学習できるゲームがあるが、平均ベースのno-regretエージェントに対して指数時間を必要とする。 We consider a number of questions related to tradeoffs between reward and regret in repeated gameplay between two agents. To facilitate this, we introduce a notion of {\it generalized equilibrium} which allows for asymmetric regret constraints, and yields polytopes of feasible values for each agent and pair of regret constraints, where we show that any such equilibrium is reachable by a pair of algorithms which maintain their regret guarantees against arbitrary opponents. As a central example, we highlight the case one agent is no-swap and the other's regret is unconstrained. We show that this captures an extension of {\it Stackelberg} equilibria with a matching optimal value, and that there exists a wide class of games where a player can significantly increase their utility by deviating from a no-swap-regret algorithm against a no-swap learner (in fact, almost any game without pure Nash equilibria is of this form). Additionally, we make use of generalized equilibria to consider tradeoffs in terms of the opponent's algorithm choice. We give a tight characterization for the maximal reward obtainable against {\it some} no-regret learner, yet we also show a class of games in which this is bounded away from the value obtainable against the class of common ``mean-based'' no-regret algorithms. Finally, we consider the question of learning reward-optimal strategies via repeated play with a no-regret agent when the game is initially unknown. Again we show tradeoffs depending on the opponent's learning algorithm: the Stackelberg strategy is learnable in exponential time with any no-regret agent (and in polynomial time with any no-{\it adaptive}-regret agent) for any game where it is learnable via queries, and there are games where it is learnable in polynomial time against any no-swap-regret agent but requires exponential time against a mean-based no-regret agent. | 翻訳日:2023-06-01 18:58:24 公開日:2023-05-31 |
# CVSNet:脳の中枢視覚システムのためのコンピュータ実装 CVSNet: A Computer Implementation for Central Visual System of The Brain ( http://arxiv.org/abs/2305.19492v1 ) ライセンス: Link先を確認 | Ruimin Gao, Hao Zou, Zhekai Duan | (参考訳) コンピュータビジョンでは、異なる行列演算を中心に異なる基本ブロックが作成され、異なる基本ブロックに基づくモデルが良い結果を得た。
ビジョンタスクで達成された良い結果は、合理性を与えます。
しかし、これらの実験に基づくモデルは、原理と解釈可能性に対して深い学習を長く批判する。
深層学習は神経科学におけるニューロンの概念から生まれたが、最近の設計ではいくつかの単純な概念を除いて自然ニューラルネットワークを分離している。
本稿では,脳の中枢視覚システムのためのコンピュータ実装と見なすことのできる人工ニューラルネットワークであるcvsnetを構築する。
cvsnetの各ブロックは、脳と同じ視覚情報を表している。
cvsnetでは、ブロックは互いに異なり、視覚情報は3つの独立した経路と5つの異なるブロックを流れる。
このようにcvsnetは、基本ブロックを繰り返してモデルを構築し、チャネル間の情報を最初に混合する、以前の全てのモデルの設計とは全く異なる。
アブレーション実験では,CVSNetのブロックから抽出した情報を従来のネットワークと比較し,実験側からCVSNetのブロックの有効性と合理性を示す。
オブジェクト認識の実験では、CVSNetはConvNets、Vision Transformers、MLPと同等の結果を得る。 In computer vision, different basic blocks are created around different matrix operations, and models based on different basic blocks have achieved good results. Good results achieved in vision tasks grants them rationality. However, these experimental-based models also make deep learning long criticized for principle and interpretability. Deep learning originated from the concept of neurons in neuroscience, but recent designs detached natural neural networks except for some simple concepts. In this paper, we build an artificial neural network, CVSNet, which can be seen as a computer implementation for central visual system of the brain. Each block in CVSNet represents the same vision information as that in brains. In CVSNet, blocks differs from each other and visual information flows through three independent pathways and five different blocks. Thus CVSNet is completely different from the design of all previous models, in which basic blocks are repeated to build model and information between channels is mixed at the outset. In ablation experiment, we show the information extracted by blocks in CVSNet and compare with previous networks, proving effectiveness and rationality of blocks in CVSNet from experiment side. And in the experiment of object recognition, CVSNet achieves comparable results to ConvNets, Vision Transformers and MLPs. | 翻訳日:2023-06-01 18:57:42 公開日:2023-05-31 |
# SPGNN-API: 攻撃経路の同定と自律的除去のための転送可能なグラフニューラルネットワーク SPGNN-API: A Transferable Graph Neural Network for Attack Paths Identification and Autonomous Mitigation ( http://arxiv.org/abs/2305.19487v1 ) ライセンス: Link先を確認 | Houssem Jmal, Firas Ben Hmida, Nardine Basta, Muhammad Ikram, Mohamed Ali Kaafar, Andy Walker | (参考訳) 攻撃経路は、攻撃者がネットワーク資産を侵害し、ネットワーク脆弱性を悪用して特権を取得するために実行する悪意のあるアクティビティの連鎖である。
アタックパス分析は、シグネチャベースのアタック分析の個々のアタックベクターではなく、ネットワーク内の重要な資産に達する攻撃ベクターの新しい/未知のチェーンを特定するのに役立つ。
攻撃経路のタイムリーな識別は、脅威の積極的に緩和を可能にする。
それでも、攻撃経路を特定するための複雑なネットワーク構成、脆弱性、セキュリティイベントを手動で分析することはめったにない。
本稿では,最短経路同定のための新しい移動可能グラフニューラルネットワークモデルを提案する。
提案する最短経路検出アプローチは,ネットワーク脆弱性の可能性のあるインタラクションを識別する新たな包括的かつ包括的モデルと統合し,ネットワーク攻撃経路の検出に利用する。
本フレームワークは,ネットワーク構成,資産の臨界度,資産に対する脆弱性の深刻度を考慮し,高度に重要な資産(データベースなど)の妥協を可能にするパスの妥当性を示す攻撃経路のリスク評価を自動化する。
提案されたフレームワークはspgnn-apiと呼ばれ、ネットワークファイアウォールのルールを積極的にタイムリーに調整し、ゼロトラストポリシーを組み込んで、重要な攻撃経路を破り、サイバー防御を強化する。
最短経路識別の性能を評価し,攻撃経路検出精度を評価する。
その結果、spgnn-apiは、平均精度 >= 95% で最短経路同定のベースラインモデルを大きく上回り、攻撃グラフのベースラインを47%上回って、潜在的に侵害された資産の100%をうまく検出できた。 Attack paths are the potential chain of malicious activities an attacker performs to compromise network assets and acquire privileges through exploiting network vulnerabilities. Attack path analysis helps organizations to identify new/unknown chains of attack vectors that reach critical assets within the network, as opposed to individual attack vectors in signature-based attack analysis. Timely identification of attack paths enables proactive mitigation of threats. Nevertheless, manual analysis of complex network configurations, vulnerabilities, and security events to identify attack paths is rarely feasible. This work proposes a novel transferable graph neural network-based model for shortest path identification. The proposed shortest path detection approach, integrated with a novel holistic and comprehensive model for identifying potential network vulnerabilities interactions, is then utilized to detect network attack paths. Our framework automates the risk assessment of attack paths indicating the propensity of the paths to enable the compromise of highly-critical assets (e.g., databases) given the network configuration, assets' criticality, and the severity of the vulnerabilities in-path to the asset. The proposed framework, named SPGNN-API, incorporates automated threat mitigation through a proactive timely tuning of the network firewall rules and zero-trust policies to break critical attack paths and bolster cyber defenses. Our evaluation process is twofold; evaluating the performance of the shortest path identification and assessing the attack path detection accuracy. Our results show that SPGNN-API largely outperforms the baseline model for shortest path identification with an average accuracy >= 95% and successfully detects 100% of the potentially compromised assets, outperforming the attack graph baseline by 47%. | 翻訳日:2023-06-01 18:57:24 公開日:2023-05-31 |
# 雑音率推定に基づくサンプル選択による雑音ラベル学習 Noisy-label Learning with Sample Selection based on Noise Rate Estimate ( http://arxiv.org/abs/2305.19486v1 ) ライセンス: Link先を確認 | Arpit Garg, Cuong Nguyen, Rafael Felix, Thanh-Toan Do, Gustavo Carneiro | (参考訳) ノイズラベルトレーニングサンプルを過剰に活用できる深層モデルのキャパシティが高いため、ディープラーニングではノイズラベルが難しい。
間違いなく最も現実的で偶然に挑戦的なラベルノイズのタイプはインスタンス依存ノイズ(idn)であり、画像に存在する曖昧な情報によってラベルエラーが発生する。
IDN問題に対処する最も成功したラベルノイズ学習技術は、トレーニング中にクリーンおよびノイズラベルサンプルを分離するノイズラベルサンプル選択段階を含む。
このようなサンプルの選択は、損失や勾配などの基準や、各トレーニングエポックにおいてクリーンに分類されるトレーニングサンプルの割合を定義するカリキュラムに依存する。
トレーニングセットから推定されたノイズ率は、このカリキュラムの定義に使用する自然な信号であるように思われるが、従来のアプローチでは、一般的に、任意のしきい値や事前定義された選択関数に依存する。
本稿では,新しいサンプル選択カリキュラムで用いられる信頼性の高いノイズ率推定を,最先端(SOTA)学習手法に容易に対応できる新しいノイズラベル学習グラフィカルモデルを提案することで,この研究ギャップを解消する。
我々は,多くのSOTA手法と統合されたモデルが,合成および実世界のデータセットを含む多くのIDNベンチマークで結果を改善することを実証的に示す。 Noisy-labels are challenging for deep learning due to the high capacity of the deep models that can overfit noisy-label training samples. Arguably the most realistic and coincidentally challenging type of label noise is the instance-dependent noise (IDN), where the labelling errors are caused by the ambivalent information present in the images. The most successful label noise learning techniques to address IDN problems usually contain a noisy-label sample selection stage to separate clean and noisy-label samples during training. Such sample selection depends on a criterion, such as loss or gradient, and on a curriculum to define the proportion of training samples to be classified as clean at each training epoch. Even though the estimated noise rate from the training set appears to be a natural signal to be used in the definition of this curriculum, previous approaches generally rely on arbitrary thresholds or pre-defined selection functions to the best of our knowledge. This paper addresses this research gap by proposing a new noisy-label learning graphical model that can easily accommodate state-of-the-art (SOTA) noisy-label learning methods and provide them with a reliable noise rate estimate to be used in a new sample selection curriculum. We show empirically that our model integrated with many SOTA methods can improve their results in many IDN benchmarks, including synthetic and real-world datasets. | 翻訳日:2023-06-01 18:56:49 公開日:2023-05-31 |
# オンライン適応型オフラインメタ強化学習 Offline Meta Reinforcement Learning with In-Distribution Online Adaptation ( http://arxiv.org/abs/2305.19529v1 ) ライセンス: Link先を確認 | Jianhao Wang, Jin Zhang, Haozhe Jiang, Junyu Zhang, Liwei Wang, Chongjie Zhang | (参考訳) 最近のオフラインメタ強化学習(meta-RL)手法は、通常、タスク依存の行動ポリシー(例えば、各タスクにRLエージェントを訓練するなど)を用いてマルチタスクデータセットを収集する。
しかし、これらのメソッドは常に、テストタスクのオフラインコンテキストなど、迅速な適応のために余分な情報を必要とする。
この問題に対処するために、我々はまずオフラインのメタRLにおいて、オフラインデータセットとオンライン適応の間のトランジッション・リワードの分散シフトというユニークな課題を公式に特徴づける。
本理論では,分散適応エピソードは信頼できない政策評価につながる可能性があり,配信内適応エピソードによるオンライン適応は適応性能の保証を保証できると考えられる。
これらの理論的知見に基づいて,不確実性定量化を伴うオンライン適応(IDAQ)と呼ばれる新しい適応フレームワークを提案し,不確実性定量化を用いて分散コンテキストを生成し,新しいタスクに対処するための効果的なタスク信念推論を行う。
IDAQの返却に基づく不確実性定量化が有効である。
実験の結果, IDAQは, オフライン適応を伴わないベースラインと比較して, Meta-World ML1ベンチマークで最先端のパフォーマンスを達成した。 Recent offline meta-reinforcement learning (meta-RL) methods typically utilize task-dependent behavior policies (e.g., training RL agents on each individual task) to collect a multi-task dataset. However, these methods always require extra information for fast adaptation, such as offline context for testing tasks. To address this problem, we first formally characterize a unique challenge in offline meta-RL: transition-reward distribution shift between offline datasets and online adaptation. Our theory finds that out-of-distribution adaptation episodes may lead to unreliable policy evaluation and that online adaptation with in-distribution episodes can ensure adaptation performance guarantee. Based on these theoretical insights, we propose a novel adaptation framework, called In-Distribution online Adaptation with uncertainty Quantification (IDAQ), which generates in-distribution context using a given uncertainty quantification and performs effective task belief inference to address new tasks. We find a return-based uncertainty quantification for IDAQ that performs effectively. Experiments show that IDAQ achieves state-of-the-art performance on the Meta-World ML1 benchmark compared to baselines with/without offline adaptation. | 翻訳日:2023-06-01 18:50:26 公開日:2023-05-31 |
# 有能なコンピュータ思考テスト(cCTt) : 3-6年生の縦断CT研究における妥当性,信頼性,ジェンダーフェアテスト The competent Computational Thinking test (cCTt): a valid, reliable and gender-fair test for longitudinal CT studies in grades 3-6 ( http://arxiv.org/abs/2305.19526v1 ) ライセンス: Link先を確認 | Laila El-Hamamsy, Mar\'ia Zapata-C\'aceres, Estefan\'ia Mart\'in-Barroso, Francesco Mondada, Jessica Dehler Zufferey, Barbara Bruno, Marcos Rom\'an-Gonz\'alez | (参考訳) 世界中のカリキュラムにコンピューティング教育を導入するには、学習に対する長期的な影響を評価するために、複数年間の評価が必要である。
しかし、1つのCT評価は小学校に限らず、CT評価のグループは楽器間の遷移手段を提供していない。
そこで本研究では,2709名の学生のデータを用いて,3年生から6年生(年齢7~11歳)までの学習を確実に評価できるかどうかを検討した。
心理学的分析は古典的テスト理論、正規化されたz-scoring、差分項目機能を含む項目応答理論、PISAの習熟度を確立する方法論を採用した。
以上の結果から,cCTtは学年3-6に対して有効で信頼性が高く,ジェンダーフェアであることが明らかとなった。
等級別習熟度(gradle-specific proficiency level)は、学級間および学級間の比較や楽器間の遷移の確立のための、正規化スコアシステムを備えた介入の調整に役立つ。
研究者,教育者,実践者間のct評価の有用性を高めるために,その意義を強調する。
一 生徒の認知成熟と整合したジェンダーフェア、等級別機器の開発と検証及び提供
二 熟練度及び熟練度
三 アセスメント間の遷移に対する等価度尺度
結論として本研究は,縦断的に適切な発達的評価と介入の設計に関する洞察を提供する。 The introduction of computing education into curricula worldwide requires multi-year assessments to evaluate the long-term impact on learning. However, no single Computational Thinking (CT) assessment spans primary school, and no group of CT assessments provides a means of transitioning between instruments. This study therefore investigated whether the competent CT test (cCTt) could evaluate learning reliably from grades 3 to 6 (ages 7-11) using data from 2709 students. The psychometric analysis employed Classical Test Theory, normalised z-scoring, Item Response Theory, including Differential Item Functioning and PISA's methodology to establish proficiency levels. The findings indicate that the cCTt is valid, reliable and gender-fair for grades 3-6, although more complex items would be beneficial for grades 5-6. Grade-specific proficiency levels are provided to help tailor interventions, with a normalised scoring system to compare students across and between grades, and help establish transitions between instruments. To improve the utility of CT assessments among researchers, educators and practitioners, the findings emphasise the importance of i) developing and validating gender-fair, grade-specific, instruments aligned with students' cognitive maturation, and providing ii) proficiency levels, and iii) equivalency scales to transition between assessments. To conclude, the study provides insight into the design of longitudinal developmentally appropriate assessments and interventions. | 翻訳日:2023-06-01 18:49:52 公開日:2023-05-31 |
# スパース不変量としての新しい解釈可能な保存法 Discovering New Interpretable Conservation Laws as Sparse Invariants ( http://arxiv.org/abs/2305.19525v1 ) ライセンス: Link先を確認 | Ziming Liu, Patrick Obin Sturm, Saketh Bharadwaj, Sam Silva, Max Tegmark | (参考訳) 与えられた力学系の保存法則を明らかにすることは重要であるが困難である。
理論的な設定(微分方程式と基底関数の両方が知られている)では、微分方程式から保存則を自動的に発見するアルゴリズムであるスパース不変検出器(SID)を提案する。
そのアルゴリズムの単純さは、発見された保存量の堅牢性と解釈可能性を可能にする。
SIDは, 様々なシステムにおける新しい保全法則を再発見し, 発見することができることを示す。
流体力学と大気化学の2つの例において、SIDはそれぞれ14と3の保存量を発見し、それまでドメインの専門家に知られていたのは12と2のみである。 Discovering conservation laws for a given dynamical system is important but challenging. In a theorist setup (differential equations and basis functions are both known), we propose the Sparse Invariant Detector (SID), an algorithm that auto-discovers conservation laws from differential equations. Its algorithmic simplicity allows robustness and interpretability of the discovered conserved quantities. We show that SID is able to rediscover known and even discover new conservation laws in a variety of systems. For two examples in fluid mechanics and atmospheric chemistry, SID discovers 14 and 3 conserved quantities, respectively, where only 12 and 2 were previously known to domain experts. | 翻訳日:2023-06-01 18:48:52 公開日:2023-05-31 |
# 特徴としての説明:テキスト属性グラフのためのllmベースの機能 Explanations as Features: LLM-Based Features for Text-Attributed Graphs ( http://arxiv.org/abs/2305.19523v1 ) ライセンス: Link先を確認 | Xiaoxin He, Xavier Bresson, Thomas Laurent, Bryan Hooi | (参考訳) 近年,テキスト対応グラフ(TAG)の表現学習が重要な研究課題となっている。
TAGの典型的な例は、各論文のテキストがノード属性として機能する論文引用グラフである。
ほとんどのグラフニューラルネットワーク(gnn)パイプラインは、これらのテキスト属性をスキップグラムや単語の袋など、浅いあるいは手作りの機能に変換することで処理する。
最近の取り組みは、これらのパイプラインを言語モデルで強化することに注力している。
GPTのような強力な大規模言語モデル(LLM)が出現し、理性を示し、一般知識を活用できるようになり、LLMのテキストモデリング能力とGNNの構造学習能力を組み合わせた技術の必要性が高まっている。
そこで本研究では,LLMを利用してテキスト情報を特徴として捉え,下流タスクにおけるGNNの性能向上に活用する。
重要なイノベーションは、機能としてのemph{explanations(emph{explanations as features})の使用である: LLMにゼロショット分類を実行させ、その決定のためのテキストによる説明を提供し、その結果の説明が、下流のGNNを増強するために有用で有益な機能に変換できることを見つける。
実験を通して、豊富な機能により、さまざまなデータセットにわたるさまざまなGNNモデルの性能が向上することを示す。
特に、最も近いベースラインに対して、$2.88\times$より低い計算時間で、また、広く使われている \texttt{PubMed} と \textt{Cora} ベンチマークの TAG バージョンにおけるトップ-1 のパフォーマンスで、 \url{https://github.com/XiaoxinHe/TAPE}} よりも大きなマージンで、 \textt{Our コードとデータセットが利用可能である。 Representation learning on text-attributed graphs (TAGs) has become a critical research problem in recent years. A typical example of a TAG is a paper citation graph, where the text of each paper serves as node attributes. Most graph neural network (GNN) pipelines handle these text attributes by transforming them into shallow or hand-crafted features, such as skip-gram or bag-of-words features. Recent efforts have focused on enhancing these pipelines with language models. With the advent of powerful large language models (LLMs) such as GPT, which demonstrate an ability to reason and to utilize general knowledge, there is a growing need for techniques which combine the textual modelling abilities of LLMs with the structural learning capabilities of GNNs. Hence, in this work, we focus on leveraging LLMs to capture textual information as features, which can be used to boost GNN performance on downstream tasks. A key innovation is our use of \emph{explanations as features}: we prompt an LLM to perform zero-shot classification and to provide textual explanations for its decisions, and find that the resulting explanations can be transformed into useful and informative features to augment downstream GNNs. Through experiments we show that our enriched features improve the performance of a variety of GNN models across different datasets. Notably, we achieve top-1 performance on \texttt{ogbn-arxiv} by a significant margin over the closest baseline even with $2.88\times$ lower computation time, as well as top-1 performance on TAG versions of the widely used \texttt{PubMed} and \texttt{Cora} benchmarks~\footnote{Our codes and datasets are available at: \url{https://github.com/XiaoxinHe/TAPE}}. | 翻訳日:2023-06-01 18:48:35 公開日:2023-05-31 |
# 増分ランダム化平滑化認証 Incremental Randomized Smoothing Certification ( http://arxiv.org/abs/2305.19521v1 ) ライセンス: Link先を確認 | Shubham Ugare, Tarun Suresh, Debangshu Banerjee, Gagandeep Singh, Sasa Misailovic | (参考訳) ランダムスムーシングベースの認証は、敵対的攻撃に対するディープニューラルネットワーク(DNN)の堅牢性証明を得るための効果的なアプローチである。
本手法はスムーズなDNNモデルを構築し,その堅牢性を統計的サンプリングにより証明するが,多くのサンプルを認証する場合,特に計算コストが高い。
さらに、スムーズなモデルが修正された場合(例えば、量子化またはプルーニング)、修正されたDNNの認証保証は保持されず、スクラッチからの再認証は違法にコストがかかる。
ランダム化平滑化のためのインクリメンタルロバストネス認証の最初のアプローチであるIRSを提案する。
ごく少数のサンプルで近似モデルの認証を行うために、元のスムーズなモデルに対する認証保証を再利用する方法を示す。
IRSは、強力な堅牢性を保証するとともに、修正DNNの認証の計算コストを大幅に削減する。
提案手法の有効性を実験的に実証し,近似モデルのランダム化平滑化をスクラッチから適用した認証の3倍のスピードアップを示した。 Randomized smoothing-based certification is an effective approach for obtaining robustness certificates of deep neural networks (DNNs) against adversarial attacks. This method constructs a smoothed DNN model and certifies its robustness through statistical sampling, but it is computationally expensive, especially when certifying with a large number of samples. Furthermore, when the smoothed model is modified (e.g., quantized or pruned), certification guarantees may not hold for the modified DNN, and recertifying from scratch can be prohibitively expensive. We present the first approach for incremental robustness certification for randomized smoothing, IRS. We show how to reuse the certification guarantees for the original smoothed model to certify an approximated model with very few samples. IRS significantly reduces the computational cost of certifying modified DNNs while maintaining strong robustness guarantees. We experimentally demonstrate the effectiveness of our approach, showing up to 3x certification speedup over the certification that applies randomized smoothing of the approximate model from scratch. | 翻訳日:2023-06-01 18:47:53 公開日:2023-05-31 |
# 雑音ラベルからの学習のためのラベルリトライバル提示拡散モデル Label-Retrieval-Augmented Diffusion Models for Learning from Noisy Labels ( http://arxiv.org/abs/2305.19518v1 ) ライセンス: Link先を確認 | Jian Chen, Ruiyi Zhang, Tong Yu, Rohan Sharma, Zhiqiang Xu, Tong Sun, Changyou Chen | (参考訳) ノイズの多いラベルから学ぶことは、実際のアプリケーションのための機械学習において重要かつ長期にわたる問題である。
主な研究ラインの1つは、潜在的なノイズのあるラベルを浄化するラベル修正器の学習に焦点を当てている。
しかし、これらの手法は通常厳密な仮定に依存し、特定の種類のラベルノイズに制限される。
本稿では、生成モデルの観点からラベルノイズ問題を再構成する。$\textit{i.e.}$,ラベルは、初期ランダムな推測を徐々に修正することによって生成される。
この新しい視点は、既存の強力な拡散モデルが確率的生成過程をシームレスに学習することを可能にする。
生成の不確実性をモデル化すれば,ラベルの最大推定値を用いて分類推定を行うことができる。
雑音ラベルの影響を軽減するため, 拡散訓練に擬似クリーンラベルを効果的に構築するために, 近傍の整合性を利用する, $\textbf{L}$abel-$\textbf{R}$etrieval-$\textbf{A}$ugmented (LRA)拡散モデルを提案する。
私たちのモデルは柔軟で汎用的で、様々な条件付き情報($\textit{e}$)を簡単に組み込むことができ、モデルのパフォーマンスをさらに向上します。
評価のために大規模な実験が行われる。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
注目すべきは、強力なCLIPモデルからの条件情報を組み込むことで、多くの場合、現在のSOTA精度を10~20の絶対点に向上させることができることである。 Learning from noisy labels is an important and long-standing problem in machine learning for real applications. One of the main research lines focuses on learning a label corrector to purify potential noisy labels. However, these methods typically rely on strict assumptions and are limited to certain types of label noise. In this paper, we reformulate the label-noise problem from a generative-model perspective, $\textit{i.e.}$, labels are generated by gradually refining an initial random guess. This new perspective immediately enables existing powerful diffusion models to seamlessly learn the stochastic generative process. Once the generative uncertainty is modeled, we can perform classification inference using maximum likelihood estimation of labels. To mitigate the impact of noisy labels, we propose the $\textbf{L}$abel-$\textbf{R}$etrieval-$\textbf{A}$ugmented (LRA) diffusion model, which leverages neighbor consistency to effectively construct pseudo-clean labels for diffusion training. Our model is flexible and general, allowing easy incorporation of different types of conditional information, $\textit{e.g.}$, use of pre-trained models, to further boost model performance. Extensive experiments are conducted for evaluation. Our model achieves new state-of-the-art (SOTA) results on all the standard real-world benchmark datasets. Remarkably, by incorporating conditional information from the powerful CLIP model, our method can boost the current SOTA accuracy by 10-20 absolute points in many cases. | 翻訳日:2023-06-01 18:47:35 公開日:2023-05-31 |
# 知識レビューとオンライン不確実性推定によるリモートセンシング画像の高精度かつ信頼性の高い変化検出 Towards Accurate and Reliable Change Detection of Remote Sensing Images via Knowledge Review and Online Uncertainty Estimation ( http://arxiv.org/abs/2305.19513v1 ) ライセンス: Link先を確認 | Zhenglai Li, Chang Tang, Xianju Li, Weiying Xie, Kun Sun, Xinzhong Zhu | (参考訳) 変化検出(CD)は、都市管理や災害評価など、様々な現実の応用に欠かせない課題である。
しかし,従来の手法は検出結果の信頼性を無視しつつ,CDの精度向上に重点を置いていた。
本稿では,AR-CDNetと呼ばれる新しい変化検出ネットワークを提案する。
具体的には、オンライン不確実性推定部を構築し、トレーニング過程において、予測された変化マップと対応する基底真理との差によって教師される画素単位の不確かさをモデル化する。
さらに,低レベル特徴から高レベル特徴への時間変化知識を抽出し,時間差特徴の識別性を高めるための知識レビュー戦略を提案する。
最後に,オンライン不確実性推定枝から抽出した不確実性認識特徴を多レベル時間差特徴で集約し,cdの精度を向上させる。
トレーニングをすれば、ar-cdnetは正確な変更マップを提供し、不確実性を評価することができます。
2つのベンチマークデータセットの実験結果は、CDタスクにおけるAR-CDNetの優れた性能を示す。
私たちの作業のデモコードは、 \url{https://github.com/guanyuezhen/AR-CDNet}で公開されます。 Change detection (CD) is an essential task for various real-world applications, such as urban management and disaster assessment. However, previous methods primarily focus on improving the accuracy of CD, while neglecting the reliability of detection results. In this paper, we propose a novel change detection network, called AR-CDNet, which is able to provide accurate change maps and generate pixel-wise uncertainty. Specifically, an online uncertainty estimation branch is constructed to model the pixel-wise uncertainty, which is supervised by the difference between predicted change maps and corresponding ground truth during the training process. Furthermore, we introduce a knowledge review strategy to distill temporal change knowledge from low-level features to high-level ones, thereby enhancing the discriminability of temporal difference features. Finally, we aggregate the uncertainty-aware features extracted from the online uncertainty estimation branch with multi-level temporal difference features to improve the accuracy of CD. Once trained, our AR-CDNet can provide accurate change maps and evaluate pixel-wise uncertainty without ground truth. Experimental results on two benchmark datasets demonstrate the superior performance of AR-CDNet in the CD task. The demo code for our work will be publicly available at \url{https://github.com/guanyuezhen/AR-CDNet}. | 翻訳日:2023-06-01 18:47:05 公開日:2023-05-31 |
# 拡散型言語モデルを用いた微細テキストスタイル変換 Fine-grained Text Style Transfer with Diffusion-Based Language Models ( http://arxiv.org/abs/2305.19512v1 ) ライセンス: Link先を確認 | Yiwei Lyu, Tiange Luo, Jiacheng Shi, Todd C. Hollon, Honglak Lee | (参考訳) 拡散確率モデルは高品質な画像の制御に成功しており、研究者はこの制御性をテキスト生成領域に活用しようと試みている。
拡散ベースの言語モデルに関する以前の研究は、外部の知識(事前訓練された重みなど)なしで訓練でき、安定した性能と制御性を達成できることを示した。
本稿では,微細テキストスタイル転送の標準ベンチマークであるStylePTBデータセットを用いた拡散モデルを構築した。
StylePTBのタスクは、以前の作業で評価されたタスクよりもはるかに洗練された出力テキストの制御が必要であり、我々のモデルは、個人と構成の両方でStylePTBの最先端のパフォーマンスを達成できた。
さらに,外部知識を伴わないStylePTBの限られたデータに基づいて学習し,事前学習した重み付け,埋め込み,外部文法解析を応用した先行研究を上回り,低リソース環境下での拡散型言語モデルの可能性を示す。 Diffusion probabilistic models have shown great success in generating high-quality images controllably, and researchers have tried to utilize this controllability into text generation domain. Previous works on diffusion-based language models have shown that they can be trained without external knowledge (such as pre-trained weights) and still achieve stable performance and controllability. In this paper, we trained a diffusion-based model on StylePTB dataset, the standard benchmark for fine-grained text style transfers. The tasks in StylePTB requires much more refined control over the output text compared to tasks evaluated in previous works, and our model was able to achieve state-of-the-art performance on StylePTB on both individual and compositional transfers. Moreover, our model, trained on limited data from StylePTB without external knowledge, outperforms previous works that utilized pretrained weights, embeddings, and external grammar parsers, and this may indicate that diffusion-based language models have great potential under low-resource settings. | 翻訳日:2023-06-01 18:46:45 公開日:2023-05-31 |
# 軽度過パラメータのreluネットワークは、好適なロスランドスケープを持つ Mildly Overparameterized ReLU Networks Have a Favorable Loss Landscape ( http://arxiv.org/abs/2305.19510v1 ) ライセンス: Link先を確認 | Kedar Karhadkar, Michael Murray, Hanna Tseran, Guido Mont\'ufar | (参考訳) 本研究では,2層超過パラメータReLUニューラルネットワークの損失状況について,一般有限入力データセットを用いて検討した。
我々のアプローチは、パラメータ化写像のヤコビアン階数を用いて局所小集合と大域小集合の次元を境界付けることである。
ランダムな二分行列の結果を用いて、ほとんどのアクティベーションパターンがパラメータ領域に対応し、悪い微分可能な局所最小値を持たないことを示す。
さらに、1次元の入力データに対して、ネットワークによって実現可能なほとんどの活性化領域は、高次元のグローバルミニマと悪いローカルミニマを含むことを示す。
オーバーパラメトリゼーションの量によって、フルランクのほとんどの領域から、フルランクの多くの領域への位相遷移を求めることにより、これらの結果が実験的に確認される。 We study the loss landscape of two-layer mildly overparameterized ReLU neural networks on a generic finite input dataset for the squared error loss. Our approach involves bounding the dimension of the sets of local and global minima using the rank of the Jacobian of the parameterization map. Using results on random binary matrices, we show most activation patterns correspond to parameter regions with no bad differentiable local minima. Furthermore, for one-dimensional input data, we show most activation regions realizable by the network contain a high dimensional set of global minima and no bad local minima. We experimentally confirm these results by finding a phase transition from most regions having full rank to many regions having deficient rank depending on the amount of overparameterization. | 翻訳日:2023-06-01 18:46:26 公開日:2023-05-31 |
# リモートセンシング画像生成のためのマニフォールドアライメントに関する統一GANフレームワーク A Unified GAN Framework Regarding Manifold Alignment for Remote Sensing Images Generation ( http://arxiv.org/abs/2305.19507v1 ) ライセンス: Link先を確認 | Xingzhe Su, Wenwen Qiang, Zeen Song, Hang Gao, Fengge Wu, Changwen Zheng | (参考訳) GAN(Generative Adversarial Networks)とその変種は自然画像において顕著な成功を収めている。
トレーニングデータセットの分布を近似することを目的としている。
しかし、その性能はリモートセンシング(rs)画像に適用すると劣化し、判別器はしばしば過フィッティング問題に苦しむ。
本稿では,自然画像と自然画像の差異を調べ,rs画像の固有寸法が自然画像のそれよりもずっと低いことを明らかにする。
さらに、RS画像の低次元データ多様体は、トレーニングデータセットの不均一なサンプリングを悪化させ、バイアス情報を導入する可能性がある。
判別器は、偏りのあるトレーニング分布に容易に適合し、モード崩壊問題さえも、不良発生モデルにつながる。
既存のGANはRSデータセットの一般的な分布に焦点を当てているが、基礎となるデータ多様体を無視することが多い。
そこで本研究では,元データ固有の構造を保存する学習可能な情報理論尺度を提案し,教師付き・教師なしRS画像生成における多様体アライメントのための統一的なGANフレームワークを構築した。 Generative Adversarial Networks (GANs) and their variants have achieved remarkable success on natural images. It aims to approximate the distribution of the training datasets. However, their performance degrades when applied to remote sensing (RS) images, and the discriminator often suffers from the overfitting problem. In this paper, we examine the differences between natural and RS images and find that the intrinsic dimensions of RS images are much lower than those of natural images. Besides, the low-dimensional data manifold of RS images may exacerbate the uneven sampling of training datasets and introduce biased information. The discriminator can easily overfit to the biased training distribution, leading to a faulty generation model, even the mode collapse problem. While existing GANs focus on the general distribution of RS datasets, they often neglect the underlying data manifold. In respond, we propose a learnable information-theoretic measure that preserves the intrinsic structures of the original data, and establish a unified GAN framework for manifold alignment in supervised and unsupervised RS image generation. | 翻訳日:2023-06-01 18:46:11 公開日:2023-05-31 |
# 効率的な自動音声認識のための高精度・構造化プルーニング Accurate and Structured Pruning for Efficient Automatic Speech Recognition ( http://arxiv.org/abs/2305.19549v1 ) ライセンス: Link先を確認 | Huiqiang Jiang, Li Lyna Zhang, Yuang Li, Yu Wu, Shijie Cao, Ting Cao, Yuqing Yang, Jinyu Li, Mao Yang, Lili Qiu | (参考訳) 自動音声認識(ASR)は、TransformerやConformerといったディープニューラルネットワークによって著しく進歩している。
しかし、これらのモデルは通常、大きなモデルサイズと高い推論コストを持ち、リソース制限されたデバイスへのデプロイが難しい。
本稿では,構造化プルーニングと知識蒸留を利用して,コンフォーマーモデルのモデルサイズと推論コストを低減し,高い認識性能を維持した新しい圧縮戦略を提案する。
提案手法では,各コンフォーマーモジュールの保持かプループかを示すために二項マスクを用いて,最適マスク値の学習にL0正規化を用いる。
プルーニング性能をさらに高めるため,非プルーニングモデルからプルーニングモデルへの知識の伝達に層状蒸留戦略を用いる。
提案手法は,広く使用されているLibriSpeechベンチマークのすべてのプルーニングベースラインを上回り,モデルサイズを50%削減し,推論コストを28%削減し,性能損失を最小限に抑える。 Automatic Speech Recognition (ASR) has seen remarkable advancements with deep neural networks, such as Transformer and Conformer. However, these models typically have large model sizes and high inference costs, posing a challenge to deploy on resource-limited devices. In this paper, we propose a novel compression strategy that leverages structured pruning and knowledge distillation to reduce the model size and inference cost of the Conformer model while preserving high recognition performance. Our approach utilizes a set of binary masks to indicate whether to retain or prune each Conformer module, and employs L0 regularization to learn the optimal mask values. To further enhance pruning performance, we use a layerwise distillation strategy to transfer knowledge from unpruned to pruned models. Our method outperforms all pruning baselines on the widely used LibriSpeech benchmark, achieving a 50% reduction in model size and a 28% reduction in inference cost with minimal performance loss. | 翻訳日:2023-06-01 18:40:34 公開日:2023-05-31 |
# 量子時間相関を独立に特徴付ける(semi-)デバイス (Semi-)-device independently characterizing quantum temporal correlations ( http://arxiv.org/abs/2305.19548v1 ) ライセンス: Link先を確認 | Shin-Liang Chen and Jens Eisert | (参考訳) 本研究では,初期量子状態が測定され,量子チャネルを介して送信され,最終的に測定される一般時間シナリオにおける量子時間相関を特徴付ける枠組みを開発する。
このフレームワークは、システムや測定について、つまりデバイスに依存しない仮定を一切行いません。
しかし、半デバイス非依存の設定にさらなる制約を加えることができるほど多用途である。
我々のフレームワークは、関連する量子デバイスが非文字化または部分的に特徴づけられた場合の時間シナリオにおける量子認証の自然なツールとして機能する。
したがって、時間内の無符号の付加的な制約を仮定した場合、関連する系の次元に上限がある場合、ランク制約 -- 局所隠れ変数モデル上で真の量子分離を証明する -- 、あるいはさらに線形制約として、量子時間相関を特徴付けることもできる。
本稿では,時間的ベルの不等式を最大に破ること,時間的操作可能性の定量化,量子ランダム性アクセス符号のシナリオにおける最大成功確率の制限など,多くの応用例を示す。 We develop a framework for characterizing quantum temporal correlations in a general temporal scenario, in which an initial quantum state is measured, sent through a quantum channel, and finally measured again. This framework does not make any assumptions on the system nor on the measurements, namely, it is device-independent. It is versatile enough, however, to allow for the addition of further constraints in a semi-device-independent setting. Our framework serves as a natural tool for quantum certification in a temporal scenario when the quantum devices involved are uncharacterized or partially characterized. It can hence also be used for characterizing quantum temporal correlations when one assumes an additional constraint of no-signaling in time, there are upper bounds on the involved systems' dimensions, rank constraints -- for which we prove genuine quantum separations over local hidden variable models -- or further linear constraints. We present a number of applications, including bounding the maximal violation of temporal Bell inequalities, quantifying temporal steerability, bounding the maximum successful probability in a scenario of quantum randomness access codes. | 翻訳日:2023-06-01 18:40:17 公開日:2023-05-31 |
# セマンティック画像合成改善のための物体形状からの部品の推測と活用 Inferring and Leveraging Parts from Object Shape for Improving Semantic Image Synthesis ( http://arxiv.org/abs/2305.19547v1 ) ライセンス: Link先を確認 | Yuxiang Wei, Zhilong Ji, Xiaohe Wu, Jinfeng Bai, Lei Zhang, Wangmeng Zuo | (参考訳) セマンティック画像合成の進歩にもかかわらず、入力セマンティックマップから写真リアルな部分を生成することは難しい問題である。
部分セグメンテーションマップの統合は、間違いなく画像合成の恩恵を受けるが、ユーザによって提供されるのは面倒で不便である。
部品合成を改善するために,物体形状(ipose)から部品を推定し,それを利用して意味画像合成を改善する。
しかし、いくつかの部分セグメンテーションデータセットが利用可能であるが、部分アノテーションはセマンティックイメージ合成において多くのオブジェクトカテゴリに対して提供されていない。
これを回避するために、事前に定義されたサポート部分マップのガイダンスを用いて、オブジェクト部分マップを予測するPartNetを学習する。
PartNetは、このカテゴリのサポート部分マップの小さな数(例えば3)が提供されるときに、新しいオブジェクトカテゴリを扱うように簡単に一般化できる。
さらに、画像合成のための推定部分マップと意味マップの両方を組み込むために、部分意味変調を提案する。
実験の結果,iPOSEは細部が豊富なオブジェクトを生成するだけでなく,画像合成を柔軟に制御できることがわかった。
我々のiPOSEは、定量的、質的評価の観点から最先端の手法に対して好意的に機能する。
私たちのコードはhttps://github.com/csyxwei/iposeで公開されます。 Despite the progress in semantic image synthesis, it remains a challenging problem to generate photo-realistic parts from input semantic map. Integrating part segmentation map can undoubtedly benefit image synthesis, but is bothersome and inconvenient to be provided by users. To improve part synthesis, this paper presents to infer Parts from Object ShapE (iPOSE) and leverage it for improving semantic image synthesis. However, albeit several part segmentation datasets are available, part annotations are still not provided for many object categories in semantic image synthesis. To circumvent it, we resort to few-shot regime to learn a PartNet for predicting the object part map with the guidance of pre-defined support part maps. PartNet can be readily generalized to handle a new object category when a small number (e.g., 3) of support part maps for this category are provided. Furthermore, part semantic modulation is presented to incorporate both inferred part map and semantic map for image synthesis. Experiments show that our iPOSE not only generates objects with rich part details, but also enables to control the image synthesis flexibly. And our iPOSE performs favorably against the state-of-the-art methods in terms of quantitative and qualitative evaluation. Our code will be publicly available at https://github.com/csyxwei/iPOSE. | 翻訳日:2023-06-01 18:39:57 公開日:2023-05-31 |
# 数発のオープン触媒チャレンジのための触媒蒸留ニューラルネットワーク Catalysis distillation neural network for the few shot open catalyst challenge ( http://arxiv.org/abs/2305.19545v1 ) ライセンス: Link先を確認 | Bowen Deng | (参考訳) 人工知能と科学の統合は、新しい触媒の設計と発見のための計算化学手法の大幅な進歩をもたらした。
にもかかわらず、触媒反応の課題と触媒反応における大規模言語モデルの開発は継続し、最近のChatGPT(Chat Generative Pre-trained Transformer)の少ショット法がBERT(Bidirectional Encoder Representation from Transformers)を超越した成功は、限られたデータ、高価な計算、時間制約、構造-アクティビティー関係に対処することの重要性を強調している。
したがって、現在および将来の要件にかかわらず、触媒反応のための少数ショット技術の開発は重要かつ不可欠である。
本稿では, 触媒表面への触媒反応予測のための機械学習技術の応用をめざして, 過酸化水素電解反応における二原子触媒に焦点をあてた競争である, オープン触媒チャレンジ2023について紹介する。
触媒反応における限られたデータの問題に対処するために,MLP-LikeとCatalysis Distillation Graph Neural Network (CDGNN)と呼ばれるフレームワークを用いた機械学習手法を提案する。
その結果,CDGNNは触媒構造からの埋め込みを効果的に学習し,構造吸着関係の捕捉を可能にした。
この成果は、過酸化水素の反応経路を最大で効率的に決定し、現在のグラフニューラルネットワークのアプローチを16.1%上回る結果となった。
.
その結果、CDGNNは触媒学における数発の学習に有望なアプローチを示す。 The integration of artificial intelligence and science has resulted in substantial progress in computational chemistry methods for the design and discovery of novel catalysts. Nonetheless, the challenges of electrocatalytic reactions and developing a large-scale language model in catalysis persist, and the recent success of ChatGPT's (Chat Generative Pre-trained Transformer) few-shot methods surpassing BERT (Bidirectional Encoder Representation from Transformers) underscores the importance of addressing limited data, expensive computations, time constraints and structure-activity relationship in research. Hence, the development of few-shot techniques for catalysis is critical and essential, regardless of present and future requirements. This paper introduces the Few-Shot Open Catalyst Challenge 2023, a competition aimed at advancing the application of machine learning technology for predicting catalytic reactions on catalytic surfaces, with a specific focus on dual-atom catalysts in hydrogen peroxide electrocatalysis. To address the challenge of limited data in catalysis, we propose a machine learning approach based on MLP-Like and a framework called Catalysis Distillation Graph Neural Network (CDGNN). Our results demonstrate that CDGNN effectively learns embeddings from catalytic structures, enabling the capture of structure-adsorption relationships. This accomplishment has resulted in the utmost advanced and efficient determination of the reaction pathway for hydrogen peroxide, surpassing the current graph neural network approach by 16.1%.. Consequently, CDGNN presents a promising approach for few-shot learning in catalysis. | 翻訳日:2023-06-01 18:39:34 公開日:2023-05-31 |
# glyph conditional denoising diffusion probabilistic modelによる学習サンプルによる手書きocrの改善 Improving Handwritten OCR with Training Samples Generated by Glyph Conditional Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2305.19543v1 ) ライセンス: Link先を確認 | Haisong Ding, Bozhi Luan, Dongnan Gui, Kai Chen, Qiang Huo | (参考訳) 高精度な手書きOCRシステムを構築するには、大量の代表訓練データが必要である。
この問題を緩和するために,実験サンプルを生成するための拡散確率モデル(DDPM)を提案する。
このモデル条件を印刷グリフ画像上で作成し、印刷文字と手書き画像のマッピングを作成することにより、多様なスタイルや見当たらないテキスト内容のフォトリアリスティックな手書きサンプルを生成することができる。
しかし、合成画像中のテキストの内容は必ずしもグリフ条件の画像と一致していないため、合成サンプルの信頼できないラベルが生じる。
この問題に対処するために,我々はさらに,これらのサンプルをトレーニングセットに高い正確性で付加するプログレッシブデータフィルタリング戦略を提案する。
IAMベンチマークタスクの実験結果から,拡張DDPM合成トレーニングサンプルを用いてトレーニングしたOCRモデルは,実データにのみトレーニングしたOCRモデルと比較して,約45%の単語誤り率の低減を達成できることがわかった。 Constructing a highly accurate handwritten OCR system requires large amounts of representative training data, which is both time-consuming and expensive to collect. To mitigate the issue, we propose a denoising diffusion probabilistic model (DDPM) to generate training samples. This model conditions on a printed glyph image and creates mappings between printed characters and handwritten images, thus enabling the generation of photo-realistic handwritten samples with diverse styles and unseen text contents. However, the text contents in synthetic images are not always consistent with the glyph conditional images, leading to unreliable labels of synthetic samples. To address this issue, we further propose a progressive data filtering strategy to add those samples with a high confidence of correctness to the training set. Experimental results on IAM benchmark task show that OCR model trained with augmented DDPM-synthesized training samples can achieve about 45% relative word error rate reduction compared with the one trained on real data only. | 翻訳日:2023-06-01 18:39:01 公開日:2023-05-31 |
# 量子可能性ラベルと変分量子探索に基づく浅度深度係数決定 Shallow Depth Factoring Based on Quantum Feasibility Labeling and Variational Quantum Search ( http://arxiv.org/abs/2305.19542v1 ) ライセンス: Link先を確認 | Imran Khan Tutul, Sara Karimi, Junpeng Zhan | (参考訳) 整数分解は、特に量子コンピューティングの文脈において顕著な研究課題である。
整数の素因子の古典的な計算は指数時間複雑性を必要とする。
量子コンピューティングは、従来のプロセッサに比べて計算プロセスが大幅に高速になる可能性がある。
我々は整数を分解する新しい量子アルゴリズムである浅層深さ分解 (sdf) を提案した。
SDFは3つのステップから構成される。
まず、目的関数を使わずにファクタリング問題を最適化問題に変換する。
次に、量子フィージビリティラベル(QFL)を用いて、最適化問題に対して実現可能か不可能かに応じて、可能なすべてのソリューションをラベル付けする。
最後に、可変量子探索(VQS)は、すべての実現可能な解を見つけるために用いられる。
sdfアルゴリズムは、整数が増すにつれて回路深度が線形にスケーリングし、効率的な因子分解のために浅層量子回路を利用する。
回路内のゲート数を最小限にすることで、アルゴリズムは実現可能性を高め、エラーに対する脆弱性を減らす。 Large integer factorization is a prominent research challenge, particularly in the context of quantum computing. The classical computation of prime factors for an integer entails exponential time complexity. Quantum computing offers the potential for significantly faster computational processes compared to classical processors. We proposed a new quantum algorithm, Shallow Depth Factoring (SDF), to factor an integer. SDF consists of three steps. First, it converts a factoring problem to an optimization problem without an objective function. Then, we use a Quantum Feasibility Labeling (QFL) to label every possible solution according to whether it is feasible or infeasible for the optimization problem. Finally, the Variational Quantum Search (VQS) is used to find all feasible solutions. The SDF algorithm utilizes shallow-depth quantum circuits for efficient factorization, with the circuit depth scaling linearly as the integer to be factorized increases. Through minimizing the number of gates in the circuit, the algorithm enhances feasibility and reduces vulnerability to errors. | 翻訳日:2023-06-01 18:38:42 公開日:2023-05-31 |
# 発光スペクトルの自動回復 Automatic Illumination Spectrum Recovery ( http://arxiv.org/abs/2305.19538v1 ) ライセンス: Link先を確認 | Nariman Habili, Jeremy Oorloff, Lars Petersson | (参考訳) 様々な照明条件下でハイパースペクトル画像の照度スペクトルを推定する深層学習ネットワークを開発した。
この目的のためにデータセットであるIllumNetが作成された。
撮影は屋内と屋外の両方の様々な照明条件下で、specim iqカメラを用いて行われた。
屋外の映像は、日当たり、曇り、日陰、そして一日の異なる時間に撮影された。
室内画像にはハロゲンとLEDの光源、主にハロゲン、LED、蛍光といった混合光源が用いられた。
resnet18ネットワークはこの研究で採用されたが、2dカーネルはデータのスペクトル特性に合わせて3dカーネルに変更された。
実際の照明スペクトルをうまく適合させるのと同様に、予測照明スペクトルも滑らかであり、これは3次スムースなスプライン誤差コスト関数によって達成される。
実験結果は、トレーニングされたモデルが照明スペクトルの正確な推定を推測できることを示している。 We develop a deep learning network to estimate the illumination spectrum of hyperspectral images under various lighting conditions. To this end, a dataset, IllumNet, was created. Images were captured using a Specim IQ camera under various illumination conditions, both indoor and outdoor. Outdoor images were captured in sunny, overcast, and shady conditions and at different times of the day. For indoor images, halogen and LED light sources were used, as well as mixed light sources, mainly halogen or LED and fluorescent. The ResNet18 network was employed in this study, but with the 2D kernel changed to a 3D kernel to suit the spectral nature of the data. As well as fitting the actual illumination spectrum well, the predicted illumination spectrum should also be smooth, and this is achieved by the cubic smoothing spline error cost function. Experimental results indicate that the trained model can infer an accurate estimate of the illumination spectrum. | 翻訳日:2023-06-01 18:38:30 公開日:2023-05-31 |
# ストリーミングデータからのニューラルネットワークオンライン学習のための低ランク拡張カルマンフィルタ Low-rank extended Kalman filtering for online learning of neural networks from streaming data ( http://arxiv.org/abs/2305.19535v1 ) ライセンス: Link先を確認 | Peter Chang, Gerardo Dur\`an-Mart\'in, Alexander Y Shestopaloff, Matt Jones, Kevin Murphy | (参考訳) 非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ(ekf)に基づいているが、モデルパラメータの数に線形なステップあたりのコストを与える、後方精度行列の新たな低ランク+対角分解を用いる。
確率的変動推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
実験により,この結果がより高速(より標本効率のよい)学習となり,分布の変化に適応しやすくなり,文脈的バンディットアルゴリズムの一部として使用する場合の報酬の蓄積が早くなることを示した。 We propose an efficient online approximate Bayesian inference algorithm for estimating the parameters of a nonlinear function from a potentially non-stationary data stream. The method is based on the extended Kalman filter (EKF), but uses a novel low-rank plus diagonal decomposition of the posterior precision matrix, which gives a cost per step which is linear in the number of model parameters. In contrast to methods based on stochastic variational inference, our method is fully deterministic, and does not require step-size tuning. We show experimentally that this results in much faster (more sample efficient) learning, which results in more rapid adaptation to changing distributions, and faster accumulation of reward when used as part of a contextual bandit algorithm. | 翻訳日:2023-06-01 18:38:15 公開日:2023-05-31 |
# ホログラフィ還元表現による自己認識のリキャスト Recasting Self-Attention with Holographic Reduced Representations ( http://arxiv.org/abs/2305.19534v1 ) ライセンス: Link先を確認 | Mohammad Mahmudul Alam, Edward Raff, Stella Biderman, Tim Oates, James Holt | (参考訳) 近年、自己注意は様々な領域におけるシーケンスモデリングの主要なパラダイムとなっている。
しかし、非常に長いシーケンス長を持つドメインでは、$\mathcal{O}(T^2)$メモリと$\mathcal{O}(T^2 H)$計算コストは変換器の使用を不可能にする。
マルウェア検出における問題により、T \geq 100,000$のシーケンス長がディープラーニングの障害となるため、ホログラフィック・リダクテッド・表現(HRR)のニューロシンボリック・アプローチを用いて、自己認識を再放送する。
そうすることで、標準のセルフアテンションと同じハイレベルな戦略を実行します。キーのセットにマッチするクエリセットと、各キーの値の重み付きレスポンスを返します。
Hrrformer' として実装され、時間複雑性 $\mathcal{O}(T H \log H)$時間複雑性 $\mathcal{O}(T H)$空間複雑性 $\mathcal{O}(T H)$空間複雑性および10\times$少ないエポックの収束を含むいくつかの利点が得られる。
それでも、HrrformerはLRAベンチマークでほぼ最先端の精度を実現しており、単一の層で学習することができる。
これらのメリットを組み合わせることで、Hrrformerは、このような長いマルウェア分類シーケンスの最初の実行可能なTransformerとなり、Long Range Arenaベンチマークでトレーニングするのに最大280\times$が高速になります。
コードは \url{https://github.com/NeuromorphicComputationResearchProgram/Hrrformer} で入手できる。 In recent years, self-attention has become the dominant paradigm for sequence modeling in a variety of domains. However, in domains with very long sequence lengths the $\mathcal{O}(T^2)$ memory and $\mathcal{O}(T^2 H)$ compute costs can make using transformers infeasible. Motivated by problems in malware detection, where sequence lengths of $T \geq 100,000$ are a roadblock to deep learning, we re-cast self-attention using the neuro-symbolic approach of Holographic Reduced Representations (HRR). In doing so we perform the same high-level strategy of the standard self-attention: a set of queries matching against a set of keys, and returning a weighted response of the values for each key. Implemented as a ``Hrrformer'' we obtain several benefits including $\mathcal{O}(T H \log H)$ time complexity, $\mathcal{O}(T H)$ space complexity, and convergence in $10\times$ fewer epochs. Nevertheless, the Hrrformer achieves near state-of-the-art accuracy on LRA benchmarks and we are able to learn with just a single layer. Combined, these benefits make our Hrrformer the first viable Transformer for such long malware classification sequences and up to $280\times$ faster to train on the Long Range Arena benchmark. Code is available at \url{https://github.com/NeuromorphicComputationResearchProgram/Hrrformer} | 翻訳日:2023-06-01 18:37:59 公開日:2023-05-31 |
# クリックスルーレート予測モデルのためのマルチエポック学習 Multi-Epoch Learning for Deep Click-Through Rate Prediction Models ( http://arxiv.org/abs/2305.19531v1 ) ライセンス: Link先を確認 | Zhaocheng Liu, Zhongxiang Fan, Jian Liang, Dongying Kong, Han Li | (参考訳) 産業用クリックスルーレート (CTR) アプリケーションでは, モデル性能が第2のエポックの初めに著しく低下する現象が観察されている。
近年の進歩は、この現象の根底にある要因を広範な実験を通じて理解しようと試みている。
しかし、マルチエポックトレーニングのパラダイムがより良い結果が得られるかどうかは不明であり、最高のパフォーマンスは通常1エポックトレーニングによって達成される。
本稿では, この現象の出現は, 高次元の空間データから得られる, 埋込層から過度適合への感受性に起因する可能性があると仮定する。
埋め込みの過度な適合を同時に回避しながら特徴空間を維持するため,最も深いCTRモデルに直接適用可能な,MEDA(Multi-Epoch Learning with Data Augmentation)を提案する。
MEDAは、各エポックに埋め込み層を再初期化し、埋め込み過適合を回避し、収束を同時に改善することにより、データ拡張を実現する。
私たちの知る限り、MEDAは深部CTR予測モデルのために設計された最初のマルチエポックトレーニングパラダイムです。
いくつかの公開データセットに対して広範な実験を行い,提案手法の有効性を検証した。
特に,MEDAは従来のワンエポックトレーニングよりも優れていた。
また、MEDAはクアイショーの現実世界のシーンで大きな恩恵を受けている。 The one-epoch overfitting phenomenon has been widely observed in industrial Click-Through Rate (CTR) applications, where the model performance experiences a significant degradation at the beginning of the second epoch. Recent advances try to understand the underlying factors behind this phenomenon through extensive experiments. However, it is still unknown whether a multi-epoch training paradigm could achieve better results, as the best performance is usually achieved by one-epoch training. In this paper, we hypothesize that the emergence of this phenomenon may be attributed to the susceptibility of the embedding layer to overfitting, which can stem from the high-dimensional sparsity of data. To maintain feature sparsity while simultaneously avoiding overfitting of embeddings, we propose a novel Multi-Epoch learning with Data Augmentation (MEDA), which can be directly applied to most deep CTR models. MEDA achieves data augmentation by reinitializing the embedding layer in each epoch, thereby avoiding embedding overfitting and simultaneously improving convergence. To our best knowledge, MEDA is the first multi-epoch training paradigm designed for deep CTR prediction models. We conduct extensive experiments on several public datasets, and the effectiveness of our proposed MEDA is fully verified. Notably, the results show that MEDA can significantly outperform the conventional one-epoch training. Besides, MEDA has exhibited significant benefits in a real-world scene on Kuaishou. | 翻訳日:2023-06-01 18:37:27 公開日:2023-05-31 |
# 離散時間量子ウォークを用いた時間依存ディラック方程式のディジタル量子シミュレータ Digital quantum simulator for the time-dependent Dirac equation using discrete-time quantum walks ( http://arxiv.org/abs/2305.19568v1 ) ライセンス: Link先を確認 | Shigetora Miyashita, Takahiko Satoh, Michihiko Sugawara, Naphan Benchasattabuse, Ken M. Nakanishi, Michal Hajdu\v{s}ek, Hyensoo Choi, Rodney Van Meter | (参考訳) 離散時間量子ウォークを用いて3+1次元の時間依存ディラック方程式をシミュレーションする量子アルゴリズムを提案する。
これまで、非相対論的レジームにおける量子力学を効率的にシミュレートするために有望な量子アルゴリズムが提案されてきた。
しかし、理論と計算の難しさから相対論的ダイナミクスをシミュレートしようとする研究はいくつかある。
離散時間量子ウォークのディラック方程式への収束を利用して、指数収束を伴う滑らかな解を近似する量子スペクトル法を開発する。
これは潜在的な機能を実装する際のエラーを軽減し、エラーに依存する全体的なゲートの複雑さを低減する。
本手法は,非相対論的実空間アルゴリズムの漸近的ゲート複雑性に比べ,演算を必要としないことを示す。
その結果、相対論的ダイナミクスのシミュレーションは量子コンピュータで実現可能であり、相対論的量子物理学と化学への洞察を与えることができる。 We introduce a quantum algorithm for simulating the time-dependent Dirac equation in 3+1 dimensions using discrete-time quantum walks. Thus far, promising quantum algorithms have been proposed to simulate quantum dynamics in non-relativistic regimes efficiently. However, only some studies have attempted to simulate relativistic dynamics due to its theoretical and computational difficulty. By leveraging the convergence of discrete-time quantum walks to the Dirac equation, we develop a quantum spectral method that approximates smooth solutions with exponential convergence. This mitigates errors in implementing potential functions and reduces the overall gate complexity that depends on errors. We demonstrate that our approach does not require additional operations compared to the asymptotic gate complexity of non-relativistic real-space algorithms. Our findings indicate that simulating relativistic dynamics is achievable with quantum computers and can provide insights into relativistic quantum physics and chemistry. | 翻訳日:2023-06-01 18:30:16 公開日:2023-05-31 |
# DC CoMix TTS: Mixerとのコラボレーションによる離散コード付きエンドツーエンド表現型TS DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer ( http://arxiv.org/abs/2305.19567v1 ) ライセンス: Link先を確認 | Yerin Choi, Myoung-Wan Koo | (参考訳) TTSの中立性は大きな成功を収めたものの、コンテンツ収集は依然として課題だ。
本稿では,プロソディモデリングの改善を実現するための新しい入力表現と単純なアーキテクチャを提案する。
近年のttsにおける離散コードの使用の成功に触発されて,参照エンコーダの入力に離散コードを導入する。
具体的には,音響圧縮モデルのベクトル量子化器を用いて,すでにトレーニング済みの多様な音響情報を活用する。
さらに、修正MLP-Mixerを参照エンコーダに適用し、アーキテクチャをより軽量にする。
その結果、プロソディ転送TSをエンドツーエンドで訓練する。
本手法は主観的評価と客観的評価の両方を通して有効性を示す。
実験において、離散符号を入力として利用する場合、参照エンコーダは話者非依存の韻律を学習できることを実証する。
さらに,少ないパラメータを入力しても比較結果が得られる。 Despite the huge successes made in neutral TTS, content-leakage remains a challenge. In this paper, we propose a new input representation and simple architecture to achieve improved prosody modeling. Inspired by the recent success in the use of discrete code in TTS, we introduce discrete code to the input of the reference encoder. Specifically, we leverage the vector quantizer from the audio compression model to exploit the diverse acoustic information it has already been trained on. In addition, we apply the modified MLP-Mixer to the reference encoder, making the architecture lighter. As a result, we train the prosody transfer TTS in an end-to-end manner. We prove the effectiveness of our method through both subjective and objective evaluations. We demonstrate that the reference encoder learns better speaker-independent prosody when discrete code is utilized as input in the experiments. In addition, we obtain comparable results even when fewer parameters are inputted. | 翻訳日:2023-06-01 18:30:01 公開日:2023-05-31 |
# ゼロショット自動発音評価 Zero-Shot Automatic Pronunciation Assessment ( http://arxiv.org/abs/2305.19563v1 ) ライセンス: Link先を確認 | Hongfu Liu, Mingqian Shi, Ye Wang | (参考訳) 自動発音評価(apa)は、コンピュータ支援言語学習に不可欠である。
従来の方法は、自動音声認識(asr)モデルを訓練するために注釈付き音声テキストデータや、回帰モデルを訓練するための音声スコアデータに依存する。
本研究では,事前学習した音響モデル HuBERT に基づくゼロショットAPA法を提案する。
本手法では,マスキングモジュールを用いて音声入力を符号化し,分解する。
次にTransformerエンコーダを使用し、トークンシーケンスを得るためにk平均クラスタリングを適用する。
最後に、スコアリングモジュールは不正に回収されたトークンの数を測定するように設計されている。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示し,ピアソン相関係数(PCC)で非回帰ベースラインを上回った。
さらに,マスキング戦略がAPAの性能に与える影響を分析する。 Automatic Pronunciation Assessment (APA) is vital for computer-assisted language learning. Prior methods rely on annotated speech-text data to train Automatic Speech Recognition (ASR) models or speech-score data to train regression models. In this work, we propose a novel zero-shot APA method based on the pre-trained acoustic model, HuBERT. Our method involves encoding speech input and corrupting them via a masking module. We then employ the Transformer encoder and apply k-means clustering to obtain token sequences. Finally, a scoring module is designed to measure the number of wrongly recovered tokens. Experimental results on speechocean762 demonstrate that the proposed method achieves comparable performance to supervised regression baselines and outperforms non-regression baselines in terms of Pearson Correlation Coefficient (PCC). Additionally, we analyze how masking strategies affect the performance of APA. | 翻訳日:2023-06-01 18:29:49 公開日:2023-05-31 |
# 強化学習における再現性 Replicability in Reinforcement Learning ( http://arxiv.org/abs/2305.19562v1 ) ライセンス: Link先を確認 | Amin Karbasi, Grigoris Velegkas, Lin F. Yang, Felix Zhou | (参考訳) 強化学習(RL)の文脈におけるアルゴリズム特性としての複製性に関する数学的研究を開始する。
生成モデルにアクセス可能なディスカウントタブ状MDPの基本的な設定に焦点をあてる。
Impagliazzoらにインスパイアされた。
2022] では、RLアルゴリズムが複製可能であるのは、高い確率で、内部ランダム性が同じ場合、ジェネレータから引き出されたサンプルを2回実行した後で全く同じポリシーを出力した場合である。
まず、(\varepsilon, \delta)$-optimal Policy Estimation with sample and time complexity $\widetilde O\left(\frac{N^3\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2right)$に対して効率的な$\rho$-replicableアルゴリズムを提供する。
次に、決定論的アルゴリズムのサブクラスに対して、次数 $\Omega\left(\frac{N^3}{(1-\gamma)^3\cdot\varepsilon^2\cdot\rho^2}\right)$ の下界を与える。
そこで,Kalavasisらによって提案されたレプリカ化の緩和版について検討した。
【2023年】テレビの区別がつかない。
計算効率のよいテレビ識別可能アルゴリズムを設計し、サンプルの複雑さを$\widetilde O\left(\frac{N^2\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$とする。
実行時間$\exp(N)$のコストで、これらのテレビの区別できないアルゴリズムを、サンプルの複雑さを増大させることなく$\rho$-replicableに変換する。
最後に、2つの出力されたポリシーが適切な統計的発散(例えば、Renyi)の下で近いことを要求し、$\widetilde O\left(\frac{N\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$の改善されたサンプル複雑性を示す。 We initiate the mathematical study of replicability as an algorithmic property in the context of reinforcement learning (RL). We focus on the fundamental setting of discounted tabular MDPs with access to a generative model. Inspired by Impagliazzo et al. [2022], we say that an RL algorithm is replicable if, with high probability, it outputs the exact same policy after two executions on i.i.d. samples drawn from the generator when its internal randomness is the same. We first provide an efficient $\rho$-replicable algorithm for $(\varepsilon, \delta)$-optimal policy estimation with sample and time complexity $\widetilde O\left(\frac{N^3\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$, where $N$ is the number of state-action pairs. Next, for the subclass of deterministic algorithms, we provide a lower bound of order $\Omega\left(\frac{N^3}{(1-\gamma)^3\cdot\varepsilon^2\cdot\rho^2}\right)$. Then, we study a relaxed version of replicability proposed by Kalavasis et al. [2023] called TV indistinguishability. We design a computationally efficient TV indistinguishable algorithm for policy estimation whose sample complexity is $\widetilde O\left(\frac{N^2\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$. At the cost of $\exp(N)$ running time, we transform these TV indistinguishable algorithms to $\rho$-replicable ones without increasing their sample complexity. Finally, we introduce the notion of approximate-replicability where we only require that two outputted policies are close under an appropriate statistical divergence (e.g., Renyi) and show an improved sample complexity of $\widetilde O\left(\frac{N\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$. | 翻訳日:2023-06-01 18:29:35 公開日:2023-05-31 |
# エッジクラウドコンピューティングにおけるマルチユーザモバイル拡張現実のためのルックアヘッドタスクオフロード Look-Ahead Task Offloading for Multi-User Mobile Augmented Reality in Edge-Cloud Computing ( http://arxiv.org/abs/2305.19558v1 ) ライセンス: Link先を確認 | Ruxiao Chen, Shuaishuai Guo | (参考訳) モバイル拡張現実(MAR)は,Metaverseのユビキタスインターフェースのひとつとして想定されている,オーバーレイな仮想コンテンツと実際のシナリオをブレンドする。
MARデバイスの計算能力とバッテリ寿命が限られているため、計算タスクをエッジサーバやクラウドサーバに近接してオフロードすることが一般的である。
しかしながら、marタスク用に開発された既存のオフローディングソリューションは、マイグレーションオーバーヘッドの増大、スケーラビリティの低下、マルチユーザmarサービスのプロビジョニングに適用される際の近視性に苦しむ。
これらの問題に対処するため、エッジクラウドコンピューティングネットワークにおいて、MARサービス指向タスクオフロードスキームを設計、評価する。
具体的には、marアプリケーションのタスク相互依存性をまず分析し、有向非巡回グラフを用いてモデル化する。
そこで本研究では,モンテカルロ木(mmct)探索を改良したルックアヘッドオフロード方式を提案する。
実験の結果,提案手法は4つのベンチマーク方式と比較して,マルチユーザmarサービスのプロビジョニングにおいてqos(quality of service)を効果的に改善できることがわかった。
また, 提案手法は安定であり, 高い揮発性環境下での応用に適していることを示す。 Mobile augmented reality (MAR) blends a real scenario with overlaid virtual content, which has been envisioned as one of the ubiquitous interfaces to the Metaverse. Due to the limited computing power and battery life of MAR devices, it is common to offload the computation tasks to edge or cloud servers in close proximity. However, existing offloading solutions developed for MAR tasks suffer from high migration overhead, poor scalability, and short-sightedness when applied in provisioning multi-user MAR services. To address these issues, a MAR service-oriented task offloading scheme is designed and evaluated in edge-cloud computing networks. Specifically, the task interdependency of MAR applications is firstly analyzed and modeled by using directed acyclic graphs. Then, we propose a look-ahead offloading scheme based on a modified Monte Carlo tree (MMCT) search, which can run several multi-step executions in advance to get an estimate of the long-term effect of immediate action. Experiment results show that the proposed offloading scheme can effectively improve the quality of service (QoS) in provisioning multi-user MAR services, compared to four benchmark schemes. Furthermore, it is also shown that the proposed solution is stable and suitable for applications in a highly volatile environment. | 翻訳日:2023-06-01 18:28:37 公開日:2023-05-31 |
# 群表現による対称性に基づく辞書学習 Dictionary Learning under Symmetries via Group Representations ( http://arxiv.org/abs/2305.19557v1 ) ライセンス: Link先を確認 | Subhroshekhar Ghosh, Aaron Y. R. Low, Yong Sheng Soh, Zhuohang Feng, and Brendan K. Y. Tan | (参考訳) 辞書学習問題は、データがサンプルデータから直接スパースに表現されるように、適切な変換を学習するためのデータ駆動プロセスと見なすことができる。
本稿では,予め特定された変換群の下で不変な辞書を学習する問題を考察する。
自然設定には、cryo-em、マルチオブジェクトトラッキング、同期、ポーズ推定などが含まれる。
我々は、数学表現論のレンズの下でこの問題を具体的に研究する。
コンパクト群上の関数に対する非可換フーリエ解析の力を利用して,そのような不変性に従う辞書を学習するためのアルゴリズムレシピを定式化する。
我々は、自然に無限次元としてモデル化される物理領域における辞書学習問題と、必然的に有限次元である関連する計算問題とを関連づける。
本研究では, 辞書学習問題を, 特定のブロック対角構造を持つ行列軌道上において, 対称性群の既約表現によって支配される最適化例として効果的に理解できることを証明した。
この観点から,応用の次元的低減を実現する帯域制限手法を導入することができる。
我々は、望ましい辞書学習結果を提供するための計算 ansatz の保証を提供する。
本稿では,SO(2)群とSO(3)群の辞書学習問題に対して,本パラダイムを適用した。
SO(2)軌道は正確なスペクトル記述を持つが、SO(3)軌道についてはほとんど理解されていない。
本稿では、SO(3)軌道のトラクタブルなスペクトル外近似を記述し、この設定で最適化を行うための交互最小化パラダイムに寄与する。
本研究では,合成データと実世界データの両方において,so(3)不変辞書を学習する手法の有効性を強調する数値実験を行った。 The dictionary learning problem can be viewed as a data-driven process to learn a suitable transformation so that data is sparsely represented directly from example data. In this paper, we examine the problem of learning a dictionary that is invariant under a pre-specified group of transformations. Natural settings include Cryo-EM, multi-object tracking, synchronization, pose estimation, etc. We specifically study this problem under the lens of mathematical representation theory. Leveraging the power of non-abelian Fourier analysis for functions over compact groups, we prescribe an algorithmic recipe for learning dictionaries that obey such invariances. We relate the dictionary learning problem in the physical domain, which is naturally modelled as being infinite dimensional, with the associated computational problem, which is necessarily finite dimensional. We establish that the dictionary learning problem can be effectively understood as an optimization instance over certain matrix orbitopes having a particular block-diagonal structure governed by the irreducible representations of the group of symmetries. This perspective enables us to introduce a band-limiting procedure which obtains dimensionality reduction in applications. We provide guarantees for our computational ansatz to provide a desirable dictionary learning outcome. We apply our paradigm to investigate the dictionary learning problem for the groups SO(2) and SO(3). While the SO(2) orbitope admits an exact spectrahedral description, substantially less is understood about the SO(3) orbitope. We describe a tractable spectrahedral outer approximation of the SO(3) orbitope, and contribute an alternating minimization paradigm to perform optimization in this setting. We provide numerical experiments to highlight the efficacy of our approach in learning SO(3) invariant dictionaries, both on synthetic and on real world data. | 翻訳日:2023-06-01 18:28:14 公開日:2023-05-31 |
# 顔生成のための唇運動における音韻文脈の探索 Exploring Phonetic Context in Lip Movement for Authentic Talking Face Generation ( http://arxiv.org/abs/2305.19556v1 ) ライセンス: Link先を確認 | Se Jin Park, Minsu Kim, Jeongsoo Choi, Yong Man Ro | (参考訳) 話し顔生成は、音声の駆動に同期する自然な顔を合成するタスクである。
顔の視覚的品質、唇の同期、顔の動きに関して多くの進歩があったが、現在の作品では、人形のようなアニメーションをもたらす粗雑で非同期な唇の動きの問題を克服することに苦戦している。
先行研究では,電話レベルでの唇運動と音声の相関が一般的であった。
しかし、孤立した電話が先行または後続の電話に影響される共音声化のため、電話の明瞭度は音韻的文脈によって異なる。
したがって、音韻文脈による唇運動のモデル化は、より時空間的に整列し、安定した唇運動を生成することができる。
そこで本研究では, 発話顔生成のための唇の動きの音韻文脈について検討する。
本研究では,音韻的文脈を利用して,時空間的に整合した安定した唇運動を生成する,文脈認識型リップシンクフレームワーク(cals)を提案する。
CALSはAudio-to-LipモジュールとLip-to-Faceモジュールとを備える。
前者は、各スマートフォンをコンテキスト化された唇の動きユニットに明示的にマッピングし、後者は、コンテキスト認識された唇の動きでターゲットのアイデンティティを合成する。
また,音声-視覚同期損失と視覚識別同期損失を通じ,音韻文脈内の正確な唇変位を強制する識別同期批判法を提案する。
LRW, LRS2, HDTFデータセットの広範な実験から、提案したCALSが時空間アライメントを効果的に向上し、視覚的品質、リップシンク品質、現実性に関する最先端技術を大幅に改善することを示した。
最後に,リップ可読性テストにより生成した映像の真正性を示し,実映像に対する相対的単語予測精度の97.7%を達成する。 Talking face generation is the task of synthesizing a natural face synchronous to driving audio. Although much progress has been made in terms of visual quality, lip synchronization, and facial motion of the talking face, current works still struggle to overcome issues of crude and asynchronous lip movement, which can result in puppetry-like animation. We identify that the prior works commonly correlate lip movement with audio at the phone level. However, due to co-articulation, where an isolated phone is influenced by the preceding or following phones, the articulation of a phone varies upon the phonetic context. Therefore, modeling lip motion with the phonetic context can generate more spatio-temporally aligned and stable lip movement. In this respect, we investigate the phonetic context in lip motion for authentic talking face generation. We propose a Context-Aware Lip-Sync framework (CALS), which leverages phonetic context to generate more spatio-temporally aligned and stable lip movement. The CALS comprises an Audio-to-Lip module and a Lip-to-Face module. The former explicitly maps each phone to a contextualized lip motion unit, which guides the latter in synthesizing a target identity with context-aware lip motion. In addition, we introduce a discriminative sync critic that enforces accurate lip displacements within the phonetic context through audio-visual sync loss and visual discriminative sync loss. From extensive experiments on LRW, LRS2, and HDTF datasets, we demonstrate that the proposed CALS effectively enhances spatio-temporal alignment, greatly improving upon the state-of-the-art on visual quality, lip-sync quality, and realness. Finally, we show the authenticity of the generated video through a lip readability test and achieve 97.7% of relative word prediction accuracy to real videos. | 翻訳日:2023-06-01 18:27:48 公開日:2023-05-31 |
# 大きな言語モデルは抽象的な推論子ではない Large Language Models Are Not Abstract Reasoners ( http://arxiv.org/abs/2305.19555v1 ) ライセンス: Link先を確認 | Ga\"el Gendron, Qiming Bao, Michael Witbrock, Gillian Dobbie | (参考訳) 大規模言語モデルは、テキスト理解から常識推論まで、多種多様な自然言語処理タスクにおいて大きなパフォーマンスを示してきた。
しかし、この成功のメカニズムはいまだ不明であり、LLMが人間のような認知能力を達成することができるのか、あるいはこれらのモデルが根本的に制限されているのかは不明である。
抽象的推論は認知の基本的なタスクであり、少数のデータから一般的なパターンを発見し、適用する。
このタスクにおける深いニューラルネットワークアーキテクチャの評価は、推論とその広範な一般化能力に関する潜在的な制限について洞察を与える可能性がある。
本稿では,抽象的推論タスクにおける最先端llmの広範な評価を行い,他の自然言語タスクに比べて非常に限定的な性能を実現することを示し,この違いの理由について検討する。
我々は、他のNLPタスクの性能向上に実証された手法を適用し、ほとんどの場合、抽象的推論性能への影響は限定的であることを示す。
この研究の過程で、抽象推論タスクで言語モデルを評価するための新しいベンチマークを作成しました。 Large Language Models have shown tremendous performance on a large variety of natural language processing tasks, ranging from text comprehension to common sense reasoning. However, the mechanisms responsible for this success remain unknown, and it is unclear whether LLMs can achieve human-like cognitive capabilities or whether these models are still fundamentally limited. Abstract reasoning is a fundamental task for cognition, consisting of finding and applying a general pattern from few data. Evaluating deep neural architectures on this task could give insight into their potential limitations regarding reasoning and their broad generalisation abilities, yet this is currently an under-explored area. In this paper, we perform extensive evaluations of state-of-the-art LLMs on abstract reasoning tasks, showing that they achieve very limited performance in contrast with other natural language tasks, and we investigate the reasons for this difference. We apply techniques that have been shown to improve performance on other NLP tasks and show that in most cases their impact on abstract reasoning performance is limited. In the course of this work, we have generated a new benchmark for evaluating language models on abstract reasoning tasks. | 翻訳日:2023-06-01 18:27:16 公開日:2023-05-31 |
# TikTok上のジェンダーのユーフォリアとジスフォリア:特性と比較 Investigating Gender Euphoria and Dysphoria on TikTok: Characterization and Comparison ( http://arxiv.org/abs/2305.19552v1 ) ライセンス: Link先を確認 | SJ Dillon, Yueqing Liang, H. Russell Bernard, Kai Shu | (参考訳) 短いビデオ共有プラットフォームが出現すると、意見や知識の普及に特化したソーシャルメディアサイトとの関わりが急速に高まった。
短いビデオプラットフォームの中で、TikTokは世界でもっとも人気のあるプラットフォームの一つであり、トランスジェンダーやノンバイナリの個人にとって、個人体験を動員し情報を交換する大きなコミュニティを形成したプラットフォームとなっている。
オンライン空間で生み出された知識は、他人の話を聞き、経験的および医学的知識を自分自身に対して評価するときに、人々が自身の性別や遷移を理解し、経験する方法に影響を与える可能性がある。
本稿では,性嫌悪と性嫌悪に関する現在の研究と過去のインタビュー方法を拡張し,tiktok上のオンラインコミュニティがこれらの2つのタイプの性体験について何を議論しているか,どのように議論するかを分析する。
以上の結果から,オンラインTikTok空間では性同一性と性異性愛が異なることが示唆された。
これらの結果から,ビデオのコメントやコンテンツクリエーターのハッシュタグには性嫌悪や性嫌悪の表現に使用される単語の類似性が多様であることが示唆された。
以上の結果から, トランスフェミニンとトランス男性体験は, 性交経験と移行目標によって区別されると考えられる性嫌悪よりも, より類似した用語で表現されていることが示唆された。
本論文は,オンラインコミュニティにおけるトランスジェンダーと非バイナリ個人の理解に関する今後の研究への洞察を期待する。 With the emergence of short video-sharing platforms, engagement with social media sites devoted to opinion and knowledge dissemination has rapidly increased. Among the short video platforms, TikTok is one of the most popular globally and has become the platform of choice for transgender and nonbinary individuals, who have formed a large community to mobilize personal experience and exchange information. The knowledge produced in online spaces can influence the ways in which people understand and experience their own gender and transitions, as they hear about others and weigh that experiential and medical knowledge against their own. This paper extends current research and past interview methods on gender euphoria and gender dysphoria to analyze what and how online communities on TikTok discuss these two types of gender experiences. Our findings indicate that gender euphoria and gender dysphoria are differently described in online TikTok spaces. These findings indicate that there are wide similarities in the words used to describe gender dysphoria as well as gender euphoria in both the comments of videos and content creators' hashtags. Finally, our results show that gender euphoria is described in more similar terms between transfeminine and transmasculine experiences than gender dysphoria, which appears to be more differentiated by gendering experience and transition goals. We hope this paper can provide insights for future research on understanding transgender and nonbinary individuals in online communities. | 翻訳日:2023-06-01 18:26:59 公開日:2023-05-31 |
# Spotlight Attention: 空間的局所性を持つロバストなオブジェクト指向学習 Spotlight Attention: Robust Object-Centric Learning With a Spatial Locality Prior ( http://arxiv.org/abs/2305.19550v1 ) ライセンス: Link先を確認 | Ayush Chakravarthy, Trang Nguyen, Anirudh Goyal, Yoshua Bengio, Michael C. Mozer | (参考訳) オブジェクト中心のビジョンの目的は、シーン内のオブジェクトの明示的な表現を構築することである。
この表現は、画像の局所パッチを競う \emph{slots} または \emph{object files} と呼ばれる交換可能なモジュール群を介して得られる。
競合は空間的連続性を維持するために誘導バイアスが弱いため、あるスロットは画像全体に散らばったパッチを主張することができる。
対照的に、人間の視覚の誘導バイアスは、注目が古典的にスポットライトの比喩で記述されている程度に強い。
先行する空間的局所性を最先端のオブジェクト中心のビジョンモデルに取り入れ、合成データと実世界のデータセットの両方でオブジェクトのセグメンテーションを大幅に改善した。
人間の視覚的注意と同様に、画像の内容と空間的制約の組み合わせは、モデルハイパーパラメータに対する感度の低下を含む、堅牢な教師なしのオブジェクト中心学習をもたらす。 The aim of object-centric vision is to construct an explicit representation of the objects in a scene. This representation is obtained via a set of interchangeable modules called \emph{slots} or \emph{object files} that compete for local patches of an image. The competition has a weak inductive bias to preserve spatial continuity; consequently, one slot may claim patches scattered diffusely throughout the image. In contrast, the inductive bias of human vision is strong, to the degree that attention has classically been described with a spotlight metaphor. We incorporate a spatial-locality prior into state-of-the-art object-centric vision models and obtain significant improvements in segmenting objects in both synthetic and real-world datasets. Similar to human visual attention, the combination of image content and spatial constraints yield robust unsupervised object-centric learning, including less sensitivity to model hyperparameters. | 翻訳日:2023-06-01 18:26:34 公開日:2023-05-31 |
# アドバイスによるアクティブ因果構造学習 Active causal structure learning with advice ( http://arxiv.org/abs/2305.19588v1 ) ライセンス: Link先を確認 | Davin Choo, Themis Gouleakis, Arnab Bhattacharyya | (参考訳) 我々は,能動因果構造学習の問題点をアドバイスで紹介する。
典型的なよく研究された環境では、学習アルゴリズムは観測分布に不可欠なグラフを与え、基礎となる因果有向非巡回グラフ(DAG)$G^*$を最小化しながら復元するよう要求される。
私たちの設定では、アドバイスとして$g^*$に関するサイド情報(例えば$g^*$と仮定されたdag $g$)が与えられます。
我々は、学習アルゴリズムが正しいときにアドバイスの恩恵を受けることができるかどうかを問うとともに、アドバイスが任意に悪い場合でも最悪の場合を保証する。
私たちの研究は、予測を伴うアルゴリズムの研究の活発化と同じ領域にあります。
アドバイスがDAG$G$であれば、介入コストが最大$O(\max\{1, \log \psi\})$倍の$O(\max\{1, \log \psi\})$を回復する適応探索アルゴリズムを設計する。
私たちの近似係数はアドバイスレス設定の最先端と一致します。 We introduce the problem of active causal structure learning with advice. In the typical well-studied setting, the learning algorithm is given the essential graph for the observational distribution and is asked to recover the underlying causal directed acyclic graph (DAG) $G^*$ while minimizing the number of interventions made. In our setting, we are additionally given side information about $G^*$ as advice, e.g. a DAG $G$ purported to be $G^*$. We ask whether the learning algorithm can benefit from the advice when it is close to being correct, while still having worst-case guarantees even when the advice is arbitrarily bad. Our work is in the same space as the growing body of research on algorithms with predictions. When the advice is a DAG $G$, we design an adaptive search algorithm to recover $G^*$ whose intervention cost is at most $O(\max\{1, \log \psi\})$ times the cost for verifying $G^*$; here, $\psi$ is a distance measure between $G$ and $G^*$ that is upper bounded by the number of variables $n$, and is exactly 0 when $G=G^*$. Our approximation factor matches the state-of-the-art for the advice-less setting. | 翻訳日:2023-06-01 18:20:34 公開日:2023-05-31 |
# 車両ルーティング問題に対するOmni-Generalizable Neural Methods Towards Omni-generalizable Neural Methods for Vehicle Routing Problems ( http://arxiv.org/abs/2305.19587v1 ) ライセンス: Link先を確認 | Jianan Zhou, Yaoxin Wu, Wen Song, Zhiguang Cao, Jie Zhang | (参考訳) 車両ルーティング問題(VRP)の学習ヒューリスティックスは手作りルールへの依存度が低かったために注目されている。
しかしながら、既存のメソッドは通常、一定のサイズと分散(ノード)を持つ同じタスクでトレーニングされ、テストされるため、一般化性能が制限される。
本稿では,vrpにおけるサイズと分布の一般化を考慮した,挑戦的で現実的な設定について検討する。
推論中に新しいタスクに素早く適応できる初期化モデルの効果的なトレーニングを可能にする汎用的メタ学習フレームワークを提案する。
さらに,トレーニングオーバーヘッドを削減するための簡易かつ効率的な近似手法を考案する。
トラクションセールスマン問題 (TSP) とキャパシタン化車両ルーティング問題 (CVRP) の総合的およびベンチマーク実験により, 本手法の有効性が示された。
コードは以下の通り:https://github.com/RoyalSkye/Omni-VRP。 Learning heuristics for vehicle routing problems (VRPs) has gained much attention due to the less reliance on hand-crafted rules. However, existing methods are typically trained and tested on the same task with a fixed size and distribution (of nodes), and hence suffer from limited generalization performance. This paper studies a challenging yet realistic setting, which considers generalization across both size and distribution in VRPs. We propose a generic meta-learning framework, which enables effective training of an initialized model with the capability of fast adaptation to new tasks during inference. We further develop a simple yet efficient approximation method to reduce the training overhead. Extensive experiments on both synthetic and benchmark instances of the traveling salesman problem (TSP) and capacitated vehicle routing problem (CVRP) demonstrate the effectiveness of our method. The code is available at: https://github.com/RoyalSkye/Omni-VRP. | 翻訳日:2023-06-01 18:20:10 公開日:2023-05-31 |
# CryptOpt: 直線コードの自動最適化 CryptOpt: Automatic Optimization of Straightline Code ( http://arxiv.org/abs/2305.19586v1 ) ライセンス: Link先を確認 | Joel Kuepper and Andres Erbsen and Jason Gross and Owen Conoly and Chuyue Sun and Samuel Tian and David Wu and Adam Chlipala and Chitchanok Chuengsatiansup and Daniel Genkin and Markus Wagner and Yuval Yarom | (参考訳) 高性能実装の手動エンジニアリングは一般的に多くのリソースを消費し、ハードウェアに関する深い知識を必要とする。
コンパイラはこれらの問題に対処しようとするが、できる限り設計によって制限される。
そこで,CryptOptを提案する。CryptOptは,長い直線コードに対する自動オプティマイザである。
8つのハードウェアプラットフォームでの実験結果から、CryptOptは現在のオフザシェルフコンパイラよりも最大2.56倍のスピードアップを実現している。 Manual engineering of high-performance implementations typically consumes many resources and requires in-depth knowledge of the hardware. Compilers try to address these problems; however, they are limited by design in what they can do. To address this, we present CryptOpt, an automatic optimizer for long stretches of straightline code. Experimental results across eight hardware platforms show that CryptOpt achieves a speed-up factor of up to 2.56 over current off-the-shelf compilers. | 翻訳日:2023-06-01 18:19:54 公開日:2023-05-31 |
# LAIT: 層調整可能な相互作用を持つ変換器における効率的な多重セグメント符号化 LAIT: Efficient Multi-Segment Encoding in Transformers with Layer-Adjustable Interaction ( http://arxiv.org/abs/2305.19585v1 ) ライセンス: Link先を確認 | Jeremiah Milbauer, Annie Louis, Mohammad Javad Hosseini, Alex Fabrikant, Donald Metzler, Tal Schuster | (参考訳) Transformerエンコーダは、各レイヤの他のすべてのトークンに出席することでトークン表現を文脈的にエンコードし、入力長の計算労力を2次的に増加させる。
しかし実際には、多くのNLPタスクの入力テキストは関連するセグメントのシーケンス(例えば、パス内の文のシーケンス、NLIの仮説と前提)と見なすことができる。
これらのセグメントへの参加は多くのタスクにとって非常に有益であるが、この相互作用は後続のエンコーディング段階まで遅れる可能性があると仮定する。
この目的のために、トランスフォーマー(lait)にレイヤ調整可能なインタラクションを導入する。
LAIT内では、セグメント化された入力はまず独立に符号化され、その後共同で符号化される。
この部分的な2towerアーキテクチャは、セグメントのプリコンプリート表現に対するデュアルエンコーダの能力と、クロスセグメンテーションの注意をモデル化する完全自己完結トランスフォーマーの能力とのギャップを埋める。
LAITフレームワークは、既存のトレーニング済みのトランスフォーマーを効果的に活用し、上記の2つのアーキテクチャのハイブリッドに変換し、パフォーマンス効率のトレードオフを簡単に、直感的に制御できるようにする。
広範囲なNLPタスクで実験したところ、LAITは多くのタスクにおける注意FLOPの30~50%を削減できるが、精度は高く、実用的な設定では、LAITは実際の遅延を桁違いに削減できる。 Transformer encoders contextualize token representations by attending to all other tokens at each layer, leading to quadratic increase in compute effort with the input length. In practice, however, the input text of many NLP tasks can be seen as a sequence of related segments (e.g., the sequence of sentences within a passage, or the hypothesis and premise in NLI). While attending across these segments is highly beneficial for many tasks, we hypothesize that this interaction can be delayed until later encoding stages. To this end, we introduce Layer-Adjustable Interactions in Transformers (LAIT). Within LAIT, segmented inputs are first encoded independently, and then jointly. This partial two-tower architecture bridges the gap between a Dual Encoder's ability to pre-compute representations for segments and a fully self-attentive Transformer's capacity to model cross-segment attention. The LAIT framework effectively leverages existing pretrained Transformers and converts them into the hybrid of the two aforementioned architectures, allowing for easy and intuitive control over the performance-efficiency tradeoff. Experimenting on a wide range of NLP tasks, we find LAIT able to reduce 30-50% of the attention FLOPs on many tasks, while preserving high accuracy; in some practical settings, LAIT could reduce actual latency by orders of magnitude. | 翻訳日:2023-06-01 18:19:44 公開日:2023-05-31 |
# Tag-Team アプローチ:多言語 ASR 強化のための CLS と言語タグの活用 The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing Multilingual ASR ( http://arxiv.org/abs/2305.19584v1 ) ライセンス: Link先を確認 | Kaousheik Jayakumar, Vrunda N. Sukhadia, A Arunkumar, S. Umesh | (参考訳) インドのような言語的に多様な国において、多言語自動音声認識(asr)システムを構築することは、スクリプトの違いと音声データの可用性の制限のため、難しい課題である。
この問題は、これらの言語の多くが音声的に類似しているという事実を活用することで解決できる。
これらの言語は、類似した音を共通ラベルにマッピングすることで、CLS(Common Label Set)に変換することができる。
本稿では, CLSに基づく多言語ASRモデルの性能向上のために, 新たなアプローチを提案する。
特定の言語情報は、言語IDを与えたり、CLSマルチ言語モデル上でネイティブスクリプトコンバータにCLSを使用したりすることで、ASRモデルに注入される。
これらの手法は、CLSベースラインと比較してワード誤り率(WER)を大幅に改善する。
これらの手法は、分散データのロバスト性をチェックするためにさらに試みられている。 Building a multilingual Automated Speech Recognition (ASR) system in a linguistically diverse country like India can be a challenging task due to the differences in scripts and the limited availability of speech data. This problem can be solved by exploiting the fact that many of these languages are phonetically similar. These languages can be converted into a Common Label Set (CLS) by mapping similar sounds to common labels. In this paper, new approaches are explored and compared to improve the performance of CLS based multilingual ASR model. Specific language information is infused in the ASR model by giving Language ID or using CLS to Native script converter on top of the CLS Multilingual model. These methods give a significant improvement in Word Error Rate (WER) compared to the CLS baseline. These methods are further tried on out-of-distribution data to check their robustness. | 翻訳日:2023-06-01 18:19:18 公開日:2023-05-31 |
# 高次累積に基づく潜在共同設立者による因果発見 Causal Discovery with Latent Confounders Based on Higher-Order Cumulants ( http://arxiv.org/abs/2305.19582v1 ) ライセンス: Link先を確認 | Ruichu Cai, Zhiyi Huang, Wei Chen, Zhifeng Hao, Kun Zhang | (参考訳) 潜在共同設立者による因果関係の発見は多くの科学分野において重要だが難しい課題である。
オーバーコンプリート独立成分分析(OICA)に基づく手法が一部の領域で成功しているにもかかわらず、計算コストが高く、局所最適状態に陥りやすい。
興味深いことに、高次累積法を用いることで、例えば、混合手順が1-Latent-Component構造に従う場合など、特定の場合においてOICAに対する閉形式解が存在することに気付く。
さらに, 1-latent-component構造に対応するoicaに対する閉形式解のパワーに照らして, 高次累積式を用いて混合行列を推定する方法を定式化し, さらに, 潜在変数を同定し因果順序を決定するためのテスト可能な1-latent-component条件を提案する。
同定された潜在成分を反復的に除去することにより, 1成分構造の結果を多成分構造に拡張し, 最終的に, 潜在変数を用いた因果構造を学習するための実用的かつ漸近的に正しいアルゴリズムを提供する。
実験結果は,提案手法の漸近的正しさと有効性を示す。 Causal discovery with latent confounders is an important but challenging task in many scientific areas. Despite the success of some overcomplete independent component analysis (OICA) based methods in certain domains, they are computationally expensive and can easily get stuck into local optima. We notice that interestingly, by making use of higher-order cumulants, there exists a closed-form solution to OICA in specific cases, e.g., when the mixing procedure follows the One-Latent-Component structure. In light of the power of the closed-form solution to OICA corresponding to the One-Latent-Component structure, we formulate a way to estimate the mixing matrix using the higher-order cumulants, and further propose the testable One-Latent-Component condition to identify the latent variables and determine causal orders. By iteratively removing the share identified latent components, we successfully extend the results on the One-Latent-Component structure to the Multi-Latent-Component structure and finally provide a practical and asymptotically correct algorithm to learn the causal structure with latent variables. Experimental results illustrate the asymptotic correctness and effectiveness of the proposed method. | 翻訳日:2023-06-01 18:19:04 公開日:2023-05-31 |
# SVVAD:話者認証のための個人音声活動検出 SVVAD: Personal Voice Activity Detection for Speaker Verification ( http://arxiv.org/abs/2305.19581v1 ) ライセンス: Link先を確認 | Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao | (参考訳) 音声活動検出(vad)は、音声セグメントを保存し、非音声の効果を弱めることにより、話者照合(sv)の性能を向上させる。
しかし,この方式は理想的ではない。(1)ノイズの多い環境や複数話者会話で失敗し,(2)不正確な非SVセンシティブなラベルに基づいて訓練される。
そこで本研究では,svに最も有益である音声特徴量に応じて適応可能な話者照合に基づく音声活動検出(svvad)フレームワークを提案する。
そこで本研究では,不正確なラベル付けによるsvの性能低下を完全に回避するトリプレット様損失を伴うラベルフリートレーニング手法を提案する。
SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることを示す。
さらに、決定境界は、人間の判断とほぼ一致した、発話の異なる部分の重要性を明らかにする。 Voice activity detection (VAD) improves the performance of speaker verification (SV) by preserving speech segments and attenuating the effects of non-speech. However, this scheme is not ideal: (1) it fails in noisy environments or multi-speaker conversations; (2) it is trained based on inaccurate non-SV sensitive labels. To address this, we propose a speaker verification-based voice activity detection (SVVAD) framework that can adapt the speech features according to which are most informative for SV. To achieve this, we introduce a label-free training method with triplet-like losses that completely avoids the performance degradation of SV due to incorrect labeling. Extensive experiments show that SVVAD significantly outperforms the baseline in terms of equal error rate (EER) under conditions where other speakers are mixed at different ratios. Moreover, the decision boundaries reveal the importance of the different parts of speech, which are largely consistent with human judgments. | 翻訳日:2023-06-01 18:18:43 公開日:2023-05-31 |
# アダマールパラメータ化下における政策勾配の線形収束について On the Linear Convergence of Policy Gradient under Hadamard Parameterization ( http://arxiv.org/abs/2305.19575v1 ) ライセンス: Link先を確認 | Jiacai Liu, Jinchi Chen, and Ke Wei | (参考訳) アダマール・パラメトリゼーションの下での決定論的政策勾配の収束を表裏の設定で研究し、アルゴリズムの大域的線形収束を確立する。
この目的のために、我々はまずすべてのイテレーションに対して、エラーが$o(\frac{1}{k})$レートで減少することを示す。
この結果から,mDP問題とステップサイズにのみ依存する定数である$k_0$を繰り返した後に,アルゴリズムがより高速な局所収束率を持つことを示す。
全体として、アルゴリズムは局所的な線形収束率よりもゆるやかな定数を持つ全ての反復に対する線形収束率を示す。 The convergence of deterministic policy gradient under the Hadamard parametrization is studied in the tabular setting and the global linear convergence of the algorithm is established. To this end, we first show that the error decreases at an $O(\frac{1}{k})$ rate for all the iterations. Based on this result, we further show that the algorithm has a faster local linear convergence rate after $k_0$ iterations, where $k_0$ is a constant that only depends on the MDP problem and the step size. Overall, the algorithm displays a linear convergence rate for all the iterations with a loose constant than that for the local linear convergence rate. | 翻訳日:2023-06-01 18:18:26 公開日:2023-05-31 |
# オンラインラベルシフト:最適な動的後悔は実用的なアルゴリズムを満たす Online Label Shift: Optimal Dynamic Regret meets Practical Algorithms ( http://arxiv.org/abs/2305.19570v1 ) ライセンス: Link先を確認 | Dheeraj Baby, Saurabh Garg, Tzu-Ching Yen, Sivaraman Balakrishnan, Zachary Chase Lipton, Yu-Xiang Wang | (参考訳) 本稿では、教師付きおよび教師なしのオンラインラベルシフトに焦点を当て、クラス境界の$Q(y)$は異なるが、クラス条件の$Q(x|y)$は不変である。
教師なしの環境では、オフラインのラベル付きデータでトレーニングされた学習者を、ラベルなしオンラインデータに対するラベルの分布変更に適応させることが目標です。
教師付き設定では、分類器を学習し、ラベル付きオンラインデータのみを与えられた動的に進化するクラス限界に適応する必要がある。
ラベル分布のドリフトの程度を事前に知ることなく,適応問題をオンライン回帰に還元し,最適な動的後悔を保証する新しいアルゴリズムを開発した。
私たちのソリューションは、漂流の割合を追跡する \emph{online regression oracles} の推定値のブートストラップに基づいている。
多くのシミュレーションおよび実世界のオンラインラベルシフトシナリオにおける実験は、提案手法の優れた性能を示し、サンプルと計算効率を保ちながら精度が1-3\%向上することが多い。
コードはhttps://github.com/acmi-lab/OnlineLabelShiftで公開されている。 This paper focuses on supervised and unsupervised online label shift, where the class marginals $Q(y)$ varies but the class-conditionals $Q(x|y)$ remain invariant. In the unsupervised setting, our goal is to adapt a learner, trained on some offline labeled data, to changing label distributions given unlabeled online data. In the supervised setting, we must both learn a classifier and adapt to the dynamically evolving class marginals given only labeled online data. We develop novel algorithms that reduce the adaptation problem to online regression and guarantee optimal dynamic regret without any prior knowledge of the extent of drift in the label distribution. Our solution is based on bootstrapping the estimates of \emph{online regression oracles} that track the drifting proportions. Experiments across numerous simulated and real-world online label shift scenarios demonstrate the superior performance of our proposed approaches, often achieving 1-3\% improvement in accuracy while being sample and computationally efficient. Code is publicly available at https://github.com/acmi-lab/OnlineLabelShift. | 翻訳日:2023-06-01 18:18:15 公開日:2023-05-31 |
# クロスドメインプラネタリー・ギアボックス障害診断のための健康データマップを用いたドメイン知識による合成故障サンプル生成 Domain knowledge-informed Synthetic fault sample generation with Health Data Map for cross-domain Planetary Gearbox Fault Diagnosis ( http://arxiv.org/abs/2305.19569v1 ) ライセンス: Link先を確認 | Jong Moon Ha and Olga Fink | (参考訳) 振動信号と深層学習(dl)を用いた惑星ギアボックスの故障診断に関する広範な研究が行われている。
しかし, dlベースの手法は, ギヤボックスの動作条件が異なるため, ドメインシフト問題に影響を受けやすい。
このようなドメインシフトを克服するために、ドメイン適応とデータ合成法が提案されているが、ターゲットドメインで健全なデータしか利用できない現実の状況では直接適用されないことが多い。
本稿では,対象領域にのみ健全なデータが存在する極端領域シフトシナリオの課題を解決するために,health data map (hdmap) を用いた2つの新しいドメイン知識に基づくデータ合成手法を提案する。
提案された2つのアプローチはスケールされた CutPaste と FaultPaste と呼ばれる。
hdmapはプラネタリー・ギアボックスの振動信号をイメージライクなマトリックスとして物理的に表現するために使用され、断層関連の特徴を可視化することができる。
CutPasteとFactPasteは、それぞれソースドメインから抽出されたドメイン知識と障害シグネチャを使用して、ターゲットドメインの健全なデータに基づいて障害サンプルを生成する。
提案手法は,実際の障害を生成することに加えて,様々な重大度レベルを有する障害の合成制御のための障害シグネチャのスケーリングを導入する。
提案手法を評価するために、惑星のギアボックス試験台上でケーススタディを行った。
その結果,提案手法は,過度な領域シフトの場合であっても,障害を正確に診断でき,対象領域ではこれまで観測されていなかった障害の重大度を推定できることがわかった。 Extensive research has been conducted on fault diagnosis of planetary gearboxes using vibration signals and deep learning (DL) approaches. However, DL-based methods are susceptible to the domain shift problem caused by varying operating conditions of the gearbox. Although domain adaptation and data synthesis methods have been proposed to overcome such domain shifts, they are often not directly applicable in real-world situations where only healthy data is available in the target domain. To tackle the challenge of extreme domain shift scenarios where only healthy data is available in the target domain, this paper proposes two novel domain knowledge-informed data synthesis methods utilizing the health data map (HDMap). The two proposed approaches are referred to as scaled CutPaste and FaultPaste. The HDMap is used to physically represent the vibration signal of the planetary gearbox as an image-like matrix, allowing for visualization of fault-related features. CutPaste and FaultPaste are then applied to generate faulty samples based on the healthy data in the target domain, using domain knowledge and fault signatures extracted from the source domain, respectively. In addition to generating realistic faults, the proposed methods introduce scaling of fault signatures for controlled synthesis of faults with various severity levels. A case study is conducted on a planetary gearbox testbed to evaluate the proposed approaches. The results show that the proposed methods are capable of accurately diagnosing faults, even in cases of extreme domain shift, and can estimate the severity of faults that have not been previously observed in the target domain. | 翻訳日:2023-06-01 18:17:54 公開日:2023-05-31 |
# 適応型自己蒸留による不均一データのフェデレーション学習 Federated Learning on Heterogeneous Data via Adaptive Self-Distillation ( http://arxiv.org/abs/2305.19600v1 ) ライセンス: Link先を確認 | M.Yashwanth, Gaurav. K. Nayak, Arya Singh, Yogesh Singh, Anirban Chakraborty | (参考訳) Federated Learning(FL)は、クライアントがローカルトレーニングデータを共有せずに、局所的にトレーニングされたモデルを集約することで、グローバルモデルの共同トレーニングを可能にする機械学習パラダイムである。
実際には、各クライアントが観測するローカルデータ分布にまたがる実質的な不均一性(例えばクラス不均衡)がしばしば存在する。
このようなクライアント間の非IDデータ分散では、FLはすべてのクライアントが自身のローカルな最適化に収束する'client-drift'問題に悩まされる。
これにより、集約モデルの収束が遅くなり、性能が低下する。
この制限に対処するために、クライアント側でのトレーニングモデルのための適応自己蒸留(ASD)に基づく新しい正規化手法を提案する。
我々の正規化方式は,(1)グローバルモデルとの局所モデル予測の近接性,(2)クライアントのラベル分布に基づいて,クライアントのトレーニングデータに適応的に適応的に調整する。
提案した正則化は、既存の最先端のFLアルゴリズムに容易に組み込むことができ、これらのオフ・ザ・シェルフ法の性能がさらに向上する。
提案手法の有効性を,複数の実世界のベンチマーク(共通の腐敗と摂動を伴うデータセットを含む)による広範な実験により実証し,現状の手法よりも高い性能を示す。 Federated Learning (FL) is a machine learning paradigm that enables clients to jointly train a global model by aggregating the locally trained models without sharing any local training data. In practice, there can often be substantial heterogeneity (e.g., class imbalance) across the local data distributions observed by each of these clients. Under such non-iid data distributions across clients, FL suffers from the 'client-drift' problem where every client converges to its own local optimum. This results in slower convergence and poor performance of the aggregated model. To address this limitation, we propose a novel regularization technique based on adaptive self-distillation (ASD) for training models on the client side. Our regularization scheme adaptively adjusts to the client's training data based on: (1) the closeness of the local model's predictions with that of the global model and (2) the client's label distribution. The proposed regularization can be easily integrated atop existing, state-of-the-art FL algorithms leading to a further boost in the performance of these off-the-shelf methods. We demonstrate the efficacy of our proposed FL approach through extensive experiments on multiple real-world benchmarks (including datasets with common corruptions and perturbations) and show substantial gains in performance over the state-of-the-art methods. | 翻訳日:2023-06-01 18:10:36 公開日:2023-05-31 |
# 微粒化セマンティックリワードを用いたテキスト・画像拡散モデルの構築 Boosting Text-to-Image Diffusion Models with Fine-Grained Semantic Rewards ( http://arxiv.org/abs/2305.19599v1 ) ライセンス: Link先を確認 | Guian Fang, Zutao Jiang, Jianhua Han, Guangsong Lu, Hang Xu, Xiaodan Liang | (参考訳) テキスト間拡散モデルの最近の進歩は、与えられたテキストプロンプトから高品質でリアルな画像を生成することに成功している。
しかし,テキスト概念と生成画像との正確なモーダリティアライメントは,モーダリティの不一致を正しく診断する詳細な意味指導が欠如しているため,従来の手法では実現できなかった。
本稿では,テキストから画像への拡散モデルにおけるテキストと画像のアライメントを改善するために,キャプションの報酬と意味セグメントの報酬という2つの新しい細粒度な意味的報酬を導入することを提案する。
グローバルセマンティックビューから、キャプション報酬は、BLIP−2モデルを介して合成画像のすべての重要な内容を描いた対応する詳細なキャプションを生成し、生成されたキャプションと与えられたプロンプトとの類似度を測定して報酬スコアを算出する。
ローカルセマンティックビューでは、SAM報酬は生成された画像をカテゴリラベル付きローカル部分に分割し、大きな言語モデル、すなわちVicuna-7Bを介して、プロンプトシーンに現れる各カテゴリの可能性を測定してセグメント化された部分を評価する。
さらに,複数の報酬関数の統合によるモデルトレーニングの指導を可能にするために,報酬ランク学習戦略をアセンブル化する。
MS-COCOベンチマークにおけるテキスト・ツー・イメージモデルの適用結果から,提案したセマンティック報酬は,入力プロンプトと視覚的品質と意味的類似性の両方において,他のベースライン報酬関数よりも優れていた。
さらに,アセンブル報酬ランク学習戦略を採用することで,提案する意味的報酬と現在の画像報酬の一体化により,モデル性能がさらに向上することを示す。 Recent advances in text-to-image diffusion models have achieved remarkable success in generating high-quality, realistic images from given text prompts. However, previous methods fail to perform accurate modality alignment between text concepts and generated images due to the lack of fine-level semantic guidance that successfully diagnoses the modality discrepancy. In this paper, we propose FineRewards to improve the alignment between text and images in text-to-image diffusion models by introducing two new fine-grained semantic rewards: the caption reward and the Semantic Segment Anything (SAM) reward. From the global semantic view, the caption reward generates a corresponding detailed caption that depicts all important contents in the synthetic image via a BLIP-2 model and then calculates the reward score by measuring the similarity between the generated caption and the given prompt. From the local semantic view, the SAM reward segments the generated images into local parts with category labels, and scores the segmented parts by measuring the likelihood of each category appearing in the prompted scene via a large language model, i.e., Vicuna-7B. Additionally, we adopt an assemble reward-ranked learning strategy to enable the integration of multiple reward functions to jointly guide the model training. Adapting results of text-to-image models on the MS-COCO benchmark show that the proposed semantic reward outperforms other baseline reward functions with a considerable margin on both visual quality and semantic similarity with the input prompt. Moreover, by adopting the assemble reward-ranked learning strategy, we further demonstrate that model performance is further improved when adapting under the unifying of the proposed semantic reward with the current image rewards. | 翻訳日:2023-06-01 18:10:16 公開日:2023-05-31 |
# 半教師付きユニバーサルグラフ分類を目指して Towards Semi-supervised Universal Graph Classification ( http://arxiv.org/abs/2305.19598v1 ) ライセンス: Link先を確認 | Xiao Luo, Yusheng Zhao, Yifang Qin, Wei Ju, Ming Zhang | (参考訳) グラフニューラルネットワークは最近、グラフ分類の最先端を推し進めている。
一般的にこれらの手法は、タスク固有のラベルを必要とする、教師付きエンドツーエンドトレーニングのコンテキストで研究されている。
しかし、現実の状況ではラベル付きデータは制限される可能性があり、未知のクラスからでさえもラベル付きデータの膨大なコーパスが存在する可能性がある。
この目的に向けて,既知のクラスに属さないグラフサンプルを識別するだけでなく,残りのサンプルをそれぞれのクラスに分類する,半教師あり普遍グラフ分類の問題を検討する。
この問題は、ラベルの厳しい欠如と潜在的なクラスシフトのために難しい。
本稿では,サブグラフの観点からラベルなしデータを最大限に活用する,新しいグラフニューラルネットワークフレームワークugnnを提案する。
クラスシフトに取り組むために,未知のカテゴリからラベルなしデータの発見を行う複数のサブグラフを用いて,ラベルなしグラフの確実性を評価する。
さらに、未知のカテゴリの埋め込み空間にセマンティックプロトタイプを構築し、Sinkhorn-Knoppアルゴリズムから推定される後続のプロトタイプ代入を用いて、異なるサブグラフビューをまたいだ豊富なラベル付きグラフから学習する。
6つのデータセットに対する大規模な実験は、異なる設定でUGNNの有効性を検証する。 Graph neural networks have pushed state-of-the-arts in graph classifications recently. Typically, these methods are studied within the context of supervised end-to-end training, which necessities copious task-specific labels. However, in real-world circumstances, labeled data could be limited, and there could be a massive corpus of unlabeled data, even from unknown classes as a complementary. Towards this end, we study the problem of semi-supervised universal graph classification, which not only identifies graph samples which do not belong to known classes, but also classifies the remaining samples into their respective classes. This problem is challenging due to a severe lack of labels and potential class shifts. In this paper, we propose a novel graph neural network framework named UGNN, which makes the best of unlabeled data from the subgraph perspective. To tackle class shifts, we estimate the certainty of unlabeled graphs using multiple subgraphs, which facilities the discovery of unlabeled data from unknown categories. Moreover, we construct semantic prototypes in the embedding space for both known and unknown categories and utilize posterior prototype assignments inferred from the Sinkhorn-Knopp algorithm to learn from abundant unlabeled graphs across different subgraph views. Extensive experiments on six datasets verify the effectiveness of UGNN in different settings. | 翻訳日:2023-06-01 18:09:44 公開日:2023-05-31 |
# Zero/Few-Shot 設定における "Respectively" による推論の失敗は言語モデルに何をもたらすのか? What does the Failure to Reason with "Respectively" in Zero/Few-Shot Settings Tell Us about Language Models? ( http://arxiv.org/abs/2305.19597v1 ) ライセンス: Link先を確認 | Ruixiang Cui, Seolhwa Lee, Daniel Hershcovich, Anders S{\o}gaard | (参考訳) 人間は「ニールス・ボーアとクルト・コバーンはそれぞれコペンハーゲンとシアトルで生まれた」という文の座標構造を一生懸命理解することができる。
自然言語推論 (NLI) の文脈において, 言語モデル (LM) がそれぞれの読解(Gawron and Kehler, 2004) とどのように理性を持つかを検討する。
本稿では,様々な明示的および暗黙的実現を包含する制御型合成データセットwikiresnliと自然発生データセットnatresnliを提案する。
細調整されたNLIモデルは、明確な監督なしにそのような読みの理解に苦慮していることを示す。
明示的な手がかりが存在する場合、数発の学習は容易であるが、読み取りを暗黙的に呼び出す際には、より長いトレーニングが必要である。
さらに, 細粒度解析により, 異なる構成をまたがるモデルが一般化できないことを示す。
結論として,言語構築の長い尾に一般化する上で,LMが人間より遅れていることを示す。 Humans can effortlessly understand the coordinate structure of sentences such as "Niels Bohr and Kurt Cobain were born in Copenhagen and Seattle, respectively". In the context of natural language inference (NLI), we examine how language models (LMs) reason with respective readings (Gawron and Kehler, 2004) from two perspectives: syntactic-semantic and commonsense-world knowledge. We propose a controlled synthetic dataset WikiResNLI and a naturally occurring dataset NatResNLI to encompass various explicit and implicit realizations of "respectively". We show that fine-tuned NLI models struggle with understanding such readings without explicit supervision. While few-shot learning is easy in the presence of explicit cues, longer training is required when the reading is evoked implicitly, leaving models to rely on common sense inferences. Furthermore, our fine-grained analysis indicates models fail to generalize across different constructions. To conclude, we demonstrate that LMs still lag behind humans in generalizing to the long tail of linguistic constructions. | 翻訳日:2023-06-01 18:09:24 公開日:2023-05-31 |
# Dense and Aligned Captions (DAC)はVLモデルにおける合成推論を促進する Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models ( http://arxiv.org/abs/2305.19595v1 ) ライセンス: Link先を確認 | Sivan Doveh, Assaf Arbelle, Sivan Harary, Amit Alfassy, Roei Herzig, Donghyun Kim, Raja Giryes, Rogerio Feris, Rameswar Panda, Shimon Ullman, Leonid Karlinsky | (参考訳) 視覚と言語(VL)モデルは、画像とテキストの表現空間を整列させる効果的な方法を提供し、クロスモーダル検索、視覚的質問応答、キャプションなど多くの応用をもたらす。
しかし、人気のあるvlモデルで学習された整列した画像テキスト空間は、いわゆる「オブジェクトバイアス」に苦しんでおり、それらの表現は「名詞の袋」として振る舞う。
これらの「仮定的推論」の問題を修正する試みが最近の文献でいくつか提案されているが、まだ解決には至っていない。
本稿では,VLモデルの合成推論性能を制限する2つの要因を明らかにする。
これらの2つの要因は、VLモデルの微調整と事前学習に使用されるペアVLデータセットの特性である。
(i)本文の字幕品質又は言い換えれば「画像表示」であって、
(ii)画像に現れる細部を全て言及する意味での字幕の「密度」
本稿では,標準VLデータセット(CC3M)を利用して,これらの因子を自動的に扱うための微調整手法を提案する。
CLIPに適用すると、ベースモデルで最大$\sim27\%、最強のベースラインで最大$\sim20\%、平均6.7\%という、構成的推論のパフォーマンスが大幅に向上することを示す。 Vision and Language (VL) models offer an effective method for aligning representation spaces of images and text, leading to numerous applications such as cross-modal retrieval, visual question answering, captioning, and more. However, the aligned image-text spaces learned by all the popular VL models are still suffering from the so-called `object bias' - their representations behave as `bags of nouns', mostly ignoring or downsizing the attributes, relations, and states of objects described/appearing in texts/images. Although some great attempts at fixing these `compositional reasoning' issues were proposed in the recent literature, the problem is still far from being solved. In this paper, we uncover two factors limiting the VL models' compositional reasoning performance. These two factors are properties of the paired VL dataset used for finetuning and pre-training the VL model: (i) the caption quality, or in other words `image-alignment', of the texts; and (ii) the `density' of the captions in the sense of mentioning all the details appearing on the image. We propose a fine-tuning approach for automatically treating these factors leveraging a standard VL dataset (CC3M). Applied to CLIP, we demonstrate its significant compositional reasoning performance increase of up to $\sim27\%$ over the base model, up to $\sim20\%$ over the strongest baseline, and by $6.7\%$ on average. | 翻訳日:2023-06-01 18:09:02 公開日:2023-05-31 |
# マルウェアデータセットを用いた敵攻撃に対する機械学習と量子機械学習の脆弱性探索 : 比較分析 Exploring the Vulnerabilities of Machine Learning and Quantum Machine Learning to Adversarial Attacks using a Malware Dataset: A Comparative Analysis ( http://arxiv.org/abs/2305.19593v1 ) ライセンス: Link先を確認 | Mst Shapna Akter, Hossain Shahriar, Iysa Iqbal, MD Hossain, M.A. Karim, Victor Clincy, Razvan Voicu | (参考訳) 機械学習(ML)と量子機械学習(QML)の急成長する分野は、様々な領域にまたがる複雑な問題に取り組む上で、顕著な可能性を示している。
しかし、敵攻撃に対する感受性は、これらのシステムをセキュリティに敏感なアプリケーションにデプロイする際の懸念を引き起こす。
本研究では,MLモデルとQMLモデル,特に従来のニューラルネットワーク(NN)と量子ニューラルネットワーク(QNN)の脆弱性を,マルウェアデータセットを用いた敵攻撃に対して比較解析する。
ClaMPとして知られるソフトウェアサプライチェーンアタックデータセットを使用し、量子実装にPennylane、従来の実装にTensorFlowとKerasを使用して、QNNとNNの2つの異なるモデルを開発した。
提案手法は,データセットのごく一部にランダムノイズを導入し,精度,精度,リコール,f1スコアの指標を用いてモデル性能への影響を評価することで,逆のサンプルを作成する。
我々の観察から,MLモデルとQMLモデルの両方が敵攻撃に対する脆弱性を示す。
QNNsの精度は攻撃後のNNと比較して著しく低下するが、精度とリコールの点で優れた性能を示し、敵の条件下で真の正の検出において高いレジリエンスを示す。
また,一方のモデルに対して作成した対向型サンプルは他方の性能を損なう可能性があり,ロバストな防御機構の必要性も浮き彫りにしている。
我々の研究は、MLおよびQMLモデルのセキュリティとレジリエンス、特に最近の進歩を踏まえたQNNの強化に焦点を当てた将来の研究の基盤となる。
敵攻撃に直面した両モデルの性能と堅牢性をよりよく理解するために、より広範な実験が実施される。 The burgeoning fields of machine learning (ML) and quantum machine learning (QML) have shown remarkable potential in tackling complex problems across various domains. However, their susceptibility to adversarial attacks raises concerns when deploying these systems in security sensitive applications. In this study, we present a comparative analysis of the vulnerability of ML and QML models, specifically conventional neural networks (NN) and quantum neural networks (QNN), to adversarial attacks using a malware dataset. We utilize a software supply chain attack dataset known as ClaMP and develop two distinct models for QNN and NN, employing Pennylane for quantum implementations and TensorFlow and Keras for traditional implementations. Our methodology involves crafting adversarial samples by introducing random noise to a small portion of the dataset and evaluating the impact on the models performance using accuracy, precision, recall, and F1 score metrics. Based on our observations, both ML and QML models exhibit vulnerability to adversarial attacks. While the QNNs accuracy decreases more significantly compared to the NN after the attack, it demonstrates better performance in terms of precision and recall, indicating higher resilience in detecting true positives under adversarial conditions. We also find that adversarial samples crafted for one model type can impair the performance of the other, highlighting the need for robust defense mechanisms. Our study serves as a foundation for future research focused on enhancing the security and resilience of ML and QML models, particularly QNN, given its recent advancements. A more extensive range of experiments will be conducted to better understand the performance and robustness of both models in the face of adversarial attacks. | 翻訳日:2023-06-01 18:08:35 公開日:2023-05-31 |
# スケーラブルでハードウェア効率の良い深層学習のための集積多動作光ニューロン Integrated multi-operand optical neurons for scalable and hardware-efficient deep learning ( http://arxiv.org/abs/2305.19592v1 ) ライセンス: Link先を確認 | Chenghao Feng, Jiaqi Gu, Hanqing Zhu, Rongxing Tang, Shupeng Ning, May Hlaing, Jason Midkiff, Sourabh Jain, David Z. Pan, Ray T. Chen | (参考訳) optical neural network (onn)は、高並列性、低レイテンシ、低エネルギー消費のため、次世代ニューロモルフィックコンピューティングのための有望なハードウェアプラットフォームである。
しかし、従来の集積フォトニックテンソルコア(PTC)は信号と重み付けのために多数の単一動作光変調器を消費し、大きな面積のコストと大きなテンソル演算を実装するために高い伝搬損失をもたらす。
本研究は,マルチオペラント光デバイス,すなわちマルチオペラント光ニューロン(MOON)に基づく,スケーラブルで効率的な光ドット生成エンジンを提案する。
画像認識におけるマルチオペランドMach-Zehnder-Interferometer (MOMZI) を用いたMOONの有用性を実験的に実証した。
具体的には、4ビットの電圧制御精度を持つストリートビューハウス数(SVHN)認識データセットにおいて、MOMZIベースのONNは85.89%の精度を達成している。
さらに,128×128 MOMZIをベースとしたPSCは,伝搬損失,光遅延,デバイス全体のフットプリントを1~2桁のMZIで比較し,行列表現率に匹敵する性能を示した。 The optical neural network (ONN) is a promising hardware platform for next-generation neuromorphic computing due to its high parallelism, low latency, and low energy consumption. However, previous integrated photonic tensor cores (PTCs) consume numerous single-operand optical modulators for signal and weight encoding, leading to large area costs and high propagation loss to implement large tensor operations. This work proposes a scalable and efficient optical dot-product engine based on customized multi-operand photonic devices, namely multi-operand optical neurons (MOON). We experimentally demonstrate the utility of a MOON using a multi-operand-Mach-Zehnder-interferometer (MOMZI) in image recognition tasks. Specifically, our MOMZI-based ONN achieves a measured accuracy of 85.89% in the street view house number (SVHN) recognition dataset with 4-bit voltage control precision. Furthermore, our performance analysis reveals that a 128x128 MOMZI-based PTCs outperform their counterparts based on single-operand MZIs by one to two order-of-magnitudes in propagation loss, optical delay, and total device footprint, with comparable matrix expressivity. | 翻訳日:2023-06-01 18:08:07 公開日:2023-05-31 |
# 人工知能を用いた交通予測:最近の進歩と今後の展望 Traffic Prediction using Artificial Intelligence: Review of Recent Advances and Emerging Opportunities ( http://arxiv.org/abs/2305.19591v1 ) ライセンス: Link先を確認 | Maryam Shaygan, Collin Meese, Wanxin Li, Xiaolong Zhao, Mark Nejad | (参考訳) トラヒック予測は、世界的な重要な問題を表す交通渋滞を軽減する上で重要な役割を担っており、旅行時間の増加や燃料消費量の増加などの悪影響をもたらす。
交通システムへの新興技術の統合は、交通予測を大幅に改善する機会を与え、新たな研究課題をもたらす。
トラヒック予測におけるオープンリサーチの課題を理解するための基礎を築くため,本調査は,トラヒック予測手法の包括的概要を提供することを目的としている。
具体的には,人工知能(ai)ベースのトラヒック予測手法における最近の進歩と新たな研究機会に注目し,多変量トラヒック時系列モデリングに着目したトラヒック予測の最近の成功と可能性について述べる。
まず、文献で使用されるさまざまなデータタイプとリソースのリストと説明を提供する。
次に、トラフィック予測コンテキストにおける必須データ前処理方法を分類し、その後、予測方法とアプリケーションを要約する。
最後に,トラヒック予測における主要な研究課題を提示し,今後の研究の方向性について考察する。 Traffic prediction plays a crucial role in alleviating traffic congestion which represents a critical problem globally, resulting in negative consequences such as lost hours of additional travel time and increased fuel consumption. Integrating emerging technologies into transportation systems provides opportunities for improving traffic prediction significantly and brings about new research problems. In order to lay the foundation for understanding the open research challenges in traffic prediction, this survey aims to provide a comprehensive overview of traffic prediction methodologies. Specifically, we focus on the recent advances and emerging research opportunities in Artificial Intelligence (AI)-based traffic prediction methods, due to their recent success and potential in traffic prediction, with an emphasis on multivariate traffic time series modeling. We first provide a list and explanation of the various data types and resources used in the literature. Next, the essential data preprocessing methods within the traffic prediction context are categorized, and the prediction methods and applications are subsequently summarized. Lastly, we present primary research challenges in traffic prediction and discuss some directions for future research. | 翻訳日:2023-06-01 18:07:44 公開日:2023-05-31 |
# 神経核表面再構成 Neural Kernel Surface Reconstruction ( http://arxiv.org/abs/2305.19590v1 ) ライセンス: Link先を確認 | Jiahui Huang, Zan Gojcic, Matan Atzmon, Or Litany, Sanja Fidler, Francis Williams | (参考訳) 本稿では,大規模でスパースでノイズの多い点雲から3次元暗示面を再構成する新しい手法を提案する。
我々のアプローチは、最近導入されたNeural Kernel Fields (NKF) 表現に基づいている。
NKFと同様の一般化機能を持ち、同時に主な制限に対処する。
(a) コンパクトにサポートされたカーネル関数によって大きなシーンにスケールできるため、メモリ効率の高いスパース線形解法が利用できる。
(b)勾配フィッティング解を用いて、雑音に対して頑健である。
(c) トレーニング要件を最小限に抑え、高密度な指向ポイントのデータセットから学び、さまざまなスケールでオブジェクトとシーンからなるトレーニングデータを混在させることができます。
提案手法は,数秒で数百万のポイントを再構築し,非常に大きなシーンをアウトオブコアで処理することができる。
我々は,単一オブジェクト,屋内シーン,屋外シーンからなる再構築ベンチマークの最先端結果を得た。 We present a novel method for reconstructing a 3D implicit surface from a large-scale, sparse, and noisy point cloud. Our approach builds upon the recently introduced Neural Kernel Fields (NKF) representation. It enjoys similar generalization capabilities to NKF, while simultaneously addressing its main limitations: (a) We can scale to large scenes through compactly supported kernel functions, which enable the use of memory-efficient sparse linear solvers. (b) We are robust to noise, through a gradient fitting solve. (c) We minimize training requirements, enabling us to learn from any dataset of dense oriented points, and even mix training data consisting of objects and scenes at different scales. Our method is capable of reconstructing millions of points in a few seconds, and handling very large scenes in an out-of-core fashion. We achieve state-of-the-art results on reconstruction benchmarks consisting of single objects, indoor scenes, and outdoor scenes. | 翻訳日:2023-06-01 18:07:28 公開日:2023-05-31 |
# SLABERTの講演より - BERTによる第二言語獲得のモデル化 SLABERT Talk Pretty One Day: Modeling Second Language Acquisition with BERT ( http://arxiv.org/abs/2305.19589v1 ) ライセンス: Link先を確認 | Aditya Yadavalli, Alekhya Yadavalli, Vera Tobin | (参考訳) 第2言語習得(SLA)研究は、話者の母語(L1)の言語構造が外国語(L2)の獲得に与える影響について、言語間移動を幅広く研究してきた。
このような移動の影響は、ポジティブ(フェシリテート獲得)やネガティブ(フェシリテート獲得)である。
我々はNLP文献が陰性移行現象に十分な注意を払っていないことを発見した。
L1 と L2 間の正および負の移動パターンを理解するために, LM における逐次第二言語獲得をモデル化する。
さらに,母国語話者の母国語音声(cds)が英語習得の助けとなるか,あるいは対立する程度を理解するために,日本語,ドイツ語,フランス語,ポーランド語,インドネシア語,日本語の5つの類型的多種多様な言語からなる母語話者(mao-childes,mao-childes,mao-childes)を構築した。
ネイティブCDSの影響を調べるために,Papadimitriou と Jurafsky (2020) によって確立された TILT を用いたクロスリンガルトランスファー学習手法を用いて,人間のSLA と同様に,言語家族距離がより負のトランスファーを予測することを発見した。
また,対話型音声データは,スクリプト音声データよりも言語獲得の促進度が高いことがわかった。
我々の発見は、新しいTransformerベースのSLAモデルを使ってさらなる研究を求めており、コード、データ、モデルを公開することでそれを奨励したいと考えています。 Second language acquisition (SLA) research has extensively studied cross-linguistic transfer, the influence of linguistic structure of a speaker's native language [L1] on the successful acquisition of a foreign language [L2]. Effects of such transfer can be positive (facilitating acquisition) or negative (impeding acquisition). We find that NLP literature has not given enough attention to the phenomenon of negative transfer. To understand patterns of both positive and negative transfer between L1 and L2, we model sequential second language acquisition in LMs. Further, we build a Mutlilingual Age Ordered CHILDES (MAO-CHILDES) -- a dataset consisting of 5 typologically diverse languages, i.e., German, French, Polish, Indonesian, and Japanese -- to understand the degree to which native Child-Directed Speech (CDS) [L1] can help or conflict with English language acquisition [L2]. To examine the impact of native CDS, we use the TILT-based cross lingual transfer learning approach established by Papadimitriou and Jurafsky (2020) and find that, as in human SLA, language family distance predicts more negative transfer. Additionally, we find that conversational speech data shows greater facilitation for language acquisition than scripted speech data. Our findings call for further research using our novel Transformer-based SLA models and we would like to encourage it by releasing our code, data, and models. | 翻訳日:2023-06-01 18:07:14 公開日:2023-05-31 |
# XTransCT: Transformer Network を用いた2本の直交X線投影による超高速CT再構成 XTransCT: Ultra-Fast Volumetric CT Reconstruction using Two Orthogonal X-Ray Projections via a Transformer Network ( http://arxiv.org/abs/2305.19621v1 ) ライセンス: Link先を確認 | Chulong Zhang, Jingjing Dai, Tangsheng Wang, Xuan Liu, Yinping Chan, Lin Liu, Wenfeng He, Yaoqin Xie, Xiaokun Liang | (参考訳) CTスキャンは、患者の内臓の詳細な三次元的表現を提供する。
しかし、従来のCT再構成技術は、体の完全な回転スキャンを通して数百から数千のX線投影を取得する必要があり、手術中のナビゲーションや位置決めは不可能である。
超疎x線投影をct画像に再構成する画像誘導放射線療法では,放射線線量を大幅に削減し,測位やナビゲーションの機器負担を最小限に抑えることができる。
本研究では,2次元X線画像からのCT画像のリアルタイム再構成を容易にするために,XTransCTと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
病院から提供された50件の患者データセットと、数千件の患者を対象とするより大きなLIDC-IDRIを用いて、画像品質と構造信頼性に関するアプローチを評価する。
さらに,LNDbデータセット上でのアルゴリズムの一般化性を検証した。
本研究は, 画像品質, 構造精度, 一般化可能性において, アルゴリズムが他の手法を上回ることを示す。
さらに, 従来の3次元畳み込み法と比較して, 約300$\%の大幅な高速化を実現し, 3次元画像再構成で44msを実現した。
結果の再現性を保証するため、コードを公開しました。 Computed tomography (CT) scans offer a detailed, three-dimensional representation of patients' internal organs. However, conventional CT reconstruction techniques necessitate acquiring hundreds or thousands of x-ray projections through a complete rotational scan of the body, making navigation or positioning during surgery infeasible. In image-guided radiation therapy, a method that reconstructs ultra-sparse X-ray projections into CT images, we can exploit the substantially reduced radiation dose and minimize equipment burden for localization and navigation. In this study, we introduce a novel Transformer architecture, termed XTransCT, devised to facilitate real-time reconstruction of CT images from two-dimensional X-ray images. We assess our approach regarding image quality and structural reliability using a dataset of fifty patients, supplied by a hospital, as well as the larger public dataset LIDC-IDRI, which encompasses thousands of patients. Additionally, we validated our algorithm's generalizability on the LNDb dataset. Our findings indicate that our algorithm surpasses other methods in image quality, structural precision, and generalizability. Moreover, in comparison to previous 3D convolution-based approaches, we note a substantial speed increase of approximately 300 $\%$, achieving 44 ms per 3D image reconstruction. To guarantee the replicability of our results, we have made our code publicly available. | 翻訳日:2023-06-01 18:01:29 公開日:2023-05-31 |
# msmix:補間に基づくテキストデータ拡張手法 : manifold swap mixup MSMix:An Interpolation-Based Text Data Augmentation Method Manifold Swap Mixup ( http://arxiv.org/abs/2305.19617v1 ) ライセンス: Link先を確認 | Mao Ye, Haitao Wang, Zheqian Chen | (参考訳) データ不足によるディープニューラルネットワークモデルの性能低下の問題を解決するため、簡易かつ効果的な補間に基づくデータ拡張手法であるmsmix(manifold swap mixup)を提案する。
この方法は、2つの異なるサンプルを同じディープニューラルネットワークモデルに供給し、次に特定の層をランダムに選択し、サンプルの1つの層にある隠れた特徴を他方の層に部分的に置き換える。
混合された隠れ機能はモデルに供給され、ネットワークの他の部分を通過する。
よりリッチな隠れ表現を得るために、2つの異なる選択戦略も提案されている。
中国における3つの意図認識データセットを用いて実験を行い,MSMix法は全サンプル構成と小サンプル構成の両方において,他の手法よりも優れた結果が得られることを示した。 To solve the problem of poor performance of deep neural network models due to insufficient data, a simple yet effective interpolation-based data augmentation method is proposed: MSMix (Manifold Swap Mixup). This method feeds two different samples to the same deep neural network model, and then randomly select a specific layer and partially replace hidden features at that layer of one of the samples by the counterpart of the other. The mixed hidden features are fed to the model and go through the rest of the network. Two different selection strategies are also proposed to obtain richer hidden representation. Experiments are conducted on three Chinese intention recognition datasets, and the results show that the MSMix method achieves better results than other methods in both full-sample and small-sample configurations. | 翻訳日:2023-06-01 18:01:07 公開日:2023-05-31 |
# 非エルミート的自己イオン化の風景 The non-Hermitian landscape of autoionization ( http://arxiv.org/abs/2305.19615v1 ) ライセンス: Link先を確認 | G. Mouloudakis, P. Lambropoulos | (参考訳) 単共振自己イオン化における例外点(EP)の存在を報告し、ファノ非対称性パラメータの観点からパラメータ空間における位置の解析式を提供する。
また,システムパラメータの関数としてのイオン化確率に関する情報のみに基づいて,EPの実験的決定のための信頼性の高い手法を提案する。
epsと非対称プロファイルの最大値と基底状態の有効減衰率との関係を詳細に検討した。
ヘリウムの2倍励起2s2p({}^1P)$状態に関する定量的数値例は、我々の定式化と結果の有効性を確認した。 We report on the existence of exceptional points (EPs) in single-resonance autoionization and provide analytical expressions for their positions in parameter space, in terms of the Fano asymmetry parameter. We additionally propose a reliable method for the experimental determination of EPs, based solely on information about their ionization probability as a function of the system parameters. The links between EPs, the maxima of the asymmetric profile and the effective decay rate of the ground state are investigated in detail. Quantitative numerical examples pertaining to the doubly excited $2s2p({}^1P)$ state of Helium confirm the validity of our formulation and results. | 翻訳日:2023-06-01 18:00:53 公開日:2023-05-31 |
# 部分位相反転型量子ウォークによるハイパーキューブ上の複数の隣接マーク付き頂点の探索 Search for Multiple Adjacent Marked Vertices on the Hypercube by a Quantum Walk with Partial Phase Inversion ( http://arxiv.org/abs/2305.19614v1 ) ライセンス: Link先を確認 | Luciano S. de Souza, Jonathan H. A. de Carvalho, Henrique C. T. Santos, Tiago A. E. Ferreira | (参考訳) 量子探索アルゴリズムには強い関心があり、特に隣接する複数の解の問題を扱っている。
ハイパーキューブでは、量子系のエネルギーの一部がターゲット状態に隣接する状態に保持され、対象状態が観測される確率が減少する。
本稿では,多ループラカダイシカル量子ウォークを部分位相インバージョンで適用し,ハイパーキューブ上に隣接する複数のマーク付き頂点を探索する。
マークされた頂点のタイプのような側面は、複数の自己ループと重量組成の使用に加えて考慮される。
2つのシナリオが分析される。
まず、隣接点の頂点と隣接点の頂点の相対的な位置が一致する。
次に、隣接するマークされた頂点のみを分析する。
ここでは、部分位相反転により、量子ウォークがターゲット状態の確率振幅を増幅し、1ドルに近い値の成功確率に達することを実験的に示す。
また,非隣接標識頂点の相対的位置が検索結果に有意な影響を及ぼさないことを示す。
その結果, 対象状態の部分相反転は, 実探索アプリケーションにおいて重要な能力である量子ウォークによる隣接解の探索に代わる有望な方法であることがわかった。 There is a strong interest in quantum search algorithms, particularly in problems with multiple adjacent solutions. In the hypercube, part of the energy of the quantum system is retained in states adjacent to the target states, decreasing the chances of the target states being observed. This paper applies the Multiself-loop Lackadaisical Quantum Walk with Partial Phase Inversion to search for multiple adjacent marked vertices on the hypercube. Aspects like the type of marked vertices are considered in addition to using multiple self-loops and weight compositions. Two scenarios are analyzed. Firstly, the relative position of non-adjacent marked vertices together with adjacent marked vertices. Secondly, only adjacent marked vertices are analyzed. Here, we show experimentally that, with partial phase inversion, a quantum walk can amplify the probability amplitudes of the target states, reaching success probabilities of values close to $1$. We also show that the relative position of non-adjacent marked vertices does not significantly influence the search results. Our results demonstrate that the partial phase inversion of target states is a promising alternative to search adjacent solutions with quantum walks, which is a key capacity for real search applications. | 翻訳日:2023-06-01 18:00:36 公開日:2023-05-31 |
# Underwater-Art:水中音響目標認識のためのテキストテンプレートによる情報視点の拡大 Underwater-Art: Expanding Information Perspectives With Text Templates For Underwater Acoustic Target Recognition ( http://arxiv.org/abs/2305.19612v1 ) ライセンス: Link先を確認 | Yuan Xie, Jiawei Ren, Ji Xu | (参考訳) 水中音響目標認識は, 複雑な音源特性と伝搬パターンにより, 難易度の高い課題である。
不十分なデータと狭い情報の観点から制限されたディープラーニングに基づく認識モデルは、実践的な水中シナリオでは不十分に思える。
水中の音響信号は距離、チャンネルの深さ、その他の要因によって大きく影響を受けるが、関連する情報の注釈はしばしば不均一で不完全であり、使用が難しい。
本研究では,豊富な関連情報(以下「UART」という)からなるテンプレートに基づく水中音響認識の実装を提案する。
さまざまな視点から関連する情報を記述自然言語に統合するテンプレートを設計する。
uartは、音声-スペクトログラム-テキストの3-モーダルコントラスト学習フレームワークを採用しており、uartを記述的自然言語による音響表現の学習を導くことができる。
実験の結果,UARTは従来のパラダイムよりも認識能力と一般化性能が優れていることがわかった。
さらに、事前訓練されたUARTモデルは、補助アノテーションなしでシナリオにおける認識モデルに対する優れた事前知識を提供することができる。 Underwater acoustic target recognition is an intractable task due to the complex acoustic source characteristics and sound propagation patterns. Limited by insufficient data and narrow information perspective, recognition models based on deep learning seem far from satisfactory in practical underwater scenarios. Although underwater acoustic signals are severely influenced by distance, channel depth, or other factors, annotations of relevant information are often non-uniform, incomplete, and hard to use. In our work, we propose to implement Underwater Acoustic Recognition based on Templates made up of rich relevant information (hereinafter called "UART"). We design templates to integrate relevant information from different perspectives into descriptive natural language. UART adopts an audio-spectrogram-text tri-modal contrastive learning framework, which endows UART with the ability to guide the learning of acoustic representations by descriptive natural language. Our experiments reveal that UART has better recognition capability and generalization performance than traditional paradigms. Furthermore, the pre-trained UART model could provide superior prior knowledge for the recognition model in the scenario without any auxiliary annotation. | 翻訳日:2023-06-01 18:00:02 公開日:2023-05-31 |
# テキスト分類システムにおけるラベルのクリーンなバックドア攻撃と防御 Adversarial Clean Label Backdoor Attacks and Defenses on Text Classification Systems ( http://arxiv.org/abs/2305.19607v1 ) ライセンス: Link先を確認 | Ashim Gupta, Amrith Krishna | (参考訳) クリーンラベル攻撃(clean-label attack)は、学習データのテキスト入力のみを、ラベル機能へのアクセスを必要とせずに修飾する、データ中毒攻撃の一形態である。
clアタックはラベルフリップ(lf)アタックと比べ、nlpでは比較的未解決であり、後者ではラベリング機能へのアクセスも必要となる。
clアタックはlfアタックよりもデータサニタイズや手作業によるリラベル化に耐性があるが、lfアタックよりも10倍の有毒予算を要求することが多い。
そこで本研究では,まず,トレーニングセットに毒を盛る際のクラス内トレーニング例を逆向きに摂動できる,逆行性クリーンラベル攻撃を導入する。
次に、逆境がcl攻撃に対するデータ要求を著しく削減し、前述のアプローチを用いて、必要なデータの20%程度に抑えることができることを示す。
lf攻撃とcl攻撃の両方に対して,これまではテキスト領域のlf攻撃のみに使用されていたものや,コンピュータビジョンから適応したものなど,多くの防御手法を体系的にベンチマークし,分析した。
テキスト固有の防御効果は,その特性によって大きく異なることがわかった。 Clean-label (CL) attack is a form of data poisoning attack where an adversary modifies only the textual input of the training data, without requiring access to the labeling function. CL attacks are relatively unexplored in NLP, as compared to label flipping (LF) attacks, where the latter additionally requires access to the labeling function as well. While CL attacks are more resilient to data sanitization and manual relabeling methods than LF attacks, they often demand as high as ten times the poisoning budget than LF attacks. In this work, we first introduce an Adversarial Clean Label attack which can adversarially perturb in-class training examples for poisoning the training set. We then show that an adversary can significantly bring down the data requirements for a CL attack, using the aforementioned approach, to as low as 20% of the data otherwise required. We then systematically benchmark and analyze a number of defense methods, for both LF and CL attacks, some previously employed solely for LF attacks in the textual domain and others adapted from computer vision. We find that text-specific defenses greatly vary in their effectiveness depending on their properties. | 翻訳日:2023-06-01 17:59:32 公開日:2023-05-31 |
# パラメータフリープロジェクション勾配降下 Parameter-free projected gradient descent ( http://arxiv.org/abs/2305.19605v1 ) ライセンス: Link先を確認 | Evgenii Chzhen (LMO, CELESTE), Christophe Giraud (LMO, CELESTE), Gilles Stoltz (LMO, CELESTE) | (参考訳) 我々は、射影勾配 Descent (PGD) を用いて、閉凸集合上の凸関数を最小化する問題を考える。
本稿では,初期化と最適化の間の距離と,次数列の平方ノルムの和に適応した完全パラメータフリーバージョンのadagradを提案する。
提案手法は, プロジェクションステップを処理可能で, 再スタートや軌道に沿っての緩和, 従来のpgdと比較してさらなる勾配評価を行なわない。
また、累積的な後悔から対数因子までの収束率を最適に満たしている。
本稿では,確率的最適化へのアプローチを拡張し,発展理論を支持する数値実験を行う。 We consider the problem of minimizing a convex function over a closed convex set, with Projected Gradient Descent (PGD). We propose a fully parameter-free version of AdaGrad, which is adaptive to the distance between the initialization and the optimum, and to the sum of the square norm of the subgradients. Our algorithm is able to handle projection steps, does not involve restarts, reweighing along the trajectory or additional gradient evaluations compared to the classical PGD. It also fulfills optimal rates of convergence for cumulative regret up to logarithmic factors. We provide an extension of our approach to stochastic optimization and conduct numerical experiments supporting the developed theory. | 翻訳日:2023-06-01 17:59:09 公開日:2023-05-31 |
# ドメイン知識を用いた深層学習による薬剤推奨 Medication Recommendation via Domain Knowledge Informed Deep Learning ( http://arxiv.org/abs/2305.19604v1 ) ライセンス: Link先を確認 | Sicen Liu, Xiaolong Wang, Xianbing Zhao, Hao Chen | (参考訳) 薬の推奨は医療の基本的かつ重要な分野であり、複雑な健康状態の患者に対して、より正確な処方薬を使用して臨床医師を支援する機会を提供する。
電子健康記録(ehr)から薬を推奨する学習は、これまでの研究では最も一般的な方法である。
しかし,そのほとんどは,患者のERHにおける臨床症状に応じて,ドメイン知識を取り入れることを無視している。
これらの課題に対処するため,本論文では,患者の観察可能な臨床症状とドメイン知識を統合するために,新規な「textbf{D}omain \textbf{K}nowledge \textbf{I}nformed \textbf{Net}work」(DKINet)を提案する。
特に,まず知識駆動型エンコーダを設計し,次にデータ駆動型エンコーダを開発し,観測可能なEHRにドメイン知識を統合する。
このモデルに時間的決定能力を持たせるために,患者の経時的依存を学習するための明示的な薬剤エンコーダを設計する。
3つの公開データセットに対する大規模な実験により,本手法の優位性が確認された。
コードは受理すれば公開されます。 Medication recommendation is a fundamental yet crucial branch of healthcare, which provides opportunities to support clinical physicians with more accurate medication prescriptions for patients with complex health conditions. Learning from electronic health records (EHR) to recommend medications is the most common way in previous studies. However, most of them neglect incorporating domain knowledge according to the clinical manifestations in the EHR of the patient. To address these issues, we propose a novel \textbf{D}omain \textbf{K}nowledge \textbf{I}nformed \textbf{Net}work (DKINet) to integrate domain knowledge with observable clinical manifestations of the patient, which is the first dynamic domain knowledge informed framework toward medication recommendation. In particular, we first design a knowledge-driven encoder to capture the domain information and then develop a data-driven encoder to integrate domain knowledge into the observable EHR. To endow the model with the capability of temporal decision, we design an explicit medication encoder for learning the longitudinal dependence of the patient. Extensive experiments on three publicly available datasets verify the superiority of our method. The code will be public upon acceptance. | 翻訳日:2023-06-01 17:58:48 公開日:2023-05-31 |
# 音声単位を用いた可知音声合成 Intelligible Lip-to-Speech Synthesis with Speech Units ( http://arxiv.org/abs/2305.19603v1 ) ライセンス: Link先を確認 | Jeongsoo Choi, Minsu Kim, Yong Man Ro | (参考訳) 本稿では,無声唇運動ビデオから理解可能な音声を合成するl2s(l2-speech synthesis)フレームワークを提案する。
具体的には,従来のL2Sモデルの過小評価信号を補うために,L2Sモデルの新たな予測ターゲットとして,名前付き音声単位を用いた量子化された自己教師付き音声表現を提案する。
そこで提案したL2Sモデルは,複数の目標,メルスペクトル,音声単位を生成するために訓練される。
メルスペクトログラムが連続する間、音声単位は離散的であるため、提案する多目的l2sモデルは、テキストラベルデータを用いることなく、強いコンテンツ監督によって訓練することができる。
さらに,合成したメルスペクトルを波形に変換するために,音声単位を参照して,ぼやけやうるさいメルスペクトルからでも明瞭な波形を生成するマルチ入力ボコーダを導入する。
L2Sにおける提案手法の有効性を実験的に検証した。 In this paper, we propose a novel Lip-to-Speech synthesis (L2S) framework, for synthesizing intelligible speech from a silent lip movement video. Specifically, to complement the insufficient supervisory signal of the previous L2S model, we propose to use quantized self-supervised speech representations, named speech units, as an additional prediction target for the L2S model. Therefore, the proposed L2S model is trained to generate multiple targets, mel-spectrogram and speech units. As the speech units are discrete while mel-spectrogram is continuous, the proposed multi-target L2S model can be trained with strong content supervision, without using text-labeled data. Moreover, to accurately convert the synthesized mel-spectrogram into a waveform, we introduce a multi-input vocoder that can generate a clear waveform even from blurry and noisy mel-spectrogram by referring to the speech units. Extensive experimental results confirm the effectiveness of the proposed method in L2S. | 翻訳日:2023-06-01 17:58:24 公開日:2023-05-31 |
# テキスト監督による音楽系列表現の学習 Learning Music Sequence Representation from Text Supervision ( http://arxiv.org/abs/2305.19602v1 ) ライセンス: Link先を確認 | Tianyu Chen, Yuan Xie, Shuai Zhang, Shaohan Huang, Haoyi Zhou, Jianxin Li | (参考訳) 音楽表現学習は、数的信号の列に含まれる複雑な人間関係の概念によって悪名高い。
ラベル付き音声からのMUSic Sequence Representationを改善するために,MUSERという新たなテキストスーパービジョン事前学習手法を提案する。
muserは、テキスト入力がテキストテンプレートの助けを借りて任意の形式のメタデータになり、スペクトルはオーディオシーケンスから派生する、オーディオ-スペクトラム-テキストの3-モーダルコントラスト学習フレームワークを採用している。
実験の結果、museerは現在のデータ・ハングリー事前学習法と比較して、下流タスクに柔軟に対応できることが明らかとなり、最新性能を達成するためには事前学習データの0.056%しか必要としなかった。 Music representation learning is notoriously difficult for its complex human-related concepts contained in the sequence of numerical signals. To excavate better MUsic SEquence Representation from labeled audio, we propose a novel text-supervision pre-training method, namely MUSER. MUSER adopts an audio-spectrum-text tri-modal contrastive learning framework, where the text input could be any form of meta-data with the help of text templates while the spectrum is derived from an audio sequence. Our experiments reveal that MUSER could be more flexibly adapted to downstream tasks compared with the current data-hungry pre-training method, and it only requires 0.056% of pre-training data to achieve the state-of-the-art performance. | 翻訳日:2023-06-01 17:58:06 公開日:2023-05-31 |
# ローカライゼーションを用いたグラフニューラルネットワークの表現性向上 Improving Expressivity of Graph Neural Networks using Localization ( http://arxiv.org/abs/2305.19659v1 ) ライセンス: Link先を確認 | Anant Kumar, Shrutimoy Das, Shubhajit Roy, Binita Maity, Anirban Dasgupta | (参考訳) 本稿では,Weisfeiler-Leman (WL)アルゴリズムの局所化バージョンを提案する。
サブグラフカウントの特定の問題に焦点を当て、任意の$k$に対して$k-$WLのローカライズされたバージョンを与える。
局所$k-$WLのパワーを分析し、$k-$WLよりも表現力が高く、少なくとも$(k+1)-$WLと同じくらい表現力があることを示す。
2つのグラフが局所$k-$WL同値であれば、部分グラフと誘導部分グラフとして数えられるパターンのキャラクタリゼーションを与える。
また、$k-$WL: Layer $k-$WLとrecursive $k-$WLの2つのバリエーションを導入します。
これらの方法はグラフ全体に$k-$WLを適用するよりも時間と空間効率がよい。
また,1-$WL のみを用いて,最大 4 個の部分グラフの正確な数を保証するフラグメンテーション手法を提案する。
同じアイデアは、$k>1$を使って、より大きなパターンにも拡張できる。
また、Local $k-$WL の表現力と他の GNN 階層との比較を行い、時間的複雑さの制限が与えられた場合、我々の手法は Papp や Wattenhofer[2022a] の手法よりも表現力が高いことを示す。 In this paper, we propose localized versions of Weisfeiler-Leman (WL) algorithms in an effort to both increase the expressivity, as well as decrease the computational overhead. We focus on the specific problem of subgraph counting and give localized versions of $k-$WL for any $k$. We analyze the power of Local $k-$WL and prove that it is more expressive than $k-$WL and at most as expressive as $(k+1)-$WL. We give a characterization of patterns whose count as a subgraph and induced subgraph are invariant if two graphs are Local $k-$WL equivalent. We also introduce two variants of $k-$WL: Layer $k-$WL and recursive $k-$WL. These methods are more time and space efficient than applying $k-$WL on the whole graph. We also propose a fragmentation technique that guarantees the exact count of all induced subgraphs of size at most 4 using just $1-$WL. The same idea can be extended further for larger patterns using $k>1$. We also compare the expressive power of Local $k-$WL with other GNN hierarchies and show that given a bound on the time-complexity, our methods are more expressive than the ones mentioned in Papp and Wattenhofer[2022a]. | 翻訳日:2023-06-01 17:49:58 公開日:2023-05-31 |
# 副詞 驚くべきことに Adverbs, Surprisingly ( http://arxiv.org/abs/2305.19650v1 ) ライセンス: Link先を確認 | Dmitry Nikolaev and Collin F. Baker and Miriam R.L. Petruck and Sebastian Pad\'o | (参考訳) 本稿では, 副詞は計算言語学では無視されるという前提から始める。
この見解は2つの分析から導かれる: 文献レビューと、最先端の言語モデルを探索する新しい副詞データセットにより、副詞の意味を考慮に入れた体系的なギャップを明らかにする。
我々は,単語の意味を特徴付けるためにフレームセマンティックスを用いることで,曖昧さ,意味的役割,およびヌルインスタンス化を記述できることから,アドバーブ解析に有望なアプローチが提案される。 This paper begins with the premise that adverbs are neglected in computational linguistics. This view derives from two analyses: a literature review and a novel adverb dataset to probe a state-of-the-art language model, thereby uncovering systematic gaps in accounts for adverb meaning. We suggest that using Frame Semantics for characterizing word meaning, as in FrameNet, provides a promising approach to adverb analysis, given its ability to describe ambiguity, semantic roles, and null instantiation. | 翻訳日:2023-06-01 17:49:36 公開日:2023-05-31 |
# Mask, Stitch, Re-Sample:自動拡散モデルによる異常検出におけるロバストさと一般化性の向上 Mask, Stitch, and Re-Sample: Enhancing Robustness and Generalizability in Anomaly Detection through Automatic Diffusion Models ( http://arxiv.org/abs/2305.19643v1 ) ライセンス: Link先を確認 | Cosmin I. Bercea and Michael Neumayr and Daniel Rueckert and Julia A. Schnabel | (参考訳) 異常検出における拡散モデルの導入は、病理学におけるより効果的で正確な画像再構成の道を開いた。
しかし、ノイズ粒度制御の現在の制限は、拡散モデルが様々な異常タイプにまたがって一般化し、健全な組織の回復を損なう能力を妨げる。
これらの課題を克服するために,拡散モデルの堅牢性を高める新しいアプローチであるAutoDDPMを提案する。
AutoDDPMは拡散モデルを用いて潜在的な異常の最初の確率マップを生成し、それらを元の画像とシームレスに統合する。
ジョイントノイズ分布再サンプリングにより、AutoDDPMは調和と塗装効果を達成する。
本研究は, 拡散モデルの限界を大幅に超え, 健全な組織を保存しながら, 異常領域を置換するAutoDDPMの有効性を示す。
また、現在の拡散モデルの限界についての貴重な洞察と分析を提供し、医療画像における堅牢で解釈可能な異常検出を促進する。 The introduction of diffusion models in anomaly detection has paved the way for more effective and accurate image reconstruction in pathologies. However, the current limitations in controlling noise granularity hinder diffusion models' ability to generalize across diverse anomaly types and compromise the restoration of healthy tissues. To overcome these challenges, we propose AutoDDPM, a novel approach that enhances the robustness of diffusion models. AutoDDPM utilizes diffusion models to generate initial likelihood maps of potential anomalies and seamlessly integrates them with the original image. Through joint noised distribution re-sampling, AutoDDPM achieves harmonization and in-painting effects. Our study demonstrates the efficacy of AutoDDPM in replacing anomalous regions while preserving healthy tissues, considerably surpassing diffusion models' limitations. It also contributes valuable insights and analysis on the limitations of current diffusion models, promoting robust and interpretable anomaly detection in medical imaging - an essential aspect of building autonomous clinical decision systems with higher interpretability. | 翻訳日:2023-06-01 17:49:26 公開日:2023-05-31 |
# 集積光電子受信機を用いた10gbaudにおける連続可変量子鍵分布 Continuous-Variable Quantum Key Distribution at 10 GBaud using an Integrated Photonic-Electronic Receiver ( http://arxiv.org/abs/2305.19642v1 ) ライセンス: Link先を確認 | Adnan A.E. Hajomer, Cedric Bruynsteen, Ivan Derkach, Nitin Jain, Axl Bomhals, Sarah Bastiaens, Ulrik L. Andersen, Xin Yin, and Tobias Gehring | (参考訳) 量子鍵分布 (qkd) は、情報理論上安全な鍵交換を保証する量子情報理論のよく知られた応用である。
QKDがますます商用化されるにつれて、スケーラビリティ、ネットワーク統合、高生産コストといった課題に対処する必要がある。
低コストで大量生産可能なフォトニックおよび電子集積回路は、次世代qkdシステムの大規模展開の鍵を握っている。
本稿では、位相差受信器を実装したシリコンフォトニック集積回路と、カスタム設計のGaAs pHEMTトランスインピーダンス増幅器を組み合わせた連続可変(CV)QKDシステムを提案する。
QKDシステムは10GBaudという古典的な通信シンボルレートで動作し、高い秘密鍵レートは5kmで0.7Gb/s、0.3Gb/sで10kmで発生する。
秘密鍵は有限サイズ効果を考慮した集団攻撃に対して安全である。
良く設計されたデジタル信号処理により高速動作が可能となった。
我々の実験は、セキュアな量子通信のための新しい記録を設定し、次世代のCV-QKDシステムへの道を開く。 Quantum key distribution (QKD) is a well-known application of quantum information theory that guarantees information-theoretically secure key exchange. As QKD becomes more and more commercially viable, challenges such as scalability, network integration, and high production costs need to be addressed. Photonic and electronic integrated circuits that can be produced in large volumes at low cost hold the key to large-scale deployment of next-generation QKD systems. Here, we present a continuous-variable (CV) QKD system using an integrated photonic-electronic receiver that combines a silicon photonic integrated circuit implementing a phase-diverse receiver with custom-designed GaAs pHEMT transimpedance amplifiers. The QKD system operates at a classical telecom symbol rate of 10 GBaud, generating high secret key rates exceeding 0.7 Gb/s over a distance of 5 km and 0.3 Gb/s over a distance of 10 km. The secret keys are secure against collective attacks with finite-size effects taken into account. Well-designed digital signal processing enabled the high-speed operation. Our experiment sets a new record for secure quantum communication and paves the way for the next generation of CV-QKD systems. | 翻訳日:2023-06-01 17:49:08 公開日:2023-05-31 |
# ディープreluネットワークを用いたペアワイズ学習の最適推定 Optimal Estimates for Pairwise Learning with Deep ReLU Networks ( http://arxiv.org/abs/2305.19640v1 ) ライセンス: Link先を確認 | Junyu Zhou, Shuo Huang, Han Feng, Ding-Xuan Zhou | (参考訳) ペアワイズ学習(Pairwise learning)とは、損失が一対のサンプルを考慮に入れたタスクを学習することである。
本稿では,深いReLUネットワークを用いてペアワイズ学習を行い,過剰な一般化誤差を推定する。
いくつかの穏やかな条件を満たす一般的な損失に対して、$o((v\log(n) /n)^{1/(2-\beta)})$の推測誤差に対するシャープバウンドが確立される。
特に、ペアの最小二乗損失で、真の予測器がいくつかの滑らかな正則性を満たすとき、対数項までの最小値下界を達成する過大一般化誤差のほぼ最適境界を導出する。 Pairwise learning refers to learning tasks where a loss takes a pair of samples into consideration. In this paper, we study pairwise learning with deep ReLU networks and estimate the excess generalization error. For a general loss satisfying some mild conditions, a sharp bound for the estimation error of order $O((V\log(n) /n)^{1/(2-\beta)})$ is established. In particular, with the pairwise least squares loss, we derive a nearly optimal bound of the excess generalization error which achieves the minimax lower bound up to a logrithmic term when the true predictor satisfies some smoothness regularities. | 翻訳日:2023-06-01 17:48:52 公開日:2023-05-31 |
# 絡み合った光によるLEOクロック同期 LEO Clock Synchronization with Entangled Light ( http://arxiv.org/abs/2305.19639v1 ) ライセンス: Link先を確認 | Ronakraj Gosalia, Robert Malaney, Ryan Aguinaldo and Jonathan Green | (参考訳) 精密ナビゲーションとタイミング、非常に長いベースライン干渉計、次世代通信、センシング、基礎物理学のテストはすべて、高度に同期されたクロックネットワークを必要とする。
高精度の光原子時計の進歩により、同期の精度の要求は古典物理学の限界(つまり標準量子限界、sql)に達している。
基本的な Heisenberg の限界に達するために,SQL を効率よく克服することは,シャープされた光や絡み合った光を使用することで実現できる。
ハイゼンベルク限界へのアプローチは理論的にはよく理解されているが、空間ベースのプラットフォームのような実用的な実装では、その利点は追加のコストと複雑さを上回っている。
エンタングルメントは、失われた衛星から衛星へのチャネルに対するクロック同期において、量子的な優位性をもたらすか?
非対称な損失チャネルでも、2モードの絡み合いの性質によって得られる冗長性が回復可能であることを示す。
さらに,この回復性は,単一モードのスクイーズセンシングよりも改善され,空間ベースのセンシングアプリケーションに対する新しい複雑さとパフォーマンスのトレードオフを示す。 Precision navigation and timing, very-long-baseline interferometry, next-generation communication, sensing, and tests of fundamental physics all require a highly synchronized network of clocks. With the advance of highly-accurate optical atomic clocks, the precision requirements for synchronization are reaching the limits of classical physics (i.e. the standard quantum limit, SQL). Efficiently overcoming the SQL to reach the fundamental Heisenberg limit can be achieved via the use of squeezed or entangled light. Although approaches to the Heisenberg limit are well understood in theory, a practical implementation, such as in space-based platforms, requires that the advantage outweighs the added costs and complexity. Here, we focus on the question: can entanglement yield a quantum advantage in clock synchronization over lossy satellite-to-satellite channels? We answer in the affirmative, showing that the redundancy afforded by the two-mode nature of entanglement allows recoverability even over asymmetrically lossy channels. We further show this recoverability is an improvement over single-mode squeezing sensing, thereby illustrating a new complexity-performance trade-off for space-based sensing applications. | 翻訳日:2023-06-01 17:48:37 公開日:2023-05-31 |
# U-Net設計と分析のための統一フレームワーク A Unified Framework for U-Net Design and Analysis ( http://arxiv.org/abs/2305.19638v1 ) ライセンス: Link先を確認 | Christopher Williams, Fabian Falck, George Deligiannidis, Chris Holmes, Arnaud Doucet, Saifuddin Syed | (参考訳) U-Netは、画像や部分微分方程式(PDE)のような正方形上の連続的な信号のための多数のタスクにまたがる、最先端のニューラルネットワークアーキテクチャである。
本稿では,一般的なU-Netアーキテクチャの設計と解析のためのフレームワークを提供する。
U-Netにおけるエンコーダとデコーダの役割,その高分解能スケーリング限界,およびプリコンディショニングによるResNetsへの共役性を特徴付ける理論的結果を示す。
学習可能なパラメータを含まない簡易なウェーブレット型エンコーダを用いたマルチResNet, U-Netsを提案する。
さらに,関数制約,自然基底,あるいはデータの幾何学を符号化する新しいU-Netアーキテクチャの設計方法について述べる。
拡散モデルでは,高周波情報が指数関数的に高速にノイズに支配されていることを識別し,平均プールを持つU-Netがこれをどのように活用するかを示す。
実験では,画像分割,PDEサロゲートモデリング,拡散モデルを用いた生成モデルにおいて,従来のU-Netと比較して,マルチResNetが競争力があり,しばしば優れた性能を発揮することを示す。
我々のU-Netフレームワークは、U-Netの理論的性質を研究し、広場を越えて様々な問題のために自然でスケーラブルなニューラルアーキテクチャを設計する道を開く。 U-Nets are a go-to, state-of-the-art neural architecture across numerous tasks for continuous signals on a square such as images and Partial Differential Equations (PDE), however their design and architecture is understudied. In this paper, we provide a framework for designing and analysing general U-Net architectures. We present theoretical results which characterise the role of the encoder and decoder in a U-Net, their high-resolution scaling limits and their conjugacy to ResNets via preconditioning. We propose Multi-ResNets, U-Nets with a simplified, wavelet-based encoder without learnable parameters. Further, we show how to design novel U-Net architectures which encode function constraints, natural bases, or the geometry of the data. In diffusion models, our framework enables us to identify that high-frequency information is dominated by noise exponentially faster, and show how U-Nets with average pooling exploit this. In our experiments, we demonstrate how Multi-ResNets achieve competitive and often superior performance compared to classical U-Nets in image segmentation, PDE surrogate modelling, and generative modelling with diffusion models. Our U-Net framework paves the way to study the theoretical properties of U-Nets and design natural, scalable neural architectures for a multitude of problems beyond the square. | 翻訳日:2023-06-01 17:48:17 公開日:2023-05-31 |
# m-healthと臨床データを用いた栄養失調リスク予測のための説明可能なAI Explainable AI for Malnutrition Risk Prediction from m-Health and Clinical Data ( http://arxiv.org/abs/2305.19636v1 ) ライセンス: Link先を確認 | Flavio Di Martino, Franca Delmastro, Cristina Dolciotti | (参考訳) 栄養失調は高齢者の深刻な健康問題であり、特に入院や施設での健康問題である。
栄養管理と予防には、正確で早期のリスク検出が不可欠である。
人工知能(AI)によって強化されたMヘルスサービスは、より自動化され、客観的で、継続的な監視と評価の観点から重要な改善をもたらす可能性がある。
さらに、最新の説明可能なAI(XAI)方法論は、AI決定を解釈可能で、エンドユーザにとって信頼できるものにする可能性がある。
異種m-healthデータに基づく早期かつ説明可能な栄養失調リスク検出のための新しいAIフレームワークを提案する。
対象非依存とパーソナライズドの両方の予測を含む広範なモデル評価を行い,得られた結果から,特に体組成評価データを取り入れた場合,ランダムフォレスト (rf) と勾配促進が最良であることを示す。
また,グローバルモデル記述を抽出するベンチマークXAI法についても検討した。
モデル固有の説明整合性評価は、選択された各モデルが最も関連する予測者の類似部分集合を許容することを示し、シャープリー加法説明 (shap) と特徴置換法の間で最も高い一致を示す。
さらに,現在のエビデンスに基づく評価に適合していることを確認するための予備的臨床検証を行った。 Malnutrition is a serious and prevalent health problem in the older population, and especially in hospitalised or institutionalised subjects. Accurate and early risk detection is essential for malnutrition management and prevention. M-health services empowered with Artificial Intelligence (AI) may lead to important improvements in terms of a more automatic, objective, and continuous monitoring and assessment. Moreover, the latest Explainable AI (XAI) methodologies may make AI decisions interpretable and trustworthy for end users. This paper presents a novel AI framework for early and explainable malnutrition risk detection based on heterogeneous m-health data. We performed an extensive model evaluation including both subject-independent and personalised predictions, and the obtained results indicate Random Forest (RF) and Gradient Boosting as the best performing classifiers, especially when incorporating body composition assessment data. We also investigated several benchmark XAI methods to extract global model explanations. Model-specific explanation consistency assessment indicates that each selected model privileges similar subsets of the most relevant predictors, with the highest agreement shown between SHapley Additive ExPlanations (SHAP) and feature permutation method. Furthermore, we performed a preliminary clinical validation to verify that the learned feature-output trends are compliant with the current evidence-based assessment. | 翻訳日:2023-06-01 17:47:54 公開日:2023-05-31 |
# 動作検出のためのマルチモーダルトランスネットワーク A Multi-Modal Transformer Network for Action Detection ( http://arxiv.org/abs/2305.19624v1 ) ライセンス: Link先を確認 | Matthew Korban, Scott T. Acton, Peter Youngs | (参考訳) 本稿では,ビデオ中の動作を検出するマルチモーダルトランスフォーマネットワークを提案する。
動作特性を豊かにするために,トランスフォーマーネットワークは,空間と動きの異なるモダリティの組み合わせの相関を計算する新しいマルチモーダルアテンション機構を採用している。
このような行動の相関関係の探索は、これまで試みられていない。
動きと空間的モダリティをより効果的に利用するために,カメラの動きによる動き歪みを補正するアルゴリズムを提案する。
このような動き歪みは、未トリミングビデオでよく見られるもので、光学的流れ場のような運動特徴の表現力を大幅に低下させる。
提案手法は2つのベンチマーク, thumos14 と activitynet において最先端手法よりも優れている。
また,新しい授業活動データセットについて比較実験を行い,小学生から撮影した挑戦的な教室ビデオについても検討した。 This paper proposes a novel multi-modal transformer network for detecting actions in untrimmed videos. To enrich the action features, our transformer network utilizes a new multi-modal attention mechanism that computes the correlations between different spatial and motion modalities combinations. Exploring such correlations for actions has not been attempted previously. To use the motion and spatial modality more effectively, we suggest an algorithm that corrects the motion distortion caused by camera movement. Such motion distortion, common in untrimmed videos, severely reduces the expressive power of motion features such as optical flow fields. Our proposed algorithm outperforms the state-of-the-art methods on two public benchmarks, THUMOS14 and ActivityNet. We also conducted comparative experiments on our new instructional activity dataset, including a large set of challenging classroom videos captured from elementary schools. | 翻訳日:2023-06-01 17:47:29 公開日:2023-05-31 |
# 点GCC:幾何色コントラストによる普遍的自己監督型3次元事前学習 Point-GCC: Universal Self-supervised 3D Scene Pre-training via Geometry-Color Contrast ( http://arxiv.org/abs/2305.19623v1 ) ライセンス: Link先を確認 | Guofan Fan, Zekun Qi, Wenkai Shi, Kaisheng Ma | (参考訳) 点雲によって提供される幾何学と色情報はどちらも3Dシーン理解に不可欠である。
2つの情報は点雲の異なる側面を特徴づけるが、既存の手法には識別と関連性に関する詳細な設計が欠けている。
そこで我々は,ポイントクラウド情報の関係をよりよく活用できる3次元自己監督パラダイムを探求する。
具体的には,ジオメトリ・カラー・コントラスト(Point-GCC)を用いた3次元シーン事前学習フレームワークを提案する。
実際のアプリケーションタスクに対処するために、我々は設計する
一 事前学習と下流作業のギャップを埋めるために、新しい深層集成モジュールに基づく点レベルのコントラスト及び再構成及びオブジェクトレベルのコントラストを有する階層的監督
(ii)様々な下流モデルに対応するアーキテクチャ非依存のバックボーン。
ダウンストリームタスクに関連するオブジェクトレベルの表現から,Point-GCCはモデルの性能を直接評価し,本手法の有効性を示す。
幅広いタスクにおける転送学習の結果は、すべてのデータセットにまたがって一貫した改善を示す。
例えば、SUN RGB-DとS3DISデータセット上の新しい最先端のオブジェクト検出結果。
コードはhttps://github.com/Asterisci/Point-GCCでリリースされる。 Geometry and color information provided by the point clouds are both crucial for 3D scene understanding. Two pieces of information characterize the different aspects of point clouds, but existing methods lack an elaborate design for the discrimination and relevance. Hence we explore a 3D self-supervised paradigm that can better utilize the relations of point cloud information. Specifically, we propose a universal 3D scene pre-training framework via Geometry-Color Contrast (Point-GCC), which aligns geometry and color information using a Siamese network. To take care of actual application tasks, we design (i) hierarchical supervision with point-level contrast and reconstruct and object-level contrast based on the novel deep clustering module to close the gap between pre-training and downstream tasks; (ii) architecture-agnostic backbone to adapt for various downstream models. Benefiting from the object-level representation associated with downstream tasks, Point-GCC can directly evaluate model performance and the result demonstrates the effectiveness of our methods. Transfer learning results on a wide range of tasks also show consistent improvements across all datasets. e.g., new state-of-the-art object detection results on SUN RGB-D and S3DIS datasets. Codes will be released at https://github.com/Asterisci/Point-GCC. | 翻訳日:2023-06-01 17:47:17 公開日:2023-05-31 |
# unbiased contrastive divergence と local mode initialization によるディープボルツマンマシンのエンド・ツー・エンド訓練 End-to-end Training of Deep Boltzmann Machines by Unbiased Contrastive Divergence with Local Mode Initialization ( http://arxiv.org/abs/2305.19684v1 ) ライセンス: Link先を確認 | Shohei Taniguchi, Masahiro Suzuki, Yusuke Iwasawa, Yutaka Matsuo | (参考訳) 深部ボルツマンマシン(DBM)におけるバイアス勾配推定の問題に対処する。
既存の非バイアス推定器を得る方法はギブスサンプリング器に基づく最大結合を用いるが、状態が高次元である場合には収束するのに長い時間がかかる。
本研究では,MH(Metropolis-Hastings)に基づく結合を用いて,対象分布の局所モード付近の状態を初期化する手法を提案する。
提案を拒絶するMHの妥当性のため、カップリングは高い確率で1ステップで収束する傾向にあり、高い効率性をもたらす。
そこで本手法では,DBMを学習前訓練なしでエンドツーエンドで訓練できることがわかった。
また,DBMの性能向上のための実用的手法を提案する。
MNISTのFIDスコア10.33を達成し,DBMが他の深層生成モデルに匹敵する生成性能を示すことを実証的に実証した。 We address the problem of biased gradient estimation in deep Boltzmann machines (DBMs). The existing method to obtain an unbiased estimator uses a maximal coupling based on a Gibbs sampler, but when the state is high-dimensional, it takes a long time to converge. In this study, we propose to use a coupling based on the Metropolis-Hastings (MH) and to initialize the state around a local mode of the target distribution. Because of the propensity of MH to reject proposals, the coupling tends to converge in only one step with a high probability, leading to high efficiency. We find that our method allows DBMs to be trained in an end-to-end fashion without greedy pretraining. We also propose some practical techniques to further improve the performance of DBMs. We empirically demonstrate that our training algorithm enables DBMs to show comparable generative performance to other deep generative models, achieving the FID score of 10.33 for MNIST. | 翻訳日:2023-06-01 17:40:51 公開日:2023-05-31 |
# 平面Si/SiGeにおける2次元量子ドットアレイ A 2D Quantum Dot Array in Planar Si/SiGe ( http://arxiv.org/abs/2305.19681v1 ) ライセンス: Link先を確認 | Florian K. Unseld, Marcel Meyer, Mateusz T. M\k{a}dzik, Francesco Borsoi, Sander L. de Snoo, Sergey V. Amitonov, Amir Sammak, Giordano Scappucci, Menno Veldhorst, and Lieven M.K. Vandersypen | (参考訳) 半導体スピン量子ビットはフォールトトレラント量子コンピュータをホストするプラットフォームとして注目を集めている。
スピン量子ビットアレイの最初のデモンストレーションは、様々な半導体材料で示されている。
スピン量子ビット論理の最高性能はシリコンで実現されているが、2次元のシリコン量子ドットアレイのスケーリングは困難であることが証明されている。
高品質なヘテロ構造と慎重に設計されたゲートパターンを利用して、2$\times$2量子ドットアレイをSi/SiGeヘテロ構造に結合したトンネルを形成することができる。
4つの量子ドットすべてで1つの電子をロードでき、1,1,1,1)の電荷状態に達する。
さらに,広いバリアゲート電圧の偏極線を測定することにより,全対のドット間のトンネル結合を特徴づけ制御する。
トンネル結合は約$30~\rm \mu eV$から約$400~\rm \mu eV$まで調整できる。
これらの実験は、2次元のSi/SiGe量子ドットにおけるスピン量子ビットの操作に向けての第一歩となる。 Semiconductor spin qubits have gained increasing attention as a possible platform to host a fault-tolerant quantum computer. First demonstrations of spin qubit arrays have been shown in a wide variety of semiconductor materials. The highest performance for spin qubit logic has been realized in silicon, but scaling silicon quantum dot arrays in two dimensions has proven to be challenging. By taking advantage of high-quality heterostructures and carefully designed gate patterns, we are able to form a tunnel coupled 2 $\times$ 2 quantum dot array in a Si/SiGe heterostructure. We are able to load a single electron in all four quantum dots, thus reaching the (1,1,1,1) charge state. Furthermore we characterise and control the tunnel coupling between all pairs of dots by measuring polarisation lines over a wide range of barrier gate voltages. Tunnel couplings can be tuned from about $30~\rm \mu eV$ up to approximately $400~\rm \mu eV$. These experiments provide a first step toward the operation of spin qubits in Si/SiGe quantum dots in two dimensions. | 翻訳日:2023-06-01 17:40:35 公開日:2023-05-31 |
# Smooth-Trajectron++: 円滑な注意を伴うTrajectron++動作予測モデルの拡張 Smooth-Trajectron++: Augmenting the Trajectron++ behaviour prediction model with smooth attention ( http://arxiv.org/abs/2305.19678v1 ) ライセンス: Link先を確認 | Frederik S.B. Westerhout, Julian F. Schumann, Arkady Zgonnikov | (参考訳) 交通参加者の行動を理解することは、将来の軌道予測に不可欠であり、自動運転車の安全で信頼性の高い計画システムの開発を支援する。
認知プロセスと機械学習モデルの統合は、他の領域では有望であるが、大規模自動運転データセットにおける複数の交通エージェントの軌道予測には不足している。
本研究では,注目モジュールにスムーズな項を組み込んだトラジェクトリ予測モデルであるTrjectron++について検討する。
この注意機構は、注意切り替えの限界を示す認知科学の研究にインスパイアされた人間の注意を模倣する。
得られたSmooth-Trajectron++モデルの性能を評価し、それを様々なベンチマークで元のモデルと比較し、人間の認識からの洞察を軌道予測モデルに組み込む可能性を明らかにする。 Understanding traffic participants' behaviour is crucial for predicting their future trajectories, aiding in developing safe and reliable planning systems for autonomous vehicles. Integrating cognitive processes and machine learning models has shown promise in other domains but is lacking in the trajectory forecasting of multiple traffic agents in large-scale autonomous driving datasets. This work investigates the state-of-the-art trajectory forecasting model Trajectron++ which we enhance by incorporating a smoothing term in its attention module. This attention mechanism mimics human attention inspired by cognitive science research indicating limits to attention switching. We evaluate the performance of the resulting Smooth-Trajectron++ model and compare it to the original model on various benchmarks, revealing the potential of incorporating insights from human cognition into trajectory prediction models. | 翻訳日:2023-06-01 17:40:20 公開日:2023-05-31 |
# オンライン-PAC変換:Regret解析による一般化境界 Online-to-PAC Conversions: Generalization Bounds via Regret Analysis ( http://arxiv.org/abs/2305.19674v1 ) ライセンス: Link先を確認 | G\'abor Lugosi, Gergely Neu | (参考訳) 本稿では,オンライン学習の観点から,統計的学習アルゴリズムの一般化限界を導出する新しい枠組みを提案する。
具体的には、「一般化ゲーム」と呼ばれるオンライン学習ゲームを構築し、オンライン学習者がデータポイントのトレーニングセット上での一般化ギャップのシーケンスを予測するために、固定統計学習アルゴリズムと競い合おうとしている。
本稿では,このゲームにおけるオンライン学習アルゴリズムの存在が,統計的学習法の複雑さとは無関係なマルティンゲール集中項まで,統計的学習アルゴリズムの一般化誤差に縛られていることを示すことによって,オンライン学習と統計学習の関連性を確立する。
この手法により、PAC-ベイジアンおよび情報理論保証の範囲を含むいくつかの標準一般化境界とそれらの一般化を回復することができる。 We present a new framework for deriving bounds on the generalization bound of statistical learning algorithms from the perspective of online learning. Specifically, we construct an online learning game called the "generalization game", where an online learner is trying to compete with a fixed statistical learning algorithm in predicting the sequence of generalization gaps on a training set of i.i.d. data points. We establish a connection between the online and statistical learning setting by showing that the existence of an online learning algorithm with bounded regret in this game implies a bound on the generalization error of the statistical learning algorithm, up to a martingale concentration term that is independent of the complexity of the statistical learning method. This technique allows us to recover several standard generalization bounds including a range of PAC-Bayesian and information-theoretic guarantees, as well as generalizations thereof. | 翻訳日:2023-06-01 17:40:06 公開日:2023-05-31 |
# ベイズネットワーク構造学習のための量子スピードアップ Quantum Speedups for Bayesian Network Structure Learning ( http://arxiv.org/abs/2305.19673v1 ) ライセンス: Link先を確認 | Juha Harviainen (1), Kseniya Rychkova (2), Mikko Koivisto (1) ((1) University of Helsinki, (2) IQM) | (参考訳) ベイズネットワーク構造学習(BNSL)問題は、与えられたスコア関数を最大化する有向非巡回グラフを求める。
n$ノードを持つネットワークでは、最も速い既知のアルゴリズムは最悪の場合に$o(2^n n^2)$で動作し、漸近的なバウンドは20年間改善されなかった。
量子コンピューティングの最近の進歩に触発されて、bnslが多項式の量子スピードアップを認めているかどうか、つまり、ある定数のc$が2ドル未満の定数に対してo(c^n)$の量子アルゴリズムで問題を解くことができるかどうかを問う。
c \leq 1.817$ と $c \leq 1.982$ の2つのアルゴリズムに対して、潜在親集合の数がそれぞれsubexponential と $o(1.453^n)$と仮定して解く。
どちらのアルゴリズムも、量子ランダムアクセスメモリの可用性を前提としている。 The Bayesian network structure learning (BNSL) problem asks for a directed acyclic graph that maximizes a given score function. For networks with $n$ nodes, the fastest known algorithms run in time $O(2^n n^2)$ in the worst case, with no improvement in the asymptotic bound for two decades. Inspired by recent advances in quantum computing, we ask whether BNSL admits a polynomial quantum speedup, that is, whether the problem can be solved by a quantum algorithm in time $O(c^n)$ for some constant $c$ less than $2$. We answer the question in the affirmative by giving two algorithms achieving $c \leq 1.817$ and $c \leq 1.982$ assuming the number of potential parent sets is, respectively, subexponential and $O(1.453^n)$. Both algorithms assume the availability of a quantum random access memory. | 翻訳日:2023-06-01 17:39:49 公開日:2023-05-31 |
# Signalはバイアスよりも学ぶのが難しい: 骨の喪失に悩む Signal Is Harder To Learn Than Bias: Debiasing with Focal Loss ( http://arxiv.org/abs/2305.19671v1 ) ライセンス: Link先を確認 | Moritz Vandenhirtz, Laura Manduchi, Ri\v{c}ards Marcinkevi\v{c}s and Julia E. Vogt | (参考訳) 相関関係は至る所にある。
人間はしばしばそれを知覚しないが、ニューラルネットワークは根底にある決定規則ではなく、不要な関連(バイアスとしても知られる)を学ぶことで悪名高い。
結果として、実践者は分類器のバイアスのある意思決定を知らないことが多い。
このような緩やかな相関に基づくバイアス付きモデルは、観測されていないデータに一般化せず、意図しない、有害な結果をもたらす可能性がある。
本稿では、焦点損失にインスパイアされた新しいアンエンタングリング手法を用いて、偏りと偏りのない分類器を同時に訓練する変分自動符号化方式であるSignal is Harder (SiH)を提案する。
偏りのない分類器を用いて、SiHは最先端の脱バイアス法の性能を一致または改善する。
本手法の解釈性を向上させるため,実践者が素早い相関関係の源泉を知るのに役立つバイアスを可視化するために,潜伏空間における摂動スキームを提案する。 Spurious correlations are everywhere. While humans often do not perceive them, neural networks are notorious for learning unwanted associations, also known as biases, instead of the underlying decision rule. As a result, practitioners are often unaware of the biased decision-making of their classifiers. Such a biased model based on spurious correlations might not generalize to unobserved data, leading to unintended, adverse consequences. We propose Signal is Harder (SiH), a variational-autoencoder-based method that simultaneously trains a biased and unbiased classifier using a novel, disentangling reweighting scheme inspired by the focal loss. Using the unbiased classifier, SiH matches or improves upon the performance of state-of-the-art debiasing methods. To improve the interpretability of our technique, we propose a perturbation scheme in the latent space for visualizing the bias that helps practitioners become aware of the sources of spurious correlations. | 翻訳日:2023-06-01 17:39:30 公開日:2023-05-31 |
# 定数相関を持つ相関確率ブロックモデルにおける厳密なグラフマッチングの効率的なアルゴリズム Efficient Algorithms for Exact Graph Matching on Correlated Stochastic Block Models with Constant Correlation ( http://arxiv.org/abs/2305.19666v1 ) ライセンス: Link先を確認 | Joonhyuk Yang, Dongpil Shin, and Hye Won Chung | (参考訳) 本稿では,2つの相関確率ブロックモデル(SBM)間のグラフマッチングや頂点対応の学習について考察する。
グラフマッチング問題は、コンピュータビジョン、自然言語処理、バイオインフォマティクスなど様々な分野で発生し、特に、グラフと固有のコミュニティ構造とのマッチングは、相関したソーシャルネットワークの非匿名化に関係している。
様々な効率的なアルゴリズムが開発されている相関型erdos-renyi(er)モデルと比較して、一定のエッジ相関の正確なマッチングを達成するためにいくつかのアルゴリズムが証明されているが、相関付きsbmの正確なマッチングを達成するための低次多項式アルゴリズムは知られていない。
本研究では,Mao et al. (2021) のアイデアをコミュニティを持つグラフに拡張することにより,各頂点から根付いた分割木の比較に基づいて,グラフとコミュニティ構造をマッチングする効率的なアルゴリズムを提案する。
分割木は、それぞれの頂点の大きな近傍を、それぞれのエッジ統計を用いて異なるコミュニティに分割する。
本アルゴリズムは,2つの相関sbmと高密度グラフの確率の高いマッチングを実現する,最初の低次多項式時間アルゴリズムである。 We consider the problem of graph matching, or learning vertex correspondence, between two correlated stochastic block models (SBMs). The graph matching problem arises in various fields, including computer vision, natural language processing and bioinformatics, and in particular, matching graphs with inherent community structure has significance related to de-anonymization of correlated social networks. Compared to the correlated Erdos-Renyi (ER) model, where various efficient algorithms have been developed, among which a few algorithms have been proven to achieve the exact matching with constant edge correlation, no low-order polynomial algorithm has been known to achieve exact matching for the correlated SBMs with constant correlation. In this work, we propose an efficient algorithm for matching graphs with community structure, based on the comparison between partition trees rooted from each vertex, by extending the idea of Mao et al. (2021) to graphs with communities. The partition tree divides the large neighborhoods of each vertex into disjoint subsets using their edge statistics to different communities. Our algorithm is the first low-order polynomial-time algorithm achieving exact matching between two correlated SBMs with high probability in dense graphs. | 翻訳日:2023-06-01 17:39:12 公開日:2023-05-31 |
# 視覚的質問応答における横断的モダリティバイアスの発見--可能性世界VQAによる因果的視点 Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA ( http://arxiv.org/abs/2305.19664v1 ) ライセンス: Link先を確認 | Ali Vosoughi, Shijian Deng, Songyang Zhang, Yapeng Tian, Chenliang Xu, Jiebo Luo | (参考訳) VQAシステムの一般化能力を高めるために、近年の多くの研究は、質問やイメージを短くする急激な言語や視覚的関連を脱バイアスしようと試みている。
これらの努力にもかかわらず、この文学は視覚と言語が混在する影響に同時に対処することができない。
その結果、あるモダリティから学んだバイアスを減らすと、通常は別のモダリティからバイアスを増す。
本稿では,まず,言語と視覚のバイアスを同時に生じさせる共起効果をモデル化し,その影響を除去するための反実的推論を提案する。
この戦略で訓練されたモデルは、視覚と言語バイアスを同時かつ効率的に低減することができる。
我々の知る限りでは、VQAにおける視覚と言語の影響の相違によるバイアスを減らし、因果関係を利用した最初の研究である。
提案手法は,解答結果の精度を,解答問題である既存の解法と比較して推し進めるものである。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。 To increase the generalization capability of VQA systems, many recent studies have tried to de-bias spurious language or vision associations that shortcut the question or image to the answer. Despite these efforts, the literature fails to address the confounding effect of vision and language simultaneously. As a result, when they reduce bias learned from one modality, they usually increase bias from the other. In this paper, we first model a confounding effect that causes language and vision bias simultaneously, then propose a counterfactual inference to remove the influence of this effect. The model trained in this strategy can concurrently and efficiently reduce vision and language bias. To the best of our knowledge, this is the first work to reduce biases resulting from confounding effects of vision and language in VQA, leveraging causal explain-away relations. We accompany our method with an explain-away strategy, pushing the accuracy of the questions with numerical answers results compared to existing methods that have been an open problem. The proposed method outperforms the state-of-the-art methods in VQA-CP v2 datasets. | 翻訳日:2023-06-01 17:38:51 公開日:2023-05-31 |
# Vandermonde ニューラル演算子 Vandermonde Neural Operators ( http://arxiv.org/abs/2305.19663v1 ) ライセンス: Link先を確認 | Levi Lingsch and Mike Michelis and Sirani M. Perera and Robert K. Katzschmann and Siddartha Mishra | (参考訳) Fourier Neural Operators (FNO)は、特にPDEで発生する、学習オペレータのための非常に人気のある機械学習アーキテクチャとして登場した。
しかし、FNOは高速フーリエ変換を計算効率に頼っているため、このアーキテクチャは等間隔のカルテシアン格子上の入力データに限定される。
ここでは、FNOを一般化して、等価でない点分布の入力データを処理する。
提案モデルはvandermonde neural operator (vno) と呼ばれ,vandermonde-structured matricesを用いて任意に分布した点においても,前方および逆フーリエ変換を効率的に計算する。
数値実験により、VNOsはFNOsよりもはるかに高速でありながら、同等の精度を維持し、Geo-FNOのような非等価な手法の精度を向上させることを示す。 Fourier Neural Operators (FNOs) have emerged as very popular machine learning architectures for learning operators, particularly those arising in PDEs. However, as FNOs rely on the fast Fourier transform for computational efficiency, the architecture can be limited to input data on equispaced Cartesian grids. Here, we generalize FNOs to handle input data on non-equispaced point distributions. Our proposed model, termed as Vandermonde Neural Operator (VNO), utilizes Vandermonde-structured matrices to efficiently compute forward and inverse Fourier transforms, even on arbitrarily distributed points. We present numerical experiments to demonstrate that VNOs can be significantly faster than FNOs, while retaining comparable accuracy, and improve upon accuracy of comparable non-equispaced methods such as the Geo-FNO. | 翻訳日:2023-06-01 17:38:32 公開日:2023-05-31 |
# 3つの三角結合量子ビットによる純古典相関支配型量子熱ダイオード Pure classical correlation dominant quantum thermal diode via three triangular-coupled qubits ( http://arxiv.org/abs/2305.19660v1 ) ライセンス: Link先を確認 | Yi-jia Yang, Yu-qiang Liu, and Chang-shui Yu | (参考訳) 量子熱ダイオードは3つのペア結合キュービットに基づいて設計され、2つは共通の貯水池に接続され、もう1つは独立した貯水池に接続されている。
量子ビット間の内部結合は熱電流を高めることができる。
2つの同じ量子ビットが共振器と均一に結合すると、交差散逸が起こり、初期状態依存の定常状態が2つの特定の定常状態(最大熱電流を発生させる熱伝導状態と、熱を輸送しない耐熱状態)の混合に分解される。
しかし、修正因子は初期状態に依存しない。
特に、量子の絡み合いや量子不和は定常状態には存在していないが、純粋な古典的相関は、系における古典的相関の重要な役割を明らかにする熱整流因子として極めて一貫した挙動を示す。 A quantum thermal diode is designed based on three pairwise coupled qubits, two connected to a common reservoir and the other to an independent reservoir. It is found that the internal couplings between qubits can enhance heat currents. If the two identical qubits uniformly couple with the common reservoir, the crossing dissipation will occur, leading to the initial-state-dependent steady state, which can be decomposed into the mixture of two particular steady states: the heat-conducting state generating maximum heat current and the heat-resisting state not transporting heat. However, the rectification factor does not depend on the initial state. In particular, we find that neither quantum entanglement nor quantum discord is present in the steady state, but the pure classical correlation shows a remarkably consistent behavior as the heat rectification factor, which reveals the vital role of classical correlation in the system. | 翻訳日:2023-06-01 17:38:18 公開日:2023-05-31 |
# 神経密度場のロバスト性の検討 Investigation of the Robustness of Neural Density Fields ( http://arxiv.org/abs/2305.19698v1 ) ライセンス: Link先を確認 | Jonas Schuhmacher and Fabio Gratl and Dario Izzo and Pablo G\'omez | (参考訳) 神経密度場と呼ばれる密度分布のモデル化における最近の進歩は、天体に近い軌道を設計する際に、形状モデルを必要とすることなく、天体の密度分布を正確に記述することができる。
以前の研究はこのアプローチを導入したが、いくつかの疑問は残る。
本研究では,433 Eros と67P/Churyumov-Gerasimenko で実証された一定の距離による最大重力信号強度などの,トレーニング中のノイズや制約などの外部要因に対する堅牢性の文脈における神経密度場とその相対誤差について検討する。
両モデルが多面体およびマスコングラウンドの真理で訓練された場合も同様に機能し、基底の真理が精度のボトルネックではないことを示す。
太陽放射圧が典型的なプローブに与える影響は、ノイズなしでの相対誤差が等しく、無視可能な訓練に影響を与える。
しかし、ガウス雑音を適用して測定データの精度を制限することは、得られる精度を損なう。
さらに,ネットワークトレーニングを高速化するためにプレトレーニングを実践的に行う。
したがって、重力反転問題に対するニューラルネットワークのトレーニングは、重力信号が雑音と区別できる限り適切であることを示す。
コードと結果はhttps://github.com/gomezzz/geodesynetsで入手できる。 Recent advances in modeling density distributions, so-called neural density fields, can accurately describe the density distribution of celestial bodies without, e.g., requiring a shape model - properties of great advantage when designing trajectories close to these bodies. Previous work introduced this approach, but several open questions remained. This work investigates neural density fields and their relative errors in the context of robustness to external factors like noise or constraints during training, like the maximal available gravity signal strength due to a certain distance exemplified for 433 Eros and 67P/Churyumov-Gerasimenko. It is found that both models trained on a polyhedral and mascon ground truth perform similarly, indicating that the ground truth is not the accuracy bottleneck. The impact of solar radiation pressure on a typical probe affects training neglectable, with the relative error being of the same magnitude as without noise. However, limiting the precision of measurement data by applying Gaussian noise hurts the obtainable precision. Further, pretraining is shown as practical in order to speed up network training. Hence, this work demonstrates that training neural networks for the gravity inversion problem is appropriate as long as the gravity signal is distinguishable from noise. Code and results are available at https://github.com/gomezzz/geodesyNets | 翻訳日:2023-06-01 17:30:17 公開日:2023-05-31 |
# 2体欠損を有するフェルミオン鎖における相互作用誘起リウビリアン皮膚効果 Interaction-induced Liouvillian skin effect in a fermionic chain with two-body loss ( http://arxiv.org/abs/2305.19697v1 ) ライセンス: Link先を確認 | Shu Hamanaka, Kazuki Yamamoto, Tsuneya Yoshida | (参考訳) オープン量子系のトポロジカルな側面に関する最近の研究にもかかわらず、強い相互作用の効果は十分に研究されていない。
本稿では,2体損失を伴う1次元相関モデルの解析により,相互作用がLiouvillianの皮膚効果を誘導することを示した。
相互作用の存在下では、リウヴィリアンの固有モードと固有値が境界条件に強く依存していることを示す。
具体的には、相互作用は開境界条件下での右辺付近のリウヴィリアンの固有モチーフの局所化を誘導する。
リウヴィリアスキン効果を特徴づけるために、リウヴィリア超作用素を用いて位相不変量を定義する。
そして, トポロジカル不変量によってLiouvillianスキン効果が捕捉されることを数値的に確認した。
さらに, 固有モードの局在の存在は, 開放境界条件下でのみ観測される一意な動力学(過渡力学の右端における粒子の蓄積)をもたらす。
この結果は、強い相互作用によって引き起こされる開放量子系における位相現象を実現する方法である。 Despite recent intensive research on topological aspects of open quantum systems, effects of strong interactions have not been sufficiently explored. In this paper, we demonstrate that interactions induce the Liouvillian skin effect by analyzing a one-dimensional correlated model with two-body loss. We show that, in the presence of interactions, eigenmodes and eigenvalues of the Liouvillian strongly depend on boundary conditions. Specifically, we find that interactions induce localization of eigenmodes of the Liouvillian around the right edge under open boundary conditions. To characterize the Liouvllian skin effect, we define the topological invariant by using the Liouvillian superoperator. Then, we numerically confirm that the topological invariant captures the Liouvillian skin effect. Furthermore, the presence of the localization of eigenmodes results in the unique dynamics observed only under open boundary conditions: particle accumulation at the right edge in transient dynamics. Our result paves the way to realize topological phenomena in open quantum systems induced by strong interactions. | 翻訳日:2023-06-01 17:29:56 公開日:2023-05-31 |
# OFDMサブバンドの効率的な機械学習に基づくチャネル予測手法 An Efficient Machine Learning-based Channel Prediction Technique for OFDM Sub-Bands ( http://arxiv.org/abs/2305.19696v1 ) ライセンス: Link先を確認 | Pedro E. G. Silva, Jules M. Moualeu, Pedro H. Nardelli, and Rausley A. A. de Souza | (参考訳) 無線通信システムの性能向上のため,正確なチャネル状態情報(CSI)の取得が最重要となる。
しかし、チャネル推定やチャネル予測を通じて行うことができる正確なCSIの取得は、無線環境の時間変化と周波数選択性の複雑さによる複雑な作業である。
そこで本研究では、直交周波数分割多重化(OFDM)サブバンドにおけるチャネル予測のための機械学習(ML)に基づく効率的な手法を提案する。
提案手法の目新しさは,選択的フェージングにおける将来のチャネル挙動推定に用いるチャネルフェージングサンプルのトレーニングにある。 The acquisition of accurate channel state information (CSI) is of utmost importance since it provides performance improvement of wireless communication systems. However, acquiring accurate CSI, which can be done through channel estimation or channel prediction, is an intricate task due to the complexity of the time-varying and frequency selectivity of the wireless environment. To this end, we propose an efficient machine learning (ML)-based technique for channel prediction in orthogonal frequency-division multiplexing (OFDM) sub-bands. The novelty of the proposed approach lies in the training of channel fading samples used to estimate future channel behaviour in selective fading. | 翻訳日:2023-06-01 17:29:37 公開日:2023-05-31 |
# 制約モデルとPMIMEを用いた時系列の因果発見 Causal discovery for time series with constraint-based model and PMIME measure ( http://arxiv.org/abs/2305.19695v1 ) ライセンス: Link先を確認 | Antonin Arsac, Aurore Lomet and Jean-Philippe Poli | (参考訳) 因果関係は原因と効果の関係を定義する。
多変量時系列場において、この概念は時間ラグを考慮した複数の時系列間のリンクを特徴付けることができる。
これらの現象は、例えば、複雑なシステムや社会科学における異常の原因を検出する製造において、薬物の効果を分析するために特に重要である。
ほとんどの場合、これらの複雑なシステムの研究は相関のみによって行われる。
しかし、相関関係はスプリアスな関係に繋がる可能性がある。
この問題を回避するため,本論文では,因果探索アルゴリズムと情報理論に基づく測度を組み合わせた時系列データにおける因果関係の発見手法を提案する。
したがって,線形関係と非線形関係の両方を推定し,基礎となる因果グラフを構築することができる。
提案手法を複数のシミュレーションデータセット上で評価し,有望な結果を示す。 Causality defines the relationship between cause and effect. In multivariate time series field, this notion allows to characterize the links between several time series considering temporal lags. These phenomena are particularly important in medicine to analyze the effect of a drug for example, in manufacturing to detect the causes of an anomaly in a complex system or in social sciences... Most of the time, studying these complex systems is made through correlation only. But correlation can lead to spurious relationships. To circumvent this problem, we present in this paper a novel approach for discovering causality in time series data that combines a causal discovery algorithm with an information theoretic-based measure. Hence the proposed method allows inferring both linear and non-linear relationships and building the underlying causal graph. We evaluate the performance of our approach on several simulated data sets, showing promising results. | 翻訳日:2023-06-01 17:29:29 公開日:2023-05-31 |
# 代理分類損失を用いた仮説伝達学習 Hypothesis Transfer Learning with Surrogate Classification Losses ( http://arxiv.org/abs/2305.19694v1 ) ライセンス: Link先を確認 | Anass Aghbalou, Guillaume Staerman | (参考訳) 仮説伝達学習(htl)は、ソースを名付ける前のタスクレバレッジを、ソースデータへのアクセスを必要とせずに、新しいタスク、ターゲットにすることで、ドメイン適応を対比する。
実際、HTLはそのようなデータから学んだ仮説にのみ依存し、拡張データストレージのハードルを軽減し、非常に実用的な利点を提供する。
したがって、htlはビッグデータに依存する実世界のアプリケーションにとって非常に有益である。
このような手法を理論的観点から分析することは、特に分類タスクにおいて、複数の課題に直面している。
本稿では,機械学習アルゴリズム解析のための魅力的な理論フレームワークであるアルゴリズム安定性を通じて,htlの学習理論を研究することにより,この問題に対処する。
特に,二分分類の場合の正規化経験的リスク最小化器の統計的挙動に関心がある。
私たちの安定性分析は、穏やかな仮定の下での学習の保証を提供します。
その結果,訓練誤差,過剰リスク,相互評価推定など,本質的な統計量に対する複雑性フリーな一般化境界を導出する。
これらの洗練された境界は、トランスファー学習の利点を理解し、異なるシナリオにおける標準損失の振る舞いを比較することを可能にし、実践者にとって貴重な洞察をもたらす。 Hypothesis transfer learning (HTL) contrasts domain adaptation by allowing for a previous task leverage, named the source, into a new one, the target, without requiring access to the source data. Indeed, HTL relies only on a hypothesis learnt from such source data, relieving the hurdle of expansive data storage and providing great practical benefits. Hence, HTL is highly beneficial for real-world applications relying on big data. The analysis of such a method from a theoretical perspective faces multiple challenges, particularly in classification tasks. This paper deals with this problem by studying the learning theory of HTL through algorithmic stability, an attractive theoretical framework for machine learning algorithms analysis. In particular, we are interested in the statistical behaviour of the regularized empirical risk minimizers in the case of binary classification. Our stability analysis provides learning guarantees under mild assumptions. Consequently, we derive several complexity-free generalization bounds for essential statistical quantities like the training error, the excess risk and cross-validation estimates. These refined bounds allow understanding the benefits of transfer learning and comparing the behaviour of standard losses in different scenarios, leading to valuable insights for practitioners. | 翻訳日:2023-06-01 17:29:16 公開日:2023-05-31 |
# 生成拡散モデルにおける自然対称性の破れ Spontaneous symmetry breaking in generative diffusion models ( http://arxiv.org/abs/2305.19693v1 ) ライセンス: Link先を確認 | Gabriel Raya, Luca Ambrogioni | (参考訳) 生成拡散モデルは近年,高次元データ生成の先導的アプローチとして浮上している。
本稿では、これらのモデルの力学が、生成力学を2つの異なる位相に分割する自発的対称性の破れを示すことを示す。
1)中央の不動点まわりの線形定常状態ダイナミクス
2) データ多様体を指向したアトラクタダイナミクス。
これら2つの「相」は中心固定点の安定性の変化によって分離され、結果として生じる不安定性の窓が生成したサンプルの多様性の原因となる。
理論的および経験的証拠の両方を用いて、初期変動が中心固定点に逆戻りするため、初期力学の正確なシミュレーションが最終生成に大きく寄与しないことを示す。
この知見を活用するために,モデル性能を大幅に向上し,高速サンプリング器で最大3倍のFID向上を実現し,サンプルの多様性(例えば,生成したCelebA画像の人種構成)を向上するガウス的遅延初期化手法を提案する。
我々の研究は、より高性能でバイアスの少ない高速サンプリングを実現する可能性を持つ拡散モデルの生成力学を理解する新しい方法を提供する。 Generative diffusion models have recently emerged as a leading approach for generating high-dimensional data. In this paper, we show that the dynamics of these models exhibit a spontaneous symmetry breaking that divides the generative dynamics into two distinct phases: 1) A linear steady-state dynamics around a central fixed-point and 2) an attractor dynamics directed towards the data manifold. These two "phases" are separated by the change in stability of the central fixed-point, with the resulting window of instability being responsible for the diversity of the generated samples. Using both theoretical and empirical evidence, we show that an accurate simulation of the early dynamics does not significantly contribute to the final generation, since early fluctuations are reverted to the central fixed point. To leverage this insight, we propose a Gaussian late initialization scheme, which significantly improves model performance, achieving up to 3x FID improvements on fast samplers, while also increasing sample diversity (e.g., racial composition of generated CelebA images). Our work offers a new way to understand the generative dynamics of diffusion models that has the potential to bring about higher performance and less biased fast-samplers. | 翻訳日:2023-06-01 17:28:58 公開日:2023-05-31 |
# 非同期マルチプレイヤーバンディットにおける定数的・対数的後悔 Constant or logarithmic regret in asynchronous multiplayer bandits ( http://arxiv.org/abs/2305.19691v1 ) ライセンス: Link先を確認 | Hugo Richard, Etienne Boursier, Vianney Perchet | (参考訳) マルチプレイヤー・バンディットは認知無線ネットワークへの応用により近年広く研究されている。
文献は主に同期プレイヤーを考慮しているが、無線ネットワーク(IoTなど)は非同期デバイスを持つ傾向にある。
これはより困難で非同期なマルチプレイヤーバンディット問題であり、最初は探索列コミット(ETC)アルゴリズムに取り組み(Dakdouk, 2022 を参照)、後悔すべき上限は$\mathcal{O}(T^{\frac{2}{3}})$である。
分散化を考える前にも、$\omega(t^{\frac{2}{3}})$未満の後悔が得られなかったため、集中型ケースの理解は依然として困難であった。
UCB の自然な拡張は $\mathcal{O}(\sqrt{T\log(T)})$ minimax regret を示す。
より重要なことは、最適なポリシーが各腕に少なくとも1人のプレイヤーを割り当てた場合に、一定のインスタンス依存の後悔をもたらす集中型アルゴリズムである(arm平均が十分近い場合に発生すると証明される状況)。
さもなくば、その後悔は、いくつかの準最適ギャップに対して$\log(T)$の和として増加する。
我々は、データ依存の用語でCautious Greedyが最適であることを示す低い境界を提供する。
そこで我々は,非同期マルチプレイヤーバンディットの強力なベースラインを設定し,この問題における最適方針の学習は,少なくとも集中化を伴って考えるよりも容易である可能性が示唆された。 Multiplayer bandits have recently been extensively studied because of their application to cognitive radio networks. While the literature mostly considers synchronous players, radio networks (e.g. for IoT) tend to have asynchronous devices. This motivates the harder, asynchronous multiplayer bandits problem, which was first tackled with an explore-then-commit (ETC) algorithm (see Dakdouk, 2022), with a regret upper-bound in $\mathcal{O}(T^{\frac{2}{3}})$. Before even considering decentralization, understanding the centralized case was still a challenge as it was unknown whether getting a regret smaller than $\Omega(T^{\frac{2}{3}})$ was possible. We answer positively this question, as a natural extension of UCB exhibits a $\mathcal{O}(\sqrt{T\log(T)})$ minimax regret. More importantly, we introduce Cautious Greedy, a centralized algorithm that yields constant instance-dependent regret if the optimal policy assigns at least one player on each arm (a situation that is proved to occur when arm means are close enough). Otherwise, its regret increases as the sum of $\log(T)$ over some sub-optimality gaps. We provide lower bounds showing that Cautious Greedy is optimal in the data-dependent terms. Therefore, we set up a strong baseline for asynchronous multiplayer bandits and suggest that learning the optimal policy in this problem might be easier than thought, at least with centralization. | 翻訳日:2023-06-01 17:28:39 公開日:2023-05-31 |
# 意味的タスクを訓練したモデルを用いた単語重要度評価 Assessing Word Importance Using Models Trained for Semantic Tasks ( http://arxiv.org/abs/2305.19689v1 ) ライセンス: Link先を確認 | D\'avid Javorsk\'y, Ond\v{r}ej Bojar, Fran\c{c}ois Yvon | (参考訳) 多くのNLPタスクはテキスト内の最も重要な単語を自動的に識別する必要がある。
本研究では,自然言語推論とパラフレーズ同定という,意味課題を解くために訓練されたモデルから単語の意義を導出する。
これらのモデルの予測を説明するための帰属法を用いて,各入力トークンの重要度スコアを導出する。
我々は,その妥当性を,いわゆるクロスタスク評価(cross-task evaluation)を用いて評価する: 他モデルの重みに応じてマスクされた入力モデル上での1つのモデルの性能を解析することにより,初期タスクの選択に関してロバストであることを示す。
さらに,構文的な観点からのスコアを調査し,例えば構文木の根元に近い単語がより重要度の高いスコアを受け取るなど,興味深いパターンを観察する。
これらの結果から,訓練中の単語重要度を明示することなく,文章中の重要な単語を識別できる可能性が示唆された。 Many NLP tasks require to automatically identify the most significant words in a text. In this work, we derive word significance from models trained to solve semantic task: Natural Language Inference and Paraphrase Identification. Using an attribution method aimed to explain the predictions of these models, we derive importance scores for each input token. We evaluate their relevance using a so-called cross-task evaluation: Analyzing the performance of one model on an input masked according to the other model's weight, we show that our method is robust with respect to the choice of the initial task. Additionally, we investigate the scores from the syntax point of view and observe interesting patterns, e.g. words closer to the root of a syntactic tree receive higher importance scores. Altogether, these observations suggest that our method can be used to identify important words in sentences without any explicit word importance labeling in training. | 翻訳日:2023-06-01 17:28:13 公開日:2023-05-31 |
# VIPriors 3: データ効率のよいディープラーニングのためのビジュアルインダクティブプライオリティ VIPriors 3: Visual Inductive Priors for Data-Efficient Deep Learning Challenges ( http://arxiv.org/abs/2305.19688v1 ) ライセンス: Link先を確認 | Robert-Jan Bruintjes, Attila Lengyel, Marcos Baptista Rios, Osman Semih Kayhan, Davide Zambrano, Nergis Tomen and Jan van Gemert | (参考訳) vipriors: visual inductive priors for data- efficient deep learning"ワークショップの第3版では、コンピュータビジョンタスクのためのディープラーニングモデルのトレーニングにおけるデータ可用性の制限に重点を置いた、4つのデータ障害の課題が紹介された。
課題は4つの異なるデータ障害タスクで構成されており、参加者はトレーニングサンプルの数を減らすことで、スクラッチからモデルをトレーニングする必要があった。
主な目的は、ディープラーニングモデルのデータ効率を高めるために、関連する帰納的バイアスを含む新しいアプローチを奨励することであった。
クリエイティビティと探索を促進するために、参加者は事前訓練されたチェックポイントや他の転校学習技術を使うことを厳禁された。
与えられたベースラインと比較して重要な進歩がなされ、勝利のソリューションは4つのタスクでかなりの差でベースラインを超えた。
これらの成果は主に、データ拡張ポリシーの有効活用、モデルアンサンブル手法、および自己教師付き表現学習を含むデータ効率のトレーニング手法の実装によるものである。
このレポートは、課題とその成果の重要な側面を強調する。 The third edition of the "VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning" workshop featured four data-impaired challenges, focusing on addressing the limitations of data availability in training deep learning models for computer vision tasks. The challenges comprised of four distinct data-impaired tasks, where participants were required to train models from scratch using a reduced number of training samples. The primary objective was to encourage novel approaches that incorporate relevant inductive biases to enhance the data efficiency of deep learning models. To foster creativity and exploration, participants were strictly prohibited from utilizing pre-trained checkpoints and other transfer learning techniques. Significant advancements were made compared to the provided baselines, where winning solutions surpassed the baselines by a considerable margin in all four tasks. These achievements were primarily attributed to the effective utilization of extensive data augmentation policies, model ensembling techniques, and the implementation of data-efficient training methods, including self-supervised representation learning. This report highlights the key aspects of the challenges and their outcomes. | 翻訳日:2023-06-01 17:27:57 公開日:2023-05-31 |
# 深部確率力学 Deep Stochastic Mechanics ( http://arxiv.org/abs/2305.19685v1 ) ライセンス: Link先を確認 | Elena Orlova, Aleksei Ustimenko, Ruoxi Jiang, Peter Y. Lu, Rebecca Willett | (参考訳) 本稿では,確率力学と生成拡散モデルに着想を得た時間発展型schr\"odinger方程式の数値シミュレーションのための新しいディープラーニング手法を提案する。
問題次元で指数関数的にスケールする計算複雑性を示す既存の手法とは異なり、本手法はマルコフ拡散からサンプリングすることで波動関数の潜在低次元構造に適応できる。
潜在次元によっては、より高次元の計算複雑性がはるかに低い可能性がある。
さらに, 確率的量子力学のための新しい方程式を提案し, 次元数に関して線形計算複雑性をもたらす。
数値シミュレーションは,量子力学における他の深層学習手法と比較して,理論的な知見を検証し,本手法の大きな利点を示す。 This paper introduces a novel deep-learning-based approach for numerical simulation of a time-evolving Schr\"odinger equation inspired by stochastic mechanics and generative diffusion models. Unlike existing approaches, which exhibit computational complexity that scales exponentially in the problem dimension, our method allows us to adapt to the latent low-dimensional structure of the wave function by sampling from the Markovian diffusion. Depending on the latent dimension, our method may have far lower computational complexity in higher dimensions. Moreover, we propose novel equations for stochastic quantum mechanics, resulting in linear computational complexity with respect to the number of dimensions. Numerical simulations verify our theoretical findings and show a significant advantage of our method compared to other deep-learning-based approaches used for quantum mechanics. | 翻訳日:2023-06-01 17:27:36 公開日:2023-05-31 |
# 直接学習に基づくディープスパイクニューラルネットワーク Direct Learning-Based Deep Spiking Neural Networks: A Review ( http://arxiv.org/abs/2305.19725v1 ) ライセンス: Link先を確認 | Yufei Guo, Xuhui Huang, Zhe Ma | (参考訳) スパイクニューラルネットワーク(SNN)は、二分スパイク情報伝達機構、豊かな空間的時間的ダイナミクス、イベント駆動特性を備えた有望な脳インスピレーション型計算モデルである。
しかし、その複雑な不連続スパイク機構は、深いSNNの最適化に困難をもたらす。
シュロゲート勾配法は、最適化の難しさを大幅に軽減し、深層SNNを直接訓練する大きな可能性を秘めているため、近年、様々な直接学習に基づく深層SNN作品が提案され、達成されている。
本稿では,これらの直接学習に基づく深層SNN研究を,主に精度向上手法,効率改善方法,時間的ダイナミクス利用方法に分類した包括的調査を行う。
さらに,これらの分類をより細かい粒度に分割し,整理し,導入する。
最後に、今後の研究で直面するであろう課題とトレンドが予想される。 The spiking neural network (SNN), as a promising brain-inspired computational model with binary spike information transmission mechanism, rich spatially-temporal dynamics, and event-driven characteristics, has received extensive attention. However, its intricately discontinuous spike mechanism brings difficulty to the optimization of the deep SNN. Since the surrogate gradient method can greatly mitigate the optimization difficulty and shows great potential in directly training deep SNNs, a variety of direct learning-based deep SNN works have been proposed and achieved satisfying progress in recent years. In this paper, we present a comprehensive survey of these direct learning-based deep SNN works, mainly categorized into accuracy improvement methods, efficiency improvement methods, and temporal dynamics utilization methods. In addition, we also divide these categorizations into finer granularities further to better organize and introduce them. Finally, the challenges and trends that may be faced in future research are prospected. | 翻訳日:2023-06-01 17:21:33 公開日:2023-05-31 |
# 原子レーザーの周波数コムスペクトルのモンテカルロシミュレーション法 Monte-Carlo simulation method for the frequency comb spectrum of an atom laser ( http://arxiv.org/abs/2305.19722v1 ) ライセンス: Link先を確認 | A. Schelle | (参考訳) 超低温におけるコヒーレント原子レーザー場のシナリオに対して,想像時間の概念に基づく理論粒子数保存量子場理論を示し,適用した。
提案理論モデルでは, 捕捉されたボース・アインシュタイン凝縮体から放出されるコヒーレント原子線と非凝縮量子場成分を, 所定の繰り返し位相と周波数でモデル化して実現した原子レーザーの周波数コムスペクトルの解析的導出を記述する。
原子蒸気の凝縮部は、周囲の熱的原子雲の温度によって誘起される熱ノイズを受けると仮定される。
この新しい量子アプローチは、時間周期性および複素数値量子場表現における直交分解を用いて、量子場の前方および後方の伝播成分を有限温度における特異点のない常在波場として導出しモデル化する。
外部閉じ込めの温度及びトラップ周波数の関数として、複素値原子レーザーフィールド、その結果生じる周波数コム、およびエンベロープ形状の異なる繰り返し周波数分布を定量的モンテカルロサンプリング法で数値的に監視する。 A theoretical particle-number conserving quantum field theory based on the concept of imaginary time is presented and applied to the scenario of a coherent atomic laser field at ultra-cold temperatures. The proposed theoretical model describes the analytical derivation of the frequency comb spectrum for an atomic laser realized from modeling a coherent atomic beam of condensate and non-condensate quantum field components released from a trapped Bose-Einstein condensate at a given repetition phase and frequency. The condensate part of the atomic vapor is assumed to be subjected to thermal noise induced by the temperature of the surrounding thermal atomic cloud. This new quantum approach uses time periodicity and an orthogonal decomposition in a complex-valued quantum field representation to derive and model the quantum field's forward- and backward-propagating components as a standing wave field in the same unique time and temperature domain without singularities at finite temperatures. The complex-valued atom laser field, the resulting frequency comb, and the repetition frequency distribution with the varying shape of envelopes are numerically monitored within a quantitative Monte-Carlo sampling method, as a function of temperature and trap frequency of the external confinement. | 翻訳日:2023-06-01 17:21:17 公開日:2023-05-31 |
# 粗い集合による規則一般帰納学習 A rule-general abductive learning by rough sets ( http://arxiv.org/abs/2305.19718v1 ) ライセンス: Link先を確認 | Xu-chang Guo, Hou-biao Li | (参考訳) 実世界のタスクでは、通常大量のラベルなしデータとラベル付きデータがある。
この2つの学習を組み合わせることは半教師付き学習と呼ばれる。
専門家は論理ルールを使ってラベルのないデータをラベル付けすることができるが、この操作はコストがかかる。
知覚と推論の組み合わせは、そのような半教師付きタスクとドメイン知識の処理に良い影響を与える。
しかし、ドメイン知識の取得と修正、削減、ルールの生成は、解決すべき複雑な問題である。
ラフセット理論は情報システムにおける知識処理を解く重要な方法である。
本稿では,粗集合(RS-ABL)による規則一般帰納学習を提案する。
ルールの目標概念とサブ概念を情報テーブルに変換することにより、ドメイン知識の獲得とルールの修正・縮小・生成を低コストで解決するための粗いセット理論が用いられる。
このフレームワークは、知識ベースの範囲を広げるために、より広範な負のルールを生成することもできる。
従来の半教師付き学習法と比較して、RS-ABLは半教師付きタスクの処理精度が高い。 In real-world tasks, there is usually a large amount of unlabeled data and labeled data. The task of combining the two to learn is known as semi-supervised learning. Experts can use logical rules to label unlabeled data, but this operation is costly. The combination of perception and reasoning has a good effect in processing such semi-supervised tasks with domain knowledge. However, acquiring domain knowledge and the correction, reduction and generation of rules remain complex problems to be solved. Rough set theory is an important method for solving knowledge processing in information systems. In this paper, we propose a rule general abductive learning by rough set (RS-ABL). By transforming the target concept and sub-concepts of rules into information tables, rough set theory is used to solve the acquisition of domain knowledge and the correction, reduction and generation of rules at a lower cost. This framework can also generate more extensive negative rules to enhance the breadth of the knowledge base. Compared with the traditional semi-supervised learning method, RS-ABL has higher accuracy in dealing with semi-supervised tasks. | 翻訳日:2023-06-01 17:20:57 公開日:2023-05-31 |
# グラフニューラルネットワークは本当に役に立つのか? Is Rewiring Actually Helpful in Graph Neural Networks? ( http://arxiv.org/abs/2305.19717v1 ) ライセンス: Link先を確認 | Domenico Tortorella, Alessio Micheli | (参考訳) グラフニューラルネットワークは、ノード特徴の局所的な集約からなる複数のメッセージパスステップを実行することでノード表現を計算する。
ノード間の長距離インタラクションを活用可能な深層モデルを持つことは、過剰スムーシングと過剰スワッシングの問題によって妨げられる。
特に後者は、メッセージパスをガイドするグラフトポロジによって引き起こされ、遠方のノードに含まれる情報にノード表現が影響を受けなくなる。
この問題を修正または緩和するために、多くのグラフ検索手法が提案されている。
しかし, この手法の利点を適切に評価するには, 過剰スキャッシングと, モデルトレーニングに厳密に関連する他の問題, 例えば, 勾配の消失などとの結合が困難となる。
そこで本稿では,ノードやグラフ表現の学習を必要としないメッセージパッシングモデルに基づく評価設定を提案する。
実世界のノードとグラフの分類タスクについて系統的比較を行い,基礎となるグラフの検索がメッセージパッシングの実用的利点をもたらすことは稀であることを示した。 Graph neural networks compute node representations by performing multiple message-passing steps that consist in local aggregations of node features. Having deep models that can leverage longer-range interactions between nodes is hindered by the issues of over-smoothing and over-squashing. In particular, the latter is attributed to the graph topology which guides the message-passing, causing a node representation to become insensitive to information contained at distant nodes. Many graph rewiring methods have been proposed to remedy or mitigate this problem. However, properly evaluating the benefits of these methods is made difficult by the coupling of over-squashing with other issues strictly related to model training, such as vanishing gradients. Therefore, we propose an evaluation setting based on message-passing models that do not require training to compute node and graph representations. We perform a systematic experimental comparison on real-world node and graph classification tasks, showing that rewiring the underlying graph rarely does confer a practical benefit for message-passing. | 翻訳日:2023-06-01 17:20:43 公開日:2023-05-31 |
# 言語モデルを用いたRed Teaming Language Model Detector Red Teaming Language Model Detectors with Language Models ( http://arxiv.org/abs/2305.19713v1 ) ライセンス: Link先を確認 | Zhouxing Shi, Yihan Wang, Fan Yin, Xiangning Chen, Kai-Wei Chang, Cho-Jui Hsieh | (参考訳) 大規模言語モデル(llm)の普及率と高いキャパシティは、悪意のあるユーザーがコンテンツの自動生成にそれらを利用する場合、重大な安全性と倫理上のリスクをもたらす。
LLMの潜在的な誤用を防止するため、最近の研究で機械生成テキストを検出するアルゴリズムがいくつか提案されている。
本稿では,既存の検出器の信頼性を体系的にテストし,検出器を騙すための2種類の攻撃戦略を考案する。
1) 文脈に基づいて,単語を同義語に置き換える
2)生成テキストの書き方を変更する。
これらの戦略は、LLMに同義語置換を生成するように指示したり、人間の関与なしにスタイルを変更する指示書を書くことで実現される。
本研究は,本攻撃がすべての検出器の性能を効果的に損なうことを明らかにし,より堅牢な機械生成テキスト検出システムの開発を急務とする。 The prevalence and high capacity of large language models (LLMs) present significant safety and ethical risks when malicious users exploit them for automated content generation. To prevent the potentially deceptive usage of LLMs, recent works have proposed several algorithms to detect machine-generated text. In this paper, we systematically test the reliability of the existing detectors, by designing two types of attack strategies to fool the detectors: 1) replacing words with their synonyms based on the context; 2) altering the writing style of generated text. These strategies are implemented by instructing LLMs to generate synonymous word substitutions or writing directives that modify the style without human involvement, and the LLMs leveraged in the attack can also be protected by detectors. Our research reveals that our attacks effectively compromise the performance of all tested detectors, thereby underscoring the urgent need for the development of more robust machine-generated text detection systems. | 翻訳日:2023-06-01 17:20:25 公開日:2023-05-31 |
# XPhoneBERT:テキスト音声の音素表現のための事前学習型多言語モデル XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations for Text-to-Speech ( http://arxiv.org/abs/2305.19709v1 ) ライセンス: Link先を確認 | Linh The Nguyen, Thinh Pham, Dat Quoc Nguyen | (参考訳) 下流音声(TTS)タスクの音素表現を学習するために事前訓練された最初の多言語モデルXPhoneBERTを提案する。
私たちの XPhoneBERT は BERT-base と同じモデルアーキテクチャを持ち,約100言語および局所言語から330万音素レベルの文に対して,RoBERTa の事前学習アプローチを用いてトレーニングを行った。
実験結果から, XPhoneBERT を入力音素エンコーダとして用いることにより, 自然性や韻律の面で強いニューラル TTS モデルの性能が著しく向上し, 訓練データに制限のあるかなり高品質な音声を生成できることが示唆された。
複数の言語に対する将来の研究と下流TTSアプリケーションの促進を期待して、事前訓練したXPhoneBERTを公開しています。
XPhoneBERTモデルはhttps://github.com/VinAIResearch/XPhoneBERTで利用可能です。 We present XPhoneBERT, the first multilingual model pre-trained to learn phoneme representations for the downstream text-to-speech (TTS) task. Our XPhoneBERT has the same model architecture as BERT-base, trained using the RoBERTa pre-training approach on 330M phoneme-level sentences from nearly 100 languages and locales. Experimental results show that employing XPhoneBERT as an input phoneme encoder significantly boosts the performance of a strong neural TTS model in terms of naturalness and prosody and also helps produce fairly high-quality speech with limited training data. We publicly release our pre-trained XPhoneBERT with the hope that it would facilitate future research and downstream TTS applications for multiple languages. Our XPhoneBERT model is available at https://github.com/VinAIResearch/XPhoneBERT | 翻訳日:2023-06-01 17:20:08 公開日:2023-05-31 |
# 睡眠領域におけるヒューマンAIヘルスコーチングモデル支援のための抽出質問応答システムの構築 Building Extractive Question Answering System to Support Human-AI Health Coaching Model for Sleep Domain ( http://arxiv.org/abs/2305.19707v1 ) ライセンス: Link先を確認 | Iva Bojic and Qi Chwen Ong and Shafiq Joty and Josip Car | (参考訳) 非感染性疾患(NCD)は世界的な死の主な原因であり、一次予防と生活習慣の変化に焦点を当てる必要がある。
ヘルスコーチングと質問応答(qa)システムは、予防医療を変革する可能性を秘めています。
本稿では,ドメイン固有抽出QAシステムを取り入れたヒューマン・アーティフィアル・インテリジェンス(AI)ヘルスコーチングモデルを提案する。
睡眠に焦点を当てたデータセットであるSleepQAは手動で組み立てられ、ドメイン固有のBERTモデルを微調整するために使用される。
自動および人的手法を用いてQAシステムの評価を行った。
データ中心のフレームワークは、経路検索と質問修正を改善して、システムの性能を高めた。
自動評価ではベースラインよりも優れていなかったが,実世界の質問に対する人間の評価に優れていた。
人間-AI健康コーチングモデルへの統合は、パイロットのランダム化制御試験(RCT)でテストされた。 Non-communicable diseases (NCDs) are a leading cause of global deaths, necessitating a focus on primary prevention and lifestyle behavior change. Health coaching, coupled with Question Answering (QA) systems, has the potential to transform preventive healthcare. This paper presents a human-Artificial Intelligence (AI) health coaching model incorporating a domain-specific extractive QA system. A sleep-focused dataset, SleepQA, was manually assembled and used to fine-tune domain-specific BERT models. The QA system was evaluated using automatic and human methods. A data-centric framework enhanced the system's performance by improving passage retrieval and question reformulation. Although the system did not outperform the baseline in automatic evaluation, it excelled in the human evaluation of real-world questions. Integration into a Human-AI health coaching model was tested in a pilot Randomized Controlled Trial (RCT). | 翻訳日:2023-06-01 17:19:49 公開日:2023-05-31 |
# 分離可能な目的のための最適決定木:動的プログラミングの限界を押し上げる Optimal Decision Trees for Separable Objectives: Pushing the Limits of Dynamic Programming ( http://arxiv.org/abs/2305.19706v1 ) ライセンス: Link先を確認 | Jacobus G. M. van der Linden, Mathijs M. de Weerdt, Emir Demirovi\'c | (参考訳) 決定木のグローバル最適化は、正確性、大きさ、その結果、人間の理解性の観点から有望であることが示されている。
しかし、使用するメソッドの多くは、スケーラビリティが問題である汎用解法に依存している。
動的プログラミング手法は、サブツリーを独立したサブプロブレムとして解くことによってツリー構造を利用するため、はるかに拡張されている。
しかし、これは目的が別々にサブツリーに最適化できる場合にのみ機能する。
この関係を詳細に検討し、そのような分離性に必要な条件を示し、従来の動的プログラミングアプローチを、分離可能な目的と制約の組み合わせを最適化できるフレームワークに一般化する。
4つのアプリケーションドメインにおける実験により、このフレームワークの一般的な適用性が示され、汎用解法のスケーラビリティを大きく上回っている。 Global optimization of decision trees has shown to be promising in terms of accuracy, size, and consequently human comprehensibility. However, many of the methods used rely on general-purpose solvers for which scalability remains an issue. Dynamic programming methods have been shown to scale much better because they exploit the tree structure by solving subtrees as independent subproblems. However, this only works when an objective can be optimized separately for subtrees. We explore this relationship in detail and show necessary and sufficient conditions for such separability and generalize previous dynamic programming approaches into a framework that can optimize any combination of separable objectives and constraints. Experiments on four application domains show the general applicability of this framework, while outperforming the scalability of general-purpose solvers by a large margin. | 翻訳日:2023-06-01 17:19:37 公開日:2023-05-31 |
# チュートリアル:オープン量子システムへのプロジェクターアプローチ Tutorial: projector approach to open quantum systems ( http://arxiv.org/abs/2305.19704v1 ) ライセンス: Link先を確認 | C. Gonzalez-Ballestero | (参考訳) ほとんどの量子理論家は、ボルン=マルコフマスター方程式や断熱除去のような外部自由度に結合したシステムの効果的な量子力学を記述する異なる方法に精通している。
これらの明らかに無関係な手法間の深いつながりを理解することは強力なツールであり、非伝統的なシステムや体制における効果的なダイナミクスを導出することができる。
このチュートリアルは、nレベルエミッタからメカニカル共振器まで、システムに適用可能な効果的な量子力学を導出するための自己完結型実用的なツールボックスによって、複数の分野(量子光学、原子光学、光メカニクス、ハイブリッド量子システムなど)にまたがる量子論者に提供することを目的としている。
このチュートリアルは、量子光学や原子光学から光力学やハイブリッド量子システムまで、応用量子物理学に関する理論家のために書かれた。
まず,開量子システムへのプロジェクタアプローチと,中島-ツワンジヒ方程式の導出について概説する。
そこで本研究では,中島・ズワンツィヒ方程式の摂動膨張から,ボルン・マルコフ・マスター方程式,原子物理学における断熱除去,サイドバンド冷却における断熱除去の3つの共通効用方程式を導出した。
また、ラムダ系における断熱除去と、光学キャビティによって冷却される機械共振器の有効方程式という、2つの具体的な例を詳細に解く。 Most quantum theorists are familiar with different ways of describing the effective quantum dynamics of a system coupled to external degrees of freedom, such as the Born-Markov master equation or the adiabatic elimination. Understanding the deep connection between these apparently unrelated methods can be a powerful tool, allowing us to derive effective dynamics in unconventional systems or regimes. This tutorial aims at providing quantum theorists across multiple fields (e.g. quantum and atom optics, optomechanics, or hybrid quantum systems) with a self-contained practical toolbox to derive effective quantum dynamics, applicable to systems ranging from N-level emitters to mechanical resonators. This tutorial is written for any theorist working on applied quantum physics, from quantum and atom optics to optomechanics or hybrid quantum systems. First, we summarize the projector approach to open quantum systems and the derivation of the fundamental Nakajima-Zwanzig equation. Then, we show how three common effective equations, namely the Born-Markov Master Equation, the adiabatic elimination used in atom physics, and a different adiabatic elimination used in sideband cooling, can be derived from different perturbative expansions of the Nakajima-Zwanzig equation. We also solve in detail two specific examples using this formalism, namely the adiabatic elimination in a Lambda system and the effective equations of a mechanical resonator cooled by an optical cavity. | 翻訳日:2023-06-01 17:19:23 公開日:2023-05-31 |
# GaitGS: 歩行認識のための粒度とスパン次元の時間的特徴学習 GaitGS: Temporal Feature Learning in Granularity and Span Dimension for Gait Recognition ( http://arxiv.org/abs/2305.19700v1 ) ライセンス: Link先を確認 | Haijun Xiong, Yunze Deng, Xiaohu Huang, Xinggang Wang, Wenyu Liu, Bin Feng | (参考訳) 歩行認識は、歩行パターンに基づいて個人を特定し検証する生物認識技術である。
しかし,現在の手法の多くは時間的情報の利用に限られている。
歩行認識の可能性を完全に活用するためには,様々な粒度の時間的特徴を考慮することが重要である。
そこで本稿では,粒度次元とスパン次元を同時に集約する新しいフレームワークであるgaitgsを提案する。
特に,マルチグラニュラリティ特徴抽出器(mgfe)は,フレームレベルと単位レベルでのマイクロモーション情報とマクロモーション情報をそれぞれ捉えることに焦点を当てて提案されている。
さらに,マルチスパン特徴学習(msfl)モジュールを用いて,グローバルおよびローカル時間表現を生成する。
3つの一般的な歩行データセットにおいて,提案手法の最先端性能を実験的に検証した。
本手法は, CASIA-B, GREW, OU-MVLPでそれぞれ92.9% (+0.5%), 52.0% (+1.4%), 97.5% (+0.8%) のランク1の精度を達成している。
ソースコードはまもなくリリースされる予定だ。 Gait recognition is an emerging biological recognition technology that identifies and verifies individuals based on their walking patterns. However, many current methods are limited in their use of temporal information. In order to fully harness the potential of gait recognition, it is crucial to consider temporal features at various granularities and spans. Hence, in this paper, we propose a novel framework named GaitGS, which aggregates temporal features in the granularity dimension and span dimension simultaneously. Specifically, Multi-Granularity Feature Extractor (MGFE) is proposed to focus on capturing the micro-motion and macro-motion information at the frame level and unit level respectively. Moreover, we present Multi-Span Feature Learning (MSFL) module to generate global and local temporal representations. On three popular gait datasets, extensive experiments demonstrate the state-of-the-art performance of our method. Our method achieves the Rank-1 accuracies of 92.9% (+0.5%), 52.0% (+1.4%), and 97.5% (+0.8%) on CASIA-B, GREW, and OU-MVLP respectively. The source code will be released soon. | 翻訳日:2023-06-01 17:18:55 公開日:2023-05-31 |
# Bernstein-Vaziraniアルゴリズムの性能に及ぼす雑音の影響 Effects of noise on performance of Bernstein-Vazirani algorithm ( http://arxiv.org/abs/2305.19745v1 ) ライセンス: Link先を確認 | Archi Gupta, Priya Ghosh, Kornikar Sen, Ujjwal Sen | (参考訳) ベルンシュタイン・ヴァジラニアルゴリズムは、関数の隠れビット列を見つける際、例外的な精度を提供する。
我々は,ノイズが性能を阻害する可能性のある実環境において,アルゴリズムがどのように機能するかを考察する。
不完全な機器の影響を評価するため、ベルンシュタイン・ヴァジラーニ回路で用いられるアダマール門の効果に様々な形態のガラス障害を導入する。
我々は5種類の疾患、vizを取り入れた。
有限カットオフ、球面ガウス、離散円、球面コーシーローレンツを持つハールユニフォームは、圧縮される。
いずれの場合も障害強度の増加に伴い,アルゴリズムの有効性は低下する。
さらに,秘密文字列のビット数が増加するにつれて,文字列を正しく推測する成功確率が,障害のタイプに影響を受けにくくなり,障害の中心と広がりにのみ依存することを示した。
この結果と類似の古典的アルゴリズムの性能を類似雑音下で比較した。
古典的なアルゴリズムは、ノイズのないシナリオであっても、長い秘密文字列に対して極めて非効率になる。
さらに、ベルンシュタイン・ヴァジラニアルゴリズムは、あらゆる障害の強みに対して、検討中のほとんどすべての種類の障害に対して、古典的なアルゴリズムよりも優れた性能を示す。
そうではない例が、中程度の大きさの隠れビット列を持つ強い離散性障害である。 The Bernstein-Vazirani algorithm offers exceptional accuracy in finding a hidden bit string of a function. We explore how the algorithm performs in real-world situations where noise can potentially interfere with the performance. In order to assess the impact of imperfect equipments, we introduce various forms of glassy disorders into the effect of the Hadamard gates used in Bernstein-Vazirani circuit. We incorporated disorders of five different forms, viz. Haar-uniform with finite cutoff, spherical Gaussian, discrete circular, spherical Cauchy-Lorentz, and squeezed. We find that the effectiveness of the algorithm decreases with increasing disorder strength in all cases. Additionally, we demonstrate that as the number of bits in the secret string increases, the success probability of correctly guessing the string becomes increasingly insensitive to the type of disorder and instead depends only on the center and spread of the disorder. We compare our results with the performance of the analogous classical algorithm in presence of similar noise. The classical algorithm becomes extremely inefficient for long secret strings, even in the noiseless scenario. Moreover, we witness that the Bernstein-Vazirani algorithm performs better than its classical counterpart for almost all types of disorder under consideration, for all disorder strengths. An instance where that is not the case is for strong discrete disorder with a moderate-sized hidden bit string. | 翻訳日:2023-06-01 17:12:06 公開日:2023-05-31 |
# 神経マルコフジャンププロセス Neural Markov Jump Processes ( http://arxiv.org/abs/2305.19744v1 ) ライセンス: Link先を確認 | Patrick Seifner and Ramses J. Sanchez | (参考訳) マルコフジャンプ過程は、自然科学と社会科学の両方に幅広い応用がある連続時間確率過程である。
広く使われているにもかかわらず、これらのモデルにおける推論は非常に非自明であり、モンテカルロ法または予想最大化法によって進行する。
本研究では, ニューラル常微分方程式に依存し, バックプロパゲーションにより学習可能なマルコフジャンプ過程の変分推論アルゴリズムを提案する。
本手法は,後方マルコフ跳躍過程の初期分布と時間依存遷移確率率を近似するために使用される観測データの神経的連続時間表現を学習する。
事前プロセスの時間非依存率は、生成的敵ネットワークに似た訓練を受けたものである。
本手法は, 地中マルコフジャンプ過程, イオンチャネルデータ, 分子動力学シミュレーションから得られた合成データを用いて実験を行った。
我々の実験を再現するソースコードはオンラインで入手できる。 Markov jump processes are continuous-time stochastic processes with a wide range of applications in both natural and social sciences. Despite their widespread use, inference in these models is highly non-trivial and typically proceeds via either Monte Carlo or expectation-maximization methods. In this work we introduce an alternative, variational inference algorithm for Markov jump processes which relies on neural ordinary differential equations, and is trainable via back-propagation. Our methodology learns neural, continuous-time representations of the observed data, that are used to approximate the initial distribution and time-dependent transition probability rates of the posterior Markov jump process. The time-independent rates of the prior process are in contrast trained akin to generative adversarial networks. We test our approach on synthetic data sampled from ground-truth Markov jump processes, experimental switching ion channel data and molecular dynamics simulations. Source code to reproduce our experiments is available online. | 翻訳日:2023-06-01 17:11:46 公開日:2023-05-31 |
# 屈折から単分子形状へ向けて Towards Monocular Shape from Refraction ( http://arxiv.org/abs/2305.19743v1 ) ライセンス: Link先を確認 | Antonin Sulc, Imari Sato, Bastian Goldluecke, Tali Treibitz | (参考訳) 屈折は一般的な物理現象であり、コンピュータビジョンで長い間研究されてきた。
屈折物体を通して撮像された物体は、メディア間の界面の形状の関数として画像中に歪んでいるように見える。
これは多くのコンピュータビジョンの応用を妨げるが、屈折インタフェースの幾何学を得るのに利用できる。
屈折面回復への従来のアプローチは、分析された表面の複数の画像のような様々な先行情報や追加情報に大きく依存していた。
対照的に、スネルの法則に基づく単純なエネルギー関数は、単一の画像と既知の背景テクスチャと幾何学を用いて任意の屈折面形状を再構成できると主張する。
単一点の場合、スネルの法則は2つの自由度を持つので、表面深さを推定するには追加情報が必要である。
表面全体の解法は暗黙のパラメータフリーな空間正規化を導入し、知的初期推定が提供されると説得力のある結果が得られることを示す。
本手法はシミュレーションと実世界実験により実証し,単一フレーム単眼環境での結果を再現する手法である。 Refraction is a common physical phenomenon and has long been researched in computer vision. Objects imaged through a refractive object appear distorted in the image as a function of the shape of the interface between the media. This hinders many computer vision applications, but can be utilized for obtaining the geometry of the refractive interface. Previous approaches for refractive surface recovery largely relied on various priors or additional information like multiple images of the analyzed surface. In contrast, we claim that a simple energy function based on Snell's law enables the reconstruction of an arbitrary refractive surface geometry using just a single image and known background texture and geometry. In the case of a single point, Snell's law has two degrees of freedom, therefore to estimate a surface depth, we need additional information. We show that solving for an entire surface at once introduces implicit parameter-free spatial regularization and yields convincing results when an intelligent initial guess is provided. We demonstrate our approach through simulations and real-world experiments, where the reconstruction shows encouraging results in the single-frame monocular setting. | 翻訳日:2023-06-01 17:11:33 公開日:2023-05-31 |
# 投薬組み合わせのための信頼性のあるオフポリシー学習 Reliable Off-Policy Learning for Dosage Combinations ( http://arxiv.org/abs/2305.19742v1 ) ライセンス: Link先を確認 | Jonas Schweisthal, Dennis Frauen, Valentyn Melnychuk, Stefan Feuerriegel | (参考訳) がん治療や重篤な治療などのパーソナライズド医療における意思決定は、しばしば服用の組み合わせ、すなわち複数の継続的治療を選択する必要がある。
既存の作業は、個別に複数の治療の効果をモデル化し、共同効果を推定することはほとんど注目されていないが、非自明な課題が伴っている。
本稿では, 投薬の組み合わせに対する信頼性の高いオフポリシー学習法を提案する。
提案手法は3つのステップに沿って進行する: 1) 複数の依存量による連関効果を考慮しつつ、個別化された線量応答関数を推定するニューラルネットワークを開発する。
2) 共変量処理空間の重複が限定された領域を検出するために, 条件付き正規化フローを用いた一般化確率スコアを推定する。
(3)最適な個別化量の組み合わせを見つけるための勾配に基づく学習アルゴリズムを提案する。
ここでは,重複の少ない地域を避けて,政策価値の信頼性の高い推定を行う。
最終的に,本手法の有効性を示すため,広範囲な評価を行った。
我々の知識を最大限に活用するため、我々の研究は最適な投与量の組合せのための信頼できるオフポリシー学習の方法を提供する最初の研究である。 Decision-making in personalized medicine such as cancer therapy or critical care must often make choices for dosage combinations, i.e., multiple continuous treatments. Existing work for this task has modeled the effect of multiple treatments independently, while estimating the joint effect has received little attention but comes with non-trivial challenges. In this paper, we propose a novel method for reliable off-policy learning for dosage combinations. Our method proceeds along three steps: (1) We develop a tailored neural network that estimates the individualized dose-response function while accounting for the joint effect of multiple dependent dosages. (2) We estimate the generalized propensity score using conditional normalizing flows in order to detect regions with limited overlap in the shared covariate-treatment space. (3) We present a gradient-based learning algorithm to find the optimal, individualized dosage combinations. Here, we ensure reliable estimation of the policy value by avoiding regions with limited overlap. We finally perform an extensive evaluation of our method to show its effectiveness. To the best of our knowledge, ours is the first work to provide a method for reliable off-policy learning for optimal dosage combinations. | 翻訳日:2023-06-01 17:11:10 公開日:2023-05-31 |
# Bures-Wasserstein グラフの意味 Bures-Wasserstein Means of Graphs ( http://arxiv.org/abs/2305.19738v1 ) ライセンス: Link先を確認 | Isabel Haasler, Pascal Frossard | (参考訳) サンプルデータの平均を見つけることは、機械学習と統計学における基本的な課題である。
しかし、データサンプルがグラフオブジェクトである場合、平均を定義することは本質的に難しいタスクである。
本研究では,滑らかなグラフ信号分布の空間への埋め込みにより,グラフ平均を定義するための新しい枠組みを提案する。
この埋め込み空間に平均を見つけることで、構造情報を保存する平均グラフを復元することができる。
我々は,新しいグラフの存在と特異性を確立し,それを計算するための反復アルゴリズムを提供する。
機械学習における実用的な応用ツールとしてのフレームワークの可能性を強調するため,構造化グラフのk平均クラスタリング,機能的脳ネットワークの分類,多層グラフにおける半教師付きノード分類など様々なタスクで評価した。
実験の結果,本手法は一貫した性能を達成し,既存のベースラインアプローチを上回り,最先端手法を改善した。 Finding the mean of sampled data is a fundamental task in machine learning and statistics. However, in cases where the data samples are graph objects, defining a mean is an inherently difficult task. We propose a novel framework for defining a graph mean via embeddings in the space of smooth graph signal distributions, where graph similarity can be measured using the Wasserstein metric. By finding a mean in this embedding space, we can recover a mean graph that preserves structural information. We establish the existence and uniqueness of the novel graph mean, and provide an iterative algorithm for computing it. To highlight the potential of our framework as a valuable tool for practical applications in machine learning, it is evaluated on various tasks, including k-means clustering of structured graphs, classification of functional brain networks, and semi-supervised node classification in multi-layer graphs. Our experimental results demonstrate that our approach achieves consistent performance, outperforms existing baseline approaches, and improves state-of-the-art methods. | 翻訳日:2023-06-01 17:10:38 公開日:2023-05-31 |
# 宇宙デブリクエリのための知識ベース質問回答 Knowledge Base Question Answering for Space Debris Queries ( http://arxiv.org/abs/2305.19734v1 ) ライセンス: Link先を確認 | Paul Darm, Antonio Valerio Miceli-Barone, Shay B. Cohen, Annalisa Riccardi | (参考訳) 宇宙機関は、広範な情報システムに含まれる技術知識によって支援される必要がある複雑な衛星運用を実行する。
知識ベース(KB)は、そのような情報を大規模に保存し、アクセスするための効果的な方法である。
本研究では,欧州宇宙機関 (ESA) 向けに開発され,複雑な自然言語クエリに応答し,軌道上の宇宙デブリ環境をモデル化するKBに含まれる情報にアクセスするエンジニアを支援するシステムを提案する。
本システムでは,まず自然言語質問から%プログラムスケッチと呼ばれる基本データベース操作列を生成し,そのスケッチをエンティティや属性,関係を言及した具体的なクエリプログラムに特殊化し,最後にデータベースに対してプログラムを実行する。
このパイプライン分割アプローチにより,gpt-3で生成された領域外データと半合成データを活用することで,ドメイン内トレーニングデータの少ない量でも過剰フィッティングやショートカット学習を低減できる。
我々のコードは \url{https://github.com/PaulDrm/DISCOSQA} にある。 Space agencies execute complex satellite operations that need to be supported by the technical knowledge contained in their extensive information systems. Knowledge bases (KB) are an effective way of storing and accessing such information at scale. In this work we present a system, developed for the European Space Agency (ESA), that can answer complex natural language queries, to support engineers in accessing the information contained in a KB that models the orbital space debris environment. Our system is based on a pipeline which first generates a sequence of basic database operations, called a %program sketch, from a natural language question, then specializes the sketch into a concrete query program with mentions of entities, attributes and relations, and finally executes the program against the database. This pipeline decomposition approach enables us to train the system by leveraging out-of-domain data and semi-synthetic data generated by GPT-3, thus reducing overfitting and shortcut learning even with limited amount of in-domain training data. Our code can be found at \url{https://github.com/PaulDrm/DISCOSQA}. | 翻訳日:2023-06-01 17:10:00 公開日:2023-05-31 |
# appraiser:近似エラーを利用したDNNフォールトレジリエンス解析 APPRAISER: DNN Fault Resilience Analysis Employing Approximation Errors ( http://arxiv.org/abs/2305.19733v1 ) ライセンス: Link先を確認 | Mahdi Taheri, Mohammad Hasan Ahmadilivani, Maksim Jenihhin, Masoud Daneshtalab, and Jaan Raik | (参考訳) 今日では、安全クリティカルなアプリケーションにおけるディープニューラルネットワーク(DNN)の広範な活用により、新たな信頼性の懸念が高まっている。
実際、ハードウェアにおけるエミュレーションによるフォールトインジェクションの手法は効率的であり、設計段階ですでに信頼性の問題を軽減するためにdnnアーキテクチャのレジリエンスを研究するために広く使われている。
しかし、エミュレーションによる断層注入の最先端手法は、時間、設計、制御の複雑さの問題を引き起こす。
これらの課題を克服するために,非慣習目的に関数近似を適用し,その関心のために近似計算誤差を用いる,アライザーと呼ばれる新しいレジリエンス評価手法を提案する。
この概念をレジリエンス評価の領域で採用することで、appraiserは分析の精度を維持しつつ、評価プロセスの数千倍のスピードアップを提供する。
本稿では,FPGAにおけるエミュレーションによる故障注入の最先端手法と比較し,APPRAISERの有効性を検証する。
これにより、アイデアの実現可能性が実証され、dnnのレジリエンス評価における新たな視点が開かれる。 Nowadays, the extensive exploitation of Deep Neural Networks (DNNs) in safety-critical applications raises new reliability concerns. In practice, methods for fault injection by emulation in hardware are efficient and widely used to study the resilience of DNN architectures for mitigating reliability issues already at the early design stages. However, the state-of-the-art methods for fault injection by emulation incur a spectrum of time-, design- and control-complexity problems. To overcome these issues, a novel resiliency assessment method called APPRAISER is proposed that applies functional approximation for a non-conventional purpose and employs approximate computing errors for its interest. By adopting this concept in the resiliency assessment domain, APPRAISER provides thousands of times speed-up in the assessment process, while keeping high accuracy of the analysis. In this paper, APPRAISER is validated by comparing it with state-of-the-art approaches for fault injection by emulation in FPGA. By this, the feasibility of the idea is demonstrated, and a new perspective in resiliency evaluation for DNNs is opened. | 翻訳日:2023-06-01 17:09:32 公開日:2023-05-31 |
# データ表現の潜在画像マニフォールドに関する研究 Data Representations' Study of Latent Image Manifolds ( http://arxiv.org/abs/2305.19730v1 ) ライセンス: Link先を確認 | Ilya Kafuman and Omri Aznecot | (参考訳) ディープニューラルネットワークは多くの領域で驚くべき成功を収めることが示されているが、その内部メカニズムはよく分かっていない。
本稿では,画像多様体の曲率,すなわち,多様体の偏差が主方向において平坦であることについて検討する。
画像分類のための最先端の訓練された畳み込みニューラルネットワークは、層に沿って特徴的な曲率プロファイルを持つことがわかりました。
対照的に、この挙動は曲率が平坦な未訓練のネットワークには現れない。
また,最後の2層間の曲率ギャップは,ネットワークの一般化能力と強く相関していることを示す。
さらに,潜伏符号の内在次元は必ずしも曲率を表すものではないことが判明した。
最後に,ミックスアップなどの共通正規化手法が,他の手法と比較してフラットな表現を生じさせることを示す。
実験では、さまざまなディープラーニングアーキテクチャと複数のデータセットに対して一貫した結果を示す。
私たちのコードはhttps://github.com/azencot-group/CRLMで公開されています。 Deep neural networks have been demonstrated to achieve phenomenal success in many domains, and yet their inner mechanisms are not well understood. In this paper, we investigate the curvature of image manifolds, i.e., the manifold deviation from being flat in its principal directions. We find that state-of-the-art trained convolutional neural networks for image classification have a characteristic curvature profile along layers: an initial steep increase, followed by a long phase of a plateau, and followed by another increase. In contrast, this behavior does not appear in untrained networks in which the curvature flattens. We also show that the curvature gap between the last two layers has a strong correlation with the generalization capability of the network. Moreover, we find that the intrinsic dimension of latent codes is not necessarily indicative of curvature. Finally, we observe that common regularization methods such as mixup yield flatter representations when compared to other methods. Our experiments show consistent results over a variety of deep learning architectures and multiple data sets. Our code is publicly available at https://github.com/azencot-group/CRLM | 翻訳日:2023-06-01 17:09:13 公開日:2023-05-31 |
# 非平衡低ランク最適輸送解法 Unbalanced Low-rank Optimal Transport Solvers ( http://arxiv.org/abs/2305.19727v1 ) ライセンス: Link先を確認 | Meyer Scetbon, Michal Klein, Giovanni Palla, Marco Cuturi | (参考訳) 機械学習に対する最適輸送手法の関連性は、長い間、2つの有能な制限によって妨げられてきた。
まず、標準サンプルベースソルバの$O(n^3)$計算コスト($n$サンプルのバッチで使用される場合)は禁じられている。
第二に、質量保存制約はOTソルバを実際は厳密にしすぎる:それらは両方の測度から \textit{all} 点と一致しなければならないので、出力は外れ値の影響を受けやすい。
OTにおける最近の一連の研究は、これらの計算とモデリングの限界に対処しているが、2つの異なる方法の系統が導かれた: 計算の見通しはエントロピー正則化によって大幅に改善されたが、より最近の$O(n)$ linear-time \textit{low-rank} ソルバは、OTをさらにスケールアップする約束を保っている。
一方、モデル剛性は、質量保存を課すのではなく、罰則を助長する OT の非平衡な変種によって緩和されている。
本研究の目的は,これら2つのひずみを融合し,多元性/スカラー・アンバランス・ローランクOTソルバの実現である。
本稿では,これらの拡張を線形ot問題とその融合グロモフ・ワッセルシュタイン一般化のために実装するカスタムアルゴリズムを提案し,空間的トランスクリプトミクスマッチング問題に対する実用的妥当性を示す。 The relevance of optimal transport methods to machine learning has long been hindered by two salient limitations. First, the $O(n^3)$ computational cost of standard sample-based solvers (when used on batches of $n$ samples) is prohibitive. Second, the mass conservation constraint makes OT solvers too rigid in practice: because they must match \textit{all} points from both measures, their output can be heavily influenced by outliers. A flurry of recent works in OT has addressed these computational and modelling limitations, but has resulted in two separate strains of methods: While the computational outlook was much improved by entropic regularization, more recent $O(n)$ linear-time \textit{low-rank} solvers hold the promise to scale up OT further. On the other hand, modelling rigidities have been eased owing to unbalanced variants of OT, that rely on penalization terms to promote, rather than impose, mass conservation. The goal of this paper is to merge these two strains, to achieve the promise of \textit{both} versatile/scalable unbalanced/low-rank OT solvers. We propose custom algorithms to implement these extensions for the linear OT problem and its Fused-Gromov-Wasserstein generalization, and demonstrate their practical relevance to challenging spatial transcriptomics matching problems. | 翻訳日:2023-06-01 17:08:56 公開日:2023-05-31 |
# 構成的仮定のない表現の学習 Learning Representations without Compositional Assumptions ( http://arxiv.org/abs/2305.19726v1 ) ライセンス: Link先を確認 | Tennison Liu, Jeroen Berrevoets, Zhaozhi Qian, Mihaela van der Schaar | (参考訳) 本稿では,異なる測定源から生成された複数のビューを含む表データの教師なし表現学習について述べる。
マルチビューフレームワークを用いてこの問題に対処する従来の手法は、機能セットが同じ情報を共有し、表現がグローバルに共有される要因を学ぶべきだと仮定する前提によって制約される。
しかし、この仮定は、機能セット間の複雑な依存関係を持つ現実世界の表層データセットに対して必ずしも有効ではない。
この制限を克服するために,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合依存を学習するデータ駆動アプローチを提案する。
さらに,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
このアプローチにより、入力の異なる領域からローカライズされた情報をキャプチャする潜在グラフコンポーネントが、より優れたダウンストリーム性能をもたらす。 This paper addresses unsupervised representation learning on tabular data containing multiple views generated by distinct sources of measurement. Traditional methods, which tackle this problem using the multi-view framework, are constrained by predefined assumptions that assume feature sets share the same information and representations should learn globally shared factors. However, this assumption is not always valid for real-world tabular datasets with complex dependencies between feature sets, resulting in localized information that is harder to learn. To overcome this limitation, we propose a data-driven approach that learns feature set dependencies by representing feature sets as graph nodes and their relationships as learnable edges. Furthermore, we introduce LEGATO, a novel hierarchical graph autoencoder that learns a smaller, latent graph to aggregate information from multiple views dynamically. This approach results in latent graph components that specialize in capturing localized information from different regions of the input, leading to superior downstream performance. | 翻訳日:2023-06-01 17:08:27 公開日:2023-05-31 |
# 量子計測のための物理ノイズモデル A physical noise model for quantum measurements ( http://arxiv.org/abs/2305.19766v1 ) ライセンス: Link先を確認 | Faedi Loulidi, Ion Nechita, Cl\'ement Pellegrini | (参考訳) そこで,本論文では,故障のある間接計測方式に動機づけられた量子計測のための新しいノイズモデルを提案する。
量子系とプローブの相互作用を制御するランダムダイナミクス上の平均化により、自然な物理ノイズモデルが出現する。
非互換性のロバスト性という枠組みで、既存のノイズモデル(一様および非分極)と比較する。
我々は,本モデルが特定の測定クラスの互換性領域を大きくすることができることを観察した。 In this paper we introduce a novel noise model for quantum measurements motivated by an indirect measurement scheme with faulty preparation. Averaging over random dynamics governing the interaction between the quantum system and a probe, a natural, physical noise model emerges. We compare it to existing noise models (uniform and depolarizing) in the framework of incompatibility robustness. We observe that our model allows for larger compatibility regions for specific classes of measurements. | 翻訳日:2023-06-01 17:02:06 公開日:2023-05-31 |
# ベイズにおけるデータ帰属訓練の展望 A Bayesian Perspective On Training Data Attribution ( http://arxiv.org/abs/2305.19765v1 ) ライセンス: Link先を確認 | Elisa Nguyen, Minjoon Seo, Seong Joon Oh | (参考訳) トレーニングデータ属性(TDA)技術は、興味のあるテストデータに対するモデルの予測に影響を及ぼすトレーニングデータを見つける。
特定のトレーニングサンプルのダウンあるいはアップ重み付けの影響を近似する。
概念的には有用であるが、特に異なるモデル初期化に対する感受性のため、実用上はほとんど適用できない。
本稿では,学習モデルをベイズ後部として扱い,TDAを確率変数として推定する,TDAタスクに対するベイズ的視点を紹介する。
この新たな観点から,モデル初期化とsgdバッチ合成によるノイズが,個々のトレーニングサンプルの影響を過大評価することがしばしばある。
この観察から,TDAは特定の学習データの影響を受けないモデル予測を,他のノイズ要因とは独立して,確実に説明することができると論じる。
本実験はノイズ非依存型トレーニングテストデータペアの希少性を実証するが,その存在が確認される。
今後の研究者や実践者は,TDAの推定をそのような場合にのみ信頼することを推奨する。
さらに, 基礎的真理と推定されたTDA分布の相違が発見され, 今後の研究を奨励する。
コードはhttps://github.com/elisanguyen/bayesian-tdaで提供される。 Training data attribution (TDA) techniques find influential training data for the model's prediction on the test data of interest. They approximate the impact of down- or up-weighting a particular training sample. While conceptually useful, they are hardly applicable in practice, particularly because of their sensitivity to different model initialisation. In this paper, we introduce a Bayesian perspective on the TDA task, where the learned model is treated as a Bayesian posterior and the TDA estimates as random variables. From this novel viewpoint, we observe that the influence of an individual training sample is often overshadowed by the noise stemming from model initialisation and SGD batch composition. Based on this observation, we argue that TDA can only be reliably used for explaining model predictions that are consistently influenced by certain training data, independent of other noise factors. Our experiments demonstrate the rarity of such noise-independent training-test data pairs but confirm their existence. We recommend that future researchers and practitioners trust TDA estimates only in such cases. Further, we find a disagreement between ground truth and estimated TDA distributions and encourage future work to study this gap. Code is provided at https://github.com/ElisaNguyen/bayesian-tda. | 翻訳日:2023-06-01 17:02:01 公開日:2023-05-31 |
# Recursive Metropolis-Hastings Naming Game:確率的生成モデルに基づくマルチエージェントシステムにおけるシンボル創発 Recursive Metropolis-Hastings Naming Game: Symbol Emergence in a Multi-agent System based on Probabilistic Generative Models ( http://arxiv.org/abs/2305.19761v1 ) ライセンス: Link先を確認 | Jun Inukai, Tadahiro Taniguchi, Akira Taniguchi, Yoshinobu Hagiwara | (参考訳) エージェント集団におけるシンボル出現と創発的コミュニケーションに関する研究において,エージェントが様々な言語ゲームに参加する計算モデルが採用された。
このうち、メトロポリス・ハスティングス命名ゲーム(MHNG)は、MHNGによるシンボルの出現は、エージェントが共有する表現の分散ベイズ的推論であることが証明されている。
しかし、以前提案されたMHNGは2エージェントのシナリオに限定されている。
本稿では,MHNGをNエージェントシナリオに拡張する。
本論文の主な貢献は,(1)MHNGのNエージェント版として再帰的メトロポリス・ハスティングス命名ゲーム(RMHNG)を提案し,RMHNGがMHNGと同様のエージェントによって共有される潜伏変数に対する後続分布の近似ベイズ推定法であることを実証し,(2)合成および実画像データにおけるRMHNGの性能を実証的に評価し,複数のエージェントがシンボルシステムを開発し,共有できるようにする。
さらに,1サンプルと制限長の2種類の近似を導入し,計算複雑性を低減し,エージェントの集団におけるコミュニケーションを説明する能力を維持する。
実験の結果, RMHNGは, MHNGと同様, 潜伏変数に関する後部分布を近似するための分散ベイズ推定法として有効であった。
さらにRMHNGの利用により、シンボル交換のためのエージェントの能力が解明された。
さらに、計算的に単純化されたRMHNGでさえ、エージェント間でシンボルが出現することを発見した。 In the studies on symbol emergence and emergent communication in a population of agents, a computational model was employed in which agents participate in various language games. Among these, the Metropolis-Hastings naming game (MHNG) possesses a notable mathematical property: symbol emergence through MHNG is proven to be a decentralized Bayesian inference of representations shared by the agents. However, the previously proposed MHNG is limited to a two-agent scenario. This paper extends MHNG to an N-agent scenario. The main contributions of this paper are twofold: (1) we propose the recursive Metropolis-Hastings naming game (RMHNG) as an N-agent version of MHNG and demonstrate that RMHNG is an approximate Bayesian inference method for the posterior distribution over a latent variable shared by agents, similar to MHNG; and (2) we empirically evaluate the performance of RMHNG on synthetic and real image data, enabling multiple agents to develop and share a symbol system. Furthermore, we introduce two types of approximations -- one-sample and limited-length -- to reduce computational complexity while maintaining the ability to explain communication in a population of agents. The experimental findings showcased the efficacy of RMHNG as a decentralized Bayesian inference for approximating the posterior distribution concerning latent variables, which are jointly shared among agents, akin to MHNG. Moreover, the utilization of RMHNG elucidated the agents' capacity to exchange symbols. Furthermore, the study discovered that even the computationally simplified version of RMHNG could enable symbols to emerge among the agents. | 翻訳日:2023-06-01 17:01:44 公開日:2023-05-31 |
# マルチタスク事前学習と転送学習を用いた簡易かつ効果的なコードスイッチ言語識別 Simple yet Effective Code-Switching Language Identification with Multitask Pre-Training and Transfer Learning ( http://arxiv.org/abs/2305.19759v1 ) ライセンス: Link先を確認 | Shuyue Stella Li, Cihan Xiao, Tianjian Li, Bismarck Odoom | (参考訳) コード・ミキシング(コード・ミキシング、Code-mixing)は、カジュアルな設定では、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
自発的な性質から、コードスイッチングは非常に低リソースであるため、言語処理や音声処理の課題となっている。
このような状況下では、既存のモノリンガルツールを最大限活用したい場合、コードスイッチング言語識別(CSLID)は難しいが必要なタスクとなる。
本研究では,英語・マンダリン音声データセットにおける言語識別精度向上のための2つの新しい手法を提案する。
提案手法は,残差CNN+GRUモデルと,CSLIDの補助タスクとして自動音声認識(ASR)を利用するマルチタスク事前学習手法を含む。
コードスイッチの低リソース性から,単一言語コーパスを用いた注意深いシルバーデータ生成を両言語で実施し,データ拡張としてアップサンプリングも行います。
我々は英語とマンダリンのコード変更データに焦点をあてるが、我々の方法はどんな言語対にも当てはまる。
我々の最良のモデルは、実際の英語-中国語コード交換子指向音声コーパス上で0.781のバランスのとれた精度を達成し、以前のベースラインを55.3%上回っています。 Code-switching, also called code-mixing, is the linguistics phenomenon where in casual settings, multilingual speakers mix words from different languages in one utterance. Due to its spontaneous nature, code-switching is extremely low-resource, which makes it a challenging problem for language and speech processing tasks. In such contexts, Code-Switching Language Identification (CSLID) becomes a difficult but necessary task if we want to maximally leverage existing monolingual tools for other tasks. In this work, we propose two novel approaches toward improving language identification accuracy on an English-Mandarin child-directed speech dataset. Our methods include a stacked Residual CNN+GRU model and a multitask pre-training approach to use Automatic Speech Recognition (ASR) as an auxiliary task for CSLID. Due to the low-resource nature of code-switching, we also employ careful silver data creation using monolingual corpora in both languages and up-sampling as data augmentation. We focus on English-Mandarin code-switched data, but our method works on any language pair. Our best model achieves a balanced accuracy of 0.781 on a real English-Mandarin code-switching child-directed speech corpus and outperforms the previous baseline by 55.3%. | 翻訳日:2023-06-01 17:01:10 公開日:2023-05-31 |
# 多言語シナリオにおける人間および神経機械翻訳の自動識別 Automatic Discrimination of Human and Neural Machine Translation in Multilingual Scenarios ( http://arxiv.org/abs/2305.19757v1 ) ライセンス: Link先を確認 | Malina Chichirau, Rik van Noord and Antonio Toral | (参考訳) 我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
従来の研究とは対照的に、複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
一つのソース言語で並列データに基づいて訓練された分類器(この場合、ドイツ語-英語)は、学習対象以外のシステムで機械翻訳が作成された場合でも、異なるソース言語から派生した英語の翻訳で良好な性能を発揮することを示す。
さらに、多言語分類器の入力にソーステキストを組み込むことにより、より良くなることを示す。
(i)その正確さと
(II) 単言語分類器と比較して, システム間評価に頑健である。
さらに、複数のソース言語(ドイツ語、ロシア語、中国語)からのトレーニングデータを使用することで、単言語と多言語の両方の分類精度が向上する傾向がある。
最後に、複数のソース言語で訓練されたバイリンガル分類器と分類器は、文ではなく、長いテキストシーケンスで訓練される。 We tackle the task of automatically discriminating between human and machine translations. As opposed to most previous work, we perform experiments in a multilingual setting, considering multiple languages and multilingual pretrained language models. We show that a classifier trained on parallel data with a single source language (in our case German-English) can still perform well on English translations that come from different source languages, even when the machine translations were produced by other systems than the one it was trained on. Additionally, we demonstrate that incorporating the source text in the input of a multilingual classifier improves (i) its accuracy and (ii) its robustness on cross-system evaluation, compared to a monolingual classifier. Furthermore, we find that using training data from multiple source languages (German, Russian, and Chinese) tends to improve the accuracy of both monolingual and multilingual classifiers. Finally, we show that bilingual classifiers and classifiers trained on multiple source languages benefit from being trained on longer text sequences, rather than on sentences. | 翻訳日:2023-06-01 17:00:45 公開日:2023-05-31 |
# パラフレーズコーパスによる文の簡易化 Sentence Simplification Using Paraphrase Corpus for Initialization ( http://arxiv.org/abs/2305.19754v1 ) ライセンス: Link先を確認 | Kang Liu and Jipeng Qiang | (参考訳) シーケンス・ツー・シーケンス・フレームワークに基づくニューラルな文単純化手法が,文単純化(SS)タスクの主流となっている。
残念ながら、これらの手法は現在並列SSコーパスの不足によって制限されている。
本稿では,パラフレーズコーパスからニューラルSS法を慎重に初期化することにより,並列コーパスへの依存を減らす方法に焦点をあてる。
本研究は,(1)paraphraseコーパスは,ssコーパスに属する文ペアの多さを含む,という2つの知見によって動機づけられている。
2)これらの文ペアを高い複雑性差で保持することにより,大規模な擬似並列SSデータを構築することができる。
そこで我々は,パラフレーズコーパスを用いてニューラルSS法を初期化する2つの手法を提案する。
我々は、初期化なしで利用可能なWikiLargeデータを大幅に改善できる3つの異なるニューラルSS法を訓練する。 Neural sentence simplification method based on sequence-to-sequence framework has become the mainstream method for sentence simplification (SS) task. Unfortunately, these methods are currently limited by the scarcity of parallel SS corpus. In this paper, we focus on how to reduce the dependence on parallel corpus by leveraging a careful initialization for neural SS methods from paraphrase corpus. Our work is motivated by the following two findings: (1) Paraphrase corpus includes a large proportion of sentence pairs belonging to SS corpus. (2) We can construct large-scale pseudo parallel SS data by keeping these sentence pairs with a higher complexity difference. Therefore, we propose two strategies to initialize neural SS methods using paraphrase corpus. We train three different neural SS methods with our initialization, which can obtain substantial improvements on the available WikiLarge data compared with themselves without initialization. | 翻訳日:2023-06-01 17:00:28 公開日:2023-05-31 |
# トンネル効果:深層ニューラルネットワークにおけるデータ表現の構築 The Tunnel Effect: Building Data Representations in Deep Neural Networks ( http://arxiv.org/abs/2305.19753v1 ) ライセンス: Link先を確認 | Wojciech Masarczyk, Mateusz Ostaszewski, Ehsan Imani, Razvan Pascanu, Piotr Mi{\l}o\'s, Tomasz Trzci\'nski | (参考訳) ディープニューラルネットワークは、さまざまなタスクにまたがる顕著な効果で広く知られており、深層ネットワークは暗黙的により複雑なデータ表現を学ぶというコンセンサスがある。
本稿では,教師付き画像分類のための十分な深層ネットワークを,結果の表現に異なる2つの異なる部分に分割することを提案する。
最初のレイヤは線形に分離可能な表現を生成し、続くレイヤは \textit{the tunnel} と呼ばれ、これらの表現を圧縮し、全体的なパフォーマンスに最小限の影響を与える。
総合的な実験研究を通じてトンネルの挙動を探究し,訓練過程の初期段階に現れることを強調する。
その深さは、ネットワークの容量とタスクの複雑さの関係に依存する。
さらに,このトンネルは分散一般化を損なうことを示し,継続的な学習にその意義について考察する。 Deep neural networks are widely known for their remarkable effectiveness across various tasks, with the consensus that deeper networks implicitly learn more complex data representations. This paper shows that sufficiently deep networks trained for supervised image classification split into two distinct parts that contribute to the resulting data representations differently. The initial layers create linearly-separable representations, while the subsequent layers, which we refer to as \textit{the tunnel}, compress these representations and have a minimal impact on the overall performance. We explore the tunnel's behavior through comprehensive empirical studies, highlighting that it emerges early in the training process. Its depth depends on the relation between the network's capacity and task complexity. Furthermore, we show that the tunnel degrades out-of-distribution generalization and discuss its implications for continual learning. | 翻訳日:2023-06-01 17:00:13 公開日:2023-05-31 |
# スイスドイツ語のテキスト・トゥ・スペーチパイプラインの比較 Text-to-Speech Pipeline for Swiss German -- A comparison ( http://arxiv.org/abs/2305.19750v1 ) ライセンス: Link先を確認 | Tobias Bollinger, Jan Deriu, Manfred Vogel | (参考訳) 本研究では,異なるテキスト音声(TTS)モデルを用いて,スイスドイツ語音声の合成について検討した。
3 つのコーパス上での TTS モデルの評価を行い,VITS モデルの方が優れた結果を得た。
また、トレーニングされたボコーダGANモデルの判別器が、与えられた波形が人間か合成されているかを予測することによって、TSモデルを評価する新しい手法を提案する。
要約すると、我々の最良のモデルは、これまで達成できなかった品質を持つ異なるスイスドイツ語方言の音声合成を提供する。 In this work, we studied the synthesis of Swiss German speech using different Text-to-Speech (TTS) models. We evaluated the TTS models on three corpora, and we found, that VITS models performed best, hence, using them for further testing. We also introduce a new method to evaluate TTS models by letting the discriminator of a trained vocoder GAN model predict whether a given waveform is human or synthesized. In summary, our best model delivers speech synthesis for different Swiss German dialects with previously unachieved quality. | 翻訳日:2023-06-01 16:59:59 公開日:2023-05-31 |
# UKP-SQuARE: 質問に答える対話型ツール UKP-SQuARE: An Interactive Tool for Teaching Question Answering ( http://arxiv.org/abs/2305.19748v1 ) ライセンス: Link先を確認 | Haishuo Fang, Haritz Puerto, Iryna Gurevych | (参考訳) 質問応答の指数的増加(QA)は、あらゆる自然言語処理(NLP)コースにおいて必須のトピックとなっている。
さらに、この指数的成長から派生したQAの幅は、情報検索、説明可能性、敵攻撃など、関連するNLPトピックを教える上で理想的なシナリオとなっている。
本稿では,QA教育のプラットフォームとしてUKP-SQuAREを紹介する。
このプラットフォームは、学生が一般的な振る舞い、説明可能性、堅牢性など、さまざまな視点から様々なQAモデルを実行、比較、分析できるインタラクティブな環境を提供する。
そのため、学生は授業中に様々なQAテクニックを経験することができる。
そこで本研究では, 学生が積極的に理論概念を学習し, 対話的探索, 実験, 実践的課題を通じて問題解決スキルを身につけるqa教育のための学習者中心のアプローチを提案する。
授業シナリオにおけるUKP-SQuAREの有効性を評価するため,大学院NLPコースで採用し,その後,学生を対象に調査を行った。
彼らのポジティブなフィードバックは、プラットフォームのコースの有効性を示し、より広範な採用を招待します。 The exponential growth of question answering (QA) has made it an indispensable topic in any Natural Language Processing (NLP) course. Additionally, the breadth of QA derived from this exponential growth makes it an ideal scenario for teaching related NLP topics such as information retrieval, explainability, and adversarial attacks among others. In this paper, we introduce UKP-SQuARE as a platform for QA education. This platform provides an interactive environment where students can run, compare, and analyze various QA models from different perspectives, such as general behavior, explainability, and robustness. Therefore, students can get a first-hand experience in different QA techniques during the class. Thanks to this, we propose a learner-centered approach for QA education in which students proactively learn theoretical concepts and acquire problem-solving skills through interactive exploration, experimentation, and practical assignments, rather than solely relying on traditional lectures. To evaluate the effectiveness of UKP-SQuARE in teaching scenarios, we adopted it in a postgraduate NLP course and surveyed the students after the course. Their positive feedback shows the platform's effectiveness in their course and invites a wider adoption. | 翻訳日:2023-06-01 16:59:49 公開日:2023-05-31 |
# タスクアライメント測定によるテキスト表現の分析 Analyzing Text Representations by Measuring Task Alignment ( http://arxiv.org/abs/2305.19747v1 ) ライセンス: Link先を確認 | Cesar Gonzalez-Gutierrez, Audi Primadhanty, Francesco Cazzaro, Ariadna Quattoni | (参考訳) 事前学習された言語モデルに基づくテキスト表現は、特に数少ない学習シナリオにおいて重要である。
テキスト分類によい表現とは何か?
空間の幾何学的性質が原因なのか、それともタスクとうまく整合しているからなのか?
2つ目の主張を仮定する。
そこで本研究では,階層的クラスタリングに基づくタスクアライメントスコアを構築し,異なるレベルの粒度でアライメントを測定する。
テキスト分類実験では,タスクアライメントが与えられた表現の分類性能を説明できることを示すことにより,仮説を検証した。 Textual representations based on pre-trained language models are key, especially in few-shot learning scenarios. What makes a representation good for text classification? Is it due to the geometric properties of the space or because it is well aligned with the task? We hypothesize the second claim. To test it, we develop a task alignment score based on hierarchical clustering that measures alignment at different levels of granularity. Our experiments on text classification validate our hypothesis by showing that task alignment can explain the classification performance of a given representation. | 翻訳日:2023-06-01 16:59:29 公開日:2023-05-31 |
# DeepMerge: 画像セグメンテーションのためのディープラーニングベースの領域マージ DeepMerge: Deep Learning-Based Region-Merging for Image Segmentation ( http://arxiv.org/abs/2305.19787v1 ) ライセンス: Link先を確認 | Xianwei Lv and Claudio Persello and Xiao Huang and Dongping Ming and Alfred Stein | (参考訳) 超高空間分解能(VHR)リモートセンシング画像からの広い領域の正確なセグメンテーションは、画像解析において難しい問題である。
既存の教師なしおよび教師なしの手法はどちらも、オブジェクトサイズの大きなばらつきとスケール選択の難しさに悩まされ、しばしばセグメンテーションの精度が低下する。
そこで本研究では,多レベル埋め込みモジュール,セグメントベース特徴埋め込みモジュール,領域隣接グラフモデルとトランスフォーマーを統合することで,大規模vhr画像のセグメンテーションを処理する深層学習型領域マージ手法(deepmerge)を提案する。
さらに,初期セグメンテーション結果から多レベル入力を生成し,deepmergeモデルへの入力として機能する修正二分木サンプリング法を提案する。
提案手法は,地域統合のための隣接セグメント間の類似性を学習するために,まずディープラーニングを用いた。
提案手法は,Google Earthから取得した5,660 km^2の領域をカバーする0.55mのリモートセンシング画像を用いて検証した。
実験結果から,提案したDeepMergeはF値(0.9446),TE値(0.0962),ED2(0.8989)で,異なる大きさのオブジェクトを正確に分割し,定量評価と定性評価の両方から選択した競合セグメンテーション手法よりも優れていることがわかった。 Accurate segmentation of large areas from very high spatial-resolution (VHR) remote sensing imagery remains a challenging issue in image analysis. Existing supervised and unsupervised methods both suffer from the large variance of object sizes and the difficulty in scale selection, which often result in poor segmentation accuracies. To address the above challenges, we propose a deep learning-based region-merging method (DeepMerge) to handle the segmentation in large VHR images by integrating a Transformer with a multi-level embedding module, a segment-based feature embedding module and a region-adjacency graph model. In addition, we propose a modified binary tree sampling method to generate multi-level inputs from initial segmentation results, serving as inputs for the DeepMerge model. To our best knowledge, the proposed method is the first to use deep learning to learn the similarity between adjacent segments for region-merging. The proposed DeepMerge method is validated using a remote sensing image of 0.55m resolution covering an area of 5,660 km^2 acquired from Google Earth. The experimental results show that the proposed DeepMerge with the highest F value (0.9446) and the lowest TE (0.0962) and ED2 (0.8989) is able to correctly segment objects of different sizes and outperforms all selected competing segmentation methods from both quantitative and qualitative assessments. | 翻訳日:2023-06-01 16:52:31 公開日:2023-05-31 |
# IDAS:抽象的な要約によるインテントディスカバリ IDAS: Intent Discovery with Abstractive Summarization ( http://arxiv.org/abs/2305.19783v1 ) ライセンス: Link先を確認 | Maarten De Raedt, Fr\'ederic Godin, Thomas Demeester, Chris Develder | (参考訳) Intent discoveryは、ラベルなし発話の集合から潜在意図を推測するタスクであり、新しい会話エージェントの効率的な作成に向けた有用なステップである。
目的発見における近年の競争的手法は,抽象的な要約に基づく発話のクラスタリング,すなわち「ラベル」によって,重要でない情報を取り除きながら中核的要素を保持できることが示される。
我々は,非定型的発話のラベルを生成するための文脈内学習手順をブートストラップするために,定型的発話の十分なシードセットから始まり,大きな言語モデルを促すことによって,記述的発話ラベルの集合を収集するidasアプローチに寄与する。
発話とそのノイズラベルは、凍結した事前訓練されたエンコーダによって符号化され、その後クラスタ化され、潜伏した意図を回復する。
教師なしのタスク(インテントラベルなし)では、IDASはBanking、StackOverflow、Transportデータセットの標準クラスタメトリクスを最大7.42%向上させる。
半教師付きタスク(インテントのサブセットのラベル付き)では、IDASはラベル付きデータを使わずにCLINCベンチマークの2つの最近のメソッドを超えた。 Intent discovery is the task of inferring latent intents from a set of unlabeled utterances, and is a useful step towards the efficient creation of new conversational agents. We show that recent competitive methods in intent discovery can be outperformed by clustering utterances based on abstractive summaries, i.e., "labels", that retain the core elements while removing non-essential information. We contribute the IDAS approach, which collects a set of descriptive utterance labels by prompting a Large Language Model, starting from a well-chosen seed set of prototypical utterances, to bootstrap an In-Context Learning procedure to generate labels for non-prototypical utterances. The utterances and their resulting noisy labels are then encoded by a frozen pre-trained encoder, and subsequently clustered to recover the latent intents. For the unsupervised task (without any intent labels) IDAS outperforms the state-of-the-art by up to +7.42% in standard cluster metrics for the Banking, StackOverflow, and Transport datasets. For the semi-supervised task (with labels for a subset of intents) IDAS surpasses 2 recent methods on the CLINC benchmark without even using labeled data. | 翻訳日:2023-06-01 16:52:01 公開日:2023-05-31 |
# 無人航空機の深さと深さの不確かさを共同推定する手法 A technique to jointly estimate depth and depth uncertainty for unmanned aerial vehicles ( http://arxiv.org/abs/2305.19780v1 ) ライセンス: Link先を確認 | Micha\"el Fonder and Marc Van Droogenbroeck | (参考訳) 軌道計画や障害物回避のために自動運転車が使用する場合、深さ推定手法は信頼性が必要となる。
したがって、深度出力の質を推定することが重要である。
本稿では,無人航空機(UAV)のための最先端の深度推定手法であるM4Depthを,関節深度と不確実性の推定のために拡張する方法について述べる。
そこで,我々は,m4depth が生成する視差に関する不確実性推定を深さに関する不確実性推定に変換する解を示し,標準確率的アプローチよりも優れることを示す。
各種公開データセットに対する実験により,ゼロショット転送においても,本手法が一貫した動作を示す。
また,従来のマルチビュー深度推定手法と比較して,2.5倍高速かつ因果性があるにもかかわらず,従来のマルチビュー深度推定手法と比較すると,有意な値が得られる。
このメソッドのコードはhttps://github.com/michael-fonder/m4depthuで公開されている。 When used by autonomous vehicles for trajectory planning or obstacle avoidance, depth estimation methods need to be reliable. Therefore, estimating the quality of the depth outputs is critical. In this paper, we show how M4Depth, a state-of-the-art depth estimation method designed for unmanned aerial vehicle (UAV) applications, can be enhanced to perform joint depth and uncertainty estimation. For that, we present a solution to convert the uncertainty estimates related to parallax generated by M4Depth into uncertainty estimates related to depth, and show that it outperforms the standard probabilistic approach. Our experiments on various public datasets demonstrate that our method performs consistently, even in zero-shot transfer. Besides, our method offers a compelling value when compared to existing multi-view depth estimation methods as it performs similarly on a multi-view depth estimation benchmark despite being 2.5 times faster and causal, as opposed to other methods. The code of our method is publicly available at https://github.com/michael-fonder/M4DepthU . | 翻訳日:2023-06-01 16:51:35 公開日:2023-05-31 |
# aggVAEを用いた深層学習とMCMCによる行政境界の変化--ケニアにおけるマラリア流行のマッピング Deep learning and MCMC with aggVAE for shifting administrative boundaries: mapping malaria prevalence in Kenya ( http://arxiv.org/abs/2305.19779v1 ) ライセンス: Link先を確認 | Elizaveta Semenova, Swapnil Mishra, Samir Bhatt, Seth Flaxman, H Juliette T Unwin | (参考訳) モデルに基づく疾病マッピングは、現在の最先端のアプローチである階層ベイズモデルを用いた、公衆衛生と疾病監視における基本的なポリシーインフォーメーションツールである。
地域や州などの行政単位レベルでアラルデータを扱う場合、日常的に使用されるモデルは、空間的相関を考慮するためにアラル単位の隣接構造に依存する。
疾病監視システムの目標は、経時的に病気の結果を追跡することであるが、これは政治的変化のような危機の状況において困難をもたらし、行政の境界の変更につながる。
ケニアはそのような国の例です。
さらに、隣接性に基づくアプローチは空間過程の連続的な性質を無視し、行政境界が変化しても支持の変化を解決できない。
本稿では,深層生成モデルと完全ベイズ推論を組み合わせた手法を用いて,新しい,実用的で実装が容易な解を提案する。
我々は,ケニアでマラリアの発生率を地図化するために,変異型オートエンコーダを用いた小領域の空間前駆体をエンコードできるpriorvaeの最近の研究に基づいて構築した。
ケニアが2010年に地域境界を変更したことによる支援の変化を解決する。
我々は,連続空間を表す微細な人工空間グリッドの上にガウス過程(gp)を事前に実現し,それらの実現を管理境界のレベルに集約する。
集約された値は priorvae テクニックでエンコードされる。
訓練された前駆体(aggvae)は、マルコフ連鎖モンテカルロ(mcmc)スキーム内のgp前駆体の代わりに推論段階で使用される。
そこで本研究では,連続前置詞の集約に基づく対象データに対して柔軟かつ適切なモデルを用いることが可能であり,元gp前置詞と集計ステップを組み合わせるよりも,agvaeを用いた場合の推論は桁違いに高速であることを示す。 Model-based disease mapping remains a fundamental policy-informing tool in public health and disease surveillance with hierarchical Bayesian models being the current state-of-the-art approach. When working with areal data, e.g. aggregates at the administrative unit level such as district or province, routinely used models rely on the adjacency structure of areal units to account for spatial correlations. The goal of disease surveillance systems is to track disease outcomes over time, but this provides challenging in situations of crises, such as political changes, leading to changes of administrative boundaries. Kenya is an example of such country. Moreover, adjacency-based approach ignores the continuous nature of spatial processes and cannot solve the change-of-support problem, i.e. when administrative boundaries change. We present a novel, practical, and easy to implement solution relying on a methodology combining deep generative modelling and fully Bayesian inference. We build on the recent work of PriorVAE able to encode spatial priors over small areas with variational autoencoders, to map malaria prevalence in Kenya. We solve the change-of-support problem arising from Kenya changing its district boundaries in 2010. We draw realisations of the Gaussian Process (GP) prior over a fine artificial spatial grid representing continuous space and then aggregate these realisations to the level of administrative boundaries. The aggregated values are then encoded using the PriorVAE technique. The trained priors (aggVAE) are then used at the inference stage instead of the GP priors within a Markov chain Monte Carlo (MCMC) scheme. We demonstrate that it is possible to use the flexible and appropriate model for areal data based on aggregation of continuous priors, and that inference is orders of magnitude faster when using aggVAE than combining the original GP priors and the aggregation step. | 翻訳日:2023-06-01 16:51:16 公開日:2023-05-31 |
# j-uniwardのオフバイワン実装エラー Off-By-One Implementation Error in J-UNIWARD ( http://arxiv.org/abs/2305.19776v1 ) ライセンス: Link先を確認 | Benedikt Lorch | (参考訳) J-UNIWARDはJPEGカバー画像に秘密メッセージを隠蔽する一般的なステガノグラフィー手法である。
コンテンツ適応手法として、j-uniwardは、変更の検出が難しいテクスチャ画像領域への埋め込みを目指している。
この目的のために、J-UNIWARDはまず画像のウェーブレット残量に基づいて計算された埋め込みコストを各DCT係数に割り当て、次に、所望のペイロードを埋め込みながらコストを最小化するコーディング方法を使用する。
1つのDCT係数の変更は、ウェーブレット係数の23x23ウィンドウに影響を与える。
コストマップ計算を高速化するため、元の実装ではウェーブレット残差を事前計算し、変更したDCT係数をウェーブレット残差の23x23ウィンドウとみなす。
しかし、実装は、誤って右下に1ピクセルずつシフトしたウィンドウにアクセスする。
本稿では,このオフ・バイ・ワン・エラーがコストマップに与える影響を評価する。
一部の画像ブロックは高すぎるが、他の画像ブロックは高すぎるが、違いは比較的小さい。
オフ・バイ・ワンのエラーは、学習ベースのsteg analysisにはほとんど違いがないようだ。 J-UNIWARD is a popular steganography method for hiding secret messages in JPEG cover images. As a content-adaptive method, J-UNIWARD aims to embed into textured image regions where changes are difficult to detect. To this end, J-UNIWARD first assigns to each DCT coefficient an embedding cost calculated based on the image's Wavelet residual, and then uses a coding method that minimizes the cost while embedding the desired payload. Changing one DCT coefficient affects a 23x23 window of Wavelet coefficients. To speed up the costmap computation, the original implementation pre-computes the Wavelet residual and then considers per changed DCT coefficient a 23x23 window of the Wavelet residual. However, the implementation accesses a window accidentally shifted by one pixel to the bottom right. In this report, we evaluate the effect of this off-by-one error on the resulting costmaps. Some image blocks are over-priced while other image blocks are under-priced, but the difference is relatively small. The off-by-one error seems to make little difference for learning-based steganalysis. | 翻訳日:2023-06-01 16:50:33 公開日:2023-05-31 |
# 多目的金属切削プロセス最適化のための進化的解法適応 Evolutionary Solution Adaption for Multi-Objective Metal Cutting Process Optimization ( http://arxiv.org/abs/2305.19775v1 ) ライセンス: Link先を確認 | Leo Francoso Dal Piccol Sotto, Sebastian Mayer, Hemanth Janarthanam, Alexander Butz, Jochen Garcke | (参考訳) 製造プロセスパラメータの最適化は、通常、生産品質や生産時間といった矛盾する目的を持つ多目的の問題である。
運用要件が変わった場合、プロセスパラメータを再度最適化する必要があります。
最適化は通常、例えば有限要素法に基づくコストのかかるシミュレーションを必要とするため、最適化に必要な評価の数を減らす手段を持つことが非常に興味深い。
そこで本研究では,従来の最適化タスクから解を転送するアルゴリズムの能力を研究できるシステム柔軟性の枠組みの観点から,異なる生産要件を最適化することを検討する。
直交金属切断のための拡張Oxleyモデルに基づいて、異なる材料が関連する最適化タスクを定義する多目的最適化ベンチマークを導入し、NSGA-IIの柔軟性の研究に利用し、2つの変種で拡張する。
1) 2つのタスクのソリューションを同時に最適化して、より適応性が期待できるソース間のソリューションを得ること。
2) 活性不活性な遺伝子型は、活性化または非活性化の異なる可能性を満たす。
その結果、標準nsga-iiへの適応により、目標目標に対する最適化に必要な評価数が大幅に減少するのに対し、提案手法では適応コストがさらに向上することが示された。 Optimizing manufacturing process parameters is typically a multi-objective problem with often contradictory objectives such as production quality and production time. If production requirements change, process parameters have to be optimized again. Since optimization usually requires costly simulations based on, for example, the Finite Element method, it is of great interest to have means to reduce the number of evaluations needed for optimization. To this end, we consider optimizing for different production requirements from the viewpoint of a framework for system flexibility that allows us to study the ability of an algorithm to transfer solutions from previous optimization tasks, which also relates to dynamic evolutionary optimization. Based on the extended Oxley model for orthogonal metal cutting, we introduce a multi-objective optimization benchmark where different materials define related optimization tasks, and use it to study the flexibility of NSGA-II, which we extend by two variants: 1) varying goals, that optimizes solutions for two tasks simultaneously to obtain in-between source solutions expected to be more adaptable, and 2) active-inactive genotype, that accommodates different possibilities that can be activated or deactivated. Results show that adaption with standard NSGA-II greatly reduces the number of evaluations required for optimization to a target goal, while the proposed variants further improve the adaption costs, although further work is needed towards making the methods advantageous for real applications. | 翻訳日:2023-06-01 16:50:14 公開日:2023-05-31 |
# 深層学習に基づくオペレーターによる逆解析問題の解法における曖昧性 Ambiguity in solving imaging inverse problems with deep learning based operators ( http://arxiv.org/abs/2305.19774v1 ) ライセンス: Link先を確認 | Davide Evangelista, Elena Morotti, Elena Loli Piccolomini, James Nagy | (参考訳) 近年、大規模な畳み込みニューラルネットワークは画像の復元能力が極めて高いため、画像のぼかしの道具として広く利用されている。
画像デブラリングは不適切な逆問題として数学的にモデル化されており、ノイズがデータに影響する場合の近似は困難である。
実際、デブロアリングのためのニューラルネットワークの制限の1つは、ノイズや他の摂動に対する感度であり、不安定になり、貧弱な再建をもたらす可能性がある。
さらに、ネットワークは、訓練されたエンドツーエンドにおいて、基礎となる画像問題の数値的定式化を必ずしも考慮しない。
本稿では,深層学習に基づく画像の復号化に多くの精度を損なうことなく,安定性を向上する手法を提案する。
まず、非常に小さなニューラルアーキテクチャを提案する。これはトレーニングの実行時間を短縮し、グリーンなAIのニーズを満たすとともに、計算された画像のノイズを極端に増幅しない。
第二に、前処理のステップが次のニューラルネットワークベースのステップの安定性の欠如をバランスさせる統一的なフレームワークを導入する。
前者は強いパラメータフリーなdenoiserを実装し、後者は潜在イメージング問題の変分モデルに基づく正規化定式化である。
この枠組みは数学的解析によっても正式に特徴づけられる。
提案手法の精度と安定性を検証するために,未知あるいは不定値のノイズが存在する場合,提案手法の精度と安定性を検証し,ノイズに対するネットワーク安定性の向上を確認した。
特に、モデルベースのフレームワークは、視覚的精度と堅牢性の間の最も信頼できるトレードオフを表している。 In recent years, large convolutional neural networks have been widely used as tools for image deblurring, because of their ability in restoring images very precisely. It is well known that image deblurring is mathematically modeled as an ill-posed inverse problem and its solution is difficult to approximate when noise affects the data. Really, one limitation of neural networks for deblurring is their sensitivity to noise and other perturbations, which can lead to instability and produce poor reconstructions. In addition, networks do not necessarily take into account the numerical formulation of the underlying imaging problem, when trained end-to-end. In this paper, we propose some strategies to improve stability without losing to much accuracy to deblur images with deep-learning based methods. First, we suggest a very small neural architecture, which reduces the execution time for training, satisfying a green AI need, and does not extremely amplify noise in the computed image. Second, we introduce a unified framework where a pre-processing step balances the lack of stability of the following, neural network-based, step. Two different pre-processors are presented: the former implements a strong parameter-free denoiser, and the latter is a variational model-based regularized formulation of the latent imaging problem. This framework is also formally characterized by mathematical analysis. Numerical experiments are performed to verify the accuracy and stability of the proposed approaches for image deblurring when unknown or not-quantified noise is present; the results confirm that they improve the network stability with respect to noise. In particular, the model-based framework represents the most reliable trade-off between visual precision and robustness. | 翻訳日:2023-06-01 16:49:50 公開日:2023-05-31 |
# 品質イン/品質アウト:異常検出ベンチマークにおけるデータ品質の評価 Quality In / Quality Out: Assessing Data quality in an Anomaly Detection Benchmark ( http://arxiv.org/abs/2305.19770v1 ) ライセンス: Link先を確認 | Jos\'e Camacho, Katarzyna Wasielewska, Marta Fuentes-Garc\'ia, Rafael Rodr\'iguez-G\'omez | (参考訳) 自律的または自律的なネットワークは、将来インターネットで非常に要求の多い新しいアプリケーションに対するソリューションを提供すると予想されている。
複雑性に対処する鍵は、最小限の人的監督でネットワーク最適化や障害復旧といったタスクを実行することです。
この目的のために、コミュニティは新しい機械学習(ML)モデルと技術の開発に依存している。
しかし、MLは適合するデータと同程度にしか使えません。
研究目的のベンチマークとしてコミュニティに提供するデータセットは、研究の発見や方向性に影響を及ぼすものであり、しばしばデフォルトでは良質であると仮定される。
本稿では,同一のベンチマークデータセット(UGR'16,フローベースで異常検出を行うリアルタイムデータセット)に対する比較的小さな修正が,特定のML手法よりもモデル性能に著しく影響を与えることを示す。
そこで本研究では,これらの違いの根本原因を解明し,データラベリングの品質を評価する手法を提案する。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術にもっと注意を払う必要があることが示唆された。 Autonomous or self-driving networks are expected to provide a solution to the myriad of extremely demanding new applications in the Future Internet. The key to handle complexity is to perform tasks like network optimization and failure recovery with minimal human supervision. For this purpose, the community relies on the development of new Machine Learning (ML) models and techniques. However, ML can only be as good as the data it is fitted with. Datasets provided to the community as benchmarks for research purposes, which have a relevant impact in research findings and directions, are often assumed to be of good quality by default. In this paper, we show that relatively minor modifications on the same benchmark dataset (UGR'16, a flow-based real-traffic dataset for anomaly detection) cause significantly more impact on model performance than the specific ML technique considered. To understand this finding, we contribute a methodology to investigate the root causes for those differences, and to assess the quality of the data labelling. Our findings illustrate the need to devote more attention into (automatic) data quality assessment and optimization techniques in the context of autonomous networks. | 翻訳日:2023-06-01 16:49:25 公開日:2023-05-31 |
# 注意に基づく音声質問応答手法 Attention-Based Methods For Audio Question Answering ( http://arxiv.org/abs/2305.19769v1 ) ライセンス: Link先を確認 | Parthasaarathy Sudarsanam, Tuomas Virtanen | (参考訳) AQA(Audio Question answering)は、音声や自然言語の質問をシステムが提供するときに、自然言語の回答を生成するタスクである。
本稿では,AQAタスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。
自己注意層は強力な音声およびテキスト表現を抽出する。
クロスアテンションは、回答を生成するためのテキスト機能に関連するオーディオ機能をマップする。
すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
本結果は,本論文で報告した基準法よりも明らかに改善されている。
yes/noバイナリ分類タスクでは,基準モデルの62.7%に対して68.3%の精度が得られた。
単語回答マルチクラス分類器では, 基準モデルの54.2%, 93.7%に対して, 上位1と上位5の精度が57.9%, 99.8%であった。
さらに,同一の回答単語が複数時制で存在すること,単数および複数形式であること,同一質問に対する固有および総称的回答の存在など,クロス・アカデータセットの課題についても論じた。
これらの問題に対処し、データセットの改訂版を提示する。 Audio question answering (AQA) is the task of producing natural language answers when a system is provided with audio and natural language questions. In this paper, we propose neural network architectures based on self-attention and cross-attention for the AQA task. The self-attention layers extract powerful audio and textual representations. The cross-attention maps audio features that are relevant to the textual features to produce answers. All our models are trained on the recently proposed Clotho-AQA dataset for both binary yes/no questions and single-word answer questions. Our results clearly show improvement over the reference method reported in the original paper. On the yes/no binary classification task, our proposed model achieves an accuracy of 68.3% compared to 62.7% in the reference model. For the single-word answers multiclass classifier, our model produces a top-1 and top-5 accuracy of 57.9% and 99.8% compared to 54.2% and 93.7% in the reference model respectively. We further discuss some of the challenges in the Clotho-AQA dataset such as the presence of the same answer word in multiple tenses, singular and plural forms, and the presence of specific and generic answers to the same question. We address these issues and present a revised version of the dataset. | 翻訳日:2023-06-01 16:49:09 公開日:2023-05-31 |
# 拡張視野を用いた複数音源変換トモグラフィーの解析的再構成に関する研究 Analytical reconstructions of multiple source-translation computed tomography with extended field of views: a research study ( http://arxiv.org/abs/2305.19767v1 ) ライセンス: Link先を確認 | Zhisheng Wang, Yue Liu, Shunli Wang, Xingyuan Bian, Zongfeng Li and Junning Cui | (参考訳) 本稿では,複数音源変換トモグラフィ(mSTCT)を拡張視野(FOV)下での高品質な解析的再構成について検討する。
より大規模なFOVでは、D-BPF や S-BPF を含む mSTCT のバックプロジェクションフィルタ (BPF) アルゴリズムが、不安定なバックプロジェクション重み付け因子と半スキャンモードにより画像エッジに許容できない誤りを犯し、mSTCT イメージングの意図から逸脱する。
本稿では,fd-bpfとfs-bpfと略されるエラーのバランスをとるために,mstctの非重み付けd-bpf(nwd-bpf)を導出し,bpfsを特別なフルスキャンmstct(f-mstct)に導入する手法を提案する。
第一戦略として、D-BPFに特殊変動関係を導入することにより、不安定な後方投影重み付け因子を除去する。
第2の戦略として、F-mSTCT幾何とBPFを組み合わせることで、F-mSTCTに適切な冗長重み付け関数を導出する。
実験により,提案手法が実証された。
その中で、NWD-BPFは画像エッジの不安定性を弱めることができるが、詳細は曖昧であり、FS-BPFは大きな物体を撮像する極端に拡張されたFOVの下で高品質な安定画像を得ることができるが、FD-BPFよりも多くの投影を必要とする。
FOV画像の拡張における様々な実践的要件に対して,アルゴリズムの選択について提案する。 This paper is to investigate the high-quality analytical reconstructions of multiple source-translation computed tomography (mSTCT) under an extended field of view (FOV). Under the larger FOVs, the previously proposed backprojection filtration (BPF) algorithms for mSTCT, including D-BPF and S-BPF, make some intolerable errors in the image edges due to an unstable backprojection weighting factor and the half-scan mode, which deviates from the intention of mSTCT imaging. In this paper, to achieve reconstruction with as little error as possible under the extremely extended FOV, we propose two strategies, including deriving a no-weighting D-BPF (NWD-BPF) for mSTCT and introducing BPFs into a special full-scan mSTCT (F-mSTCT) to balance errors, i.e., abbreviated as FD-BPF and FS-BPF. For the first strategy, we eliminate this unstable backprojection weighting factor by introducing a special variable relationship in D-BPF. For the second strategy, we combine the F-mSTCT geometry with BPFs to study the performance and derive a suitable redundant weighting function for F-mSTCT. The experiments demonstrate our proposed methods for these strategies. Among them, NWD-BPF can weaken the instability at the image edges but blur the details, and FS-BPF can get high-quality stable images under the extremely extended FOV imaging a large object but requires more projections than FD-BPF. For different practical requirements in extending FOV imaging, we give suggestions on algorithm selection. | 翻訳日:2023-06-01 16:48:51 公開日:2023-05-31 |
# 単一光子による最小作用の量子原理の実証 Demonstration of the quantum principle of least action with single photons ( http://arxiv.org/abs/2305.19815v1 ) ライセンス: Link先を確認 | Yong-Li Wen, Yunfei Wang, Li-Man Tian, Shanchao Zhang, Jianfeng Li, Jing-Song Du, Hui Yan, Shi-Liang Zhu | (参考訳) 最小作用の原理は、様々な物理学の分野における運動方程式の導出に使用できるため、物理学における最も基本的な原理である。
しかし、この原理は、ファイマンの経路積分のプロパゲータが観測されていないため、量子レベルでは実験的に証明されていない。
プロパゲータは基本的な概念であり、経路積分定式化における量子システムの様々な重要な性質を含んでいるため、実験的な観測は量子力学においてそれ自体が必須である。
ここでは、量子波動関数を直接測定する方法に基づいて、単一光子のプロパゲータを理論的に提案し、実験的に観察する。
さらに,自由空間における単一光子の古典的軌道と観測された伝搬子の極値に基づく調和トラップを求め,最小作用の量子原理を実験的に証明した。
我々の研究は、経路積分の定式化において量子論の基本的な問題を実験的に探究する道を開いた。 The principle of least action is arguably the most fundamental principle in physics as it can be used to derive the equations of motion in various branches of physics. However, this principle has not been experimentally demonstrated at the quantum level because the propagators for Feymann's path integrals have never been observed. The propagator is a fundamental concept and contains various significant properties of a quantum system in path integral formulation, so its experimental observation is itself essential in quantum mechanics. Here we theoretically propose and experimentally observe single photons' propagators based on the method of directly measuring quantum wave-functions. Furthermore, we obtain the classical trajectories of the single photons in free space and in a harmonic trap based on the extremum of the observed propagators, thereby experimentally demonstrating the quantum principle of least action. Our work paves the way for experimentally exploring fundamental problems of quantum theory in the formulation of path integrals. | 翻訳日:2023-06-01 16:42:39 公開日:2023-05-31 |
# 3次元点雲のラベル有効深層学習に関する調査 A Survey of Label-Efficient Deep Learning for 3D Point Clouds ( http://arxiv.org/abs/2305.19812v1 ) ライセンス: Link先を確認 | Aoran Xiao, Xiaoqin Zhang, Ling Shao, Shijian Lu | (参考訳) 過去10年間で、深層ニューラルネットワークは、ポイントクラウド学習において大きな進歩を遂げてきた。
しかし、大規模正確に注釈されたトレーニングデータの収集は非常に手間と費用がかかり、既存のpoint cloudデータセットのスケーラビリティを阻害し、様々なタスクやアプリケーションにおけるpoint cloudデータの効率的な探索のボトルネックとなる。
ラベル効率のよい学習は、多量のアノテーションによる効果的なディープネットワークトレーニングを可能にすることで、有望なソリューションを提供する。
本稿では,点雲のラベル効率学習に関する包括的調査を行う。
この新興研究分野における3つの重要な疑問に答えます
一 ポイントクラウド処理におけるラベル効率学習の重要性及び緊急性
二 当該サブフィールドが包含しているもの
三 この領域における進展
そこで我々は,ラベルの種類によって提供されるデータ前提条件に基づいて,ラベル効率のよい学習手法を整理する分類法を提案する。
私たちは、データ拡張、ドメイン転送学習、弱い教師付き学習、事前学習された基礎モデルという4つの典型的なラベル効率のよい学習アプローチを分類します。
それぞれのアプローチについて,問題を概説し,関連する進展と課題を示す広範な文献レビューを提供する。
最後に,現在の研究課題と今後の方向性について考察する。
この調査に関連するプロジェクトは、 \url{https://github.com/xiaoaoran/3D_label_efficient_learning}に構築されている。 In the past decade, deep neural networks have achieved significant progress in point cloud learning. However, collecting large-scale precisely-annotated training data is extremely laborious and expensive, which hinders the scalability of existing point cloud datasets and poses a bottleneck for efficient exploration of point cloud data in various tasks and applications. Label-efficient learning offers a promising solution by enabling effective deep network training with much-reduced annotation efforts. This paper presents the first comprehensive survey of label-efficient learning of point clouds. We address three critical questions in this emerging research field: i) the importance and urgency of label-efficient learning in point cloud processing, ii) the subfields it encompasses, and iii) the progress achieved in this area. To achieve this, we propose a taxonomy that organizes label-efficient learning methods based on the data prerequisites provided by different types of labels. We categorize four typical label-efficient learning approaches that significantly reduce point cloud annotation efforts: data augmentation, domain transfer learning, weakly-supervised learning, and pretrained foundation models. For each approach, we outline the problem setup and provide an extensive literature review that showcases relevant progress and challenges. Finally, we share insights into current research challenges and potential future directions. A project associated with this survey has been built at \url{https://github.com/xiaoaoran/3D_label_efficient_learning}. | 翻訳日:2023-06-01 16:42:23 公開日:2023-05-31 |
# ロトン不安定性による双極子凝縮中の超固体形成 Supersolid formation in a dipolar condensate by roton instability ( http://arxiv.org/abs/2305.19811v1 ) ライセンス: Link先を確認 | Aitor Ala\~na, I\~nigo L. Egusquiza and Michele Modugno | (参考訳) 最近の実験で見られるように、超流動-超固体遷移における接触相互作用のクエンチに続いて、長鎖双極子縮合体の超固体状態形成におけるロトン不安定の役割を特徴づける。
我々は,$s-$wave散乱長の異なる最終値に対して,量子補正を含むgross-pitaevskii方程式を拡張して動的シミュレーションを行う。
対応する励起スペクトルを有効一次元記述を用いて計算し、不安定なロトンモードの計算された成長速度が観測された挙動を正確に再現することを示した。
その結果, 超固体の形成時間とそのスケーリング挙動について, $s$波散乱長に関する貴重な知見が得られた。 We characterize the role of the roton instability in the formation of a supersolid state of an elongated dipolar condensate, following a quench of the contact interactions across the superfluid-supersolid transition, as observed in recent experiments. We perform dynamical simulations by means of the extended Gross-Pitaevskii equation including quantum corrections, for different final values of the $s-$wave scattering length. The corresponding excitation spectrum is computed using an effective one-dimensional description, revealing that the calculated growth rates of the unstable roton mode accurately reproduce the observed behavior. Our results provide valuable insights regarding the formation time of the supersolid and its scaling behavior with respect to the $s$-wave scattering length. | 翻訳日:2023-06-01 16:41:58 公開日:2023-05-31 |
# 逆問題に対するデータ一貫性を用いた直接拡散ブリッジ Direct Diffusion Bridge using Data Consistency for Inverse Problems ( http://arxiv.org/abs/2305.19809v1 ) ライセンス: Link先を確認 | Hyungjin Chung, Jeongsol Kim, Jong Chul Ye | (参考訳) 拡散モデルに基づく逆問題解法は優れた性能を示したが、主にノイズから始まる逆拡散サンプリングを必要とするため、速度は制限されている。
最近のいくつかの研究は、特定の逆問題に対してクリーンと腐敗を直接ブリッジすることで拡散過程を構築することでこの問題を緩和しようと試みている。
本稿では,これらの既存の研究をDDB (Direct Diffusion Bridges) という名前で統一し,異なる理論に動機付けられながら,結果のアルゴリズムがパラメータの選択でのみ異なることを示す。
そして、現在のddbフレームワークの重要な制限、すなわちデータの一貫性が保証されないことを強調します。
この問題に対処するため,我々は,微調整を必要とせずにデータ一貫性を課す修正推論手順を提案する。
得られた手法データをCDDB (Consistent DDB) と呼び、知覚と歪みの両指標において矛盾する結果が得られ、Pareto-frontier を最適な方向に効果的に推し進める。
提案手法は両評価基準の最先端化を実現し,既存手法よりも優れていることを示す。 Diffusion model-based inverse problem solvers have shown impressive performance, but are limited in speed, mostly as they require reverse diffusion sampling starting from noise. Several recent works have tried to alleviate this problem by building a diffusion process, directly bridging the clean and the corrupted for specific inverse problems. In this paper, we first unify these existing works under the name Direct Diffusion Bridges (DDB), showing that while motivated by different theories, the resulting algorithms only differ in the choice of parameters. Then, we highlight a critical limitation of the current DDB framework, namely that it does not ensure data consistency. To address this problem, we propose a modified inference procedure that imposes data consistency without the need for fine-tuning. We term the resulting method data Consistent DDB (CDDB), which outperforms its inconsistent counterpart in terms of both perception and distortion metrics, thereby effectively pushing the Pareto-frontier toward the optimum. Our proposed method achieves state-of-the-art results on both evaluation criteria, showcasing its superiority over existing methods. | 翻訳日:2023-06-01 16:41:44 公開日:2023-05-31 |
# 分散最小化による非エルミート系の変分量子固有解法 Variational quantum eigensolvers for the non-Hermitian systems by variance minimization ( http://arxiv.org/abs/2305.19807v1 ) ライセンス: Link先を確認 | Xu-Dan Xie, Zheng-Yuan Xue and Dan-Bo Zhang | (参考訳) 変動エネルギーを最小化することで量子コンピュータ上で非エルミート量子多体系を解くことは、エネルギーが複雑になるので困難である。
そこで,エネルギー分散を基礎として,ゼロ分散は固有値と関連する左右の固有状態を自然に決定できるため,非エルミートハミルトニアンを解く変分法を提案する。
さらに、エネルギーはコスト関数のパラメータとして設定され、2段階最適化方式を用いて各固有状態を効率よく得る全スペクトルを得るように調整することができる。
数値シミュレーションにより,左右の固有状態を作成し,生体直交関係を検証し,可観測性を評価するアルゴリズムを示す。
また,量子ノイズがアルゴリズムに与える影響を調査し,その性能を誤差緩和法を用いて大幅に改善できることを示す。
そこで本研究では,近距離雑音量子コンピュータ上で変分量子アルゴリズムを用いた非エルミート量子多体系の解法を提案する。 Solving non-Hermitian quantum many-body systems on a quantum computer by minimizing the variational energy is challenging as the energy can be complex. Here, based on energy variance, we propose a variational method for solving the non-Hermitian Hamiltonian, as zero variance can naturally determine the eigenvalues and the associated left and right eigenstates. Moreover, the energy is set as a parameter in the cost function and can be tuned to obtain the whole spectrum, where each eigenstate can be efficiently obtained using a two-step optimization scheme. Through numerical simulations, we demonstrate the algorithm for preparing the left and right eigenstates, verifying the biorthogonal relations, as well as evaluating the observables. We also investigate the impact of quantum noise on our algorithm and show that its performance can be largely improved using error mitigation techniques. Therefore, our work suggests an avenue for solving non-Hermitian quantum many-body systems with variational quantum algorithms on near-term noisy quantum computers. | 翻訳日:2023-06-01 16:41:24 公開日:2023-05-31 |
# 距離ランクスコア:不均衡データセットの特徴選択のための教師なしフィルタ法 Distance Rank Score: Unsupervised filter method for feature selection on imbalanced dataset ( http://arxiv.org/abs/2305.19804v1 ) ライセンス: Link先を確認 | Katarina Firdova and C\'eline Labart and Arthur Martel | (参考訳) 本稿では,教師なし特徴選択のための新しいフィルタ手法を提案する。
この方法は、異なる異常型のクラスタの場合のように、不均衡なマルチクラスデータセットに特に有効である。
既存の手法は通常特徴のばらつきを伴い、異なるタイプの観測が等しく表現されない場合には不適当である。
本手法は,観測距離と特徴値との間のスピアマンのランク相関に基づいて,この欠点を回避する。
この手法の性能はクラスタリング問題で測定され、教師なしデータに適した既存のフィルタ手法と比較される。 This paper presents a new filter method for unsupervised feature selection. This method is particularly effective on imbalanced multi-class dataset, as in case of clusters of different anomaly types. Existing methods usually involve the variance of the features, which is not suitable when the different types of observations are not represented equally. Our method, based on Spearman's Rank Correlation between distances on the observations and on feature values, avoids this drawback. The performance of the method is measured on several clustering problems and is compared with existing filter methods suitable for unsupervised data. | 翻訳日:2023-06-01 16:41:08 公開日:2023-05-31 |
# 神経因果因子の解析 Neuro-Causal Factor Analysis ( http://arxiv.org/abs/2305.19802v1 ) ライセンス: Link先を確認 | Alex Markham, Mingyu Liu, Bryon Aragam, Liam Solus | (参考訳) 因子分析(FA)は、相互依存を持つ観察された変数が相互に独立な未観測因子の関数としてどのように表現できるかを研究するための統計ツールであり、心理学、生物学、物理科学において広く適用されている。
因果的発見と深層学習の進歩が与える比較的新しい視点から,この古典的手法を再考し,神経因果的因子分析(ncfa)の枠組みを紹介する。
我々のアプローチは完全に非パラメトリックであり、潜在因果的発見法を通じて因子を識別し、学習されたグラフに対する分布のマルコフ分解によって回避される変分オートエンコーダ(vae)を使用する。
本研究では,実データ集合と合成データ集合のncfaを評価し,データ再構成タスクにおける標準vaesと同等の性能を示すが,sparserアーキテクチャの利点,モデルの複雑さの低下,因果解釈可能性などの利点を生かした。
従来のfa法とは異なり,提案手法では,因子と測定値の関係が高度に非線形である場合でも,観測データに基づく潜在要因の学習と推論が可能である。 Factor analysis (FA) is a statistical tool for studying how observed variables with some mutual dependences can be expressed as functions of mutually independent unobserved factors, and it is widely applied throughout the psychological, biological, and physical sciences. We revisit this classic method from the comparatively new perspective given by advancements in causal discovery and deep learning, introducing a framework for Neuro-Causal Factor Analysis (NCFA). Our approach is fully nonparametric: it identifies factors via latent causal discovery methods and then uses a variational autoencoder (VAE) that is constrained to abide by the Markov factorization of the distribution with respect to the learned graph. We evaluate NCFA on real and synthetic data sets, finding that it performs comparably to standard VAEs on data reconstruction tasks but with the advantages of sparser architecture, lower model complexity, and causal interpretability. Unlike traditional FA methods, our proposed NCFA method allows learning and reasoning about the latent factors underlying observed data from a justifiably causal perspective, even when the relations between factors and measurements are highly nonlinear. | 翻訳日:2023-06-01 16:40:58 公開日:2023-05-31 |
# プライマル・アテンション:非対称カーネルsvdによる自己アテンション Primal-Attention: Self-attention through Asymmetric Kernel SVD in Primal Representation ( http://arxiv.org/abs/2305.19798v1 ) ライセンス: Link先を確認 | Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A.K. Suykens | (参考訳) 近年、カーネルマシンとして扱うことで変圧器の自己着脱を理解・改善するための新しい作品が登場している。
しかし、既存の研究は対称カーネルの手法を非対称自己アテンションに適用し、解析的理解と数値的実装の間に非自明なギャップをもたらす。
本稿では,非対称なカーネル特異値分解(KSVD)による自己注意の表現と最適化を行う新しい視点を提供する。
Through asymmetric KSVD, $i$) a primal-dual representation of self-attention is formulated, where the optimization objective is cast to maximize the projection variances in the attention outputs; $ii$) a novel attention mechanism, i.e., Primal-Attention, is proposed via the primal representation of KSVD, avoiding explicit computation of the kernel matrix in the dual; $iii$) with KKT conditions, we prove that the stationary solution to the KSVD optimization in Primal-Attention yields a zero-value objective.
このようにksvd最適化は、単に正規化損失を最小化することで実装できるため、低ランク特性は、余分な分解なしに促進される。
数値実験により, プライマル・アテンションの精度が向上し, 術中性能が向上した。
さらに, ksvd最適化は, 標準的自己アテンションよりも鋭利な特異値減衰を伴う主観的アテンションを正則化し, 提案手法の可能性をさらに検証することを示す。
我々の知る限りでは、これは非対称なカーネルに対して自己注意で原始双対表現を提供し、モデリングと最適化にうまく適用する最初の作品である。 Recently, a new line of works has emerged to understand and improve self-attention in Transformers by treating it as a kernel machine. However, existing works apply the methods for symmetric kernels to the asymmetric self-attention, resulting in a nontrivial gap between the analytical understanding and numerical implementation. In this paper, we provide a new perspective to represent and optimize self-attention through asymmetric Kernel Singular Value Decomposition (KSVD), which is also motivated by the low-rank property of self-attention normally observed in deep layers. Through asymmetric KSVD, $i$) a primal-dual representation of self-attention is formulated, where the optimization objective is cast to maximize the projection variances in the attention outputs; $ii$) a novel attention mechanism, i.e., Primal-Attention, is proposed via the primal representation of KSVD, avoiding explicit computation of the kernel matrix in the dual; $iii$) with KKT conditions, we prove that the stationary solution to the KSVD optimization in Primal-Attention yields a zero-value objective. In this manner, KSVD optimization can be implemented by simply minimizing a regularization loss, so that low-rank property is promoted without extra decomposition. Numerical experiments show state-of-the-art performance of our Primal-Attention with improved efficiency. Moreover, we demonstrate that the deployed KSVD optimization regularizes Primal-Attention with a sharper singular value decay than that of the canonical self-attention, further verifying the great potential of our method. To the best of our knowledge, this is the first work that provides a primal-dual representation for the asymmetric kernel in self-attention and successfully applies it to modeling and optimization. | 翻訳日:2023-06-01 16:39:58 公開日:2023-05-31 |
# BEIR-PL:ポーランド語のゼロショット情報検索ベンチマーク BEIR-PL: Zero Shot Information Retrieval Benchmark for the Polish Language ( http://arxiv.org/abs/2305.19840v1 ) ライセンス: Link先を確認 | Konrad Wojtasik, Vadim Shishkin, Kacper Wo{\l}owiec, Arkadiusz Janz, Maciej Piasecki | (参考訳) BEIRデータセットは、ゼロショット設定でのInformation Retrieval(IR)の大規模で異質なベンチマークであり、研究コミュニティ内でかなりの注目を集めている。
しかし、BEIRと類似のデータセットは主に英語に限られている。
我々の目標は、ポーランド語でIRのための大規模な資源を確立することであり、このNLP領域の研究を進めることである。
この作品では、mMARCOとMr.にインスパイアされた。
~tydiデータセット、すべてのアクセス可能なオープンirデータセットをポーランド語に翻訳し、13のデータセットからなる新しいベンチマークであるbeir-plベンチマークを導入し、irタスクのための現代的なポーランド語モデルのさらなる開発、トレーニング、評価を支援しました。
新たに導入されたBEIR-PLベンチマークにおいて,多数のIRモデルの評価と比較を行った。
さらに,ポーランド語用に事前学習したオープンirモデルを公開し,この分野の先駆的発展を示す。
さらに、BM25はポーランド語よりもポーランド語のスコアがかなり低く、ポーランド語の高い屈折率と複雑な形態構造に起因することが判明した。
最後に,BM25検索の精度を高めるため,様々なモデルの再評価を行い,その特性を比較検討した。
正確なモデル比較を確保するためには、ベンチマーク全体の平均よりも個々の結果を精査する必要がある。
そこで我々は,BEIRベンチマークを対象とする各データサブセットについて,IRモデルの結果を徹底的に分析した。
ベンチマークデータは url {\bf https://huggingface.co/clarin-knext} で入手できる。 The BEIR dataset is a large, heterogeneous benchmark for Information Retrieval (IR) in zero-shot settings, garnering considerable attention within the research community. However, BEIR and analogous datasets are predominantly restricted to the English language. Our objective is to establish extensive large-scale resources for IR in the Polish language, thereby advancing the research in this NLP area. In this work, inspired by mMARCO and Mr.~TyDi datasets, we translated all accessible open IR datasets into Polish, and we introduced the BEIR-PL benchmark -- a new benchmark which comprises 13 datasets, facilitating further development, training and evaluation of modern Polish language models for IR tasks. We executed an evaluation and comparison of numerous IR models on the newly introduced BEIR-PL benchmark. Furthermore, we publish pre-trained open IR models for Polish language,d marking a pioneering development in this field. Additionally, the evaluation revealed that BM25 achieved significantly lower scores for Polish than for English, which can be attributed to high inflection and intricate morphological structure of the Polish language. Finally, we trained various re-ranking models to enhance the BM25 retrieval, and we compared their performance to identify their unique characteristic features. To ensure accurate model comparisons, it is necessary to scrutinise individual results rather than to average across the entire benchmark. Thus, we thoroughly analysed the outcomes of IR models in relation to each individual data subset encompassed by the BEIR benchmark. The benchmark data is available at URL {\bf https://huggingface.co/clarin-knext}. | 翻訳日:2023-06-01 16:31:39 公開日:2023-05-31 |
# 分散非回帰高次元ベイズ最適化における加法的制約の緩和 Relaxing the Additivity Constraints in Decentralized No-Regret High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2305.19838v1 ) ライセンス: Link先を確認 | Anthony Bardou, Patrick Thiran and Thomas Begin | (参考訳) ベイズ最適化(BO)は一般に、最適化の各ステップで最大化されなければならない取得関数を利用することで、ノイズの多い未知の関数の$f$を最適化するために使用される。
漸近的に最適なboアルゴリズムは低次元関数の最適化に効率的であるが、高次元空間への拡張はオープンな研究課題であり、しばしば加法構造を$f$と仮定して取り組まれる。
しかし、そのようなアルゴリズムは加法構造に対する追加の制限的な仮定を導入し、適用可能性領域を減少させる。
本稿では,獲得関数の最大化保証の弱化を犠牲にして,$f$ の加法構造に対する制約的仮定を緩和し,分散 bo アルゴリズムの過剰展開問題に対処する。
これらの目的のために,DuMBOを提案する。このアルゴリズムは,特に$f$の付加構造が存在しない場合や高次元要素が存在しない場合に,最先端のBOアルゴリズムと非常に競合する性能を実現する。 Bayesian Optimization (BO) is typically used to optimize an unknown function $f$ that is noisy and costly to evaluate, by exploiting an acquisition function that must be maximized at each optimization step. Although provably asymptotically optimal BO algorithms are efficient at optimizing low-dimensional functions, scaling them to high-dimensional spaces remains an open research problem, often tackled by assuming an additive structure for $f$. However, such algorithms introduce additional restrictive assumptions on the additive structure that reduce their applicability domain. In this paper, we relax the restrictive assumptions on the additive structure of $f$, at the expense of weakening the maximization guarantees of the acquisition function, and we address the over-exploration problem for decentralized BO algorithms. To these ends, we propose DuMBO, an asymptotically optimal decentralized BO algorithm that achieves very competitive performance against state-of-the-art BO algorithms, especially when the additive structure of $f$ does not exist or comprises high-dimensional factors. | 翻訳日:2023-06-01 16:31:15 公開日:2023-05-31 |
# eamdrift:時系列の解釈可能な自己再訓練モデル EAMDrift: An interpretable self retrain model for time series ( http://arxiv.org/abs/2305.19837v1 ) ライセンス: Link先を確認 | Gon\c{c}alo Mateus, Cl\'audia Soares, Jo\~ao Leit\~ao, Ant\'onio Rodrigues | (参考訳) 時系列予測における機械学習の利用は、時系列データの提供と機械学習アルゴリズムの進歩により、様々な産業で人気が高まっている。
しかし、従来の時系列予測手法は予測不能なデータパターンを扱うのに不適な事前最適化モデルに依存している。
本稿では,複数の個人予測器から予測を合成し,評価基準に従って予測を重み付けする新しい手法であるEAMDriftを提案する。
eamdriftは、データ内の分散パターンに自動的に適応し、自動再トレーニングプロセスを含む解釈可能なメカニズムを通じて、各瞬間に使用する最も適切なモデルを特定するように設計されている。
具体的には、異なるモデルで異なる概念をエンコードし、それぞれが特定の振る舞いのオブザーバとして機能する。
モデル全体の活性化は、データ内の概念を識別する概念オブザーバーのどのサブセットを識別する。
このアクティベーションは解釈可能であり、学習されたルールに基づいて、入力変数の関係を研究することができる。
本研究は,EAMDriftが個々のベースラインモデルより20%優れ,非解釈可能なアンサンブルモデルに匹敵する精度が得られることを示す。
これらの結果は,時系列予測におけるEAMDriftの有効性を示し,機械学習モデルにおける解釈可能性の重要性を強調した。 The use of machine learning for time series prediction has become increasingly popular across various industries thanks to the availability of time series data and advancements in machine learning algorithms. However, traditional methods for time series forecasting rely on pre-optimized models that are ill-equipped to handle unpredictable patterns in data. In this paper, we present EAMDrift, a novel method that combines forecasts from multiple individual predictors by weighting each prediction according to a performance metric. EAMDrift is designed to automatically adapt to out-of-distribution patterns in data and identify the most appropriate models to use at each moment through interpretable mechanisms, which include an automatic retraining process. Specifically, we encode different concepts with different models, each functioning as an observer of specific behaviors. The activation of the overall model then identifies which subset of the concept observers is identifying concepts in the data. This activation is interpretable and based on learned rules, allowing to study of input variables relations. Our study on real-world datasets shows that EAMDrift outperforms individual baseline models by 20% and achieves comparable accuracy results to non-interpretable ensemble models. These findings demonstrate the efficacy of EAMDrift for time-series prediction and highlight the importance of interpretability in machine learning models. | 翻訳日:2023-06-01 16:30:57 公開日:2023-05-31 |
# Deliberate then Generate: テキスト生成のための拡張プロンプトフレームワーク Deliberate then Generate: Enhanced Prompting Framework for Text Generation ( http://arxiv.org/abs/2305.19835v1 ) ライセンス: Link先を確認 | Bei Li, Rui Wang, Junliang Guo, Kaitao Song, Xu Tan, Hany Hassan, Arul Menezes, Tong Xiao, Jiang Bian and JingBo Zhu | (参考訳) 大規模言語モデル(llm)は、適切なプロンプトデザインが大きな影響を与える、幅広い自然言語生成タスクで顕著な成功を収めている。
既存のプロンプト法は通常正しい情報の提供に制限されるが、本論文では、エラー検出命令とエラーを含む可能性のある候補からなる新しいDeliberate then Generate(DTG)プロンプトフレームワークを提案することにより、モデルに意図的に対応させることを推奨する。
DTGは単純だが効果的な手法であり、最小限の変更で様々なテキスト生成タスクに適用できる。
要約,翻訳,対話など7つのテキスト生成タスクにまたがる20以上のデータセットについて,広範な実験を行った。
DTGは既存のプロンプト手法を一貫して上回り、複数のテキスト生成タスクにおける最先端のパフォーマンスを実現する。
また, DTGのメカニズムを明らかにするための詳細な分析を行い, LLMの促進に関する今後の研究を刺激する可能性がある。 Large language models (LLMs) have shown remarkable success across a wide range of natural language generation tasks, where proper prompt designs make great impacts. While existing prompting methods are normally restricted to providing correct information, in this paper, we encourage the model to deliberate by proposing a novel Deliberate then Generate (DTG) prompting framework, which consists of error detection instructions and candidates that may contain errors. DTG is a simple yet effective technique that can be applied to various text generation tasks with minimal modifications. We conduct extensive experiments on 20+ datasets across 7 text generation tasks, including summarization, translation, dialogue, and more. We show that DTG consistently outperforms existing prompting methods and achieves state-of-the-art performance on multiple text generation tasks. We also provide in-depth analyses to reveal the underlying mechanisms of DTG, which may inspire future research on prompting for LLMs. | 翻訳日:2023-06-01 16:30:35 公開日:2023-05-31 |
# IoT-Edgeデバイスにおけるフェデレーション学習に関する実証的研究:リソース割り当てと異種性 An Empirical Study of Federated Learning on IoT-Edge Devices: Resource Allocation and Heterogeneity ( http://arxiv.org/abs/2305.19831v1 ) ライセンス: Link先を確認 | Kok-Seng Wong, Manh Nguyen-Duc, Khiem Le-Huy, Long Ho-Tuan, Cuong Do-Danh and Danh Le-Phuoc | (参考訳) 現在、世界中の何十億もの携帯電話、IoT、エッジデバイスが継続的にデータを生成しており、多くの機械学習(ML)ベースの製品やアプリケーションを実現している。
しかしながら、プライバシの懸念や規制の増大により、これらのデータは従来のMLモデルのトレーニングを実行するために集中的に実行されるのではなく、デバイス(クライアント)に配置される傾向にある。
Federated Learning(FL)は、単一のサーバと複数のクライアントがクライアントからデータを移動することなく、協調してMLモデルを構築する分散アプローチである。
flに関する既存の研究は独自の実験評価を行っているが、ほとんどの実験はシミュレーションまたは小規模のテストベッドを用いて行われた。
これは現実の環境でのfl実装の理解を制限する可能性がある。
本研究では,大規模なIoTデバイスとエッジデバイス(IoT-Edgeデバイス)のネットワーク上で,学習性能や運用(計算・通信)コストなど,FLの現実特性を示す大規模な実験を系統的に実施する。
さらに,我々は,flの最も困難な課題である異種シナリオに主眼を置きます。
本研究は,オンデバイス実装の実現可能性を調査することで,研究者や実践者にとって有用な洞察を与え,flの実用性を促進し,現行のflシステムの設計改善を支援する。 Nowadays, billions of phones, IoT and edge devices around the world generate data continuously, enabling many Machine Learning (ML)-based products and applications. However, due to increasing privacy concerns and regulations, these data tend to reside on devices (clients) instead of being centralized for performing traditional ML model training. Federated Learning (FL) is a distributed approach in which a single server and multiple clients collaboratively build an ML model without moving data away from clients. Whereas existing studies on FL have their own experimental evaluations, most experiments were conducted using a simulation setting or a small-scale testbed. This might limit the understanding of FL implementation in realistic environments. In this empirical study, we systematically conduct extensive experiments on a large network of IoT and edge devices (called IoT-Edge devices) to present FL real-world characteristics, including learning performance and operation (computation and communication) costs. Moreover, we mainly concentrate on heterogeneous scenarios, which is the most challenging issue of FL. By investigating the feasibility of on-device implementation, our study provides valuable insights for researchers and practitioners, promoting the practicality of FL and assisting in improving the current design of real FL systems. | 翻訳日:2023-06-01 16:30:17 公開日:2023-05-31 |
# 離散切断ウィグナー近似における集団放射相互作用 Collective Radiative Interactions in the Discrete Truncated Wigner Approximation ( http://arxiv.org/abs/2305.19829v1 ) ライセンス: Link先を確認 | Christopher D. Mink and Michael Fleischhauer | (参考訳) 光と物質の界面は、エキサイティングな多体物理学とフォトニック量子技術のためのプラットフォームとして機能する。
サブ波長間隔での原子配列の実験的実現により、スーパーラジアンスのような集団的な相互作用効果が大きな関心を集めている。
しかし、その分析と数値処理は非常に困難である。
ここでは、相互作用スピンのコヒーレントかつ散逸的多体ダイナミクスを、最低次量子揺らぎを考慮しながら記述できる、この問題に対する半古典的アプローチを展開する。
この目的のために、離散切断ウィグナー近似(離散切断ウィグナー近似、英: discrete truncated wigner approximation)は、もともとユニタリ結合スピンのために開発されたもので、切断された対応規則によって集団的、散逸的なスピン過程を含む。
これは原子アンサンブルの力学を半古典的で数値的に安価な確率微分方程式の集合にマッピングする。
提案手法をディック崩壊の場合の正確な結果でベンチマークし,良好な一致を示した。
次に、空間的に拡張された3次元コヒーレント駆動ガス中の超放射能を研究し、量子化された放射場に結合した原子配列のダイナミクスを研究する。
小さな配列の場合、私たちは正確なシミュレーションを比較し、早い段階でも中程度から強い運転でも良い一致を示します。 Interfaces of light and matter serve as a platform for exciting many-body physics and photonic quantum technologies. Due to the recent experimental realization of atomic arrays at sub-wavelength spacings, collective interaction effects such as superradiance have regained substantial interest. Their analytical and numerical treatment is however quite challenging. Here we develop a semiclassical approach to this problem that allows to describe the coherent and dissipative many-body dynamics of interacting spins while taking into account lowest-order quantum fluctuations. For this purpose we extend the discrete truncated Wigner approximation, originally developed for unitarily coupled spins, to include collective, dissipative spin processes by means of truncated correspondence rules. This maps the dynamics of the atomic ensemble onto a set of semiclassical, numerically inexpensive stochastic differential equations. We benchmark our method with exact results for the case of Dicke decay, which shows excellent agreement. We then study superradiance in a spatially extended three-dimensional, coherently driven gas and study the dynamics of atomic arrays coupled to the quantized radiation field. For small arrays we compare to exact simulations, again showing good agreement at early times and at moderate to strong driving. | 翻訳日:2023-06-01 16:29:55 公開日:2023-05-31 |
# 構造光子対の量子コヒーレンスとHong-Ou-Mandel干渉の制御 Control of quantum coherence and Hong-Ou-Mandel interference of structured photon pairs ( http://arxiv.org/abs/2305.19825v1 ) ライセンス: Link先を確認 | Dianzhen Cui, Xi-Lin Wang, X. X. Yi, and Li-Ping Yang | (参考訳) 量子コヒーレンスと2光子状態のHong-Ou-Mandel(HOM)干渉の正確な制御は、量子センシングや量子イメージングにおいて重要である。
本研究では,3次元構造光子対のHOM干渉に関する包括的理論を開発した。
その結果,HOMとピークは,主に2光子波束関数の交換反射対称性によって決定されることがわかった。
具体的には,2光子パルスの量子コヒーレンスを,横面位相の工学的に正確に制御することを提案する。
これらの結果は、新しい実験的研究と光量子コヒーレンスの適用を刺激する可能性がある。 Accurately controlling quantum coherence and Hong-Ou-Mandel (HOM) interference of two-photon states is crucial for their applications in quantum sensing and quantum imaging. In this study, we have developed a comprehensive theory of HOM interference of three-dimensional (3D) structured photon pairs. Our findings reveal that the HOM dip and peak are primarily determined by the combined exchange-reflection symmetry of the two-photon wave-packet function. More specifically, we propose precise control of the quantum coherence of two-photon pulses by engineering their transverse-plane phases. These results could potentially stimulate new experimental researches and applications of optical quantum coherence. | 翻訳日:2023-06-01 16:29:33 公開日:2023-05-31 |
# 進行する超音波の光音響冷却 Optoacoustic cooling of traveling hypersound waves ( http://arxiv.org/abs/2305.19823v1 ) ライセンス: Link先を確認 | Laura Bl\'azquez Mart\'inez, Philipp Wiedemann, Changlong Zhu, Andreas Geilen and Birgit Stiller | (参考訳) 我々は50cm長のテーパ状フォトニック結晶ファイバにおけるブリルアン・マンデルスタム散乱による光音響冷却を実験的に実証した。
7.38GHzのアコースティックモードでは、室温から219Kの冷却速度が達成されている。
反ストークとストークス・ブリルアン過程は自然にフォノン冷却と加熱の対称性を破るので、解決されたサイドバンドスキームは不要である。
この実験は、マクロオブジェクトの古典から量子への遷移を探求する方法となり、ストレージとリピータスキームの観点から新しい量子技術を可能にする可能性がある。 We experimentally demonstrate optoacoustic cooling via stimulated Brillouin-Mandelstam scattering in a 50 cm-long tapered photonic crystal fiber. For a 7.38 GHz acoustic mode, a cooling rate of 219 K from room temperature has been achieved. As anti-Stokes and Stokes Brillouin processes naturally break the symmetry of phonon cooling and heating, resolved sideband schemes are not necessary. The experiments pave the way to explore the classical to quantum transition for macroscopic objects and could enable new quantum technologies in terms of storage and repeater schemes. | 翻訳日:2023-06-01 16:29:25 公開日:2023-05-31 |
# LMCap:Retrieval Augmented Language Model PromptingによるFew-shot Multilingual Image Captioning LMCap: Few-shot Multilingual Image Captioning by Retrieval Augmented Language Model Prompting ( http://arxiv.org/abs/2305.19821v1 ) ライセンス: Link先を確認 | Rita Ramos, Bruno Martins, Desmond Elliott | (参考訳) 多言語画像キャプションは最近、高価な、ノイズの多い、時間を要するプロセスである大規模機械翻訳データのトレーニングによって取り組まれている。
マルチリンガルキャプションデータを必要としないため,検索したキャプションを用いた言語モデルの提案により,画像のブラインドな複数ショットのマルチリンガルキャプションモデルLMCapを提案する。
具体的には、画像が与えられた場合、標準のエンコーダ-デコーダパラダイムに従う代わりに、LMCapはまず、多言語CLIPエンコーダを使用して類似した画像のキャプションを取得する。
これらのキャプションは、所望の言語でキャプションを生成するために、XGLMデコーダのプロンプトに結合される。
言い換えれば、生成モデルは画像を直接処理せず、検索したキャプションを処理します。
地理的に多様な画像のXM3600データセットを用いた実験により、我々のモデルは、完全に教師付き多言語キャプションモデルと競合することを示した。 Multilingual image captioning has recently been tackled by training with large-scale machine translated data, which is an expensive, noisy, and time-consuming process. Without requiring any multilingual caption data, we propose LMCap, an image-blind few-shot multilingual captioning model that works by prompting a language model with retrieved captions. Specifically, instead of following the standard encoder-decoder paradigm, given an image, LMCap first retrieves the captions of similar images using a multilingual CLIP encoder. These captions are then combined into a prompt for an XGLM decoder, in order to generate captions in the desired language. In other words, the generation model does not directly process the image, instead processing retrieved captions. Experiments on the XM3600 dataset of geographically diverse images show that our model is competitive with fully-supervised multilingual captioning models, without requiring any supervised training on any captioning data. | 翻訳日:2023-06-01 16:29:13 公開日:2023-05-31 |
# 自己監督型学習におけるブリッジングスペクトル埋め込みとマトリックス補完 Bridging Spectral Embedding and Matrix Completion in Self-Supervised Learning ( http://arxiv.org/abs/2305.19818v1 ) ライセンス: Link先を確認 | Marina Munkhoeva, Ivan Oseledets | (参考訳) 自己監督的な手法は、ラベルの形で明らかな監督なしにデータのセマンティクスを尊重する学習表現に対する、一見ヒューリスティックなアプローチによって大きな注目を集めた。
現代の自己監督表現学習法で使われる損失の動物園の作業について、一貫性と理論的に根拠のある理解を構築するために、文学の集団がすでに出版されている。
本稿では,ラプラス演算子の観点からの理解を提供し,拡張過程に起因する帰納的バイアスを低ランク行列補完問題に結びつける。
この目的のために,低ランク行列補完の結果を利用して,最新のssl手法の収束と,その下流性能に影響を与える重要な特性を理論的に解析する。 Self-supervised methods received tremendous attention thanks to their seemingly heuristic approach to learning representations that respect the semantics of the data without any apparent supervision in the form of labels. A growing body of literature is already being published in an attempt to build a coherent and theoretically grounded understanding of the workings of a zoo of losses used in modern self-supervised representation learning methods. In this paper, we attempt to provide an understanding from the perspective of a Laplace operator and connect the inductive bias stemming from the augmentation process to a low-rank matrix completion problem. To this end, we leverage the results from low-rank matrix completion to provide theoretical analysis on the convergence of modern SSL methods and a key property that affects their downstream performance. | 翻訳日:2023-06-01 16:28:53 公開日:2023-05-31 |
# 量子サンプリングによる作業証明コンセンサス Proof-of-work consensus by quantum sampling ( http://arxiv.org/abs/2305.19865v1 ) ライセンス: Link先を確認 | Deepesh Singh, Boxiang Fu, Gopikrishnan Muraleedharan, Chen-Mou Cheng, Nicolas Roussy Newton, Peter P. Rohde, Gavin K. Brennen | (参考訳) 2011年の登場以来、boson-samplingは、他の量子アルゴリズムに比べて単純さと短期的要件のため、量子優位を示す候補として好まれてきた。
我々は、ブロックチェーンコンセンサスのための量子Proof-of-Work(PoW)スキームとして、粗粒ボソンサンプリング(CGBS)と呼ばれる変種を用いることを提案する。
ユーザは現在のブロック情報に依存する入力状態を使用してボソンサンプリングを行い、サンプルをネットワークにコミットする。
その後、サンプルの検証と成功した鉱夫への報酬の両方に使用できるCGBS戦略が決定される。
鉱夫が正直なサンプルをコミットする報酬と、不正なサンプルをコミットする鉱夫への罰を組み合わせることで、ナッシュ平衡は、正直なノードにインセンティブを与える。
この方式はフォック状態ボソンサンプリングとガウスボソンサンプリングの両方で機能し、古典的なハードウェアによる計算と比較して劇的なスピードアップと省エネを提供する。 Since its advent in 2011, boson-sampling has been a preferred candidate for demonstrating quantum advantage because of its simplicity and near-term requirements compared to other quantum algorithms. We propose to use a variant, called coarse-grained boson-sampling (CGBS), as a quantum Proof-of-Work (PoW) scheme for blockchain consensus. The users perform boson-sampling using input states that depend on the current block information, and commit their samples to the network. Afterward, CGBS strategies are determined which can be used to both validate samples and to reward successful miners. By combining rewards to miners committing honest samples together with penalties to miners committing dishonest samples, a Nash equilibrium is found that incentivizes honest nodes. The scheme works for both Fock state boson sampling and Gaussian boson sampling and provides dramatic speedup and energy savings relative to computation by classical hardware. | 翻訳日:2023-06-01 16:23:53 公開日:2023-05-31 |
# タスク割り当てのためのクローズドループモデルの設計 Designing Closed-Loop Models for Task Allocation ( http://arxiv.org/abs/2305.19864v1 ) ライセンス: Link先を確認 | Vijay Keswani, L. Elisa Celis, Krishnaram Kenthapadi, Matthew Lease | (参考訳) 人に対するタスクの割り当ては、人のパフォーマンスがさまざまな理由で異なるため、難しい。
この課題は、人間の決定やタスクの割り当ての質を評価するためのオラクルが存在しない現実の環境でさらに複雑になる。
その代わり、私たちが実際に頼りにしているのと同じ誤りのある人間の決定をタスク割り当てのガイドとして使う必要がある、"閉じた"意思決定ループに自分自身を見出すのです。
不完全でバイアスのある人間の決定はどのように正確なアロケーションモデルを訓練するか?
私たちの重要な洞察は、ブートストラップモデルトレーニングとヒューマンタスクの類似性に関する弱い事前情報を活用することです。
人間の意思決定者が誤りや偏りがある場合でも,このような弱い先行手法を用いることでタスク割り当ての正確性が向上することを示す。
本稿では,合成データに対する理論的解析と経験的評価,およびソーシャルメディア毒性検出タスクについて述べる。
結果は我々のアプローチの有効性を示している。 Automatically assigning tasks to people is challenging because human performance can vary across tasks for many reasons. This challenge is further compounded in real-life settings in which no oracle exists to assess the quality of human decisions and task assignments made. Instead, we find ourselves in a "closed" decision-making loop in which the same fallible human decisions we rely on in practice must also be used to guide task allocation. How can imperfect and potentially biased human decisions train an accurate allocation model? Our key insight is to exploit weak prior information on human-task similarity to bootstrap model training. We show that the use of such a weak prior can improve task allocation accuracy, even when human decision-makers are fallible and biased. We present both theoretical analysis and empirical evaluation over synthetic data and a social media toxicity detection task. Results demonstrate the efficacy of our approach. | 翻訳日:2023-06-01 16:23:36 公開日:2023-05-31 |
# デュアルリバース・ローリング・シャッター画像の自己教師型学習 Self-supervised Learning to Bring Dual Reversed Rolling Shutter Images Alive ( http://arxiv.org/abs/2305.19862v1 ) ライセンス: Link先を確認 | Wei Shang, Dongwei Ren, Chaoyu Feng, Xiaotao Wang, Lei Lei, Wangmeng Zuo | (参考訳) 現代の消費者向けカメラは通常ローリングシャッター(RS)機構を採用しており、ダイナミックなシーンに対してRS歪みを生じさせるシーンをスキャンすることで画像をキャプチャする。
rs歪みを補正するために、既存の手法では、高いフレームレートのグローバルシャッター(gs)画像を地上監視として収集する、完全に教師あり学習方式を採用している。
本稿では、Dual reversed RS distortions Correction (SelfDRSC) のための自己教師型学習フレームワークを提案する。
特に、二重逆RS画像の再構成のための双方向歪み補正モジュールを提案し、入力と再構成された二重逆RS画像間のサイクル整合性を高めてDRSCネットワークの訓練に自己監督的損失を展開できる。
開始と終了のRSスキャン時間に加えて、任意の中間走査時間におけるGS画像もSelfDRSCで管理できるため、学習したDRSCネットワークは高いフレームレートGSビデオを生成することができる。
さらに,生成したGS画像における境界アーチファクトの緩和を目的とした,簡易かつ効果的な自己蒸留戦略を導入する。
合成データセットにおいて、selfdrscは、完全な監視方法で訓練された最先端の手法と比較して、より良い、または同等の定量的指標を達成する。
実世界のRSのケースでは、より微細な補正テクスチャとより優れた一時的な一貫性を備えた高いフレームレートGSビデオを生成することができる。
ソースコードとトレーニングされたモデルはhttps://github.com/shangwei5/SelfDRSCで公開されている。 Modern consumer cameras usually employ the rolling shutter (RS) mechanism, where images are captured by scanning scenes row-by-row, yielding RS distortions for dynamic scenes. To correct RS distortions, existing methods adopt a fully supervised learning manner, where high framerate global shutter (GS) images should be collected as ground-truth supervision. In this paper, we propose a Self-supervised learning framework for Dual reversed RS distortions Correction (SelfDRSC), where a DRSC network can be learned to generate a high framerate GS video only based on dual RS images with reversed distortions. In particular, a bidirectional distortion warping module is proposed for reconstructing dual reversed RS images, and then a self-supervised loss can be deployed to train DRSC network by enhancing the cycle consistency between input and reconstructed dual reversed RS images. Besides start and end RS scanning time, GS images at arbitrary intermediate scanning time can also be supervised in SelfDRSC, thus enabling the learned DRSC network to generate a high framerate GS video. Moreover, a simple yet effective self-distillation strategy is introduced in self-supervised loss for mitigating boundary artifacts in generated GS images. On synthetic dataset, SelfDRSC achieves better or comparable quantitative metrics in comparison to state-of-the-art methods trained in the full supervision manner. On real-world RS cases, our SelfDRSC can produce high framerate GS videos with finer correction textures and better temporary consistency. The source code and trained models are made publicly available at https://github.com/shangwei5/SelfDRSC. | 翻訳日:2023-06-01 16:23:22 公開日:2023-05-31 |
# 人間制御:定義とアルゴリズム Human Control: Definitions and Algorithms ( http://arxiv.org/abs/2305.19861v1 ) ライセンス: Link先を確認 | Ryan Carey and Tom Everitt | (参考訳) 人間はどのようにして高度な人工知能システムを制御できるのか?
一つの提案は調整可能性であり、エージェントは不適切な影響を与えることなく、人間の監督者の指示に従うことを要求する。
本稿では,遮断操作性(disrupt instructability)と呼ばれるコリグビリティの変種を形式的に定義し,適切なシャットダウン行動,人間の自律性保持,ユーザ害の回避を暗示する。
また,ノンオブストラクションとシャットダウンアライメントの関連概念,以前に提案していた3つの人間制御アルゴリズム,および1つの新しいアルゴリズムの解析を行った。 How can humans stay in control of advanced artificial intelligence systems? One proposal is corrigibility, which requires the agent to follow the instructions of a human overseer, without inappropriately influencing them. In this paper, we formally define a variant of corrigibility called shutdown instructability, and show that it implies appropriate shutdown behavior, retention of human autonomy, and avoidance of user harm. We also analyse the related concepts of non-obstruction and shutdown alignment, three previously proposed algorithms for human control, and one new algorithm. | 翻訳日:2023-06-01 16:22:53 公開日:2023-05-31 |
# 推薦のための大規模言語モデルに関する調査 A Survey on Large Language Models for Recommendation ( http://arxiv.org/abs/2305.19860v1 ) ライセンス: Link先を確認 | Likang Wu, Zhi Zheng, Zhaopeng Qiu, Hao Wang, Hongchao Gu, Tingjia Shen, Chuan Qin, Chen Zhu, Hengshu Zhu, Qi Liu, Hui Xiong, Enhong Chen | (参考訳) 自然言語処理(nlp)の分野では,大規模言語モデル(llm)が強力なツールとして登場し,最近はレコメンデーションシステム(rs)の分野で大きな注目を集めている。
これらのモデルは、自己教師付き学習を用いて大量のデータに基づいて訓練され、普遍表現の学習において顕著な成功を示しており、微調整やプロンプトチューニングなどの効果的な転送技術によって、レコメンデーションシステムの様々な側面を強化する可能性を秘めている。
推薦品質を高めるために言語モデルのパワーを活用する上で重要な側面は、高品質なテキスト特徴表現の利用と、アイテムとユーザ間の相関を確立するための外部知識の広範なカバレッジである。
既存のLLMに基づくレコメンデーションシステムを総合的に理解するため,本調査では,これらのモデルを,それぞれDLLM4レコメンデーション(DLLM)とGLLM4レコメンデーション(GLLM4レコメンデーション)の2つの主要なパラダイムに分類する分類法を提案する。
さらに,各パラダイム内の既存のLCMベースのレコメンデーションシステムを体系的にレビューし,分析し,その方法論,技術,性能について考察する。
さらに、研究者や実践者にインスピレーションを与える上で、重要な課題といくつかの重要な発見を特定する。 Large Language Models (LLMs) have emerged as powerful tools in the field of Natural Language Processing (NLP) and have recently gained significant attention in the domain of Recommendation Systems (RS). These models, trained on massive amounts of data using self-supervised learning, have demonstrated remarkable success in learning universal representations and have the potential to enhance various aspects of recommendation systems by some effective transfer techniques such as fine-tuning and prompt tuning, and so on. The crucial aspect of harnessing the power of language models in enhancing recommendation quality is the utilization of their high-quality representations of textual features and their extensive coverage of external knowledge to establish correlations between items and users. To provide a comprehensive understanding of the existing LLM-based recommendation systems, this survey presents a taxonomy that categorizes these models into two major paradigms, respectively Discriminative LLM for Recommendation (DLLM4Rec) and Generative LLM for Recommendation (GLLM4Rec), with the latter being systematically sorted out for the first time. Furthermore, we systematically review and analyze existing LLM-based recommendation systems within each paradigm, providing insights into their methodologies, techniques, and performance. Additionally, we identify key challenges and several valuable findings to provide researchers and practitioners with inspiration. | 翻訳日:2023-06-01 16:22:41 公開日:2023-05-31 |
# 自己監督型視覚マスキングによる画質予測の強化 Enhancing image quality prediction with self-supervised visual masking ( http://arxiv.org/abs/2305.19858v1 ) ライセンス: Link先を確認 | U\u{g}ur \c{C}o\u{g}alan, Mojtaba Bemana, Hans-Peter Seidel, Karol Myszkowski | (参考訳) フルリファレンス画像品質指標(FR-IQMs)は、人間の判断を正確に予測することを目的として、参照画像と歪画像の対の視覚的差異を測定することを目的としている。
しかし、既存のFR-IQMは、PSNRやSSIMのような従来のものや、HDR-VDP、LPIPS、disTSのような知覚的なものさえも、人間の知覚の複雑さやニュアンスを捉えるのに不足している。
本研究では,新しいIQMモデルを開発するのではなく,既存のFR-IQM手法の知覚的品質の向上を目指す。
局所的な画像内容の関数としての歪みに対する感度を変化させる人間の視覚システムの重要な特徴である視覚マスキングを考慮し、これを実現する。
具体的には、与えられたfr-iqmメトリックに対して、参照および歪んだ画像を可視性に基づいてペナライズする方法で変調する視覚マスキングモデルを予測することを提案する。
基底真理の視覚的マスクは入手が難しいため,fr-iqmデータセットから収集した平均意見スコア(mos)のみに基づいて,自己教師あり方式でそれらを導出する方法を実証する。
提案手法は, 視覚的および定量的に人間の予測に合致したfr-iqm指標を向上させる。 Full-reference image quality metrics (FR-IQMs) aim to measure the visual differences between a pair of reference and distorted images, with the goal of accurately predicting human judgments. However, existing FR-IQMs, including traditional ones like PSNR and SSIM and even perceptual ones such as HDR-VDP, LPIPS, and DISTS, still fall short in capturing the complexities and nuances of human perception. In this work, rather than devising a novel IQM model, we seek to improve upon the perceptual quality of existing FR-IQM methods. We achieve this by considering visual masking, an important characteristic of the human visual system that changes its sensitivity to distortions as a function of local image content. Specifically, for a given FR-IQM metric, we propose to predict a visual masking model that modulates reference and distorted images in a way that penalizes the visual errors based on their visibility. Since the ground truth visual masks are difficult to obtain, we demonstrate how they can be derived in a self-supervised manner solely based on mean opinion scores (MOS) collected from an FR-IQM dataset. Our approach results in enhanced FR-IQM metrics that are more in line with human prediction both visually and quantitatively. | 翻訳日:2023-06-01 16:22:13 公開日:2023-05-31 |
# TPDM:Token-Level Position Disentangle Moduleによるゼロショット翻訳のための位置情報の選択的除去 TPDM: Selectively Removing Positional Information for Zero-shot Translation via Token-Level Position Disentangle Module ( http://arxiv.org/abs/2305.19857v1 ) ライセンス: Link先を確認 | Xingran Chen, Ge Zhang, Jie Fu | (参考訳) ゼロショット翻訳のMNMT(Multilingual Neural Machine Translation)能力のため、ゼロショット翻訳におけるMNMTの可能性を完全に活用する作業が数多く行われている。
位置情報はmnmtが復号のためにロバストな符号化表現を出力することを妨げているとしばしば仮定される。
しかし、従来のアプローチでは全ての位置情報を等しく扱うため、特定の位置情報を選択的に削除することはできない。
本稿では,有用な位置情報を選択的に保存する方法について検討する。
トークンレベルでの言語学の観点から,MNMTに影響を及ぼす位置情報の特定のメカニズムについて述べる。
本報告では,トークンレベルでの位置情報をアンタングルするために,トークンレベルの位置不整形モジュール(TPDM)を設計する。
本実験は,従来の研究に比べて教師付き方向の性能損失を低減しつつ,ゼロショット翻訳を大きなマージンで改善することを示した。 Due to Multilingual Neural Machine Translation's (MNMT) capability of zero-shot translation, many works have been carried out to fully exploit the potential of MNMT in zero-shot translation. It is often hypothesized that positional information may hinder the MNMT from outputting a robust encoded representation for decoding. However, previous approaches treat all the positional information equally and thus are unable to selectively remove certain positional information. In sharp contrast, this paper investigates how to learn to selectively preserve useful positional information. We describe the specific mechanism of positional information influencing MNMT from the perspective of linguistics at the token level. We design a token-level position disentangle module (TPDM) framework to disentangle positional information at the token level based on the explanation. Our experiments demonstrate that our framework improves zero-shot translation by a large margin while reducing the performance loss in the supervised direction compared to previous works. | 翻訳日:2023-06-01 16:21:49 公開日:2023-05-31 |
# 事前学習は談話認識翻訳をどのように改善するか? How Does Pretraining Improve Discourse-Aware Translation? ( http://arxiv.org/abs/2305.19847v1 ) ライセンス: Link先を確認 | Zhihong Huang, Longyue Wang, Siyou Liu, Derek F. Wong | (参考訳) プレトレーニング言語モデル(PLM)は、例えば音声言語翻訳におけるコヒーレンスの改善など、談話認識ニューラルマシン翻訳(NMT)を大幅に改善した。
しかし、その性能の根本的な理由はよく説明されていない。
このギャップを埋めるために,PLMの会話関係知識を捉える能力を理解するための探索タスクを導入する。
我々は,エンコーダモデル,デコーダモデル,エンコーダデコーダモデルにまたがる3つの最先端plmを検証する。
分析の結果,(1)談話モデルにおけるPLMの能力は,建築や層によって異なり,(2)文章中の談話要素はPLMの学習困難度が異なることがわかった。
さらに,異なるPLMが音声翻訳に与える影響についても検討する。
iwslt2017中国英語データセットの実験を通じて、異なるplm層から初期化されたnmtモデルが、同じ傾向を示すことが実証的に明らかになった。
本研究は, PLMにおける言論的知識が下流作業にどのように役立つかを理解するための指導である。 Pretrained language models (PLMs) have produced substantial improvements in discourse-aware neural machine translation (NMT), for example, improved coherence in spoken language translation. However, the underlying reasons for their strong performance have not been well explained. To bridge this gap, we introduce a probing task to interpret the ability of PLMs to capture discourse relation knowledge. We validate three state-of-the-art PLMs across encoder-, decoder-, and encoder-decoder-based models. The analysis shows that (1) the ability of PLMs on discourse modelling varies from architecture and layer; (2) discourse elements in a text lead to different learning difficulties for PLMs. Besides, we investigate the effects of different PLMs on spoken language translation. Through experiments on IWSLT2017 Chinese-English dataset, we empirically reveal that NMT models initialized from different layers of PLMs exhibit the same trends with the probing task. Our findings are instructive to understand how and when discourse knowledge in PLMs should work for downstream tasks. | 翻訳日:2023-06-01 16:21:30 公開日:2023-05-31 |
# 拡張スタンス三角形フレームワークによる計算スタンス検出の誘導 Guiding Computational Stance Detection with Expanded Stance Triangle Framework ( http://arxiv.org/abs/2305.19845v1 ) ライセンス: Link先を確認 | Zhengyuan Liu, Yong Keong Yap, Hai Leong Chieu, Nancy F. Chen | (参考訳) スタンス検出は、あるテキストの著者が特定のターゲットに対して好意的、反対的、中立的であるかどうかを判断し、ソーシャルメディアに価値ある洞察を得るために使用できる。
ターゲットのユビキタスな間接参照は、リテラルステートメントから対応する含意を推論するために、セマンティックな特徴をモデル化する計算ソリューションを必要とするため、このタスクを難しくする。
さらに、利用可能なトレーニングデータの量が限られているため、データ駆動アプローチは表面的およびドメイン固有の機能に依存する傾向があるため、ドメイン外シナリオとクロスターゲットシナリオではパフォーマンスが劣る。
本研究では, 姿勢検出タスクを言語学的観点から分解し, 本課題の重要な構成要素と推論パスについて検討する。
スタンス・トライアングルは、人々がスタンスを表現する基本的な方法を記述するために以前に提案された一般的な言語フレームワークである。
明示的なオブジェクトと暗黙的なオブジェクトの関係を特徴付けることでさらに拡張します。
その後、フレームワークを使用して、1つのトレーニングコーパスを追加アノテーションで拡張します。
実験の結果,戦略的に強化されたデータにより,領域外および目標横断評価における性能が著しく向上することが示された。 Stance detection determines whether the author of a piece of text is in favor of, against, or neutral towards a specified target, and can be used to gain valuable insights into social media. The ubiquitous indirect referral of targets makes this task challenging, as it requires computational solutions to model semantic features and infer the corresponding implications from a literal statement. Moreover, the limited amount of available training data leads to subpar performance in out-of-domain and cross-target scenarios, as data-driven approaches are prone to rely on superficial and domain-specific features. In this work, we decompose the stance detection task from a linguistic perspective, and investigate key components and inference paths in this task. The stance triangle is a generic linguistic framework previously proposed to describe the fundamental ways people express their stance. We further expand it by characterizing the relationship between explicit and implicit objects. We then use the framework to extend one single training corpus with additional annotation. Experimental results show that strategically-enriched data can significantly improve the performance on out-of-domain and cross-target evaluation. | 翻訳日:2023-06-01 16:21:00 公開日:2023-05-31 |
# 多出力DNNにおけるグラディエントデコンフリクトのためのタスク優先推論経路の学習 Learning Task-preferred Inference Routes for Gradient De-conflict in Multi-output DNNs ( http://arxiv.org/abs/2305.19844v1 ) ライセンス: Link先を確認 | Yi Sun, Xin Xu, Jian Li, Xiaochang Hu, Yifei Shi, Ling-Li Zeng | (参考訳) マルチ出力ディープニューラルネットワーク(MON)は複数のタスクブランチを含み、これらのタスクは通常、異なるタスク推論経路の絡み合う部分的なネットワークフィルタを共有する。
不整合最適化の目的のため、monのトレーニングに使用されるタスク勾配は共有ルート上で互いに干渉し、全体のモデル性能が低下する。
そこで本研究では,DR-MGF (Dynamic Routes and Meta-weighted Gradient Fusion) と呼ばれる新しい勾配分解アルゴリズムを提案する。
既存のde-conflict法とは異なり、DR-MGFはタスク優先推論経路を学習することでMONの勾配de-conflictを達成する。
提案手法は実験結果によるものである: 共有フィルタは異なるタスクに対して等しく重要ではない。
学習可能なタスク固有の重要変数を設計することで、dr-mgfは異なるタスクに対するフィルタの重要性を評価する。
フィルタ上のタスクの優位をフィルタのタスク固有の重要性に比例させることで、dr-mgfはタスク間干渉を効果的に低減することができる。
タスク固有の重要変数は、最終的にトレーニングイテレーションの終了時にタスク優先の推論経路を決定する。
CIFAR、ImageNet、NYUv2の大規模な実験結果によると、DR-MGFはMONの予測精度と収束速度の両方において既存の非衝突法よりも優れている。
さらに、dr-mgfは全体のネットワーク構造を変更することなく、一般的なmonsに拡張できる。 Multi-output deep neural networks(MONs) contain multiple task branches, and these tasks usually share partial network filters that lead to the entanglement of different task inference routes. Due to the inconsistent optimization objectives, the task gradients used for training MONs will interfere with each other on the shared routes, which will decrease the overall model performance. To address this issue, we propose a novel gradient de-conflict algorithm named DR-MGF(Dynamic Routes and Meta-weighted Gradient Fusion) in this work. Different from existing de-conflict methods, DR-MGF achieves gradient de-conflict in MONs by learning task-preferred inference routes. The proposed method is motivated by our experimental findings: the shared filters are not equally important to different tasks. By designing the learnable task-specific importance variables, DR-MGF evaluates the importance of filters for different tasks. Through making the dominances of tasks over filters be proportional to the task-specific importance of filters, DR-MGF can effectively reduce the inter-task interference. The task-specific importance variables ultimately determine task-preferred inference routes at the end of training iterations. Extensive experimental results on CIFAR, ImageNet, and NYUv2 illustrate that DR-MGF outperforms the existing de-conflict methods both in prediction accuracy and convergence speed of MONs. Furthermore, DR-MGF can be extended to general MONs without modifying the overall network structures. | 翻訳日:2023-06-01 16:20:30 公開日:2023-05-31 |
# NEROによる機械学習モデルの評価:軌道上での非等価性 Evaluating Machine Learning Models with NERO: Non-Equivariance Revealed on Orbits ( http://arxiv.org/abs/2305.19889v1 ) ライセンス: Link先を確認 | Zhuokai Zhao, Takumi Matsuzawa, William Irvine, Michael Maire, Gordon L Kindlmann | (参考訳) 適切な評価は、より良い理解、トラブルシューティング、モデルの振る舞いの解釈、モデルパフォーマンスの向上に不可欠です。
scalarベースのエラーメトリクスは、モデルパフォーマンスを概観するための高速な方法を提供するが、それらはしばしば抽象的すぎるので、特定の弱点を表示し、堅牢性などの重要なモデル特性に関する情報を欠いている。
これは機械学習モデルがより解釈しやすくなり、信頼を得るのを妨げるだけでなく、モデル開発者とユーザの両方にとって誤解を招く可能性がある。
さらに、従来の評価手法は、モデルの比較とさらなる発展を複雑にするモデルがどこでどのように失敗するかを研究者に不明瞭にさせることが多い。
これらの課題に対処するため,Non-Equivariance Revealed on Orbits (NERO) Evaluationという新しい評価ワークフローを提案する。
NERO評価の目標は、従来のスカラーベースのメトリクスからモデルの等価性を評価・視覚化し、モデルロバスト性を密に捉え、研究者が興味や予期せぬモデルの振る舞いを素早く調査できるようにすることである。
NERO の評価はタスクに依存しない対話インタフェースと NERO プロットと呼ばれる可視化の集合から成り、モデルの同値性を明らかにする。
NERO評価が2次元数値認識、物体検出、粒子画像速度測定(PIV)、および3次元点雲分類など、複数の研究領域に適用可能なケーススタディでは、NERO評価がモデル等価性を迅速に説明し、モデル出力のインタラクティブな可視化を通してモデル挙動を効果的に説明できることが示されている。
さらに,新たなラベル付きデータセットを用いてモデル等価性を評価できるように,NERO評価に使用する基底真理の代替となるコンセンサスを提案する。 Proper evaluations are crucial for better understanding, troubleshooting, interpreting model behaviors and further improving model performance. While using scalar-based error metrics provides a fast way to overview model performance, they are often too abstract to display certain weak spots and lack information regarding important model properties, such as robustness. This not only hinders machine learning models from being more interpretable and gaining trust, but also can be misleading to both model developers and users. Additionally, conventional evaluation procedures often leave researchers unclear about where and how model fails, which complicates model comparisons and further developments. To address these issues, we propose a novel evaluation workflow, named Non-Equivariance Revealed on Orbits (NERO) Evaluation. The goal of NERO evaluation is to turn focus from traditional scalar-based metrics onto evaluating and visualizing models equivariance, closely capturing model robustness, as well as to allow researchers quickly investigating interesting or unexpected model behaviors. NERO evaluation is consist of a task-agnostic interactive interface and a set of visualizations, called NERO plots, which reveals the equivariance property of the model. Case studies on how NERO evaluation can be applied to multiple research areas, including 2D digit recognition, object detection, particle image velocimetry (PIV), and 3D point cloud classification, demonstrate that NERO evaluation can quickly illustrate different model equivariance, and effectively explain model behaviors through interactive visualizations of the model outputs. In addition, we propose consensus, an alternative to ground truths, to be used in NERO evaluation so that model equivariance can still be evaluated with new, unlabeled datasets. | 翻訳日:2023-06-01 16:12:52 公開日:2023-05-31 |
# 量子回転角の確率的補間 Probabilistic Interpolation of Quantum Rotation Angles ( http://arxiv.org/abs/2305.19881v1 ) ライセンス: Link先を確認 | B\'alint Koczor, John Morton, Simon Benjamin | (参考訳) 量子コンピューティングはゲート演算の普遍的な集合を必要とし、ゲートを回転として、任意の回転角が可能である必要がある。
しかし、実際のデバイスは解像度がb$bit、つまり特定の物理ゲートの2^b$のバリエーションしかサポートできないかもしれない。
アルゴリズムのゲートを最寄りのオプションに識別することはコヒーレントなエラーを引き起こすが、許容できないゲートをいくつかの操作に分解すると回路深さが増加する。
逆に、高いB$を要求すると、ハードウェアが複雑になる。
ここでは、確率的角度補間 (probabilistic angle interpolation:pai) という別の方法を検討する。
これにより、3つの離散ゲート設定のうちの1つをランダムに選択し、個々の回路出力を後処理することで、任意の所望のパラメトリス回転を効果的に実装する。
このアプローチは、期待された値を推定するために、回路の実行回数を平均的に上回るような、短期的なアプリケーションに特有である。
PAIはサンプリングコストを増大させるが、数千のパラメトリドゲートとわずか7ドル(約7,800円)の解像度で、オーバーヘッドが著しく低いことを証明している。
これは第1世代の量子コンピュータのエンジニアリング要件の大幅な緩和である。
さらに、より成熟したNISQハードウェアであっても、9ドル~10ドルという解像度は十分かもしれないと結論づける。 Quantum computing requires a universal set of gate operations; regarding gates as rotations, any rotation angle must be possible. However a real device may only be capable of $B$ bits of resolution, i.e. it might support only $2^B$ possible variants of a given physical gate. Naive discretization of an algorithm's gates to the nearest available options causes coherent errors, while decomposing an impermissible gate into several allowed operations increases circuit depth. Conversely, demanding higher $B$ can greatly complexify hardware. Here we explore an alternative: Probabilistic Angle Interpolation (PAI). This effectively implements any desired, continuously parametrised rotation by randomly choosing one of three discretised gate settings and postprocessing individual circuit outputs. The approach is particularity relevant for near-term applications where one would in any case average over many runs of circuit executions to estimate expected values. While PAI increases that sampling cost, we prove that the overhead is remarkably modest even with thousands of parametrised gates and only $7$ bits of resolution available. This is a profound relaxation of engineering requirements for first generation quantum computers. Moreover we conclude that, even for more mature late-NISQ hardware, a resolution of $9$--$10$ bits may suffice. | 翻訳日:2023-06-01 16:12:20 公開日:2023-05-31 |
# RaSP: 弱監視インクリメンタルセグメンテーションのための関係認識セマンティックプリミティブ RaSP: Relation-aware Semantic Prior for Weakly Supervised Incremental Segmentation ( http://arxiv.org/abs/2305.19879v1 ) ライセンス: Link先を確認 | Subhankar Roy, Riccardo Volpi, Gabriela Csurka, Diane Larlus | (参考訳) クラスインクリメンタルなセマンティックイメージセグメンテーションは、複数のモデル更新を前提としており、それぞれがモデルを強化して新しいカテゴリをセグメンテーションする。
これは一般的に、新しいオブジェクトのトレーニングアルゴリズムに高価なピクセルレベルのアノテーションを提供することで実行され、実用的なアプリケーションでのそのような方法の採用を制限している。
画像レベルのラベルのみを必要とするアプローチは、魅力的な代替手段を提供するが、そのような粗いアノテーションには、新しいオブジェクトの位置と境界に関する正確な情報がない。
本稿では,クラスは単なる指標ではなく意味的実体を表すので,それらの概念的関係は活用すべき貴重な情報を提供することができる,と論じる。
本稿では,このような意味関係を生かして,画像レベルラベルからの監視信号を補完して,学習したクラスから新しいクラスへオブジェクトを転送する,弱い教師付きアプローチを提案する。
我々は,複数の連続学習タスクに対するアプローチを検証するとともに,クラス間の単純なペアワイズインタラクションさえも,旧クラスと新クラスのセグメンテーションマスク品質を大幅に改善できることを示す。
これらの結論は、より長く、従ってより現実的なタスクのシーケンスと、難易度の低いシナリオに留まっています。 Class-incremental semantic image segmentation assumes multiple model updates, each enriching the model to segment new categories. This is typically carried out by providing expensive pixel-level annotations to the training algorithm for all new objects, limiting the adoption of such methods in practical applications. Approaches that solely require image-level labels offer an attractive alternative, yet, such coarse annotations lack precise information about the location and boundary of the new objects. In this paper we argue that, since classes represent not just indices but semantic entities, the conceptual relationships between them can provide valuable information that should be leveraged. We propose a weakly supervised approach that exploits such semantic relations to transfer objectness prior from the previously learned classes into the new ones, complementing the supervisory signal from image-level labels. We validate our approach on a number of continual learning tasks, and show how even a simple pairwise interaction between classes can significantly improve the segmentation mask quality of both old and new classes. We show these conclusions still hold for longer and, hence, more realistic sequences of tasks and for a challenging few-shot scenario. | 翻訳日:2023-06-01 16:11:56 公開日:2023-05-31 |
# 直線上の連続時間開量子ウォークのためのサイト再帰 Site Recurrence for continuous-time open quantum walks on the line ( http://arxiv.org/abs/2305.19876v1 ) ライセンス: Link先を確認 | Newton Loebens | (参考訳) 近年,離散時間開放型量子ウォーク (oqws) のいくつかの特性と再現基準が提示されている。
近年、ペレグリニは離散時間 OQW の連続時間自然極限として連続時間オープン量子ウォーク (CTOQWs) を導入した。
本研究では,半有限のCTOQWと,遷移確率やサイト再帰といった統計に関する基本的な特性について検討する。
The concept of SJK-recurrence for CTOQWs, is shown to be equivalent to the traditional concept of repeatence。
この統計は、CTOQWの$\delta$-skeletonの定義に由来する。
有限次元のコインによって誘導される CTOQW の場合、その補助リンドブラッド作用素が1つの定常状態を持つような頂点の集合 $\mathbb{Z}$ でサイト再帰の完全な基準を示す。
最後に、各サイトの内部自由度が次元 2 である場合を完結する類似の基準を示す。 In recent years, several properties and recurrence criteria of discrete-time open quantum walks (OQWs) have been presented. Recently, Pellegrini introduced continuous-time open quantum walks (CTOQWs) as continuous-time natural limits of discrete-time OQWs. In this work, we study semifinite CTOQWs and some of their basic properties concerning statistics, such as transition probabilities and site recurrence. The notion of SJK-recurrence for CTOQWs is introduced, and it is shown to be equivalent to the traditional concept of recurrence. This statistic arises from the definition of $\delta$-skeleton of CTOQWs, which is a dynamic that allows us to obtain a discrete-time OQW in terms of a CTOQW. We present a complete criterion for site recurrence in the case of CTOQW induced by a coin of finite dimension with a set of vertices $\mathbb{Z}$ such that its auxiliary Lindblad operator has a single stationary state. Finally, we present a similar criterion that completes the case in which the internal degree of freedom of each site is of dimension 2. | 翻訳日:2023-06-01 16:11:35 公開日:2023-05-31 |
# 量子軌道法による誤差緩和 Quantum Trajectory Approach to Error Mitigation ( http://arxiv.org/abs/2305.19874v1 ) ライセンス: Link先を確認 | Brecht. I. C Donvil, Rochus Lechler, Joachim Ankerhold and Paolo Muratore-Ginanneschi | (参考訳) 量子誤差緩和(Quantum Error Mitigation, EM)は、ノイズの多い中間スケール量子(NISQ)デバイスにおいて、適切な量子誤差補正が不可能なエラーを減らすための戦略の集合である。
既知の環境の雑音効果を緩和するための戦略の一つは、準確率分布に重みづけられた完全正の写像の集合、すなわち正の値と負の値を持つ確率分布を用いて雑音の逆写像を実現することである。
この準確率分布は、所望の観測値の最終的な測定が完了した後、古典的な後処理を用いて実現される。
ここでは、準確率emと、オープン量子システムのための量子軌道理論の最近の結果を結びつける。
ノイズマップの逆は、インフルエンス・マルティンゲールと呼ばれる準確率測度を用いて、追加の貯水池によって生成された量子軌道上で古典的後処理を行うことによって実現できることを示す。
我々は、現在のNISQデバイスに関係のあるモデルで結果を示す。
最後に,誤り訂正に必要な量子軌道を,連立量子ビットを系に結合することでシミュレートできることを示す。
このようにして、エンジニアリングされた貯水池の導入を避けることができる。 Quantum Error Mitigation (EM) is a collection of strategies to reduce errors on noisy intermediate scale quantum (NISQ) devices on which proper quantum error correction is not feasible. One of such strategies aimed at mitigating noise effects of a known environment is to realise the inverse map of the noise using a set of completely positive maps weighted by a quasi-probability distribution, i.e. a probability distribution with positive and negative values. This quasi-probability distribution is realised using classical post-processing after final measurements of the desired observables have been made. Here we make a connection with quasi-probability EM and recent results from quantum trajectory theory for open quantum systems. We show that the inverse of noise maps can be realised by performing classical post-processing on the quantum trajectories generated by an additional reservoir with a quasi-probability measure called the influence martingale. We demonstrate our result on a model relevant for current NISQ devices. Finally, we show the quantum trajectories required for error correction can themselves be simulated by coupling an ancillary qubit to the system. In this way, we can avoid the introduction of the engineered reservoir. | 翻訳日:2023-06-01 16:11:17 公開日:2023-05-31 |
# パウリ測定によるマルチキュービット状態トモグラフィ Multi-qubit State Tomography with Few Pauli Measurements ( http://arxiv.org/abs/2305.19873v1 ) ライセンス: Link先を確認 | Xudan Chai, Teng Ma, Qihao Guo, Zhangqi Yin, Hao Wu, Qing Zhao | (参考訳) 量子情報変換と量子計算において、最も重要な問題はセキュリティと精度である。
これらの特徴は量子状態の特徴の研究を刺激する。
評価ツールである量子状態トモグラフィは、未知の量子状態の密度行列を再構成する。
理論的には、この方法を用いた未知の状態の再構成は任意に正確である。
しかし、これは大量の量子ビットに対する測定とデータ処理の膨大な負担のため、実用的ではない。
効率的な推定器と正確なアルゴリズムでさえ、測定の指数的成長のために最適なトモグラフィーフレームワークをオーバーバーデンドすることができる。
さらに、大量のデータの一連の後処理は、コンピュータの能力に挑戦する。
したがって、より少ない測定を必要とするが期待できる精度を持つ効率的なフレームワークを構築することが不可欠である。
この目的のために,ポーリ計測で正確なトモグラフィ再構成が可能となるトモグラフィスキーマを構築した。
その後,マルチ量子ビット量子状態のトモグラフィーによる数値シミュレーションにより,効率と精度を検証した。
さらに, 超伝導量子ビット系の数値シミュレーションにより, このスキーマは頑健であることが証明された。
したがって、トモグラフィースキーマは、その効率と精度から量子状態の密度行列を再構築する代替の効果的な方法であり、これは量子状態トモグラフィーに必須である。 In quantum information transformation and quantum computation, the most critical issues are security and accuracy. These features, therefore, stimulate research on quantum state characterization. A characterization tool, Quantum state tomography, reconstructs the density matrix of an unknown quantum state. Theoretically, reconstructing an unknown state using this method can be arbitrarily accurate. However, this is less practical owing to the huge burden of measurements and data processing for large numbers of qubits. Even comprising an efficient estimator and a precise algorithm, an optimal tomographic framework can also be overburdened owing to the exponential growth of the measurements. Moreover, the consequential postprocessing of huge amounts of data challenges the capacity of computers. Thus, it is crucial to build an efficient framework that requires fewer measurements but yields an expected accuracy. To this end, we built a tomography schema by which only a few Pauli measurements enable an accurate tomographic reconstruction. Subsequently, this schema was verified as efficient and accurate through numerical simulations on the tomography of multi-qubit quantum states. Furthermore, this schema was proven to be robust through numerical simulations on a noisy superconducting qubit system. Therefore, the tomography schema paves an alternatively effective way to reconstruct the density matrix of a quantum state owing to its efficiency and accuracy, which are essential for quantum state tomography. | 翻訳日:2023-06-01 16:11:01 公開日:2023-05-31 |
# 正の非可換多項式によるスペクトル不均一グラフ畳み込み Spectral Heterogeneous Graph Convolutions via Positive Noncommutative Polynomials ( http://arxiv.org/abs/2305.19872v1 ) ライセンス: Link先を確認 | Mingguo He, Zhewei Wei, Shikun Feng, Zhengjie Huang, Weibin Li, Yu Sun, Dianhai Yu | (参考訳) 不均一グラフニューラルネットワーク(HGNN)は、様々な異種グラフ学習タスクで大きな人気を得ている。
しかし、ほとんどのHGNNは情報伝達と集約のために空間領域ベースのメッセージパッシングとアテンションモジュールに依存している。
これらの空間ベースHGNNは、均一グラフ上のグラフ畳み込みネットワーク(GCN)の基礎であるスペクトルグラフ畳み込みの利用を無視する。
均一グラフ上でのスペクトルベースGNNの有効性と拡張性から着想を得て,スペクトルベースGNNの異種グラフへの拡張について検討する。
正の非可換多項式に基づく新しい異種畳み込みネットワークであるPSHGCNを提案する。
PSHGCNは、ヘテロジニアスグラフ上のスペクトルグラフ畳み込みを学習するための単純かつ効果的なアプローチを提供する。
さらに,グラフ最適化におけるPSHGCNの理論的根拠を示す。
我々は、PSHGCNが多種多様な異種グラフ畳み込みを学習し、ノード分類タスクにおいて優れた性能が得られることを示すために、広範な実験を行った。
私たちのコードはhttps://github.com/ivam-he/pshgcnで利用可能です。 Heterogeneous Graph Neural Networks (HGNNs) have gained significant popularity in various heterogeneous graph learning tasks. However, most HGNNs rely on spatial domain-based message passing and attention modules for information propagation and aggregation. These spatial-based HGNNs neglect the utilization of spectral graph convolutions, which are the foundation of Graph Convolutional Networks (GCN) on homogeneous graphs. Inspired by the effectiveness and scalability of spectral-based GNNs on homogeneous graphs, this paper explores the extension of spectral-based GNNs to heterogeneous graphs. We propose PSHGCN, a novel heterogeneous convolutional network based on positive noncommutative polynomials. PSHGCN provides a simple yet effective approach for learning spectral graph convolutions on heterogeneous graphs. Moreover, we demonstrate the rationale of PSHGCN in graph optimization. We conducted an extensive experimental study to show that PSHGCN can learn diverse spectral heterogeneous graph convolutions and achieve superior performance in node classification tasks. Our code is available at https://github.com/ivam-he/PSHGCN. | 翻訳日:2023-06-01 16:10:42 公開日:2023-05-31 |
# グラフは目を満たす以上のもの: 自己スーパービジョンで普遍的な特徴を学ぶ There is more to graphs than meets the eye: Learning universal features with self-supervision ( http://arxiv.org/abs/2305.19871v1 ) ライセンス: Link先を確認 | Laya Das, Sai Munikoti, Mahantesh Halappanavar | (参考訳) 本研究では,複数のグラフにまたがる普遍的特徴の学習問題を自己スーパービジョンを通して検討する。
グラフ自己教師付き学習は、表現学習を促進し、教師付きベースラインと比較して競合モデルを生成する。
しかし、既存の自己超越法は、あるグラフから特徴を学習し、特定のグラフに特化したモデルを生成する。
同じ型/クラスの複数のグラフを利用することで、グラフのクラスに共通な特徴を抽出することにより、モデルにおける学習表現の品質を向上させることができると仮定する。
複数のグラフに対する普遍表現学習モジュールとして機能するトランスフォーマーバックボーンを採用する。
グラフ固有の埋め込み生成器と結合した近傍アグリゲーションを利用して、異なるノード埋め込みを複数のグラフから共通空間に変換する。
普遍パラメータとグラフ固有パラメータの両方をエンドツーエンドで学習する。
実験により,同一タイプの複数のグラフ -- 引用ネットワーク -- を活用することで表現の質が向上し,ダウンストリームノードの分類タスクにおいて1つのグラフによる自己スーパービジョンよりもパフォーマンスが向上することが判明した。
本研究は,グラフ自己教師型学習における最先端技術の向上と,自己教師型と教師型パフォーマンスのギャップを埋めるものである。 We study the problem of learning universal features across multiple graphs through self-supervision. Graph self supervised learning has been shown to facilitate representation learning, and produce competitive models compared to supervised baselines. However, existing methods of self-supervision learn features from one graph, and thus, produce models that are specialized to a particular graph. We hypothesize that leveraging multiple graphs of the same type/class can improve the quality of learnt representations in the model by extracting features that are universal to the class of graphs. We adopt a transformer backbone that acts as a universal representation learning module for multiple graphs. We leverage neighborhood aggregation coupled with graph-specific embedding generator to transform disparate node embeddings from multiple graphs to a common space for the universal backbone. We learn both universal and graph-specific parameters in an end-to-end manner. Our experiments reveal that leveraging multiple graphs of the same type -- citation networks -- improves the quality of representations and results in better performance on downstream node classification task compared to self-supervision with one graph. The results of our study improve the state-of-the-art in graph self-supervised learning, and bridge the gap between self-supervised and supervised performance. | 翻訳日:2023-06-01 16:10:26 公開日:2023-05-31 |
# Fast-SNN:量子化ANN変換による高速スパイクニューラルネットワーク Fast-SNN: Fast Spiking Neural Network by Converting Quantized ANN ( http://arxiv.org/abs/2305.19868v1 ) ライセンス: Link先を確認 | Yangfan Hu, Qian Zheng, Xudong Jiang, Gang Pan | (参考訳) スパイキングニューラルネットワーク(SNN)は、イベント駆動型表現のおかげで、従来の人工知能ニューラルネットワーク(ANN)よりも計算とエネルギー効率の優位性を示している。
SNNはANNの重み乗算を、エネルギー効率が良く計算量も少ない加算に置き換える。
しかし、離散スパイク関数のため、深いSNNを訓練することは依然として困難である。
この課題を回避するための一般的なアプローチは、ANN-to-SNN変換である。
しかし、量子化エラーと累積誤差のため、高い性能を達成するために多くの時間ステップ(高い推論遅延)を必要とすることが多く、SNNの利点を否定する。
そこで本研究では,低レイテンシで高性能な高速SNNを提案する。
量子化誤差の最小化を量子化 ann トレーニングに移すことにより,sns の時空間量子化と ann の空間量子化の等価なマッピングを示す。
量子化誤差の最小化により,符号付きifニューロンモデルと層毎の微調整機構を導入することで,累積誤差の主な原因は逐次誤差であることを示す。
画像分類,オブジェクト検出,セマンティックセグメンテーションなど,様々なコンピュータビジョンタスクにおける最先端性能と低レイテンシを実現する。
コードは、https://github.com/yangfan-hu/Fast-SNN.comで入手できる。 Spiking neural networks (SNNs) have shown advantages in computation and energy efficiency over traditional artificial neural networks (ANNs) thanks to their event-driven representations. SNNs also replace weight multiplications in ANNs with additions, which are more energy-efficient and less computationally intensive. However, it remains a challenge to train deep SNNs due to the discrete spike function. A popular approach to circumvent this challenge is ANN-to-SNN conversion. However, due to the quantization error and accumulating error, it often requires lots of time steps (high inference latency) to achieve high performance, which negates SNN's advantages. To this end, this paper proposes Fast-SNN that achieves high performance with low latency. We demonstrate the equivalent mapping between temporal quantization in SNNs and spatial quantization in ANNs, based on which the minimization of the quantization error is transferred to quantized ANN training. With the minimization of the quantization error, we show that the sequential error is the primary cause of the accumulating error, which is addressed by introducing a signed IF neuron model and a layer-wise fine-tuning mechanism. Our method achieves state-of-the-art performance and low latency on various computer vision tasks, including image classification, object detection, and semantic segmentation. Codes are available at: https://github.com/yangfan-hu/Fast-SNN. | 翻訳日:2023-06-01 16:10:06 公開日:2023-05-31 |
# Masked Diffusion Model を用いた医用画像の教師なし異常検出 Unsupervised Anomaly Detection in Medical Images Using Masked Diffusion Model ( http://arxiv.org/abs/2305.19867v1 ) ライセンス: Link先を確認 | Hasan Iqbal, Umar Khalid, Jing Hua, Chen Chen | (参考訳) 解剖学的異質性やピクセルレベルのラベリングの要求により、教師付きディープラーニング技術を用いて脳MRI異常を特定することは困難である。
教師なし異常検出アプローチは、正常な脳のサンプルレベルのラベルにのみ依存して、画素レベルの異常を識別するために望ましい表現を生成する、代替ソリューションを提供する。
生成モデルは、健康な脳の解剖学的に一貫した表現を生成するために重要であるが、人間の脳の複雑な解剖を正確に生成することは、依然として困難である。
本研究では,拡散モデルの生成タスクを再構築するために,マスクベース正規化を導入したマスク-DDPM (mDPPM) を提案する。
具体的には,MFM(Masked Image Modeling)とMFM(Masked Frequency Modeling)を導入し,モデルがラベルのないデータから視覚表現を学習できるようにする。
我々の知る限りでは、医療応用にMDMをDPPMモデルに適用する最初の試みである。
腫瘍および多発性硬化症病変を含むデータセットに対する我々のアプローチを評価し,既存の完全/弱教師付きベースラインと比較して,教師なし手法の優れた性能を示した。
コードはhttps://github.com/hasan1292/mDDPMで入手できる。 It can be challenging to identify brain MRI anomalies using supervised deep-learning techniques due to anatomical heterogeneity and the requirement for pixel-level labeling. Unsupervised anomaly detection approaches provide an alternative solution by relying only on sample-level labels of healthy brains to generate a desired representation to identify abnormalities at the pixel level. Although, generative models are crucial for generating such anatomically consistent representations of healthy brains, accurately generating the intricate anatomy of the human brain remains a challenge. In this study, we present a method called masked-DDPM (mDPPM), which introduces masking-based regularization to reframe the generation task of diffusion models. Specifically, we introduce Masked Image Modeling (MIM) and Masked Frequency Modeling (MFM) in our self-supervised approach that enables models to learn visual representations from unlabeled data. To the best of our knowledge, this is the first attempt to apply MFM in DPPM models for medical applications. We evaluate our approach on datasets containing tumors and numerous sclerosis lesions and exhibit the superior performance of our unsupervised method as compared to the existing fully/weakly supervised baselines. Code is available at https://github.com/hasan1292/mDDPM. | 翻訳日:2023-06-01 16:09:43 公開日:2023-05-31 |
# 神経オペレータは本当に神経オペレータか?
Frame Theory - 演算子学習 Are Neural Operators Really Neural Operators? Frame Theory Meets Operator Learning ( http://arxiv.org/abs/2305.19913v1 ) ライセンス: Link先を確認 | Francesca Bartolucci and Emmanuel de B\'ezenac and Bogdan Raoni\'c and Roberto Molinaro and Siddhartha Mishra and Rima Alaifari | (参考訳) 近年,無限次元関数空間間の学習写像など,演算子学習に大きな関心が寄せられている。
これは、データから偏微分方程式を学ぶ文脈において特に関係がある。
しかし,提案モデルがコンピュータ上で実装された場合,オペレータとして振る舞うことはなく,オペレータ学習の本質に疑問を呈することがある。
連続レベルで演算子を定義することに加えて、アーキテクチャが単に離散化するのではなく、基礎となる演算子を真に学習するためには、ある種の連続離散同値性が必要である。
そこで本研究では,連続信号の完全かつ安定した離散表現を実現するための,適応調和解析と信号処理の枠組みを提案する。
これらの概念を演算子に拡張し、表現等価ニューラルネットワーク(reno)の統一数学的枠組みを導入し、連続および離散レベルの演算が等価であることを保証する。
この等価性の欠如は、エラーのエイリアスの観点から定量化される。
既存のオペレータ学習アーキテクチャを分析して,それらがこのフレームワークに含まれるかどうかを判断し,それが失敗した場合の影響を強調する。 Recently, there has been significant interest in operator learning, i.e. learning mappings between infinite-dimensional function spaces. This has been particularly relevant in the context of learning partial differential equations from data. However, it has been observed that proposed models may not behave as operators when implemented on a computer, questioning the very essence of what operator learning should be. We contend that in addition to defining the operator at the continuous level, some form of continuous-discrete equivalence is necessary for an architecture to genuinely learn the underlying operator, rather than just discretizations of it. To this end, we propose to employ frames, a concept in applied harmonic analysis and signal processing that gives rise to exact and stable discrete representations of continuous signals. Extending these concepts to operators, we introduce a unifying mathematical framework of Representation equivalent Neural Operator (ReNO) to ensure operations at the continuous and discrete level are equivalent. Lack of this equivalence is quantified in terms of aliasing errors. We analyze various existing operator learning architectures to determine whether they fall within this framework, and highlight implications when they fail to do so. | 翻訳日:2023-06-01 16:04:14 公開日:2023-05-31 |
# ニューロンからグラフへ: 言語モデルニューロンを大規模に解釈する Neuron to Graph: Interpreting Language Model Neurons at Scale ( http://arxiv.org/abs/2305.19911v1 ) ライセンス: Link先を確認 | Alex Foote, Neel Nanda, Esben Kran, Ioannis Konstas, Shay Cohen, Fazl Barez | (参考訳) 大規模言語モデル(llm)の進歩は目覚ましい能力をもたらしたが、その内部メカニズムはほとんど分かっていない。
これらのモデルを理解するためには、個々のニューロンの機能とそのネットワークへの寄与を解明する必要がある。
本稿では、llm内の多数のニューロンにまたがる解釈可能性技術を拡張し、より解釈可能かつ究極的に安全なものにするための新しい自動アプローチを提案する。
従来の手法では、ニューロンが反応する概念を解読するために、強力なニューロン活性化の例とパターンの手動識別が必要となる。
学習したデータセットから自動的にニューロンの行動を抽出し、解釈可能なグラフに変換する革新的なツールであるneuron to graph (n2g)を提案する。
N2Gはトランケーション法とサリエンシ法を用いて、ニューロンに最も関連するトークンだけを強調する一方で、多様なサンプルでデータセットの例を豊かにし、ニューロンの行動の全スペクトルをよりよく包含する。
これらのグラフは、研究者の手動による解釈を支援するために可視化することができ、また、2つのベースライン法よりもニューロンの活性化を予測するのに優れていることを示すために、ニューロンの基底的真実活性化と比較することにより、テキスト上でトークンアクティベーションを自動検証するために生成することができる。
また, 生成したグラフ表現を柔軟に利用することにより, 解釈可能性研究のさらなる自動化, 特定の特性を持つニューロンの探索, あるいは類似したニューロンの同定に相互にプログラム的に比較する方法を示す。
提案手法は,Tesla T4 GPUを用いた6層トランスフォーマーモデルにおいて,全ニューロンのグラフ表現を容易に構築し,広いユーザビリティを実現する。
私たちはhttps://github.com/alexjfoote/Neuron2Graphで使用するコードと命令をリリースします。 Advances in Large Language Models (LLMs) have led to remarkable capabilities, yet their inner mechanisms remain largely unknown. To understand these models, we need to unravel the functions of individual neurons and their contribution to the network. This paper introduces a novel automated approach designed to scale interpretability techniques across a vast array of neurons within LLMs, to make them more interpretable and ultimately safe. Conventional methods require examination of examples with strong neuron activation and manual identification of patterns to decipher the concepts a neuron responds to. We propose Neuron to Graph (N2G), an innovative tool that automatically extracts a neuron's behaviour from the dataset it was trained on and translates it into an interpretable graph. N2G uses truncation and saliency methods to emphasise only the most pertinent tokens to a neuron while enriching dataset examples with diverse samples to better encompass the full spectrum of neuron behaviour. These graphs can be visualised to aid researchers' manual interpretation, and can generate token activations on text for automatic validation by comparison with the neuron's ground truth activations, which we use to show that the model is better at predicting neuron activation than two baseline methods. We also demonstrate how the generated graph representations can be flexibly used to facilitate further automation of interpretability research, by searching for neurons with particular properties, or programmatically comparing neurons to each other to identify similar neurons. Our method easily scales to build graph representations for all neurons in a 6-layer Transformer model using a single Tesla T4 GPU, allowing for wide usability. We release the code and instructions for use at https://github.com/alexjfoote/Neuron2Graph. | 翻訳日:2023-06-01 16:03:56 公開日:2023-05-31 |
# 変形性組織の高速4次元再構成のためのニューラルトラプレーン表現 Neural LerPlane Representations for Fast 4D Reconstruction of Deformable Tissues ( http://arxiv.org/abs/2305.19906v1 ) ライセンス: Link先を確認 | Chen Yang, Kailing Wang, Yuehao Wang, Xiaokang Yang, Wei Shen | (参考訳) ロボット手術における内視鏡的ステレオ映像からの変形性組織再構成は,様々な臨床応用に不可欠である。
しかしながら、暗黙的な表現のみに依存する既存の手法は計算コストが高く、数十時間を要するため、さらなる実用的応用が制限される。
この課題に対処するために,単一視点環境下での手術シーンの高速かつ正確な再構築手法であるLerPlaneを紹介した。
lerplaneは手術手順を4dボリュームとして扱い、それらを静的および動的フィールドの明示的な2d平面に分解し、コンパクトなメモリフットプリントと大幅な最適化に繋がる。
効率の良い因子分解は、各平面の線形補間により得られた特徴を融合することにより達成され、軽量ニューラルネットワークを用いて手術シーンをモデル化することができる。
さらに、LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
また,ツールオクルージョンと大きな動きを伴う領域における最適化と性能向上のための新しいサンプルスキームを提案する。
DaVinciのロボット手術ビデオの実験では、LerPlaneは様々な非剛性変形に対して高品質を維持しつつ、100ドル以上の最適化を加速し、将来の術中手術応用に有望であることが示された。 Reconstructing deformable tissues from endoscopic stereo videos in robotic surgery is crucial for various clinical applications. However, existing methods relying only on implicit representations are computationally expensive and require dozens of hours, which limits further practical applications. To address this challenge, we introduce LerPlane, a novel method for fast and accurate reconstruction of surgical scenes under a single-viewpoint setting. LerPlane treats surgical procedures as 4D volumes and factorizes them into explicit 2D planes of static and dynamic fields, leading to a compact memory footprint and significantly accelerated optimization. The efficient factorization is accomplished by fusing features obtained through linear interpolation of each plane and enables using lightweight neural networks to model surgical scenes. Besides, LerPlane shares static fields, significantly reducing the workload of dynamic tissue modeling. We also propose a novel sample scheme to boost optimization and improve performance in regions with tool occlusion and large motions. Experiments on DaVinci robotic surgery videos demonstrate that LerPlane accelerates optimization by over 100$\times$ while maintaining high quality across various non-rigid deformations, showing significant promise for future intraoperative surgery applications. | 翻訳日:2023-06-01 16:03:25 公開日:2023-05-31 |
# 言語モデルに木を植える方法:構文的帰納的バイアスの発生に対するデータと構造的影響 How to Plant Trees in Language Models: Data and Architectural Effects on the Emergence of Syntactic Inductive Biases ( http://arxiv.org/abs/2305.19905v1 ) ライセンス: Link先を確認 | Aaron Mueller, Tal Linzen | (参考訳) 正確な構文表現は、自然言語の堅牢な一般化に不可欠である。
最近の研究によると、事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴(誤った線形特徴ではなく)に依存するように言語モデルを教えることができる。
我々は,エンコーダ・デコーダ変換器に階層的構文一般化を好む帰納バイアスを付与する上で,事前学習のどの側面が重要であるかを検証する。
我々は,アーキテクチャ的特徴(深さ,幅,パラメータ数)と事前学習コーパスのジャンルとサイズに注目し,2つの構文変換タスク(質問生成と受動的化)を用いて帰納的バイアスを診断する。
パラメータの数だけでは階層的一般化を説明できない:モデル深さはモデル幅よりも大きな役割を果たす。
また、子ども向け音声などの単純な言語を事前学習することで、webテキストやwikipediaに基づくより一般的なデータセットを事前学習するよりも、桁違いに少ないデータを使用して階層的バイアスを生じさせることもわかった。 Accurate syntactic representations are essential for robust generalization in natural language. Recent work has found that pre-training can teach language models to rely on hierarchical syntactic features - as opposed to incorrect linear features - when performing tasks after fine-tuning. We test what aspects of pre-training are important for endowing encoder-decoder Transformers with an inductive bias that favors hierarchical syntactic generalizations. We focus on architectural features (depth, width, and number of parameters), as well as the genre and size of the pre-training corpus, diagnosing inductive biases using two syntactic transformation tasks: question formation and passivization, both in English. We find that the number of parameters alone does not explain hierarchical generalization: model depth plays greater role than model width. We also find that pre-training on simpler language, such as child-directed speech, induces a hierarchical bias using an order-of-magnitude less data than pre-training on more typical datasets based on web text or Wikipedia; this suggests that in cognitively plausible language acquisition settings, neural language models may be more data-efficient than previously thought. | 翻訳日:2023-06-01 16:03:02 公開日:2023-05-31 |
# 部分的因子埋め込み正規化によるGNNの表現性向上 Improving Expressivity of GNNs with Subgraph-specific Factor Embedded Normalization ( http://arxiv.org/abs/2305.19903v1 ) ライセンス: Link先を確認 | Kaixuan Chen and Shunyu Liu and Tongtian Zhu and Tongya Zheng and Haofei Zhang and Zunlei Feng and Jingwen Ye and Mingli Song | (参考訳) グラフニューラルネットワークー(gnns)は、グラフ構造化データを扱うための学習アーキテクチャの強力なカテゴリとして出現した。
しかし、既存のGNNはノードが引き起こす部分グラフにおいて重要な構造的特性を無視するため、様々な下流タスクに対する表現性が制限される。
本稿では,各ノードが引き起こす部分グラフ内の接続内情報を明示的に考慮した,専用プラグアンドプレイ正規化スキーム~\emph{\textbf{SU}bgraph-s\textbf{PE}cific Facto\textbf{R} Embedded Normalization}~(SuperNorm)を考案することによって,GNNの代表的機能を強化する。
この目的のために、標準BatchNormの開始と終了にサブグラフ固有の要素を埋め込むとともに、グラフインスタンス固有の統計データを組み込んで区別可能な機能を改善する。
一方、精巧化されたSuperNormでは、任意の GNN は非同型グラフを区別する 1-WL テストと同じくらい強力である。
さらに,提案したSuperNormスキームにより,過平滑化現象の緩和が図られた。
8つの人気データセットにおけるグラフ,ノード,リンク特性の予測に関する実験結果は,提案手法の有効性を示している。
コードは \url{https://github.com/chenchkx/supernorm} で入手できる。 Graph Neural Networks~(GNNs) have emerged as a powerful category of learning architecture for handling graph-structured data. However, existing GNNs typically ignore crucial structural characteristics in node-induced subgraphs, which thus limits their expressiveness for various downstream tasks. In this paper, we strive to strengthen the representative capabilities of GNNs by devising a dedicated plug-and-play normalization scheme, termed as~\emph{\textbf{SU}bgraph-s\textbf{PE}cific Facto\textbf{R} Embedded Normalization}~(SuperNorm), that explicitly considers the intra-connection information within each node-induced subgraph. To this end, we embed the subgraph-specific factor at the beginning and the end of the standard BatchNorm, as well as incorporate graph instance-specific statistics for improved distinguishable capabilities. In the meantime, we provide theoretical analysis to support that, with the elaborated SuperNorm, an arbitrary GNN is at least as powerful as the 1-WL test in distinguishing non-isomorphism graphs. Furthermore, the proposed SuperNorm scheme is also demonstrated to alleviate the over-smoothing phenomenon. Experimental results related to predictions of graph, node, and link properties on the eight popular datasets demonstrate the effectiveness of the proposed method. The code is available at \url{https://github.com/chenchkx/SuperNorm}. | 翻訳日:2023-06-01 16:02:43 公開日:2023-05-31 |
# aqe:quad-tagging augmented generative approachによる引数4重項抽出 AQE: Argument Quadruplet Extraction via a Quad-Tagging Augmented Generative Approach ( http://arxiv.org/abs/2305.19902v1 ) ライセンス: Link先を確認 | Jia Guo, Liying Cheng, Wenxuan Zhang, Stanley Kok, Xin Li, Lidong Bing | (参考訳) 引数マイニングには複数のサブタスクが含まれており、クレーム検出、エビデンス抽出、スタンス分類などの議論的要素を自動的に識別する。
しかし、各サブタスクだけでは議論的構造と推論過程の徹底的な理解には不十分である。
議論エッセイの完全な見解を学び、議論的要素間の相互依存を捉えるためには、人々が持つ意見(すなわち、クレーム)、これらの意見がなぜ有効なのか(つまり証拠を支持する)、証拠の出所(すなわち証拠タイプ)、そしてそれらの主張が議論の主題(すなわちスタンス)にどう反応するかを知る必要がある。
本研究では,4つの議論的成分,すなわちクレーム,エビデンス,エビデンス,スタンスをオールインワンで抽出できる,挑戦的な議論四重項抽出タスク(AQE)を提案する。
このタスクをサポートするために、大規模で挑戦的なデータセットを構築します。
しかし、引数の四重項抽出を解決できる既存の方法は存在しない。
このギャップを埋めるために,4重タギングモジュールを用いて生成フレームワークのトレーニングを強化する,新たな4重タグ拡張生成手法を提案する。
実験結果から,提案手法が複数の強基線に対して有意な優越性を示した。 Argument mining involves multiple sub-tasks that automatically identify argumentative elements, such as claim detection, evidence extraction, stance classification, etc. However, each subtask alone is insufficient for a thorough understanding of the argumentative structure and reasoning process. To learn a complete view of an argument essay and capture the interdependence among argumentative components, we need to know what opinions people hold (i.e., claims), why those opinions are valid (i.e., supporting evidence), which source the evidence comes from (i.e., evidence type), and how those claims react to the debating topic (i.e., stance). In this work, we for the first time propose a challenging argument quadruplet extraction task (AQE), which can provide an all-in-one extraction of four argumentative components, i.e., claims, evidence, evidence types, and stances. To support this task, we construct a large-scale and challenging dataset. However, there is no existing method that can solve the argument quadruplet extraction. To fill this gap, we propose a novel quad-tagging augmented generative approach, which leverages a quadruplet tagging module to augment the training of the generative framework. The experimental results on our dataset demonstrate the empirical superiority of our proposed approach over several strong baselines. | 翻訳日:2023-06-01 16:02:16 公開日:2023-05-31 |
# Jackknife+再スケールスコアによる適応的コンフォーマル回帰 Adaptive Conformal Regression with Jackknife+ Rescaled Scores ( http://arxiv.org/abs/2305.19901v1 ) ライセンス: Link先を確認 | Nicolas Deutschmann, Mattia Rigotti, Maria Rodriguez Martinez | (参考訳) コンフォーマル回帰は、グローバルなカバレッジ保証を伴う予測間隔を提供するが、しばしば局所的なエラー分布をキャプチャできず、非均一なカバレッジにつながる。
jackknife+法にインスパイアされた局所スコア分布の推定による適合スコアの再スケーリングに基づく新しい適応的スコア法により,キャリブレーション-テスト交換性を損なうことなく適合スコアにおけるキャリブレーションデータの使用を可能にする。
本手法は,グローバルカバレッジを保証し,キャリブレーションスコアにバウンドする事を含む,ローカルカバレッジに関する新たな理論結果によって支持される。
本手法の強みは, キャリブレーションセットサイズを犠牲にすることなく, 局所カバレッジを実現することであり, 各種設定における共形予測間隔の適用性を向上させることにある。
その結果,本手法は従来の手法,特に低データ体制よりも優れた予測間隔を提供し,低サンプルデータにもかかわらず不確実性を正確に定量化する必要がある医療やバイオメディカルドメインなどの現実の応用に特に関係している。 Conformal regression provides prediction intervals with global coverage guarantees, but often fails to capture local error distributions, leading to non-homogeneous coverage. We address this with a new adaptive method based on rescaling conformal scores with an estimate of local score distribution, inspired by the Jackknife+ method, which enables the use of calibration data in conformal scores without breaking calibration-test exchangeability. Our approach ensures formal global coverage guarantees and is supported by new theoretical results on local coverage, including an a posteriori bound on any calibration score. The strength of our approach lies in achieving local coverage without sacrificing calibration set size, improving the applicability of conformal prediction intervals in various settings. As a result, our method provides prediction intervals that outperform previous methods, particularly in the low-data regime, making it especially relevant for real-world applications such as healthcare and biomedical domains where uncertainty needs to be quantified accurately despite low sample data. | 翻訳日:2023-06-01 16:01:51 公開日:2023-05-31 |
# fpgaHART: HAR用3D CNNのFPGAへのスループット指向のアクセラレーションのためのツールフロー fpgaHART: A toolflow for throughput-oriented acceleration of 3D CNNs for HAR onto FPGAs ( http://arxiv.org/abs/2305.19896v1 ) ライセンス: Link先を確認 | Petros Toupas, Christos-Savvas Bouganis, Dimitrios Tzovaras | (参考訳) サーベイランスシステム、自動運転車、人間の監視システム、ビデオ検索は、3D畳み込みニューラルネットワークを利用する多くのアプリケーションの中でごくわずかである。
しかし、その広範な使用は、特にリソースの少ないシステムに統合された場合、高い計算能力とメモリ要件によって制限される。
本研究では,fpgaのリソースとオフチップメモリ特性を考慮した3次元cnnモデルのfpgaデバイスへのマッピングを最適化するツールフローを提案する。
提案システムでは,SDFグラフを用いて設計をモデル化し,設計空間の拡張と探索を行う変換を導入し,高スループット設計を実現する。
複数のfpgaデバイスで提案したツールフローを用いて様々な3d cnnモデルを評価し、従来のハンドチューニングやモデル固有の設計と比較して競合性能を提供する可能性を示した。 Surveillance systems, autonomous vehicles, human monitoring systems, and video retrieval are just few of the many applications in which 3D Convolutional Neural Networks are exploited. However, their extensive use is restricted by their high computational and memory requirements, especially when integrated into systems with limited resources. This study proposes a toolflow that optimises the mapping of 3D CNN models for Human Action Recognition onto FPGA devices, taking into account FPGA resources and off-chip memory characteristics. The proposed system employs Synchronous Dataflow (SDF) graphs to model the designs and introduces transformations to expand and explore the design space, resulting in high-throughput designs. A variety of 3D CNN models were evaluated using the proposed toolflow on multiple FPGA devices, demonstrating its potential to deliver competitive performance compared to earlier hand-tuned and model-specific designs. | 翻訳日:2023-06-01 16:01:30 公開日:2023-05-31 |
# Med-UniC: バイアを駆使した言語横断型医療ビジョン学習 Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by Diminishing Bias ( http://arxiv.org/abs/2305.19894v1 ) ライセンス: Link先を確認 | Zhongwei Wan, Che Liu, Mi Zhang, Jie Fu, Benyou Wang, Sibo Cheng, Lei Ma, C\'esar Quilodr\'an-Casas, Rossella Arcucci | (参考訳) データ不足は、医用視覚言語事前訓練(VLP)の有効性にとって重要な障害となる。
潜在的な解決策は、さまざまな言語コミュニティのデータセットの組み合わせにある。
それにもかかわらず、主な課題は、多様な構文と意味論、言語固有の医学用語、文化固有の暗黙の知識を統合する複雑さにある。
したがって、考慮すべき重要な側面は、異なる言語によって引き起こされるコミュニティバイアスの存在である。
本稿では、英語とスペイン語の2言語で広く使われているマルチモーダル医療データを統合するために、Unifying Cross-Lingual Medical Vision-Language Pre-Training(Med-UniC)という新しいフレームワークを提案する。
具体的には、多言語コミュニティに由来する医療報告の言語間セマンティックな表現を明確に統一するために、言語間テキストアライメント規則化(CTR)を提案する。
CTRは潜時言語不整合により最適化され, 最適化対象は陰性標本に依存しないよう最適化され, 類似医療報告における正負サンプル対の決定からバイアスを著しく軽減する。
さらに、言語間の表現が特定の言語コミュニティに偏らないことを保証する。
Med-UniCは、5つの医療画像タスクと30以上の疾患を含む10のデータセットで優れたパフォーマンスを達成し、多様な言語コミュニティ内でマルチモーダル医療データを統一するための汎用的なフレームワークを提供する。
実験結果は、言語間VLPにおけるコミュニティバイアスの存在を強調している。
このバイアスを減らすことで、視覚言語タスクだけでなく、一様視覚タスクでもパフォーマンスが向上する。 The scarcity of data presents a critical obstacle to the efficacy of medical visionlanguage pre-training (VLP). A potential solution lies in the combination of datasets from various language communities. Nevertheless, the main challenge stems from the complexity of integrating diverse syntax and semantics, language-specific medical terminology, and culture-specific implicit knowledge. Therefore, one crucial aspect to consider is the presence of community bias caused by different languages. This paper presents a novel framework named Unifying Cross-Lingual Medical Vision-Language Pre-Training (Med-UniC), designed to integrate multimodal medical data from the two most prevalent languages, English and Spanish. Specifically, we propose Cross-lingual Text Alignment Regularization (CTR) to explicitly unify cross-lingual semantic representations of medical reports originating from diverse language communities. CTR is optimized through latent language disentanglement, rendering our optimization objective to not depend on negative samples, thereby significantly mitigating the bias from determining positive-negative sample pairs within analogous medical reports. Furthermore, it ensures that the cross-lingual representation is not biased toward any specific language community. Med-UniC reaches superior performance across 5 medical image tasks and 10 datasets encompassing over 30 diseases, offering a versatile framework for unifying multi-modal medical data within diverse linguistic communities. The experimental outcomes highlight the presence of community bias in cross-lingual VLP. Reducing this bias enhances the performance not only in vision-language tasks but also in uni-modal visual tasks. | 翻訳日:2023-06-01 16:01:15 公開日:2023-05-31 |
# 動的近傍構築による大規模離散行動空間の扱い Handling Large Discrete Action Spaces via Dynamic Neighborhood Construction ( http://arxiv.org/abs/2305.19891v1 ) ライセンス: Link先を確認 | Fabian Akkerman, Julius Luy, Wouter van Heeswijk, Maximilian Schiffer | (参考訳) 大規模離散的な行動空間は、強化学習法の中心的な課題である。
このような空間は、例えばレコメンダシステム、多段階計画、在庫補充など、現実世界の多くのアプリケーションで遭遇する。
連続プロキシの離散アクションへのマッピングは、大きな離散アクション空間を扱うための有望なパラダイムである。
既存の連続から離散へのマッピングアプローチでは、静的に事前定義された近傍で個別に隣接したアクションを探索する。
したがって、スケーラビリティの問題は継続する。
この欠点を軽減するために,動的近傍構築法 (DNC) を提案する。この手法は離散近傍を動的に構築し,連続的なプロキシをマッピングし,基礎となる行動空間を効率的に活用する。
3つの異なる環境にまたがる大規模離散的行動空間のために設計された最先端の3つのアプローチに対して,本手法のロバスト性を示す。
以上の結果から,dncは計算効率が向上しつつ,最先端の手法に匹敵することを示した。
さらに,本手法は,既存の手法では計算的に難解な動作空間にスケールする。 Large discrete action spaces remain a central challenge for reinforcement learning methods. Such spaces are encountered in many real-world applications, e.g., recommender systems, multi-step planning, and inventory replenishment. The mapping of continuous proxies to discrete actions is a promising paradigm for handling large discrete action spaces. Existing continuous-to-discrete mapping approaches involve searching for discrete neighboring actions in a static pre-defined neighborhood, which requires discrete neighbor lookups across the entire action space. Hence, scalability issues persist. To mitigate this drawback, we propose a novel Dynamic Neighborhood Construction (DNC) method, which dynamically constructs a discrete neighborhood to map the continuous proxy, thus efficiently exploiting the underlying action space. We demonstrate the robustness of our method by benchmarking it against three state-of-the-art approaches designed for large discrete action spaces across three different environments. Our results show that DNC matches or outperforms state-of-the-art approaches while being more computationally efficient. Furthermore, our method scales to action spaces that so far remained computationally intractable for existing methodologies. | 翻訳日:2023-06-01 16:00:48 公開日:2023-05-31 |
# ニューラルネットワークによる1ビットの通信による絡み合った状態のシミュレーション Neural Network Approach to the Simulation of Entangled States with One Bit of Communication ( http://arxiv.org/abs/2305.19935v1 ) ライセンス: Link先を確認 | Peter Sidajaya, Aloysius Dewen Lim, Baichu Yu, Valerio Scarani | (参考訳) ベルの定理は、局所隠れ変数(LHV)は、いくつかの絡み合った量子状態における測定の統計を十分に説明できないと述べている。
それらをシミュレートするのに、どの程度追加的な古典的コミュニケーションが必要か尋ねるのは自然です。
本研究では,ニューラルネットワークシミュレーションやその他のツールを用いて,この分野における2つの長年のオープン質問について検討する。
まず, 部分的絡み合った2量子ビット状態における全ての射影的測定は, 1ビットの通信しか必要としないことを示す。
我々は、正確な量子挙動とトレーニングされたネットワークの積、あるいはそれに触発された半解析モデルの間の統計的距離を定量化する。
第二に、一ビットの通信が最終的に全ての二部量子相関を再現できないという一般的な根拠(そして明らかな)で知られているが、明示的な例は回避可能である。
我々の検索は、最大5つの入力と4つの出力を持つ2部ベルシナリオの1つを見つけられず、量子相関の再現における1ビットの通信のパワーを強調した。 Bell's theorem states that Local Hidden Variables (LHVs) cannot fully explain the statistics of measurements on some entangled quantum states. It is natural to ask how much supplementary classical communication would be needed to simulate them. We study two long-standing open questions in this field with neural network simulations and other tools. First, we present evidence that all projective measurements on partially entangled pure two-qubit states require only one bit of communication. We quantify the statistical distance between the exact quantum behaviour and the product of the trained network, or of a semianalytical model inspired by it. Second, while it is known on general grounds (and obvious) that one bit of communication cannot eventually reproduce all bipartite quantum correlation, explicit examples have proved evasive. Our search failed find one for several bipartite Bell scenarios with up to 5 inputs and 4 outputs, highlighting the power of one bit of communication in reproducing quantum correlations. | 翻訳日:2023-06-01 15:53:20 公開日:2023-05-31 |
# 聞き手の言葉--プラグ・アンド・プレイ・マインド理論によるオーディエンスを意識した適応 Speaking the Language of Your Listener: Audience-Aware Adaptation via Plug-and-Play Theory of Mind ( http://arxiv.org/abs/2305.19933v1 ) ライセンス: Link先を確認 | Ece Takmaz, Nicolo' Brandizzi, Mario Giulianelli, Sandro Pezzelle, Raquel Fern\'andez | (参考訳) 対話参加者は、議論中のトピックについて様々なレベルの知識を持つことができる。
このような場合、話者はオーディエンスを考慮し、自分の発話に適応することが不可欠である。
しかし、そのような適応が計算エージェントでどのようにモデル化されるかは疑問である。
本稿では,より限定的な視覚的・言語的経験を持つ話者と聞き手との視覚的接地型参照ゲームをモデル化する。
心理言語学的な理論に触発された話者は、聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを通して参照表現を適応できる能力を持つ。
制御言語生成のためのプラグイン・アンド・プレイ方式に基づく適応機構を提案し、話者の基盤となる言語モデルを微調整することなく、シミュレータによって発話生成を高速に制御する。
結果と分析の結果,話者の発話は聞き手の専門知識の領域に近くなり,コミュニケーションの成功に繋がる,というアプローチが有効であることがわかった。 Dialogue participants may have varying levels of knowledge about the topic under discussion. In such cases, it is essential for speakers to adapt their utterances by taking their audience into account. Yet, it is an open question how such adaptation can be modelled in computational agents. In this paper, we model a visually grounded referential game between a knowledgeable speaker and a listener with more limited visual and linguistic experience. Inspired by psycholinguistic theories, we endow our speaker with the ability to adapt its referring expressions via a simulation module that monitors the effectiveness of planned utterances from the listener's perspective. We propose an adaptation mechanism building on plug-and-play approaches to controlled language generation, where utterance generation is steered on the fly by the simulator without finetuning the speaker's underlying language model. Our results and analyses show that our approach is effective: the speaker's utterances become closer to the listener's domain of expertise, which leads to higher communicative success. | 翻訳日:2023-06-01 15:52:48 公開日:2023-05-31 |
# シーケンスラベリングのためのグローバルコンテキスト機構 A Global Context Mechanism for Sequence Labeling ( http://arxiv.org/abs/2305.19928v1 ) ライセンス: Link先を確認 | Conglei Xu, Kun Shen, Hongguang Sun | (参考訳) 逐次ラベリングタスクは、与えられた文内の各単語に対する文表現の計算を必要とする。
先進的な事前訓練言語モデルの出現に伴い、ある一般的なアプローチは、出力レベルでシーケンス構造情報を強化するためにBiLSTM層を統合することである。
それにもかかわらず、シーケンスラベリングタスクのための文表現を生成するBiLSTMのポテンシャルは、主に過去と将来の文表現の融合によって完全な文表現を形成することが実証されている(P.-H. Li et al., 2020)。
本研究では,BiLSTMの第1細胞と第2細胞に存在する全文表現をエカセルの文表現に戦略的に統合することで,F1のスコアと精度を著しく向上させることを発見した。
BiLSTM内に埋め込まれたBERTを図示として、名前付きエンティティ認識(NER)、音声認識(POS)タグ付け、エンド・ツー・エンドのアスペクトベース感情分析(E2E-ABSA)を含む、シーケンスラベリングタスクの9つのデータセットで徹底的な実験を行った。
F1スコアの大幅な改善と,全調査データセットの精度向上に留意した。 Sequential labeling tasks necessitate the computation of sentence representations for each word within a given sentence. With the advent of advanced pretrained language models; one common approach involves incorporating a BiLSTM layer to bolster the sequence structure information at the output level. Nevertheless, it has been empirically demonstrated (P.-H. Li et al., 2020) that the potential of BiLSTM for generating sentence representations for sequence labeling tasks is constrained, primarily due to the amalgamation of fragments form past and future sentence representations to form a complete sentence representation. In this study, we discovered that strategically integrating the whole sentence representation, which existing in the first cell and last cell of BiLSTM, into sentence representation of ecah cell, could markedly enhance the F1 score and accuracy. Using BERT embedded within BiLSTM as illustration, we conducted exhaustive experiments on nine datasets for sequence labeling tasks, encompassing named entity recognition (NER), part of speech (POS) tagging and End-to-End Aspect-Based sentiment analysis (E2E-ABSA). We noted significant improvements in F1 scores and accuracy across all examined datasets . | 翻訳日:2023-06-01 15:52:32 公開日:2023-05-31 |
# ChatGPT an ENFJ, Bard an ISTJ: 大規模言語モデルの個性に関する実証的研究 ChatGPT an ENFJ, Bard an ISTJ: Empirical Study on Personalities of Large Language Models ( http://arxiv.org/abs/2305.19926v1 ) ライセンス: Link先を確認 | Jen-tse Huang, Wenxuan Wang, Man Ho Lam, Eric John Li, Wenxiang Jiao, Michael R. Lyu | (参考訳) 大規模言語モデル(llm)は人工知能の分野で著しく進歩し、人間とコンピュータの相互作用を大きく変えた。
我々は, LLMの性能だけでなく, 心理的観点から, 行動特性を理解することの重要性を認識し, 特徴を探求する。
本研究では, LLMが提示する行動パターンを, 心理的枠組みである特性理論を用いて検討した。
まず、chatgptが提示するパーソナリティタイプの一貫性を評価することに焦点を当てる。
さらに、他の7つの言語に対する言語間効果や、他の4つのLLMの調査も含まれる。
さらに,ChatGPTが指示や文脈的手がかりに応答して性格変化を示すことができるかどうかを検討した。
その結果,ChatGPTは指示や文脈によらず,常にENFJの性格を維持していることがわかった。
llmのパーソナライズに光を当てることで,本研究がこの分野におけるさらなる研究の触媒となることを期待する。 Large Language Models (LLMs) have made remarkable advancements in the field of artificial intelligence, significantly reshaping the human-computer interaction. We not only focus on the performance of LLMs, but also explores their features from a psychological perspective, acknowledging the importance of understanding their behavioral characteristics. Our study examines the behavioral patterns displayed by LLMs by employing trait theory, a psychological framework. We first focus on evaluating the consistency of personality types exhibited by ChatGPT. Furthermore, experiments include cross-lingual effects on seven additional languages, and the investigation of four other LLMs. Moreover, the study investigates whether ChatGPT can exhibit personality changes in response to instructions or contextual cues. The findings show that ChatGPT consistently maintains its ENFJ personality regardless of instructions or contexts. By shedding light on the personalization of LLMs, we anticipate that our study will serve as a catalyst for further research in this field. | 翻訳日:2023-06-01 15:52:09 公開日:2023-05-31 |
# 画像言語学習のための共同適応表現 Joint Adaptive Representations for Image-Language Learning ( http://arxiv.org/abs/2305.19924v1 ) ライセンス: Link先を確認 | AJ Piergiovanni and Anelia Angelova | (参考訳) 画像言語学習は視覚的理解において前例のない進歩を遂げた。
現代の視覚言語モデルは大規模なモデルスケールと大量のデータを必要とするため、これらの開発はコストが高い。
ここでは、画像言語学習のより簡単なレシピを提案し、効果的モデルを生成し、より大きくて高価なものより優れ、しばしば桁違いに大きなデータセットで訓練される。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
これにより、一般的な画像言語モデルで使用されるベースライン融合技術に比べて、テキストと画像のトークン数を33\%削減するなど、テキストと画像のトークン数を組み合わせることで、フロップを大幅に削減する、より効果的な画像言語学習が可能になる。
これにより、FLOPやメモリを大きく増やすことなくモデルをスケールすることができる。
さらに,データ効率を向上させる適応型事前学習データサンプリングを提案する。
提案手法は,より大規模なモデルと比較して競争性能が向上し,データとFLOPが大幅に減少する。
わずか40万のトレーニングサンプルと39gflopsの軽量モデルでは、最先端モデルの数倍の2~20倍のフロップと、1bのトレーニングサンプルを持つ大きなデータセットを使用しています。 Image-language learning has made unprecedented progress in visual understanding. These developments have come at high costs, as contemporary vision-language models require large model scales and amounts of data. We here propose a much easier recipe for image-language learning, which produces effective models, outperforming bigger and more expensive ones, often trained on orders of magnitude larger datasets. Our key finding is the joint learning of a compact vision and language representation, which adaptively and iteratively fuses the multi-modal features. This results in a more effective image-language learning, greatly lowering the FLOPs by combining and reducing the number of tokens for both text and images, e.g. a 33\% reduction in FLOPs is achieved, compared to baseline fusion techniques used by popular image-language models, while improving performance. This also allows the model to scale without a large increase in FLOPs or memory. In addition, we propose adaptive pre-training data sampling which improves the data efficiency. The proposed approach achieves competitive performance compared to much larger models, and does so with significantly less data and FLOPs. With only 40M training examples and with 39 GFLOPs our lightweight model outperforms many times larger state-of-the-art models of 2-20x more FLOPs and using bigger datasets some of which with close to 1B training examples. | 翻訳日:2023-06-01 15:51:54 公開日:2023-05-31 |
# MetaDiffuser: オフラインメタRLの条件プランナとしての拡散モデル MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL ( http://arxiv.org/abs/2305.19923v1 ) ライセンス: Link先を確認 | Fei Ni, Jianye Hao, Yao Mu, Yifu Yuan, Yan Zheng, Bin Wang, Zhixuan Liang | (参考訳) 近年,オフライン強化学習(RL)におけるシーケンスモデリングパラダイムのバックボーンとして,拡散モデルが注目されている。
しかし、これらは報酬やダイナミクスの変化を伴うタスク間の一般化能力に欠ける。
そこで本稿では,一般化問題を文脈表現を伴う条件付き軌道生成タスクとみなす,オフラインメタRL(MetaDiffuser)のためのタスク指向条件付き拡散プランナを提案する。
鍵となるのは、様々なタスクを計画するためのタスク指向の軌道を生成するコンテキスト条件付き拡散モデルを学ぶことである。
さらに, 拡散モデルのサンプリング過程において, 軌道の動的整合性を向上し, 軌道の高利得を奨励し, 二重誘導モジュールを設計する。
提案するフレームワークは、テストタスクから収集したウォームスタートデータの品質と、異なるタスク表現メソッドを組み込む柔軟性に対する堅牢性を享受する。
MuJoCoベンチマーク実験の結果、MetaDiffuserは他の強力なオフラインメタRLベースラインよりも優れており、拡散アーキテクチャの優れた条件生成能力を示している。 Recently, diffusion model shines as a promising backbone for the sequence modeling paradigm in offline reinforcement learning(RL). However, these works mostly lack the generalization ability across tasks with reward or dynamics change. To tackle this challenge, in this paper we propose a task-oriented conditioned diffusion planner for offline meta-RL(MetaDiffuser), which considers the generalization problem as conditional trajectory generation task with contextual representation. The key is to learn a context conditioned diffusion model which can generate task-oriented trajectories for planning across diverse tasks. To enhance the dynamics consistency of the generated trajectories while encouraging trajectories to achieve high returns, we further design a dual-guided module in the sampling process of the diffusion model. The proposed framework enjoys the robustness to the quality of collected warm-start data from the testing task and the flexibility to incorporate with different task representation method. The experiment results on MuJoCo benchmarks show that MetaDiffuser outperforms other strong offline meta-RL baselines, demonstrating the outstanding conditional generation ability of diffusion architecture. | 翻訳日:2023-06-01 15:51:30 公開日:2023-05-31 |
# 表現駆動強化学習 Representation-Driven Reinforcement Learning ( http://arxiv.org/abs/2305.19922v1 ) ライセンス: Link先を確認 | Ofir Nabati, Guy Tennenholtz and Shie Mannor | (参考訳) 強化学習のための表現駆動型フレームワークを提案する。
ポリシを期待値の推定値として表現することで、コンテキストバンディットのテクニックを活用して、探索と搾取をガイドします。
特に、ポリシーネットワークを線形な特徴空間に埋め込むことで、適切なポリシー表現が最適な探索を可能にする表現探索問題として探索探索問題を再構築することができる。
我々は,このフレームワークを進化的および政策的勾配に基づくアプローチに適用することにより,従来の手法に比べて大幅に性能が向上することを示す。
本フレームワークは, 最適探査・探索戦略決定における政策表現の重要性を強調し, 強化学習の新しい視点を提供する。 We present a representation-driven framework for reinforcement learning. By representing policies as estimates of their expected values, we leverage techniques from contextual bandits to guide exploration and exploitation. Particularly, embedding a policy network into a linear feature space allows us to reframe the exploration-exploitation problem as a representation-exploitation problem, where good policy representations enable optimal exploration. We demonstrate the effectiveness of this framework through its application to evolutionary and policy gradient-based approaches, leading to significantly improved performance compared to traditional methods. Our framework provides a new perspective on reinforcement learning, highlighting the importance of policy representation in determining optimal exploration-exploitation strategies. | 翻訳日:2023-06-01 15:51:10 公開日:2023-05-31 |
# MSKdeX:筋骨格(MSK)のX線像からの分解による筋量および筋容積の微粒化評価 MSKdeX: Musculoskeletal (MSK) decomposition from an X-ray image for fine-grained estimation of lean muscle mass and muscle volume ( http://arxiv.org/abs/2305.19920v1 ) ライセンス: Link先を確認 | Yi Gu, Yoshito Otake, Keisuke Uemura, Masaki Takao, Mazen Soufi, Yuta Hiasa, Hugues Talbot, Seiji Okata, Nobuhiko Sugano, Yoshinobu Sato | (参考訳) サルコペンタニアやオステオポローシスなどの筋骨格疾患は加齢に伴う健康への大きな障害である。
dxa (d-energy x-ray absorptiometry) とct (ct) は筋骨格状態の評価に使用できるが、コストやアクセシビリティ(ctでは高放射線曝露)のため、頻繁な監視は困難である。
我々は,ctの細粒化を利用した筋骨格の分解を通じて,単純x線画像,低コスト,低放射能,高可視性から細粒度の筋特性を推定する手法(mskdex)を提案する。
本研究では,マルチチャネル定量的画像変換モデルを訓練し,x線像を個々の筋のct像に分解し,筋量と筋容積を推定する。
本研究は,同じ患者から収集したct画像とx線画像の情報を活用し,筋変形と投射方向に対する単純かつ驚くほど有効な測定値である物体方向強度-サム損失を提案する。
本手法は基本的に不対画像変換であるが, 骨の剛性も活用し, 2次元3次元剛性登録によるデータ提供を行い, アンペアトレーニングにおける画素単位の強い監督を行う。
539例の患者データを用いた評価により,提案法が従来の方法を大きく上回ることを示した。
予測値とct由来の基底真理指標の平均ピアソン相関係数は0.460から0.863に増加した。
本手法は,新しい筋骨格診断法を開拓し,多チャンネル定量的画像翻訳タスクに広く応用できる可能性が示唆された。
ソースコードはもうすぐリリースされます。 Musculoskeletal diseases such as sarcopenia and osteoporosis are major obstacles to health during aging. Although dual-energy X-ray absorptiometry (DXA) and computed tomography (CT) can be used to evaluate musculoskeletal conditions, frequent monitoring is difficult due to the cost and accessibility (as well as high radiation exposure in the case of CT). We propose a method (named MSKdeX) to estimate fine-grained muscle properties from a plain X-ray image, a low-cost, low-radiation, and highly accessible imaging modality, through musculoskeletal decomposition leveraging fine-grained segmentation in CT. We train a multi-channel quantitative image translation model to decompose an X-ray image into projections of CT of individual muscles to infer the lean muscle mass and muscle volume. We propose the object-wise intensity-sum loss, a simple yet surprisingly effective metric invariant to muscle deformation and projection direction, utilizing information in CT and X-ray images collected from the same patient. While our method is basically an unpaired image-to-image translation, we also exploit the nature of the bone's rigidity, which provides the paired data through 2D-3D rigid registration, adding strong pixel-wise supervision in unpaired training. Through the evaluation using a 539-patient dataset, we showed that the proposed method significantly outperformed conventional methods. The average Pearson correlation coefficient between the predicted and CT-derived ground truth metrics was increased from 0.460 to 0.863. We believe our method opened up a new musculoskeletal diagnosis method and has the potential to be extended to broader applications in multi-channel quantitative image translation tasks. Our source code will be released soon. | 翻訳日:2023-06-01 15:50:58 公開日:2023-05-31 |
# マトロイドのフルダイナミックサブモジュラー最大化 Fully Dynamic Submodular Maximization over Matroids ( http://arxiv.org/abs/2305.19918v1 ) ライセンス: Link先を確認 | Paul D\"utting, Federico Fusco, Silvio Lattanzi, Ashkan Norouzi-Fard, Morteza Zadimoghaddam | (参考訳) マトロイド制約の下で単調な部分モジュラー関数を最大化することは、データマイニングと機械学習に複数の応用がある古典的なアルゴリズム問題である。
この古典的な問題を、要素をリアルタイムで挿入・削除できる完全にダイナミックな設定で検討する。
我々の主な結果は、$\tilde{O}(k^2)$の償却更新時間(加算数と削除数)で効率的なデータ構造を維持し、$k$がマトロイドのランクである4ドルの近似解を生成するランダム化アルゴリズムである。 Maximizing monotone submodular functions under a matroid constraint is a classic algorithmic problem with multiple applications in data mining and machine learning. We study this classic problem in the fully dynamic setting, where elements can be both inserted and deleted in real-time. Our main result is a randomized algorithm that maintains an efficient data structure with an $\tilde{O}(k^2)$ amortized update time (in the number of additions and deletions) and yields a $4$-approximate solution, where $k$ is the rank of the matroid. | 翻訳日:2023-06-01 15:50:25 公開日:2023-05-31 |
# ソースコードモデルのためのデータ拡張アプローチ:調査 Data Augmentation Approaches for Source Code Models: A Survey ( http://arxiv.org/abs/2305.19915v1 ) ライセンス: Link先を確認 | Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li, Xiaoning Du, Zhenchang Xing, David Lo | (参考訳) 多くの重要なタスクにおけるソースコードの採用が増加し、トレーニングデータを強化し、これらのモデルの様々な機能(堅牢性や一般化可能性)を改善するためのデータ拡張(DA)技術の開発が動機となっている。
一連のdaメソッドが提案され、ソースコードモデル用に調整されているが、その効果と影響を理解するための包括的な調査と調査が欠けている。
本稿では,既存の文献を体系的にコンパイル・カプセル化し,その分野の包括的概要を提供するため,ソースコードのデータ拡張に関する包括的かつ統合的な調査を行うことで,このギャップを埋める。
まず、ソースコードモデルモデルアプローチのためのDAの分類を構築し、続いて、著名な方法論的実証的アプローチについて議論する。
次に、da品質を最適化するための一般的な戦略とテクニックを紹介します。
その後、広く受け入れられたソースコードのシナリオやダウンストリームタスクで有用性を見出す手法の基盤となる。
最後に,今後の研究の課題と可能性について概説する。
本論文は, ソースコードモデルのための既存のda文献のコーパスを非神秘化し, この領域におけるさらなる探索を促進することを目的としている。
補完として、ソースコードモデルに関するDAの更新最新文書のリストをホストする、継続的に更新されたGitHubレポジトリを、 \url{https://github.com/terryyz/DataAug4Code}で公開します。 The increasingly popular adoption of source code in many critical tasks motivates the development of data augmentation (DA) techniques to enhance training data and improve various capabilities (e.g., robustness and generalizability) of these models. Although a series of DA methods have been proposed and tailored for source code models, there lacks a comprehensive survey and examination to understand their effectiveness and implications. This paper fills this gap by conducting a comprehensive and integrative survey of data augmentation for source code, wherein we systematically compile and encapsulate existing literature to provide a comprehensive overview of the field. We start by constructing a taxonomy of DA for source code models model approaches, followed by a discussion on prominent, methodologically illustrative approaches. Next, we highlight the general strategies and techniques to optimize the DA quality. Subsequently, we underscore techniques that find utility in widely-accepted source code scenarios and downstream tasks. Finally, we outline the prevailing challenges and potential opportunities for future research. In essence, this paper endeavors to demystify the corpus of existing literature on DA for source code models, and foster further exploration in this sphere. Complementing this, we present a continually updated GitHub repository that hosts a list of update-to-date papers on DA for source code models, accessible at \url{https://github.com/terryyz/DataAug4Code}. | 翻訳日:2023-06-01 15:50:13 公開日:2023-05-31 |
# MicroSegNet: マイクロ超音波画像における前立腺分割の深層学習手法 MicroSegNet: A Deep Learning Approach for Prostate Segmentation on Micro-Ultrasound Images ( http://arxiv.org/abs/2305.19956v1 ) ライセンス: Link先を確認 | Hongxu Jiang, Muhammad Imran, Preethika Muralidharan, Anjali Patel, Jake Pensa, Muxuan Liang, Tarik Benidir, Joseph R. Grajo, Jason P. Joseph, Russell Terry, John Michael DiBianco, Li-Ming Su, Yuyin Zhou, Wayne G. Brisbane, and Wei Shao | (参考訳) マイクロ超音波(micro-US)は、従来の超音波の3.4倍の高解像度の29MHz超音波技術であり、MRIによる前立腺がんの診断に匹敵する精度を提供するが、低コストである。
正確な前立腺分画は前立腺体積測定、がん診断、前立腺生検、治療計画に不可欠である。
本稿では,マイクロus画像の自動的,高速,高精度な前立腺セグメンテーションのための深層学習手法を提案する。
前立腺と膀胱と尿道の境界が正中線にあるため、ミクロUSにおける前立腺のセグメンテーションは困難である。
本稿では,マルチスケールアノテーション誘導トランスフォーマ unet モデルである microsegnet について紹介する。
トレーニングプロセスでは、microsegnetは、専門家と非専門家のアノテーションが不一致を示す、セグメント化(分割)が難しい領域にフォーカスしている。
本研究では, ハード領域の画素に重みを割り当て, 容易領域の画素に低重みを割り当てるアノテーション誘導型クロスエントロピー損失を提案する。
55例のmicro-US画像を用いてモデルを訓練し,20例の評価を行った。
我々のMicroSegNetモデルでは、Dice係数0.942とHausdorff距離2.11mmを達成し、いくつかの最先端セグメンテーション法と、異なる経験レベルの3つのアノテータを上回りました。
コードとデータセットを公開して、研究における透明性とコラボレーションを促進するつもりです。 Micro-ultrasound (micro-US) is a novel 29-MHz ultrasound technique that provides 3-4 times higher resolution than traditional ultrasound, delivering comparable accuracy for diagnosing prostate cancer to MRI but at a lower cost. Accurate prostate segmentation is crucial for prostate volume measurement, cancer diagnosis, prostate biopsy, and treatment planning. This paper proposes a deep learning approach for automated, fast, and accurate prostate segmentation on micro-US images. Prostate segmentation on micro-US is challenging due to artifacts and indistinct borders between the prostate, bladder, and urethra in the midline. We introduce MicroSegNet, a multi-scale annotation-guided Transformer UNet model to address this challenge. During the training process, MicroSegNet focuses more on regions that are hard to segment (challenging regions), where expert and non-expert annotations show discrepancies. We achieve this by proposing an annotation-guided cross entropy loss that assigns larger weight to pixels in hard regions and lower weight to pixels in easy regions. We trained our model using micro-US images from 55 patients, followed by evaluation on 20 patients. Our MicroSegNet model achieved a Dice coefficient of 0.942 and a Hausdorff distance of 2.11 mm, outperforming several state-of-the-art segmentation methods, as well as three human annotators with different experience levels. We will make our code and dataset publicly available to promote transparency and collaboration in research. | 翻訳日:2023-06-01 15:44:56 公開日:2023-05-31 |
# シャープネスを考慮したマルチデータセット協調学習 Multi-Dataset Co-Training with Sharpness-Aware Optimization for Audio Anti-spoofing ( http://arxiv.org/abs/2305.19953v1 ) ライセンス: Link先を確認 | Hye-jin Shim, Jee-weon Jung, Tomi Kinnunen | (参考訳) 自動話者認証のための音声アンチスプーフィングは、スプーフィング攻撃からユーザのアイデンティティを保護することを目的としている。
最先端スプーフィング対策(CM)モデルは特定のデータセットでよく機能するが、異なるデータセットで評価すると一般化が欠如する。
この制限に対処するため、以前の研究では、かなりのリソースと時間を要する大規模な事前訓練モデルについて検討してきた。
我々は,大規模事前学習モデルと競合するコンパクトかつ一般化したcmモデルの開発を目指している。
このアプローチには,マルチデータセットのコトレーニングとシャープネス認識の最小化が関与する。
大規模な実験により,提案手法は,大規模な事前学習モデルよりも4,000倍少ないパラメータを生かしながら,各種データセット間の競争結果が得られることがわかった。 Audio anti-spoofing for automatic speaker verification aims to safeguard users' identities from spoofing attacks. Although state-of-the-art spoofing countermeasure(CM) models perform well on specific datasets, they lack generalization when evaluated with different datasets. To address this limitation, previous studies have explored large pre-trained models, which require significant resources and time. We aim to develop a compact but well-generalizing CM model that can compete with large pre-trained models. Our approach involves multi-dataset co-training and sharpness-aware minimization, which has not been investigated in this domain. Extensive experiments reveal that proposed method yield competitive results across various datasets while utilizing 4,000 times less parameters than the large pre-trained models. | 翻訳日:2023-06-01 15:44:27 公開日:2023-05-31 |
# ロデオ投影の最適化 Optimizing rodeo projection ( http://arxiv.org/abs/2305.19952v1 ) ライセンス: Link先を確認 | Thomas D. Cohen, Hyunwoo Oh | (参考訳) ロデオアルゴリズムは、離散スペクトル系に対する固定エネルギー状態への与えられた初期状態の投影のための量子コンピューティングの効率的な方法として最近提案されている。
ロデオアルゴリズムの初期定式化では、これらの時間は固定されたrms時間を持つガウス分布を介してランダムに選択された。
本稿では,このような時間選択のランダムなアプローチは,不必要な成分の抑制の指数関数的に大きな変動に苦しむことを示し,反復数が大きくなるにつれて,ランダム選択から得られる抑制因子の分布が,非常に大きな変動をもたらすログ正規分布に近づくことを示した。
このようなゆらぎをランダムにではなく意図的に時間を選択することで回避でき、抑制の厳密な上限を得ることができることに注意する。
さらに、固定計算コストを用いた平均抑制は、ランダムアルゴリズムと比較して桁違いに小さくすることができる。
これを行うための鍵は、極端に最大スケールから指数関数的に小さなスケールへと、指数関数的に多くのスケールで変化する時間を選択することである。 The rodeo algorithm has been proposed recently as an efficient method in quantum computing for projection of a given initial state onto a state of fixed energy for systems with discrete spectra. In the initial formulation of the rodeo algorithm these times were chosen randomly via a Gaussian distribution with fixed RMS times. In this paper it is shown that such a random approach for choosing times suffers from exponentially large fluctuations in the suppression of unwanted components: as the number of iterations gets large, the distribution of suppression factors obtained from random selection approaches a log-normal distribution leading to remarkably large fluctuations. We note that by choosing times intentionally rather than randomly such fluctuations can be avoided and strict upper bounds on the suppression can be obtained. Moreover, the average suppression using fixed computational cost can be reduced by many orders of magnitude relative to the random algorithm. A key to doing this is to choose times that vary over exponentially many times scales, starting from a modest maximum scale and going down to time scales exponentially smaller. | 翻訳日:2023-06-01 15:44:14 公開日:2023-05-31 |
# すべてのニューロシンボリック概念が等しく作られるわけではない:推論ショートカットの分析と緩和 Not All Neuro-Symbolic Concepts Are Created Equal: Analysis and Mitigation of Reasoning Shortcuts ( http://arxiv.org/abs/2305.19951v1 ) ライセンス: Link先を確認 | Emanuele Marconato, Stefano Teso, Antonio Vergari, Andrea Passerini | (参考訳) ニューロシンボリック(nesy)予測モデルは、サブシンボリック入力から抽出されたハイレベルな概念を推論することで、いくつかの事前知識と一致するラベルを推論できるため、与えられた制約、体系的な一般化、解釈可能性へのコンプライアンスの改善を約束している。
高い精度を達成することができるが、意図しないセマンティクスを持つ概念を活用することで、約束された利点を欠くことができる。
しかし、推論ショートカットと潜在的な緩和戦略の体系的な特徴が欠けている。
この研究は、学習対象の意図しない最適性を特徴付け、その発生の背後にある4つの重要な条件を特定することで、このギャップを埋める。
そこで我々は,いくつかの自然緩和戦略を導出し,その効果を理論的・実証的に分析する。
我々の分析は、既存のNeSyソリューションの信頼性と解釈可能性に疑問を呈し、ショートカットの理由付けが難しいことを示している。 Neuro-Symbolic (NeSy) predictive models hold the promise of improved compliance with given constraints, systematic generalization, and interpretability, as they allow to infer labels that are consistent with some prior knowledge by reasoning over high-level concepts extracted from sub-symbolic inputs. It was recently shown that NeSy predictors are affected by reasoning shortcuts: they can attain high accuracy but by leveraging concepts with unintended semantics, thus coming short of their promised advantages. Yet, a systematic characterization of reasoning shortcuts and of potential mitigation strategies is missing. This work fills this gap by characterizing them as unintended optima of the learning objective and identifying four key conditions behind their occurrence. Based on this, we derive several natural mitigation strategies, and analyze their efficacy both theoretically and empirically. Our analysis shows reasoning shortcuts are difficult to deal with, casting doubts on the trustworthiness and interpretability of existing NeSy solutions. | 翻訳日:2023-06-01 15:43:58 公開日:2023-05-31 |
# 分布の宝:2次元医用画像分割のためのドメインランダム化に基づくマルチソースドメイン一般化 Treasure in Distribution: A Domain Randomization based Multi-Source Domain Generalization for 2D Medical Image Segmentation ( http://arxiv.org/abs/2305.19949v1 ) ライセンス: Link先を確認 | Ziyang Chen, Yongsheng Pan, Yiwen Ye, Hengfei Cui, Yong Xia | (参考訳) 近年、医用画像のセグメンテーションにおいて畳み込みニューラルネットワーク(CNN)が大きな成功をおさめてきたが、医用画像の高可変画像品質に起因する領域シフト問題により、現実の臨床応用におけるCNNの展開が妨げられている。
ドメイン一般化(DG)手法は、強力な一般化能力を持つソースドメイン上で堅牢なモデルをトレーニングすることでこの問題に対処することを目的としている。
これまで、特徴空間領域のランダム化に基づく多くのdgメソッドが提案されてきたが、機能スタイルの限定的で順序付けされていない検索空間に苦しめられている。
本稿では,TriD(Treasure in Distribution)と呼ばれるマルチソースDG手法を提案し,一様分布からランダムにサンプリングすることで,強靭性のあるモデルを得るために,前例のない探索空間を構築した。
ドメイン不変表現を明示的に学習するために、我々はさらにTriDにスタイル混在戦略を考案し、チャンネルワイズに沿って拡張統計とオリジナル統計をランダムに混合し、他のDG手法に拡張することができる。
異なる特徴を持つ2つの医療区分タスクに関する広範囲な実験により, 対象領域データに対して, tridが優れた一般化性能を達成できることが証明された。
コードはhttps://github.com/Chen-Ziyang/TriD.comで入手できる。 Although recent years have witnessed the great success of convolutional neural networks (CNNs) in medical image segmentation, the domain shift issue caused by the highly variable image quality of medical images hinders the deployment of CNNs in real-world clinical applications. Domain generalization (DG) methods aim to address this issue by training a robust model on the source domain, which has a strong generalization ability. Previously, many DG methods based on feature-space domain randomization have been proposed, which, however, suffer from the limited and unordered search space of feature styles. In this paper, we propose a multi-source DG method called Treasure in Distribution (TriD), which constructs an unprecedented search space to obtain the model with strong robustness by randomly sampling from a uniform distribution. To learn the domain-invariant representations explicitly, we further devise a style-mixing strategy in our TriD, which mixes the feature styles by randomly mixing the augmented and original statistics along the channel wise and can be extended to other DG methods. Extensive experiments on two medical segmentation tasks with different modalities demonstrate that our TriD achieves superior generalization performance on unseen target-domain data. Code is available at https://github.com/Chen-Ziyang/TriD. | 翻訳日:2023-06-01 15:43:40 公開日:2023-05-31 |
# 拡散モデルに関する幾何学的展望 A Geometric Perspective on Diffusion Models ( http://arxiv.org/abs/2305.19947v1 ) ライセンス: Link先を確認 | Defang Chen, Zhenyu Zhou, Jian-Ping Mei, Chunhua Shen, Chun Chen, Can Wang | (参考訳) 近年,拡散モデルのための効率的なトレーニングと高速サンプリング手法の開発が進展している。
最近の顕著な進歩は、統一された数学的枠組みにおけるデータ摂動と生成モデリングを記述するために確率微分方程式(SDE)を使用することである。
本稿では,拡散モデルのいくつかの興味深い幾何学的構造を明らかにし,そのサンプリングダイナミクスに単純かつ強力な解釈を与える。
本研究では, サンプリングによく用いられる分散露光SDEとその限界保存常微分方程式(ODE)を精査することにより, データ分布と雑音分布が, 視覚的品質の観点からより高速に収束する, 擬似線形サンプリング軌道, および暗黙的復調軌道と円滑に結びついていることを明らかにする。
また,最適なodeに基づくサンプリングと,拡散モデルの漸近的挙動を特徴付け,スコアの偏差を識別できる古典的な平均シフト(モード参照)アルゴリズムとの理論的関係も確立した。
これらの新しい幾何学的観測により,従来のサンプリングアルゴリズムの改良,潜時補間の再検討,蒸留法に基づく高速サンプリング手法の動作原理の再検討が可能となった。 Recent years have witnessed significant progress in developing efficient training and fast sampling approaches for diffusion models. A recent remarkable advancement is the use of stochastic differential equations (SDEs) to describe data perturbation and generative modeling in a unified mathematical framework. In this paper, we reveal several intriguing geometric structures of diffusion models and contribute a simple yet powerful interpretation to their sampling dynamics. Through carefully inspecting a popular variance-exploding SDE and its marginal-preserving ordinary differential equation (ODE) for sampling, we discover that the data distribution and the noise distribution are smoothly connected with an explicit, quasi-linear sampling trajectory, and another implicit denoising trajectory, which even converges faster in terms of visual quality. We also establish a theoretical relationship between the optimal ODE-based sampling and the classic mean-shift (mode-seeking) algorithm, with which we can characterize the asymptotic behavior of diffusion models and identify the score deviation. These new geometric observations enable us to improve previous sampling algorithms, re-examine latent interpolation, as well as re-explain the working principles of distillation-based fast sampling techniques. | 翻訳日:2023-06-01 15:43:14 公開日:2023-05-31 |
# In Vivo Micro-UltrasoundとEx Vivo Pseudo-Whole Mount Histopathology Image of the Prestate: A Proof-Concept Study Image Registration of In Vivo Micro-Ultrasound and Ex Vivo Pseudo-Whole Mount Histopathology Images of the Prostate: A Proof-of-Concept Study ( http://arxiv.org/abs/2305.19939v1 ) ライセンス: Link先を確認 | Muhammad Imran, Brianna Nguyen, Jake Pensa, Sara M. Falzarano, Anthony E. Sisk, Muxua Liang, John Michael DiBianco, Li-Ming Su, Yuyin Zhou, Wayne G. Brisbane, and Wei Shao | (参考訳) 前立腺癌の早期診断は5年生存率を大幅に改善する。
前立腺癌の生検は画像誘導生検により改善される。
MRI-ultrasound fusion-guided biopsyはより小さな腫瘍に感受性があるが、MRIや核融合装置のコストが高いために利用されていない。
新しい高分解能超音波技術であるmicro-ultrasound (micro-US)はMRIに代わる費用対効果があり、診断精度は同等である。
しかし,癌組織と正常組織との微妙なグレースケールの変化から,マイクロusの解釈は困難である。
この課題は、基礎真理がんアウトラインを含むマイクロus画像の大規模なデータセットを尿器科医に訓練することで解決できる。
このようなデータセットは手術標本(病理組織学)から画像登録によってマイクロus画像にマッピングすることができる。
本稿では,生体内マイクロUS画像と生体外全身組織像を登録するための半自動パイプラインを提案する。
病理組織像と3D micro-US 容積の再構成から開始した。
次に、アフィン変換と変形可能な変換を推定する2段階のアプローチを用いて、各擬似マウント組織像を対応する軸方向のマイクロUSスライスに登録する。
前立腺急速切除を施行した18例のmicro-USおよび組織像を用いて登録パイプラインの評価を行った。
その結果、Dice係数は0.94、ランドマーク誤差は2.7mmとなり、登録パイプラインの精度が示された。
この概念実証研究は、マイクロusと病理組織像の正確な整合の実現可能性を示している。
研究における透明性とコラボレーションを促進するため、コードとデータセットを公開します。 Early diagnosis of prostate cancer significantly improves a patient's 5-year survival rate. Biopsy of small prostate cancers is improved with image-guided biopsy. MRI-ultrasound fusion-guided biopsy is sensitive to smaller tumors but is underutilized due to the high cost of MRI and fusion equipment. Micro-ultrasound (micro-US), a novel high-resolution ultrasound technology, provides a cost-effective alternative to MRI while delivering comparable diagnostic accuracy. However, the interpretation of micro-US is challenging due to subtle gray scale changes indicating cancer vs normal tissue. This challenge can be addressed by training urologists with a large dataset of micro-US images containing the ground truth cancer outlines. Such a dataset can be mapped from surgical specimens (histopathology) onto micro-US images via image registration. In this paper, we present a semi-automated pipeline for registering in vivo micro-US images with ex vivo whole-mount histopathology images. Our pipeline begins with the reconstruction of pseudo-whole-mount histopathology images and a 3D micro-US volume. Each pseudo-whole-mount histopathology image is then registered with the corresponding axial micro-US slice using a two-stage approach that estimates an affine transformation followed by a deformable transformation. We evaluated our registration pipeline using micro-US and histopathology images from 18 patients who underwent radical prostatectomy. The results showed a Dice coefficient of 0.94 and a landmark error of 2.7 mm, indicating the accuracy of our registration pipeline. This proof-of-concept study demonstrates the feasibility of accurately aligning micro-US and histopathology images. To promote transparency and collaboration in research, we will make our code and dataset publicly available. | 翻訳日:2023-06-01 15:42:53 公開日:2023-05-31 |
# 強磁性振動子磁気センサ Ferrimagnetic Oscillator Magnetometer ( http://arxiv.org/abs/2305.19938v1 ) ライセンス: Link先を確認 | John F. Barry, Reed A. Irion, Matthew H. Steinecker, Daniel K. Freeman, Jessica J. Kedziora, Reginald G. Wilcox, Danielle A. Braje | (参考訳) 量子センサーは、様々な測定用途に非並列精度、精度、感度を提供する。
振動子構造における強磁性体検出素子に基づく小型磁気センサを,ダイナミックレンジの制限,帯域幅の制限,真空,低温,レーザ成分への依存といった他の量子センシング手法に共通する課題を回避する。
この装置は、電子磁気比によって支配される固定された校正自由応答を示す。
鉄磁性材料の交換狭化は、高い不対スピン密度(\sim 10^{22}$ cm$^{-3}$)にもかかわらず、サブMHz遷移線幅を生成する。
磁気センサは、未知位相の交流磁界に対して100 fT/$\sqrt{\text{Hz}}$の最小感度と200 fT/$\sqrt{\text{Hz}}$以下の感度を帯域幅$\gtrsim \!
1 MHz。
センサーの量子状態の受動的熱初期化には磁場のみが必要であり、レーザー初期化量子センサーに比べて電力要求を大幅に削減する。
さらなる開発により、この装置は実験室外での高性能磁気測定の有力候補となり、発振器アーキテクチャは幅広いセンシングプラットフォームに利点をもたらすことが期待されている。 Quantum sensors offer unparalleled precision, accuracy, and sensitivity for a variety of measurement applications. We report a compact magnetometer based on a ferrimagnetic sensing element in an oscillator architecture that circumvents challenges common to other quantum sensing approaches such as limited dynamic range, limited bandwidth, and dependence on vacuum, cryogenic, or laser components. The device exhibits a fixed, calibration-free response governed by the electron gyromagnetic ratio. Exchange narrowing in the ferrimagnetic material produces sub-MHz transition linewidths despite the high unpaired spin density ($\sim 10^{22}$ cm$^{-3}$). The magnetometer achieves a minimum sensitivity of 100 fT/$\sqrt{\text{Hz}}$ to AC magnetic fields of unknown phase and a sensitivity below 200 fT/$\sqrt{\text{Hz}}$ over a bandwidth $\gtrsim \! 1$ MHz. By encoding magnetic field in frequency rather than amplitude, the device provides a dynamic range in excess of 1 mT. The passive, thermal initialization of the sensor's quantum state requires only a magnetic bias field, greatly reducing power requirements compared to laser-initialized quantum sensors. With additional development, this device promises to be a leading candidate for high-performance magnetometry outside the laboratory, and the oscillator architecture is expected to provide advantages across a wide range of sensing platforms. | 翻訳日:2023-06-01 15:42:22 公開日:2023-05-31 |
# 乳癌の診断と診断 : 最先端のディープラーニングアーキテクチャの比較研究 Breast Cancer Detection and Diagnosis: A comparative study of state-of-the-arts deep learning architectures ( http://arxiv.org/abs/2305.19937v1 ) ライセンス: Link先を確認 | Brennon Maistry and Absalom E. Ezugwu | (参考訳) 乳癌は女性の間で多いがんであり、毎年150万人以上の女性が診断されている。
残念なことに、南アフリカのような一部の第三世界の乳がん患者の生存率は驚くほど低く、診断された患者の40%が5年以上生存している。
資格のある病理医、診断の遅れ、非効果的な治療計画を含む資源の不足は、この低い生存率に寄与する。
このプレッシャーに対処するため、医療専門家と研究者はドメイン固有のAIアプローチ、特にディープラーニングモデルに転換し、コンピュータ支援診断(CAD)システムに統合可能なエンドツーエンドソリューションを開発した。
病理学者のワークフローを改善することで、これらのAIモデルは乳癌の検出と診断を強化する可能性がある。
本研究では,視覚トランスフォーマ (vit) と呼ばれる比較的新しいモデルと比較して,様々な最先端畳み込みニューラルネットワーク (cnn) アーキテクチャの性能評価に注目する。
目的は、それらの精度と有効性の観点から、これらのモデルの優越性を決定することである。
実験の結果、vitモデルは他の選択されたcnnアーキテクチャよりも優れており、95.15%の精度を達成した。
本研究は,乳癌の病理組織学的画像分類のデータセットを用いた乳癌の検出と診断のための深層学習モデルと合わせて,データ拡張およびその他の関連する前処理技術の利用を検討することにより,この分野の大きな進歩を示すものである。 Breast cancer is a prevalent form of cancer among women, with over 1.5 million women being diagnosed each year. Unfortunately, the survival rates for breast cancer patients in certain third-world countries, like South Africa, are alarmingly low, with only 40% of diagnosed patients surviving beyond five years. The inadequate availability of resources, including qualified pathologists, delayed diagnoses, and ineffective therapy planning, contribute to this low survival rate. To address this pressing issue, medical specialists and researchers have turned to domain-specific AI approaches, specifically deep learning models, to develop end-to-end solutions that can be integrated into computer-aided diagnosis (CAD) systems. By improving the workflow of pathologists, these AI models have the potential to enhance the detection and diagnosis of breast cancer. This research focuses on evaluating the performance of various cutting-edge convolutional neural network (CNN) architectures in comparison to a relatively new model called the Vision Trans-former (ViT). The objective is to determine the superiority of these models in terms of their accuracy and effectiveness. The experimental results reveal that the ViT models outperform the other selected state-of-the-art CNN architectures, achieving an impressive accuracy rate of 95.15%. This study signifies a significant advancement in the field, as it explores the utilization of data augmentation and other relevant preprocessing techniques in conjunction with deep learning models for the detection and diagnosis of breast cancer using datasets of Breast Cancer Histopathological Image Classification. | 翻訳日:2023-06-01 15:42:00 公開日:2023-05-31 |
# 共同注意命名ゲームにおけるメトロポリス・ハスティングスアルゴリズム:実験セミオティックス研究 Metropolis-Hastings algorithm in joint-attention naming game: Experimental semiotics study ( http://arxiv.org/abs/2305.19936v1 ) ライセンス: Link先を確認 | Ryota Okumura, Tadahiro Taniguchi, Yosinobu Hagiwara, Akira Taniguchi | (参考訳) 本研究では,個人間の相互作用におけるシンボルの出現について,実験的なセミオティックスタディを通じて検討する。
先行研究は、人間が人工的に設計した主観実験を用いて、コミュニケーションを通じてシンボルシステムを整理する方法である。
本研究では,参加者が個別に対象を分類し,自己の注意を前提として名称を割り当てる共同注意ナミングゲーム(ja-ng)に注目した。
メトロポリス・ハスティングス命名ゲーム(MHNG)の理論では、リスナーはメトロポリス・ハスティングス(MH)アルゴリズムを用いて計算された受容確率に応じて提供された名前を受け入れる。
MHNGの理論は、記号が、MHNGの条件が満たされれば共有先行変数として表される符号のほぼ非分散化ベイズ推定として現れることを示唆している。
本研究は,JA-NGをプレイする際,ヒトがMHNG理論と整合した行動を示すか否かを検討する。
パートナーの命名決定とMHNGで計算された受理確率を比較することで、人間の行動がMHNG理論と一致しているかを検証した。
本研究の主な貢献は2つある。
まず,MHアルゴリズムが計算した受理確率に関係なく,人間が一定の確率で受理判定を行うという無効仮説を否定する。
この結果は,MHアルゴリズムによって計算された受容確率をある程度追従したことを示唆している。
第2に、MHベースのモデルは、他の4つのモデル(定数、核子、減算、バイナリ)よりも人間の受容/拒絶の挙動を正確に予測した。
この結果はja-ngのシンボル出現をmhngを用いて説明でき、近似分散ベイズ推定と見なすことができることを示している。 In this study, we explore the emergence of symbols during interactions between individuals through an experimental semiotic study. Previous studies investigate how humans organize symbol systems through communication using artificially designed subjective experiments. In this study, we have focused on a joint attention-naming game (JA-NG) in which participants independently categorize objects and assign names while assuming their joint attention. In the theory of the Metropolis-Hastings naming game (MHNG), listeners accept provided names according to the acceptance probability computed using the Metropolis-Hastings (MH) algorithm. The theory of MHNG suggests that symbols emerge as an approximate decentralized Bayesian inference of signs, which is represented as a shared prior variable if the conditions of MHNG are satisfied. This study examines whether human participants exhibit behavior consistent with MHNG theory when playing JA-NG. By comparing human acceptance decisions of a partner's naming with acceptance probabilities computed in the MHNG, we tested whether human behavior is consistent with the MHNG theory. The main contributions of this study are twofold. First, we reject the null hypothesis that humans make acceptance judgments with a constant probability, regardless of the acceptance probability calculated by the MH algorithm. This result suggests that people followed the acceptance probability computed by the MH algorithm to some extent. Second, the MH-based model predicted human acceptance/rejection behavior more accurately than the other four models: Constant, Numerator, Subtraction, and Binary. This result indicates that symbol emergence in JA-NG can be explained using MHNG and is considered an approximate decentralized Bayesian inference. | 翻訳日:2023-06-01 15:41:35 公開日:2023-05-31 |
# 大規模dnnトレーニングにおけるadamの蓄積によるアクティベーションと勾配のメモリフットプリント削減 Adam Accumulation to Reduce Memory Footprints of both Activations and Gradients for Large-scale DNN Training ( http://arxiv.org/abs/2305.19982v1 ) ライセンス: Link先を確認 | Yijia Zhang, Yibo Han, Shijie Cao, Guohao Dai, Youshan Miao, Ting Cao, Fan Yang, Ningyi Xu | (参考訳) GPUメモリの実行は、大規模なDNNトレーニングの主要なボトルネックとなっている。
トレーニング中のメモリフットプリントの削減方法は、集中的な研究の注目を集めている。
過去の勾配蓄積は、活性化メモリを減少させるが、保存勾配と解放勾配の矛盾により、勾配メモリの減少と相容れない。
この問題に対処するために,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しい最適化器の蓄積手法を提案する。
具体的には、AdamAはグラデーションを直接オプティマイザステートに統合し、マイクロバッチ上でオプティマイザステートを蓄積する。
我々はAdamAがAdamと同じ収束特性をもたらすことを数学的および実験的に示す。
トランスフォーマーベースのモデルで評価されたAdamAは、トレーニングスループットの2%未満の劣化を伴う勾配蓄積と比較して最大23%のメモリ削減を実現している。
特に、AdamAはメモリ削減手法と連携して、メモリ容量の異なるGPU上でPyTorchとDeepSpeedのベースラインを1.26x~3.14xのモデルに適合させる。 Running out of GPU memory has become a main bottleneck for large-scale DNN training. How to reduce the memory footprint during training has received intensive research attention. We find that previous gradient accumulation reduces activation memory but fails to be compatible with gradient memory reduction due to a contradiction between preserving gradients and releasing gradients. To address this issue, we propose a novel optimizer accumulation method for Adam, named Adam Accumulation (AdamA), which enables reducing both activation and gradient memory. Specifically, AdamA directly integrates gradients into optimizer states and accumulates optimizer states over micro-batches, so that gradients can be released immediately after use. We mathematically and experimentally demonstrate AdamA yields the same convergence properties as Adam. Evaluated on transformer-based models, AdamA achieves up to 23% memory reduction compared to gradient accumulation with less than 2% degradation in training throughput. Notably, AdamA can work together with memory reduction methods for optimizer states to fit 1.26x~3.14x larger models over PyTorch and DeepSpeed baseline on GPUs with different memory capacities. | 翻訳日:2023-06-01 15:34:21 公開日:2023-05-31 |
# medngage: 患者同士の会話におけるエンゲージメントを理解するためのデータセット MedNgage: A Dataset for Understanding Engagement in Patient-Nurse Conversations ( http://arxiv.org/abs/2305.19981v1 ) ライセンス: Link先を確認 | Yan Wang, Heidi Ann Scharf Donovan, Sabit Hassan, Mailhe Alikhani | (参考訳) 症状を効果的に管理する患者は、医療従事者との会話や介入において、より高いレベルの関与を示すことが多い。
このエンゲージメントは多面的であり、認知と社会に影響を及ぼす次元を含んでいる。
したがって、患者と実践者の自然な会話における関与を理解することが、AIシステムにとって重要である。
本稿では,癌症状管理に関する患者と患者との会話からなる新しいデータセット(medngage)を提案する。
2つの異なる角度から、患者エンゲージメントのカテゴリの新たなフレームワークで、データセットを手動で注釈付けします。
一 社会影響エンゲージメント(三.1Kスパン)及び
ii)認知エンゲージメント(1.8Kスパン)
この枠組みを用いてアノテートされたデータの統計的分析を行い,患者の症状管理結果と会話への関与との間に正の相関を示す。
さらに,データセットに微調整された事前学習されたトランスフォーマーモデルが,患者間の会話におけるエンゲージメントカテゴリを確実に予測できることを実証する。
最後に、LIME (Ribeiro et al., 2016) を用いて、最先端のトランスフォーマーモデルが直面するタスクの根本的な課題を分析します。
身元不明のデータは、要求に応じて研究目的に利用できる。 Patients who effectively manage their symptoms often demonstrate higher levels of engagement in conversations and interventions with healthcare practitioners. This engagement is multifaceted, encompassing cognitive and socio-affective dimensions. Consequently, it is crucial for AI systems to understand the engagement in natural conversations between patients and practitioners to better contribute toward patient care. In this paper, we present a novel dataset (MedNgage), which consists of patient-nurse conversations about cancer symptom management. We manually annotate the dataset with a novel framework of categories of patient engagement from two different angles, namely: i) socio-affective engagement (3.1K spans), and ii) cognitive engagement (1.8K spans). Through statistical analysis of the data that is annotated using our framework, we show a positive correlation between patient symptom management outcomes and their engagement in conversations. Additionally, we demonstrate that pre-trained transformer models fine-tuned on our dataset can reliably predict engagement categories in patient-nurse conversations. Lastly, we use LIME (Ribeiro et al., 2016) to analyze the underlying challenges of the tasks that state-of-the-art transformer models encounter. The de-identified data is available for research purposes upon request. | 翻訳日:2023-06-01 15:33:56 公開日:2023-05-31 |
# 知識グラフの生体医学領域への埋め込み:それらは有用か?
リンク予測・ルール学習・下流多薬局業務について Knowledge Graph Embeddings in the Biomedical Domain: Are They Useful? A Look at Link Prediction, Rule Learning, and Downstream Polypharmacy Tasks ( http://arxiv.org/abs/2305.19979v1 ) ライセンス: Link先を確認 | Aryo Pradipta Gema, Dominik Grabarczyk, Wolf De Wulf, Piyush Borole, Javier Antonio Alfaro, Pasquale Minervini, Antonio Vergari, Ajitha Rajan | (参考訳) ナレッジグラフは複雑な生体医学データを表現し組織化するための強力なツールである。
知識グラフから学習し、完全な知識グラフから学習するために、いくつかの知識グラフ埋め込みアルゴリズムが提案されている。
しかし、最近の研究では、これらの埋め込みアルゴリズムが生物医学的知識グラフに適用した場合に限定的な効果を示し、知識グラフ埋め込みが生体医学的設定に制限があるかどうかという疑問を提起している。
本研究の目的は,最近のバイオメディカル知識グラフBioKGの文脈に最先端知識グラフ埋め込みモデルを適用し,その性能評価と下流利用の可能性を評価することである。
また, HITS@10のスコアに基づいて, 同じバイオメディカル知識グラフを用いた3倍の性能向上を実現した。
さらに,ルールベースの手法により解釈可能な予測を行う。
実生活多薬局の状況を表す4つのタスクにおいて,最高の性能モデルを評価することにより,知識グラフの埋め込みモデルを実際に適用できることを実証する。
その結果, 大規模生物医学的知識グラフから学習した知識は, 下流のユースケースに移される可能性が示唆された。
私たちのコードはhttps://github.com/aryopg/biokgeで入手できます。 Knowledge graphs are powerful tools for representing and organising complex biomedical data. Several knowledge graph embedding algorithms have been proposed to learn from and complete knowledge graphs. However, a recent study demonstrates the limited efficacy of these embedding algorithms when applied to biomedical knowledge graphs, raising the question of whether knowledge graph embeddings have limitations in biomedical settings. This study aims to apply state-of-the-art knowledge graph embedding models in the context of a recent biomedical knowledge graph, BioKG, and evaluate their performance and potential downstream uses. We achieve a three-fold improvement in terms of performance based on the HITS@10 score over previous work on the same biomedical knowledge graph. Additionally, we provide interpretable predictions through a rule-based method. We demonstrate that knowledge graph embedding models are applicable in practice by evaluating the best-performing model on four tasks that represent real-life polypharmacy situations. Results suggest that knowledge learnt from large biomedical knowledge graphs can be transferred to such downstream use cases. Our code is available at https://github.com/aryopg/biokge. | 翻訳日:2023-06-01 15:33:36 公開日:2023-05-31 |
# 量子ネットワークの老化と信頼性 Aging and Reliability of Quantum Networks ( http://arxiv.org/abs/2305.19976v1 ) ライセンス: Link先を確認 | Lisa T. Weinbrenner, Lina Vandr\'e, Tim Coopmans, Otfried G\"uhne | (参考訳) 量子情報科学は、コンピューティング、暗号、センシングの技術的ブレークスルーにつながる可能性がある。
しかし、これらのタスクの実装には、多くのコンポーネントを持つ複雑なデバイスが必要であり、量子的優位性は少数の部品の故障によって容易に損なわれる。
パラダイム的な例は量子ネットワークである。
光子吸収や不完全な量子メモリのようなノイズ源は、待ち時間が長く、忠実度も低いだけでなく、ハードウェアコンポーネントも壊れ、ネットワーク全体が機能不全になる可能性がある。
量子ネットワークの長期展開を成功させるためには,このような劣化の影響を設計段階で考慮しておくことが重要である。
信頼性理論と老化理論の手法を用いて,非自明なトポロジに対しても,老化・修復機構下でのネットワークの機能を特徴付ける分析手法を開発した。
数値シミュレーションと組み合わせることで,老化効果下での長距離絡み合い分布の最適化が可能となった。 Quantum information science may lead to technological breakthroughs in computing, cryptography and sensing. For the implementation of these tasks, however, complex devices with many components are needed and the quantum advantage may easily be spoiled by failure of few parts only. A paradigmatic example are quantum networks. There, not only noise sources like photon absorption or imperfect quantum memories lead to long waiting times and low fidelity, but also hardware components may break, leading to a dysfunctionality of the entire network. For the successful long-term deployment of quantum networks in the future, it is important to take such deterioration effects into consideration during the design phase. Using methods from reliability theory and the theory of aging we develop an analytical approach for characterizing the functionality of networks under aging and repair mechanisms, also for non-trivial topologies. Combined with numerical simulations, our results allow to optimize long-distance entanglement distribution under aging effects. | 翻訳日:2023-06-01 15:33:19 公開日:2023-05-31 |
# 動的スキーマ符号化によるセマンティックParseの自然言語による修正 Correcting Semantic Parses with Natural Language through Dynamic Schema Encoding ( http://arxiv.org/abs/2305.19974v1 ) ライセンス: Link先を確認 | Parker Glenn, Parag Pravin Dakle, Preethi Raghavan | (参考訳) 自然言語をSQLクエリに変換するタスクには、セマンティックおよび構文上の課題がいくつかある。
セマンティック解析システムの性能が向上するにつれて、障害点を理解して修正することがますます重要になる。
自然言語フィードバックによる意味的パース補正を探求し,テキストからsqlへのタスクにおける自己回帰デコーダの成功に基づく新しいソリューションを提案する。
タスクの意味論と構文論の難しさを分離することにより,自然言語による訂正を1回だけ行えば,テキストからsqlへのパーサの精度を最大26%向上できることを示した。
さらに,t5-baseモデルでは,t5-largeモデルの誤差をゼロショットのクロスパーザ設定で訂正できることを示す。 In addressing the task of converting natural language to SQL queries, there are several semantic and syntactic challenges. It becomes increasingly important to understand and remedy the points of failure as the performance of semantic parsing systems improve. We explore semantic parse correction with natural language feedback, proposing a new solution built on the success of autoregressive decoders in text-to-SQL tasks. By separating the semantic and syntactic difficulties of the task, we show that the accuracy of text-to-SQL parsers can be boosted by up to 26% with only one turn of correction with natural language. Additionally, we show that a T5-base model is capable of correcting the errors of a T5-large model in a zero-shot, cross-parser setting. | 翻訳日:2023-06-01 15:33:04 公開日:2023-05-31 |
# ViLaS:視覚と言語を自動音声認識に統合する ViLaS: Integrating Vision and Language into Automatic Speech Recognition ( http://arxiv.org/abs/2305.19972v1 ) ライセンス: Link先を確認 | Minglun Han and Feilong Chen and Ziyi Ni and Linghui Meng and Jing Shi and Shuang Xu and Bo Xu | (参考訳) 自動音声認識(ASR)の性能向上のために追加のマルチモーダル情報を利用することは,これまでも有効であった。
しかし、これらの作品の多くは、人間の唇の動きからの視覚手がかりの利用にのみ焦点が当てられている。
実際、コンテキスト依存の視覚的および言語的手がかりは、多くのシナリオでASRのパフォーマンスを改善するためにも使用できる。
本稿では,視覚と言語を同時にあるいは個別に統合して入力音声の認識を支援するマルチモーダルASRモデル(ViLaS)を提案し,モーダル不完全テストシナリオの性能向上のためのトレーニング戦略を提案する。
次に,視覚と言語を統合したマルチモーダルASRデータセット(VSDial)を作成し,視覚と言語の統合の効果について検討する。
最後に、公開Flickr8Kおよび自己構築VSDialデータセットに関する実験結果を報告し、相互融合スキームを調査し、VSDial上での微粒なクロスモーダルアライメントを分析する。 Employing additional multimodal information to improve automatic speech recognition (ASR) performance has been proven effective in previous works. However, many of these works focus only on the utilization of visual cues from human lip motion. In fact, context-dependent visual and linguistic cues can also be used to improve ASR performance in many scenarios. In this paper, we first propose a multimodal ASR model (ViLaS) that can simultaneously or separately integrate visual and linguistic cues to help recognize the input speech, and introduce a training strategy that can improve performance in modal-incomplete test scenarios. Then, we create a multimodal ASR dataset (VSDial) with visual and linguistic cues to explore the effects of integrating vision and language. Finally, we report empirical results on the public Flickr8K and self-constructed VSDial datasets, investigate cross-modal fusion schemes, and analyze fine-grained cross-modal alignment on VSDial. | 翻訳日:2023-06-01 15:32:50 公開日:2023-05-31 |
# 敵対的クライアント利用の可能性を考慮したフェデレートラーニング Federated Learning in the Presence of Adversarial Client Unavailability ( http://arxiv.org/abs/2305.19971v1 ) ライセンス: Link先を確認 | Lili Su, Jiaming Xu, Pengkun Yang | (参考訳) federated learningは分散機械学習フレームワークで、すべてのクライアントが各ラウンドに参加できるわけではない。
新たな研究のラインは、任意のクライアントの可用性に対処することに集中しています。
既存の理論解析では、不適用パターンに制限的な構造的仮定を課し、提案したアルゴリズムはそれらの仮定に合わせて調整された。
本稿では,これらの仮定を緩和し,クライアントの非利用性を検討する。
クライアントの不使用性の度合いを定量化するために、"em $\epsilon$-adversary dropout fraction}"という概念を用いる。
非凸および強凸の大域的目的の両方に対して、FedAvg あるいは FedProx の単純な変種は、$\epsilon$ に完全に依存せず、$\epsilon (G^2 + \sigma^2)$ の順序で推定誤差に収束し、$G$ は不均一パラメータであり、$\sigma^2$ はノイズレベルであることを示す。
この推定誤差が最小最適であることが証明される。
また、FedAvg や FedProx の変種は、非凸目的に対して$O(1/\sqrt{T})$ と強凸目的に対して$O(1/T)$ の収束速度を持つことを示した。
私たちの証明は、学習プロセス全体で続く選択バイアスの厳密な分析に基づいている。
合成および実世界のデータセットの数値実験による理論的予測を検証する。 Federated learning is a decentralized machine learning framework wherein not all clients are able to participate in each round. An emerging line of research is devoted to tackling arbitrary client unavailability. Existing theoretical analysis imposes restrictive structural assumptions on the unavailability patterns, and their proposed algorithms were tailored to those assumptions. In this paper, we relax those assumptions and consider adversarial client unavailability. To quantify the degrees of client unavailability, we use the notion of {\em $\epsilon$-adversary dropout fraction}. For both non-convex and strongly-convex global objectives, we show that simple variants of FedAvg or FedProx, albeit completely agnostic to $\epsilon$, converge to an estimation error on the order of $\epsilon (G^2 + \sigma^2)$, where $G$ is a heterogeneity parameter and $\sigma^2$ is the noise level. We prove that this estimation error is minimax-optimal. We also show that the variants of FedAvg or FedProx have convergence speeds $O(1/\sqrt{T})$ for non-convex objectives and $O(1/T)$ for strongly-convex objectives, both of which are the best possible for any first-order method that only has access to noisy gradients. Our proofs build upon a tight analysis of the selection bias that persists in the entire learning process. We validate our theoretical prediction through numerical experiments on synthetic and real-world datasets. | 翻訳日:2023-06-01 15:32:34 公開日:2023-05-31 |
# gandiffface: リアルなバリエーションを持つ顔認識のための合成データセットの制御可能な生成 GANDiffFace: Controllable Generation of Synthetic Datasets for Face Recognition with Realistic Variations ( http://arxiv.org/abs/2305.19962v1 ) ライセンス: Link先を確認 | Pietro Melzi, Christian Rathgeb, Ruben Tolosana, Ruben Vera-Rodriguez, Dominik Lawatsch, Florian Domin, Maxim Schaubert | (参考訳) 近年,大規模データセットの活用により顔認識システムが大幅に進歩している。
しかし最近では、確立された公開データセットの廃止につながったプライバシの懸念など、いくつかの問題が発生している。
合成データセットは、クラス内変動の制限、リアリズムの欠如、人口統計群の不公平な表現など、現在の合成方法に他の欠点があるにもかかわらず、解決策として現れてきた。
GANDiffFaceは、GAN(Generative Adversarial Networks)とDiffusionモデルのパワーを組み合わせて、既存の合成データセットの限界を克服する、顔認識のための合成データセットを生成するための新しいフレームワークである。
GANDiffFaceでは、まず、現実的なアイデンティティを合成し、ターゲットの人口分布を満たすために、GANを使うことを提案する。
次に、GANで生成された画像を用いて拡散モデルを微調整し、同じアイデンティティの複数の画像を様々なアクセサリー、ポーズ、表現、コンテキストで合成する。
gandifffaceの設定を変更して複数の合成データセットを生成し、それらの交配されたスコア分布と、顔認識のための一般的な現実世界データセット、すなわちvgg2とijb-cの分布を比較する。
提案するgandifffaceの実現可能性,特にgansが提供したクラス内変動を実世界のデータセットのレベルに拡張するための拡散モデルの利用について検討した。 Face recognition systems have significantly advanced in recent years, driven by the availability of large-scale datasets. However, several issues have recently came up, including privacy concerns that have led to the discontinuation of well-established public datasets. Synthetic datasets have emerged as a solution, even though current synthesis methods present other drawbacks such as limited intra-class variations, lack of realism, and unfair representation of demographic groups. This study introduces GANDiffFace, a novel framework for the generation of synthetic datasets for face recognition that combines the power of Generative Adversarial Networks (GANs) and Diffusion models to overcome the limitations of existing synthetic datasets. In GANDiffFace, we first propose the use of GANs to synthesize highly realistic identities and meet target demographic distributions. Subsequently, we fine-tune Diffusion models with the images generated with GANs, synthesizing multiple images of the same identity with a variety of accessories, poses, expressions, and contexts. We generate multiple synthetic datasets by changing GANDiffFace settings, and compare their mated and non-mated score distributions with the distributions provided by popular real-world datasets for face recognition, i.e. VGG2 and IJB-C. Our results show the feasibility of the proposed GANDiffFace, in particular the use of Diffusion models to enhance the (limited) intra-class variations provided by GANs towards the level of real-world datasets. | 翻訳日:2023-06-01 15:32:03 公開日:2023-05-31 |
# 機械学習による高解像度火星画像の解析 Analysing high resolution digital Mars images using machine learning ( http://arxiv.org/abs/2305.19958v1 ) ライセンス: Link先を確認 | M. Gergacz, A. Kereszturi | (参考訳) 火星のエフェメラル液体の水の探索は進行中の活動である。
火星での季節的な極氷冠の後退の後、火星の表面と大気の熱伝導率が低いため、小さな水面の氷片は日陰の場所に残される可能性がある。
春の終わりから初夏にかけて、これらのパッチは直射日光に晒され、液相が現れるのに十分な速さで温まる。
このような氷パッチの空間的および時間的発生を見るためには、光学的画像の検索とチェックが必要である。
以前は、マーズ・リコネッサンス・オービター(Mars Reconnaissance Orbiter)の高解像度撮像科学実験(High Resolution Imaging Science Experiment:HIRISE)カメラで捉えた、南半球からの110枚の画像で手動による画像解析が行われた。
このうち37枚の画像が小さな氷のパッチで識別され、その明るさ、色、局所的な地形シェーディングとの強いつながりで識別できた。
本研究では,CNNを用いて,緯度帯の-40{\deg} から-60{\deg} の間において,極性氷冠の季節的後退が起こる可能性のある水面パッチによるさらなる画像を求める。
それまで分析されたHiRISEイメージを使用してモデルをトレーニングし、それぞれを数百のピースに分割し、トレーニングデータセットを6240イメージに拡張した。
38枚の新しいHiRISE画像に対して行われたテストでは、プログラムは一般的に小さな明るいパッチを認識できるが、より正確な予測のためにさらなるトレーニングが必要になる可能性がある。 The search for ephemeral liquid water on Mars is an ongoing activity. After the recession of the seasonal polar ice cap on Mars, small water ice patches may be left behind in shady places due to the low thermal conductivity of the Martian surface and atmosphere. During late spring and early summer, these patches may be exposed to direct sunlight and warm up rapidly enough for the liquid phase to emerge. To see the spatial and temporal occurrence of such ice patches, optical images should be searched for and checked. Previously a manual image analysis was conducted on 110 images from the southern hemisphere, captured by the High Resolution Imaging Science Experiment (HiRISE) camera onboard the Mars Reconnaissance Orbiter space mission. Out of these, 37 images were identified with smaller ice patches, which were distinguishable by their brightness, colour and strong connection to local topographic shading. In this study, a convolutional neural network (CNN) is applied to find further images with potential water ice patches in the latitude band between -40{\deg} and -60{\deg}, where the seasonal retreat of the polar ice cap happens. Previously analysed HiRISE images are used to train the model, each was split into hundreds of pieces, expanding the training dataset to 6240 images. A test run conducted on 38 new HiRISE images indicates that the program can generally recognise small bright patches, however further training might be needed for more precise predictions.Using a CNN model may make it realistic to analyse all available surface images, aiding us in selecting areas for further investigation. | 翻訳日:2023-06-01 15:31:38 公開日:2023-05-31 |
# DeepSolo++: テキストスポッティングのための明示的なポイントを持つトランスフォーマーデコーダ DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Text Spotting ( http://arxiv.org/abs/2305.19957v1 ) ライセンス: Link先を確認 | Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao | (参考訳) エンドツーエンドテキストスポッティングは、シーンテキストの検出と認識を統一されたフレームワークに統合することを目的としている。
2つのサブタスク間の関係を扱うことは、効果的なスポッターを設計する上で重要な役割を果たす。
トランスフォーマーベースの手法ではヒューリスティックなポストプロセッシングは排除されるが、サブタスクと低トレーニング効率の相乗効果の問題に苦しむ。
本稿では,DeepSoloについて述べる。DeepSoloは単純なDETRライクなベースラインで,テキストの検出と認識を同時に,かつ効率的に行うことができる。
技術的には、各テキストインスタンスでは、文字列を順序付けポイントとして表現し、学習可能な明示的なポイントクエリでモデル化します。
1つのデコーダを渡すと、ポイントクエリは必要なテキストセマンティクスと場所をエンコードする。
さらに, 文字クラス, 言語タイプ, タスクの観点から, 驚くほど優れた拡張性を示す。
一方、deepsoloは英語のシーンでうまく機能するだけでなく、複雑なフォント構造と1000レベルの文字クラスで中国語の書き起こしを習得する。
一方、DeepSoloの拡張性に基づいて、多言語テキストスポッティング用のDeepSolo++をローンチし、多言語テキスト検出、認識、スクリプト識別を同時に行うための明示的なポイントを持つTransformerデコーダをさらに一歩進める。
公開ベンチマークによる広範囲な実験により,本手法はトランスフォーマーモデルと比較してトレーニング効率が向上し,先行手法よりも優れていた。
さらに、DeepSoloとDeepSolo++は行アノテーションとも互換性があり、ポリゴンよりもアノテーションコストがはるかに低い。
コードは \url{https://github.com/ViTAE-Transformer/DeepSolo} で公開されている。 End-to-end text spotting aims to integrate scene text detection and recognition into a unified framework. Dealing with the relationship between the two sub-tasks plays a pivotal role in designing effective spotters. Although Transformer-based methods eliminate the heuristic post-processing, they still suffer from the synergy issue between the sub-tasks and low training efficiency. In this paper, we present DeepSolo, a simple DETR-like baseline that lets a single decoder with explicit points solo for text detection and recognition simultaneously and efficiently. Technically, for each text instance, we represent the character sequence as ordered points and model them with learnable explicit point queries. After passing a single decoder, the point queries have encoded requisite text semantics and locations. Furthermore, we show the surprisingly good extensibility of our method, in terms of character class, language type, and task. On the one hand, DeepSolo not only performs well in English scenes but also masters the Chinese transcription with complex font structure and a thousand-level character classes. On the other hand, based on the extensibility of DeepSolo, we launch DeepSolo++ for multilingual text spotting, making a further step to let Transformer decoder with explicit points solo for multilingual text detection, recognition, and script identification all at once. Extensive experiments on public benchmarks demonstrate that our simple approach achieves better training efficiency compared with Transformer-based models and outperforms the previous state-of-the-art. In addition, DeepSolo and DeepSolo++ are also compatible with line annotations, which require much less annotation cost than polygons. The code is available at \url{https://github.com/ViTAE-Transformer/DeepSolo}. | 翻訳日:2023-06-01 15:31:03 公開日:2023-05-31 |
# 光ファイバー画像超解像のための物理インフォームエンサンブル表現 Physics-Informed Ensemble Representation for Light-Field Image Super-Resolution ( http://arxiv.org/abs/2305.20006v1 ) ライセンス: Link先を確認 | Manchang Jin, Gaosheng Liu, Kunshu Hu, Xin Luo, Kun Li, Jingyu Yang | (参考訳) 最近の学習に基づくアプローチは、畳み込みベースまたはトランスフォーマーベースのネットワーク構造を探索することで、光場(lf)像の超解像(sr)において大きな進歩を遂げている。
しかし、LFイメージングには、十分に活用されていない多くの本質的な物理的先行性がある。
本稿では,lf撮像プロセスの座標変換を解析し,lf像の幾何学的関係を明らかにする。
このような幾何学的前提に基づいて、サブピクセル情報を提供する仮想スリット画像(VSI)の新しいLFサブ空間を導入する。
そこで我々は,4次元データ間の豊富な相関を複雑に管理するために,より効率的な特徴抽出のために,すべての$C_4^2$LF部分空間の学習アンサンブル表現を提案する。
lfデータから画像構造を超解くために,変換器の演算探索領域をlf物理前処理で制約するエピックスフォーマと呼ばれる幾何認識デコーダを提案する。
空間的および角的SRタスクにおける実験結果から,提案手法が他の最先端のスキーム,特に様々な相違に優れることを示した。 Recent learning-based approaches have achieved significant progress in light field (LF) image super-resolution (SR) by exploring convolution-based or transformer-based network structures. However, LF imaging has many intrinsic physical priors that have not been fully exploited. In this paper, we analyze the coordinate transformation of the LF imaging process to reveal the geometric relationship in the LF images. Based on such geometric priors, we introduce a new LF subspace of virtual-slit images (VSI) that provide sub-pixel information complementary to sub-aperture images. To leverage the abundant correlation across the four-dimensional data with manageable complexity, we propose learning ensemble representation of all $C_4^2$ LF subspaces for more effective feature extraction. To super-resolve image structures from undersampled LF data, we propose a geometry-aware decoder, named EPIXformer, which constrains the transformer's operational searching regions with a LF physical prior. Experimental results on both spatial and angular SR tasks demonstrate that the proposed method outperforms other state-of-the-art schemes, especially in handling various disparities. | 翻訳日:2023-06-01 15:25:00 公開日:2023-05-31 |
# ベイズ逆問題を解くための学習:不定形変分推論アプローチ Learning to solve Bayesian inverse problems: An amortized variational inference approach ( http://arxiv.org/abs/2305.20004v1 ) ライセンス: Link先を確認 | Sharmila Karumuri and Ilias Bilionis | (参考訳) 逆問題、すなわち実験データから物理モデルのパラメータを推定することは、科学や工学においてユビキタスである。
ベイズ式は不適切な問題を緩和し、認識の不確実性を定量化するため、金本位制である。
分析後部は一般には利用できないので、マルコフ連鎖モンテカルロサンプリングや近似変分推論に頼っている。
しかし、新しいデータセットごとに推論をスクラッチから再実行する必要がある。
この欠点は、ベイズ式の適用性が、例えば、工学系のヘルスモニタリングや医療診断など、リアルタイムな設定に制限されている。
本研究の目的は,ベイズ逆写像,すなわちデータから後方への写像を学習することにより,リアルタイム推論を可能にする手法を開発することである。
私たちのアプローチは以下の通りです。
深層ニューラルネットワークに基づくパラメータ化を用いて後方分布を表す。
次に、モデルと互換性のあるすべての可能なデータセットに対して、エビデンスの期待値を最大化することを含む、amortized variational inference法によるネットワークパラメータを学習する。
我々は、科学と工学のベンチマーク問題の集合を例示して、このアプローチを実証する。
この結果は,マルコフ連鎖モンテカルロによって得られた基底的真理と,我々のアプローチの後方推定値が一致することを示す。
トレーニングが完了すると、我々のアプローチは、ニューラルネットワークの前方通過のコストに対して、観測の後方パラメータを提供する。 Inverse problems, i.e., estimating parameters of physical models from experimental data, are ubiquitous in science and engineering. The Bayesian formulation is the gold standard because it alleviates ill-posedness issues and quantifies epistemic uncertainty. Since analytical posteriors are not typically available, one resorts to Markov chain Monte Carlo sampling or approximate variational inference. However, inference needs to be rerun from scratch for each new set of data. This drawback limits the applicability of the Bayesian formulation to real-time settings, e.g., health monitoring of engineered systems, and medical diagnosis. The objective of this paper is to develop a methodology that enables real-time inference by learning the Bayesian inverse map, i.e., the map from data to posteriors. Our approach is as follows. We represent the posterior distribution using a parameterization based on deep neural networks. Next, we learn the network parameters by amortized variational inference method which involves maximizing the expectation of evidence lower bound over all possible datasets compatible with the model. We demonstrate our approach by solving examples a set of benchmark problems from science and engineering. Our results show that the posterior estimates of our approach are in agreement with the corresponding ground truth obtained by Markov chain Monte Carlo. Once trained, our approach provides the posterior parameters of observation just at the cost of a forward pass of the neural network. | 翻訳日:2023-06-01 15:24:37 公開日:2023-05-31 |
# ヒット率に基づく新しいブラックボックスプロセス品質最適化手法 A Novel Black Box Process Quality Optimization Approach based on Hit Rate ( http://arxiv.org/abs/2305.20003v1 ) ライセンス: Link先を確認 | Yang Yang, Jian Wu, Xiangman Song, Derun Wu, Lijie Su, Lixin Tang | (参考訳) ヒットレートは、統合産業プロセスにおけるプロセス製品の品質を予測する重要なパフォーマンス指標である。
下流プロセスで受け入れられる製品の割合を、品質管理の範囲内で表します。
しかし、ヒット率の最適化は非凸で難しい問題である。
この問題に対処するために,因子付き隠れマルコフモデル,マルチタスク弾性ネット,準凸最適化を組み合わせたデータ駆動型準凸法を提案する。
提案手法は,元の非凸問題から凸可能問題の一組に変換し,最適ヒット率を実現する。
モンテカルロシミュレーションと実世界実験により, 対流最適化特性と準凸フロンティアの検証を行った。
その結果、我々のアプローチは古典的なモデルよりも優れており、2つの実際のデータセットで少なくとも41.11%と31.01%のヒット率を改善している。
さらに、準凸フロンティアは、従来のモデルで得られた解の劣化に関する参照説明と可視化を提供する。 Hit rate is a key performance metric in predicting process product quality in integrated industrial processes. It represents the percentage of products accepted by downstream processes within a controlled range of quality. However, optimizing hit rate is a non-convex and challenging problem. To address this issue, we propose a data-driven quasi-convex approach that combines factorial hidden Markov models, multitask elastic net, and quasi-convex optimization. Our approach converts the original non-convex problem into a set of convex feasible problems, achieving an optimal hit rate. We verify the convex optimization property and quasi-convex frontier through Monte Carlo simulations and real-world experiments in steel production. Results demonstrate that our approach outperforms classical models, improving hit rates by at least 41.11% and 31.01% on two real datasets. Furthermore, the quasi-convex frontier provides a reference explanation and visualization for the deterioration of solutions obtained by conventional models. | 翻訳日:2023-06-01 15:24:16 公開日:2023-05-31 |
# 正規化高次元モデルを説明するための表現点選択 Representer Point Selection for Explaining Regularized High-dimensional Models ( http://arxiv.org/abs/2305.20002v1 ) ライセンス: Link先を確認 | Che-Ping Tsai, Jiong Zhang, Eli Chien, Hsiang-Fu Yu, Cho-Jui Hsieh, Pradeep Ravikumar | (参考訳) 本稿では,高次元代表者(High-dimensional representativeer)と呼ぶサンプルに基づく新しいクラスを紹介し,各トレーニングサンプルの重み付けの観点から,正規化された高次元モデルの予測を説明する。
私たちのワークホースは、一般的な正規化高次元モデルに対する新しい表現子定理であり、各トレーニングサンプルからの貢献の観点からモデル予測を分解する: 正(負)の(負)インパクトトレーニングサンプルに対応する正の(負の)値がモデルの予測に適合する。
我々は、$\ell_1$正規化スパースモデルと核ノルム正規化低ランクモデルの標準インスタンスの結果を導出する。
本研究では, 協調フィルタリングの文脈における低ランクモデルの適用について検討し, 高次元表現器を特定のポピュラーなモデルのクラスに対してインスタンス化する。
最後に,提案手法の3つの実世界のバイナリ分類データセットと2つのレコメンダシステムデータセットにおける経験的性能について検討した。
また,モデルレコメンデーションにおける高次元表現器の有用性を示す。 We introduce a novel class of sample-based explanations we term high-dimensional representers, that can be used to explain the predictions of a regularized high-dimensional model in terms of importance weights for each of the training samples. Our workhorse is a novel representer theorem for general regularized high-dimensional models, which decomposes the model prediction in terms of contributions from each of the training samples: with positive (negative) values corresponding to positive (negative) impact training samples to the model's prediction. We derive consequences for the canonical instances of $\ell_1$ regularized sparse models, and nuclear norm regularized low-rank models. As a case study, we further investigate the application of low-rank models in the context of collaborative filtering, where we instantiate high-dimensional representers for specific popular classes of models. Finally, we study the empirical performance of our proposed methods on three real-world binary classification datasets and two recommender system datasets. We also showcase the utility of high-dimensional representers in explaining model recommendations. | 翻訳日:2023-06-01 15:24:02 公開日:2023-05-31 |
# ビームツリー再帰細胞 Beam Tree Recursive Cells ( http://arxiv.org/abs/2305.19999v1 ) ライセンス: Link先を確認 | Jishnu Ray Chowdhury, Cornelia Caragea | (参考訳) 本稿では,Recursive Neural Networks (RvNN) を拡張し,遅延構造誘導のためのビームサーチを行うバックプロパゲーションフレンドリーなフレームワークである Beam Tree Recursive Cell (BT-Cell) を提案する。
この枠組みをさらに拡張し,ビーム探索におけるハードトップk演算子の緩和を提案すれば,勾配信号の伝搬性が向上する。
提案手法は, 合成データと現実データの両方において, 異なる分布分割で評価する。
実験の結果、BTCellはリストOpsや論理推論といった難易度の高い構造依存型合成タスクにおいて、他のRvNNモデルと同等の性能を保ちながら、ほぼ完璧な性能を実現していることがわかった。
さらに, listops における未知の引数数に対する一般化において,神経モデルの既知の障害事例を同定する。
コードは、https://github.com/JRC 1995/ BeamTreeRecursiveCells.comで入手できる。 We propose Beam Tree Recursive Cell (BT-Cell) - a backpropagation-friendly framework to extend Recursive Neural Networks (RvNNs) with beam search for latent structure induction. We further extend this framework by proposing a relaxation of the hard top-k operators in beam search for better propagation of gradient signals. We evaluate our proposed models in different out-of-distribution splits in both synthetic and realistic data. Our experiments show that BTCell achieves near-perfect performance on several challenging structure-sensitive synthetic tasks like ListOps and logical inference while maintaining comparable performance in realistic data against other RvNN-based models. Additionally, we identify a previously unknown failure case for neural models in generalization to unseen number of arguments in ListOps. The code is available at: https://github.com/JRC1995/ BeamTreeRecursiveCells. | 翻訳日:2023-06-01 15:23:43 公開日:2023-05-31 |
# テキスト分類におけるamortizationによるshapley値の効率的な推定 Efficient Shapley Values Estimation by Amortization for Text Classification ( http://arxiv.org/abs/2305.19998v1 ) ライセンス: Link先を確認 | Chenghao Yang, Fan Yin, He He, Kai-Wei Chang, Xiaofei Ma, Bing Xiang | (参考訳) ニューラルテキスト分類モデルの説明においてShapley Valuesが人気があるにもかかわらず、多数のモデル評価のために、大きな事前訓練モデルでは計算が禁じられている。
実際には、シェープ値はしばしば少数の確率的モデル評価によって推定される。
しかし、推定されたシャプリー値は、ランダムな種選択に敏感であることを示している。トップランクの機能は、特に長い入力テキストを持つ例では、異なる種間で重なりがほとんどないことが多い。
これは、何千ものモデル評価を集約することでのみ緩和できるが、一方で、かなりの計算オーバーヘッドを引き起こす。
安定性と効率のトレードオフを緩和するため,各入力機能のシェープリー値を,追加のモデル評価をすることなく直接予測する償却モデルを開発した。
安定性を確保するために、多数のモデル評価からShapley Valuesを推定する一連の例に基づいてトレーニングされる。
2つのテキスト分類データセットの実験結果から,従来の手法に比べて最大60倍の速度でシェープ値を正確に推定できることが示されている。
さらに、推定値は推論が決定論的であるため安定である。
コードはhttps://github.com/yangalan123/amortized-interpretabilityでリリースします。 Despite the popularity of Shapley Values in explaining neural text classification models, computing them is prohibitive for large pretrained models due to a large number of model evaluations. In practice, Shapley Values are often estimated with a small number of stochastic model evaluations. However, we show that the estimated Shapley Values are sensitive to random seed choices -- the top-ranked features often have little overlap across different seeds, especially on examples with longer input texts. This can only be mitigated by aggregating thousands of model evaluations, which on the other hand, induces substantial computational overheads. To mitigate the trade-off between stability and efficiency, we develop an amortized model that directly predicts each input feature's Shapley Value without additional model evaluations. It is trained on a set of examples whose Shapley Values are estimated from a large number of model evaluations to ensure stability. Experimental results on two text classification datasets demonstrate that our amortized model estimates Shapley Values accurately with up to 60 times speedup compared to traditional methods. Furthermore, the estimated values are stable as the inference is deterministic. We release our code at https://github.com/yangalan123/Amortized-Interpretability. | 翻訳日:2023-06-01 15:23:27 公開日:2023-05-31 |
# 潜在グラフィカルブロックモデルによる電子健康記録データを用いたナレッジグラフ埋め込み Knowledge Graph Embedding with Electronic Health Records Data via Latent Graphical Block Model ( http://arxiv.org/abs/2305.19997v1 ) ライセンス: Link先を確認 | Junwei Lu, Jin Yin, Tianxi Cai | (参考訳) 電子健康記録(EHR)の普及により、大規模なEHRは、翻訳臨床研究のためのもう1つの豊富なデータソースとなっている。
その可能性にもかかわらず、EHRデータから一般化可能な知識を導き出すことは依然として困難である。
第一に、EHRデータはデータ要素を詳細に記述しすぎ、研究のために断片化している臨床医療の一部として生成される。
階層構造を持つ共通オントロジーへのEHRデータのマッピングは近年進歩しているが、局所的なEHRコードの自動グループ化を大規模に行うためには、多くの開発が必要である。
第二に、独特なEHRの特徴の総数は膨大であり、特に条件付き依存構造にある場合、再現可能な知識グラフを導出するための方法論的課題を示唆している。
第三に、非常に大きな患者コホート上の詳細なEHRデータは、知識ネットワークの導出にさらなる計算課題を課している。
これらの課題を克服するため,我々は潜伏型グラフィカルブロックモデル(lgbm)を用いてehrの機能間の条件付き依存性構造を推定する。
LGBMは2層構造を持ち、EHRの特徴に対して第1にセマンティック埋め込みベクトル(SEV)表現を提供し、第2に潜伏SEV上のグラフィカルブロックモデルをオーバーレイする。
グラフィカルモデル上のブロック構造は、EHRで同義的な特徴をクラスタリングすることを可能にする。
実験点相互情報行列に基づいて,LGBMを統計的・計算的両面で効率的に学習することを提案する。
提案した推定器の統計率を確立し,ブロック構造の完全回復を示す。
シミュレーション研究と実EHRデータ解析の結果から,提案したLGBM推定器は有限試料で良好に動作したことが示唆された。 Due to the increasing adoption of electronic health records (EHR), large scale EHRs have become another rich data source for translational clinical research. Despite its potential, deriving generalizable knowledge from EHR data remains challenging. First, EHR data are generated as part of clinical care with data elements too detailed and fragmented for research. Despite recent progress in mapping EHR data to common ontology with hierarchical structures, much development is still needed to enable automatic grouping of local EHR codes to meaningful clinical concepts at a large scale. Second, the total number of unique EHR features is large, imposing methodological challenges to derive reproducible knowledge graph, especially when interest lies in conditional dependency structure. Third, the detailed EHR data on a very large patient cohort imposes additional computational challenge to deriving a knowledge network. To overcome these challenges, we propose to infer the conditional dependency structure among EHR features via a latent graphical block model (LGBM). The LGBM has a two layer structure with the first providing semantic embedding vector (SEV) representation for the EHR features and the second overlaying a graphical block model on the latent SEVs. The block structures on the graphical model also allows us to cluster synonymous features in EHR. We propose to learn the LGBM efficiently, in both statistical and computational sense, based on the empirical point mutual information matrix. We establish the statistical rates of the proposed estimators and show the perfect recovery of the block structure. Numerical results from simulation studies and real EHR data analyses suggest that the proposed LGBM estimator performs well in finite sample. | 翻訳日:2023-06-01 15:23:06 公開日:2023-05-31 |
# 雑音多視点クラスタリングのためのネスト行列-テンソルモデル A Nested Matrix-Tensor Model for Noisy Multi-view Clustering ( http://arxiv.org/abs/2305.19992v1 ) ライセンス: Link先を確認 | Mohamed El Amine Seddik, Mastane Achab, Henrique Goulart, Merouane Debbah | (参考訳) 本稿では,階数3のスパイクランク1テンソルモデルを拡張したネスト行列テンソルモデルを提案する。
このモデルは、各データポイントの複数のノイズを観測するマルチビュークラスタリング問題に特に動機付けられており、ビューに沿って非均一なばらつきが生じる可能性がある。
この場合、データはビューが積み重ねられた順序3テンソルで自然に表現できる。
このようなテンソルを考えると、最高のランク1テンソル近似を行うことで隠れたクラスターの推定を考える。
提案手法の理論的性能を考察するために, 得られた成分ベクトルと隠れモデルパラメータベクトルとのアライメントの観点から, この最良ランク1の近似の挙動を, 大次元状態において特徴付ける。
特に,提案したクラスタリング手法の正確な精度を理論的に予測できることが示唆された。
さらに, 数値実験により, 基礎となる低ランクテンソル構造を無視する単純展開型アルゴリズムと比較して, テンソルベースアプローチの精度が向上することが示唆された。
本分析では, スパイク行列とテンソルモデルで観測される典型的な挙動の「補間」と, モデルパラメータによる予期せぬ非自明な相転移現象を明らかにする。 In this paper, we propose a nested matrix-tensor model which extends the spiked rank-one tensor model of order three. This model is particularly motivated by a multi-view clustering problem in which multiple noisy observations of each data point are acquired, with potentially non-uniform variances along the views. In this case, data can be naturally represented by an order-three tensor where the views are stacked. Given such a tensor, we consider the estimation of the hidden clusters via performing a best rank-one tensor approximation. In order to study the theoretical performance of this approach, we characterize the behavior of this best rank-one approximation in terms of the alignments of the obtained component vectors with the hidden model parameter vectors, in the large-dimensional regime. In particular, we show that our theoretical results allow us to anticipate the exact accuracy of the proposed clustering approach. Furthermore, numerical experiments indicate that leveraging our tensor-based approach yields better accuracy compared to a naive unfolding-based algorithm which ignores the underlying low-rank tensor structure. Our analysis unveils unexpected and non-trivial phase transition phenomena depending on the model parameters, ``interpolating'' between the typical behavior observed for the spiked matrix and tensor models. | 翻訳日:2023-06-01 15:22:39 公開日:2023-05-31 |
# 猫状態注入による非安定化と絡み合い Non-stabilizerness and entanglement from cat-state injection ( http://arxiv.org/abs/2305.19988v1 ) ライセンス: Link先を確認 | Filipa C. R. Peres, Rafael Wagner, Ernesto F. Galv\~ao | (参考訳) 近年、猫の状態は図式ZX計算に基づいて古典的な量子回路シミュレータのランタイムをヒューリスティックに改善するために使用されている。
ここでは,量子回路モデルにおける猫状態注入の利用について検討する。
猫状態の新たなファミリーである$\left| \mathrm{cat}_m^* \right>$を導入し、それを用いて、任意の量子回路に非安定化性(マジックとしても知られる)と絡み合いを同時に注入する回路ガジェットを記述する。
キャットステートインジェクションが古典シミュレーションのスピードアップに繋がらないという数値的な証拠を提供する。
一方,我々のガジェットは,猫状態の説得力のある応用範囲を広げるために利用できることを示す。
具体的には、注入された量子ビット数の節約を達成するためにそれらを活用する方法を示し、また、非絡み合うクリフォード回路において、制御された方法でスクランブルダイナミクスを誘導する。 Recently, cat states have been used to heuristically improve the runtime of a classical simulator of quantum circuits based on the diagrammatic ZX-calculus. Here we explore the use of cat-state injection within the quantum circuit model. We introduce a new family of cat states $\left| \mathrm{cat}_m^* \right>$, and describe circuit gadgets using them to concurrently inject non-stabilizerness (also known as magic) and entanglement into any quantum circuit. We provide numerical evidence that cat-state injection does not lead to speed-up in classical simulation. On the other hand, we show that our gadgets can be used to widen the scope of compelling applications of cat states. Specifically, we show how to leverage them to achieve savings in the number of injected qubits, and also to induce scrambling dynamics in otherwise non-entangling Clifford circuits in a controlled manner. | 翻訳日:2023-06-01 15:22:18 公開日:2023-05-31 |
# InGram: 関係グラフによる帰納的知識グラフの埋め込み InGram: Inductive Knowledge Graph Embedding via Relation Graphs ( http://arxiv.org/abs/2305.19987v1 ) ライセンス: Link先を確認 | Jaejun Lee, Chanyoung Chung, Joyce Jiyoung Whang | (参考訳) 帰納的知識グラフの完成は、トレーニング中に観察されない新しいエンティティ間の三重項の欠落を予測するタスクとみなされている。
ほとんどの帰納的知識グラフ補完法は、全ての実体が新しいものであると仮定するが、推論時に新しい関係が現れることを許さない。
この制限により、既存のメソッドは、新しいエンティティが新しい関係を伴う実世界の知識グラフを適切に扱うことができない。
本稿では,推論時に新たなエンティティだけでなく,新たな関係の埋め込みを生成できる帰納的知識グラフ埋め込み手法ingramを提案する。
知識グラフが与えられた場合、関係グラフは関係と親和性重みからなる重み付きグラフとして定義する。
関係グラフと元の知識グラフに基づいて、InGramは隣り合う埋め込みを集約する方法を学び、注意機構を用いて関係と実体の埋め込みを生成する。
実験の結果,InGramは様々な帰納的学習シナリオにおいて,14種類の最先端手法より優れていた。 Inductive knowledge graph completion has been considered as the task of predicting missing triplets between new entities that are not observed during training. While most inductive knowledge graph completion methods assume that all entities can be new, they do not allow new relations to appear at inference time. This restriction prohibits the existing methods from appropriately handling real-world knowledge graphs where new entities accompany new relations. In this paper, we propose an INductive knowledge GRAph eMbedding method, InGram, that can generate embeddings of new relations as well as new entities at inference time. Given a knowledge graph, we define a relation graph as a weighted graph consisting of relations and the affinity weights between them. Based on the relation graph and the original knowledge graph, InGram learns how to aggregate neighboring embeddings to generate relation and entity embeddings using an attention mechanism. Experimental results show that InGram outperforms 14 different state-of-the-art methods on varied inductive learning scenarios. | 翻訳日:2023-06-01 15:22:00 公開日:2023-05-31 |
# 判別的相互情報推定のための変分$f$-divergenceとderangements Variational $f$-Divergence and Derangements for Discriminative Mutual Information Estimation ( http://arxiv.org/abs/2305.20025v1 ) ライセンス: Link先を確認 | Nunzio A. Letizia, Nicola Novello, Andrea M. Tonello | (参考訳) 複雑なシステムの理解を可能にするため、相互情報の正確な推定は機械学習、コミュニケーション、生物学など様々な応用において重要なタスクである。
高次元データは、処理すべきデータの量と複雑なパターンが存在するため、タスクを極めて困難にします。
近年, 相互情報の変動的下界に基づくニューラル推定器が注目されているが, 分割関数の結果, 偏差が大きいか, 偏差が大きいかの傾向がみられる。
我々は,$f$-divergenceの変動表現に基づく識別的相互情報推定器の新たなクラスを提案する。
限界トレーニングサンプルを得るために使用する置換関数の影響について検討し, 分散に基づく新しいアーキテクチャソリューションを提案する。
提案した推定器は優れたバイアス/分散トレードオフを示すため柔軟である。
参照シナリオの実験により、我々のアプローチは精度と複雑さの両面で最先端の神経推定器より優れていることが示された。 The accurate estimation of the mutual information is a crucial task in various applications, including machine learning, communications, and biology, since it enables the understanding of complex systems. High-dimensional data render the task extremely challenging due to the amount of data to be processed and the presence of convoluted patterns. Neural estimators based on variational lower bounds of the mutual information have gained attention in recent years but they are prone to either high bias or high variance as a consequence of the partition function. We propose a novel class of discriminative mutual information estimators based on the variational representation of the $f$-divergence. We investigate the impact of the permutation function used to obtain the marginal training samples and present a novel architectural solution based on derangements. The proposed estimator is flexible as it exhibits an excellent bias/variance trade-off. Experiments on reference scenarios demonstrate that our approach outperforms state-of-the-art neural estimators both in terms of accuracy and complexity. | 翻訳日:2023-06-01 15:13:44 公開日:2023-05-31 |
# バイナリ分類決定システムにおけるバイアス軽減手法:調査と勧告 Bias Mitigation Methods for Binary Classification Decision-Making Systems: Survey and Recommendations ( http://arxiv.org/abs/2305.20020v1 ) ライセンス: Link先を確認 | Madeleine Waller, Odinaldo Rodrigues, Oana Cocarascu | (参考訳) 二項分類決定システムにおけるバイアス軽減手法は、不公平で保護された個人的特性に基づいて個人やグループを差別しない公平な機械学習プロセスの設計の重要性がますます高まっているため、広く研究されている。
本稿では,バイアス緩和手法の研究状況の概要を構造化し,そのメリットと限界について報告し,二項分類のための将来のバイアス緩和手法の開発を推奨する。 Bias mitigation methods for binary classification decision-making systems have been widely researched due to the ever-growing importance of designing fair machine learning processes that are impartial and do not discriminate against individuals or groups based on protected personal characteristics. In this paper, we present a structured overview of the research landscape for bias mitigation methods, report on their benefits and limitations, and provide recommendations for the development of future bias mitigation methods for binary classification. | 翻訳日:2023-06-01 15:13:28 公開日:2023-05-31 |
# 長さ一般化のための単調位置注意 Monotonic Location Attention for Length Generalization ( http://arxiv.org/abs/2305.20019v1 ) ライセンス: Link先を確認 | Jishnu Ray Chowdhury, Cornelia Caragea | (参考訳) seq2seqネットワークにおける位置ベースのクロスアテンションを利用して,アルゴリズムタスクにおける長さ汎化を実現するための様々な方法を検討する。
提案手法では,元と逆のエンコード表現と相対的な注意を組み合わさって,前と逆のルックアップタスクのほぼ完全な長さの一般化や,一般に対処が困難であったタスクのコピーを可能にする。
また, 理想的注意位置の相対距離が時間ステップによって異なる難易度診断タスクを考案する。
このような設定では、比較的注意深い単純な補間トリックは不十分である。
我々は,新しい診断課題に対処するために,dubois et al. (2020) 上に位置注意構築の新たな変種を導入する。
また,SCAN (Lake & Baroni, 2018) とCFQ (Keysers et al., 2020) における長さ一般化のアプローチの利点を示す。
コードはgithubから入手できます。 We explore different ways to utilize position-based cross-attention in seq2seq networks to enable length generalization in algorithmic tasks. We show that a simple approach of interpolating the original and reversed encoded representations combined with relative attention allows near-perfect length generalization for both forward and reverse lookup tasks or copy tasks that had been generally hard to tackle. We also devise harder diagnostic tasks where the relative distance of the ideal attention position varies with timestep. In such settings, the simple interpolation trick with relative attention is not sufficient. We introduce novel variants of location attention building on top of Dubois et al. (2020) to address the new diagnostic tasks. We also show the benefits of our approaches for length generalization in SCAN (Lake & Baroni, 2018) and CFQ (Keysers et al., 2020). Our code is available on GitHub. | 翻訳日:2023-06-01 15:13:20 公開日:2023-05-31 |
# Logical Offline Cycle Consistencyを用いた潜在言語構造のスケーラブル学習 Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency ( http://arxiv.org/abs/2305.20018v1 ) ライセンス: Link先を確認 | Maxwell Crouse, Ramon Astudillo, Tahira Naseem, Subhajit Chaudhury, Pavan Kapanipathi, Salim Roukos, Alexander Gray | (参考訳) 本稿では,ニューラルネットワークのセマンティクスパーサをトレーニングするためのスケーラブルな半教師付き手法である論理オフラインサイクル一貫性最適化(locco)を提案する。
概念的には、LOCCOは自己学習の一形態と見なすことができ、そこで訓練中のセマンティックパーサーを使用してラベルなしテキストのアノテーションを生成し、その後新しい監督機関として使用される。
アノテーションの質を高めるため,提案手法では,有効な形式的意味表現に先行するカウントベースと,ニューラルテキスト生成モデルによるサイクル一貫性スコアを付加信号として利用する。
事前解析と意味解析の両方は、トレーニングデータの完全パスから別の方法で更新され、確率的変動推論によって潜在構造の限界化を近似すると見なすことができる。
カウントベースで凍結されたテキスト生成モデルとオフラインアノテーションプロセスを使用することで、従来の自己学習と比較して、複雑性とレイテンシが無視できるアプローチが得られる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
我々は,LOCCOの有効性をよく知られたWebNLGベンチマークで実証し,等価条件下での自己学習構文に対する2点の改善,従来の最先端構文に対する1.3点の改善,BLEUスコアの観点からの競合テキスト生成性能について述べる。 We introduce Logical Offline Cycle Consistency Optimization (LOCCO), a scalable, semi-supervised method for training a neural semantic parser. Conceptually, LOCCO can be viewed as a form of self-learning where the semantic parser being trained is used to generate annotations for unlabeled text that are then used as new supervision. To increase the quality of annotations, our method utilizes a count-based prior over valid formal meaning representations and a cycle-consistency score produced by a neural text generation model as additional signals. Both the prior and semantic parser are updated in an alternate fashion from full passes over the training data, which can be seen as approximating the marginalization of latent structures through stochastic variational inference. The use of a count-based prior, frozen text generation model, and offline annotation process yields an approach with negligible complexity and latency increases as compared to conventional self-learning. As an added bonus, the annotations produced by LOCCO can be trivially repurposed to train a neural text generation model. We demonstrate the utility of LOCCO on the well-known WebNLG benchmark where we obtain an improvement of 2 points against a self-learning parser under equivalent conditions, an improvement of 1.3 points against the previous state-of-the-art parser, and competitive text generation performance in terms of BLEU score. | 翻訳日:2023-06-01 15:13:02 公開日:2023-05-31 |
# 量子暗号のための固体量子光源の光子数コヒーレンス制御 Controlling the Photon Number Coherence of Solid-state Quantum Light Sources for Quantum Cryptography ( http://arxiv.org/abs/2305.20017v1 ) ライセンス: Link先を確認 | Yusuf Karli, Daniel A. Vajner, Florian Kappe, Paul C. A. Hagen, Lena M. Hansen, Ren\'e Schwarz, Thomas K. Bracht, Christian Schimpf, Saimon F. Covre da Silva, Philip Walther, Armando Rastelli, Vollrath Martin Axt, Juan C. Loredo, Vikas Remesh, Tobias Heindel, Doris E. Reiter, and Gregor Weihs | (参考訳) 量子通信ネットワークは単一光子を用いた量子鍵分布(QKD)を含む量子暗号プロトコルに依存している。
qkdプロトコルのセキュリティに関する重要な要素は、光子数コヒーレンス(pnc)、すなわち、励起スキームに依存するゼロと1光子フォック状態の位相関係である。
したがって、所望の特性を持つ飛行量子ビットを得るには、量子エミッタの最適ポンプ方式を選択する必要がある。
半導体量子ドットは、高純度で識別不能なオンデマンドの単一光子を生成する。
量子ドットの2光子励起と刺激パルスを組み合わせることで、制御可能なPNCによる高品質な単一光子の生成を実証する。
我々のアプローチは量子ネットワークにおけるセキュアな通信への有効な経路を提供する。 Quantum communication networks rely on quantum cryptographic protocols including quantum key distribution (QKD) using single photons. A critical element regarding the security of QKD protocols is the photon number coherence (PNC), i.e. the phase relation between the zero and one-photon Fock state, which critically depends on the excitation scheme. Thus, to obtain flying qubits with the desired properties, optimal pumping schemes for quantum emitters need to be selected. Semiconductor quantum dots generate on-demand single photons with high purity and indistinguishability. Exploiting two-photon excitation of a quantum dot combined with a stimulation pulse, we demonstrate the generation of high-quality single photons with a controllable degree of PNC. Our approach provides a viable route toward secure communication in quantum networks. | 翻訳日:2023-06-01 15:12:39 公開日:2023-05-31 |
# ローコードAIのためのAI AI for Low-Code for AI ( http://arxiv.org/abs/2305.20015v1 ) ライセンス: Link先を確認 | Nikitha Rao, Jason Tsay, Kiran Kate, Vincent J. Hellendoorn, Martin Hirzel | (参考訳) ローコードプログラミングにより、シチズンディベロッパーは通常、ビジュアルインターフェース(ドラッグ&ドロップなど)を介して、最小限のコーディング労力でプログラムを作成できる。
並行して、CopilotやChatGPTといった最近のAIツールが、自然言語命令からプログラムを生成する。
ChatGPTのようなツールは大きなAPIを覚える必要を大幅に減らしますが、ユーザはプログラムを読み(そして変更)なければなりません。
それらの交差点では、ビジュアルプログラミングインタフェース(LowCoder_VP)とAIを利用した自然言語インターフェース(LowCoder_NL)の両方をサポートするAIパイプラインを開発するための、最初のローコードツールであるLowCoderを提案する。
このツールを活用して、これらの2つのモダリティがプログラマにユーザスタディを実行することで、プログラマにどのように役立つか、という最初の洞察を提供する。
我々は、LowCoder_NLコンポーネントを単純なキーワード検索で半分に置き換え、LowCoderを使用して4つのMLパイプラインを実装することで、さまざまなレベルのAI専門知識を持つ20人の開発者をタスクします。
全体として、LowCoderは特に役に立ちます。
(i)発見可能性:lowcoder_nlを使用して、被験者は、キーワード検索条件でそれぞれ32.5%と27.5%と、タスクの75%で新しいオペレータを発見した。
(ii)反復構成:タスクの82.5%が成功し、多くの初期パイプラインがさらに改善された。
質的な分析は、AIがユーザーが何をすべきかを知りながら、達成したいことを明確にしていないときに初心者をサポートする方法を見つけるのに役立っていることを示している。
全体として、私たちの研究はAIのパワーとローコードプログラミングを組み合わせることの利点を強調しています。 Low-code programming allows citizen developers to create programs with minimal coding effort, typically via visual (e.g. drag-and-drop) interfaces. In parallel, recent AI-powered tools such as Copilot and ChatGPT generate programs from natural language instructions. We argue that these modalities are complementary: tools like ChatGPT greatly reduce the need to memorize large APIs but still require their users to read (and modify) programs, whereas visual tools abstract away most or all programming but struggle to provide easy access to large APIs. At their intersection, we propose LowCoder, the first low-code tool for developing AI pipelines that supports both a visual programming interface (LowCoder_VP) and an AI-powered natural language interface (LowCoder_NL). We leverage this tool to provide some of the first insights into whether and how these two modalities help programmers by conducting a user study. We task 20 developers with varying levels of AI expertise with implementing four ML pipelines using LowCoder, replacing the LowCoder_NL component with a simple keyword search in half the tasks. Overall, we find that LowCoder is especially useful for (i) Discoverability: using LowCoder_NL, participants discovered new operators in 75% of the tasks, compared to just 32.5% and 27.5% using web search or scrolling through options respectively in the keyword-search condition, and (ii) Iterative Composition: 82.5% of tasks were successfully completed and many initial pipelines were further successfully improved. Qualitative analysis shows that AI helps users discover how to implement constructs when they know what to do, but still fails to support novices when they lack clarity on what they want to accomplish. Overall, our work highlights the benefits of combining the power of AI with low-code programming. | 翻訳日:2023-06-01 15:12:25 公開日:2023-05-31 |
# 量子通信ネットワークの運用と利用のためのソフトウェアアーキテクチャ Software Architecture for Operation and Use of Quantum Communications Networks ( http://arxiv.org/abs/2305.20013v1 ) ライセンス: Link先を確認 | Dinesh Verma, Eden Figueroa, Gabriella Carini, Mark Ritter | (参考訳) 量子通信ネットワークは量子ビットの性質、すなわち状態重ね合わせ、無閉包、絡み合いを用いて、光学リンクや自由空間をまたいで、非常に安全な方法で情報の交換を可能にする。
新たなイノベーションは、ネットワークにおけるマルチキャスト通信と同様に、光リピータの使用を可能にする。
ある種の量子通信機構は、超冷却システムを必要としない室温で実装することができる。
これにより、量子コンピュータよりも早く量子通信によるビジネスへの影響が実現される可能性が高い。
量子ネットワークは、現在展開されている古典的ネットワークのエコシステムに統合され、新しい機能でそれらを拡張する必要がある。
従来のコンピュータとネットワークは、量子ネットワークが提供する新しいセキュアな通信機能を利用できる必要がある。
この相互運用性を提供するには、量子ネットワークの利用に関する適切なソフトウェア抽象化を開発する必要がある。
本稿では,量子ネットワークが提供できるソフトウェア抽象化の種類と,新たな抽象化がサポートするアプリケーションの種類について検討する。 Quantum Communications Networks using the properties of qubits, namely state superposition, no-cloning and entanglement, can enable the exchange of information in a very secure manner across optical links or free space. New innovations enable the use of optical repeaters as well as multi-cast communication in the networks. Some types of quantum communications mechanisms can be implemented at room-temperature instead of requiring super-cooled systems. This makes it likely that business impact from quantum communications will be realized sooner than that from quantum computers. Quantum networks need to be integrated into the ecosystem of currently deployed classical networks and augment them with new capabilities. Classical computers and networks need to be able to use the new secure communication capabilities offered by quantum networks. To provide this interoperability, appropriate software abstractions on the usage of quantum networks need to be developed. In this paper, we examine what the type of software abstractions quantum networks can provide, and the type of applications that the new abstractions can support. | 翻訳日:2023-06-01 15:11:50 公開日:2023-05-31 |
# 制約付き因果ベイズ最適化 Constrained Causal Bayesian Optimization ( http://arxiv.org/abs/2305.20011v1 ) ライセンス: Link先を確認 | Virginia Aglietti, Alan Malek, Ira Ktena, Silvia Chiappa | (参考訳) 制約条件下でターゲット変数を最適化する既知の因果グラフの介入を見つけるための制約付き因果ベイズ最適化(cCBO)を提案する。
cCBOはまず、グラフ構造を利用して探索空間を縮小し、もし利用可能であれば観測データセットを用いて、ガウス過程を用いて目標と制約量をモデル化し、制約付き予測改善獲得関数を介して介入を順次選択することで制限された最適化問題を解く。
本研究では,観察データと介入データの統合を可能とし,効果間の相関と高度化のレベルの増加を捉えるサーロゲートモデルを提案する。
実世界の因果グラフ上でcCBOを評価し, 高速収束と実現可能な介入の比率のトレードオフが成功したことを示す。 We propose constrained causal Bayesian optimization (cCBO), an approach for finding interventions in a known causal graph that optimize a target variable under some constraints. cCBO first reduces the search space by exploiting the graph structure and, if available, an observational dataset; and then solves the restricted optimization problem by modelling target and constraint quantities using Gaussian processes and by sequentially selecting interventions via a constrained expected improvement acquisition function. We propose different surrogate models that enable to integrate observational and interventional data while capturing correlation among effects with increasing levels of sophistication. We evaluate cCBO on artificial and real-world causal graphs showing successful trade off between fast convergence and percentage of feasible interventions. | 翻訳日:2023-06-01 15:11:35 公開日:2023-05-31 |
# 人間か?
チューリングテストへのゲーム化アプローチ Human or Not? A Gamified Approach to the Turing Test ( http://arxiv.org/abs/2305.20010v1 ) ライセンス: Link先を確認 | Daniel Jannai, Amos Meron, Barak Lenz, Yoav Levine, Yoav Shoham | (参考訳) 我々は、チューリングテストにインスパイアされたオンラインゲーム「Human or Not?」を紹介し、AIチャットボットがダイアログで人間を模倣し、人間が他の人間からボットを伝える能力を測定する。
1ヵ月間、このゲームは150万人以上のユーザーによってプレイされ、匿名の2分間のチャットセッションを他の人間やAI言語モデルと交わし、人間のように振る舞うように促された。
プレイヤーのタスクは、人やAIに話しかけたかどうかを正確に推測することであった。
この最大のチューリング式試験は、いくつかの興味深い事実を明らかにした。
例えば、全体のユーザーは68%のゲームでパートナーの身元を正確に推測した。
ユーザーがAIボットに直面したゲームのサブセットでは、ユーザーは正しい推測率を60%(偶然よりもそれほど高くない)に下げていた。
このホワイトペーパーは、このユニークな実験の開発、展開、結果について詳述する。
この実験は、多くの拡張と改良を求めているが、これらの発見はすでに、人間とAIの始まりとなる、避けられない未来に光を当て始めている。 We present "Human or Not?", an online game inspired by the Turing test, that measures the capability of AI chatbots to mimic humans in dialog, and of humans to tell bots from other humans. Over the course of a month, the game was played by over 1.5 million users who engaged in anonymous two-minute chat sessions with either another human or an AI language model which was prompted to behave like humans. The task of the players was to correctly guess whether they spoke to a person or to an AI. This largest scale Turing-style test conducted to date revealed some interesting facts. For example, overall users guessed the identity of their partners correctly in only 68% of the games. In the subset of the games in which users faced an AI bot, users had even lower correct guess rates of 60% (that is, not much higher than chance). This white paper details the development, deployment, and results of this unique experiment. While this experiment calls for many extensions and refinements, these findings already begin to shed light on the inevitable near future which will commingle humans and AI. | 翻訳日:2023-06-01 15:11:22 公開日:2023-05-31 |
# 離散拡散誘導によるタンパク質設計 Protein Design with Guided Discrete Diffusion ( http://arxiv.org/abs/2305.20009v1 ) ライセンス: Link先を確認 | Nate Gruver, Samuel Stanton, Nathan C. Frey, Tim G. J. Rudner, Isidro Hotzel, Julien Lafrance-Vanasse, Arvind Rajpal, Kyunghyun Cho, and Andrew Gordon Wilson | (参考訳) タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
生成モデルは可塑性配列をサンプリングし、識別モデルは高い適合度を有する配列を探索する。
条件付きサンプリングにおいて広範囲に成功しているため、分類器誘導拡散モデリングはタンパク質設計の有望な基礎となり、逆折り畳み構造のためのガイド付き拡散モデルを開発した。
本研究では,離散拡散モデルの誘導手法であるdiffusioN Optimized Smpling (NOS)を提案する。
nosはシーケンス空間で直接設計を行うことを可能にし、少ないデータや挑戦的な逆設計を含む構造ベースの方法の重大な制限を回避する。
さらに,複数の目的や編集に基づく制約を緩和するシーケンス設計のためのベイズ最適化手法であるLaMBOをNOSで一般化する。
得られた方法であるLaMBO-2は、サリエンシマップの新たな応用を通じて、離散拡散と限定的な編集によるパフォーマンスの向上を可能にする。
実世界のタンパク質設計タスクにLaMBO-2を適用し, 局所性および欠損性制約下で, 高発現率, 結合親和性を有する抗体を治療対象に最適化し, 97%の発現率, 25%の結合率を示した。 A popular approach to protein design is to combine a generative model with a discriminative model for conditional sampling. The generative model samples plausible sequences while the discriminative model guides a search for sequences with high fitness. Given its broad success in conditional sampling, classifier-guided diffusion modeling is a promising foundation for protein design, leading many to develop guided diffusion models for structure with inverse folding to recover sequences. In this work, we propose diffusioN Optimized Sampling (NOS), a guidance method for discrete diffusion models that follows gradients in the hidden states of the denoising network. NOS makes it possible to perform design directly in sequence space, circumventing significant limitations of structure-based methods, including scarce data and challenging inverse design. Moreover, we use NOS to generalize LaMBO, a Bayesian optimization procedure for sequence design that facilitates multiple objectives and edit-based constraints. The resulting method, LaMBO-2, enables discrete diffusions and stronger performance with limited edits through a novel application of saliency maps. We apply LaMBO-2 to a real-world protein design task, optimizing antibodies for higher expression yield and binding affinity to a therapeutic target under locality and liability constraints, with 97% expression rate and 25% binding rate in exploratory in vitro experiments. | 翻訳日:2023-06-01 15:11:04 公開日:2023-05-31 |
# 拡散に基づく画像復元のための統一条件枠組み A Unified Conditional Framework for Diffusion-based Image Restoration ( http://arxiv.org/abs/2305.20049v1 ) ライセンス: Link先を確認 | Yi Zhang, Xiaoyu Shi, Dasong Li, Xiaogang Wang, Jian Wang, Hongsheng Li | (参考訳) 拡散確率モデル (DPM) は, 画像生成タスクにおいて, 非常にリアルな画像を生成することができる顕著な性能を示した。
画像復元タスクにDPMを採用する場合、重要な側面は、DPMが正確な自然出力を生成するための条件情報を統合する方法である。
本稿では,画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
拡散モデルブロックの基本モジュールと積分モジュールを慎重に設計することにより、拡散モデルの各ブロックに誘導やその他の補助条件情報を統合し、空間適応型生成条件を実現する。
高分解能画像を扱うために,グリッドアーティファクトを使わずに任意の解像度画像を生成するための,簡易かつ効果的なステップ間パッチ分割戦略を提案する。
我々は, 極低照度, 消臭, JPEG復元の3つの課題に対する条件付き枠組みの評価を行い, 知覚品質の大幅な向上と回復作業の一般化を実証した。 Diffusion Probabilistic Models (DPMs) have recently shown remarkable performance in image generation tasks, which are capable of generating highly realistic images. When adopting DPMs for image restoration tasks, the crucial aspect lies in how to integrate the conditional information to guide the DPMs to generate accurate and natural output, which has been largely overlooked in existing works. In this paper, we present a unified conditional framework based on diffusion models for image restoration. We leverage a lightweight UNet to predict initial guidance and the diffusion model to learn the residual of the guidance. By carefully designing the basic module and integration module for the diffusion model block, we integrate the guidance and other auxiliary conditional information into every block of the diffusion model to achieve spatially-adaptive generation conditioning. To handle high-resolution images, we propose a simple yet effective inter-step patch-splitting strategy to produce arbitrary-resolution images without grid artifacts. We evaluate our conditional framework on three challenging tasks: extreme low-light denoising, deblurring, and JPEG restoration, demonstrating its significant improvements in perceptual quality and the generalization to restoration tasks. | 翻訳日:2023-06-01 15:06:19 公開日:2023-05-31 |
# FD:顔生成評価における深部特徴空間の役割の理解について FD: On understanding the role of deep feature spaces on face generation evaluation ( http://arxiv.org/abs/2305.20048v1 ) ライセンス: Link先を確認 | Krish Kabra, Guha Balakrishnan | (参考訳) Fr\'echet Inception Distance (FID)のような知覚メトリクスは、合成生成画像と地上の真実画像(実画像)の類似性を評価するために広く用いられている。
これらのメトリクスの背後にある重要なアイデアは、知覚的かつセマンティックにリッチな画像特徴をキャプチャする、深い機能領域におけるエラーの計算である。
その人気にもかかわらず、異なる深い特徴とその設計選択が知覚的メートル法に与える影響はよく研究されていない。
本研究では,いくつかの一般的な深層特徴空間を用いて,顔画像分布とfr\'echet距離(fd)との間の意味属性と歪みの差異を関連付けた因果分析を行う。
分析の重要な要素は,ディープフェイスジェネレータを用いた合成偽顔の作成である。
実験の結果,FDは特徴空間のトレーニングデータセットと目的関数に大きく影響されていることがわかった。
例えば、ImageNetでトレーニングされたモデルから抽出された機能を使用してFDは、目や口などの領域に重きを置く。
さらに、顔の性別分類器の特徴を用いたFDは、アイデンティティ(認識)特徴空間における距離よりも髪の長さを強調する。
最後に,特徴空間にまたがる複数の人気顔生成モデルを評価し,識別(認識)機能を除き,StyleGAN2が他の顔生成装置よりも常に上位にあることを確認する。
これは、生成モデルを評価し、関心領域のニュアンスに合わせて調整された特徴空間を使用する際に、複数の特徴空間を考える必要性を示唆する。 Perceptual metrics, like the Fr\'echet Inception Distance (FID), are widely used to assess the similarity between synthetically generated and ground truth (real) images. The key idea behind these metrics is to compute errors in a deep feature space that captures perceptually and semantically rich image features. Despite their popularity, the effect that different deep features and their design choices have on a perceptual metric has not been well studied. In this work, we perform a causal analysis linking differences in semantic attributes and distortions between face image distributions to Fr\'echet distances (FD) using several popular deep feature spaces. A key component of our analysis is the creation of synthetic counterfactual faces using deep face generators. Our experiments show that the FD is heavily influenced by its feature space's training dataset and objective function. For example, FD using features extracted from ImageNet-trained models heavily emphasize hats over regions like the eyes and mouth. Moreover, FD using features from a face gender classifier emphasize hair length more than distances in an identity (recognition) feature space. Finally, we evaluate several popular face generation models across feature spaces and find that StyleGAN2 consistently ranks higher than other face generators, except with respect to identity (recognition) features. This suggests the need for considering multiple feature spaces when evaluating generative models and using feature spaces that are tuned to nuances of the domain of interest. | 翻訳日:2023-06-01 15:05:58 公開日:2023-05-31 |
# LOWA: 属性でオブジェクトをワイルドにローカライズ LOWA: Localize Objects in the Wild with Attributes ( http://arxiv.org/abs/2305.20047v1 ) ライセンス: Link先を確認 | Xiaoyuan Guo, Kezhen Chen, Jinmeng Rao, Yawen Zhang, Baochen Sun, Jie Yang | (参考訳) 本稿では,野生の属性を効果的にローカライズする新しい手法であるlowaを提案する。
これは、インスタンスレベルの属性分類の欠如と稀なクラス名によって制限されている、現在のオープン語彙オブジェクト検出器の不足に対処することを目的としている。
lowaを訓練するために,クラス名と属性情報を持つ物体検出と認識を学習するためのハイブリッド視覚言語学習戦略を提案する。
LOWAでは、ユーザーはクラス名を持つオブジェクトを検出するだけでなく、属性によってオブジェクトをローカライズすることもできる。
LOWAは2towerの視覚言語アーキテクチャ上に構築されており、画像エンコーダとしての標準的な視覚変換器とテキストエンコーダのような変換器で構成されている。
インスタンスレベルで視覚的入力とテキスト入力のアライメントを学ぶために、オブジェクトレベルのトレーニング、属性認識学習、オブジェクトと属性のフリーテキスト合同トレーニングという3つのトレーニングステップでlowaをトレーニングします。
このハイブリッドトレーニング戦略は、まず正しいオブジェクト検出を保証し、次にインスタンスレベルの属性情報を取り込み、最後にオブジェクトクラスと属性感度のバランスをとる。
我々は,open-vocabulary attribute detection(ovad)ベンチマークとwild(vaw)データセットの視覚的属性を用いた属性分類と属性局在のモデル性能を評価し,ゼロショット性能を示す実験を行った。
アブレーション研究は、我々のアプローチの各トレーニングステップの有効性を実証する。 We present LOWA, a novel method for localizing objects with attributes effectively in the wild. It aims to address the insufficiency of current open-vocabulary object detectors, which are limited by the lack of instance-level attribute classification and rare class names. To train LOWA, we propose a hybrid vision-language training strategy to learn object detection and recognition with class names as well as attribute information. With LOWA, users can not only detect objects with class names, but also able to localize objects by attributes. LOWA is built on top of a two-tower vision-language architecture and consists of a standard vision transformer as the image encoder and a similar transformer as the text encoder. To learn the alignment between visual and text inputs at the instance level, we train LOWA with three training steps: object-level training, attribute-aware learning, and free-text joint training of objects and attributes. This hybrid training strategy first ensures correct object detection, then incorporates instance-level attribute information, and finally balances the object class and attribute sensitivity. We evaluate our model performance of attribute classification and attribute localization on the Open-Vocabulary Attribute Detection (OVAD) benchmark and the Visual Attributes in the Wild (VAW) dataset, and experiments indicate strong zero-shot performance. Ablation studies additionally demonstrate the effectiveness of each training step of our approach. | 翻訳日:2023-06-01 15:05:30 公開日:2023-05-31 |
# 音声・言語・コミュニケーション障害患者における計算言語評価 Computational Language Assessment in patients with speech, language, and communication impairments ( http://arxiv.org/abs/2305.20046v1 ) ライセンス: Link先を確認 | Charalambos Themistocleous | (参考訳) 言語、言語、コミュニケーション症状は、神経認知疾患の早期発見、診断、治療計画、および監視を可能にする。
それにもかかわらず、従来の手動神経学評価(音声と言語の評価基準)は、臨床医にとって時間とリソースを消費する。
計算言語アセスメント(C.L.A.)は従来の手作業による神経学的アセスメントよりも改善されている。
機械学習、自然言語処理、および信号処理を用いて、c.l.a.は認知症に対する高齢者および高リスク者における言語、言語、およびコミュニケーションの神経認知的評価を提供する。
私は...
at-riskおよび言語障害集団における診断、予後、治療効果の促進、およびiii。
幅広い言語から患者を評価するのが 簡単になります
また、c.l.a.は言語症状と神経基盤の関係についての理論を伝えるために人工知能モデルを使用している。
コミュニケーション障害のある高齢者の予防と治療を最適化し、社会的関与により優雅に老化できる能力を大幅に向上させます。 Speech, language, and communication symptoms enable the early detection, diagnosis, treatment planning, and monitoring of neurocognitive disease progression. Nevertheless, traditional manual neurologic assessment, the speech and language evaluation standard, is time-consuming and resource-intensive for clinicians. We argue that Computational Language Assessment (C.L.A.) is an improvement over conventional manual neurological assessment. Using machine learning, natural language processing, and signal processing, C.L.A. provides a neuro-cognitive evaluation of speech, language, and communication in elderly and high-risk individuals for dementia. ii. facilitates the diagnosis, prognosis, and therapy efficacy in at-risk and language-impaired populations; and iii. allows easier extensibility to assess patients from a wide range of languages. Also, C.L.A. employs Artificial Intelligence models to inform theory on the relationship between language symptoms and their neural bases. It significantly advances our ability to optimize the prevention and treatment of elderly individuals with communication disorders, allowing them to age gracefully with social engagement. | 翻訳日:2023-06-01 15:04:50 公開日:2023-05-31 |
# ActiveAED: ループ内の人間がアノテーションエラー検出を改善する ActiveAED: A Human in the Loop Improves Annotation Error Detection ( http://arxiv.org/abs/2305.20045v1 ) ライセンス: Link先を確認 | Leon Weber and Barbara Plank | (参考訳) 手動の注釈付きデータセットは自然言語処理モデルのトレーニングと評価に不可欠である。
しかし、最近の研究で、広く使われているベンチマークデータセットでさえ、かなりの数の誤ったアノテーションを含んでいることがわかった。
この問題はアノテーションエラー検出(AED)モデルで対処されており、人間の再アノテーションに対してそのようなエラーをフラグできる。
しかしながら、これらのAEDメソッドの多くは、人間がアノテーションが誤っているかどうかを判断する最終的なキュレーションステップを前提としていますが、それらは静的モデルとして開発されています。
本研究では,予測ループにおける誤り訂正を人間に繰り返し問合せすることにより,誤りをより正確に検出できるaed手法であるactiveaedを提案する。
我々は,5つのタスクにまたがる8つのデータセットに対してActiveAEDを評価し,その中の7つのタスクに対して,平均精度で最大6%のアップを達成できることを示す。 Manually annotated datasets are crucial for training and evaluating Natural Language Processing models. However, recent work has discovered that even widely-used benchmark datasets contain a substantial number of erroneous annotations. This problem has been addressed with Annotation Error Detection (AED) models, which can flag such errors for human re-annotation. However, even though many of these AED methods assume a final curation step in which a human annotator decides whether the annotation is erroneous, they have been developed as static models without any human-in-the-loop component. In this work, we propose ActiveAED, an AED method that can detect errors more accurately by repeatedly querying a human for error corrections in its prediction loop. We evaluate ActiveAED on eight datasets spanning five different tasks and find that it leads to improvements over the state of the art on seven of them, with gains of up to six percentage points in average precision. | 翻訳日:2023-06-01 15:04:22 公開日:2023-05-31 |
# 脱落による偽装:毒素因果構造学習における敵意欠如の活用 Deception by Omission: Using Adversarial Missingness to Poison Causal Structure Learning ( http://arxiv.org/abs/2305.20043v1 ) ライセンス: Link先を確認 | Deniz Koyuncu, Alex Gittens, B\"ulent Yener, Moti Yung | (参考訳) 観測データから因果構造を推定することは因果機械学習の重要な要素であり、実際にはこのデータは不完全である。
これまでの研究では、完全に観察されたトレーニングデータの逆摂動が不正確な因果構造モデル(SCM)の学習に役立てられることが示されている。
しかし、データが正確性のために監査される場合(例えば、そのソースによってcrytographicに署名される)、この逆機構は無効となる。
本研究は,学習した因果構造を所望の方法で偏見づけるために,敵対者が真の訓練データの一部を欺く新たな攻撃手法を導入する。
理論的には任意のSCMに対して音響攻撃機構が導出され、ガウスSCMに対してサンプル効率の学習に基づくヒューリスティックが与えられる。
実データと合成データに対するこれらの手法の実験的検証は、一般的な因果構造学習アルゴリズムを識別する対向的欠落攻撃の有効性を示す。 Inference of causal structures from observational data is a key component of causal machine learning; in practice, this data may be incompletely observed. Prior work has demonstrated that adversarial perturbations of completely observed training data may be used to force the learning of inaccurate causal structural models (SCMs). However, when the data can be audited for correctness (e.g., it is crytographically signed by its source), this adversarial mechanism is invalidated. This work introduces a novel attack methodology wherein the adversary deceptively omits a portion of the true training data to bias the learned causal structures in a desired manner. Theoretically sound attack mechanisms are derived for the case of arbitrary SCMs, and a sample-efficient learning-based heuristic is given for Gaussian SCMs. Experimental validation of these approaches on real and synthetic data sets demonstrates the effectiveness of adversarial missingness attacks at deceiving popular causal structure learning algorithms. | 翻訳日:2023-06-01 15:03:45 公開日:2023-05-31 |
# 対数比較を用いた主観的アノテーションのクラウドソーシングによるバイアスと誤差の低減 Crowdsourcing subjective annotations using pairwise comparisons reduces bias and error compared to the majority-vote method ( http://arxiv.org/abs/2305.20042v1 ) ライセンス: Link先を確認 | Hasti Narimanzadeh, Arash Badie-Modiri, Iuliia Smirnova, Ted Hsuan Yun Chen | (参考訳) クラウドソーシングラベリングにおける主観性による測定のばらつきとバイアスをいかに改善するかは、未解決の問題である。
主観的構成のクラウドソースアノテーションにランダムエラーと計測バイアスがどのように入り込むかを理解するための理論的枠組みを提案する。
次に、Eloスコアとペア比較ラベリングを組み合わせたパイプラインを提案し、両種類の測定誤差を低減するために、ユビキタスな多数投票法より優れていることを示す。
提案手法の有効性を評価するため,クラウドソース型ラベリングのエージェントベースモデルを構築し,タスクに異なるタイプの主観性を導入する。
タスク主観性を持つほとんどの条件下では、比較手法はより高いf_1$スコアを生み出す。
さらに、比較アプローチは、多数決が実施する傾向の偏りを膨らませる影響を受けにくい。
応用を容易にするために,同一分類精度の必要なランダム比較数がラベル付き項目数と対数的に$o(n \log n)$となることをシミュレーションおよび実世界データを用いて示す。
また、オープンソースのPythonパッケージとしてEloシステムを実装しました。 How to better reduce measurement variability and bias introduced by subjectivity in crowdsourced labelling remains an open question. We introduce a theoretical framework for understanding how random error and measurement bias enter into crowdsourced annotations of subjective constructs. We then propose a pipeline that combines pairwise comparison labelling with Elo scoring, and demonstrate that it outperforms the ubiquitous majority-voting method in reducing both types of measurement error. To assess the performance of the labelling approaches, we constructed an agent-based model of crowdsourced labelling that lets us introduce different types of subjectivity into the tasks. We find that under most conditions with task subjectivity, the comparison approach produced higher $f_1$ scores. Further, the comparison approach is less susceptible to inflating bias, which majority voting tends to do. To facilitate applications, we show with simulated and real-world data that the number of required random comparisons for the same classification accuracy scales log-linearly $O(N \log N)$ with the number of labelled items. We also implemented the Elo system as an open-source Python package. | 翻訳日:2023-06-01 15:03:18 公開日:2023-05-31 |
# 拡張短絡による内部ボソニックジョセフソン接合部のスピンスクイーズ Spin squeezing in internal bosonic Josephson junctions via enhanced shortcuts to adiabaticity ( http://arxiv.org/abs/2305.20032v1 ) ライセンス: Link先を確認 | Manuel Odelli, Vladimir M. Stojanovic, Andreas Ruschhaupt | (参考訳) 2つの異なる超微細構造を持つ原子間の時間依存相互作用強度を有する内部ボソニックジョセフソン接合において、スピン配列状態の時間効率とロバストな合成について検討した。
本稿では,最近提案された量子制御プロトコルを,拡張STA(eSTA)法として解析的に修正した。
本稿では,コヒーレントスピンスキーズパラメータと数スキーズパラメータの時間依存性と目標状態忠実度を評価することにより,状態準備過程を特徴付ける。
また,eSTA法を用いて得られた状態準備時間は,従来提案されていた手法と比較した。
さらに重要なのは、eSTAアプローチのロバスト性(STAと比べ)の増大が、強いスピンスクイーズ状態の潜在的実験的実現にさらなる利点をもたらすことを示すことである。 We investigate a time-efficient and robust preparation of spin-squeezed states -- a class of states of interest for quantum-enhanced metrology -- in internal bosonic Josephson junctions with a time-dependent interaction strength between atoms in two different hyperfine states. We treat this state-preparation problem, which had previously been addressed using shortcuts to adiabaticity (STA), using the recently proposed analytical modification of this class of quantum-control protocols that became known as the enhanced STA (eSTA) method. We characterize the state-preparation process by evaluating the time dependence of the coherent spin-squeezing and number-squeezing parameters and the target-state fidelity. We show that the state-preparation times obtained using the eSTA method compare favourably to those found in previously proposed approaches. Even more importantly, we demonstrate that the increased robustness of the eSTA approach -- compared to its STA counterpart -- leads to additional advantages for potential experimental realizations of strongly spin-squeezed states. | 翻訳日:2023-06-01 15:02:57 公開日:2023-05-31 |
# 木輪透かし:目に見えず頑丈な拡散画像の指紋 Tree-Ring Watermarks: Fingerprints for Diffusion Images that are Invisible and Robust ( http://arxiv.org/abs/2305.20030v1 ) ライセンス: Link先を確認 | Yuxin Wen, John Kirchenbauer, Jonas Geiping, Tom Goldstein | (参考訳) 生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。
本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。
サンプリング後の画像へのポストホックな修正を行う既存の方法とは異なり、Tree-Ring Watermarkingはサンプリングプロセス全体に微妙に影響を与え、人間の目に見えないモデル指紋を生み出す。
ウォーターマークは、サンプリングに使用される初期ノイズベクトルにパターンを埋め込む。
これらのパターンはよりフーリエ空間に構成され、畳み込み、作物、拡張、反転、回転に不変である。
画像生成後、拡散過程を反転してノイズベクトルを検索して透かし信号を検出し、埋め込み信号をチェックする。
この手法は,fidの損失を無視できるプラグインとして,テキスト条件付き安定拡散を含む任意の拡散モデルに容易に適用できることを実証する。
私たちのウォーターマークはイメージ空間にセマンティックに隠されており、現在デプロイされているウォーターマークよりもずっと堅牢です。
コードはgithub.com/YuxinWenRick/tree-ring-watermarkで入手できる。 Watermarking the outputs of generative models is a crucial technique for tracing copyright and preventing potential harm from AI-generated content. In this paper, we introduce a novel technique called Tree-Ring Watermarking that robustly fingerprints diffusion model outputs. Unlike existing methods that perform post-hoc modifications to images after sampling, Tree-Ring Watermarking subtly influences the entire sampling process, resulting in a model fingerprint that is invisible to humans. The watermark embeds a pattern into the initial noise vector used for sampling. These patterns are structured in Fourier space so that they are invariant to convolutions, crops, dilations, flips, and rotations. After image generation, the watermark signal is detected by inverting the diffusion process to retrieve the noise vector, which is then checked for the embedded signal. We demonstrate that this technique can be easily applied to arbitrary diffusion models, including text-conditioned Stable Diffusion, as a plug-in with negligible loss in FID. Our watermark is semantically hidden in the image space and is far more robust than watermarking alternatives that are currently deployed. Code is available at github.com/YuxinWenRick/tree-ring-watermark. | 翻訳日:2023-06-01 15:02:42 公開日:2023-05-31 |
# ベイズ最適化のためのベイズニューラルネットワークサロゲートに関する研究 A Study of Bayesian Neural Network Surrogates for Bayesian Optimization ( http://arxiv.org/abs/2305.20028v1 ) ライセンス: Link先を確認 | Yucen Lily Li, Tim G. J. Rudner, Andrew Gordon Wilson | (参考訳) ベイズ最適化はクエリに費用がかかる目的関数を最適化する非常に効率的なアプローチである。
これらの目的は通常、最適化が容易で正確な推論をサポートするガウス過程(GP)シュロゲートモデルによって表される。
ベイジアン最適化において標準GPサロゲートは確立されているが、ベイジアンニューラルネットワーク(BNN)は近年、非定常性を自然に扱う能力や高次元データの表現を学ぶ能力など、標準GPよりも多くの利点を持つ実用的な関数近似器となっている。
本稿では,BNNを最適化のための標準GPサロゲートの代替として検討する。
有限幅BNNに対して,高品質なハミルトニアンモンテカルロ,低コスト確率MCMC,深層アンサンブルなどのヒューリスティックスなど,様々な近似的推論手順を検討する。
また、無限幅BNNと深層カーネル学習のような部分確率モデルについても検討する。
本研究では, 異なる次元性, 目的数, 非定常性, 離散的かつ連続的な入力を有する多様な問題に対する代理モデルの収集を評価する。
以下に示す。
一 方法の格付けは、問題に大きく依存し、誘導バイアスの調整の必要性を示唆する。
(II) HMC は完全確率的 BNN に対する最も成功した近似推論法である。
(iii)ディープカーネル学習が比較的競争力があるため、完全な確率性は不要かもしれない。
(4)無限幅BNNは特に高次元において有望である。 Bayesian optimization is a highly efficient approach to optimizing objective functions which are expensive to query. These objectives are typically represented by Gaussian process (GP) surrogate models which are easy to optimize and support exact inference. While standard GP surrogates have been well-established in Bayesian optimization, Bayesian neural networks (BNNs) have recently become practical function approximators, with many benefits over standard GPs such as the ability to naturally handle non-stationarity and learn representations for high-dimensional data. In this paper, we study BNNs as alternatives to standard GP surrogates for optimization. We consider a variety of approximate inference procedures for finite-width BNNs, including high-quality Hamiltonian Monte Carlo, low-cost stochastic MCMC, and heuristics such as deep ensembles. We also consider infinite-width BNNs and partially stochastic models such as deep kernel learning. We evaluate this collection of surrogate models on diverse problems with varying dimensionality, number of objectives, non-stationarity, and discrete and continuous inputs. We find: (i) the ranking of methods is highly problem dependent, suggesting the need for tailored inductive biases; (ii) HMC is the most successful approximate inference procedure for fully stochastic BNNs; (iii) full stochasticity may be unnecessary as deep kernel learning is relatively competitive; (iv) infinite-width BNNs are particularly promising, especially in high dimensions. | 翻訳日:2023-06-01 15:02:23 公開日:2023-05-31 |
# チャットによる画像検索が完璧になる Chatting Makes Perfect -- Chat-based Image Retrieval ( http://arxiv.org/abs/2305.20062v1 ) ライセンス: Link先を確認 | Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski | (参考訳) チャットは、情報検索の効果的なユーザフレンドリーなアプローチとして現れ、カスタマサービス、ヘルスケア、ファイナンスといった多くの領域でうまく採用されている。
しかし、既存の画像検索アプローチでは、単一のクエリーツー・イメージラウンドの場合が一般的であり、画像検索におけるチャットの使用はほとんど見過ごされている。
本稿では,チャットベースの画像検索システムであるchatirについて紹介する。チャットベースの画像検索システムで,ユーザの検索意図を明らかにするために,ユーザと会話して最初の問い合わせに加えて情報を引き出す。
今日の基盤モデルの能力に触発されて、私たちはLarge Language Modelsを利用して、最初のイメージ記述に対するフォローアップ質問を生成します。
これらの質問は、大きなコーパスから所望の画像を取得するために、ユーザとダイアログを形成する。
本研究では,大規模なデータセット上でテストするシステムの機能について検討し,ダイアログへの関与が画像検索において大きな利益をもたらすことを示す。
まず、既存の手動で生成されたデータセットから評価パイプラインを構築し、さまざまなモジュールとChatIRのトレーニング戦略を調査します。
我々の比較は強化学習で訓練された関連アプリケーションから得られた強いベースラインを含んでいる。
本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができるが、人間からの質問では75%、単発のテキスト・画像検索では64%である。
広範囲な評価は、強い能力を明らかにし、異なる設定下でCharIRの限界を調べる。 Chats emerge as an effective user-friendly approach for information retrieval, and are successfully employed in many domains, such as customer service, healthcare, and finance. However, existing image retrieval approaches typically address the case of a single query-to-image round, and the use of chats for image retrieval has been mostly overlooked. In this work, we introduce ChatIR: a chat-based image retrieval system that engages in a conversation with the user to elicit information, in addition to an initial query, in order to clarify the user's search intent. Motivated by the capabilities of today's foundation models, we leverage Large Language Models to generate follow-up questions to an initial image description. These questions form a dialog with the user in order to retrieve the desired image from a large corpus. In this study, we explore the capabilities of such a system tested on a large dataset and reveal that engaging in a dialog yields significant gains in image retrieval. We start by building an evaluation pipeline from an existing manually generated dataset and explore different modules and training strategies for ChatIR. Our comparison includes strong baselines derived from related applications trained with Reinforcement Learning. Our system is capable of retrieving the target image from a pool of 50K images with over 78% success rate after 5 dialogue rounds, compared to 75% when questions are asked by humans, and 64% for a single shot text-to-image retrieval. Extensive evaluations reveal the strong capabilities and examine the limitations of CharIR under different settings. | 翻訳日:2023-06-01 14:54:44 公開日:2023-05-31 |
# イオン超低温ストロンチウム研究所のための超高真空・レーザー安定化システムの設計と製造 Centralised Design and Production of the Ultra-High Vacuum and Laser-Stabilisation Systems for the AION Ultra-Cold Strontium Laboratories ( http://arxiv.org/abs/2305.20060v1 ) ライセンス: Link先を確認 | B. Stray, O. Ennis, S. Hedges, S. Dey, M. Langlois, K. Bongs, S. Lellouch, M. Holynski, B. Bostwick, J. Chen, Z. Eyler, V. Gibson, T. L. Harte, M. Hsu, M. Karzazi, J. Mitchell, N. Mouelle, U. Schneider, Y. Tang, K. Tkalcec, Y. Zhi, K. Clarke, A. Vick, K. Bridges, J. Coleman, G. Elertas, L. Hawkins, S. Hindley, K. Hussain, C. Metelko, H. Throssell, C. F. A. Baynham, O. Buchmuller, D. Evans, R. Hobson, L. Iannizzotto-Venezze, A. Josset, E. Pasatembou, B. E. Sauer, M. R. Tarbutt, L Badurina, A. Beniwal, D. Blas, J. Carlton, J. Ellis, C. McCabe, E. Bentine, M. Booth, D. Bortoletto, C. Foot, C. Gomez, T. Hird, K. Hughes, A. James, A. Lowe, J. March-Russell, J. Schelfhout, I. Shipsey, D. Weatherill, D. Wood, S. Balashov, M. G. Bason, J. Boehm, M. Courthold, M. van der Grinten, P. Majewski, A. L. Marchant, D. Newbold, Z. Pan, Z. Tam, T. Valenzuela, I. Wilmut | (参考訳) 本稿では, AION 超高真空サイドアームとレーザー安定化システムの設計と製造について概説する。
サイドアームチャンバーの残留ガスおよび定常圧力に関するデータ、磁場品質、レーザー安定化、および3次元磁気光学トラップの載荷速度について述べる。
サイドアームとレーザーの安定化システムの設計と製造の合理化により、AIONコラボレーションは24ヶ月以内に5つの最先端のウルトラコールドストロンチウム研究所を並行して建設、装備することが可能となった。
このアプローチは、原子時計実験や中性原子量子コンピューティングシステムのような他の低温原子実験の開発と構築のモデルとなり、国立研究所に専用の設計と製造ユニットを設置する。 This paper outlines the centralised design and production of the Ultra-High-Vacuum sidearm and Laser-Stabilisation systems for the AION Ultra-Cold Strontium Laboratories. Commissioning data on the residual gas and steady-state pressures in the sidearm chambers, on magnetic field quality, on laser stabilisation, and on the loading rate for the 3D Magneto-Optical Trap are presented. Streamlining the design and production of the sidearm and laser stabilisation systems enabled the AION Collaboration to build and equip in parallel five state-of-the-art Ultra-Cold Strontium Laboratories within 24 months by leveraging key expertise in the collaboration. This approach could serve as a model for the development and construction of other cold atom experiments, such as atomic clock experiments and neutral atom quantum computing systems, by establishing dedicated design and production units at national laboratories. | 翻訳日:2023-06-01 14:54:21 公開日:2023-05-31 |
# 興味領域を探る:深層学習を用いた乳癌の組織像分類の可視化 Exploring Regions of Interest: Visualizing Histological Image Classification for Breast Cancer using Deep Learning ( http://arxiv.org/abs/2305.20058v1 ) ライセンス: Link先を確認 | Imane Nedjar, Mohammed Brahimi, Said Mahmoudi, Khadidja Abi Ayad, Mohammed Amine Chikh | (参考訳) 深層学習に基づくコンピュータ支援検診システムは乳癌検診において有望な性能を示している。
しかし、得られた結果が正当性に欠けるケースもある。
本研究の目的は,畳み込みニューラルネットワーク(cnn)が組織像を良性または悪性に分類するための関心領域を強調することである。
これらの地域を病理学者が特定した地域と比較する。
これを実現するために,我々はVGG19アーキテクチャを採用し,Gradient,LRP Z,LRP Epsilonの3つの可視化手法を検証した。
さらに,Bins,K-means,MeanShiftの3つの画素選択法を実験した。
その結果, 勾配可視化法と平均シフト選択法により, 画像の可視化結果が良好に得られた。 Computer aided detection and diagnosis systems based on deep learning have shown promising performance in breast cancer detection. However, there are cases where the obtained results lack justification. In this study, our objective is to highlight the regions of interest used by a convolutional neural network (CNN) for classifying histological images as benign or malignant. We compare these regions with the regions identified by pathologists. To achieve this, we employed the VGG19 architecture and tested three visualization methods: Gradient, LRP Z, and LRP Epsilon. Additionally, we experimented with three pixel selection methods: Bins, K-means, and MeanShift. Based on the results obtained, the Gradient visualization method and the MeanShift selection method yielded satisfactory outcomes for visualizing the images. | 翻訳日:2023-06-01 14:54:03 公開日:2023-05-31 |
# 多目的学習における三段階貿易--最適化・一般化・衝突回避 Three-Way Trade-Off in Multi-Objective Learning: Optimization, Generalization and Conflict-Avoidance ( http://arxiv.org/abs/2305.20057v1 ) ライセンス: Link先を確認 | Lisha Chen, Heshan Fernando, Yiming Ying, Tianyi Chen | (参考訳) マルチオブジェクト学習(MOL)問題は、複数の学習基準や複数の学習タスクがある場合、機械学習の問題を発生させる。
最近の研究はMGDAやその変種などのMOLのための様々な動的重み付けアルゴリズムを開発しており、そこでは目的間の衝突を避けるための更新方向を見つけることが中心となっている。
直感的には魅力的だが、実験的な研究は動的重み付け法が常に静的な方法よりも優れているとは限らないことを示している。
この理論と実践のギャップを理解するため,我々はmgdaの新しい確率的変種である二重サンプリング(modo)アルゴリズムに着目し,動的重み付けに基づくmodoの一般化性能とアルゴリズム安定性のレンズによる最適化に関する研究を行った。
おそらく、MGDAの背後にある重要な理論的根拠 -- 矛盾回避方向に沿って更新する -- は、最適な${\cal O}(1/\sqrt{n})$集団リスクを達成するための動的重み付けアルゴリズムを妨げる可能性がある。
さらに,mol に特有の最適化,一般化,競合回避の3方向トレードオフにおける動的重みの変動性を示す。 Multi-objective learning (MOL) problems often arise in emerging machine learning problems when there are multiple learning criteria or multiple learning tasks. Recent works have developed various dynamic weighting algorithms for MOL such as MGDA and its variants, where the central idea is to find an update direction that avoids conflicts among objectives. Albeit its appealing intuition, empirical studies show that dynamic weighting methods may not always outperform static ones. To understand this theory-practical gap, we focus on a new stochastic variant of MGDA - the Multi-objective gradient with Double sampling (MoDo) algorithm, and study the generalization performance of the dynamic weighting-based MoDo and its interplay with optimization through the lens of algorithm stability. Perhaps surprisingly, we find that the key rationale behind MGDA -- updating along conflict-avoidant direction - may hinder dynamic weighting algorithms from achieving the optimal ${\cal O}(1/\sqrt{n})$ population risk, where $n$ is the number of training samples. We further demonstrate the variability of dynamic weights on the three-way trade-off among optimization, generalization, and conflict avoidance that is unique in MOL. | 翻訳日:2023-06-01 14:53:50 公開日:2023-05-31 |
# マルチタスク学習を用いたモバイルセンシングによるレアライフイベント検出 Rare Life Event Detection via Mobile Sensing Using Multi-Task Learning ( http://arxiv.org/abs/2305.20056v1 ) ライセンス: Link先を確認 | Arvind Pillai, Subigya Nepal and Andrew Campbell | (参考訳) 希少な生命現象はメンタルヘルスに大きな影響を与え、行動研究におけるその検出は、健康に基づく介入への重要なステップである。
我々は,これらの異常を検出するためにモバイルセンシングデータを活用することを想定する。
しかしながら、人間の中心的な問題の性質と、これらの事象の頻度とユニークさが組み合わさって、教師なしの機械学習手法では困難である。
本稿では,まず,生命の事象と人間の行動の相関関係をセンシングデータを用いて調査する。
次に,不規則な動作をキャプチャする教師なしオートエンコーダを備えたマルチタスクフレームワークと,イベントをコンテキスト化する作業パフォーマンスの遷移を識別する補助シーケンス予測器を提案する。
複数産業のN=126情報労働者からなるモバイルセンシング研究のデータを用いて10106日,198件のレアイベント(2%)を対象に実験を行った。
パーソナライズされた推論により、F1が0.34の稀な事象の正確な日を検知し、本手法がいくつかの基準値を上回ることを示す。
最後に,実世界の展開の文脈から作業の意義について考察する。 Rare life events significantly impact mental health, and their detection in behavioral studies is a crucial step towards health-based interventions. We envision that mobile sensing data can be used to detect these anomalies. However, the human-centered nature of the problem, combined with the infrequency and uniqueness of these events makes it challenging for unsupervised machine learning methods. In this paper, we first investigate granger-causality between life events and human behavior using sensing data. Next, we propose a multi-task framework with an unsupervised autoencoder to capture irregular behavior, and an auxiliary sequence predictor that identifies transitions in workplace performance to contextualize events. We perform experiments using data from a mobile sensing study comprising N=126 information workers from multiple industries, spanning 10106 days with 198 rare events (<2%). Through personalized inference, we detect the exact day of a rare event with an F1 of 0.34, demonstrating that our method outperforms several baselines. Finally, we discuss the implications of our work from the context of real-world deployment. | 翻訳日:2023-06-01 14:53:28 公開日:2023-05-31 |
# 統合畳み込みブロック注意機構を用いたクロスドメイン車検出モデル Cross-Domain Car Detection Model with Integrated Convolutional Block Attention Mechanism ( http://arxiv.org/abs/2305.20055v1 ) ライセンス: Link先を確認 | Haoxuan Xu, Songning Lai, Yang Yang | (参考訳) 車の検知は、特にカメラビジョンを通じて、コンピュータビジョンの分野に重点を置いており、広く普及している。
現在の自動車検出システムは良好な検出が可能であるが、車間距離、光強度、環境視認性などの要因により、信頼性の高い検出は依然として困難である。
これらの問題に対処するため,自律運転などの分野での車認識に適用可能なクロスドメイン車検出モデルを提案する。
1)完全なクロスドメインターゲット検出フレームワークの構築。
2) 統合的畳み込み型注目機構を持つ未ペア対象領域画像生成モジュールの開発
3) 目標検出フレームワークの損失関数として一般対連合(GIOU)を適応する。
4)双方向畳み込みブロックアテンションモジュール(cbam)を組み込んだ物体検出モデルの設計
5)効果的なデータ拡張方法の活用。
モデルの有効性を評価するため、SSLADデータセットのデータに対して、reduce will resolutionプロセスを実行し、タスクのベンチマークデータセットとして使用しました。
実験の結果,クロスドメインカーターゲット検出モデルの性能は,フレームワークを使わずに40%向上し,クロスドメインカー認識にも大きな影響を与えることがわかった。 Car detection, particularly through camera vision, has become a major focus in the field of computer vision and has gained widespread adoption. While current car detection systems are capable of good detection, reliable detection can still be challenging due to factors such as proximity between the car, light intensity, and environmental visibility. To address these issues, we propose a cross-domain car detection model that we apply to car recognition for autonomous driving and other areas. Our model includes several novelties: 1)Building a complete cross-domain target detection framework. 2)Developing an unpaired target domain picture generation module with an integrated convolutional attention mechanism. 3)Adopting Generalized Intersection over Union (GIOU) as the loss function of the target detection framework. 4)Designing an object detection model integrated with two-headed Convolutional Block Attention Module(CBAM). 5)Utilizing an effective data enhancement method. To evaluate the model's effectiveness, we performed a reduced will resolution process on the data in the SSLAD dataset and used it as the benchmark dataset for our task. Experimental results show that the performance of the cross-domain car target detection model improves by 40% over the model without our framework, and our improvements have a significant impact on cross-domain car recognition. | 翻訳日:2023-06-01 14:53:11 公開日:2023-05-31 |
# unssor: 過剰な訓練混合物を利用した教師なしニューラル音声分離 UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures ( http://arxiv.org/abs/2305.20054v1 ) ライセンス: Link先を確認 | Zhong-Qiu Wang and Shinji Watanabe | (参考訳) 複数の同時話者を持つ残響状態において、各マイクは異なる場所で複数の話者の混合信号を取得する。
マイクロホンが話者数を上回る過大な条件下では、各混合信号を制約として利用することにより、話者画像に対する解を絞り込み、教師なし音声分離を実現することができる(例えば、マイクロホンにおける推定話者画像は、混合音声に加算されるべきである)。
この知見に基づき、UNSSORは、$\textbf{u}$nsupervised $\textbf{n}$eural $\textbf{s}$peech $\textbf{s}$eparationに対して、$\textbf{o}$ver-determined training mixtu$\textbf{r}$esを利用するアルゴリズムを提案する。
各トレーニングステップでは、入力混合物をディープニューラルネットワーク(dnn)に供給して、各話者の中間推定を生成し、その推定値を線形にフィルタリングし、損失を最適化することで、各マイクにおいて、上記の制約を満たすために、すべての話者のフィルタされた推定値が混合物に加算されるようにする。
この損失は、教師なし話者の分離を促進することができる。
線形フィルタは、フォワード畳み込み予測(fcp)アルゴリズムにより、混合およびdnn推定に基づいて各サブバンドで計算される。
サブバンドFCPを用いて発生する周波数変動問題に対処するため,ソース内規模の最小化に基づく損失項を提案する。
UNSSORは過度に決定された訓練混合物を必要とするが、過度に決定された分離を達成するためにDNNを訓練することができる。
残響条件における2話者分離の評価結果はUNSSORの有効性と可能性を示している。 In reverberant conditions with multiple concurrent speakers, each microphone acquires a mixture signal of multiple speakers at a different location. In over-determined conditions where the microphones out-number speakers, we can narrow down the solutions to speaker images and realize unsupervised speech separation by leveraging each mixture signal as a constraint (i.e., the estimated speaker images at a microphone should add up to the mixture). Equipped with this insight, we propose UNSSOR, an algorithm for $\textbf{u}$nsupervised $\textbf{n}$eural $\textbf{s}$peech $\textbf{s}$eparation by leveraging $\textbf{o}$ver-determined training mixtu$\textbf{r}$es. At each training step, we feed an input mixture to a deep neural network (DNN) to produce an intermediate estimate for each speaker, linearly filter the estimates, and optimize a loss so that, at each microphone, the filtered estimates of all the speakers can add up to the mixture to satisfy the above constraint. We show that this loss can promote unsupervised separation of speakers. The linear filters are computed in each sub-band based on the mixture and DNN estimates through the forward convolutive prediction (FCP) algorithm. To address the frequency permutation problem incurred by using sub-band FCP, a loss term based on minimizing intra-source magnitude scattering is proposed. Although UNSSOR requires over-determined training mixtures, we can train DNNs to achieve under-determined separation (e.g., unsupervised monaural speech separation). Evaluation results on two-speaker separation in reverberant conditions show the effectiveness and potential of UNSSOR. | 翻訳日:2023-06-01 14:52:53 公開日:2023-05-31 |
# 微分インフォームド・ニューラル演算子を用いた高次元不確かさ下での効率的なPDE制約最適化 Efficient PDE-Constrained optimization under high-dimensional uncertainty using derivative-informed neural operators ( http://arxiv.org/abs/2305.20053v1 ) ライセンス: Link先を確認 | Dingcheng Luo, Thomas O'Leary-Roseberry, Peng Chen, Omar Ghattas | (参考訳) 大規模偏微分方程式(PDE)に支配される最適化問題を高次元ランダムパラメータで解くための新しい機械学習フレームワークを提案する。
このような不確実性(OUU)問題下での最適化は、古典的な手法を用いて計算が禁止される可能性があり、特に多くのサンプルが最適化アルゴリズムの繰り返しにおけるリスク測定の評価に必要であり、各サンプルは高価なPDEの解を必要とする。
To address this challenge, we propose a new neural operator approximation of the PDE solution operator that has the combined merits of (1) accurate approximation of not only the map from the joint inputs of random parameters and optimization variables to the PDE state, but also its derivative with respect to the optimization variables, (2) efficient construction of the neural network using reduced basis architectures that are scalable to high-dimensional OUU problems, and (3) requiring only a limited number of training data to achieve high accuracy for both the PDE solution and the OUU solution.
このようなニューラル演算子を,MR-DINO(Multi-Input reduced basis derived Neural operator)と呼ぶ。
本研究では, 半線形楕円型pdeと定常navier-stokes方程式の2次元および3次元の確率場入力によるリスク-逆制御について, 数値実験を行い, このアプローチの精度と効率を実証する。
MR-DINOsは、一般的なPDEベースのソリューションと同等の精度のOUUソリューションを、建設コストのファクタリング後10ドル以上のコスト効率で作成することができる。 We propose a novel machine learning framework for solving optimization problems governed by large-scale partial differential equations (PDEs) with high-dimensional random parameters. Such optimization under uncertainty (OUU) problems may be computational prohibitive using classical methods, particularly when a large number of samples is needed to evaluate risk measures at every iteration of an optimization algorithm, where each sample requires the solution of an expensive-to-solve PDE. To address this challenge, we propose a new neural operator approximation of the PDE solution operator that has the combined merits of (1) accurate approximation of not only the map from the joint inputs of random parameters and optimization variables to the PDE state, but also its derivative with respect to the optimization variables, (2) efficient construction of the neural network using reduced basis architectures that are scalable to high-dimensional OUU problems, and (3) requiring only a limited number of training data to achieve high accuracy for both the PDE solution and the OUU solution. We refer to such neural operators as multi-input reduced basis derivative informed neural operators (MR-DINOs). We demonstrate the accuracy and efficiency our approach through several numerical experiments, i.e. the risk-averse control of a semilinear elliptic PDE and the steady state Navier--Stokes equations in two and three spatial dimensions, each involving random field inputs. Across the examples, MR-DINOs offer $10^{3}$--$10^{7} \times$ reductions in execution time, and are able to produce OUU solutions of comparable accuracies to those from standard PDE based solutions while being over $10 \times$ more cost-efficient after factoring in the cost of construction. | 翻訳日:2023-06-01 14:52:14 公開日:2023-05-31 |
# 総合的な決定勾配:モデルが決定を下す場所の属性を計算する Integrated Decision Gradients: Compute Your Attributions Where the Model Makes Its Decision ( http://arxiv.org/abs/2305.20052v1 ) ライセンス: Link先を確認 | Chase Walker, Sumit Jha, Kenny Chen, Rickard Ewetz | (参考訳) 帰属アルゴリズムは、ニューラルネットワークモデルの決定を説明するために頻繁に用いられる。
統合グラディエンツ(IG)は、その強い公理的基盤により、重要な帰属法である。
アルゴリズムは、参照画像から入力画像への経路に沿って勾配を統合することに基づいている。
残念ながら、出力ロジットが経路に沿って最小に変化する領域から計算された勾配は、飽和効果問題と呼ばれるモデル決定の不十分な説明をもたらすことが観察できる。
本稿では,IDG(Integrated decision gradients)と呼ばれる帰属アルゴリズムを提案する。
このアルゴリズムは、モデルが決定を下す経路の領域、すなわち出力ロジットがゼロから最終値に急速に遷移する経路の一部からの勾配の統合に焦点を当てている。
これは、経路に対する出力ロジットの微分によって各勾配をスケーリングすることで実現される。
これにより、アルゴリズムは飽和問題に対する原理的な解を与える。
さらに,適応サンプリングによって決定される非一様部分分割を利用して,経路積分のリーマン和近似における誤差を最小化する。
ImageNetの評価において、IDGがIG, left-IG, guided IG, および3つの共通モデルにわたる標準挿入・削除指標を用いて、定性的かつ定量的に逆勾配積分を上回ることを示した。 Attribution algorithms are frequently employed to explain the decisions of neural network models. Integrated Gradients (IG) is an influential attribution method due to its strong axiomatic foundation. The algorithm is based on integrating the gradients along a path from a reference image to the input image. Unfortunately, it can be observed that gradients computed from regions where the output logit changes minimally along the path provide poor explanations for the model decision, which is called the saturation effect problem. In this paper, we propose an attribution algorithm called integrated decision gradients (IDG). The algorithm focuses on integrating gradients from the region of the path where the model makes its decision, i.e., the portion of the path where the output logit rapidly transitions from zero to its final value. This is practically realized by scaling each gradient by the derivative of the output logit with respect to the path. The algorithm thereby provides a principled solution to the saturation problem. Additionally, we minimize the errors within the Riemann sum approximation of the path integral by utilizing non-uniform subdivisions determined by adaptive sampling. In the evaluation on ImageNet, it is demonstrated that IDG outperforms IG, left-IG, guided IG, and adversarial gradient integration both qualitatively and quantitatively using standard insertion and deletion metrics across three common models. | 翻訳日:2023-06-01 14:51:47 公開日:2023-05-31 |
# ステップバイステップで検証しましょう Let's Verify Step by Step ( http://arxiv.org/abs/2305.20050v1 ) ライセンス: Link先を確認 | Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe | (参考訳) 近年、大規模言語モデルは複雑な多段階推論を行う能力を大幅に改善している。
しかし、最先端モデルでさえも定期的に論理的誤りを生じる。
より信頼性の高いモデルをトレーニングするために、最終結果に対するフィードバックを提供する結果監視と、中間推論の各ステップに対するフィードバックを提供するプロセス監視に切り替えることができます。
信頼性のあるモデルのトレーニングの重要性や人的フィードバックのコストが高いことから,両手法を慎重に比較することが重要である。
最近の研究はこの比較から始まっているが、まだ多くの疑問が残っている。
我々は、プロセスの監督がトレーニングモデルの結果の監督を著しく上回り、挑戦的なMATHデータセットの問題を解決するために独自の調査を行う。
プロセス制御モデルでは,MATHテストセットの代表部分集合から78%の問題を解く。
さらに,アクティブラーニングにより,プロセス監督の効果が著しく向上することを示す。
関連する研究を支援するために、私たちは最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kもリリースしました。 In recent years, large language models have greatly improved in their ability to perform complex multi-step reasoning. However, even state-of-the-art models still regularly produce logical mistakes. To train more reliable models, we can turn either to outcome supervision, which provides feedback for a final result, or process supervision, which provides feedback for each intermediate reasoning step. Given the importance of training reliable models, and given the high cost of human feedback, it is important to carefully compare the both methods. Recent work has already begun this comparison, but many questions still remain. We conduct our own investigation, finding that process supervision significantly outperforms outcome supervision for training models to solve problems from the challenging MATH dataset. Our process-supervised model solves 78% of problems from a representative subset of the MATH test set. Additionally, we show that active learning significantly improves the efficacy of process supervision. To support related research, we also release PRM800K, the complete dataset of 800,000 step-level human feedback labels used to train our best reward model. | 翻訳日:2023-06-01 14:51:24 公開日:2023-05-31 |
# 2023年品種評価キャンペーンの成果 Findings of the VarDial Evaluation Campaign 2023 ( http://arxiv.org/abs/2305.20080v1 ) ライセンス: Link先を確認 | No\"emi Aepli, \c{C}a\u{g}r{\i} \c{C}\"oltekin, Rob Van Der Goot, Tommi Jauhiainen, Mourhaf Kazzaz, Nikola Ljube\v{s}i\'c, Kai North, Barbara Plank, Yves Scherrer, Marcos Zampieri | (参考訳) 本報告は,vardial evaluation campaign 2023の一環として組織された共有タスクの結果を示す。
このキャンペーンは、EACL 2023と共同で、類似言語、品種、方言(VarDial)のための自然言語処理(NLP)に関する10回目のワークショップの一部である。
今年は、低リソース言語(SID4LR)のスロットとインテント検出、類似言語間の差別化(DSL-TL)、類似言語間の差別化(DSL-S)の3つのタスクが分離された。
今年初めて3つのタスクが編成された。 This report presents the results of the shared tasks organized as part of the VarDial Evaluation Campaign 2023. The campaign is part of the tenth workshop on Natural Language Processing (NLP) for Similar Languages, Varieties and Dialects (VarDial), co-located with EACL 2023. Three separate shared tasks were included this year: Slot and intent detection for low-resource language varieties (SID4LR), Discriminating Between Similar Languages -- True Labels (DSL-TL), and Discriminating Between Similar Languages -- Speech (DSL-S). All three tasks were organized for the first time this year. | 翻訳日:2023-06-01 14:45:05 公開日:2023-05-31 |
# Managed Geo-Distributed Feature Store: アーキテクチャとシステム設計 Managed Geo-Distributed Feature Store: Architecture and System Design ( http://arxiv.org/abs/2305.20077v1 ) ライセンス: Link先を確認 | Anya Li, Bhala Ranganathan, Feng Pan, Mickey Zhang, Qianjun Xu, Runhan Li, Sethu Raman, Shail Paragbhai Shah, Vivienne Tang (Microsoft) | (参考訳) 企業は機械学習を使って現実世界の問題を解決する。
彼らは、mlopsライフサイクルの一部として機能エンジニアリングパイプラインを構築し、さまざまなデータソースからデータを変換し、将来の消費のためにそれを実現する。
フィーチャーストアがなければ、さまざまなビジネスグループにまたがるさまざまなチームが、上記のプロセスを独立して維持することになる。
データサイエンティストは既存の機能の検索と再利用が困難であり、バージョン管理を維持するのが困難である。
さらに、オンライン(参照)オフライン(トレーニング)スキューやデータ漏洩に関連する特徴補正違反が一般的である。
機械学習コミュニティは、機能ストアの必要性とその目的を広く議論してきたが、本論文は、マネージド機能ストアを構成するコアアーキテクチャコンポーネントを捉え、そのようなシステム構築における設計学習を共有することを目的としている。 Companies are using machine learning to solve real-world problems and are developing hundreds to thousands of features in the process. They are building feature engineering pipelines as part of MLOps life cycle to transform data from various data sources and materialize the same for future consumption. Without feature stores, different teams across various business groups would maintain the above process independently, which can lead to conflicting and duplicated features in the system. Data scientists find it hard to search for and reuse existing features and it is painful to maintain version control. Furthermore, feature correctness violations related to online (inferencing) - offline (training) skews and data leakage are common. Although the machine learning community has extensively discussed the need for feature stores and their purpose, this paper aims to capture the core architectural components that make up a managed feature store and to share the design learning in building such a system. | 翻訳日:2023-06-01 14:44:53 公開日:2023-05-31 |
# 人間-AI協調のための意思決定指向対話 Decision-Oriented Dialogue for Human-AI Collaboration ( http://arxiv.org/abs/2305.20076v1 ) ライセンス: Link先を確認 | Jessy Lin, Nicholas Tomlin, Jacob Andreas, Jason Eisner | (参考訳) 対話決定問題と呼ばれるタスクのクラスについて説明する。AIアシスタントは自然言語を使って1つ以上の人間と協調して複雑な意思決定を行う必要がある。
日常的な意思決定に直面する3つの領域を定式化し,(1)レビュアーの会議論文への課題の選択,(2)都市における複数段階の旅程の計画,(3)友人集団の旅行計画の交渉を行う。
これらの設定において、AIアシスタントとユーザーは、最高の決定に達するために組み合わせなければならない異なる能力を持っている:アシスタントは大量の情報にアクセスして処理でき、ユーザーはシステム以外の好みや制約を持っている。
それぞれのタスクに対して、エージェントが到達した最終決定の品質に基づいて報酬を受け取る対話環境を構築します。
これらの環境を用いて,人間と人間の対話をアシスタントとして収集する。
これらの設定で、現在のAIアシスタントがどのようにコミュニケーションしているかを比較するために、私たちは、大きな言語モデルを使ってベースラインを提示します。
最後に、効率的なコミュニケーションから推論と最適化まで、意思決定指向の対話においてモデルが直面する多くの課題を強調し、将来のモデリング作業のためのテストベッドとして環境をリリースする。 We describe a class of tasks called dialogue decision problems, in which AI assistants must collaborate with one or more humans via natural language to help them make complex decisions. We formalize three domains in which users face everyday decisions: (1) choosing an assignment of reviewers to conference papers, (2) planning a multi-step itinerary in a city, and (3) negotiating travel plans for a group of friends. In each of these settings, AI assistants and users have disparate abilities that they must combine to arrive at the best decision: assistants can access and process large amounts of information, while users have preferences and constraints external to the system. For each task, we build a dialogue environment where agents receive a reward based on the quality of the final decision they reach. Using these environments, we collect human-human dialogues with humans playing the role of assistant. To compare how current AI assistants communicate in these settings, we present baselines using large language models in self-play. Finally, we highlight a number of challenges models face in decision-oriented dialogues, ranging from efficient communication to reasoning and optimization, and release our environments as a testbed for future modeling work. | 翻訳日:2023-06-01 14:44:37 公開日:2023-05-31 |
# 機能的最大相関を用いた画像階層の特徴学習 Feature Learning in Image Hierarchies using Functional Maximal Correlation ( http://arxiv.org/abs/2305.20074v1 ) ライセンス: Link先を確認 | Bo Hu, Yuheng Bu, Jos\'e C. Pr\'incipe | (参考訳) 本稿では,階層型関数最大相関アルゴリズム(hfmca)を提案する。
類似性を依存関係とみなし、正則性を付与することでコントラスト性を確保することにより、自己教師あり学習における高速な収束と安定性の向上を実現する。
HFMCAは、ピクセルやパッチからフルイメージまで、画像階層内の依存関係を定義し、測定する。
正規直交基底関数を近似するネットワークトポロジーはバニラcnnと整合し,隣接する特徴写像の層間の密度比の分解を可能にする。
このアプローチは強力な解釈可能性を提供し、内部表現のレンズを通して監督と自己スーパービジョンの類似性を明らかにする。 This paper proposes the Hierarchical Functional Maximal Correlation Algorithm (HFMCA), a hierarchical methodology that characterizes dependencies across two hierarchical levels in multiview systems. By framing view similarities as dependencies and ensuring contrastivity by imposing orthonormality, HFMCA achieves faster convergence and increased stability in self-supervised learning. HFMCA defines and measures dependencies within image hierarchies, from pixels and patches to full images. We find that the network topology for approximating orthonormal basis functions aligns with a vanilla CNN, enabling the decomposition of density ratios between neighboring layers of feature maps. This approach provides powerful interpretability, revealing the resemblance between supervision and self-supervision through the lens of internal representations. | 翻訳日:2023-06-01 14:44:18 公開日:2023-05-31 |
# 熱帯合理的関数による回帰の交代最小化 Alternating Minimization for Regression with Tropical Rational Functions ( http://arxiv.org/abs/2305.20072v1 ) ライセンス: Link先を確認 | Alex Dunbar, Lars Ruthotto | (参考訳) 固定指数を持つ熱帯有理関数の空間上での回帰に対する交互最小化ヒューリスティックを提案する。
この方法は、閉形式解を許容することで知られるトロピカル多項式回帰(英語版)を通じて、ヌメレータと分母項を適合させることに代わる。
交代最小化法の挙動を実験的に実証した。
実験は、ヒューリスティックが入力データの合理的な近似を提供することを示した。
この研究は、熱帯有理関数と密接に関連する機械学習コミュニティで一般的なネットワークアーキテクチャのクラスであるreluニューラルネットワークの応用に動機付けられたものです。 We propose an alternating minimization heuristic for regression over the space of tropical rational functions with fixed exponents. The method alternates between fitting the numerator and denominator terms via tropical polynomial regression, which is known to admit a closed form solution. We demonstrate the behavior of the alternating minimization method experimentally. Experiments demonstrate that the heuristic provides a reasonable approximation of the input data. Our work is motivated by applications to ReLU neural networks, a popular class of network architectures in the machine learning community which are closely related to tropical rational functions. | 翻訳日:2023-06-01 14:44:05 公開日:2023-05-31 |
# 強く相互作用するリドバーグ気体中の散逸時間結晶の観察 Observation of a dissipative time crystal in a strongly interacting Rydberg gas ( http://arxiv.org/abs/2305.20070v1 ) ライセンス: Link先を確認 | Xiaoling Wu, Zhuqing Wang, Fan Yang, Ruochen Gao, Chao Liang, Meng Khoon Tey, Xiangliang Li, Thomas Pohl, Li You | (参考訳) 自発的対称性の破れの概念は、凝縮、結晶化、量子磁気などにおける古典的および量子的相転移を特徴づけるために確立されている。
このパラダイムの時間次元への一般化は、さらにエキゾチックな力学相である時間結晶へとつながり、系[1]の時間変換対称性を自発的に破壊する。
平衡における連続時間結晶の存在は、no-go定理 [2, 3] によって論じられているが、開系における散逸によって困難を回避できる。
本稿では, 常温原子ガス中では, 電磁誘導透過(eit)により基底状態の原子が連続的にリドベルグ状態へ移動し, 散逸する時間結晶秩序を実験的に観察する。
創発時間結晶は、プローブフィールド透過の持続的な振動により、超長寿命で測定中に観測可能な減衰がないことが明らかとなる。
観察された極限周期は、顕微鏡モデルから得られた平均場解析と一致して、Rydberg成分間の共存と競合から生じることを示す。
繰り返し実現のための発振のランダム位相分布と時相雑音に対する頑健さは, 発散時間結晶の実現をさらに支えている。 The notion of spontaneous symmetry breaking has been well established to characterize classical and quantum phase transitions of matters, such as in condensation, crystallization, and quantum magnetism, etc. Generalizations of this paradigm to the time dimension can further lead to an exotic dynamical phase, the time crystal, which spontaneously breaks the time translation symmetry of the system [1]. While the existence of a continuous time crystal at equilibrium has been challenged by the no-go theorems [2, 3], the difficulty can be circumvented by the dissipation in an open system. Here, we report the experimental observation of such a dissipative time crystalline order in a room-temperature atomic gas, where ground-state atoms are continuously driven to Rydberg states via electromagnetically induced transparency (EIT). The emergent time crystal is revealed by persistent oscillations of the probe-field transmission, with ultralong lifetime and no observable damping during the measurement. We show that the observed limit cycles arise from the coexistence and competition between distinct Rydberg components, in agreement with a mean-field analysis derived from the microscopic model. The random phase distribution of the oscillation for repeated realizations, together with the robustness against temporal noises further supports our realization of a dissipative time crystal. | 翻訳日:2023-06-01 14:43:57 公開日:2023-05-31 |
# 量子状態学習の複雑さに関する調査 A survey on the complexity of learning quantum states ( http://arxiv.org/abs/2305.20069v1 ) ライセンス: Link先を確認 | Anurag Anshu and Srinivasan Arunachalam | (参考訳) 量子状態の学習の複雑さを厳格に研究する最近の様々な結果を調査した。
これには、量子トモグラフィの進展、物理量子状態の学習、トモグラフィーへの代替学習モデル、量子状態としてコード化された古典関数の学習が含まれる。
これらの結果は、さまざまなエキサイティングなオープンな質問で、非常に成功した理論への道を切り開いている。
この目的のために、これらの結果から25の質問を抽出します。 We survey various recent results that rigorously study the complexity of learning quantum states. These include progress on quantum tomography, learning physical quantum states, alternate learning models to tomography and learning classical functions encoded as quantum states. We highlight how these results are paving the way for a highly successful theory with a range of exciting open questions. To this end, we distill 25 open questions from these results. | 翻訳日:2023-06-01 14:43:34 公開日:2023-05-31 |
# tofg: 自動運転における統一的できめ細かい環境表現 TOFG: A Unified and Fine-Grained Environment Representation in Autonomous Driving ( http://arxiv.org/abs/2305.20068v1 ) ライセンス: Link先を確認 | Zihao Wen, Yifan Zhang, Xinhong Chen, Jianping Wang | (参考訳) 自律運転では、車両間相互作用や車間相互作用といった環境の正確な理解が、軌道予測や運動計画といった多くの運転タスクにおいて重要な役割を果たす。
環境情報は、高精細度(hd)マップと車両の歴史的軌跡から得られる。
地図データと軌跡データの不均一性のため、軌跡予測と移動計画のための多くのデータ駆動モデルが、車両間および車両間相互作用を分離かつ逐次的に抽出する。
しかし、このような方法で相互作用のバイアスのある解釈を捉え、予測と計画の精度が低下する。
さらに、分離抽出は複雑なモデル構造につながるため、全体的な効率とスケーラビリティは犠牲になる。
上記の課題に対処するため, 環境表現であるTOFG(Temporal Occupancy Flow Graph)を提案する。
具体的には、占有フローに基づく表現は、地図情報と車両の軌跡を均質なデータ形式に統一し、一貫した予測を可能にする。
車両間の時間的依存関係は、占有フローの変化をタイムリーに捉え、モデル性能をさらに促進するのに役立ちます。
ToFGはモデルアーキテクチャを単純化できることを示すため,単純なグラフ注意(GAT)ベースのニューラルネットワークを用いてTOFGを組み込み,軌道予測と運動計画の両方に使用できるTOFG-GATを提案する。
実験結果から,TOFG-GATは訓練時間が少なく,全てのSOTAベースラインよりも優れた,あるいは競争的な性能を発揮することが示された。 In autonomous driving, an accurate understanding of environment, e.g., the vehicle-to-vehicle and vehicle-to-lane interactions, plays a critical role in many driving tasks such as trajectory prediction and motion planning. Environment information comes from high-definition (HD) map and historical trajectories of vehicles. Due to the heterogeneity of the map data and trajectory data, many data-driven models for trajectory prediction and motion planning extract vehicle-to-vehicle and vehicle-to-lane interactions in a separate and sequential manner. However, such a manner may capture biased interpretation of interactions, causing lower prediction and planning accuracy. Moreover, separate extraction leads to a complicated model structure and hence the overall efficiency and scalability are sacrificed. To address the above issues, we propose an environment representation, Temporal Occupancy Flow Graph (TOFG). Specifically, the occupancy flow-based representation unifies the map information and vehicle trajectories into a homogeneous data format and enables a consistent prediction. The temporal dependencies among vehicles can help capture the change of occupancy flow timely to further promote model performance. To demonstrate that TOFG is capable of simplifying the model architecture, we incorporate TOFG with a simple graph attention (GAT) based neural network and propose TOFG-GAT, which can be used for both trajectory prediction and motion planning. Experiment results show that TOFG-GAT achieves better or competitive performance than all the SOTA baselines with less training time. | 翻訳日:2023-06-01 14:43:28 公開日:2023-05-31 |
# 強化学習のための潜在探索 Latent Exploration for Reinforcement Learning ( http://arxiv.org/abs/2305.20065v1 ) ライセンス: Link先を確認 | Alberto Silvio Chiappa and Alessandro Marin Vargas and Ann Zixiang Huang and Alexander Mathis | (参考訳) 強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
次元の呪いのため、高次元の感覚入力を運動出力にマッピングする学習方針は特に困難である。
訓練中、最先端の芸術手法(sac、ppoなど)は、独立したガウス雑音でアクチュエーションを摂動させることで環境を探索する。
この非構造的な探索は多くのタスクで成功したが、過度に作動するシステムには最適であるべきだ。
モーターや筋肉などの複数のアクチュエーターが動作を駆動する場合、非相関的な摂動は互いの効果を低下させるか、タスク非関連な方法で動作を変更する。
動作摂動間の時間相関を導入する解が存在するが、アクチュエータ間の相関を導入することは無視されている。
本稿では,政策ネットワークの潜在状態に時間相関ノイズを注入し,オン・オフ・ポリシーアルゴリズムとシームレスに統合する手法であるlatticeを提案する。
ネットワークのアクティベーションを摂動することで生じる雑音作用を,共分散行列を持つ多変量ガウス分布としてモデル化できることを実証する。
PyBulletのロコモーションタスクでは、Lattice-SACは成果の状態を達成し、ヒューマノイド環境での非構造探査よりも18%高い報酬を得る。
また,MyoSuiteの筋骨格制御環境において,Lattice-PPOは,ほとんどの到達や物体操作作業において高い報酬を得られるとともに,20~60%の削減によるエネルギー効率の向上も期待できる。
全体として,複雑なモータ制御タスクにおいて,時間とアクチュエータ空間における構造的動作ノイズの有効性を示す。 In Reinforcement Learning, agents learn policies by exploring and interacting with the environment. Due to the curse of dimensionality, learning policies that map high-dimensional sensory input to motor output is particularly challenging. During training, state of the art methods (SAC, PPO, etc.) explore the environment by perturbing the actuation with independent Gaussian noise. While this unstructured exploration has proven successful in numerous tasks, it ought to be suboptimal for overactuated systems. When multiple actuators, such as motors or muscles, drive behavior, uncorrelated perturbations risk diminishing each other's effect, or modifying the behavior in a task-irrelevant way. While solutions to introduce time correlation across action perturbations exist, introducing correlation across actuators has been largely ignored. Here, we propose LATent TIme-Correlated Exploration (Lattice), a method to inject temporally-correlated noise into the latent state of the policy network, which can be seamlessly integrated with on- and off-policy algorithms. We demonstrate that the noisy actions generated by perturbing the network's activations can be modeled as a multivariate Gaussian distribution with a full covariance matrix. In the PyBullet locomotion tasks, Lattice-SAC achieves state of the art results, and reaches 18% higher reward than unstructured exploration in the Humanoid environment. In the musculoskeletal control environments of MyoSuite, Lattice-PPO achieves higher reward in most reaching and object manipulation tasks, while also finding more energy-efficient policies with reductions of 20-60%. Overall, we demonstrate the effectiveness of structured action noise in time and actuator space for complex motor control tasks. | 翻訳日:2023-06-01 14:42:58 公開日:2023-05-31 |
# 量子論における線形性とユニタリティーの起源について On the Origin of Linearity and Unitarity in Quantum Theory ( http://arxiv.org/abs/2305.20063v1 ) ライセンス: Link先を確認 | Matt Wilson, Nick Ormrod | (参考訳) 量子論の変換を物理的に動機づけられた仮定を用いて再構成する。
この仮定では、変換は局所的に適用されるべきであり、純量子論の線型ユニタリ写像と混合量子論の完全正のトレース保存写像を選別する。
特に、純粋な場合において、ヒルベルト空間上の重ね合わせ規則に関する線型性は(連続性仮定なしで)仮定するよりもむしろ導かれる。 We reconstruct the transformations of quantum theory using a physically motivated postulate. This postulate states that transformations should be locally applicable, and singles out the linear unitary maps of pure quantum theory, as well as the completely positive, trace-preserving maps of mixed quantum theory. Notably, in the pure case, linearity with respect to the superposition rule on Hilbert spaces is derived rather than assumed (and without any continuity assumptions). | 翻訳日:2023-06-01 14:42:28 公開日:2023-05-31 |
# ポストセレクションなしの計測後絡みの調査 Probing post-measurement entanglement without post-selection ( http://arxiv.org/abs/2305.20092v1 ) ライセンス: Link先を確認 | Samuel J. Garratt and Ehud Altman | (参考訳) 多数の測定値から生じる量子集合現象を観測する問題について検討する。
これらの現象を従来の実験で観察することは困難であり, 測定結果の劣化を区別するためには, 出生確率が指数関数的に小さい測定結果の集合に対して, 後から選択する必要がある。
この指数的な「ポストセレクション問題」を避ける非従来的アプローチは、実験データとシミュレーションの結果の相互相関を構築することである。
しかし、これらの相互相関は一般に物理量と明確な関係を持たない。
まず、このフレームワークにシャドウトモグラフィーを組み込む方法を示し、量子情報理論の相互相関の構築を可能にする。
次に,測定平均のフォン・ノイマンエンタングルメントエントロピーを上下に有する交叉関係を同定した。
これらの境界は, ポストセレクションを必要とせずに, 測定後の絡み合いを抑える実験を行うことが可能であることを示している。
本手法を説明するために,Haar-random量子回路における測定誘起エンタングルメント遷移の観測方法を検討する。
量子シミュレーションのプロキシとして厳密な数値計算を用い,古典記憶の基本限界を強調するために,有限結合次元におけるテンソルネットワーク計算との相互相関を構築した。
その結果, 多項式時間と多項式古典記憶において量子シミュレータを用いて観測できる測定誘起臨界性のシグネチャが明らかになった。 We study the problem of observing quantum collective phenomena emerging from large numbers of measurements. These phenomena are difficult to observe in conventional experiments because, in order to distinguish the effects of measurement from dephasing, it is necessary to post-select on sets of measurement outcomes whose Born probabilities are exponentially small in the number of measurements performed. An unconventional approach, which avoids this exponential `post-selection problem', is to construct cross-correlations between experimental data and the results of simulations on classical computers. However, these cross-correlations generally have no definite relation to physical quantities. We first show how to incorporate shadow tomography into this framework, thereby allowing for the construction of quantum information-theoretic cross-correlations. We then identify cross-correlations which both upper and lower bound the measurement-averaged von Neumann entanglement entropy. These bounds show that experiments can be performed to constrain post-measurement entanglement without the need for post-selection. To illustrate our technique we consider how it could be used to observe the measurement-induced entanglement transition in Haar-random quantum circuits. We use exact numerical calculations as proxies for quantum simulations and, to highlight the fundamental limitations of classical memory, we construct cross-correlations with tensor-network calculations at finite bond dimension. Our results reveal a signature of measurement-induced criticality that can be observed using a quantum simulator in polynomial time and with polynomial classical memory. | 翻訳日:2023-06-01 14:34:55 公開日:2023-05-31 |
# 4Dの人間:トランスフォーマーで人間の再構築と追跡 Humans in 4D: Reconstructing and Tracking Humans with Transformers ( http://arxiv.org/abs/2305.20091v1 ) ライセンス: Link先を確認 | Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik | (参考訳) 我々は,人間を再構築し,時間とともに追跡する手法を提案する。
このアプローチの核となるのが,人間のメッシュ回復のためのネットワークの完全"トランスフォーマライズ"版である。
このネットワークであるHMR 2.0は、芸術の状態を前進させ、過去に1枚の画像から再構成することが困難であった異常なポーズを分析する能力を示す。
ビデオの解析には,hmr 2.0からの3次元再構成を3dで動作するトラッキングシステムへの入力として用いる。
これにより、複数の人に対応でき、オクルージョンイベントを通じてアイデンティティを維持できます。
我々の完全なアプローチである4DHumansは、モノクロビデオから人々を追跡するための最先端の結果を得る。
さらに,HMR 2.0が行動認識の下流タスクに与える影響を実証し,従来のポーズに基づく行動認識手法よりも顕著に改善した。
私たちのコードとモデルはプロジェクトのwebサイト(https://shubham-goel.github.io/4dhumans/)で利用可能です。 We present an approach to reconstruct humans and track them over time. At the core of our approach, we propose a fully "transformerized" version of a network for human mesh recovery. This network, HMR 2.0, advances the state of the art and shows the capability to analyze unusual poses that have in the past been difficult to reconstruct from single images. To analyze video, we use 3D reconstructions from HMR 2.0 as input to a tracking system that operates in 3D. This enables us to deal with multiple people and maintain identities through occlusion events. Our complete approach, 4DHumans, achieves state-of-the-art results for tracking people from monocular video. Furthermore, we demonstrate the effectiveness of HMR 2.0 on the downstream task of action recognition, achieving significant improvements over previous pose-based action recognition approaches. Our code and models are available on the project website: https://shubham-goel.github.io/4dhumans/. | 翻訳日:2023-06-01 14:34:31 公開日:2023-05-31 |
# 一般化Aubry-Andreモデルにおける相互作用強化多体局在 Interaction-enhanced many body localization in a generalized Aubry-Andre model ( http://arxiv.org/abs/2305.20090v1 ) ライセンス: Link先を確認 | Ke Huang, DinhDuy Vu, Sankar Das Sarma, and Xiao Li | (参考訳) 我々はPhysで導入された一般化Aubry-Andreモデル(GPDモデル)における多体局在化(MBL)遷移について検討する。
Rev. Lett.
114, 146601 (2015).
他の乱れあるいは準周期モデルにおけるMBLとは対照的に、この相互作用は、あるパラメータ範囲におけるGPDモデルにおけるMBLを予期せず向上させるようである。
この反直感的な結果を理解するために、GPDモデルにおける高エネルギー単一粒子バンドが無限小障害に対して不安定であることを示し、相互作用モデルにおけるこの驚くべきMBL現象をもたらす。
我々は,拡張状態と局所状態の結合を理解するための平均場理論記述を開発し,広義の正確な対角化とDMRG-X数値結果を用いて検証した。 We study the many-body localization (MBL) transition in a generalized Aubry-Andre model (also known as the GPD model) introduced in Phys. Rev. Lett. 114, 146601 (2015). In contrast to MBL in other disordered or quasiperiodic models, the interaction seems to unexpectedly enhance MBL in the GPD model in some parameter ranges. To understand this counter-intuitive result, we demonstrate that the highest-energy single-particle band in the GPD model is unstable against even infinitesimal disorder, which leads to this surprising MBL phenomenon in the interacting model. We develop a mean-field theory description to understand the coupling between extended and localized states, which we validate using extensive exact diagonalization and DMRG-X numerical results. | 翻訳日:2023-06-01 14:34:18 公開日:2023-05-31 |
# 単眼画像からの手持ち物体の入射再構成のための明示的接触学習 Learning Explicit Contact for Implicit Reconstruction of Hand-held Objects from Monocular Images ( http://arxiv.org/abs/2305.20089v1 ) ライセンス: Link先を確認 | Junxing Hu, Hongwen Zhang, Zerui Chen, Mengcheng Li, Yunlong Wang, Yebin Liu, Zhenan Sun | (参考訳) モノクロのRGB画像から手持ちのオブジェクトを再構築することは、魅力的だが難しい作業だ。
この課題では,手と物体の接触が,手持ち物体の3次元形状を復元するための重要な手がかりとなる。
最近の研究では、目覚ましい進歩を達成するために暗黙の関数が採用されているが、フレームワーク内の接触は無視されている。
本研究では,手持ちの物体を暗黙的に再構築する上で,接触を明示的にモデル化する方法を検討する。
本手法は, 明示的な接触予測と暗黙的な形状再構成の2成分からなる。
まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。
部分レベルおよび頂点レベルグラフベースの変換器は、より正確な接触確率を得るために粗い方法で共用学習される。
第2部では,ハンドメッシュ表面から近接3次元空間への推定接触状態を拡散させ,拡散接触確率を利用して操作対象の暗黙的神経表現を構築する新しい手法を提案する。
手と物体の相互作用パターンを推定することで、よりリアルな物体メッシュ、特に手と接触している物体を再構築することができる。
挑戦的なベンチマークに関する広範囲な実験は、提案手法が現在の芸術の水準を大きく上回っていることを示している。 Reconstructing hand-held objects from monocular RGB images is an appealing yet challenging task. In this task, contacts between hands and objects provide important cues for recovering the 3D geometry of the hand-held objects. Though recent works have employed implicit functions to achieve impressive progress, they ignore formulating contacts in their frameworks, which results in producing less realistic object meshes. In this work, we explore how to model contacts in an explicit way to benefit the implicit reconstruction of hand-held objects. Our method consists of two components: explicit contact prediction and implicit shape reconstruction. In the first part, we propose a new subtask of directly estimating 3D hand-object contacts from a single image. The part-level and vertex-level graph-based transformers are cascaded and jointly learned in a coarse-to-fine manner for more accurate contact probabilities. In the second part, we introduce a novel method to diffuse estimated contact states from the hand mesh surface to nearby 3D space and leverage diffused contact probabilities to construct the implicit neural representation for the manipulated object. Benefiting from estimating the interaction patterns between the hand and the object, our method can reconstruct more realistic object meshes, especially for object parts that are in contact with hands. Extensive experiments on challenging benchmarks show that the proposed method outperforms the current state of the arts by a great margin. | 翻訳日:2023-06-01 14:34:03 公開日:2023-05-31 |
# 言語書き換えによるCLIPトレーニングの改善 Improving CLIP Training with Language Rewrites ( http://arxiv.org/abs/2305.20088v1 ) ライセンス: Link先を確認 | Lijie Fan, Dilip Krishnan, Phillip Isola, Dina Katabi, Yonglong Tian | (参考訳) Contrastive Language-Image Pre-Training (CLIP) は、ペア画像とテキストデータを用いて転送可能な視覚モデルをトレーニングする最も効果的でスケーラブルな方法の1つである。
クリップモデルは、通常、過剰フィッティングやショートカットを防ぐためのデータ拡張に依存するコントラスト損失を使ってトレーニングされる。
しかし、CLIPトレーニングパラダイムでは、データ拡張は画像入力にのみ適用されるが、言語入力はトレーニングプロセス全体を通して変化せず、多様なテキストが同じ画像に露出することを制限する。
本稿では,言語書き換えによるクリップトレーニングの強化を目的とした,単純かつ効果的なアプローチであるlanguage augmented clip (laclip)を提案する。
大規模言語モデルのコンテキスト内学習機能を活用することで,各画像に関連するテキスト記述を書き換える。
これらの書き直されたテキストは、元のキー概念と意味を保ちながら、文構造と語彙の多様性を示している。
トレーニング中、LaCLIPは各画像のテキスト拡張としてオリジナルのテキストか書き直したバージョンのいずれかをランダムに選択する。
CC3M、CC12M、RedCaps、LAION-400Mデータセットの大規模な実験は、言語書き換えによるCLIP事前トレーニングが、トレーニング中に計算やメモリオーバーヘッドなしで転送性能を大幅に改善することを示している。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
コードはhttps://github.com/LijieFan/LaCLIPで入手できる。 Contrastive Language-Image Pre-training (CLIP) stands as one of the most effective and scalable methods for training transferable vision models using paired image and text data. CLIP models are trained using contrastive loss, which typically relies on data augmentations to prevent overfitting and shortcuts. However, in the CLIP training paradigm, data augmentations are exclusively applied to image inputs, while language inputs remain unchanged throughout the entire training process, limiting the exposure of diverse texts to the same image. In this paper, we introduce Language augmented CLIP (LaCLIP), a simple yet highly effective approach to enhance CLIP training through language rewrites. Leveraging the in-context learning capability of large language models, we rewrite the text descriptions associated with each image. These rewritten texts exhibit diversity in sentence structure and vocabulary while preserving the original key concepts and meanings. During training, LaCLIP randomly selects either the original texts or the rewritten versions as text augmentations for each image. Extensive experiments on CC3M, CC12M, RedCaps and LAION-400M datasets show that CLIP pre-training with language rewrites significantly improves the transfer performance without computation or memory overhead during training. Specifically for ImageNet zero-shot accuracy, LaCLIP outperforms CLIP by 8.2% on CC12M and 2.4% on LAION-400M. Code is available at https://github.com/LijieFan/LaCLIP. | 翻訳日:2023-06-01 14:33:39 公開日:2023-05-31 |
# ビジョンランゲージ事前学習のためのデータ削減 Too Large; Data Reduction for Vision-Language Pre-Training ( http://arxiv.org/abs/2305.20087v1 ) ライセンス: Link先を確認 | Alex Jinpeng Wang, Kevin Qinghong Lin, David Junhao Zhang, Stan Weixian Lei and Mike Zheng Shou | (参考訳) 本稿では,vlpデータセットにおける重大画像テキスト不一致と高い冗長性の問題について検討する。
そこで本研究では,既存の大規模vlpデータを小型で高品質な集合に圧縮することを目的とした,効率的な視覚言語学習アルゴリズムtl;drを提案する。
我々のアプローチは2つの大きなステップからなる。
まず、代表サンプルを選択するコードブックベースのエンコーダ・デコーダキャプションを開発した。
第2に、選択されたサンプルの原字幕を補完する新たなキャプションを生成し、独特性を維持しつつ、テキスト画像の誤調整問題を緩和する。
その結果、TL;DRにより、大規模なデータセットを少数の高品質なデータセットに縮小することが可能となり、代替の事前学習データセットとして機能する。
このアルゴリズムは、時間を要する事前学習プロセスを著しく高速化する。
具体的には、TL;DRは主流のVLPデータセットを高い比率で圧縮することができる。例えば、よくクリーニングされたCC3Mデータセットを2.82Mから0.67M(\sim$24\%)に、ノイズの多いYFCC15Mを15Mから2.5M(\sim$16.7\%)に削減できる。
7つのダウンストリームタスクにまたがる3つの一般的なVLPモデルによる大規模な実験により、TL;DRによって提供される圧縮データセットでトレーニングされたVLPモデルは、フルスケールデータセットでのトレーニングと比較すると、同様の、あるいはそれ以上の結果が得られることが示された。
コードは \url{https://github.com/showlab/data-centric.vlp} で入手できる。 This paper examines the problems of severe image-text misalignment and high redundancy in the widely-used large-scale Vision-Language Pre-Training (VLP) datasets. To address these issues, we propose an efficient and straightforward Vision-Language learning algorithm called TL;DR, which aims to compress the existing large VLP data into a small, high-quality set. Our approach consists of two major steps. First, a codebook-based encoder-decoder captioner is developed to select representative samples. Second, a new caption is generated to complement the original captions for selected samples, mitigating the text-image misalignment problem while maintaining uniqueness. As the result, TL;DR enables us to reduce the large dataset into a small set of high-quality data, which can serve as an alternative pre-training dataset. This algorithm significantly speeds up the time-consuming pretraining process. Specifically, TL;DR can compress the mainstream VLP datasets at a high ratio, e.g., reduce well-cleaned CC3M dataset from 2.82M to 0.67M ($\sim$24\%) and noisy YFCC15M from 15M to 2.5M ($\sim$16.7\%). Extensive experiments with three popular VLP models over seven downstream tasks show that VLP model trained on the compressed dataset provided by TL;DR can perform similar or even better results compared with training on the full-scale dataset. The code will be made available at \url{https://github.com/showlab/data-centric.vlp}. | 翻訳日:2023-06-01 14:33:12 公開日:2023-05-31 |
# 拡散モデルにおけるコピーの理解と緩和 Understanding and Mitigating Copying in Diffusion Models ( http://arxiv.org/abs/2305.20086v1 ) ライセンス: Link先を確認 | Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping and Tom Goldstein | (参考訳) 安定拡散のような拡散モデルによって生成される画像はますます普及している。
最近の研究や訴訟でも、これらのモデルがトレーニングデータを複製する傾向にあることが示されている。
本稿では,テキスト・画像拡散モデルにおいて,この記憶問題をまず解析する。
トレーニングセット内の重複画像は,推定時のコンテンツ複製に責任があると広く信じられているが,モデルのテキストコンディショニングも同様に重要な役割を担っている。
実際、我々の実験では、データ複製は無条件モデルでは起こらないことが多いが、テキスト条件の場合は一般的である。
そこで本研究では,トレーニングセットにおける画像キャプションのランダム化と増大により,トレーニング時間と推論時間の両方でデータ複製を減らす手法を提案する。 Images generated by diffusion models like Stable Diffusion are increasingly widespread. Recent works and even lawsuits have shown that these models are prone to replicating their training data, unbeknownst to the user. In this paper, we first analyze this memorization problem in text-to-image diffusion models. While it is widely believed that duplicated images in the training set are responsible for content replication at inference time, we observe that the text conditioning of the model plays a similarly important role. In fact, we see in our experiments that data replication often does not happen for unconditional models, while it is common in the text-conditional case. Motivated by our findings, we then propose several techniques for reducing data replication at both training and inference time by randomizing and augmenting image captions in the training set. | 翻訳日:2023-06-01 14:32:44 公開日:2023-05-31 |
# 中性イッテルビウム原子の$^1\text{S}_{0}$および$^3\text{P}_{0}$クロック状態の状態依存性ポテンシャル State-dependent potentials for the $^1\text{S}_{0}$ and $^3\text{P}_{0}$ clock states of neutral ytterbium atoms ( http://arxiv.org/abs/2305.20084v1 ) ライセンス: Link先を確認 | Tim O. H\"ohn, Etienne Staub, Guillaume Brochier, Nelson Darkwah Oppong, Monika Aidelsburger | (参考訳) 我々は、$^1\text{s}_{0}-^3\text{p}_{0}$クロック遷移における3つの異なる状態(in)依存波長の測定を、$^{174}\text{yb}$原子で行った。
具体的には、$^1\text{s}_{0}-^3\text{p}_{0}$クロック遷移の差光シフトが消滅する652.281(21)\,$thz and $542.50205(19)\,$thz と、$^1\text{s}_{0}-^3\text{p}_{0}$ の2つのマジック波長と、$^1\text{s}_{0}$ ground状態の偏光性がゼロ交差を示す 541.8325(4)\,$thz の1つのチューンアウト波長を決定する。
2つの新しい魔法の波長は、1次元光学格子のクロック遷移における$^{174}\text{Yb}$原子を分光学的に問うことによって同定される。
地中チューンアウト波長はパラメトリック加熱スキームにより決定される。
単純な経験モデルを用いて、可視スペクトルの広い波長にわたって、地面と励起状態の偏光性を外挿する。 We present measurements of three distinctive state-(in)dependent wavelengths for the $^1\text{S}_{0}-^3\text{P}_{0}$ clock transition in $^{174}\text{Yb}$ atoms. Specifically, we determine two magic wavelengths at $652.281(21)\,$THz and $542.50205(19)\,$THz, where the differential light shift on the $^1\text{S}_{0}-^3\text{P}_{0}$ clock transition vanishes, and one tune-out wavelength at $541.8325(4)\,$THz, where the polarizability of the $^1\text{S}_{0}$ ground state exhibits a zero crossing. The two new magic wavelengths are identified by spectroscopically interrogating cold $^{174}\text{Yb}$ atoms on the clock transition in a one-dimensional optical lattice. The ground-state tune-out wavelength is determined via a parametric heating scheme. With a simple empirical model, we then extrapolate the ground and excited state polarizability over a broad range of wavelengths in the visible spectrum. | 翻訳日:2023-06-01 14:32:31 公開日:2023-05-31 |
# Control4D:2次元拡散に基づくエディタから4D GANを学習した動的画像編集 Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor ( http://arxiv.org/abs/2305.20082v1 ) ライセンス: Link先を確認 | Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu | (参考訳) 近年は、テキストによる画像編集でかなりの成果を上げている。
これらのエディターを動的シーン編集に適用する場合、新しいスタイルのシーンは2Dエディターのフレーム・バイ・フレームの性質のために時間的に矛盾する傾向がある。
この問題に対処するため,我々は高忠実かつ時間的に一貫した4D画像編集のための新しいアプローチであるControl4Dを提案する。
Control4Dは2D拡散ベースのエディタで効率的な4D表現の上に構築されている。
本手法では,編集者から直接の監督の代わりに4D GANを学習し,一貫性のない監視信号を回避する。
具体的には、識別器を用いて、編集画像に基づいて生成分布を学習し、識別信号で生成器を更新する。
より安定したトレーニングのために、編集された画像から多レベル情報を抽出し、ジェネレータの学習を容易にするために使用する。
実験の結果,Control4Dは従来の手法を超越し,よりフォトリアリスティックで一貫した4D編集性能を実現することがわかった。
私たちのプロジェクトwebサイトへのリンクはhttps://control4darxiv.github.ioです。 Recent years have witnessed considerable achievements in editing images with text instructions. When applying these editors to dynamic scene editing, the new-style scene tends to be temporally inconsistent due to the frame-by-frame nature of these 2D editors. To tackle this issue, we propose Control4D, a novel approach for high-fidelity and temporally consistent 4D portrait editing. Control4D is built upon an efficient 4D representation with a 2D diffusion-based editor. Instead of using direct supervisions from the editor, our method learns a 4D GAN from it and avoids the inconsistent supervision signals. Specifically, we employ a discriminator to learn the generation distribution based on the edited images and then update the generator with the discrimination signals. For more stable training, multi-level information is extracted from the edited images and used to facilitate the learning of the generator. Experimental results show that Control4D surpasses previous approaches and achieves more photo-realistic and consistent 4D editing performances. The link to our project website is https://control4darxiv.github.io. | 翻訳日:2023-06-01 14:32:03 公開日:2023-05-31 |
# オフライン強化学習のための効率的な拡散ポリシー Efficient Diffusion Policies for Offline Reinforcement Learning ( http://arxiv.org/abs/2305.20081v1 ) ライセンス: Link先を確認 | Bingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan | (参考訳) オフライン強化学習(rl)は、オフラインデータセットから最適なポリシーを学習することを目的としている。
最近、Diffsuion-QLは拡散モデルでポリシーを表現することでオフラインRLの性能を大幅に向上させ、その成功はサンプリングのための数百ステップのパラメータ化されたマルコフ連鎖に依存している。
しかし、Diffusion-QLには2つの限界がある。
1) 訓練中のマルコフ連鎖全体の前方および後方への移動は計算量的に非効率である。
2)拡散モデルの可能性は難解であるため,最大確率に基づくrlアルゴリズム(例えば,ポリシー勾配法)とは相容れない。
そこで本稿では,これらの2つの課題を克服する効率的な拡散政策を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の破損したアクションを概ね構成する。
D4RLベンチマークで広範な実験を行った。
その結果, EDPは, ジム移動作業において, 拡散政策訓練時間を5日から5時間に短縮できることがわかった。
さらに、EDPは様々なオフラインRLアルゴリズム(TD3、CRR、IQL)と互換性があり、従来の手法よりも大きなマージンでD4RLの新たな最先端を実現する。
私たちのコードはhttps://github.com/sail-sg/edpで利用可能です。 Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp. | 翻訳日:2023-06-01 14:31:45 公開日:2023-05-31 |
# 帯域制限ランダムウェイトを持つ浅層ニューラルネットワークはどの程度強力か? How Powerful are Shallow Neural Networks with Bandlimited Random Weights? ( http://arxiv.org/abs/2008.08427v4 ) ライセンス: Link先を確認 | Ming Li, Sho Sonoda, Feilong Cao, Yu Guang Wang, Jiye Liang | (参考訳) 本研究では、深度2帯域幅のランダムニューラルネットワークの表現力について検討する。
ランダムネットは、隠れた層パラメータがランダム割り当てで凍結され、出力層パラメータだけが損失最小化によって訓練されるニューラルネットワークである。
正規勾配降下学習における非凸最適化を回避するために,隠れ層に対するランダムウェイトを用いることが有効な方法である。
近年の深層学習理論にも採用されている。
ニューラルネットワークが普遍近似器であることはよく知られているが,本研究では,隠れたパラメータが有界領域に分散されている場合,ネットワークがゼロ近似誤差を達成できないことを数学的に示す。
特に、新しい非自明な近似誤差の下界を導出する。
この証明は、ニューラルネットワーク用に設計された調和解析手法であるリッジレット解析の手法を利用する。
この手法は古典的な信号処理の基本原理、特に帯域幅が限られている信号が元の信号を完全に再現できるとは限らないという考え方に着想を得ている。
私たちは様々なシミュレーション研究で理論結果と一致させ、一般的に2つの主なメッセージが提供されます。
(i)ランダムな重みを選択するための分布は、普遍的近似器を構築することができない。
(ii) 乱重みの適切な割り当ては存在するが、ある程度は対象関数の複雑さと関連している。 We investigate the expressive power of depth-2 bandlimited random neural networks. A random net is a neural network where the hidden layer parameters are frozen with random assignment, and only the output layer parameters are trained by loss minimization. Using random weights for a hidden layer is an effective method to avoid non-convex optimization in standard gradient descent learning. It has also been adopted in recent deep learning theories. Despite the well-known fact that a neural network is a universal approximator, in this study, we mathematically show that when hidden parameters are distributed in a bounded domain, the network may not achieve zero approximation error. In particular, we derive a new nontrivial approximation error lower bound. The proof utilizes the technique of ridgelet analysis, a harmonic analysis method designed for neural networks. This method is inspired by fundamental principles in classical signal processing, specifically the idea that signals with limited bandwidth may not always be able to perfectly recreate the original signal. We corroborate our theoretical results with various simulation studies, and generally, two main take-home messages are offered: (i) Not any distribution for selecting random weights is feasible to build a universal approximator; (ii) A suitable assignment of random weights exists but to some degree is associated with the complexity of the target function. | 翻訳日:2023-06-01 12:19:56 公開日:2023-05-31 |
# ゼロthresholdポラリトンラマンレーザー A Zero-Threshold Polariton-Raman Laser ( http://arxiv.org/abs/2305.17475v2 ) ライセンス: Link先を確認 | Avijit Dhara, Devarshi Chakrabarty, Pritam Das, Kritika Ghosh, Ayan Roy Chaudhuri, Sajal Dhara | (参考訳) ラマンレーザーは、従来のレーザーでは達成できない低出力動作と波長可変で知られている。
最近の超低融点ラマンレーザーは様々な測地線を持つ半導体で実現されていた。
ゼロ閾値レーザーは従来は単一モードキャビティに強く結合した単一原子エミッタとユニティの自然放出結合係数でのみ実現されていた。
しかし, 異方性ラマン活性物質を担持するマイクロキャビティでは, 縮退した裸空洞モードでは実現不可能であった。
ここでは、ストロークシフトポラリトンラマンモードが光学的微小キャビティ内の異方性励起子-ポラリトンバンドの1つ内で調整されると、ゼロしきい値のラマンレーザーが得られることを示す。
さらに、単一モードのマイクロキャビティにおけるラマン活性異方性励起子-ポーラリトンは、例外点を含む非自明なバンド分散を構成する2つの略直交偏光子モードからなるpt対称非エルミート量子系を実現するプラットフォームを提供する。
その結果, ゼロスレッショルド発振に寄与するpt対称相は, 浴温の変動によるキャビティデチューニングとポンプ偏光とエネルギーの変動により, pt対称性破壊相の有限しきい値に切り替えることができることがわかった。
ゼロしきい値ポラリトンラマンレーザーの発見は、量子光学やオンチップフォトニクスの分野での応用のいくつかの新しいパラダイムを開くだけでなく、pt対称非ヘルミティアン系の量子物理学の研究のためのプラットフォームを提供するだろう。 Raman lasers are known for their low power operation and wavelength tunability unattainable by conventional lasers. Recently ultralow-threshold Raman lasers had been realized in semiconductors with various geometries. Zero-threshold lasers were realized previously only in single atom emitter strongly coupled in a single mode cavity with spontaneous emission coupling factor of unity. However, this was not feasible in microcavities hosting isotropic Raman active materials with degenerate bare cavity modes. Here we show that a zero threshold Raman laser can be achieved when Stoke shifted polariton Raman modes are tuned within one of the anisotropic exciton-polariton bands in an optical microcavity. In addition, we demonstrate that Raman active anisotropic exciton-polaritons in a single mode microcavity offers a platform to realize a PT-symmetric non-Hermitian quantum system of two nearly orthogonal polariton modes that constitute a non-trivial band dispersion containing exceptional points. We found that the PT-symmetric phase responsible for the zero-threshold lasing can be switched to a finite threshold in PT-symmetry broken phase via cavity detuning by the variation of bath temperature, as well as by the variation of pump polarization and energy. Our discovery of zero threshold polariton Raman laser, would not only open up several new paradigms of applications in the areas of quantum optics and on-chip photonics but also offer a platform for research in quantum physics of PT-symmetric non-Hermitian system. | 翻訳日:2023-06-01 12:11:18 公開日:2023-05-31 |
# pt対称非エルミート物理のプラットフォームとしての異方性励起子ポラリトン対 Anisotropic exciton polariton pairs as a platform for PT-symmetric non-Hermitian physics ( http://arxiv.org/abs/2305.17472v2 ) ライセンス: Link先を確認 | Devarshi Chakrabarty, Avijit Dhara, Pritam Das, Kritika Ghosh, Ayan Roy Chaudhuri, Sajal Dhara | (参考訳) パリティ時(PT)対称性を持つ非エルミート系は古典的領域の光学的構造を用いて実現され、非直観的現象の多元性をもたらす。
しかし、マイクロキャビティ・エクシトン・ポラリトンのような純粋量子非エルミート系のPT対称性は今のところ実現されていない。
ここでは、異方性励起子偏光子の対が、例外点 (EPs) と呼ばれる多重スペクトル退化を実現するための汎用的なプラットフォームを提供することを示し、PT対称システムを実現するためのロードマップを提案する。
偏光-可変結合強度は1種類のEPを生成する一方、Voigt EPは両屈折による偏光モードの分割を横電気(TE)-横磁気(TM)モード分割で補償する特定の向きに対して観察される。
したがって、偏光異方性マイクロキャビティ励起子ポラリトン対は、非エルミート量子物理学や位相偏光子に関する基礎研究だけでなく、ゼロしきい値レーザーの実現にも重要なプラットフォームを提供することができる。 Non-Hermitian systems with parity-time (PT) symmetry have been realized using optical constructs in the classical domain, leading to a plethora of non-intuitive phenomena. However, PT-symmetry in purely quantum non-Hermitian systems like microcavity exciton-polaritons has not been realized so far. Here we show how a pair of nearly orthogonal sets of anisotropic exciton-polaritons can offer a versatile platform for realizing multiple spectral degeneracies called Exceptional Points (EPs) and propose a roadmap to achieve a PT-symmetric system. Polarization-tunable coupling strength creates one class of EPs, while Voigt EPs are observed for specific orientations where splitting of polariton modes due to birefringence is compensated by Transverse Electric (TE) -Transverse Magnetic (TM) mode splitting. Thus, paired sets of polarized anisotropic microcavity exciton-polaritons can offer a promising platform not only for fundamental research in non-Hermitian quantum physics and topological polaritons, but also, we propose that it will be critical for realizing zero threshold lasers. | 翻訳日:2023-06-01 12:10:49 公開日:2023-05-31 |
# 学術論文からテキスト分類とオブジェクト認識を洗練するためのフレームワーク A Framework For Refining Text Classification and Object Recognition from Academic Articles ( http://arxiv.org/abs/2305.17401v2 ) ライセンス: Link先を確認 | Jinghong Li, Koichi Ota, Wen Gu, Shinobu Hasegawa | (参考訳) インターネットの普及に伴い、大量の学術論文から特定の情報を効率的に抽出することがますます重要になっている。
データマイニング技術は一般にこの問題を解決するために用いられる。
しかし, 学術論文のデータマイニングは, 複雑かつ非構造的なレイアウト文書中の特定のパターンを自動的に抽出する必要があるため, 困難である。
現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。
しかし、ルールベースの手法を用いることで複雑なタイプセット記事のコーディングコストが高くなる。
一方、単に機械学習手法を用いることで、論文内の複雑なコンテンツタイプに対するアノテーション作業が必要となり、コストがかかる可能性がある。
さらに、機械学習のみを用いることで、ルールベースの手法で容易に認識できるパターンを誤って抽出するケースが生まれる。
これらの課題を克服するために,特定出版物で使用される標準レイアウトと型設定の分析の観点から,学術論文に特有の特徴を具体化する手法を強調する。
我々は,機械学習とルールベースのスキームハイブリッドであるテキストブロック精錬フレームワーク(TBRF)を開発した。
検証実験では,有名なACL論文を実験データとして使用した。
実験の結果,表や図の95%以上の分類精度と90%以上の検出精度が得られた。 With the widespread use of the internet, it has become increasingly crucial to extract specific information from vast amounts of academic articles efficiently. Data mining techniques are generally employed to solve this issue. However, data mining for academic articles is challenging since it requires automatically extracting specific patterns in complex and unstructured layout documents. Current data mining methods for academic articles employ rule-based(RB) or machine learning(ML) approaches. However, using rule-based methods incurs a high coding cost for complex typesetting articles. On the other hand, simply using machine learning methods requires annotation work for complex content types within the paper, which can be costly. Furthermore, only using machine learning can lead to cases where patterns easily recognized by rule-based methods are mistakenly extracted. To overcome these issues, from the perspective of analyzing the standard layout and typesetting used in the specified publication, we emphasize implementing specific methods for specific characteristics in academic articles. We have developed a novel Text Block Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid. We used the well-known ACL proceeding articles as experimental data for the validation experiment. The experiment shows that our approach achieved over 95% classification accuracy and 90% detection accuracy for tables and figures. | 翻訳日:2023-06-01 12:10:28 公開日:2023-05-31 |
# GPTはリテラル翻訳が少ないか? Do GPTs Produce Less Literal Translations? ( http://arxiv.org/abs/2305.16806v3 ) ライセンス: Link先を確認 | Vikas Raunak, Arul Menezes, Matt Post, Hany Hassan Awadalla | (参考訳) GPT-3のような大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。
機械翻訳のタスク(mt)では、複数の作品がllmからの翻訳を改善するために、数発のプロンプト機構を調査した。
しかし, 標準的なニューラル機械翻訳(NMT)モデルによる翻訳と, それらの翻訳が質的にどう異なるかは, 比較的研究されていない。
本研究では,この2つのシステムによる翻訳のリテラル性の観点から,これらの差異について検討する。
単語アライメントと単調性を含むリテラルネス尺度を用いて、GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、MTの品質指標に類似あるいはより良いスコアが現れる。
我々は、この発見が人間の評価にも反映されていることを実証する。
その結果,慣用的な表現を含む文を翻訳する場合,これらの差異は特に顕著であることがわかった。 Large Language Models (LLMs) such as GPT-3 have emerged as general-purpose language models capable of addressing many natural language generation or understanding tasks. On the task of Machine Translation (MT), multiple works have investigated few-shot prompting mechanisms to elicit better translations from LLMs. However, there has been relatively little investigation on how such translations differ qualitatively from the translations generated by standard Neural Machine Translation (NMT) models. In this work, we investigate these differences in terms of the literalness of translations produced by the two systems. Using literalness measures involving word alignment and monotonicity, we find that translations out of English (E-X) from GPTs tend to be less literal, while exhibiting similar or better scores on MT quality metrics. We demonstrate that this finding is borne out in human evaluations as well. We then show that these differences are especially pronounced when translating sentences that contain idiomatic expressions. | 翻訳日:2023-06-01 12:10:09 公開日:2023-05-31 |
# 1次元$\delta$-ポテンシャル上の粒子の散乱に関する時間依存理論 Time-dependent theory of scattering a particle on a one-dimensional $\delta$-potential ( http://arxiv.org/abs/2305.15381v3 ) ライセンス: Link先を確認 | N. L. Chuprikov | (参考訳) 1次元の$\delta$-potential上でスピンレス粒子を散乱する時間依存理論が提示され、粒子の位置と運動量演算子の非有界性が重要な役割を果たす。
波動作用素は、連続スペクトルに関連する空間 $\mathcal{h}_{ac}$ 全体ではなく、位置と運動量演算子が自己共役であるシュワルツ空間 $\mathcal{s}$ において定義される。
この理論は、$\mathcal{S}\bigcap\mathcal{H}_{ac }$ の波動作用素の(随伴)領域が 2 つの(一様でない)コヒーレントセクターの直和であるような漸近的超選択規則を含む。
粒子のバリアへの一方的な入射過程は、2つのコヒーレントに発達する透過サブプロセスと反射サブプロセスの混合であり、これは送信パケットと反射パケットの空間的分離、すなわち動的デコヒーレンスにより、極限$t\to\infty$でコヒーレンスを失う。
この過程は(閉系で動くが)非単体であり、シュル「{o}dinger dynamics」はコヒーレントセクターの境界と交わるからである。 Time-dependent theory of scattering a spinless particle on a one-dimensional $\delta$-potential is presented, in which the unboundedness of the particle's position and momentum operators plays crucial role. Wave operators are defined here not in the entire space $\mathcal{H}_{ac}$ associated with the continuous spectrum, but in the Schwarz space $\mathcal{S}$, where the position and momentum operators are self-adjoint. This theory contains an asymptotic superselection rule according to which the (joint) domain of wave operators in $\mathcal{S}\bigcap\mathcal{H}_{ac }$ is a direct sum of two (unitarily nonequivalent) coherent sectors. The process with a unilateral incidence of a particle onto the barrier is a mixture of two coherently developing transmission and reflection subprocesses which lose coherence in the limit $t\to\infty$ due to the spatial separation of the transmitted and reflected wave packets, i.e. due to dynamic decoherence. This process is non-unitary (although it runs in a closed system), since the Schr\"{o}dinger dynamics intersects the boundaries of coherent sectors. | 翻訳日:2023-06-01 12:09:53 公開日:2023-05-31 |
# 離散拡散モデリングによる効率・遅延ガイドグラフ生成 Efficient and Degree-Guided Graph Generation via Discrete Diffusion Modeling ( http://arxiv.org/abs/2305.04111v4 ) ライセンス: Link先を確認 | Xiaohui Chen, Jiaxing He, Xu Han, Li-Ping Liu | (参考訳) 拡散に基づく生成グラフモデルは高品質の小さなグラフを生成するのに有効であることが証明されている。
しかし、グラフ統計を希望する数千のノードを含む大規模グラフを生成するには、よりスケーラブルでなければならない。
本研究では,大きなグラフを持つ生成タスクに対処する新しい拡散型生成グラフモデルであるEDGEを提案する。
計算効率を向上させるために,各時間ステップでエッジをランダムに除去し,最後に空グラフを得る離散拡散法を用いて,グラフスパーシティを奨励する。
EDGEはグラフ内のノードの一部のみに焦点を当てている。
従来の拡散ベースのモデルよりもエッジ予測がはるかに少ない。
さらにedgeは、グラフのノード次数を明示的にモデル化し、さらにモデル性能を改善している。
実験的な研究によると、EDGEは競合する手法よりも効率的であり、数千のノードで大きなグラフを生成することができる。
私たちのアプローチによって生成されたグラフは、トレーニンググラフのそれよりも類似したグラフ統計を持っています。 Diffusion-based generative graph models have been proven effective in generating high-quality small graphs. However, they need to be more scalable for generating large graphs containing thousands of nodes desiring graph statistics. In this work, we propose EDGE, a new diffusion-based generative graph model that addresses generative tasks with large graphs. To improve computation efficiency, we encourage graph sparsity by using a discrete diffusion process that randomly removes edges at each time step and finally obtains an empty graph. EDGE only focuses on a portion of nodes in the graph at each denoising step. It makes much fewer edge predictions than previous diffusion-based models. Moreover, EDGE admits explicitly modeling the node degrees of the graphs, further improving the model performance. The empirical study shows that EDGE is much more efficient than competing methods and can generate large graphs with thousands of nodes. It also outperforms baseline models in generation quality: graphs generated by our approach have more similar graph statistics to those of the training graphs. | 翻訳日:2023-06-01 12:09:26 公開日:2023-05-31 |
# Open-VCLIP: 補間重み最適化によるCLIPをオープン語彙ビデオモデルに変換する Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization ( http://arxiv.org/abs/2302.00624v3 ) ライセンス: Link先を確認 | Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang | (参考訳) コントラスト型言語イメージプリトレーニング(clip)は、画像理解のための印象的なゼロショット学習能力を示しているが、ゼロショットビデオ認識のためのクリップを調査するために限定的な努力がなされている。
これは、CLIPを強力なゼロショットビデオ分類器に変換し、テスト時に目に見えないアクションやイベントを認識する、シンプルで効果的なアプローチである。
私たちのフレームワークはクリップを最小限の修正で拡張し、ビデオ内の空間と時間の関係をモデル化します。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
そこで本研究では,トレーニング時間とテスト時間の両方において重み補間の利点を生かした補間重み最適化を提案する。
提案手法は,様々なゼロショット評価プロトコルに従って,人気かつ挑戦的な3つの行動認識データセット上で評価し,そのアプローチが最先端の手法よりも明確なマージンで優れていることを示す。
特に,UCF,HMDB,Kineetics-600では,87.9%,58.3%,81.1%のゼロショット精度を達成し,最先端の手法では8.3%,7.8%,12.2%を上回った。
コードはhttps://github.com/wengzejia1/Open-VCLIPで公開されている。 Contrastive Language-Image Pretraining (CLIP) has demonstrated impressive zero-shot learning abilities for image understanding, yet limited effort has been made to investigate CLIP for zero-shot video recognition. We introduce Open-VCLIP, a simple yet effective approach that transforms CLIP into a strong zero-shot video classifier that can recognize unseen actions and events at test time. Our framework extends CLIP with minimal modifications to model spatial-temporal relationships in videos, making it a specialized video classifier, while striving for generalization. We formally show that training an Open-VCLIP is equivalent to continual learning with zero historical data. To address this problem, we propose Interpolated Weight Optimization, which utilizes the benefit of weight interpolation in both training and test time. We evaluate our method on three popular and challenging action recognition datasets following various zero-shot evaluation protocols and we demonstrate our approach outperforms state-of-the-art methods by clear margins. In particular, we achieve 87.9%, 58.3%, 81.1% zero-shot accuracy on UCF, HMDB and Kinetics-600 respectively, outperforming state-of-the-art methods by 8.3%, 7.8% and 12.2%. Code is released at https://github.com/wengzejia1/Open-VCLIP. | 翻訳日:2023-06-01 12:09:11 公開日:2023-05-31 |
# 連続コントラストファインタニングによる低リソース関係抽出 Continual Contrastive Finetuning Improves Low-Resource Relation Extraction ( http://arxiv.org/abs/2212.10823v3 ) ライセンス: Link先を確認 | Wenxuan Zhou, Sheng Zhang, Tristan Naumann, Muhao Chen, Hoifung Poon | (参考訳) モデルトレーニングのための構造的アノテーション付きコーパスに依存した関係抽出(RE)は、低リソースシナリオやドメインでは特に困難である。
近年の文献では、自己教師型学習による低リソースREに取り組み、REベースの目的によるエンティティペアの埋め込みの事前訓練や、分類ベースの目的によるラベル付きデータへの微調整などが行われている。
しかし、このアプローチにおける重要な課題は目的のギャップであり、REモデルは事前訓練された表現における知識を完全に活用できない。
本稿では,このギャップを埋めることを目指して,コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
この種の表現学習パラダイムでは、ある関係は表現空間において容易に複数のクラスタを形成することができるため、一つの関係が複数のクラスタを形成して事前学習と整合する多中心コントラスト損失も提案する。
文書レベルのREデータセットであるBioREDとRe-DocREDの実験により,本手法の有効性が示された。
特に、1%のエンドタスクトレーニングデータを使用する場合、2つのデータセットで PLM ベースの RE 分類器を 10.5% と 6.1% で上回ります。 Relation extraction (RE), which has relied on structurally annotated corpora for model training, has been particularly challenging in low-resource scenarios and domains. Recent literature has tackled low-resource RE by self-supervised learning, where the solution involves pretraining the entity pair embedding by RE-based objective and finetuning on labeled data by classification-based objective. However, a critical challenge to this approach is the gap in objectives, which prevents the RE model from fully utilizing the knowledge in pretrained representations. In this paper, we aim at bridging the gap and propose to pretrain and finetune the RE model using consistent objectives of contrastive learning. Since in this kind of representation learning paradigm, one relation may easily form multiple clusters in the representation space, we further propose a multi-center contrastive loss that allows one relation to form multiple clusters to better align with pretraining. Experiments on two document-level RE datasets, BioRED and Re-DocRED, demonstrate the effectiveness of our method. Particularly, when using 1% end-task training data, our method outperforms PLM-based RE classifier by 10.5% and 6.1% on the two datasets, respectively. | 翻訳日:2023-06-01 12:08:41 公開日:2023-05-31 |
# 嗜好誘発を伴うパーソナライズされたアルゴリズムリアクション Personalized Algorithmic Recourse with Preference Elicitation ( http://arxiv.org/abs/2205.13743v4 ) ライセンス: Link先を確認 | Giovanni De Toni, Paolo Viappiani, Stefano Teso, Bruno Lepri, Andrea Passerini | (参考訳) algorithmic recourse (ar) は、ユーザが一度実行したアクションのシーケンスを計算することで、望ましくないマシン決定を覆す問題である。
アクションのシーケンスはユーザが実装するために必要な労力をあまり必要としないのが最重要視されている。
しかし、ARに対するほとんどのアプローチは、アクションがすべてのユーザにとって同じコストであると考えており、そのため特定のユーザに不公平に高価なリコースプランを推奨する可能性がある。
この観察から得られたPEARは、エンドユーザーのニーズに合わせてパーソナライズされたアルゴリズムによるリコースを提供する最初の人道支援手法である。
PEARは、ベイジアン選好引用からの洞察に基づいて、ターゲットユーザに対して選択セットクエリを尋ねることで、アクションのコストを反復的に見積もる。
クエリ自体は、コスト見積とユーザの応答の両方について不確実性を考慮した情報ゲインの原則尺度である選択の期待効用を最大化することによって計算される。
PEARは、Reinforcement LearningエージェントとMonte Carlo Tree Searchを統合して、有望なリコース計画を素早く特定する。
実世界のデータセットに対する実証的な評価は、PEARがいかに高品質なパーソナライズされたリコースをほんの数イテレーションで生成するかを強調します。 Algorithmic Recourse (AR) is the problem of computing a sequence of actions that -- once performed by a user -- overturns an undesirable machine decision. It is paramount that the sequence of actions does not require too much effort for users to implement. Yet, most approaches to AR assume that actions cost the same for all users, and thus may recommend unfairly expensive recourse plans to certain users. Prompted by this observation, we introduce PEAR, the first human-in-the-loop approach capable of providing personalized algorithmic recourse tailored to the needs of any end-user. PEAR builds on insights from Bayesian Preference Elicitation to iteratively refine an estimate of the costs of actions by asking choice set queries to the target user. The queries themselves are computed by maximizing the Expected Utility of Selection, a principled measure of information gain accounting for uncertainty on both the cost estimate and the user's responses. PEAR integrates elicitation into a Reinforcement Learning agent coupled with Monte Carlo Tree Search to quickly identify promising recourse plans. Our empirical evaluation on real-world datasets highlights how PEAR produces high-quality personalized recourse in only a handful of iterations. | 翻訳日:2023-06-01 12:08:19 公開日:2023-05-31 |
# BrainIB:グラフ情報付き脳ネットワークを用いた精神科診断 BrainIB: Interpretable Brain Network-based Psychiatric Diagnosis with Graph Information Bottleneck ( http://arxiv.org/abs/2205.03612v3 ) ライセンス: Link先を確認 | Kaizhong Zheng, Shujian Yu, Baojuan Li, Robert Jenssen, and Badong Chen | (参考訳) 精神疾患の主観的症状ではなく、基礎となる生物学的メカニズムに基づく新しい診断モデルの開発は、新たなコンセンサスである。
近年,脳マーカーを識別するために,機能的接続(fc)を用いた精神疾患と健康管理のための機械学習に基づく分類器が開発されている。
しかし、既存の機械学習ベースの診断モデルは(トレーニングサンプルが不十分なため)過度に適合する傾向があり、新しいテスト環境では不十分である。
さらに、基礎となる診断決定を解明する説明可能で信頼性の高い脳バイオマーカーを得ることが困難である。
これらの問題は臨床応用を妨げている。
本研究では,高名なInformation Bottleneck(IB)の原理を利用して,機能的磁気共鳴画像(fMRI)を解析するための新しいグラフニューラルネットワーク(GNN)フレームワークであるBrainIBを提案する。
BrainIBは、脳内の最も情報に富むエッジ(つまり、部分グラフ)を識別し、見えないデータにうまく一般化することができる。
我々は,2つのマルチサイト大規模データセットにおいて,BrainIBを8つの一般的な脳ネットワーク分類法と比較し,BrainIBが常に最も高い診断精度を達成することを観察した。
また、臨床および神経画像所見と一致したサブグラフバイオマーカーも発見する。 Developing a new diagnostic models based on the underlying biological mechanisms rather than subjective symptoms for psychiatric disorders is an emerging consensus. Recently, machine learning-based classifiers using functional connectivity (FC) for psychiatric disorders and healthy controls are developed to identify brain markers. However, existing machine learningbased diagnostic models are prone to over-fitting (due to insufficient training samples) and perform poorly in new test environment. Furthermore, it is difficult to obtain explainable and reliable brain biomarkers elucidating the underlying diagnostic decisions. These issues hinder their possible clinical applications. In this work, we propose BrainIB, a new graph neural network (GNN) framework to analyze functional magnetic resonance images (fMRI), by leveraging the famed Information Bottleneck (IB) principle. BrainIB is able to identify the most informative edges in the brain (i.e., subgraph) and generalizes well to unseen data. We evaluate the performance of BrainIB against 8 popular brain network classification methods on two multi-site, largescale datasets and observe that our BrainIB always achieves the highest diagnosis accuracy. It also discovers the subgraph biomarkers which are consistent to clinical and neuroimaging findings. | 翻訳日:2023-06-01 12:07:52 公開日:2023-05-31 |
# 人間のフィードバックによる強化学習:ペシミズムによる動的選択の学習 Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism ( http://arxiv.org/abs/2305.18438v2 ) ライセンス: Link先を確認 | Zihao Li, Zhuoran Yang, Mengdi Wang | (参考訳) 本稿では,人間の選択によって引き起こされる一連の軌道から,人間の基本的報酬とMDPの最適政策を学習することを目的としたオフライン強化学習と人間フィードバック(RLHF)について検討する。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
本稿では,人間の選択をモデル化し理解するための動的離散選択(DDC)モデルに焦点を当てる。
dccは計量学と決定論に根ざしており、前方的かつ有界な合理性を持つ人間の意思決定プロセスをモデル化するために広く使われている。
dcppo法(\underline{d}ynamic-\underline{c}hoice-\underline{p}essimistic-\underline{p}olicy-\underline{o}ptimization)を提案する。
第2のステップは、学習された値関数を用いてベルマン平均2乗誤差を最小化し、人間の報酬関数を復元する。第3のステップは、学習した報酬をプラグインし、悲観的な価値反復を実行して、ほぼ最適ポリシーを見つけることである。
データセットの単一ポリシーカバレッジ(すなわち最適ポリシー)のみを用いて、dcppoのサブオプティリティが、分散シフトと次元へのサブオプティリティの依存性の観点から、古典的な悲観的オフラインrlアルゴリズムにほぼ一致することを証明する。
本稿では,動的離散的選択モデルを用いたオフラインrlhfに関する最初の理論的保証について述べる。 In this paper, we study offline Reinforcement Learning with Human Feedback (RLHF) where we aim to learn the human's underlying reward and the MDP's optimal policy from a set of trajectories induced by human choices. RLHF is challenging for multiple reasons: large state space but limited human feedback, the bounded rationality of human decisions, and the off-policy distribution shift. In this paper, we focus on the Dynamic Discrete Choice (DDC) model for modeling and understanding human choices. DCC, rooted in econometrics and decision theory, is widely used to model a human decision-making process with forward-looking and bounded rationality. We propose a \underline{D}ynamic-\underline{C}hoice-\underline{P}essimistic-\underline{P}olicy-\underline{O}ptimization (DCPPO) method. \ The method involves a three-stage process: The first step is to estimate the human behavior policy and the state-action value function via maximum likelihood estimation (MLE); the second step recovers the human reward function via minimizing Bellman mean squared error using the learned value functions; the third step is to plug in the learned reward and invoke pessimistic value iteration for finding a near-optimal policy. With only single-policy coverage (i.e., optimal policy) of the dataset, we prove that the suboptimality of DCPPO almost matches the classical pessimistic offline RL algorithm in terms of suboptimality's dependency on distribution shift and dimension. To the best of our knowledge, this paper presents the first theoretical guarantees for off-policy offline RLHF with dynamic discrete choice model. | 翻訳日:2023-06-01 12:00:15 公開日:2023-05-31 |
# Dink-Net: 大きなグラフ上のニューラルクラスタリング Dink-Net: Neural Clustering on Large Graphs ( http://arxiv.org/abs/2305.18405v2 ) ライセンス: Link先を確認 | Yue Liu, Ke Liang, Jun Xia, Sihang Zhou, Xihong Yang, Xinwang Liu, Stan Z. Li | (参考訳) ディープグラフクラスタリング(ディープグラフクラスタリング)は、グラフのノードをディープニューラルネットワークで結合しないクラスタにグループ化することを目的としている。
しかし、既存の方法は百万のノードを持つ大きなグラフにスケールできない。
この問題を解決するために,拡張と縮小という概念を用いてスケーラブルなディープグラフクラスタリング手法(Dink-Net)を提案する。
まず、ノードを識別することにより、拡張によって劣化しても、自己教師された方法で表現が学習される。
一方、クラスタセンターは学習可能なニューラルネットワークパラメータとして初期化される。
次に、提案するクラスタ拡張損失とクラスタ縮小損失を逆方向に最小化することにより、クラスタリング分布を最適化する。
これらの設定により、2段階のクラスタリング、すなわち表現学習とクラスタリング最適化をエンドツーエンドフレームワークに統合し、ネットワークにクラスタリングに優しい機能を学習させる。
さらに、dink-netは、設計された損失関数がミニバッチデータを採用して、パフォーマンス低下なしにもクラスタリング分布を最適化するため、大きなグラフによくスケールする。
実験結果と理論的解析はともに本手法の優越性を示している。
ランナアップと比較して、Dink-Netは1億1100万ノードと16億エッジを持つogbn-papers100Mデータセットで9.62%のNMI改善を達成した。
ソースコードはhttps://github.com/yueliu 1999/Dink-Netで公開されている。
さらに、ディープグラフクラスタリングのコレクション(ペーパー、コード、データセット)はhttps://github.com/yueliu 1999/Awesome-Deep-Graph-Clusteringで共有されている。 Deep graph clustering, which aims to group the nodes of a graph into disjoint clusters with deep neural networks, has achieved promising progress in recent years. However, the existing methods fail to scale to the large graph with million nodes. To solve this problem, a scalable deep graph clustering method (Dink-Net) is proposed with the idea of dilation and shrink. Firstly, by discriminating nodes, whether being corrupted by augmentations, representations are learned in a self-supervised manner. Meanwhile, the cluster centres are initialized as learnable neural parameters. Subsequently, the clustering distribution is optimized by minimizing the proposed cluster dilation loss and cluster shrink loss in an adversarial manner. By these settings, we unify the two-step clustering, i.e., representation learning and clustering optimization, into an end-to-end framework, guiding the network to learn clustering-friendly features. Besides, Dink-Net scales well to large graphs since the designed loss functions adopt the mini-batch data to optimize the clustering distribution even without performance drops. Both experimental results and theoretical analyses demonstrate the superiority of our method. Compared to the runner-up, Dink-Net achieves 9.62% NMI improvement on the ogbn-papers100M dataset with 111 million nodes and 1.6 billion edges. The source code is released at https://github.com/yueliu1999/Dink-Net. Besides, a collection (papers, codes, and datasets) of deep graph clustering is shared at https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering. | 翻訳日:2023-06-01 11:59:47 公開日:2023-05-31 |
# 統計的に有意な概念に基づくモデルノックオフによる画像分類器の説明 Statistically Significant Concept-based Explanation of Image Classifiers via Model Knockoffs ( http://arxiv.org/abs/2305.18362v2 ) ライセンス: Link先を確認 | Kaiwen Xu, Kazuto Fukuchi, Youhei Akimoto and Jun Sakuma | (参考訳) 概念に基づく分類器は、画像分類問題における人間の理解可能な概念による深層学習モデルの決定過程を説明することができる。
しかし、概念に基づく説明が偽陽性を引き起こす場合もあり、これは非関連概念を予測タスクにとって重要であると誤解している。
我々の目標は、誤解釈を防ぐための分類の統計的に重要な概念を見つけることである。
本研究では,深層学習モデルを用いて画像概念を学習し,Knockoffサンプルを用いてFalse Discovery Rate(FDR)を一定の値で制御することにより,予測のための重要な概念を選択する手法を提案する。
合成および実データ実験において提案手法の評価を行った。
また,本手法は,信頼度を向上させるために,高い解釈可能な概念を選択しながらFDRを適切に制御できることを示す。 A concept-based classifier can explain the decision process of a deep learning model by human-understandable concepts in image classification problems. However, sometimes concept-based explanations may cause false positives, which misregards unrelated concepts as important for the prediction task. Our goal is to find the statistically significant concept for classification to prevent misinterpretation. In this study, we propose a method using a deep learning model to learn the image concept and then using the Knockoff samples to select the important concepts for prediction by controlling the False Discovery Rate (FDR) under a certain value. We evaluate the proposed method in our synthetic and real data experiments. Also, it shows that our method can control the FDR properly while selecting highly interpretable concepts to improve the trustworthiness of the model. | 翻訳日:2023-06-01 11:59:21 公開日:2023-05-31 |
# 視覚探索とインスピレーションのための概念分解 Concept Decomposition for Visual Exploration and Inspiration ( http://arxiv.org/abs/2305.18203v2 ) ライセンス: Link先を確認 | Yael Vinker, Andrey Voynov, Daniel Cohen-Or, Ariel Shamir | (参考訳) 創造的なアイデアはしばしば、様々な概念を捉えた既存の視覚的例からアイデアを変換し、結合し、変更することから生まれます。
しかし、概念全体を単純にコピーすることはできず、概念の特定の側面を調べることでインスピレーションを得ることができる。
したがって、新しい視点を提供するために、概念を異なる側面に分けることがしばしば必要である。
本稿では,画像の集合として表現される視覚概念を,階層木構造に符号化された異なる視覚的側面に分解する手法を提案する。
大規模視覚言語モデルとそのリッチな潜在空間を概念分解と生成に活用する。
ツリーの各ノードは、事前訓練されたテキストから画像へのモデルの潜在空間に注入された学習ベクトルを埋め込み、サブ概念を表す。
我々は、ノードにエンコードされた埋め込みベクトルの最適化を導くために一連の正規化を使い、ツリーの階層構造に従う。
本手法により, 新たな概念を探索し, 発見することができる。
このツリーは、各ノードで無限に視覚的にサンプリングする可能性を提供し、ユーザーが関心のあるオブジェクトの隠れたサブ概念を探索できるようにする。
学習された各ノードのアスペクトはツリー内と木間を結合して新しい視覚的アイデアを作成でき、自然言語文でそのようなアスペクトを新しいデザインに適用することができる。 A creative idea is often born from transforming, combining, and modifying ideas from existing visual examples capturing various concepts. However, one cannot simply copy the concept as a whole, and inspiration is achieved by examining certain aspects of the concept. Hence, it is often necessary to separate a concept into different aspects to provide new perspectives. In this paper, we propose a method to decompose a visual concept, represented as a set of images, into different visual aspects encoded in a hierarchical tree structure. We utilize large vision-language models and their rich latent space for concept decomposition and generation. Each node in the tree represents a sub-concept using a learned vector embedding injected into the latent space of a pretrained text-to-image model. We use a set of regularizations to guide the optimization of the embedding vectors encoded in the nodes to follow the hierarchical structure of the tree. Our method allows to explore and discover new concepts derived from the original one. The tree provides the possibility of endless visual sampling at each node, allowing the user to explore the hidden sub-concepts of the object of interest. The learned aspects in each node can be combined within and across trees to create new visual ideas, and can be used in natural language sentences to apply such aspects to new designs. | 翻訳日:2023-06-01 11:59:09 公開日:2023-05-31 |
# 高速神経放射場再構成のためのボリューム特徴レンダリング Volume Feature Rendering for Fast Neural Radiance Field Reconstruction ( http://arxiv.org/abs/2305.17916v2 ) ライセンス: Link先を確認 | Kang Han, Wei Xiang and Lu Yu | (参考訳) ニューラルレイディアンス場(NeRF)は、異なる位置と視点から撮影された多視点画像から現実的な新しいビューを合成することができる。
NeRFのレンダリングパイプラインでは、ニューラルネットワークはシーンを独立して表現したり、期待される色や密度のポイントのクエリ可能な特徴ベクトルを変換するために使用される。
占有グリッドまたは提案ネットワークにおける幾何学的ガイドの支援により、標準的なボリュームレンダリングフレームワークでは、ニューラルネットワーク評価の数は数百から数十に削減できる。
ニューラルネットワークの評価結果から得られた色をレンダリングする代わりに,クエリした特徴ベクトルをまず線で描画し,次にニューラルネットワークによって特徴ベクトルを最終画素色に変換する。
この標準ボリュームレンダリングフレームワークの根本的な変更は、1つのニューラルネットワーク評価だけでピクセルを描画できるため、多数のニューラルネットワーク評価に起因するレンダリングフレームワークの計算複雑性を大幅に低下させる。
その結果、比較可能なほど大きなニューラルネットワークを使用して、同じトレーニングとレンダリング時間コストを維持しながら、より良いレンダリング品質を実現できます。
本モデルでは, 合成データセットと実世界のデータセットのレンダリング品質を, 数分のトレーニング時間で達成する。 Neural radiance fields (NeRFs) are able to synthesize realistic novel views from multi-view images captured from distinct positions and perspectives. In NeRF's rendering pipeline, neural networks are used to represent a scene independently or transform queried learnable feature vector of a point to the expected color or density. With the aid of geometry guides either in occupancy grids or proposal networks, the number of neural network evaluations can be reduced from hundreds to dozens in the standard volume rendering framework. Instead of rendering yielded color after neural network evaluation, we propose to render the queried feature vectors of a ray first and then transform the rendered feature vector to the final pixel color by a neural network. This fundamental change to the standard volume rendering framework requires only one single neural network evaluation to render a pixel, which substantially lowers the high computational complexity of the rendering framework attributed to a large number of neural network evaluations. Consequently, we can use a comparably larger neural network to achieve a better rendering quality while maintaining the same training and rendering time costs. Our model achieves the state-of-the-art rendering quality on both synthetic and real-world datasets while requiring a training time of several minutes. | 翻訳日:2023-06-01 11:58:49 公開日:2023-05-31 |
# spac-net:ポーズ推定の強化を目的とした合成ポーズ認識動物制御ネット SPAC-Net: Synthetic Pose-aware Animal ControlNet for Enhanced Pose Estimation ( http://arxiv.org/abs/2305.17845v2 ) ライセンス: Link先を確認 | Le Jiang and Sarah Ostadabbas | (参考訳) 動物のポーズ推定は研究の重要領域となっているが、注釈付きデータの不足は正確なモデルを開発する上で大きな課題である。
合成データは有望な代替手段として登場したが、しばしば実際のデータとドメインの相違を示す。
この問題を解決するためにスタイル転送アルゴリズムが提案されているが、空間的対応が不十分でラベル情報が失われる。
本研究では,従来提案されていた合成動物データ生成(pasyn)パイプラインに制御ネットを組み込む合成ポーズ認識動物制御ネット(spac-net)という新しい手法を提案する。
可変オートエンコーダ(vae)ベースのデータ生成パイプラインが生成する可算なポーズデータから、コントロールネットのホリスティックネストエッジ検出(hed)境界タスクモデルへの入力として活用し、実データに近いポーズラベルを用いた合成データを生成し、実データを必要としない高精度ポーズ推定ネットワークのトレーニングを可能にする。
さらに、動物と背景のHED境界を別々に検出し、生成したデータの精度と安定性を向上させるBi-ControlNet構造を提案する。
SPAC-Netパイプラインを用いて合成ゼブラ画像とサイ画像を生成し、AP10K実データセット上でテストし、他の方法で生成された実画像や合成データよりも優れた性能を示す。
本研究は,動物のポーズ推定における限定的な注釈データの課題を克服するための合成データの可能性を示す。 Animal pose estimation has become a crucial area of research, but the scarcity of annotated data is a significant challenge in developing accurate models. Synthetic data has emerged as a promising alternative, but it frequently exhibits domain discrepancies with real data. Style transfer algorithms have been proposed to address this issue, but they suffer from insufficient spatial correspondence, leading to the loss of label information. In this work, we present a new approach called Synthetic Pose-aware Animal ControlNet (SPAC-Net), which incorporates ControlNet into the previously proposed Prior-Aware Synthetic animal data generation (PASyn) pipeline. We leverage the plausible pose data generated by the Variational Auto-Encoder (VAE)-based data generation pipeline as input for the ControlNet Holistically-nested Edge Detection (HED) boundary task model to generate synthetic data with pose labels that are closer to real data, making it possible to train a high-precision pose estimation network without the need for real data. In addition, we propose the Bi-ControlNet structure to separately detect the HED boundary of animals and backgrounds, improving the precision and stability of the generated data. Using the SPAC-Net pipeline, we generate synthetic zebra and rhino images and test them on the AP10K real dataset, demonstrating superior performance compared to using only real images or synthetic data generated by other methods. Our work demonstrates the potential for synthetic data to overcome the challenge of limited annotated data in animal pose estimation. | 翻訳日:2023-06-01 11:58:29 公開日:2023-05-31 |
# シーングラフメモリを用いた動的環境のモデリング Modeling Dynamic Environments with Scene Graph Memory ( http://arxiv.org/abs/2305.17537v2 ) ライセンス: Link先を確認 | Andrey Kurenkov, Michael Lingelbach, Tanmay Agarwal, Chengshu Li, Emily Jin, Ruohan Zhang, Fei-Fei Li, Jiajun Wu, Silvio Savarese, Roberto Mart\'in-Mart\'in | (参考訳) 家庭などの大規模環境でオブジェクトを検索する具体化されたaiエージェントは、部分的な情報に基づいてオブジェクトの位置を予測することによって、効率的な判断を行う必要がある。
我々はこれを新しいタイプのリンク予測問題として、部分的に観測可能な動的グラフ上のリンク予測を行う。
私たちのグラフは、部屋やオブジェクトがノードであり、それらの関係がエッジにエンコードされるシーンの表現です。
この部分的な可観測性は、既存のリンク予測アプローチに課題をもたらします。
本稿では,エージェントの蓄積した観測データをキャプチャする新たな状態表現であるシーングラフメモリ(sgm)と,sgmから情報を抽出して効率的に探索するノードエッジ予測器(nep)と呼ばれるニューラルネットワークアーキテクチャを提案する。
提案手法は,家庭で一般的に見られるセマンティックなパターンに従って,多様な動的グラフを生成する新しいベンチマークであるDynamic House Simulatorで評価され,多様な物体の動きの動態を持つ様々な環境におけるオブジェクトの位置を予測し,新たなシーン適応性と全体的な精度の両方において,ベースラインよりも優れていることを示す。
コードベース等はhttps://www.scenegraph memory.comで見ることができる。 Embodied AI agents that search for objects in large environments such as households often need to make efficient decisions by predicting object locations based on partial information. We pose this as a new type of link prediction problem: link prediction on partially observable dynamic graphs. Our graph is a representation of a scene in which rooms and objects are nodes, and their relationships are encoded in the edges; only parts of the changing graph are known to the agent at each timestep. This partial observability poses a challenge to existing link prediction approaches, which we address. We propose a novel state representation -- Scene Graph Memory (SGM) -- with captures the agent's accumulated set of observations, as well as a neural net architecture called a Node Edge Predictor (NEP) that extracts information from the SGM to search efficiently. We evaluate our method in the Dynamic House Simulator, a new benchmark that creates diverse dynamic graphs following the semantic patterns typically seen at homes, and show that NEP can be trained to predict the locations of objects in a variety of environments with diverse object movement dynamics, outperforming baselines both in terms of new scene adaptability and overall accuracy. The codebase and more can be found at https://www.scenegraphmemory.com. | 翻訳日:2023-06-01 11:58:01 公開日:2023-05-31 |
# 畳み込み層に対するアダマール変換に基づくハイブリッド量子-古典的アプローチ A Hybrid Quantum-Classical Approach based on the Hadamard Transform for the Convolutional Layer ( http://arxiv.org/abs/2305.17510v2 ) ライセンス: Link先を確認 | Hongyi Pan, Xin Zhu, Salih Atici, Ahmet Enis Cetin | (参考訳) 本稿では,ハイブリッド量子古典計算のための新しいアダマール変換(HT)ベースのニューラルネットワーク層を提案する。
アダマール変換領域に規則的な畳み込み層を実装する。
この考えは HT の畳み込み定理に基づいており、2つのベクトル間の二進畳み込みは HT 表現の要素ワイド乗法と等価である。
HTの計算は、単純に各キュービットに対するアダマールゲートの応用であり、提案した階層のHT計算を量子コンピュータ上で実装することができる。
通常のConv2D層と比較して、提案したHTパーセプトロン層は計算効率が良い。
同じ練習可能なパラメータ数と99.26\%のテスト精度を持つcnnと比較して、我々のhtネットワークは、mnistデータセットで57.1\%のmacで99.31\%のテスト精度に達し、imagenet-1k実験では、ベースラインresnet-50の精度を11.5\%のパラメータと12.6\%のmacで0.059\%の精度で上回っています。 In this paper, we propose a novel Hadamard Transform (HT)-based neural network layer for hybrid quantum-classical computing. It implements the regular convolutional layers in the Hadamard transform domain. The idea is based on the HT convolution theorem which states that the dyadic convolution between two vectors is equivalent to the element-wise multiplication of their HT representation. Computing the HT is simply the application of a Hadamard gate to each qubit individually, so the HT computations of our proposed layer can be implemented on a quantum computer. Compared to the regular Conv2D layer, the proposed HT-perceptron layer is computationally more efficient. Compared to a CNN with the same number of trainable parameters and 99.26\% test accuracy, our HT network reaches 99.31\% test accuracy with 57.1\% MACs reduced in the MNIST dataset; and in our ImageNet-1K experiments, our HT-based ResNet-50 exceeds the accuracy of the baseline ResNet-50 by 0.59\% center-crop top-1 accuracy using 11.5\% fewer parameters with 12.6\% fewer MACs. | 翻訳日:2023-06-01 11:57:38 公開日:2023-05-31 |
# 異方性量子ラビモデルにおける時間外整列コリレータの量子崩壊と指数的成長 Quantum collapse and exponential growth of out-of-time-ordered correlator in anisotropic quantum Rabi model ( http://arxiv.org/abs/2305.17495v2 ) ライセンス: Link先を確認 | Shangyun Wang, Songbai Chen, Jiliang Jing, Jieci Wang, Heng Fan | (参考訳) 量子カオスは興味深い話題であり、量子力学やブラックホール物理学に多くの関心を寄せている。
近年,量子カオスの診断と対応原理の検証のために,時間外相関器(OTOC)の指数的成長が提案されている。
ここでは、初期状態の初期におけるOTOCの指数的成長が、異方性量子Rabiモデルのカオス領域と安定領域の両方に集中していることを示す。
我々は、OTOCの指数的成長を量子崩壊とみなし、量子系におけるOTOCの指数的成長をもたらす新しいメカニズムを提供する。
さらに、量子崩壊効果はカオス状態を中心とする初期状態に対してより明らかである。
その結果,オトックと比較して,線形エンタングルメントエントロピーとロスシュミットエコーは異方性量子ラビモデルにおける量子カオスの信号の診断に有効であることが示唆された。 Quantum chaos is an intriguing topic and has attracting a great deal of interests in quantum mechanics and black hole physics. Recently, the exponential growth of out-of-time-ordered correlator (OTOC) has been proposed to diagnose quantum chaos and verify the correspondence principle. Here, we demonstrate that the exponential growth of the OTOC at early times for the initial states centered both in the chaotic and stable regions of the anisotropic quantum Rabi model. We attribute the exponential growth of the OTOC to quantum collapse which provides a novel mechanism of yielding exponential growth of the OTOC in quantum systems. Moreover, the quantum collapse effect is more obvious for the initial states centered in the chaotic one. Our results show that compared with the OTOC, the linear entanglement entropy and Loschmidt echo seem to be more effective to diagnose the signals of quantum chaos in the anisotropic quantum Rabi model. | 翻訳日:2023-06-01 11:57:12 公開日:2023-05-31 |
# 再帰のカース:生成したデータのトレーニングはモデルを忘れる The Curse of Recursion: Training on Generated Data Makes Models Forget ( http://arxiv.org/abs/2305.17493v2 ) ライセンス: Link先を確認 | Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson | (参考訳) 安定拡散は記述テキストからの画像生成に革命をもたらした。
GPT-2、GPT-3(.5)、GPT-4は様々な言語タスクで驚くべき性能を示した。
ChatGPTはそのような言語モデルを一般向けに導入した。
現在、大規模言語モデル(llm)が存続していることは明らかであり、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
本稿では,今後の展望について考察する。
LLMがオンラインにある言語の多くに貢献したら、GPT-{n}はどうなるでしょう?
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
我々は、この効果をモデル崩壊と呼び、変分オートエンコーダ、ガウス混合モデル、llmで発生することを示した。
我々は、この現象の背後に理論的直観を構築し、すべての学習された生成モデルの中でその普遍性を描写する。
Webから取り除かれた大規模なデータからトレーニングのメリットを維持するためには、真剣に取り組まなければならないことを実証する。
実際、システムとの真の人間関係に関する収集されたデータの価値は、インターネットからクロールされたデータの中でLLMが生成したコンテンツの存在において、ますます貴重になる。 Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We refer to this effect as Model Collapse and show that it can occur in Variational Autoencoders, Gaussian Mixture Models and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet. | 翻訳日:2023-06-01 11:56:56 公開日:2023-05-31 |
# 視覚言語モデルのスケーラブルな性能解析 Scalable Performance Analysis for Vision-Language Models ( http://arxiv.org/abs/2305.18786v2 ) ライセンス: Link先を確認 | Santiago Castro and Oana Ignat and Rada Mihalcea | (参考訳) 共同視覚言語モデルは様々なタスクに対して優れたパフォーマンスを示している。
しかし、これらのモデルによって学習される高次元空間は意味的誤りを特定することが困難であるため、その限界についてはほとんど知られていない。
最近の研究は、高度に制御されたプロビングタスクベンチマークを設計することでこの問題に対処している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
本手法は,視覚言語ベンチマークから多種多様な特徴を抽出し,その特徴量と対象モデルの出力との相関性を測定した。
我々は,クリップが単語の袋のように振る舞うこと,名詞や動詞がうまく機能すること,クリップが具体的単語と混同されることなどの新たな知見を明らかにする。
私たちのフレームワークはhttps://github.com/MichiganNLP/Scalable-VLM-Probingで利用可能です。 Joint vision-language models have shown great performance over a diverse set of tasks. However, little is known about their limitations, as the high dimensional space learned by these models makes it difficult to identify semantic errors. Recent work has addressed this problem by designing highly controlled probing task benchmarks. Our paper introduces a more scalable solution that relies on already annotated benchmarks. Our method consists of extracting a large set of diverse features from a vision-language benchmark and measuring their correlation with the output of the target model. We confirm previous findings that CLIP behaves like a bag of words model and performs better with nouns and verbs; we also uncover novel insights such as CLIP getting confused by concrete words. Our framework is available at https://github.com/MichiganNLP/Scalable-VLM-Probing and can be used with other multimodal models and benchmarks. | 翻訳日:2023-06-01 11:51:19 公開日:2023-05-31 |
# HiFA:高度拡散誘導型高忠実テキスト・ツー・3D HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance ( http://arxiv.org/abs/2305.18766v2 ) ライセンス: Link先を確認 | Junzhe Zhu and Peiye Zhuang | (参考訳) テキストから3dの自動合成は、3dモデルの最適化によって著しく進歩した。
既存の方法は、拡散モデルのような事前訓練されたテキストから画像の生成モデルに依存し、NeRF(Neural Radiance Fields)の2次元レンダリングのスコアを提供し、NeRFの最適化に利用される。
しかし、これらの手法は3次元幾何学の理解が限られているため、しばしば複数の視点にわたるアーティファクトや不整合に遭遇する。
これらの制約に対処するため,拡散前の拡散を用いた最適化損失の補正を提案する。
さらに, 拡散の可能性を事前に解き放つ新しい学習手法を提案する。
3次元幾何表現を改善するために、NeRFレンダリング画像に補助深度監督を適用し、NeRFの密度場を正規化する。
広範な実験により,先行研究よりも優れた手法が示され,高度なフォトリアリズムとマルチビューの一貫性が向上した。 Automatic text-to-3D synthesis has achieved remarkable advancements through the optimization of 3D models. Existing methods commonly rely on pre-trained text-to-image generative models, such as diffusion models, providing scores for 2D renderings of Neural Radiance Fields (NeRFs) and being utilized for optimizing NeRFs. However, these methods often encounter artifacts and inconsistencies across multiple views due to their limited understanding of 3D geometry. To address these limitations, we propose a reformulation of the optimization loss using the diffusion prior. Furthermore, we introduce a novel training approach that unlocks the potential of the diffusion prior. To improve 3D geometry representation, we apply auxiliary depth supervision for NeRF-rendered images and regularize the density field of NeRFs. Extensive experiments demonstrate the superiority of our method over prior works, resulting in advanced photo-realism and improved multi-view consistency. | 翻訳日:2023-06-01 11:51:06 公開日:2023-05-31 |
# タスク同変グラフ・マイノショット学習 Task-Equivariant Graph Few-shot Learning ( http://arxiv.org/abs/2305.18758v2 ) ライセンス: Link先を確認 | Sungwon Kim, Junseok Lee, Namkyeong Lee, Wonjoong Kim, Seungyoon Choi, Chanyoung Park | (参考訳) グラフニューラルネットワーク(GNN)はノード分類タスクで成功したが、その性能はクラス毎に十分な数のラベル付きノードが利用できることに大きく依存している。
実世界の状況では、すべてのクラスに多くのラベル付きノードがあるわけではないし、モデルが新しいクラスを分類する必要があるインスタンスがある場合もあり、手動のラベリングが難しい。
この問題を解決するためには,nnnが限定的な数のラベル付きノード(少数ショットノード分類)でノードを分類できることが重要である。
従来のエピソードなメタラーニング法は,数発のノード分類に成功しているが,本研究の結果から,多種多様なメタタスクで最適性能が達成できることが示唆された。
メタラーニングに基づく少ショットラーニング(FSL)の課題に対処するため,新しいアプローチであるタスク・平等グラフ少ショットラーニング(TEG)フレームワークを提案する。
当社のtegフレームワークでは,限られた数のトレーニングメタタスクを使用して,転送可能なタスク適応戦略を学習することが可能です。
等変ニューラルネットワークを組み込むことにより、TEGはその強力な一般化能力を利用して、高度に適応可能なタスク固有戦略を学ぶことができる。
結果として、TEGは訓練メタタスクを限定して最先端のパフォーマンスを達成する。
各種ベンチマークデータセットを用いた実験では,最小限のメタトレーニングデータを用いた場合であっても,TAGの精度と一般化能力の面で優位性を示し,メタラーニングに基づく少数ショットノード分類の課題に対処する上で,提案手法の有効性を強調した。
私たちのコードは以下のリンクで利用可能です。 Although Graph Neural Networks (GNNs) have been successful in node classification tasks, their performance heavily relies on the availability of a sufficient number of labeled nodes per class. In real-world situations, not all classes have many labeled nodes and there may be instances where the model needs to classify new classes, making manual labeling difficult. To solve this problem, it is important for GNNs to be able to classify nodes with a limited number of labeled nodes, known as few-shot node classification. Previous episodic meta-learning based methods have demonstrated success in few-shot node classification, but our findings suggest that optimal performance can only be achieved with a substantial amount of diverse training meta-tasks. To address this challenge of meta-learning based few-shot learning (FSL), we propose a new approach, the Task-Equivariant Graph few-shot learning (TEG) framework. Our TEG framework enables the model to learn transferable task-adaptation strategies using a limited number of training meta-tasks, allowing it to acquire meta-knowledge for a wide range of meta-tasks. By incorporating equivariant neural networks, TEG can utilize their strong generalization abilities to learn highly adaptable task-specific strategies. As a result, TEG achieves state-of-the-art performance with limited training meta-tasks. Our experiments on various benchmark datasets demonstrate TEG's superiority in terms of accuracy and generalization ability, even when using minimal meta-training data, highlighting the effectiveness of our proposed approach in addressing the challenges of meta-learning based few-shot node classification. Our code is available at the following link: https://github.com/sung-won-kim/TEG | 翻訳日:2023-06-01 11:50:49 公開日:2023-05-31 |
# 一般KDEモード探索のための次元化 Dimensionality Reduction for General KDE Mode Finding ( http://arxiv.org/abs/2305.18755v2 ) ライセンス: Link先を確認 | Xinyu Luo, Christopher Musco, Cas Widdershoven | (参考訳) 高次元確率分布のモードの発見 $d$ は統計学やデータ分析における基本的なアルゴリズム問題である。
d$ が混合モデルまたはカーネル密度推定として表現されるとき、この問題の効率的な解法には特に関心があるが、最悪の場合の近似と実行時の保証を伴うアルゴリズム的な結果はほとんど知られていない。
本研究では,ガウス混合モデルのモード近似における (LeeLiMusco:2021) の結果を著しく一般化する。
本研究では,一般的なロジスティック,シグモイド,一般化ガウス核を含む,幅広い種類のカーネルを含む混合系のランダム次元低減法を開発した。
Leeらの研究と同様に、我々の次元減少結果は、任意の$\epsilon > 0$に対して、乗法精度(1-\epsilon)$のモード探索のための準多項式アルゴリズムを生成する。
さらに、勾配降下と組み合わせると、この問題に対する効率的な実用的ヒューリスティックが生まれる。
正の結果に加えて、ボックスカーネルの硬度結果も証明し、$\mathit{P} = \mathit{NP}$でない限り、カーネル密度推定のモードを見つける多項式時間アルゴリズムは存在しないことを示した。
現実に使われているカーネル(ガウスやロジスティックカーネルなど)の同様のハードネス結果を得ることは、興味深い将来的な方向性である。 Finding the mode of a high dimensional probability distribution $D$ is a fundamental algorithmic problem in statistics and data analysis. There has been particular interest in efficient methods for solving the problem when $D$ is represented as a mixture model or kernel density estimate, although few algorithmic results with worst-case approximation and runtime guarantees are known. In this work, we significantly generalize a result of (LeeLiMusco:2021) on mode approximation for Gaussian mixture models. We develop randomized dimensionality reduction methods for mixtures involving a broader class of kernels, including the popular logistic, sigmoid, and generalized Gaussian kernels. As in Lee et al.'s work, our dimensionality reduction results yield quasi-polynomial algorithms for mode finding with multiplicative accuracy $(1-\epsilon)$ for any $\epsilon > 0$. Moreover, when combined with gradient descent, they yield efficient practical heuristics for the problem. In addition to our positive results, we prove a hardness result for box kernels, showing that there is no polynomial time algorithm for finding the mode of a kernel density estimate, unless $\mathit{P} = \mathit{NP}$. Obtaining similar hardness results for kernels used in practice (like Gaussian or logistic kernels) is an interesting future direction. | 翻訳日:2023-06-01 11:50:21 公開日:2023-05-31 |
# 対人訓練によるビデオポーズ推定に先立つ分解された人間の動き Decomposed Human Motion Prior for Video Pose Estimation via Adversarial Training ( http://arxiv.org/abs/2305.18743v2 ) ライセンス: Link先を確認 | Wenshuo Chen, Xiang Zhou, Zhengdi Yu, Zhaoyu Zheng, Weixi Gu and Kai Zhang | (参考訳) 映像から人間のポーズを推定することは、多くの3d分野に適用できるため、かなりの注目を集めるタスクである。
人体の動きに関する事前知識の複雑さは、キーポイントを回帰するタスクにおいて、ニューラルネットワークモデルに課題をもたらす。
本稿では,逆方向の動きを先に組み込むことにより,この問題に対処する。
従来の手法とは異なり,ジョイント動作に先立って全体的動作を分解することで,ニューラルネットワークによる事前知識の学習が容易になり,タスクのパフォーマンスが向上する。
また,新しい正規化損失を利用して,動きの精度と滑らかさのバランスをとる。
提案手法は,従来の3DPW試験法よりも9倍のPA-MPJPE,29倍の加速誤差を実現する。
estimatorは、内部データセットで印象的なパフォーマンスを達成することで、その堅牢さを証明します。 Estimating human pose from video is a task that receives considerable attention due to its applicability in numerous 3D fields. The complexity of prior knowledge of human body movements poses a challenge to neural network models in the task of regressing keypoints. In this paper, we address this problem by incorporating motion prior in an adversarial way. Different from previous methods, we propose to decompose holistic motion prior to joint motion prior, making it easier for neural networks to learn from prior knowledge thereby boosting the performance on the task. We also utilize a novel regularization loss to balance accuracy and smoothness introduced by motion prior. Our method achieves 9\% lower PA-MPJPE and 29\% lower acceleration error than previous methods tested on 3DPW. The estimator proves its robustness by achieving impressive performance on in-the-wild dataset. | 翻訳日:2023-06-01 11:49:59 公開日:2023-05-31 |
# 認識グラフによるハイブリッド表現学習 Hybrid Representation Learning via Epistemic Graph ( http://arxiv.org/abs/2305.18731v2 ) ライセンス: Link先を確認 | Jin Yuan, Yang Zhang, Yangzhou Du, Zhongchao Shi, Xin Geng, Jianping Fan, Yong Rui | (参考訳) 近年、深層モデルは多くの視覚課題で顕著な成功を収めている。
残念ながら、パフォーマンスは集中的なトレーニングサンプルに大きく依存します。
対照的に、人間は通常ハイブリッド学習を行う。例えば、クロスドメイン認識のための構造化知識を自然に統合したり、少数の学習のためにはるかに少ないデータサンプルを投入する。
このように、構造化知識をデータサンプルとシームレスに統合し、より効果的な表現学習を実現することで、コンピュータビジョンタスクのハイブリッド学習を拡張することが非常に魅力的である。
しかし、そのようなハイブリッド学習アプローチは、構造化された知識と、次元と知識の粒度の両方に関する深い特徴(データサンプルから得られた)の間に大きなギャップがあるため、依然として大きな課題である。
本稿では, 深部特徴と構造化知識グラフの間で情報をより効果的に交換できるように, ハイブリッド学習を実現するために, 新たなEGLayer(Epstemic Graph Layer)を開発した。
私たちのEGLayerは3つの主要な部分で構成されています。
(a) 学習した深部特徴(すなわち、深部特徴と構造化知識グラフを同じ粒度で整列させる)を通して局所原型グラフを確立するための局所グラフモジュール。
(b)局所グラフから有用な情報を集約し、それらの表現を用いて、最終予測のためにグローバルノード埋め込みとの類似性を計算するクエリ集約モデル
(c) 局所的および大域的隣接行列間の線形整合性を制限する新しい相関損失関数。 In recent years, deep models have achieved remarkable success in many vision tasks. Unfortunately, their performance largely depends on intensive training samples. In contrast, human beings typically perform hybrid learning, e.g., spontaneously integrating structured knowledge for cross-domain recognition or on a much smaller amount of data samples for few-shot learning. Thus it is very attractive to extend hybrid learning for the computer vision tasks by seamlessly integrating structured knowledge with data samples to achieve more effective representation learning. However, such a hybrid learning approach remains a great challenge due to the huge gap between the structured knowledge and the deep features (learned from data samples) on both dimensions and knowledge granularity. In this paper, a novel Epistemic Graph Layer (EGLayer) is developed to enable hybrid learning, such that the information can be exchanged more effectively between the deep features and a structured knowledge graph. Our EGLayer is composed of three major parts: (a) a local graph module to establish a local prototypical graph through the learned deep features, i.e., aligning the deep features with the structured knowledge graph at the same granularity; (b) a query aggregation model to aggregate useful information from the local graphs, and using such representations to compute their similarity with global node embeddings for final prediction; and (c) a novel correlation loss function to constrain the linear consistency between the local and global adjacency matrices. | 翻訳日:2023-06-01 11:49:47 公開日:2023-05-31 |
# One-Model-Fits-Allを超えて:大規模言語モデルのドメイン特化に関する調査 Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models ( http://arxiv.org/abs/2305.18703v2 ) ライセンス: Link先を確認 | Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng, Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Xuchao Zhang, Tianjiao Zhao, Amit Panalkar, Wei Cheng, Haoyu Wang, Yanchi Liu, Zhengzhang Chen, Haifeng Chen, Chris White, Quanquan Gu, Carl Yang, and Liang Zhao | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、広範囲のアプリケーションに非常に有用なタスクに依存しない基盤を提供する。
一般的なタスクソルバとしてのllmsの素晴らしい約束は、機能を‘チャットボット’の単なる'機能を超えて拡張し、医療、金融、教育といった特定のドメインのドメインエキスパートやツールのアシスタントとして、あるいは置き換えることに動機づけられた。
しかし、特定のドメインにおける高度な問題を解決するために直接LLMを適用することは、ドメインデータの異質性、ドメイン知識の高度化、ドメインの目的の独自性、制約の多様性(例えば、様々な社会的規範、文化的適合性、宗教的信念、ドメインアプリケーションにおける倫理的基準)によって引き起こされる多くのハードルを満たす。
このようなギャップを埋めるため、近年、llmsのドメイン特化に関する爆発的な研究や実践が行われてきたが、この有望なドメインをまとめ、ガイドするために、包括的かつ体系的なレビューが求められている。
本稿では,まず,llm へのアクセシビリティに基づく llm ドメイン特化手法を分類し,すべてのサブカテゴリの枠組みとそれらの関係と差異を要約する体系的分類法を提案する。
また,重要なアプリケーション領域を包括的に分類し,それらの実用的意義とオープンな課題について論じる。
さらに,本分野における現在の研究状況と今後の動向について考察する。 Large language models (LLMs) have significantly advanced the field of natural language processing (NLP), providing a highly useful, task-agnostic foundation for a wide range of applications. The great promise of LLMs as general task solvers motivated people to extend their functionality largely beyond just a ``chatbot'', and use it as an assistant or even replacement for domain experts and tools in specific domains such as healthcare, finance, and education. However, directly applying LLMs to solve sophisticated problems in specific domains meets many hurdles, caused by the heterogeneity of domain data, the sophistication of domain knowledge, the uniqueness of domain objectives, and the diversity of the constraints (e.g., various social norms, cultural conformity, religious beliefs, and ethical standards in the domain applications). To fill such a gap, explosively-increase research, and practices have been conducted in very recent years on the domain specialization of LLMs, which, however, calls for a comprehensive and systematic review to better summarizes and guide this promising domain. In this survey paper, first, we propose a systematic taxonomy that categorizes the LLM domain-specialization techniques based on the accessibility to LLMs and summarizes the framework for all the subcategories as well as their relations and differences to each other. We also present a comprehensive taxonomy of critical application domains that can benefit from specialized LLMs, discussing their practical significance and open challenges. Furthermore, we offer insights into the current research status and future trends in this area. | 翻訳日:2023-06-01 11:49:24 公開日:2023-05-31 |
# NUNO:不均一データを用いたパラメトリックPDE学習のための汎用フレームワーク NUNO: A General Framework for Learning Parametric PDEs with Non-Uniform Data ( http://arxiv.org/abs/2305.18694v2 ) ライセンス: Link先を確認 | Songming Liu, Zhongkai Hao, Chengyang Ying, Hang Su, Ze Cheng, Jun Zhu | (参考訳) ニューラル演算子は、PDEにおける関数空間間のマッピングを学習するための強力なツールとして登場した。
しかし,非均一に分散されることが多い実世界の物理データに直面すると,fftのようなメッシュベースの技術を使うことは困難である。
そこで我々は,非一様データを用いた効率的な演算子学習を目的とした包括的フレームワークであるNon-Uniform Neural Operator (NUNO)を紹介する。
k-d木に基づく領域分割を利用して, 補間誤差を効果的に制御しながら, 非一様データを一様格子に変換し, 非一様データから学習する速度と精度を並列化する。
2次元弾性, (2+1)dチャネルフロー, 3次元マルチフィジカルヒートシンクに関する広範な実験を行い, 複雑なジオメトリを持つ3次元pde問題に対する新たな探索を行った。
我々のフレームワークはエラー率を最大60%削減し、トレーニング速度を2倍から30倍向上させた。
コードはhttps://github.com/thu-ml/NUNOで公開されている。 The neural operator has emerged as a powerful tool in learning mappings between function spaces in PDEs. However, when faced with real-world physical data, which are often highly non-uniformly distributed, it is challenging to use mesh-based techniques such as the FFT. To address this, we introduce the Non-Uniform Neural Operator (NUNO), a comprehensive framework designed for efficient operator learning with non-uniform data. Leveraging a K-D tree-based domain decomposition, we transform non-uniform data into uniform grids while effectively controlling interpolation error, thereby paralleling the speed and accuracy of learning from non-uniform data. We conduct extensive experiments on 2D elasticity, (2+1)D channel flow, and a 3D multi-physics heatsink, which, to our knowledge, marks a novel exploration into 3D PDE problems with complex geometries. Our framework has reduced error rates by up to 60% and enhanced training speeds by 2x to 30x. The code is now available at https://github.com/thu-ml/NUNO. | 翻訳日:2023-06-01 11:48:56 公開日:2023-05-31 |
# BRIGHT:ハッシュテーブル群を用いた画像コレクションの2レベル特徴表現 BRIGHT: Bi-level Feature Representation of Image Collections using Groups of Hash Tables ( http://arxiv.org/abs/2305.18601v2 ) ライセンス: Link先を確認 | Dingdong Yang, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang | (参考訳) 画像収集のためのバイレベルな特徴表現であるbrightを,マルチスケールな機能グリッド空間上に配置した画像毎の潜在空間として提示する。
我々の表現は、マルチ解像度ハッシュテーブルのグループから特徴を検索するために使用される連続キーコードに画像をエンコードするオートエンコーダによって学習される。
我々のキーコードとハッシュテーブルは、明確に定義された勾配流とともに連続的に訓練され、ハッシュテーブルエントリの高利用と、離散ベクトル量子化(VQ)と比較して生成モデリングの改善につながる。
kl正規化潜在符号のような既存の連続表現とは異なり、我々の重要なコードはスケールと分散で厳密に区切られている。
総じて、BRIGHTによる特徴符号化はコンパクトで訓練に効率的であり、遅延拡散モデル(LDM)のような最先端のジェネレータを用いて画像コード上で生成モデリングを可能にする。
提案手法は,より小型で効率的なデコーダネットワークを持ちながら,VQ手法に匹敵する再構成結果が得られることを示す。
キーコード空間にLDMを適用することで、LSUN-Churchおよびヒューマン・フェイス・データセットの画像合成における最先端のパフォーマンスを実現する。 We present BRIGHT, a bi-level feature representation for an image collection, consisting of a per-image latent space on top of a multi-scale feature grid space. Our representation is learned by an autoencoder to encode images into continuous key codes, which are used to retrieve features from groups of multi-resolution hash tables. Our key codes and hash tables are trained together continuously with well-defined gradient flows, leading to high usage of the hash table entries and improved generative modeling compared to discrete Vector Quantization (VQ). Differently from existing continuous representations such as KL-regularized latent codes, our key codes are strictly bounded in scale and variance. Overall, feature encoding by BRIGHT is compact, efficient to train, and enables generative modeling over the image codes using state-of-the-art generators such as latent diffusion models(LDMs). Experimental results show that our method achieves comparable reconstruction results to VQ methods while having a smaller and more efficient decoder network. By applying LDM over our key code space, we achieve state-of-the-art performance on image synthesis on the LSUN-Church and human-face datasets. | 翻訳日:2023-06-01 11:48:37 公開日:2023-05-31 |
# Trompt: タブラルデータのためのより優れたディープニューラルネットワークを目指す Trompt: Towards a Better Deep Neural Network for Tabular Data ( http://arxiv.org/abs/2305.18446v2 ) ライセンス: Link先を確認 | Kuan-Yu Chen, Ping-Han Chiang, Hsin-Rung Chou, Ting-Wei Chen, Tien-Hao Chang | (参考訳) タブラルデータ(Tabular data)は、金融、ヘルスケア、電子商取引など、さまざまな実践領域でよく使われているデータ構造の一つである。
内在する異質性により、表型データは豊富な情報を格納することができる。
しかし、最近発表された表型ベンチマークに基づいて、ディープニューラルネットワークは依然として表型データセットのツリーベースモデルに遅れていることがわかる。
本稿では,言語モデルのプロンプト学習にインスパイアされた新しいアーキテクチャであるtmpt(tabular prompt)を提案する。
プロンプト学習の本質は、モデルを直接修正することなく、モデル外の一連のプロンプトを通じて、大きな事前学習されたモデルを調整することである。
このアイデアに基づいて、Tromptは表データの学習戦略を2つに分けている。
最初の部分は、事前訓練されたモデルに似ているが、テーブルの本質的な情報を学ぶことに集中している。
第2部はプロンプトに似ているが、サンプルのバリエーションを学ぶことに集中している。
Tromptは上記のベンチマークで評価される。
実験結果は、tmptが最先端のディープニューラルネットワークよりも優れており、ツリーベースモデルに匹敵することを示した。 Tabular data is arguably one of the most commonly used data structures in various practical domains, including finance, healthcare and e-commerce. The inherent heterogeneity allows tabular data to store rich information. However, based on a recently published tabular benchmark, we can see deep neural networks still fall behind tree-based models on tabular datasets. In this paper, we propose Trompt--which stands for Tabular Prompt--a novel architecture inspired by prompt learning of language models. The essence of prompt learning is to adjust a large pre-trained model through a set of prompts outside the model without directly modifying the model. Based on this idea, Trompt separates the learning strategy of tabular data into two parts. The first part, analogous to pre-trained models, focus on learning the intrinsic information of a table. The second part, analogous to prompts, focus on learning the variations among samples. Trompt is evaluated with the benchmark mentioned above. The experimental results demonstrate that Trompt outperforms state-of-the-art deep neural networks and is comparable to tree-based models. | 翻訳日:2023-06-01 11:48:14 公開日:2023-05-31 |
# 創発的共分散による確率論的計算:効率的な不確実性定量化を目指して Probabilistic Computation with Emerging Covariance: Towards Efficient Uncertainty Quantification ( http://arxiv.org/abs/2305.19265v2 ) ライセンス: Link先を確認 | Hengyuan Ma, Yang Qi, Li Zhang, Wenlian Lu, Jianfeng Feng | (参考訳) 堅牢で解釈可能でセキュアな人工知能システムを構築するには、人間の認知能力を模倣できるため、確率論的観点から不確実性をある程度定量化し、表現する必要がある。
しかし確率的計算は、その固有の複雑さのために大きな課題を生んでいる。
本稿では,確率表現をその最初の2つのモーメント,すなわち平均と共分散に切り換えることで,効率よく解釈可能な確率計算フレームワークを開発する。
我々は、簡単なアクティベーションの組み合わせによって複雑な確率表現を学習する確率ネットワークの決定論的サロゲートを訓練し、平均と共分散の非線形結合をカプセル化する。
課題目標を最適化するために平均が監督されている場合、非線形結合から自然に生じる非教師なし共分散は、モデル予測に関連する不確実性を忠実に捉えていることを示す。
本研究は,確率計算に固有の計算可能性と単純さを強調し,大規模環境での応用を可能にした。 Building robust, interpretable, and secure artificial intelligence system requires some degree of quantifying and representing uncertainty via a probabilistic perspective, as it allows to mimic human cognitive abilities. However, probabilistic computation presents significant challenges due to its inherent complexity. In this paper, we develop an efficient and interpretable probabilistic computation framework by truncating the probabilistic representation up to its first two moments, i.e., mean and covariance. We instantiate the framework by training a deterministic surrogate of a stochastic network that learns the complex probabilistic representation via combinations of simple activations, encapsulating the non-linearities coupling of the mean and covariance. We show that when the mean is supervised for optimizing the task objective, the unsupervised covariance spontaneously emerging from the non-linear coupling with the mean faithfully captures the uncertainty associated with model predictions. Our research highlights the inherent computability and simplicity of probabilistic computation, enabling its wider application in large-scale settings. | 翻訳日:2023-06-01 11:40:18 公開日:2023-05-31 |
# 大規模言語モデルを用いたドメイン固有言語生成のための文法プロンプト Grammar Prompting for Domain-Specific Language Generation with Large Language Models ( http://arxiv.org/abs/2305.19234v2 ) ライセンス: Link先を確認 | Bailin Wang, Zi Wang, Xuezhi Wang, Yuan Cao, Rif A. Saurous and Yoon Kim | (参考訳) 大規模言語モデル(LLM)は、少数のインコンテキストの例から、幅広い自然言語タスクを実行することを学ぶことができる。
しかし、高度に構造化された言語(例えば、複雑なドメイン固有言語への意味解析)から文字列を生成するためには、LLMがいくつかの例から一般化することは困難である。
backus--Naur Form (BNF) で表現された文法を通して LLM が外部知識やドメイン固有の制約を利用できるようにするためのシンプルなアプローチとして $\textbf{grammar prompting}$ を探索する。
文法のプロンプトは、それぞれの実演例を、特定の出力例を生成するのに最小限の特殊な文法で拡張します。
推論のために、LLMはまずテスト入力が与えられたBNF文法を予測し、次に文法の規則に従って出力を生成する。
実験により、文法のプロンプトにより、意味解析(SMCalFlow、Overnight、GeoQuery)、PDDL計画、さらには分子生成(SMILES)など、様々なDSL生成タスクでLLMが競争力を発揮することが示されている。 Large language models (LLMs) can learn to perform a wide range of natural language tasks from just a handful of in-context examples. However, for generating strings from highly structured languages (e.g., semantic parsing to complex domain-specific languages), it is challenging for the LLM to generalize from just a few exemplars. We explore $\textbf{grammar prompting}$ as a simple approach for enabling LLMs to use external knowledge and domain-specific constraints, expressed through a grammar expressed in Backus--Naur Form (BNF), during in-context learning. Grammar prompting augments each demonstration example with a specialized grammar that is minimally sufficient for generating the particular output example, where the specialized grammar is a subset of the full DSL grammar. For inference, the LLM first predicts a BNF grammar given a test input, and then generates the output according to the rules of the grammar. Experiments demonstrate that grammar prompting can enable LLMs to perform competitively on a diverse set of DSL generation tasks, including semantic parsing (SMCalFlow, Overnight, GeoQuery), PDDL planning, and even molecule generation (SMILES). | 翻訳日:2023-06-01 11:39:59 公開日:2023-05-31 |
# 隠れ表現変換を用いたテキスト生成制御 Controlled Text Generation with Hidden Representation Transformations ( http://arxiv.org/abs/2305.19230v2 ) ライセンス: Link先を確認 | Vaibhav Kumar, Hana Koorehdavoudi, Masud Moshtaghi, Amita Misra, Ankit Chadha, Emilio Ferrara | (参考訳) 提案するCHRT(Control Hidden Representation Transformation)は,大規模言語モデルを用いて特定の属性(毒性など)に関連するテキストを生成する制御言語生成フレームワークである。
CHRTは、学習された変換を通じてベースモデルの隠れ表現を変更することで属性制御を得る。
コントラスト学習フレームワークを用いてこれらの変換を学習し、それを組み合わせてマルチ属性制御を実現する。
CHRTの有効性は、3つの属性に対して7つのベースラインと比較することによって実験的に示される。
CHRTは、言語品質の損失を最小限に抑えながら、解毒、ポジティブな感情ステアリング、テキストの単純化といったタスクにおいて、すべてのベースラインを上回ります。
さらに,本手法はベースモデルよりも0.01秒遅れの低い推論レイテンシを持ち,高性能な実運用環境に最も適している。
コードをオープンソース化し、2つの新しいデータセットをリリースし、制御された言語生成の研究をさらに推進します。 We propose CHRT (Control Hidden Representation Transformation) - a controlled language generation framework that steers large language models to generate text pertaining to certain attributes (such as toxicity). CHRT gains attribute control by modifying the hidden representation of the base model through learned transformations. We employ a contrastive-learning framework to learn these transformations that can be combined to gain multi-attribute control. The effectiveness of CHRT is experimentally shown by comparing it with seven baselines over three attributes. CHRT outperforms all the baselines in the task of detoxification, positive sentiment steering, and text simplification while minimizing the loss in linguistic qualities. Further, our approach has the lowest inference latency of only 0.01 seconds more than the base model, making it the most suitable for high-performance production environments. We open-source our code and release two novel datasets to further propel controlled language generation research. | 翻訳日:2023-06-01 11:39:36 公開日:2023-05-31 |
# treewidth を利用した投影モデルカウントの解法とその限界 Solving Projected Model Counting by Utilizing Treewidth and its Limits ( http://arxiv.org/abs/2305.19212v2 ) ライセンス: Link先を確認 | Johannes K. Fichte, Markus Hecher, Michael Morak, Patrick Thier, Stefan Woltran | (参考訳) 本稿では,予測モデルカウント(PMC)を解く新しいアルゴリズムを提案する。
pmc は与えられた射影変数の集合に関してブール公式の解を数えることを要求し、射影変数に制限された複数の解は一つの解として数えられる。
いわゆる「木幅」が最も顕著な構造パラメータの1つであるという観測に触発されて、本アルゴリズムは入力インスタンスの原始グラフの小さな木幅を利用する。
より正確には、時間 O(2^2k+4n2) で、k は木幅、n はインスタンスの入力サイズである。
言い換えると、問題はtreewidthによってパラメータ化されるとき、pmc は固定パラメータ扱い可能である。
さらに, 指数時間仮説 (eth) を考慮に入れ, pmc の有界木幅アルゴリズムの下限を定め, アルゴリズムの漸近的にタイトなランタイム境界を導出する。
上記のアルゴリズムは、最初の理論上界として機能し、kの小さな値に非常にアピールするかもしれないが、当然ながら、この実行時境界に固執する単純な実装は、既に比較的小さな幅のインスタンスに悩まされている。
そこで,本研究では,木幅を活用すべく,いくつかの手法に注意を向ける。我々は,あるインスタンスの木の分解を(再帰的に)計算し,精製するために,基本グラフの抽象レベルが異なるネスト動的プログラミングと呼ばれる手法を提案する。
最後に、ネストされた動的プログラミングアルゴリズムと、MCのデータベース技術に依存した実装と、MCの顕著な特別なケースであるモデルカウント(#Sat)を提供する。
実験によると、この進歩は有望であり、200以上の木幅上限のインスタンスを解決できる。 In this paper, we introduce a novel algorithm to solve projected model counting (PMC). PMC asks to count solutions of a Boolean formula with respect to a given set of projection variables, where multiple solutions that are identical when restricted to the projection variables count as only one solution. Inspired by the observation that the so-called "treewidth" is one of the most prominent structural parameters, our algorithm utilizes small treewidth of the primal graph of the input instance. More precisely, it runs in time O(2^2k+4n2) where k is the treewidth and n is the input size of the instance. In other words, we obtain that the problem PMC is fixed-parameter tractable when parameterized by treewidth. Further, we take the exponential time hypothesis (ETH) into consideration and establish lower bounds of bounded treewidth algorithms for PMC, yielding asymptotically tight runtime bounds of our algorithm. While the algorithm above serves as a first theoretical upper bound and although it might be quite appealing for small values of k, unsurprisingly a naive implementation adhering to this runtime bound suffers already from instances of relatively small width. Therefore, we turn our attention to several measures in order to resolve this issue towards exploiting treewidth in practice: We present a technique called nested dynamic programming, where different levels of abstractions of the primal graph are used to (recursively) compute and refine tree decompositions of a given instance. Finally, we provide a nested dynamic programming algorithm and an implementation that relies on database technology for PMC and a prominent special case of PMC, namely model counting (#Sat). Experiments indicate that the advancements are promising, allowing us to solve instances of treewidth upper bounds beyond 200. | 翻訳日:2023-06-01 11:39:21 公開日:2023-05-31 |
# 空間変換器ネットワークを用いた舌超音波によるサイレント音声インタフェースの適応 Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer Networks ( http://arxiv.org/abs/2305.19130v2 ) ライセンス: Link先を確認 | L\'aszl\'o T\'oth, Amin Honarmandi Shandiz, G\'abor Gosztolya, Csap\'o Tam\'as G\'abor | (参考訳) 最新のディープラーニングアルゴリズムにより、サイレント音声インタフェース(SSI)は、特定の条件下での調音運動データから知覚可能な音声を合成できるようになった。
しかし、結果のモデルはかなりスピーカー固有のもので、ユーザー間で素早く切り替えるのが面倒だ。
同じ話者であっても、これらのモデルは、記録装置の降着と再装着後のクロスセッションが不十分である。
超音波舌画像を用いたSSIモデルの迅速な話者適応とセッション適応を支援するため,入力画像上でアフィン変換を行うことのできる空間トランスフォーマネットワーク(STN)モジュールを用いてディープネットワークを拡張した。
STNはネットワークの約10%を占めるが,本実験では,STNモジュールのみを適応させることで,ネットワーク全体を再トレーニングするよりも平均88%のMSEを削減できることを示した。
ネットワークを同じスピーカーから異なる録音セッションに適応させると、改善はさらに大きくなります(約92%)。 Thanks to the latest deep learning algorithms, silent speech interfaces (SSI) are now able to synthesize intelligible speech from articulatory movement data under certain conditions. However, the resulting models are rather speaker-specific, making a quick switch between users troublesome. Even for the same speaker, these models perform poorly cross-session, i.e. after dismounting and re-mounting the recording equipment. To aid quick speaker and session adaptation of ultrasound tongue imaging-based SSI models, we extend our deep networks with a spatial transformer network (STN) module, capable of performing an affine transformation on the input images. Although the STN part takes up only about 10% of the network, our experiments show that adapting just the STN module might allow to reduce MSE by 88% on the average, compared to retraining the whole network. The improvement is even larger (around 92%) when adapting the network to different recording sessions from the same speaker. | 翻訳日:2023-06-01 11:38:50 公開日:2023-05-31 |
# StyleAvatar3D:高忠実度3Dアバター生成のための画像テキスト拡散モデルの活用 StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation ( http://arxiv.org/abs/2305.19012v2 ) ライセンス: Link先を確認 | Chi Zhang, Yiwen Chen, Yijun Fu, Zhenglin Zhou, Gang YU, Billzb Wang, Bin Fu, Tao Chen, Guosheng Lin, Chunhua Shen | (参考訳) 近年の画像テキスト拡散モデルの発展は、大規模3次元生成モデルの研究の関心を刺激している。
それでも、多様な3Dリソースの可用性の制限は、学習に重大な課題をもたらす。
本稿では,データ生成のための事前学習された画像テキスト拡散モデルを用いた高品質な3Dアバター作成のための新しい手法と,GANベースのトレーニング用3D生成ネットワークを提案する。
本手法は,画像テキスト拡散モデルによって提供される外観や形状の包括的先行を利用して,様々なスタイルのアバターの多視点画像を生成する。
データ生成では,既存の3次元モデルから抽出したポーズを用いてマルチビュー画像の生成を誘導する。
データ中のポーズと画像の相違に対処するために、ビュー固有のプロンプトを調査し、GANトレーニングのための粗大な識別器を開発する。
また,アバターの多様性を高めるために属性関連プロンプトを探索する。
さらに,画像入力に基づくアバター生成を可能にするために,スタイルGANのスタイル空間内に潜時拡散モデルを構築した。
提案手法は, 生成するアバターの視覚的品質と多様性の観点から, 最先端の手法よりも優れた性能を示す。 The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars. | 翻訳日:2023-06-01 11:38:33 公開日:2023-05-31 |
# IDToolkit:ナノフォトニクスにおける逆設計アルゴリズムのベンチマークと開発のためのツールキット IDToolkit: A Toolkit for Benchmarking and Developing Inverse Design Algorithms in Nanophotonics ( http://arxiv.org/abs/2305.18978v2 ) ライセンス: Link先を確認 | Jia-Qi Yang, Yucheng Xu, Jia-Lei Shen, Kebin Fan, De-Chuan Zhan, Yang Yang | (参考訳) 人工知能(ai)と機械学習(ml)の最もエキサイティングな分野の1つは、新しい薬物の発見、新しい物質や化学物質の設計などの可能性である。
しかし、科学設計は通常、AI研究者になじみのない複雑なドメイン知識を必要とする。
さらに、科学研究は、実験と評価を行うための専門的なスキルを含んでいる。
これらの障害は、AI研究者が科学設計のための特殊な方法を開発するのを妨げる。
科学的設計の理解が容易で再現性のある研究に向けて一歩を踏み出すため,ナノフォトニックデバイスの逆設計のためのベンチマークを提案する。
具体的には,3つの異なるナノフォトニック設計問題,すなわち放射冷却器,熱光電池用選択エミッタ,および構造カラーフィルタを実装した。
ベンチマーク環境はオープンソースシミュレータで実装されている。
さらに10種類の逆設計アルゴリズムを実装し,再現可能で公平なフレームワークで比較した。
その結果、既存の手法の強みと弱みが明らかとなり、より効率的な逆設計アルゴリズムを開発するためのいくつかの将来の方向性が明らかになった。
我々のベンチマークは、より困難な科学的設計問題の出発点にもなり得る。
idtoolkitのコードはhttps://github.com/thyrixyang/idtoolkitで入手できる。 Aiding humans with scientific designs is one of the most exciting of artificial intelligence (AI) and machine learning (ML), due to their potential for the discovery of new drugs, design of new materials and chemical compounds, etc. However, scientific design typically requires complex domain knowledge that is not familiar to AI researchers. Further, scientific studies involve professional skills to perform experiments and evaluations. These obstacles prevent AI researchers from developing specialized methods for scientific designs. To take a step towards easy-to-understand and reproducible research of scientific design, we propose a benchmark for the inverse design of nanophotonic devices, which can be verified computationally and accurately. Specifically, we implemented three different nanophotonic design problems, namely a radiative cooler, a selective emitter for thermophotovoltaics, and structural color filters, all of which are different in design parameter spaces, complexity, and design targets. The benchmark environments are implemented with an open-source simulator. We further implemented 10 different inverse design algorithms and compared them in a reproducible and fair framework. The results revealed the strengths and weaknesses of existing methods, which shed light on several future directions for developing more efficient inverse design algorithms. Our benchmark can also serve as the starting point for more challenging scientific design problems. The code of IDToolkit is available at https://github.com/ThyrixYang/IDToolkit. | 翻訳日:2023-06-01 11:38:14 公開日:2023-05-31 |
# 増補としてのクロスエンコーディング : 効果的な教育用テキスト分類を目指して Cross Encoding as Augmentation: Towards Effective Educational Text Classification ( http://arxiv.org/abs/2305.18977v2 ) ライセンス: Link先を確認 | Hyun Seung Lee, Seungtaek Choi, Yunsung Lee, Hyeongdon Moon, Shinhyeok Oh, Myeongho Jeong, Hyojun Go, Christian Wallraven | (参考訳) 教育におけるテキスト分類は、通常オートタグと呼ばれるが、質問や教科書などの教育コンテンツに関連タグを割り当てる自動化プロセスである。
しかし、自動タグ付けはデータ不足の問題に悩まされている。
1)大きなタグスペースを持ち、
2)マルチラベルである。
検索手法は低リソースのシナリオに適していると言われているが、データ不足問題に直接対処する取り組みは少ない。
この問題を軽減するため,本研究では,教育用テキスト分類における効果的な学習を提供する新しい検索手法ceaaを提案する。
主な貢献は以下の通りである。
1)質問応答データセットから転送学習を利用する。
2) より効率的な推論のために,クロスエンコーダスタイルのテキストをバイエンコーダアーキテクチャに導入する,単純だが効果的なデータ拡張手法を提案する。
提案手法は,最先端モデルと比較して,マルチラベルシナリオや低リソースタグに有効であることを示す。 Text classification in education, usually called auto-tagging, is the automated process of assigning relevant tags to educational content, such as questions and textbooks. However, auto-tagging suffers from a data scarcity problem, which stems from two major challenges: 1) it possesses a large tag space and 2) it is multi-label. Though a retrieval approach is reportedly good at low-resource scenarios, there have been fewer efforts to directly address the data scarcity problem. To mitigate these issues, here we propose a novel retrieval approach CEAA that provides effective learning in educational text classification. Our main contributions are as follows: 1) we leverage transfer learning from question-answering datasets, and 2) we propose a simple but effective data augmentation method introducing cross-encoder style texts to a bi-encoder architecture for more efficient inference. An extensive set of experiments shows that our proposed method is effective in multi-label scenarios and low-resource tags compared to state-of-the-art models. | 翻訳日:2023-06-01 11:37:53 公開日:2023-05-31 |
# AtTRACTive:アクティブラーニングを用いた半自動白質トラクションセグメンテーション atTRACTive: Semi-automatic white matter tract segmentation using active learning ( http://arxiv.org/abs/2305.18905v2 ) ライセンス: Link先を確認 | Robin Peretzke, Klaus Maier-Hein, Jonas Bohn, Yannick Kirchhoff, Saikat Roy, Sabrina Oberli-Palma, Daniela Becker, Pavlina Lenga, Peter Neher | (参考訳) 医用画像における白質の正確な識別は,手術計画や臓器特異的解析など,様々な応用に不可欠である。
教師付き機械学習モデルは、このタスクを自動的に解決する最新技術に到達した。
しかし、これらのモデルは主に健康な被験者で訓練され、脳腫瘍によって引き起こされる強い解剖学的収差に苦しむ。
この制限は、通常、目標経路の時間的および挑戦的な手作業による記述が使用される場合、術前計画のようなタスクには適さない。
数百万のストリームラインからなる全脳トラクトグラフィーから,ホワイトマターの高速かつ直感的なセグメンテーションのための半自動エントロピーに基づくアクティブラーニングを提案する。
ヒトコネクトームプロジェクトおよび神経外科10例の内部データセットから,21名の健常者を対象に評価を行った。
提案手法では, 健常者と同等な腫瘍症例(dice=0.71)に区分できるが, 自動的手法(dice=0.34)の性能は, 健常者と比較して大幅に低下した。
この方法はMITK DiffusionというフリーソフトウェアでTRACTiveという名前のプロトタイプとして実装されている。
腫瘍データを用いた手動実験では, 従来のROIベースのセグメンテーションに比べて, セグメンテーション時間が少なくて高い効率を示した。 Accurately identifying white matter tracts in medical images is essential for various applications, including surgery planning and tract-specific analysis. Supervised machine learning models have reached state-of-the-art solving this task automatically. However, these models are primarily trained on healthy subjects and struggle with strong anatomical aberrations, e.g. caused by brain tumors. This limitation makes them unsuitable for tasks such as preoperative planning, wherefore time-consuming and challenging manual delineation of the target tract is typically employed. We propose semi-automatic entropy-based active learning for quick and intuitive segmentation of white matter tracts from whole-brain tractography consisting of millions of streamlines. The method is evaluated on 21 openly available healthy subjects from the Human Connectome Project and an internal dataset of ten neurosurgical cases. With only a few annotations, the proposed approach enables segmenting tracts on tumor cases comparable to healthy subjects (dice=0.71), while the performance of automatic methods, like TractSeg dropped substantially (dice=0.34) in comparison to healthy subjects. The method is implemented as a prototype named atTRACTive in the freely available software MITK Diffusion. Manual experiments on tumor data showed higher efficiency due to lower segmentation times compared to traditional ROI-based segmentation. | 翻訳日:2023-06-01 11:37:39 公開日:2023-05-31 |
# 生体信号学習のための畳み込みモンジュマッピング正規化 Convolutional Monge Mapping Normalization for learning on biosignals ( http://arxiv.org/abs/2305.18831v2 ) ライセンス: Link先を確認 | Th\'eo Gnassounou, R\'emi Flamary, Alexandre Gramfort | (参考訳) 信号や生体データ、特に脳波(EEG)に関する多くの機械学習応用において、大きな課題は、被験者、セッション、ハードウェアデバイス間でのデータのばらつきである。
本研究では,そのパワースペクトル密度(psd)をトレーニングデータから推定したwasserstein barycenterに適応させるために,信号をフィルタリングする畳み込みモンジマッピング正規化(cmmn)と呼ばれる新しい手法を提案する。
CMMNは、最適なトランスポートマッピングとバリセンタのための新しいクローズドフォームソリューションに依存し、予測モデルを再トレーニングすることなく、新しいデータへの個別のテスト時間適応を提供する。
睡眠脳波データに関する数値実験により、CMMNは、被験者、セッション、さらには異なるハードウェアで収集されたデータセット間の適応において、ニューラルネットワークアーキテクチャから大きく、一貫したパフォーマンス向上をもたらすことが示された。
特に、我々のパフォーマンス向上は、はるかに数値的なドメイン適応(DA)メソッドと同等であり、より良いパフォーマンスのためにそれらと併用することができる。 In many machine learning applications on signals and biomedical data, especially electroencephalogram (EEG), one major challenge is the variability of the data across subjects, sessions, and hardware devices. In this work, we propose a new method called Convolutional Monge Mapping Normalization (CMMN), which consists in filtering the signals in order to adapt their power spectrum density (PSD) to a Wasserstein barycenter estimated on training data. CMMN relies on novel closed-form solutions for optimal transport mappings and barycenters and provides individual test time adaptation to new data without needing to retrain a prediction model. Numerical experiments on sleep EEG data show that CMMN leads to significant and consistent performance gains independent from the neural network architecture when adapting between subjects, sessions, and even datasets collected with different hardware. Notably our performance gain is on par with much more numerically intensive Domain Adaptation (DA) methods and can be used in conjunction with those for even better performances. | 翻訳日:2023-06-01 11:37:17 公開日:2023-05-31 |