このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230504となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# FR-Net:ゲーズ推定のための軽量FFT残差ネット FR-Net:A Light-weight FFT Residual Net For Gaze Estimation ( http://arxiv.org/abs/2305.11875v1 ) ライセンス: Link先を確認 | Tao Xu, Bo Wu, Ruilong Fan, Yun Zhou and Di Huang | (参考訳) 視線推定はコンピュータビジョンにおいて重要なタスクであるが、既存の手法は計算コストが高く、リソース制限された環境での実際の展開を制限する。
本稿では,計算複雑性を著しく低減しつつ,正確な視線角推定のための新しい軽量モデルFR-Netを提案する。
fr-netは高速フーリエ変換(fft)を利用して周波数領域の視線関連特徴を抽出し、パラメータの数を減らす。
さらに,空間領域に着目したショートカットコンポーネントを導入し,モデルの精度をさらに向上させる。
EYEDIAPでは,17倍のパラメータ (0.67M) と12%のFLOPs (0.22B) を用いながら, 現状の視線推定法と比較すると, 視線誤差角がかなり低い(MPIIでは3.86, EYEDIAPでは4.51)。
さらに,提案手法は,視線推定タスクの精度と効率の観点から,既存の軽量手法よりも優れている。
これらの結果から,提案手法は人間とコンピュータのインタラクションや運転支援システムなどの分野において有意な応用が期待できる。 Gaze estimation is a crucial task in computer vision, however, existing methods suffer from high computational costs, which limit their practical deployment in resource-limited environments. In this paper, we propose a novel lightweight model, FR-Net, for accurate gaze angle estimation while significantly reducing computational complexity. FR-Net utilizes the Fast Fourier Transform (FFT) to extract gaze-relevant features in frequency domains while reducing the number of parameters. Additionally, we introduce a shortcut component that focuses on the spatial domain to further improve the accuracy of our model. Our experimental results demonstrate that our approach achieves substantially lower gaze error angles (3.86 on MPII and 4.51 on EYEDIAP) compared to state-of-the-art gaze estimation methods, while utilizing 17 times fewer parameters (0.67M) and only 12\% of FLOPs (0.22B). Furthermore, our method outperforms existing lightweight methods in terms of accuracy and efficiency for the gaze estimation task. These results suggest that our proposed approach has significant potential applications in areas such as human-computer interaction and driver assistance systems. | 翻訳日:2023-05-28 05:28:45 公開日:2023-05-04 |
# 脳にインスパイアされた機械的解釈性のためのモジュラートレーニング Seeing is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability ( http://arxiv.org/abs/2305.08746v1 ) ライセンス: Link先を確認 | Ziming Liu, Eric Gan, Max Tegmark | (参考訳) ニューラルネットワークをよりモジュール化し、解釈可能にする手法であるbimt(brain-inspired modular training)を紹介する。
脳に触発されて、bimtはニューロンを幾何学的な空間に埋め込み、各ニューロン接続の長さに比例するコストで損失関数を増強する。
BIMTは,多くの単純なタスクに有用なモジュール型ニューラルネットワークを発見し,シンボル式における構成構造,解釈可能な決定境界,分類のための特徴,アルゴリズムデータセットにおける数学的構造を明らかにする。
裸眼でモジュールを直接見る能力は、プローブや介入、あらゆる重みを見つめるといった現在の機械的解釈可能性戦略を補完することができる。 We introduce Brain-Inspired Modular Training (BIMT), a method for making neural networks more modular and interpretable. Inspired by brains, BIMT embeds neurons in a geometric space and augments the loss function with a cost proportional to the length of each neuron connection. We demonstrate that BIMT discovers useful modular neural networks for many simple tasks, revealing compositional structures in symbolic formulas, interpretable decision boundaries and features for classification, and mathematical structure in algorithmic datasets. The ability to directly see modules with the naked eye can complement current mechanistic interpretability strategies such as probes, interventions or staring at all weights. | 翻訳日:2023-05-21 11:02:57 公開日:2023-05-04 |
# 注意モデルを用いた視覚質問応答アルゴリズムの解析 Analysis of Visual Question Answering Algorithms with attention model ( http://arxiv.org/abs/2305.09782v1 ) ライセンス: Link先を確認 | Param Ahir and Hiteishi M. Diwanji | (参考訳) 視覚質問応答(vqa)は、画像処理アルゴリズムを使用して、画像と自然言語処理メソッドを処理し、質問を理解し、答える。
VQAは視覚障害者に役立ち、Webから学習するセキュリティ監視システムやオンラインチャットボットに使用できる。
NLP法を用いて質問の意味を学習し、テキストの特徴を導出する。
コンピュータビジョン技術は、どの質問が質問されたかを特定することができるように画像表現を生成するのに使用される。
注意モデルは、その文脈の理解に基づいて、画像の異なる領域に注意を向ける人間の行動を模倣しようとする。
本稿では,テキストのセマンティクスの生成,オブジェクトの識別,コアテンションアプローチを用いた回答分類手法など,VQAアルゴリズムの手法を批判的に検証し,検証する。 Visual question answering (VQA) usesimage processing algorithms to process the image and natural language processing methods to understand and answer the question. VQA is helpful to a visually impaired person, can be used for the security surveillance system and online chatbots that learn from the web. It uses NLP methods to learn the semantic of the question and to derive the textual features. Computer vision techniques are used for generating image representation in such a way that they can identify the objects about which question is asked. The Attention model tries to mimic the human behavior of giving attention to a different region of an image according to our understanding of its context. This paper critically examines and reviews methods of VQA algorithm such as generation of semantics of text, identification of objects and answer classification techniques that use the co-attention approach. | 翻訳日:2023-05-21 10:56:45 公開日:2023-05-04 |
# t-SNE可視化を用いたGAN生成手書き画像とMNIST画像の比較検討 A Comparative Study of GAN-Generated Handwriting Images and MNIST Images using t-SNE Visualization ( http://arxiv.org/abs/2305.09786v1 ) ライセンス: Link先を確認 | Okan D\"uzyel | (参考訳) MNISTデータセット上のGAN生成画像の品質を,t分散確率的近傍埋め込み(t-SNE)可視化を用いて,元の画像と比較した。
GANはデータセットを使って画像を生成し、すべての合成画像を生成した結果、対応するラベルを保存した。
生成した画像と元のmnistデータセットの寸法をt-sneを用いて削減し,その埋め込みをプロットした。
生成した画像のt-SNEプロットと元のMNIST画像を比較し,GAN生成画像の速度を検討した。
GAN生成画像は元の画像と似ているが,特徴の分布に若干の違いがあることが判明した。
本研究は,GAN生成画像の品質評価に有用な評価手法を提供するとともに,今後の画像生成の改善に寄与すると考えられる。 The quality of GAN-generated images on the MNIST dataset was explored in this paper by comparing them to the original images using t-distributed stochastic neighbor embedding (t- SNE) visualization. A GAN was trained with the dataset to generate images and the result of generating all synthetic images, the corresponding labels were saved. The dimensionality of the generated images and the original MNIST dataset was reduced using t-SNE and the resulting embeddings were plotted. The rate of the GAN-generated images was examined by comparing the t-SNE plots of the generated images and the original MNIST images. It was found that the GAN- generated images were similar to the original images but had some differences in the distribution of the features. It is believed that this study provides a useful evaluation method for assessing the quality of GAN-generated images and can help to improve their generation in the future. | 翻訳日:2023-05-21 10:43:00 公開日:2023-05-04 |
# ai時代の後期拘束的奨学金--新しい形態の知識生産の法的・規範的挑戦をめざして Late-Binding Scholarship in the Age of AI: Navigating Legal and Normative Challenges of a New Form of Knowledge Production ( http://arxiv.org/abs/2305.11058v1 ) ライセンス: Link先を確認 | Bill Tomlinson, Andrew W. Torrance, Rebecca W. Black, Donald J. Patterson | (参考訳) 人工知能(AI)は、学術コンテンツの作成において、新たな飛躍を可能にする。
GPT-3のような大規模言語モデルとのコラボレーションなど、AIシステムとの新たなエンゲージメントは、学術的なプロセスとそれが生成するアーティファクトの両方の性質を変える余裕を提供する。
この記事では、これらのアーティファクトを、現在の学術的プラクティスよりもダイナミックで、潜在的に効果的に書き、配布し、読み、整理し、保存する方法について述べます。
具体的には、現在の「初期結合」プロセス(すなわち、著者の机を離れる前に、アイデアが最終的な書式に完全に還元されるプロセス)ではなく、「後期結合」プロセスには相当な利点があり、その過程でアイデアが動的に書かれることを提案する。
実際、"バインディング"知識のパラダイムは、奨学金が"アンバウンド"で進化し続ける新しいモデルに移行する可能性がある。
An alternative form for a scholarly work could be encapsulated via several key components: a text abstract of the work's core arguments; hyperlinks to a bibliography of relevant related work; novel data that had been collected and metadata describing those data; algorithms or processes necessary for analyzing those data; a reference to a particular AI model that would serve as a "renderer" of the canonical version of the text; and specified parameters that would allow for a precise, word-for-word reconstruction of the canonical version.
このような形式は、標準版のレンダリングと、将来の発見からテキストの動的AI再構成の可能性、原作者に未知の奨学金、代替理論、特定のオーディエンス(例えば、子供、大人、プロ、アマチュア)への正確な調整を可能にする。 Artificial Intelligence (AI) is poised to enable a new leap in the creation of scholarly content. New forms of engagement with AI systems, such as collaborations with large language models like GPT-3, offer affordances that will change the nature of both the scholarly process and the artifacts it produces. This article articulates ways in which those artifacts can be written, distributed, read, organized, and stored that are more dynamic, and potentially more effective, than current academic practices. Specifically, rather than the current "early-binding" process (that is, one in which ideas are fully reduced to a final written form before they leave an author's desk), we propose that there are substantial benefits to a "late-binding" process, in which ideas are written dynamically at the moment of reading. In fact, the paradigm of "binding" knowledge may transition to a new model in which scholarship remains ever "unbound" and evolving. An alternative form for a scholarly work could be encapsulated via several key components: a text abstract of the work's core arguments; hyperlinks to a bibliography of relevant related work; novel data that had been collected and metadata describing those data; algorithms or processes necessary for analyzing those data; a reference to a particular AI model that would serve as a "renderer" of the canonical version of the text; and specified parameters that would allow for a precise, word-for-word reconstruction of the canonical version. Such a form would enable both the rendering of the canonical version, and also the possibility of dynamic AI reimaginings of the text in light of future findings, scholarship unknown to the original authors, alternative theories, and precise tailoring to specific audiences (e.g., children, adults, professionals, amateurs). | 翻訳日:2023-05-21 10:25:06 公開日:2023-05-04 |
# DomainInv:QAドメイン適応のためのドメイン不変の微調整と逆ラベル補正 DomainInv: Domain Invariant Fine Tuning and Adversarial Label Correction For QA Domain Adaptation ( http://arxiv.org/abs/2305.05589v1 ) ライセンス: Link先を確認 | Anant Khandelwal | (参考訳) 既存の質問回答(QA)システムは、見えないドメインやドメイン外のディストリビューションからの質問に答えることによって制限され、実際のシナリオへのデプロイに対する信頼性が低下します。
最も重要なのは、既存のqaドメイン適応メソッドはすべて、合成データの生成や、ターゲットドメインデータの擬似ラベリングに基づいています。
合成データと擬似ラベリングに基づくドメイン適応法は、計算資源の要求か、トレーニングデータセットに含まれるノイズの例を分離するために信頼しきい値を慎重に選択する余分なオーバーヘッドのいずれかに苦しむ。
本稿では,未ラベル対象領域に対する教師なし領域適応を,ソースドメインの監督を引き続き用いながら,ソースドメイン近傍のターゲット表現を転送することで提案する。
そこで本研究では,ドメイン不変微調整と逆ラベル補正を併用して,ソースドメインから遠く離れたターゲットインスタンスを識別し,対象インスタンスとソースインスタンス間の距離を適宜に最小化するために特徴エンコーダを学習できるようにし,まだソースサポートに近いがあいまいなターゲットドメインの特徴を学習する可能性を排除した。
マルチターゲットQAデータセット上でのドメイン適応手法であるDomainInvの評価により,最強のベースラインに対する性能改善が示された。 Existing Question Answering (QA) systems limited by the capability of answering questions from unseen domain or any out-of-domain distributions making them less reliable for deployment to real scenarios. Most importantly all the existing QA domain adaptation methods are either based on generating synthetic data or pseudo labeling the target domain data. The domain adaptation methods based on synthetic data and pseudo labeling suffers either from the requirement of computational resources or an extra overhead of carefully selecting the confidence threshold to separate the noisy examples from being in the training dataset. In this paper, we propose the unsupervised domain adaptation for unlabeled target domain by transferring the target representation near to source domain while still using the supervision from source domain. Towards that we proposed the idea of domain invariant fine tuning along with adversarial label correction to identify the target instances which lie far apart from the source domain, so that the feature encoder can be learnt to minimize the distance between such target instances and source instances class wisely, removing the possibility of learning the features of target domain which are still near to source support but are ambiguous. Evaluation of our QA domain adaptation method namely, DomainInv on multiple target QA dataset reveal the performance improvement over the strongest baseline. | 翻訳日:2023-05-14 20:57:00 公開日:2023-05-04 |
# ベイジアンナッシュ平衡推定のための模擬学習に基づく近代電力市場における事前知識伝達を実現するアルゴリズム An Imitation Learning Based Algorithm Enabling Priori Knowledge Transfer in Modern Electricity Markets for Bayesian Nash Equilibrium Estimation ( http://arxiv.org/abs/2305.06924v1 ) ライセンス: Link先を確認 | Ziqing Zhu, Ka Wing Chan, Siqi Bu, Ze Hu, Shiwei Xia | (参考訳) 電力市場の入札ゲームにおけるNash Equilibrium(NE)推定は、入札戦略最適化のための世代企業(GENCO)と市場監視のための独立系オペレータ(ISO)の両方にとって重要な関心事である。
しかし,近年の電力市場(FEM)におけるNE推定手法は,需要変動やネットワーク混雑,市場設計の変更など,環境変化前の入札戦略の事前知識が十分に活用されていないため,不正確かつ非効率である。
そこで本稿では,FEM (BAMDP-FEM) におけるベイズ適応マルコフ決定プロセスを開発し,事前知識を考慮した提案手法をモデル化する。
次に, 先行知識と環境変化との相互作用から, GENCOを同時に学習可能にするために, 新たなMulti-Agent Generative Adversarial Imitation Learningアルゴリズム(MAGAIL-FEM)を提案する。
得られたNEはベイズナッシュ平衡(BNE)であり、事前知識は以前の環境から伝達される。
本研究では,従来の手法と比較して収束速度の面でのアルゴリズムの優位性を検証した。
得られたbneにおける最適入札戦略は,事前知識からの効果的な学習により,常にneよりも多くの利益を得られると結論づけた。
また、BNEは現実世界市場の状況とより正確で整合性がある。 The Nash Equilibrium (NE) estimation in bidding games of electricity markets is the key concern of both generation companies (GENCOs) for bidding strategy optimization and the Independent System Operator (ISO) for market surveillance. However, existing methods for NE estimation in emerging modern electricity markets (FEM) are inaccurate and inefficient because the priori knowledge of bidding strategies before any environment changes, such as load demand variations, network congestion, and modifications of market design, is not fully utilized. In this paper, a Bayes-adaptive Markov Decision Process in FEM (BAMDP-FEM) is therefore developed to model the GENCOs' bidding strategy optimization considering the priori knowledge. A novel Multi-Agent Generative Adversarial Imitation Learning algorithm (MAGAIL-FEM) is then proposed to enable GENCOs to learn simultaneously from priori knowledge and interactions with changing environments. The obtained NE is a Bayesian Nash Equilibrium (BNE) with priori knowledge transferred from the previous environment. In the case study, the superiority of this proposed algorithm in terms of convergence speed compared with conventional methods is verified. It is concluded that the optimal bidding strategies in the obtained BNE can always lead to more profits than NE due to the effective learning from the priori knowledge. Also, BNE is more accurate and consistent with situations in real-world markets. | 翻訳日:2023-05-14 20:48:24 公開日:2023-05-04 |
# 今後の電力市場設計に強化学習をどう活用するか
第2部:方法と応用 How to Use Reinforcement Learning to Facilitate Future Electricity Market Design? Part 2: Method and Applications ( http://arxiv.org/abs/2305.06921v1 ) ライセンス: Link先を確認 | Ziqing Zhu, Siqi Bu, Ka Wing Chan, Bin Zhou, Shiwei Xia | (参考訳) 本稿では, 強化学習(RL)に基づくシミュレーションを用いて, 共同電力市場設計のパラダイム理論と詳細な手法を開発する。
パート2では、電気スポット市場(ESM)を設計するための詳細な手法と、アシラリーサービス市場(ASM)における予約容量製品(RC)と、金融市場(FM)における仮想入札(VB)製品とを併用して、この理論をさらに実証している。
第1部で提案された理論に従い、まず、共同市場における市場設計の選択肢を特定する。
次に,市場設計の選択肢と不確実なリスクをモデル定式化に組み込む方法を示すマルコフゲームモデルを開発した。
第1部で開発された一般化市場シミュレーション手法の実践的実装として,マルチエージェントポリシ近位最適化(MAPPO)アルゴリズムについて述べる。
最後に,本研究では,mappoアルゴリズムを実装したシミュレーション結果に基づいて,第1部で提案する市場運用性能指標を用いて,最適な市場設計オプションを選択する方法を示す。
市場参加者の入札戦略選好に異なる市場デザインオプションが与える影響についても論じる。 This two-part paper develops a paradigmatic theory and detailed methods of the joint electricity market design using reinforcement-learning (RL)-based simulation. In Part 2, this theory is further demonstrated by elaborating detailed methods of designing an electricity spot market (ESM), together with a reserved capacity product (RC) in the ancillary service market (ASM) and a virtual bidding (VB) product in the financial market (FM). Following the theory proposed in Part 1, firstly, market design options in the joint market are specified. Then, the Markov game model is developed, in which we show how to incorporate market design options and uncertain risks in model formulation. A multi-agent policy proximal optimization (MAPPO) algorithm is elaborated, as a practical implementation of the generalized market simulation method developed in Part 1. Finally, the case study demonstrates how to pick the best market design options by using some of the market operation performance indicators proposed in Part 1, based on the simulation results generated by implementing the MAPPO algorithm. The impacts of different market design options on market participants' bidding strategy preference are also discussed. | 翻訳日:2023-05-14 20:47:59 公開日:2023-05-04 |
# 生成AIとアクティブラーニングフレームワークを融合した薬物設計の最適化 Optimizing Drug Design by Merging Generative AI With Active Learning Frameworks ( http://arxiv.org/abs/2305.06334v1 ) ライセンス: Link先を確認 | Isaac Filella-Merce, Alexis Molina, Marek Orzechowski, Luc\'ia D\'iaz, Yang Ming Zhu, Julia Vilalta Mor, Laura Malo, Ajay S Yekkirala, Soumya Ray, Victor Guallar | (参考訳) 伝統的な薬物発見プログラムは、機械学習手法の出現によって変化しつつある。
これらのうち、ジェネレーティブaiメソッド(gm)は、新しい分子の設計能力と既存の分子の特定の特性の強化によって注目を集めている。
しかし、現在のGM法には、ターゲットに対する親和性、未知のADME/PK特性、合成的トラクタビリティの欠如などの制限がある。
GM手法の適用性ドメインを改善するために,能動的学習ステップと組み合わされた変分オートエンコーダに基づくワークフローを開発した。
デザインされたGMワークフローは、薬物類似性、合成可能性、類似性、ドッキングスコアなどの分子メトリクスから反復的に学習する。
さらに,最終選択段階における高度な分子モデリングシミュレーションに基づく階層的基準も含む。
GMワークフローをCDK2とKRASの2つのモデルシステムでテストした。
いずれの場合も,本モデルでは,ターゲットに対して高い親和性を示す化学的に有効な分子を生成する。
特に,GMワークフローで推定される高親和性分子の割合は,トレーニングデータよりも有意に大きかった。
また,本研究では,各ターゲットに共通する新規な足場も明らかにした。
これらの結果は、特定のターゲットのための新しい化学空間を探索するGMワークフローの可能性を強調し、薬物発見への新たな可能性を開く。 Traditional drug discovery programs are being transformed by the advent of machine learning methods. Among these, Generative AI methods (GM) have gained attention due to their ability to design new molecules and enhance specific properties of existing ones. However, current GM methods have limitations, such as low affinity towards the target, unknown ADME/PK properties, or the lack of synthetic tractability. To improve the applicability domain of GM methods, we have developed a workflow based on a variational autoencoder coupled with active learning steps. The designed GM workflow iteratively learns from molecular metrics, including drug likeliness, synthesizability, similarity, and docking scores. In addition, we also included a hierarchical set of criteria based on advanced molecular modeling simulations during a final selection step. We tested our GM workflow on two model systems, CDK2 and KRAS. In both cases, our model generated chemically viable molecules with a high predicted affinity toward the targets. Particularly, the proportion of high-affinity molecules inferred by our GM workflow was significantly greater than that in the training data. Notably, we also uncovered novel scaffolds significantly dissimilar to those known for each target. These results highlight the potential of our GM workflow to explore novel chemical space for specific targets, thereby opening up new possibilities for drug discovery endeavors. | 翻訳日:2023-05-14 20:47:15 公開日:2023-05-04 |
# クラウドRANによる垂直フェデレーション学習:収束解析とシステム最適化 Vertical Federated Learning over Cloud-RAN: Convergence Analysis and System Optimization ( http://arxiv.org/abs/2305.06279v1 ) ライセンス: Link先を確認 | Yuanming Shi, Shuhao Xia, Yong Zhou, Yijie Mao, Chunxiao Jiang, Meixia Tao | (参考訳) Vertical Federated Learning(FL)は、デバイスがローカルな生データを共有せずに、機能分割データセットからグローバルモデルを学ぶことができる、共同機械学習フレームワークである。
しかし, 局所的な中間出力の数はトレーニングサンプルに比例するため, 完全デバイス参加を伴う高次元モデルアグリゲーションを支援するために, 無線縦型FLの通信効率向上技術を開発することが重要である。
本稿では,クラウド無線アクセスネットワーク(cloud-ran)ベースの垂直flシステムを提案する。このシステムでは,aircomp(over-the-air computation)を活用して高速かつ正確なモデルアグリゲーションを実現し,地理的に分散したエッジサーバ間の協調モデルアグリゲーションによる通信ストラグラー問題を緩和する。
しかし、エアコンによるモデル集約誤差と、限定されたフロントホール容量による量子化誤差は、垂直flの学習性能を低下させる。
これらの問題に対処するため,アップリンクとダウンリンクの両方を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
学習性能を向上させるために,逐次凸近似と交互凸探索に基づくシステム最適化アルゴリズムを開発できる,ジョイントトランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
提案するシステムアーキテクチャと最適化フレームワークの有効性を実証するために,広範囲なシミュレーションを行った。 Vertical federated learning (FL) is a collaborative machine learning framework that enables devices to learn a global model from the feature-partition datasets without sharing local raw data. However, as the number of the local intermediate outputs is proportional to the training samples, it is critical to develop communication-efficient techniques for wireless vertical FL to support high-dimensional model aggregation with full device participation. In this paper, we propose a novel cloud radio access network (Cloud-RAN) based vertical FL system to enable fast and accurate model aggregation by leveraging over-the-air computation (AirComp) and alleviating communication straggler issue with cooperative model aggregation among geographically distributed edge servers. However, the model aggregation error caused by AirComp and quantization errors caused by the limited fronthaul capacity degrade the learning performance for vertical FL. To address these issues, we characterize the convergence behavior of the vertical FL algorithm considering both uplink and downlink transmissions. To improve the learning performance, we establish a system optimization framework by joint transceiver and fronthaul quantization design, for which successive convex approximation and alternate convex search based system optimization algorithms are developed. We conduct extensive simulations to demonstrate the effectiveness of the proposed system architecture and optimization framework for vertical FL. | 翻訳日:2023-05-14 20:46:40 公開日:2023-05-04 |
# 動的コンテキストグラフを用いた会話意味解析 Conversational Semantic Parsing using Dynamic Context Graphs ( http://arxiv.org/abs/2305.06164v1 ) ライセンス: Link先を確認 | Parag Jain and Mirella Lapata | (参考訳) 本稿では,数百万のエンティティと何千もの関係型を持つ汎用知識グラフ(KG)を用いた会話意味解析の課題について考察する。
対話履歴のコンテキストにおいて、ユーザ発話を実行可能な論理形式(例えば、SPARQL)にインタラクティブにマッピングできるモデルの開発に興味があります。
私たちの重要なアイデアは、発話とその文脈に関する情報を、動的に生成されたサブグラフ、すなわち発話毎にノード数が異なることを通して表現することにあります。
さらに、サブグラフをシーケンスとして扱うのではなく、基盤となる構造を利用して、グラフニューラルネットワークを使ってエンコードすることで、多数の(見えない)ノードを表現できます。
実験の結果、動的にモデリングされたコンテキストは静的なアプローチよりも優れており、ボード全体でパフォーマンスが改善されている(単純で複雑な質問)。
さらに, 文脈構造をモデル化することで, 会話情報(すなわち, ellipsis の処理やコリファレンスの解決)やより長い相互作用の処理が容易になることを確認した。 In this paper we consider the task of conversational semantic parsing over general purpose knowledge graphs (KGs) with millions of entities, and thousands of relation-types. We are interested in developing models capable of interactively mapping user utterances into executable logical forms (e.g., SPARQL) in the context of the conversational history. Our key idea is to represent information about an utterance and its context via a subgraph which is created dynamically, i.e., the number of nodes varies per utterance. Moreover, rather than treating the subgraph as a sequence we exploit its underlying structure, and thus encode it using a graph neural network which further allows us to represent a large number of (unseen) nodes. Experimental results show that modeling context dynamically is superior to static approaches, delivering performance improvements across the board (i.e., for simple and complex questions). Our results further confirm that modeling the structure of context is better at processing discourse information, (i.e., at handling ellipsis and resolving coreference) and longer interactions. | 翻訳日:2023-05-14 20:46:06 公開日:2023-05-04 |
# 強化学習 少しずつ Reinforcement Learning, Bit by Bit ( http://arxiv.org/abs/2103.04047v8 ) ライセンス: Link先を確認 | Xiuyuan Lu, Benjamin Van Roy, Vikranth Dwaracherla, Morteza Ibrahimi, Ian Osband, Zheng Wen | (参考訳) 強化学習エージェントはシミュレーション環境において顕著な成果を示した。
データ効率は、この成功を実環境に持ち込む上で障害となる。
データ効率エージェントの設計は、情報取得と表現のより深い理解を求めている。
原則的なガイダンスを提供する概念と後悔の分析について論じる。
この考え方は、どの情報を求めるか、どのように情報を求めるか、どの情報を保持すべきかという疑問に光を当てている。
概念を説明するために、我々はそれらの上に構築された単純なエージェントを設計し、データ効率を強調する計算結果を示す。 Reinforcement learning agents have demonstrated remarkable achievements in simulated environments. Data efficiency poses an impediment to carrying this success over to real environments. The design of data-efficient agents calls for a deeper understanding of information acquisition and representation. We discuss concepts and regret analysis that together offer principled guidance. This line of thinking sheds light on questions of what information to seek, how to seek that information, and what information to retain. To illustrate concepts, we design simple agents that build on them and present computational results that highlight data efficiency. | 翻訳日:2023-05-10 01:41:49 公開日:2023-05-04 |
# パシュトテキスト分類のための従来の言語処理手法のチューニング Tuning Traditional Language Processing Approaches for Pashto Text Classification ( http://arxiv.org/abs/2305.03737v1 ) ライセンス: Link先を確認 | Jawid Ahmad Baktash, Mursal Dawodi, Mohammad Zarif Joya, Nematullah Hassanzada | (参考訳) 今日、テキスト分類は多くの目的のために関係する個人にとって重要な課題となっている。
そのため、国語・国際語の自動テキスト分類を開発するためにいくつかの研究がなされている。
しかし、ローカル言語のための自動テキスト分類システムの必要性を感じている。
本研究の目的は,Pashto自動テキスト分類システムの構築である。
この作業を追求するため,Pashto コーパスを構築した。これは Pashto 文書の公開データセットが利用できないため,Pashto ドキュメントのコレクションである。
さらに,マルチレイヤーパーセプトロン (MLP), サポートベクトルマシン (SVM), K Nearest Neighbor (KNN), 決定木, Gaussian na\"ive Bayes, multinomial na\"ive Bayes, ランダムフォレスト, ロジスティック回帰といった,統計的およびニューラルネットワーク機械学習技術を含むモデルを比較し,最も効果的なアプローチを発見する。
さらに、ユニグラムとIFIDF(Time Frequency Inverse Document Frequency)を含む2種類の特徴抽出手法について検討した。
そこで本研究では,mlp分類法とtfidf特徴抽出法を用いて,平均試験精度94%を得た。 Today text classification becomes critical task for concerned individuals for numerous purposes. Hence, several researches have been conducted to develop automatic text classification for national and international languages. However, the need for an automatic text categorization system for local languages is felt. The main aim of this study is to establish a Pashto automatic text classification system. In order to pursue this work, we built a Pashto corpus which is a collection of Pashto documents due to the unavailability of public datasets of Pashto text documents. Besides, this study compares several models containing both statistical and neural network machine learning techniques including Multilayer Perceptron (MLP), Support Vector Machine (SVM), K Nearest Neighbor (KNN), decision tree, gaussian na\"ive Bayes, multinomial na\"ive Bayes, random forest, and logistic regression to discover the most effective approach. Moreover, this investigation evaluates two different feature extraction methods including unigram, and Time Frequency Inverse Document Frequency (IFIDF). Subsequently, this research obtained average testing accuracy rate 94% using MLP classification algorithm and TFIDF feature extraction method in this context. | 翻訳日:2023-05-09 19:52:30 公開日:2023-05-04 |
# 競争的オートカーキュラにおける創発的行動学習のためのstackelbergゲーム Stackelberg Games for Learning Emergent Behaviors During Competitive Autocurricula ( http://arxiv.org/abs/2305.03735v1 ) ライセンス: Link先を確認 | Boling Yang, Liyuan Zheng, Lillian J. Ratliff, Byron Boots, Joshua R. Smith | (参考訳) オートキュラートレーニングはマルチエージェント強化学習(MARL)の重要なサブ領域であり、複数のエージェントが教師なしの共同進化スキームで創発的スキルを学ぶことができる。
ロボティクスコミュニティは、堅牢な制御や対話的な操作タスクなど、物理的に根拠のある問題でオートクルトレーニングを実験してきた。
しかし、これらのタスクの非対称性は、洗練されたポリシーの生成を困難にする。
実際、環境の非対称性は暗黙的または明示的にエージェントのサブセットに利点を与え、結果として低品質な平衡をもたらす可能性がある。
本稿では,マルチエージェント・ディープ・決定論的政策勾配 (st-maddpg) という新しいゲーム理論アルゴリズムを提案する。このアルゴリズムは2人のプレイヤーのマール問題を,1人のプレイヤーが「リーダー」,もう1人が「追従者」として,リーダーが有利な階層的相互作用構造においてスタックルバーグゲームとして定式化する。
まず,ST-MADDPGによるリーダの優位性を環境内固有の非対称性を軽減するために有効であることを示す。
リーダーの利点を活用することで、ST-MADDPGは共進化プロセスの品質を改善し、目に見えない強力な相手に対してさえうまく機能するより洗練された複雑な戦略をもたらす。 Autocurricular training is an important sub-area of multi-agent reinforcement learning~(MARL) that allows multiple agents to learn emergent skills in an unsupervised co-evolving scheme. The robotics community has experimented autocurricular training with physically grounded problems, such as robust control and interactive manipulation tasks. However, the asymmetric nature of these tasks makes the generation of sophisticated policies challenging. Indeed, the asymmetry in the environment may implicitly or explicitly provide an advantage to a subset of agents which could, in turn, lead to a low-quality equilibrium. This paper proposes a novel game-theoretic algorithm, Stackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG), which formulates a two-player MARL problem as a Stackelberg game with one player as the `leader' and the other as the `follower' in a hierarchical interaction structure wherein the leader has an advantage. We first demonstrate that the leader's advantage from ST-MADDPG can be used to alleviate the inherent asymmetry in the environment. By exploiting the leader's advantage, ST-MADDPG improves the quality of a co-evolution process and results in more sophisticated and complex strategies that work well even against an unseen strong opponent. | 翻訳日:2023-05-09 19:52:08 公開日:2023-05-04 |
# 自由電子ホモダイン検出によるアト秒電子顕微鏡 Attosecond electron microscopy by free-electron homodyne detection ( http://arxiv.org/abs/2305.03005v1 ) ライセンス: Link先を確認 | John H. Gaida, Hugo Louren\c{c}o-Martins, Murat Sivis, Thomas Rittmann, Armin Feist, F. Javier Garc\'ia de Abajo and Claus Ropers | (参考訳) 時間分解電子顕微鏡は、ナノスケールの励起と時間分解能を持つ物質の動的状態を追跡することを目的としている。
イルミネーション標本における周期的時間変化場は自由電子非弾性散乱を引き起こし、近接場強度の分光イメージングを可能にする。
しかし、ナノスケールの磁場と光サイクル内の構造が進化するには、光学相に対する感度が必要である。
本稿では、高時空間分解能の位相分解光応答の電子顕微鏡法として、FREHD(Free-Electron Homodyne Detection)を導入する。
このスキームでは、位相制御された参照相互作用は、自由電子波動関数の任意のサンプル誘起変調を抽出する局所発振器として機能する。
我々は,数ナノメータの空間分解能とサブサイクル時間分解能を有するプラズモニックフィールドの位相分解イメージングにより,この原理を実証する。
位相変調電子線と振幅変調電子線の両方に対する感度のため、FREHD測定は線形および非線形光学偏光、原子と分子の共鳴、アト秒変調構造因子を含む様々な顕微鏡起源から生じる弱い信号を検出し増幅することができる。 Time-resolved electron microscopy aims at tracking nanoscale excitations and dynamic states of matter with a temporal resolution ultimately reaching the attosecond regime. Periodically time-varying fields in an illuminated specimen cause free-electron inelastic scattering, which enables the spectroscopic imaging of near-field intensities. However, access to the evolution of nanoscale fields and structures within the light cycle requires a sensitivity to the optical phase. Here, we introduce Free-Electron Homodyne Detection (FREHD) as a universally applicable approach to electron microscopy of phase-resolved optical responses at high spatiotemporal resolution. In this scheme, a phase-controlled reference interaction serves as the local oscillator to extract arbitrary sample-induced modulations of a free-electron wave function. We demonstrate this principle through the phase-resolved imaging of plasmonic fields with few-nanometer spatial and sub-cycle temporal resolutions. Due to its sensitivity to both phase- and amplitude-modulated electron beams, FREHD measurements will be able to detect and amplify weak signals stemming from a wide variety of microscopic origins, including linear and nonlinear optical polarizations, atomic and molecular resonances and attosecond-modulated structure factors. | 翻訳日:2023-05-09 19:51:43 公開日:2023-05-04 |
# 会話レコメンデーションのための多層ハイパーグラフ興味モデリング Multi-grained Hypergraph Interest Modeling for Conversational Recommendation ( http://arxiv.org/abs/2305.04798v1 ) ライセンス: Link先を確認 | Chenzhan Shang, Yupeng Hou, Wayne Xin Zhao, Yaliang Li, Jing Zhang | (参考訳) 会話レコメンデータシステム(CRS)は,ユーザの即時情報要求に対して高品質なレコメンデーションを提供することを目的として,自然言語のマルチターン対話を通じてユーザと対話する。
効果的なCRSの開発には多大な努力が払われているが、そのほとんどが現在の対話からの文脈情報に焦点を当てており、通常はデータ不足の問題に悩まされている。
そこで本稿では,過去の対話データを活用して,現在の対話セッションの限られた文脈を豊かにする。
本稿では,異なる視点から複雑な履歴データの下でユーザの興味を捉えるための,新しい多粒度ハイパーグラフ利害モデリング手法を提案する。
基本概念として,歴史対話の基盤となる複雑な意味関係を表現するためにハイパーグラフを用いる。
提案手法では,まずハイパーグラフ構造を用いてユーザの過去の対話セッションをモデル化し,粗粒度でセッションレベルの関係を捉えたセッションベースのハイパーグラフを作成する。
次に,データ不足の問題を解決するために,外部知識グラフを用いて,細粒度なエンティティレベルのセマンティクスを考慮した知識ベースのハイパーグラフを構築する。
さらに,この2種類のハイパーグラフについて多面的ハイパーグラフ畳み込みを行い,その拡張表現を用いて興味をそそるcrsを開発した。
ReDialとTG-ReDialの2つのベンチマークによる大規模な実験により,提案手法の有効性が示唆された。
コードは、https://github.com/RUCAIBox/MHIM.comで入手できる。 Conversational recommender system (CRS) interacts with users through multi-turn dialogues in natural language, which aims to provide high-quality recommendations for user's instant information need. Although great efforts have been made to develop effective CRS, most of them still focus on the contextual information from the current dialogue, usually suffering from the data scarcity issue. Therefore, we consider leveraging historical dialogue data to enrich the limited contexts of the current dialogue session. In this paper, we propose a novel multi-grained hypergraph interest modeling approach to capture user interest beneath intricate historical data from different perspectives. As the core idea, we employ hypergraph to represent complicated semantic relations underlying historical dialogues. In our approach, we first employ the hypergraph structure to model users' historical dialogue sessions and form a session-based hypergraph, which captures coarse-grained, session-level relations. Second, to alleviate the issue of data scarcity, we use an external knowledge graph and construct a knowledge-based hypergraph considering fine-grained, entity-level semantics. We further conduct multi-grained hypergraph convolution on the two kinds of hypergraphs, and utilize the enhanced representations to develop interest-aware CRS. Extensive experiments on two benchmarks ReDial and TG-ReDial validate the effectiveness of our approach on both recommendation and conversation tasks. Code is available at: https://github.com/RUCAIBox/MHIM. | 翻訳日:2023-05-09 13:52:54 公開日:2023-05-04 |
# テキスト型感情認識レコメンダシステムにおける感情対策の適用 The Application of Affective Measures in Text-based Emotion Aware Recommender Systems ( http://arxiv.org/abs/2305.04796v1 ) ライセンス: Link先を確認 | John Kalung Leung, Igor Griva, William G. Kennedy, Jason M. Kinser, Sohyun Park, and Seo Young Lee | (参考訳) 本稿では、研究者がEmotion Aware Recommender Systems (EARS)で直面している問題に対処する革新的なアプローチを提案する。
十分な品質の感情タグ付きデータセットがなければ、ユーザの感情嗜好に基づいてパーソナライズされたレコメンデーションを生成する、繰り返し可能な感情コンピューティング研究をEARSで実施することはできない。
同様に、ユーザの感情データプライバシを完全に保護できない場合、EARSサービスへの関与に抵抗する可能性がある。
本稿では,Affective Index と Affective Index Indicator (AII) をベースとした生成事前学習型トランスフォーマ技術を用いて,主観的通路の感情特徴を検出する手法を提案する。
ユーザが感情的特徴検出メカニズムを構築する必要性を排除します。
本稿では,EARSサービスプロバイダが保持や保管を控える一方で,ユーザの感情プロファイルデータを保護する責任の分離を提唱する。
サービスプロバイダは、プライバシデータを保存することなく、ユーザのAffective Indicesをメモリに更新することができ、ユーザのプライバシを損なうことなくAffective Awareレコメンデーションを提供する。
本稿では,感情の主観性と変動性,データプライバシに関する懸念,評価指標とベンチマークに対する解決策を提供し,今後の耳研究への道を開く。 This paper presents an innovative approach to address the problems researchers face in Emotion Aware Recommender Systems (EARS): the difficulty and cumbersome collecting voluminously good quality emotion-tagged datasets and an effective way to protect users' emotional data privacy. Without enough good-quality emotion-tagged datasets, researchers cannot conduct repeatable affective computing research in EARS that generates personalized recommendations based on users' emotional preferences. Similarly, if we fail to fully protect users' emotional data privacy, users could resist engaging with EARS services. This paper introduced a method that detects affective features in subjective passages using the Generative Pre-trained Transformer Technology, forming the basis of the Affective Index and Affective Index Indicator (AII). Eliminate the need for users to build an affective feature detection mechanism. The paper advocates for a separation of responsibility approach where users protect their emotional profile data while EARS service providers refrain from retaining or storing it. Service providers can update users' Affective Indices in memory without saving their privacy data, providing Affective Aware recommendations without compromising user privacy. This paper offers a solution to the subjectivity and variability of emotions, data privacy concerns, and evaluation metrics and benchmarks, paving the way for future EARS research. | 翻訳日:2023-05-09 13:51:45 公開日:2023-05-04 |
# ビジュアルリッチドキュメントのためのテーブル検出データセットの再検討 Revisiting Table Detection Datasets for Visually Rich Documents ( http://arxiv.org/abs/2305.04833v1 ) ライセンス: Link先を確認 | Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir | (参考訳) テーブル検出は,電子文書の増加に伴い,視覚的にリッチな文書理解の基本的な課題となっている。
多くの研究で広く使われているオープンデータセットがある。
しかし、一般的なデータセットには、ノイズと一貫性のないサンプル、トレーニングサンプルのリミット数、データソースのリミット数など、固有の制限がある。
これらの制限により、これらのデータセットはモデル性能の評価に信頼性がなく、実際のモデルのキャパシティを反映できない。
そこで本稿では,アノテーションの質の高いオープンデータセットを再検討し,ノイズの識別とクリーン化を行い,これらのデータセットのアノテーション定義をOpen-Tablesと呼ばれるより大きなデータセットにマージする。
さらに、データソースを充実させるために、オープンデータセットにはほとんど現れないユニークなサンプルを含む異なるドメインである情報通信技術(ict)商品のpdfファイルを用いて、ict-tdと呼ばれる新しいデータセットを提案する。
データセットのラベル品質を保証するため、ドメインエキスパートのガイダンスに従ってデータセットを手動で注釈付けしました。
提案するデータセットは、より大きな内部分散とより小さな相互分散を持ち、より困難であり、ビジネスコンテキストにおける実際のケースのサンプルとなる。
さまざまな最先端オブジェクト検出モデルを用いて強力なベースラインを構築し、クロスドメイン設定でベースラインを構築しました。
実験の結果,既存のオープンデータセット間の領域差は小さく,データソースも異なることがわかった。
提案するオープンテーブルとICT-TDはクロスドメイン設定に適しており,高品質で一貫したアノテーションにより,モデルに対する信頼性の高い評価を行うことができる。 Table Detection has become a fundamental task for visually rich document understanding with the surging number of electronic documents. There have been some open datasets widely used in many studies. However, popular available datasets have some inherent limitations, including the noisy and inconsistent samples, and the limit number of training samples, and the limit number of data-sources. These limitations make these datasets unreliable to evaluate the model performance and cannot reflect the actual capacity of models. Therefore, in this paper, we revisit some open datasets with high quality of annotations, identify and clean the noise, and align the annotation definitions of these datasets to merge a larger dataset, termed with Open-Tables. Moreover, to enrich the data sources, we propose a new dataset, termed with ICT-TD, using the PDF files of Information and communication technologies (ICT) commodities which is a different domain containing unique samples that hardly appear in open datasets. To ensure the label quality of the dataset, we annotated the dataset manually following the guidance of a domain expert. The proposed dataset has a larger intra-variance and smaller inter-variance, making it more challenging and can be a sample of actual cases in the business context. We built strong baselines using various state-of-the-art object detection models and also built the baselines in the cross-domain setting. Our experimental results show that the domain difference among existing open datasets are small, even they have different data-sources. Our proposed Open-tables and ICT-TD are more suitable for the cross domain setting, and can provide more reliable evaluation for model because of their high quality and consistent annotations. | 翻訳日:2023-05-09 13:42:04 公開日:2023-05-04 |
# 深層学習モデルに基づくファジィ遺伝子選択と癌分類 Fuzzy Gene Selection and Cancer Classification Based on Deep Learning Model ( http://arxiv.org/abs/2305.04883v1 ) ライセンス: Link先を確認 | Mahmood Khalsan, Mu Mu, Eman Salih Al-Shamery, Lee Machado, Suraj Ajit, Michael Opoku Agyeman | (参考訳) 機械学習(ML)アプローチは、バイオメディカルサイエンスを含む多くの分野において、高精度で効率的な応用を開発するために使われてきた。
しかし、高度なML手法であっても、採用したデータセットの高次元性のため、遺伝子発現データを用いたがん分類は複雑である。
我々は,癌分類の容易化と,利用可能な遺伝子発現データの次元性を低減するために,新しいファジィ遺伝子選択法(FGS)を開発した。
3つの特徴選択法(Mutual Information,F-ClassIf,Chi-squared)を評価し,各遺伝子に対するスコアとランクを得た。
次に、ファジフィケーション法とデファジフィケーション法を用いて、重要な遺伝子の同定を支援する各遺伝子に最適なスコアを得る。
本研究は4つのマイクロアレイと2つのrna-seqデータセットを含む6つの遺伝子発現データセットにファジィ測度を適用し,提案アルゴリズムを評価した。
fgs-enhanced法により,標準mlp法では精度,精度,リコール,f1-scoreのそれぞれ96.5%,96.2%,96%,95.9%となり,69.2%の精度,57.8%の精度,66%のリコール,58.2%のf1-scoreが得られた。
得られた6つのデータセットを調べることで、提案モデルはがんを効果的に分類する能力を示す。 Machine learning (ML) approaches have been used to develop highly accurate and efficient applications in many fields including bio-medical science. However, even with advanced ML techniques, cancer classification using gene expression data is still complicated because of the high dimensionality of the datasets employed. We developed a new fuzzy gene selection technique (FGS) to identify informative genes to facilitate cancer classification and reduce the dimensionality of the available gene expression data. Three feature selection methods (Mutual Information, F-ClassIf, and Chi-squared) were evaluated and employed to obtain the score and rank for each gene. Then, using Fuzzification and Defuzzification methods to obtain the best single score for each gene, which aids in the identification of significant genes. Our study applied the fuzzy measures to six gene expression datasets including four Microarray and two RNA-seq datasets for evaluating the proposed algorithm. With our FGS-enhanced method, the cancer classification model achieved 96.5%,96.2%,96%, and 95.9% for accuracy, precision, recall, and f1-score respectively, which is significantly higher than 69.2% accuracy, 57.8% precision, 66% recall, and 58.2% f1-score when the standard MLP method was used. In examining the six datasets that were used, the proposed model demonstrates it's capacity to classify cancer effectively. | 翻訳日:2023-05-09 13:33:57 公開日:2023-05-04 |
# 全身移動操作のための因果政策勾配 Causal Policy Gradient for Whole-Body Mobile Manipulation ( http://arxiv.org/abs/2305.04866v1 ) ライセンス: Link先を確認 | Jiaheng Hu, Peter Stone, Roberto Mart\'in-Mart\'in | (参考訳) 次世代の家庭用ロボットヘルパーの開発には、移動操作(MoMa)と呼ばれる移動運動と相互作用機能を組み合わせる必要がある。
MoMaタスクは、ロボットの大きな動作空間と、タスクの共通の多目的性(例えば、障害物を避けながら効率的にゴールに達すること)のため、難しい。
現在のアプローチでは、動作空間の一部をMoMaサブオブジェクト(例えば、移動目的のためのベースアクションと操作のためのアームアクション)に手動でマッチングすることで、操作なしでタスクをナビゲーションに分離する。
このソリューションは、移動と相互作用の自由度の同時組み合わせを防止し、アクション空間を分割し、アクション部分をサブオブジェクトに合わせるために、人間のドメイン知識を必要とする。
本稿では,ロボットの動作空間の最も好ましい部分空間を利用して各サブオブジェクトに対処する,典型的なMoMaタスクに対するポリシーをトレーニングする新しいフレームワークであるCausal MoMaを紹介する。
因果モマは、アクションと報酬関数の項の間の因果依存性を自動的に発見し、これらの依存関係を因果ポリシー学習手順で活用し、以前の最先端ポリシー勾配アルゴリズムと比較して勾配分散を減少させ、収束と結果を改善する。
各種のMoMaタスクにまたがる3種類の模擬ロボットにおけるCausal MoMaの性能評価を行い、シミュレーションで訓練されたポリシーを直接実際のロボットに転送し、エージェントは移動目標に従って動的障害物に反応し、同時にベース、アーム、ヘッドを相乗的に制御できることを示す。
詳細はhttps://sites.google.com/view/causal-momaを参照。 Developing the next generation of household robot helpers requires combining locomotion and interaction capabilities, which is generally referred to as mobile manipulation (MoMa). MoMa tasks are difficult due to the large action space of the robot and the common multi-objective nature of the task, e.g., efficiently reaching a goal while avoiding obstacles. Current approaches often segregate tasks into navigation without manipulation and stationary manipulation without locomotion by manually matching parts of the action space to MoMa sub-objectives (e.g. base actions for locomotion objectives and arm actions for manipulation). This solution prevents simultaneous combinations of locomotion and interaction degrees of freedom and requires human domain knowledge for both partitioning the action space and matching the action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a new framework to train policies for typical MoMa tasks that makes use of the most favorable subspace of the robot's action space to address each sub-objective. Causal MoMa automatically discovers the causal dependencies between actions and terms of the reward function and exploits these dependencies in a causal policy learning procedure that reduces gradient variance compared to previous state-of-the-art policy gradient algorithms, improving convergence and results. We evaluate the performance of Causal MoMa on three types of simulated robots across different MoMa tasks and demonstrate success in transferring the policies trained in simulation directly to a real robot, where our agent is able to follow moving goals and react to dynamic obstacles while simultaneously and synergistically controlling the whole-body: base, arm, and head. More information at https://sites.google.com/view/causal-moma. | 翻訳日:2023-05-09 13:32:12 公開日:2023-05-04 |
# 説明可能な人工知能のハードウェアアクセラレーション Hardware Acceleration of Explainable Artificial Intelligence ( http://arxiv.org/abs/2305.04887v1 ) ライセンス: Link先を確認 | Zhixin Pan and Prabhat Mishra | (参考訳) 機械学習(ML)は、さまざまな分野における人間レベルの人工知能の実現に成功している。
しかし、ブラックボックスの性質から結果を説明する能力が欠けている。
説明可能なAI(XAI)に関する最近の取り組みは注目されているが、既存のソリューションのほとんどは最適化問題として解釈可能性にマップされているため、リアルタイムシステムでは適用できない。
XAIには既存のハードウェアベースのアクセラレーションフレームワークがあるが、FPGAを通じて実装され、特定のタスク用に設計されているため、コストがかかり柔軟性が欠如している。
本稿では,既存のハードウェアアクセラレータを用いて様々なxaiアルゴリズムを高速化する簡易かつ効率的なフレームワークを提案する。
特に,本稿では3つの重要な貢献を行う。
1)提案手法は,XAIを高速化するためのテンソルプロセッシングユニット(TPU)の有効性を探究する最初の試みである。
2)提案手法は,行列計算と既存のXAIアルゴリズムの密接な関係を探索し,行列計算の高速化においてTPU固有の能力をフル活用する畳み込みとフーリエ変換の相乗効果を利用する。
3) 提案手法は, 実時間結果解釈につながる可能性がある。
TPUに展開する提案手法は、既存の加速技術と比較して、解釈時間(平均39倍)とエネルギー効率(平均69倍)を大幅に改善できることを示す。 Machine learning (ML) is successful in achieving human-level artificial intelligence in various fields. However, it lacks the ability to explain an outcome due to its black-box nature. While recent efforts on explainable AI (XAI) has received significant attention, most of the existing solutions are not applicable in real-time systems since they map interpretability as an optimization problem, which leads to numerous iterations of time-consuming complex computations. Although there are existing hardware-based acceleration framework for XAI, they are implemented through FPGA and designed for specific tasks, leading to expensive cost and lack of flexibility. In this paper, we propose a simple yet efficient framework to accelerate various XAI algorithms with existing hardware accelerators. Specifically, this paper makes three important contributions. (1) The proposed method is the first attempt in exploring the effectiveness of Tensor Processing Unit (TPU) to accelerate XAI. (2) Our proposed solution explores the close relationship between several existing XAI algorithms with matrix computations, and exploits the synergy between convolution and Fourier transform, which takes full advantage of TPU's inherent ability in accelerating matrix computations. (3) Our proposed approach can lead to real-time outcome interpretation. Extensive experimental evaluation demonstrates that proposed approach deployed on TPU can provide drastic improvement in interpretation time (39x on average) as well as energy efficiency (69x on average) compared to existing acceleration techniques. | 翻訳日:2023-05-09 13:20:41 公開日:2023-05-04 |
# ニューラルタンジェントカーネルフレームワークにおける量子強化ニューラルネットワーク Quantum-enhanced neural networks in the neural tangent kernel framework ( http://arxiv.org/abs/2109.03786v2 ) ライセンス: Link先を確認 | Kouhei Nakaji, Hiroyuki Tezuka, Naoki Yamamoto | (参考訳) 近年、従来の古典的ニューラルネットワーク(cnn)の代替として量子ニューラルネットワークや量子古典的ニューラルネットワーク(qcnn)が積極的に研究されているが、その実用的かつ理論的に保証された性能はまだ検討されていない。
対照的に、cNN、特に深部cNNは、いくつかの堅固な理論的基礎を得た。その基盤の1つは、cNNの様々な望ましい性質、特に訓練過程におけるグローバル収束のメカニズムをうまく説明できる神経タンジェントカーネル(NTK)理論である。
本稿では,量子データエンコーダとcNNを組み合わせたqcNNのクラスについて検討する。
量子部分は、量子状態の効果的な特徴抽出プロセスであるユニタリ2-設計に従ってランダムに初期化され、古典的部分はガウス分布に従ってランダムに初期化され、次に、cNNのノード数が無限に大きくなるNTK状態において、qcNN全体の出力は、いわゆる射影量子カーネルの非線形関数となる。
つまり、ntk理論は、一般的に設計に非自明な効果的な量子カーネルを構築するために用いられる。
さらに、qcNNで定義されたNTKはガウス過程の共分散行列と同一であり、学習過程を解析的に研究することができ、その結果、qcNNが古典的プロセスよりも優れた性能を発揮するようなデータセットの状態が得られる。
これらの特性は徹底的な数値実験で研究され、特に量子データ生成過程の学習において、qcNNが完全古典的NNやqNNよりも明確な優位性を示すことを示す。 Recently, quantum neural networks or quantum-classical neural networks (qcNN) have been actively studied, as a possible alternative to the conventional classical neural network (cNN), but their practical and theoretically-guaranteed performance is still to be investigated. In contrast, cNNs and especially deep cNNs, have acquired several solid theoretical basis; one of those basis is the neural tangent kernel (NTK) theory, which can successfully explain the mechanism of various desirable properties of cNNs, particularly the global convergence in the training process. In this paper, we study a class of qcNN composed of a quantum data-encoder followed by a cNN. The quantum part is randomly initialized according to unitary 2-designs, which is an effective feature extraction process for quantum states, and the classical part is also randomly initialized according to Gaussian distributions; then, in the NTK regime where the number of nodes of the cNN becomes infinitely large, the output of the entire qcNN becomes a nonlinear function of the so-called projected quantum kernel. That is, the NTK theory is used to construct an effective quantum kernel, which is in general nontrivial to design. Moreover, NTK defined for the qcNN is identical to the covariance matrix of a Gaussian process, which allows us to analytically study the learning process and as a consequence to have a condition of the dataset such that qcNN may perform better than classical counterparts. These properties are investigated in thorough numerical experiments; particularly, we demonstrate that the qcNN shows a clear advantage over fully classical NNs and qNNs for the problem of learning the quantum data-generating process. | 翻訳日:2023-05-08 18:09:43 公開日:2023-05-04 |
# AVATAR: Java-Pythonプログラム翻訳のための並列コーパス AVATAR: A Parallel Corpus for Java-Python Program Translation ( http://arxiv.org/abs/2108.11590v2 ) ライセンス: Link先を確認 | Wasi Uddin Ahmad, Md Golam Rahman Tushar, Saikat Chakraborty, Kai-Wei Chang | (参考訳) プログラム翻訳とは、あるプログラミング言語から別のプログラミング言語へソースコードを移行することを指す。
言語にまたがるソフトウェアの移植には時間がかかり、コストがかかるため、ソフトウェア開発には非常に実用的価値があります。
プログラム翻訳の自動化はソフトウェア移行において最重要であり、近年の研究者らは並列コーパスが利用できないために教師なしアプローチを探求している。
しかし、プログラム言語のための事前訓練された言語モデルの可用性は、少数のラベル付き例で教師付き微調整を可能にする。
そこで我々は,9,515のプログラミング問題とその解決法をJavaとPythonの2言語で記述したAVATARを提案する。
AVATARは競合するプログラミングサイト、オンラインプラットフォーム、オープンソースリポジトリから収集される。
さらに、AVATARは機能的正当性評価を容易にするために250例の単体テストを含む。
AVATARで微調整されたいくつかの事前学習言語モデルをベンチマークする。
実験結果から, モデルには機能的正確なコード生成が欠如していることが判明した。 Program translation refers to migrating source code from one programming language to another. It has tremendous practical value in software development, as porting software across languages is time-consuming and costly. Automating program translation is of paramount importance in software migration, and recently researchers explored unsupervised approaches due to the unavailability of parallel corpora. However, the availability of pre-trained language models for programming languages enables supervised fine-tuning with a small number of labeled examples. Therefore, we present AVATAR, a collection of 9,515 programming problems and their solutions written in two popular languages, Java and Python. AVATAR is collected from competitive programming sites, online platforms, and open-source repositories. Furthermore, AVATAR includes unit tests for 250 examples to facilitate functional correctness evaluation. We benchmark several pre-trained language models fine-tuned on AVATAR. Experiment results show that the models lack in generating functionally accurate code. | 翻訳日:2023-05-08 18:09:14 公開日:2023-05-04 |
# スピン量子ビットのスケーラブルベースバンド読み出しのための高出力スウィング付きセンシングドット Sensing dot with high output swing for scalable baseband readout of spin qubits ( http://arxiv.org/abs/2107.13598v2 ) ライセンス: Link先を確認 | Eugen Kammerloher, Andreas Schmidbauer, Laura Diebel, Inga Seidler, Malte Neul, Matthias K\"unne, Arne Ludwig, Julian Ritzmann, Andreas Wieck, Dominique Bougeard, Lars R. Schreiber, Hendrik Bluhm | (参考訳) 量子コンピューティング、特にスケーラブルな量子コンピューティングと誤り訂正のための重要な要件は、高速で高忠実な量子ビット読み出しである。
半導体ベースの量子ビットの場合、局所低電力信号増幅の1つの制限因子は電荷センサの出力スイングである。
我々は、従来の電荷検出ドットと比較して、応答を著しく改善するために特別に設計されたGaAsおよびSi/SiGe非対称センシングドット(ASD)を実証する。
asdの設計は、センサードットから強く分離された排水貯留層を特徴とし、従来のセンサーに見られる負のフィードバック効果を緩和する。
これにより出力スイングが3ドル,\text{mV}$となり、従来の端末の応答を10倍以上上回る結果となった。
拡張出力信号は、qubitに近接して非常に低電力の読み出し増幅器を使用する方法である。 A crucial requirement for quantum computing, in particular for scalable quantum computing and error correction, is a fast and high-fidelity qubit readout. For semiconductor based qubits, one limiting factor for local low-power signal amplification, is the output swing of the charge sensor. We demonstrate GaAs and Si/SiGe asymmetric sensing dots (ASDs) specifically designed to provide a significantly improved response compared to conventional charge sensing dots. Our ASD design features a strongly decoupled drain reservoir from the sensor dot, which mitigates negative feedback effects found in conventional sensors. This results in a boosted output swing of $3\,\text{mV}$, which exceeds the response in the conventional regime of our device by more than ten times. The enhanced output signal paves the way for employing very low-power readout amplifiers in close proximity to the qubit. | 翻訳日:2023-05-08 18:08:31 公開日:2023-05-04 |
# 識別特徴を用いた下流分類における自己監督表現品質の測定 Measuring Self-Supervised Representation Quality for Downstream Classification using Discriminative Features ( http://arxiv.org/abs/2203.01881v4 ) ライセンス: Link先を確認 | Neha Kalibhat, Kanika Narang, Hamed Firooz, Maziar Sanjabi, Soheil Feizi | (参考訳) 自己教師付き学習は下流の分類タスクにおいて顕著な結果を示した。
しかし、失敗モードを理解し、学習した表現を解釈する作業は限られている。
本稿では,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討する。
クラスラベル情報を使わずに、画像のユニークな物理的属性に対応する識別的特徴を発見し、主に正しく分類された表現に現れる。
これらの特徴を用いることで、表現空間を最大$40\%$で圧縮でき、線形分類性能に大きな影響を与えない。
次に,画像Net-100で91.45、ImageNet-1Kで78.78のAUPRCを達成し,線形評価中に標本が誤分類される可能性を確実に予測できる,モデルに依存しない教師なしスコアであるセルフスーパービジョン表現品質スコア(あるいはQスコア)を提案する。
q-scoreは、事前訓練された任意の自己教師付きモデルにおける正規化項としても使用でき、低品質表現を修正できる。
Qスコア正規化による微調整により、最先端のセルフ教師付きモデルの線形分類性能はImageNet-100では5.8%、ImageNet-1Kでは3.7%向上する。
最後に、勾配ヒートマップとsaient imagenetマスクを用いて、各表現の解釈可能性の定量化のためのメトリックを定義する。
識別的特徴はコア属性と強く相関し,Qスコア正規化による特徴の強化により,全ての自己教師付きモデルにおいて表現をより解釈可能であることを示す。 Self-supervised learning has shown impressive results in downstream classification tasks. However, there is limited work in understanding their failure modes and interpreting their learned representations. In this paper, we study the representation space of state-of-the-art self-supervised models including SimCLR, SwaV, MoCo, BYOL, DINO, SimSiam, VICReg and Barlow Twins. Without the use of class label information, we discover discriminative features that correspond to unique physical attributes in images, present mostly in correctly-classified representations. Using these features, we can compress the representation space by up to $40\%$ without significantly affecting linear classification performance. We then propose Self-Supervised Representation Quality Score (or Q-Score), a model-agnostic, unsupervised score that can reliably predict if a given sample is likely to be mis-classified during linear evaluation, achieving AUPRC of 91.45 on ImageNet-100 and 78.78 on ImageNet-1K. Q-Score can also be used as a regularization term on any pre-trained self-supervised model to remedy low-quality representations. Fine-tuning with Q-Score regularization can boost the linear classification performance of state-of-the-art self-supervised models by up to 5.8% on ImageNet-100 and 3.7% on ImageNet-1K compared to their baselines. Finally, using gradient heatmaps and Salient ImageNet masks, we define a metric to quantify the interpretability of each representation. We show that discriminative features are strongly correlated to core attributes and enhancing these features through Q-score regularization makes representations more interpretable across all self-supervised models. | 翻訳日:2023-05-08 18:00:38 公開日:2023-05-04 |
# GANによる顔検出:調査と新たな展望 GAN-generated Faces Detection: A Survey and New Perspectives ( http://arxiv.org/abs/2202.07145v5 ) ライセンス: Link先を確認 | Xin Wang, Hui Guo, Shu Hu, Ming-Ching Chang, Siwei Lyu | (参考訳) generative adversarial networks (gan) は、偽のソーシャルメディアアカウントやその他の偽情報に使われ、重大な影響をもたらすような、非常に現実的な顔画像の生成につながった。
したがって、対応するGAN顔検出技術は、そのような偽の顔を調べ、露出させることのできる活発な開発が進められている。
本稿では,gan顔検出の最近の進歩を総合的に検討することを目的とする。
我々は、GANモデルから生成または合成された顔画像を検出する方法に焦点を当てる。
既存の検出作業は,(1)深層学習に基づく,(2)物理に基づく,(3)生理的手法,(4)人間の視覚性能に対する評価と比較の4つのカテゴリに分類した。
各カテゴリについて、キーとなるアイデアをまとめ、メソッドの実装と結びつけます。
オープンな問題も議論し、今後の研究方向性を提案する。 Generative Adversarial Networks (GAN) have led to the generation of very realistic face images, which have been used in fake social media accounts and other disinformation matters that can generate profound impacts. Therefore, the corresponding GAN-face detection techniques are under active development that can examine and expose such fake faces. In this work, we aim to provide a comprehensive review of recent progress in GAN-face detection. We focus on methods that can detect face images that are generated or synthesized from GAN models. We classify the existing detection works into four categories: (1) deep learning-based, (2) physical-based, (3) physiological-based methods, and (4) evaluation and comparison against human visual performance. For each category, we summarize the key ideas and connect them with method implementations. We also discuss open problems and suggest future research directions. | 翻訳日:2023-05-08 18:00:06 公開日:2023-05-04 |
# Face2PPG:顔からの血流パルス抽出のための教師なしパイプライン Face2PPG: An unsupervised pipeline for blood volume pulse extraction from faces ( http://arxiv.org/abs/2202.04101v3 ) ライセンス: Link先を確認 | Constantino \'Alvarez Casado and Miguel Bordallo L\'opez | (参考訳) 光胸腺造影(PPG)信号は、医学、幸福、スポーツなど、多くの分野で重要な技術となっている。
本研究は,顔から遠隔PSG信号(rPPG)を安定かつ確実に抽出し,構成可能なパイプラインを提案する。
我々は,教師なしrppg方法論のクリティカルステップにおける選択可能性を特定し,評価する。
我々は、6つの異なるデータセットで最先端の処理パイプラインを評価し、再現性と公正な比較を保証する方法論に重要な修正を取り入れた。
さらに、我々は3つの新しいアイデアを提案してパイプラインを拡張します。
1) 剛性メッシュの正規化に基づく検出面の安定化方法
2)最適な生信号を提供する顔の異なる領域を動的に選択する新しい方法。
3)新しいRGBからrPPGへの変換手法であるOrthogonal Matrix Image Transformation (OMIT) はQR分解をベースとして圧縮アーチファクトに対する堅牢性を高める。
これら3つの変化は, 顔からrPPG信号を抽出し, 教師なし, 非学習ベースの手法と比較して, 最先端の結果を得るとともに, 教師なし, 学習ベースの手法に非常に近いデータベースが存在することを示す。
提案した各アイデアの貢献を定量化する比較研究を行う。
さらに、将来の実装に役立つ一連の観察を描いている。 Photoplethysmography (PPG) signals have become a key technology in many fields, such as medicine, well-being, or sports. Our work proposes a set of pipelines to extract remote PPG signals (rPPG) from the face robustly, reliably, and configurable. We identify and evaluate the possible choices in the critical steps of unsupervised rPPG methodologies. We assess a state-of-the-art processing pipeline in six different datasets, incorporating important corrections in the methodology that ensure reproducible and fair comparisons. In addition, we extend the pipeline by proposing three novel ideas; 1) a new method to stabilize the detected face based on a rigid mesh normalization; 2) a new method to dynamically select the different regions in the face that provide the best raw signals, and 3) a new RGB to rPPG transformation method, called Orthogonal Matrix Image Transformation (OMIT) based on QR decomposition, that increases robustness against compression artifacts. We show that all three changes introduce noticeable improvements in retrieving rPPG signals from faces, obtaining state-of-the-art results compared with unsupervised, non-learning-based methodologies and, in some databases, very close to supervised, learning-based methods. We perform a comparative study to quantify the contribution of each proposed idea. In addition, we depict a series of observations that could help in future implementations. | 翻訳日:2023-05-08 17:59:52 公開日:2023-05-04 |
# 航空機の符号化と合成のための幾何学的制約を伴うパラメトリック生成スキーム Parametric Generative Schemes with Geometric Constraints for Encoding and Synthesizing Airfoils ( http://arxiv.org/abs/2205.02458v2 ) ライセンス: Link先を確認 | Hairun Xie, Jing Wang and Miao Zhang | (参考訳) 現代の空気力学最適化は、従来の翼パラメトリック技術では達成できない、直感性、柔軟性、代表精度の高いパラメトリック手法を強く要求している。
本稿では,特定の制約を満たしながら設計空間の複雑さを効果的に捉えるために,2つの深層学習に基づく生成スキームを提案する。
1. ソフト制約スキーム: ネットワークの一部として幾何学的制約をトレーニングするための条件付き変分オートエンコーダ(CVAE)ベースのモデル。
2. ハード制約スキーム:多種多様な翼を生成するVAEモデルと、生成された翼を所定の制約に投射するFFD技術。
統計結果によると、再建された翼は、フィルターを追加せずに正確かつ滑らかである。
ソフト拘束スキームは、期待される幾何学的制約からわずかに逸脱するが、幾何空間と対象空間の両方において一定の分布バイアスを持つ基準翼に収束する翼を生成する。
対照的に、制約の厳しいスキームは、幾何学的制約に厳密に固執しつつ、より広い範囲の幾何学的多様性を持つ翼を生成する。
対象空間内の対応する分布もより多様であり、基準点周りの等方性は均一であり、有意なバイアスはない。
これらの提案手法は, 対象空間におけるトレーニングデータの境界を突破し, ランダムサンプリングのための高品質なサンプルを提供し, 最適化設計の効率を向上させる。 The modern aerodynamic optimization has a strong demand for parametric methods with high levels of intuitiveness, flexibility, and representative accuracy, which cannot be fully achieved through traditional airfoil parametric techniques. In this paper, two deep learning-based generative schemes are proposed to effectively capture the complexity of the design space while satisfying specific constraints. 1. Soft-constrained scheme: a Conditional Variational Autoencoder (CVAE)-based model to train geometric constraints as part of the network directly. 2. Hard-constrained scheme: a VAE-based model to generate diverse airfoils and an FFD-based technique to project the generated airfoils onto the given constraints. According to the statistical results, the reconstructed airfoils are both accurate and smooth, without any need for additional filters. The soft-constrained scheme generates airfoils that exhibit slight deviations from the expected geometric constraints, yet still converge to the reference airfoil in both geometry space and objective space with some degree of distribution bias. In contrast, the hard-constrained scheme produces airfoils with a wider range of geometric diversity while strictly adhering to the geometric constraints. The corresponding distribution in the objective space is also more diverse, with isotropic uniformity around the reference point and no significant bias. These proposed airfoil parametric methods can break through the boundaries of training data in the objective space, providing higher quality samples for random sampling and improving the efficiency of optimization design. | 翻訳日:2023-05-08 17:52:04 公開日:2023-05-04 |
# 本当にそうなの?
コンテンツ駆動型オーディオ・ビジュアルディープフェイクデータセットと時間的偽造ローカライズのためのマルチモーダル法 Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization ( http://arxiv.org/abs/2204.06228v2 ) ライセンス: Link先を確認 | Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat | (参考訳) 社会的影響が大きいため、ディープフェイク検出はコンピュータビジョンコミュニティで活発に注目を集めている。
ほとんどのディープフェイク検出方法は、コンテンツの意味をそのまま保ちながら、ビデオ全体やランダムな場所におけるアイデンティティ、顔の特徴、対向的摂動に基づく時空間的変化に依存している。
しかし、洗練されたディープフェイクは、コンテンツの意味が、例えば、感情の観点から完全に逆転できる、ビデオ/オーディオ操作の小さな部分のみを含むことができる。
本稿では,時間的偽造ローカライズを学習するタスクを明示的に設計した,コンテンツ駆動型音声ビジュアルディープフェイクデータセット「localized audio visual deepfake(lav-df)」を提案する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案するデータセットをベンチマークするためのベースライン手法は3dcnnモデルであり, コントラスト, 境界マッチング, フレーム分類損失関数を用いて, 境界認識時限偽造検出 (ba-tfd) と呼ばれる。
広域定量・定性解析により, 時間的偽造位置推定とディープフェイク検出タスクにおいて, 提案手法の強力な性能を示す。 Due to its high societal impact, deepfake detection is getting active attention in the computer vision community. Most deepfake detection methods rely on identity, facial attributes, and adversarial perturbation-based spatio-temporal modifications at the whole video or random locations while keeping the meaning of the content intact. However, a sophisticated deepfake may contain only a small segment of video/audio manipulation, through which the meaning of the content can be, for example, completely inverted from a sentiment perspective. We introduce a content-driven audio-visual deepfake dataset, termed Localized Audio Visual DeepFake (LAV-DF), explicitly designed for the task of learning temporal forgery localization. Specifically, the content-driven audio-visual manipulations are performed strategically to change the sentiment polarity of the whole video. Our baseline method for benchmarking the proposed dataset is a 3DCNN model, termed as Boundary Aware Temporal Forgery Detection (BA-TFD), which is guided via contrastive, boundary matching, and frame classification loss functions. Our extensive quantitative and qualitative analysis demonstrates the proposed method's strong performance for temporal forgery localization and deepfake detection tasks. | 翻訳日:2023-05-08 17:51:21 公開日:2023-05-04 |
# トラップ支援による原子イオン結合状態の観察 Observation of trap-assisted formation of atom-ion bound states ( http://arxiv.org/abs/2208.06904v3 ) ライセンス: Link先を確認 | Meirav Pinkas, Or Katz, Jonathan Wengrowicz, Nitzan Akerman, and Roee Ozeri | (参考訳) 自由粒子対は運動量とエネルギー保存のために弾性衝突で境界状態を形成することができない。
しかし、多くの超低温実験において、粒子は質量中心と相対運動を結合し、境界状態の形成を助ける外部トラップ電位の存在下で衝突する。
ここでは、線形ポールトラップの存在下で、1つの超低温の$^{87}$Rb原子と1つの閉じ込められた$^{88}$Sr$^+$イオンとの間に形成される弱い結合した分子状態の観察について報告する。
境界状態は二元衝突で効率的に形成でき、非弾性過程の速度を高めることができる。
電子スピン交換速度を観察することにより、衝突エネルギーと磁場に対するこれらの境界状態の依存性を調べ、平均分子結合エネルギー$E_{\textrm{bind}}=0.7(1)$mK$\cdot k_B$と分子の寿命$\tau=0.5(1)\,\mu$sを分子力学シミュレーションとよく一致して抽出する。
シミュレーションにより, 極端に長寿命な事象に支配される平均を持つ分子ライフタイムの非常に異常なパワーロー分布を予測した。
トラップパラメータに対する分子特性の依存性は、超低温衝突の研究と制御のために新しい道を開く。 Pairs of free particles cannot form bound states in elastic collision due to momentum and energy conservation. In many ultracold experiments, however, the particles collide in the presence of an external trapping potential which can couple the center-of-mass and relative motions and assist the formation of bound-states. Here, we report on observation of weakly bound molecular states formed between one ultracold $^{87}$Rb atom and a single trapped $^{88}$Sr$^+$ ion in the presence of a linear Paul trap. We show that bound states can form efficiently in binary collisions, and enhance the rate of inelastic processes. By observing electronic spin-exchange rate, we study the dependence of these bound states on the collision energy and magnetic field and extract the average molecular binding energy $E_{\textrm{bind}}=0.7(1)$ mK$\cdot k_B$ and the mean lifetime of the molecule $\tau=0.5(1)\,\mu$s, with good agreement with molecular-dynamics simulations. Our simulations predict a highly unusual power-law distribution of molecular lifetimes with a mean that is dominated by extreme, long-lived, events. The dependence of the molecular properties on the trapping parameters opens new avenues to study and control ultracold collisions. | 翻訳日:2023-05-08 17:41:46 公開日:2023-05-04 |
# mates2motion: 機械的なcad集合の仕組みを学ぶ Mates2Motion: Learning How Mechanical CAD Assemblies Work ( http://arxiv.org/abs/2208.01779v2 ) ライセンス: Link先を確認 | James Noeckel, Benjamin T. Jones, Karl Willis, Brian Curless, Adriana Schulz | (参考訳) 本稿では,CAD表現の深層学習を用いて,機械組立体における交配部分間の自由度を推定する作業について述べる。
我々はCAD部品と仲間からなる実世界の機械集合の大規模なデータセットを用いてモデルを訓練する。
我々は, 集合体の運動をよりよく反映し, 運動軸を狭めるために, これらの配偶子を再定義する手法を提案する。
また,より信頼性の高いラベル付きモーションアノテートテストセットを作成するためのユーザスタディも実施する。 We describe our work on inferring the degrees of freedom between mated parts in mechanical assemblies using deep learning on CAD representations. We train our model using a large dataset of real-world mechanical assemblies consisting of CAD parts and mates joining them together. We present methods for re-defining these mates to make them better reflect the motion of the assembly, as well as narrowing down the possible axes of motion. We also conduct a user study to create a motion-annotated test set with more reliable labels. | 翻訳日:2023-05-08 17:41:22 公開日:2023-05-04 |
# 超音波による甲状腺結節分類のための深層学習:独立データセットによる検証 Deep Learning for Classification of Thyroid Nodules on Ultrasound: Validation on an Independent Dataset ( http://arxiv.org/abs/2207.13765v2 ) ライセンス: Link先を確認 | Jingxi Weng, Benjamin Wildman-Tobriner, Mateusz Buda, Jichen Yang, Lisa M. Ho, Brian C. Allen, Wendy L. Ehieli, Chad M. Miller, Jikai Zhang and Maciej A. Mazurowski | (参考訳) 目的:新しい甲状腺結節超音波画像データセットに以前に検証されたディープラーニングアルゴリズムを適用し、その性能を放射線科医と比較すること。
方法: 先行研究は, 甲状腺結節を検出し, 2つの超音波画像を用いて悪性度分類を行うアルゴリズムを提示した。
マルチタスク深部畳み込みニューラルネットワークは1278ノジュールから訓練され、元々99個のノジュールで試験された。
結果は放射線科医と同等であった。
このアルゴリズムは、異なるメーカーや製品タイプから超音波装置で撮影された378個の結節でさらにテストされた。
4名の放射線科医に, 深層学習と比較して結節の評価を依頼した。
結果: 深層学習アルゴリズムの曲線下領域 (auc) と4人の放射線科医をパラメトリック・バイノーマル推定により算出した。
ディープラーニングアルゴリズムでは、AUCは0.69(95% CI: 0.640.75)であった。
AUC は 0.63 (95% CI: 0.59 - 0.67), 0.66 (95% CI: 0.0.61 - 0.71), 0.65 (95% CI: 0.60 - 0.70), 0.63 (95% CI: 0.58 - 0.67) である。
結論: 新たなテストデータセットでは、ディープラーニングアルゴリズムが4人の放射線科医すべてで同様のパフォーマンスを達成した。
アルゴリズムと放射線科医の相対的性能差は超音波スキャナの差にはあまり影響しない。 Objectives: The purpose is to apply a previously validated deep learning algorithm to a new thyroid nodule ultrasound image dataset and compare its performances with radiologists. Methods: Prior study presented an algorithm which is able to detect thyroid nodules and then make malignancy classifications with two ultrasound images. A multi-task deep convolutional neural network was trained from 1278 nodules and originally tested with 99 separate nodules. The results were comparable with that of radiologists. The algorithm was further tested with 378 nodules imaged with ultrasound machines from different manufacturers and product types than the training cases. Four experienced radiologists were requested to evaluate the nodules for comparison with deep learning. Results: The Area Under Curve (AUC) of the deep learning algorithm and four radiologists were calculated with parametric, binormal estimation. For the deep learning algorithm, the AUC was 0.69 (95% CI: 0.64 - 0.75). The AUC of radiologists were 0.63 (95% CI: 0.59 - 0.67), 0.66 (95% CI:0.61 - 0.71), 0.65 (95% CI: 0.60 - 0.70), and 0.63 (95%CI: 0.58 - 0.67). Conclusion: In the new testing dataset, the deep learning algorithm achieved similar performances with all four radiologists. The relative performance difference between the algorithm and the radiologists is not significantly affected by the difference of ultrasound scanner. | 翻訳日:2023-05-08 17:41:12 公開日:2023-05-04 |
# BigIssue: 現実的なバグローカライゼーションベンチマーク BigIssue: A Realistic Bug Localization Benchmark ( http://arxiv.org/abs/2207.10739v2 ) ライセンス: Link先を確認 | Paul Kassianik, Erik Nijkamp, Bo Pang, Yingbo Zhou, Caiming Xiong | (参考訳) 機械学習がより良いコードを書くのにどのように役立つのか?
GPT-3やBertといったモデルによる自然言語処理の進歩により、自然言語処理技術のコードへの応用が検討され始めている。
研究の大半は自動プログラム修復(APR)に焦点を当てており、合成または高度にフィルタリングされたデータセットの結果は有望であるが、そのようなモデルはバグのローカライゼーションが不十分なために現実のシナリオに適用することは困難である。
現実的なバグローカライゼーションのためのベンチマークであるBigIssueを提案する。
ベンチマークの目標は2倍です。
1) 実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークと,(2) 完全なリポジトリコンテキストに注目してモデルのバグローカライズ機能を改善するモチベーションを提供する。
BigIssueの導入によって、バグローカライゼーションの最先端化が進み、APRのパフォーマンスを改善し、モダンな開発サイクルへの適用性を高めたいと考えています。 As machine learning tools progress, the inevitable question arises: How can machine learning help us write better code? With significant progress being achieved in natural language processing with models like GPT-3 and Bert, the applications of natural language processing techniques to code are starting to be explored. Most of the research has been focused on automatic program repair (APR), and while the results on synthetic or highly filtered datasets are promising, such models are hard to apply in real-world scenarios because of inadequate bug localization. We propose BigIssue: a benchmark for realistic bug localization. The goal of the benchmark is two-fold. We provide (1) a general benchmark with a diversity of real and synthetic Java bugs and (2) a motivation to improve bug localization capabilities of models through attention to the full repository context. With the introduction of BigIssue, we hope to advance the state of the art in bug localization, in turn improving APR performance and increasing its applicability to the modern development cycle. | 翻訳日:2023-05-08 17:40:51 公開日:2023-05-04 |
# 電子自己反発の除去 Eliminating Electron Self-Repulsion ( http://arxiv.org/abs/2206.09472v2 ) ライセンス: Link先を確認 | Charles T. Sebens | (参考訳) 自己相互作用の問題は古典場理論と量子場理論の両方で生じる。
このような問題をディラックと電磁場(量子電磁力学)の量子論でどのように扱うべきかを理解するために、これらの場の古典理論を分析することから始めることができる。
このような古典的場の理論では、電子は電荷の拡散分布を持ち、自己相互作用の対向する点電荷モデルの問題を回避する。
しかし、電子が自己反発を経験する問題は残されている。
この自己反発は古典的場の理論において、異なる粒子間のクーロン相互作用も失わずに排除できない。
しかし、電子自己反発は、ハミルトニアンにおけるクーロン項を完全に正規化することでクーロンゲージの量子電気力学から排除することができる。
通常の順序付けの後、クーロン項は、異なる粒子間の引力と反発を記述する部分と、粒子の生成と消滅を記述する部分を含むが、自己反発を表す部分は存在しない。 Problems of self-interaction arise in both classical and quantum field theories. To understand how such problems are to be addressed in a quantum theory of the Dirac and electromagnetic fields (quantum electrodynamics), we can start by analyzing a classical theory of these fields. In such a classical field theory, the electron has a spread-out distribution of charge that avoids some of the problems of self-interaction facing point charge models. However, there remains the problem that the electron will experience self-repulsion. This self-repulsion cannot be eliminated within classical field theory without also losing Coulomb interactions between distinct particles. But, electron self-repulsion can be eliminated from quantum electrodynamics in the Coulomb gauge by fully normal-ordering the Coulomb term in the Hamiltonian. After normal-ordering, the Coulomb term contains pieces describing attraction and repulsion between distinct particles and also pieces describing particle creation and annihilation, but no pieces describing self-repulsion. | 翻訳日:2023-05-08 17:39:59 公開日:2023-05-04 |
# 短時間力学を持つスピン系の量子シミュレータにおける有限温度観測値の提案 Probing finite-temperature observables in quantum simulators of spin systems with short-time dynamics ( http://arxiv.org/abs/2206.01756v2 ) ライセンス: Link先を確認 | Alexander Schuckert, Annabelle Bohrdt, Eleanor Crane, Michael Knap | (参考訳) 閉じ込められたイオンやライドバーグ原子のようなスピン系の量子シミュレータにおける有限温度状態の準備は、環境からほぼ完全に隔離されているため困難である。
ここでは,jarzynski等式を動機とするアルゴリズムを用いて有限温度可観測性を得る方法を示し,lu,banuls,cirac,prx quantum 2, 020321 (2021) と等価性を示す。
これは古典的な初期状態のサンプリングと、量子シミュレータによるロシミットエコーの測定から成り立っている。
この手法を量子に触発された古典的アルゴリズムとして使用し,行列積状態とプロトコルをシミュレートし,量子シミュレータの要件を解析した。
このようにして、長距離横磁場イジングモデルにおける有限温度相転移は、閉じ込められたイオン量子シミュレータによって特徴づけられることを示した。
そこで我々はLoschmidtエコーのための具体的な測定プロトコルを提案し、測定ノイズ、デフォーカス、および状態準備および測定誤差の影響について議論する。
このアルゴリズムは現実的な条件下での不完全性に対して堅牢であると主張する。 Preparing finite temperature states in quantum simulators of spin systems, such as trapped ions or Rydberg atoms in optical tweezers, is challenging due to their almost perfect isolation from the environment. Here, we show how finite-temperature observables can be obtained with an algorithm motivated from the Jarzynski equality and equivalent to the one in Lu, Banuls and Cirac, PRX Quantum 2, 020321 (2021). It consists of classical importance sampling of initial states and a measurement of the Loschmidt echo with a quantum simulator. We use the method as a quantum-inspired classical algorithm and simulate the protocol with matrix product states to analyze the requirements on a quantum simulator. This way, we show that a finite temperature phase transition in the long-range transverse field Ising model can be characterized in trapped ion quantum simulators. We propose a concrete measurement protocol for the Loschmidt echo and discuss the influence of measurement noise, dephasing, as well as state preparation and measurement errors. We argue that the algorithm is robust against those imperfections under realistic conditions. | 翻訳日:2023-05-08 17:39:07 公開日:2023-05-04 |
# サブキャリア波とデュアルレール符号化のフォトニックインターフェース Photonic interface between subcarrier wave and dual rail encodings ( http://arxiv.org/abs/2209.11719v2 ) ライセンス: Link先を確認 | K. S. Melnik and E. S. Moiseev | (参考訳) マルチモードサブキャリア波符号化を用いた量子鍵分布は、環境障害に対して頑健である。
長距離量子通信のアプリケーションでは、このエンコーディングはエンタングルメント支援の量子リピータと互換性を持たなければならない。
本稿では,線形光回路を用いて,92\%以上の忠実度を有する2重レールエンコーディングとサブキャリア波の界面を提案する。
開発されたスキームは、量子鍵分布と信頼できないノードを組み合わせた将来の異種量子ネットワークにおける応用を見つけることができる。 Quantum key distribution with multimode subcarrier wave encoding is propitious for being robust against environmental disturbance. For application in long-distance quantum communications this encoding has to be compatible with entanglement-assisted quantum repeaters that are commonly designed to work with dual rail encodings. We propose and demonstrate an interface between subcarrier wave and dual rail encodings with a fidelity of more than 92\% using a linear optical circuit. The developed scheme may find an application in future heterogeneous quantum networks that combine quantum key distribution with trusted and non-trusted nodes. | 翻訳日:2023-05-08 17:31:37 公開日:2023-05-04 |
# 単一局所散逸チャネルを有する量子配列におけるエンタングル量子ビット対の散逸安定化 Dissipative stabilization of entangled qubit pairs in quantum arrays with a single localized dissipative channel ( http://arxiv.org/abs/2212.05346v3 ) ライセンス: Link先を確認 | Jacopo Angeletti, Stefano Zippilli, David Vitali | (参考訳) 量子系の配列における絡み合い状態の散逸安定化について検討する。
具体的には、1つ以上のキャビティ(ボソニックモード)と相互作用する可能性のある量子ビット(スピン1/2)の状態に興味がある。
すべての場合、空洞またはキュービットのどちらかの1つの要素だけが損失があり、貯水池に不可逆的に結合される。
損失成分がキャビティである場合、圧縮された貯水池とキャビティの励起数を保存する相互作用のみを考える。
代わりに、損失元がクォービットであるとき、純粋な崩壊とXY-相互作用の適切に選択された構造が考慮される。
すべての場合、定常状態において、配列全体を覆う非間接的に相互作用する多くのキュービットのペアは、散逸と局所的な相互作用の相互作用によって、定常的に絡み合うことができる。 We study the dissipative stabilization of entangled states in arrays of quantum systems. Specifically, we are interested in the states of qubits (spin-1/2) which may or may not interact with one or more cavities (bosonic modes). In all cases only one element, either a cavity or a qubit, is lossy and irreversibly coupled to a reservoir. When the lossy element is a cavity, we consider a squeezed reservoir and only interactions which conserve the number of cavity excitations. Instead, when the lossy element is a qubit, pure decay and a properly selected structure of XY-interactions are taken into account. We show that in all cases, in the steady state, many pairs of distant, non-directly interacting qubits, which cover the whole array, can get entangled in a stationary way, by means of the interplay of dissipation and local interactions. | 翻訳日:2023-05-08 17:23:16 公開日:2023-05-04 |
# インコンテキスト学習者はデモから推論概念を学習できるか? Can In-context Learners Learn a Reasoning Concept from Demonstrations? ( http://arxiv.org/abs/2212.01692v2 ) ライセンス: Link先を確認 | Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik | (参考訳) 大きな言語モデルは、少数の入出力デモから新しいタスクを学ぶための創発的な能力を示しています。
しかし、最近の研究は、インコンテキスト学習者は、入力に新しい関連を見出すのではなく、ラベルの感情のような事前学習された知識に大きく依存していることを示している。
しかし、無作為なインコンテキストのデモンストレーションをランダムに選択した場合、ランダムに選択されたデモの多くは、新しいタスク分布を露呈する以上の予測に有用な関係を示さないため、モデルがデモから新しいスキルを学ぶ能力を分かち合うことができない。
モデルの記憶に依存せず、モデルの文脈内学習能力を分断するために、予測したサンプルと潜在的にインフォーマティブな概念を共有するデモを選択する概念的少数ショット学習法を提案する。
このような概念のセットを注釈付き説明から抽出し、モデルがこれらの概念を提示してどの程度のメリットがあるかを測定する。
より小さなモデルの方が概念に敏感であることが分かりました。
評価された概念のコンセプト提示のデモンストレーションから恩恵を受けるモデルもいくつかあるが、評価されたインコンテキスト学習者はいずれも、常に提示されたすべての推論概念から利益を得ることはできないことが分かり、インコンテキスト概念学習はオープンチャレンジとなる。 Large language models show an emergent ability to learn a new task from a small number of input-output demonstrations. However, recent work shows that in-context learners largely rely on their pre-trained knowledge, such as the sentiment of the labels, instead of finding new associations in the input. However, the commonly-used few-shot evaluation settings using a random selection of in-context demonstrations can not disentangle models' ability to learn a new skill from demonstrations, as most of the randomly-selected demonstrations do not present relations informative for prediction beyond exposing the new task distribution. To disentangle models' in-context learning ability independent of models' memory, we introduce a Conceptual few-shot learning method selecting the demonstrations sharing a possibly-informative concept with the predicted sample. We extract a set of such concepts from annotated explanations and measure how much can models benefit from presenting these concepts in few-shot demonstrations. We find that smaller models are more sensitive to the presented concepts. While some of the models are able to benefit from concept-presenting demonstrations for each assessed concept, we find that none of the assessed in-context learners can benefit from all presented reasoning concepts consistently, leaving the in-context concept learning an open challenge. | 翻訳日:2023-05-08 17:23:01 公開日:2023-05-04 |
# データインジェクション攻撃によるSwarmインテリジェンス保護への信頼感 Trust-Awareness to Secure Swarm Intelligence from Data Injection Attack ( http://arxiv.org/abs/2211.08407v3 ) ライセンス: Link先を確認 | Bin Han, Dennis Krummacker, Qiuheng Zhou, and Hans D. Schotten | (参考訳) 新興産業エージェント(IA)技術によって実現されたSwarm Intelligence(SI)は、第6世代(6G)モバイル通信とデジタルツイン(DT)によって形成される将来の産業用モノのインターネット(IIoT)において重要な役割を果たす。
しかし、データインジェクション攻撃に対する脆弱さは、実際のデプロイを阻止する可能性がある。
本稿では,SIのセキュリティ問題に対処する効率的な信頼手法を提案する。 Enabled by the emerging industrial agent (IA) technology, swarm intelligence (SI) is envisaged to play an important role in future industrial Internet of Things (IIoT) that is shaped by Sixth Generation (6G) mobile communications and digital twin (DT). However, its fragility against data injection attack may halt it from practical deployment. In this paper we propose an efficient trust approach to address this security concern for SI. | 翻訳日:2023-05-08 17:20:54 公開日:2023-05-04 |
# ボケ及びポアソン雑音下のセグメンテーションにおける異方性および等方性tvの相違 Difference of Anisotropic and Isotropic TV for Segmentation under Blur and Poisson Noise ( http://arxiv.org/abs/2301.03393v3 ) ライセンス: Link先を確認 | Kevin Bui, Yifei Lou, Fredrick Park, Jack Xin | (参考訳) 本稿では,ぼかしとポアソンノイズによって劣化した画像のセグメント化を目的とする。
画像をスムースに分割するために$k$-meansクラスタリングを行う。
特に、画像平滑化ステップでは、ムンフォード・シャーモデルにおけるガウス雑音の最小二乗忠実度をポアソン雑音に対応する最大後方(map)項に置き換え、画像勾配のスパーシティを促進するための正規化として、異方性および等方性総変動(aitv)の重み付き差分を取り入れる。
このような非凸モデルに対しては、特定の分割方式を開発し、近似演算子を用いて乗算器の交互方向法(ADMM)を適用する。
ADMM方式の有効性を検証するために収束解析を行う。
様々なセグメンテーションシナリオ(grayscale/color and multiphase)における数値実験により,本手法がsatを含む多くのセグメンテーション手法を上回っていることを示した。 In this paper, we aim to segment an image degraded by blur and Poisson noise. We adopt a smoothing-and-thresholding (SaT) segmentation framework that finds a piecewise-smooth solution, followed by $k$-means clustering to segment the image. Specifically for the image smoothing step, we replace the least-squares fidelity for Gaussian noise in the Mumford-Shah model with a maximum posterior (MAP) term to deal with Poisson noise and we incorporate the weighted difference of anisotropic and isotropic total variation (AITV) as a regularization to promote the sparsity of image gradients. For such a nonconvex model, we develop a specific splitting scheme and utilize a proximal operator to apply the alternating direction method of multipliers (ADMM). Convergence analysis is provided to validate the efficacy of the ADMM scheme. Numerical experiments on various segmentation scenarios (grayscale/color and multiphase) showcase that our proposed method outperforms a number of segmentation methods, including the original SaT. | 翻訳日:2023-05-08 17:13:04 公開日:2023-05-04 |
# OASIS:大規模都市歩行者パスの自動評価 OASIS: Automated Assessment of Urban Pedestrian Paths at Scale ( http://arxiv.org/abs/2303.02287v2 ) ライセンス: Link先を確認 | Yuxiang Zhang, Suresh Devalapalli, Sachin Mehta, Anat Caspi | (参考訳) コミュニティの歩行性、転がりやすさ、安全性、アクティブな輸送性、持続可能性のために構築された環境を監視し維持するためには、アクセシビリティ障壁に対する公共的権利検査(PROW)が必要である。
しかし、測量士や群衆によるPROWの検査は、手間がかかり、一貫性がなく、費用がかかる。
スマートシティ開発の中核は、自治体の資産評価と管理への情報技術の応用である。
サイドウォークは、自動車道路と比較して、市民サービスの最適化や通知を行う情報システムに定期的に統合されていない。
我々は,モバイル機器を用いた歩道ネットワークデータを抽出するために,自由かつオープンソースの自動マッピングシステムであるOpen Automated Sidewalks Inspection System (OASIS)を開発した。
OASISは、ニューラルネットワーク、イメージセンシング、ロケーションベースの方法、コンパクトハードウェアの進歩を活用して、歩道のセグメンテーションとマッピングを行い、障壁の識別を行い、ルーティングと分析および運用レポートに利用可能なGIS歩行者輸送層を生成する。
本稿では,地域交通経路レビューチームの一員である人間測量士とともに,実環境で収集した画像を用いて訓練・テストしたプロトタイプシステムについて述べる。
パイロットは予測精度を示し、経路マッピング(0.94, 0.98)をリコールする。
さらに,調査チームの機能効率も向上した。
設計上、OASISは、システムが政府のパスレビューチームのワークフローと容易に統合できること、そして結果データが公開データコモンと相互運用できることを考慮に入れている。 The inspection of the Public Right of Way (PROW) for accessibility barriers is necessary for monitoring and maintaining the built environment for communities' walkability, rollability, safety, active transportation, and sustainability. However, an inspection of the PROW, by surveyors or crowds, is laborious, inconsistent, costly, and unscalable. The core of smart city developments involves the application of information technologies toward municipal assets assessment and management. Sidewalks, in comparison to automobile roads, have not been regularly integrated into information systems to optimize or inform civic services. We develop an Open Automated Sidewalks Inspection System (OASIS), a free and open-source automated mapping system, to extract sidewalk network data using mobile physical devices. OASIS leverages advances in neural networks, image sensing, location-based methods, and compact hardware to perform sidewalk segmentation and mapping along with the identification of barriers to generate a GIS pedestrian transportation layer that is available for routing as well as analytic and operational reports. We describe a prototype system trained and tested with imagery collected in real-world settings, alongside human surveyors who are part of the local transit pathway review team. Pilots show promising precision and recall for path mapping (0.94, 0.98 respectively). Moreover, surveyor teams' functional efficiency increased in the field. By design, OASIS takes adoption aspects into consideration to ensure the system could be easily integrated with governmental pathway review teams' workflows, and that the outcome data would be interoperable with public data commons. | 翻訳日:2023-05-08 17:04:00 公開日:2023-05-04 |
# 言語モデルによる予後予測 Language Models are Few-shot Learners for Prognostic Prediction ( http://arxiv.org/abs/2302.12692v4 ) ライセンス: Link先を確認 | Zekai Chen, Mariann Micsinai Balan, Kevin Brown | (参考訳) 臨床予測は医療業界で不可欠な課題である。
しかし、大規模な言語モデルが構築された最近のトランスフォーマーの成功は、この領域に拡張されていない。
本研究では,実際の患者の臨床データと分子プロファイルを用いた免疫療法の予後予測におけるトランスフォーマーと言語モデルの利用について検討する。
本稿では,従来の機械学習手法と比較して,トランスフォーマーによる臨床予測の改善の可能性について検討し,まれな疾患領域の予測における数発学習の課題に対処する。
この研究は、複数のがんタイプにわたる予後予測におけるベースラインと言語モデルの有効性をベンチマークし、数ショット体制下で異なる事前訓練された言語モデルの影響を調査する。
その結果,NLPの精度は有意に向上し,臨床研究におけるNLPの早期発見と異なる疾患に対する介入の改善の可能性を強調した。 Clinical prediction is an essential task in the healthcare industry. However, the recent success of transformers, on which large language models are built, has not been extended to this domain. In this research, we explore the use of transformers and language models in prognostic prediction for immunotherapy using real-world patients' clinical data and molecular profiles. This paper investigates the potential of transformers to improve clinical prediction compared to conventional machine learning approaches and addresses the challenge of few-shot learning in predicting rare disease areas. The study benchmarks the efficacy of baselines and language models on prognostic prediction across multiple cancer types and investigates the impact of different pretrained language models under few-shot regimes. The results demonstrate significant improvements in accuracy and highlight the potential of NLP in clinical research to improve early detection and intervention for different diseases. | 翻訳日:2023-05-08 17:03:35 公開日:2023-05-04 |
# 大型カーネルモデルに向けて Toward Large Kernel Models ( http://arxiv.org/abs/2302.02605v2 ) ライセンス: Link先を確認 | Amirhesam Abedsoltan, Mikhail Belkin, Parthe Pandit | (参考訳) 最近の研究では、カーネルマシンは小さなデータセット上で、ディープニューラルネットワーク(dnn)よりもよく、あるいはよりよく動作することが示されている。
カーネルマシンへの関心は、特定のレジームにおける広いニューラルネットワークに対する等価性の発見によってさらに高まっている。
しかしながら、dnnsの重要な特徴は、モデルサイズを独立してスケールし、データサイズをトレーニングする能力である。
この結合のため、カーネルマシンから大規模データへのスケーリングは計算的に困難である。
本稿では,大規模な汎用カーネルモデルの構築に向け,モデルとデータを分離したカーネルマシンを一般化し,大規模データセットのトレーニングを可能にする方法を提案する。
具体的には,プロジェクション付きデュアルプリコンディショニングsgdに基づくアルゴリズムであるeigenpro 3.0を導入し,既存のカーネルメソッドでは不可能だったモデルとデータサイズへのスケーリングを示す。 Recent studies indicate that kernel machines can often perform similarly or better than deep neural networks (DNNs) on small datasets. The interest in kernel machines has been additionally bolstered by the discovery of their equivalence to wide neural networks in certain regimes. However, a key feature of DNNs is their ability to scale the model size and training data size independently, whereas in traditional kernel machines model size is tied to data size. Because of this coupling, scaling kernel machines to large data has been computationally challenging. In this paper, we provide a way forward for constructing large-scale general kernel models, which are a generalization of kernel machines that decouples the model and data, allowing training on large datasets. Specifically, we introduce EigenPro 3.0, an algorithm based on projected dual preconditioned SGD and show scaling to model and data sizes which have not been possible with existing kernel methods. | 翻訳日:2023-05-08 17:02:01 公開日:2023-05-04 |
# DreamPose:安定拡散によるファッション画像とビデオの合成 DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion ( http://arxiv.org/abs/2304.06025v3 ) ライセンス: Link先を確認 | Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira Kemelmacher-Shlizerman | (参考訳) 静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
画像と人間のポーズのシーケンスが与えられたら、人間の動きと布の動きの両方を含むビデオを合成する。
そこで本研究では,事前学習したテキストから画像への拡散(stable diffusion)を,新たな微調整戦略,追加条件付信号をサポートするアーキテクチャ変更,時間的一貫性を促進する手法を用いて,ポーズ・アンド・イメージ誘導ビデオ合成モデルに変換する。
ubcのファッションデータセットのファッションビデオのコレクションについて詳しく調べた。
本手法は,様々な衣料品のスタイルやポーズについて評価し,ファッションビデオアニメーションで最新の結果が得られることを示す。
ビデオの結果はプロジェクトのページで確認できます。 We present DreamPose, a diffusion-based method for generating animated fashion videos from still images. Given an image and a sequence of human body poses, our method synthesizes a video containing both human and fabric motion. To achieve this, we transform a pretrained text-to-image model (Stable Diffusion) into a pose-and-image guided video synthesis model, using a novel finetuning strategy, a set of architectural changes to support the added conditioning signals, and techniques to encourage temporal consistency. We fine-tune on a collection of fashion videos from the UBC Fashion dataset. We evaluate our method on a variety of clothing styles and poses, and demonstrate that our method produces state-of-the-art results on fashion video animation. Video results are available on our project page. | 翻訳日:2023-05-08 16:55:02 公開日:2023-05-04 |
# ガウス過程による非線形PDEのスパースコレスキー分解 Sparse Cholesky Factorization for Solving Nonlinear PDEs via Gaussian Processes ( http://arxiv.org/abs/2304.01294v2 ) ライセンス: Link先を確認 | Yifan Chen, Houman Owhadi, Florian Sch\"afer | (参考訳) 一般非線形偏微分方程式(PDE)を解くためのガウス過程(GP)フレームワークの計算スケーラビリティについて検討する。
この枠組みはPDEを非線形制約で2次最適化問題に変換する。
その複雑性のボトルネックは、GPの共分散核とその偏微分のコロケーション点での点での評価から得られる高密度なカーネル行列による計算にある。
ディラックスと微分測定の新しい順序付けの下で、コレスキー因子のほぼ疎度に基づいて、そのようなカーネル行列に対するスパースチョレスキー分解アルゴリズムを提案する。
我々は,スパルシリティパターンを厳密に同定し,kullback-leiblerダイバージェンスにおいて最適であるgpの対応するvecchia近似の指数収束精度を定量化する。
これにより、空間上の複雑性 $o(n\log^d(n/\epsilon))$ と時間内に $o(n\log^{2d}(n/\epsilon))$ を持つカーネル行列の逆コレスキー係数を計算できる。
スパース因子により、勾配に基づく最適化手法はスケーラブルになる。
さらに、しばしばより効率的なガウス・ニュートン法を用いることで、線形系を解くために、縮小されたカーネル行列のスパース係数と共役勾配アルゴリズムを適用することができる。
非線形楕円型, バーガー型, モンジュアンプ型といった幅広い非線形pdesに対して, アルゴリズムの近似空間/時間複雑性を数値的に示す。
要約すると、GPで一般的なPDEを解くための高速でスケーラブルで正確な方法を提供する。 We study the computational scalability of a Gaussian process (GP) framework for solving general nonlinear partial differential equations (PDEs). This framework transforms solving PDEs to solving quadratic optimization problem with nonlinear constraints. Its complexity bottleneck lies in computing with dense kernel matrices obtained from pointwise evaluations of the covariance kernel of the GP and its partial derivatives at collocation points. We present a sparse Cholesky factorization algorithm for such kernel matrices based on the near-sparsity of the Cholesky factor under a new ordering of Diracs and derivative measurements. We rigorously identify the sparsity pattern and quantify the exponentially convergent accuracy of the corresponding Vecchia approximation of the GP, which is optimal in the Kullback-Leibler divergence. This enables us to compute $\epsilon$-approximate inverse Cholesky factors of the kernel matrices with complexity $O(N\log^d(N/\epsilon))$ in space and $O(N\log^{2d}(N/\epsilon))$ in time. With the sparse factors, gradient-based optimization methods become scalable. Furthermore, we can use the oftentimes more efficient Gauss-Newton method, for which we apply the conjugate gradient algorithm with the sparse factor of a reduced kernel matrix as a preconditioner to solve the linear system. We numerically illustrate our algorithm's near-linear space/time complexity for a broad class of nonlinear PDEs such as the nonlinear elliptic, Burgers, and Monge-Amp\`ere equations. In summary, we provide a fast, scalable, and accurate method for solving general PDEs with GPs. | 翻訳日:2023-05-08 16:53:50 公開日:2023-05-04 |
# DrBERT : フランスの医学・臨床領域におけるロバスト事前訓練モデル DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains ( http://arxiv.org/abs/2304.00958v2 ) ライセンス: Link先を確認 | Yanis Labrak and Adrien Bazoge and Richard Dufour and Mickael Rouvier and Emmanuel Morin and B\'eatrice Daille and Pierre-Antoine Gourraud | (参考訳) 近年,学習済み言語モデル (PLM) は,幅広い自然言語処理(NLP)タスクにおいて最高の性能を達成している。
最初のモデルは一般的なドメインデータに基づいてトレーニングされたが、特定のドメインをより効果的に扱うために特別なモデルが登場した。
本稿では,医学領域におけるフランス語のPLMに関する独自の研究を提案する。
私たちは初めて、webからの公開データと医療機関のプライベートデータの両方で訓練されたplmのパフォーマンスを比較しました。
また, 生物医学的課題の組において, 異なる学習戦略を評価する。
特に,既存のバイオメディカルPLMを外国語で活用し,対象とするデータに基づいて事前学習を行うことが可能であることを示す。
最後に、DrBERTと呼ばれるフランスのバイオメディカル分野のためのPLMと、これらのモデルがトレーニングされているフリーライセンス下の医療データの最大コーパスをリリースする。 In recent years, pre-trained language models (PLMs) achieve the best performance on a wide range of natural language processing (NLP) tasks. While the first models were trained on general domain data, specialized ones have emerged to more effectively treat specific domains. In this paper, we propose an original study of PLMs in the medical domain on French language. We compare, for the first time, the performance of PLMs trained on both public data from the web and private data from healthcare establishments. We also evaluate different learning strategies on a set of biomedical tasks. In particular, we show that we can take advantage of already existing biomedical PLMs in a foreign language by further pre-train it on our targeted data. Finally, we release the first specialized PLMs for the biomedical field in French, called DrBERT, as well as the largest corpus of medical data under free license on which these models are trained. | 翻訳日:2023-05-08 16:53:22 公開日:2023-05-04 |
# DISにおけるプロトン内部の最大絡み合いの発症の予測 Probing the onset of maximal entanglement inside the proton in diffractive DIS ( http://arxiv.org/abs/2305.03069v1 ) ライセンス: Link先を確認 | Martin Hentschinski, Dmitri E. Kharzeev, Krzysztof Kutak, Zhoudunming Tu | (参考訳) 小さなbjorken $x$、あるいは同等に高エネルギーでは、ハドロンはクォークとグルーオンの最大に絡み合った状態を表すと提案されている。
この予想は電子-陽子衝突型加速器HERAの最小アクセス可能な$x$の実験データと一致している。
本稿では,Diffractive Deep Inelastic Scattering を用いて,陽子内部の最大エンタングルメントの開始について検討する。
HERAのH1コラボレーションによって収集されたデータは、最大エンタングルメント状態への遷移を探索することができる。
エンタングルメントエントロピーを最終状態ハドロンのエントロピーに関連付けることにより、ほぼ極大なエントロピー状態の存在を示す漸近展開と同様に、正確なエントロピー公式を用いたH1データとの良好な一致を見出す。
最後に、Electron Ion Colliderにおける今後の機会について論じる。 It has been proposed that at small Bjorken $x$, or equivalently at high energy, hadrons represent maximally entangled states of quarks and gluons. This conjecture is in accord with experimental data from the electron-proton collider HERA at the smallest accessible $x$. In this Letter, we propose to study the onset of the maximal entanglement inside the proton using Diffractive Deep Inelastic Scattering. It is shown that the data collected by the H1 Collaboration at HERA allows to probe the transition to the maximal entanglement regime. By relating the entanglement entropy to the entropy of final state hadrons, we find a good agreement with the H1 data using both the exact entropy formula as well as its asymptotic expansion which indicates the presence of a nearly maximally-entangled state. Finally, future opportunities at the Electron Ion Collider are discussed. | 翻訳日:2023-05-08 16:36:44 公開日:2023-05-04 |
# カンチレバービーム損傷検出のためのニューロシンボリックモデル Neuro-symbolic model for cantilever beams damage detection ( http://arxiv.org/abs/2305.03063v1 ) ライセンス: Link先を確認 | Darian Onchis and Gilbert-Rainer Gillich and Eduard Hogea and Cristian Tufisi | (参考訳) 過去10年間で、損傷検出アプローチは、高度な信号処理方法から機械学習、特にディープラーニングモデルへと急速に変化し、ビーム構造の状態を正確に非侵襲的に推定する。
しかし、ディープラーニングモデルがピークパフォーマンスに達すると、適用性と脆弱性の制限も観察された。
運用条件における信頼性の欠如の最も重要な理由の1つは、テンソル値における知識の符号化と論理的制約を含まないことによる、ディープラーニングシステムの本質的な説明能力の欠如である。
本稿では,本モデルに実際の論理を組み込むことによって実現されたクエリによる対話制御により,畳み込みネットワークの処理能力と結合する,新しい認知アーキテクチャに基づく,カンチレバービームの損傷検出のためのニューロシンボリックモデルを提案する。
ハイブリッド判別モデルはLogic Convolutional Neural Regressorという名前で導入され、元の数学的関係から導かれたカンチレバービームの相対的な自然周波数シフトの値のデータセット上で検証される。
得られた結果は、ディープラーニングモデルの予測能力をすべて保持する一方で、3つの距離を充足可能性の述語として使用することで、システムは実用的なアプリケーションのために信頼性と拡張性が向上する。
広範囲な数値実験と実験を行い, ハイブリッドアプローチの優位性を実証し, 損傷検出問題を解くための新しい経路を開拓した。 In the last decade, damage detection approaches swiftly changed from advanced signal processing methods to machine learning and especially deep learning models, to accurately and non-intrusively estimate the state of the beam structures. But as the deep learning models reached their peak performances, also their limitations in applicability and vulnerabilities were observed. One of the most important reason for the lack of trustworthiness in operational conditions is the absence of intrinsic explainability of the deep learning system, due to the encoding of the knowledge in tensor values and without the inclusion of logical constraints. In this paper, we propose a neuro-symbolic model for the detection of damages in cantilever beams based on a novel cognitive architecture in which we join the processing power of convolutional networks with the interactive control offered by queries realized through the inclusion of real logic directly into the model. The hybrid discriminative model is introduced under the name Logic Convolutional Neural Regressor and it is tested on a dataset of values of the relative natural frequency shifts of cantilever beams derived from an original mathematical relation. While the obtained results preserve all the predictive capabilities of deep learning models, the usage of three distances as predicates for satisfiability, makes the system more trustworthy and scalable for practical applications. Extensive numerical and laboratory experiments were performed, and they all demonstrated the superiority of the hybrid approach, which can open a new path for solving the damage detection problem. | 翻訳日:2023-05-08 16:36:27 公開日:2023-05-04 |
# サイバー攻撃をシミュレーションしてサイバーセキュリティを教えるゲーム A Serious Game for Simulating Cyberattacks to Teach Cybersecurity ( http://arxiv.org/abs/2305.03062v1 ) ライセンス: Link先を確認 | Christopher Scherb and Luc Bryan Heitz and Frank Grimberg and Hermann Grieder and Marcel Maurer | (参考訳) ランサムウェア攻撃やサイバースパイ活動などのサイバー攻撃の増加に伴い、サイバーセキュリティ専門家に脅威を認識するための教育がこれまで以上に重要になっている。
しかし、フィッシング認知運動、トレーニングビデオ、アセスメントなどの伝統的な訓練方法は、時間が経つにつれて効果が低下することが証明されている。
そのため、サイバーアウェアネスのトレーニング方法を再考する時が来たのです。
本稿では、一般的なサイバー攻撃に対する意識を教育するために、別のアプローチ -- 真剣なゲーム -- を提案する。
サイバーセキュリティ教育のための真剣なゲームは数多く存在するが、どれも非常によく似たアプローチを取っている。
例えば、これらのゲームの主なタスクの1つは、フィッシングメールのソートである。
我々は,新たなタイプのサイバーセキュリティゲームであるアタックシミュレータを開発し,評価した。
フィッシングメールを分類する代わりに、プレイヤーはフィッシングメールを書き、潜在的な犠牲者を騙し、他の種類のサイバー攻撃を使用する必要がある。
我々のゲームは各攻撃の意図を説明し、成功した攻撃の結果を示す。
この方法で、プレイヤーはサイバー攻撃を検知する方法をよりよく理解できるようになることを願っている。 With the rising number of cyberattacks, such as ransomware attacks and cyber espionage, educating non-cybersecurity professionals to recognize threats has become more important than ever before. However, traditional training methods, such as phishing awareness campaigns, training videos and assessments have proven to be less effective over time. Therefore, it is time to rethink the approach on how to train cyber awareness. In this paper we suggest an alternative approach -- a serious game -- to educate awareness for common cyberattacks. While many serious games for cybersecurity education exist, all follow a very similar approach: showing people the effects of a cyber attack on their own system or company network. For example, one of the main tasks in these games is to sort out phishing mails. We developed and evaluated a new type of cybersecurity game: an attack simulator, which shows the entire setting from a different perspective. Instead of sorting out phishing mails the players should write phishing mails to trick potential victims and use other forms of cyberattacks. Our game explains the intention of each attack and shows the consequences of a successful attack. This way, we hope, players will get a better understanding on how to detect cyberattacks. | 翻訳日:2023-05-08 16:36:05 公開日:2023-05-04 |
# 共分散ニューラルネットワークの伝達性と解剖学的特徴を用いた脳年齢予測への応用 Transferability of coVariance Neural Networks and Application to Interpretable Brain Age Prediction using Anatomical Features ( http://arxiv.org/abs/2305.01807v2 ) ライセンス: Link先を確認 | Saurabh Sihag, Gonzalo Mateos, Corey T. McMillan, Alejandro Ribeiro | (参考訳) グラフ畳み込みネットワーク(gcn)はトポロジー駆動グラフ畳み込み操作を利用して、推論タスクのためにグラフ全体の情報を結合する。
最近の研究では、従来のpca駆動のデータ分析手法と類似性を示しながら、グラフとして共分散行列を用いたgcnを共分散ニューラルネットワーク(vnn)として研究した。
本稿では,VNNの転送可能性について理論的に考察する。
伝達可能性の概念は、学習モデルが最小限の努力で(おそらく異なる次元の)「互換性のある」データセットに一般化できるという直感的な期待から導かれる。
VNNは、GCNからスケールフリーなデータ処理アーキテクチャを継承し、ここでは、共分散行列が極限オブジェクトに収束するデータセットよりも性能の伝達性を示すことを示す。
マルチスケールのニューロイメージングデータセットは、複数のスケールで脳の研究を可能にするため、VNNの伝達可能性に関する理論的結果を検証することができる。
神経画像データ解析におけるVNNの利点を評価するため,大脳皮質の厚み特徴を用いた脳年齢予測の課題に着目した。
臨床神経科学では、年輪年代から逸脱する「脳年齢」の推定を提供する機械学習アルゴリズムへの関心が高まっている。
VNNのアーキテクチャを活用して、アルツハイマー病(AD)の脳年齢ギャップの粗い指標を超えて、2つの重要な観察を行う。
i)VNNはADにおける脳年齢差の増大に解剖学的解釈可能性を与えることができる
(II) 解剖学的共分散行列の特定の主成分を利用する能力にVNNが提供する解釈可能性がある。
さらに、VNNの転送可能性を活用して、上記の観測結果を異なるデータセット間で相互に検証する。 Graph convolutional networks (GCN) leverage topology-driven graph convolutional operations to combine information across the graph for inference tasks. In our recent work, we have studied GCNs with covariance matrices as graphs in the form of coVariance neural networks (VNNs) that draw similarities with traditional PCA-driven data analysis approaches while offering significant advantages over them. In this paper, we first focus on theoretically characterizing the transferability of VNNs. The notion of transferability is motivated from the intuitive expectation that learning models could generalize to "compatible" datasets (possibly of different dimensionalities) with minimal effort. VNNs inherit the scale-free data processing architecture from GCNs and here, we show that VNNs exhibit transferability of performance over datasets whose covariance matrices converge to a limit object. Multi-scale neuroimaging datasets enable the study of the brain at multiple scales and hence, can validate the theoretical results on the transferability of VNNs. To gauge the advantages offered by VNNs in neuroimaging data analysis, we focus on the task of "brain age" prediction using cortical thickness features. In clinical neuroscience, there has been an increased interest in machine learning algorithms which provide estimates of "brain age" that deviate from chronological age. We leverage the architecture of VNNs to extend beyond the coarse metric of brain age gap in Alzheimer's disease (AD) and make two important observations: (i) VNNs can assign anatomical interpretability to elevated brain age gap in AD, and (ii) the interpretability offered by VNNs is contingent on their ability to exploit specific principal components of the anatomical covariance matrix. We further leverage the transferability of VNNs to cross validate the above observations across different datasets. | 翻訳日:2023-05-08 16:35:11 公開日:2023-05-04 |
# GNOMEに何ができるのか?
エキゾチック物理探索のための光磁気センサのグローバルネットワークの探索目標 What can a GNOME do? Search targets for the Global Network of Optical Magnetometers for Exotic physics searches ( http://arxiv.org/abs/2305.01785v2 ) ライセンス: Link先を確認 | S. Afach, D. Aybas Tumturk, H. Bekker, B. C. Buchler, D. Budker, K. Cervantes, A. Derevianko, J. Eby, N. L. Figueroa, R. Folman, D. Gavil'an Martin, M. Givon, Z. D. Grujic, H. Guo, P. Hamilton, M. P. Hedges, D. F. Jackson Kimball, S. Khamis, D. Kim, E. Klinger, A. Kryemadhi, X. Liu, G. Lukasiewicz, H. Masia-Roig, M. Padniuk, C. A. Palm, S. Y. Park, H. R. Pearson, X. Peng, M. Pospelov, S. Pustelny, Y. Rosenzweig, O. M. Ruimi, T. Scholtes, P. C. Segura, Y. K. Semertzidis, Y. C. Shin, J. A. Smiga, Y. V. Stadnik, J. E. Stalnaker, I. A. Sulai, D. Tandon, K. Vu, A. Weis, A. Wickenbrock, T. Z. Wilson, T. Wu, W. Xiao, Y. Yang, D. Yu, F. Yu, J. Zhang, and Y. Zhao | (参考訳) 多くの観測により、標準モデル粒子と磁場が発見されていないことが示唆されている。
その性質が不明であるため、これらのエキゾチック粒子と磁場は様々な方法で標準模型粒子と相互作用し、様々な可能な構成を仮定することができる。
本稿では,エキゾチック物理学の幅広いシナリオをテストするための実験プログラムであるGNOME(Global Network of Optical magnetometers for Exotic Physics Search)の概要を紹介する。
GNOME実験は、シールドされた原子磁気センサ(そして最近ではコマグネトメーター)の世界的なネットワークを利用して、宇宙物理学起源の異種磁場からの原子スピンのトルクによる空間的および時間的に相関した信号を探す。
我々は,現在検討中であるトポロジカル欠陥暗黒物質(Xion様粒子領域の壁),アクシオン様粒子星,複雑な値を持つスカラー場(Q-ボール)のソリトン,ボソニック暗黒物質場の確率的変動,太陽軸状粒子ハロ,二元ブラックホールの融合などの破滅的な天体物理現象によって生じる超軽量のボソニック場のバーストなど,様々な可能性のある信号の時間的特性を調査した。 Numerous observations suggest that there exist undiscovered beyond-the-Standard-Model particles and fields. Because of their unknown nature, these exotic particles and fields could interact with Standard Model particles in many different ways and assume a variety of possible configurations. Here we present an overview of the Global Network of Optical Magnetometers for Exotic physics searches (GNOME), our ongoing experimental program designed to test a wide range of exotic physics scenarios. The GNOME experiment utilizes a worldwide network of shielded atomic magnetometers (and, more recently, comagnetometers) to search for spatially and temporally correlated signals due to torques on atomic spins from exotic fields of astrophysical origin. We survey the temporal characteristics of a variety of possible signals currently under investigation such as those from topological defect dark matter (axion-like particle domain walls), axion-like particle stars, solitons of complex-valued scalar fields (Q-balls), stochastic fluctuations of bosonic dark matter fields, a solar axion-like particle halo, and bursts of ultralight bosonic fields produced by cataclysmic astrophysical events such as binary black hole mergers. | 翻訳日:2023-05-08 16:34:41 公開日:2023-05-04 |
# ltlオントロジーを介する時間的問合せのリバースエンジニアリング Reverse Engineering of Temporal Queries Mediated by LTL Ontologies ( http://arxiv.org/abs/2305.01248v2 ) ライセンス: Link先を確認 | Marie Fortin, Boris Konev, Vladislav Ryzhikov, Yury Savateev, Frank Wolter, Michael Zakharyaschev | (参考訳) データベースクエリのリバースエンジニアリングでは、与えられた回答と非回答の集合からクエリを構築することを目的としており、さらにデータを探索したり、回答と非回答の説明として利用することができる。
本研究では,線形時相論理ltlの正のフラグメントで定式化したクエリに対するクエリ・バイ・サンプル問題の検討を行い,適切なクエリ言語の設計と,与えられた回答と非回答を分離する言語に問合せが存在するかどうかを判断するデータの複雑さについて考察する。
通常のLTLクエリとLTLオントロジーを介するクエリの両方を考慮する。 In reverse engineering of database queries, we aim to construct a query from a given set of answers and non-answers; it can then be used to explore the data further or as an explanation of the answers and non-answers. We investigate this query-by-example problem for queries formulated in positive fragments of linear temporal logic LTL over timestamped data, focusing on the design of suitable query languages and the combined and data complexity of deciding whether there exists a query in the given language that separates the given answers from non-answers. We consider both plain LTL queries and those mediated by LTL-ontologies. | 翻訳日:2023-05-08 16:33:38 公開日:2023-05-04 |
# HAISTA-NET: 注意によるヒューマンアシストインスタンスセグメンテーション HAISTA-NET: Human Assisted Instance Segmentation Through Attention ( http://arxiv.org/abs/2305.03105v1 ) ライセンス: Link先を確認 | Muhammed Korkmaz, Tolga Buyukyazi, T. Metin Sezgin | (参考訳) インスタンスセグメンテーション(英: instance segmentation)は、オブジェクトの精細化、医用画像分析、画像/ビデオ編集などの応用範囲を持つ画像検出の一形態であり、いずれも高い精度を必要とする。
しかし、この精度は、最先端の完全に自動化されたインスタンスセグメンテーションアルゴリズムが提供できる範囲を超えていることが多い。
パフォーマンスギャップは、特に小さくて複雑なオブジェクトでは禁止される。
通常、実践者は完全な手動のアノテーションを使うが、これは面倒な作業である。
そこで本研究では,高曲率,複雑,小型のオブジェクトに対して,より正確な予測を可能にし,高品質なセグメンテーションマスクを生成する新しい手法を提案する。
我々の人間支援セグメンテーションモデルHAISTA-NETは、既存のStrong Mask R-CNNネットワークを拡張し、人間の特定部分境界を組み込む。
また,手書き部分的オブジェクト境界のデータセットも提示し,これを人間の注意マップと呼ぶ。
さらに、部分スケッチオブジェクト境界(PSOB)データセットには、いくつかのピクセルを持つオブジェクトの接地真理マスクの曲率を表す手書き部分オブジェクト境界が含まれている。
PSOBデータセットを用いた広範な評価により、HAISTA-NETはMask R-CNN、Strong Mask R-CNN、Mask2Formerといった最先端の手法より優れており、これらの3つのモデルのAP-Maskメトリクスにおいて、+36.7、+29.6、+26.5ポイントの増加が達成されている。
完全に自動化されたインスタンスセグメンテーションアーキテクチャとインタラクティブなインスタンスセグメンテーションアーキテクチャを組み合わせることで、将来の人間支援深層学習モデルのベースラインとなることを願っています。 Instance segmentation is a form of image detection which has a range of applications, such as object refinement, medical image analysis, and image/video editing, all of which demand a high degree of accuracy. However, this precision is often beyond the reach of what even state-of-the-art, fully automated instance segmentation algorithms can deliver. The performance gap becomes particularly prohibitive for small and complex objects. Practitioners typically resort to fully manual annotation, which can be a laborious process. In order to overcome this problem, we propose a novel approach to enable more precise predictions and generate higher-quality segmentation masks for high-curvature, complex and small-scale objects. Our human-assisted segmentation model, HAISTA-NET, augments the existing Strong Mask R-CNN network to incorporate human-specified partial boundaries. We also present a dataset of hand-drawn partial object boundaries, which we refer to as human attention maps. In addition, the Partial Sketch Object Boundaries (PSOB) dataset contains hand-drawn partial object boundaries which represent curvatures of an object's ground truth mask with several pixels. Through extensive evaluation using the PSOB dataset, we show that HAISTA-NET outperforms state-of-the art methods such as Mask R-CNN, Strong Mask R-CNN, and Mask2Former, achieving respective increases of +36.7, +29.6, and +26.5 points in AP-Mask metrics for these three models. We hope that our novel approach will set a baseline for future human-aided deep learning models by combining fully automated and interactive instance segmentation architectures. | 翻訳日:2023-05-08 16:26:37 公開日:2023-05-04 |
# 音声からテキストへのタスクのためのハイブリッドトランスデューサとアテンションに基づくエンコーダ・デコーダモデリング Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks ( http://arxiv.org/abs/2305.03101v1 ) ライセンス: Link先を確認 | Yun Tang, Anna Y. Sun, Hirofumi Inaguma, Xinyue Chen, Ning Dong, Xutai Ma, Paden D. Tomasello and Juan Pino | (参考訳) Transducer と Attention based Encoder-Decoder (AED) は、音声からテキストへのタスクに広く使われている2つのフレームワークである。
それらは異なる目的のために設計されており、それぞれに独自の利点と欠点がある。
双方のモデリング手法の強みを活用するために,音声からテキストへのタスクに対して,TransducerとAttention based Encoder-Decoder (TAED)を組み合わせた手法を提案する。
本手法は,Transducerのストリーミング特性を維持しつつ,非単調シーケンスにおけるAEDの強度をシーケンス学習に活用する。
提案したフレームワークでは、TransducerとAEDは同じ音声エンコーダを共有している。
トランスデューサの予測子はAEDモデルでデコーダに置き換えられ、デコーダの出力は無条件言語モデルからの出力ではなく音声入力で条件付けされる。
提案したソリューションは、可能なすべての読み取り/書き込みシナリオをカバーしてモデルを最適化することを保証する。
提案手法をtextsc{MuST-C} データセットで評価し,TAED がオフライン自動音声認識 (ASR) や音声テキスト翻訳 (ST) のタスクにおいて Transducer よりもはるかに優れていることを示す。
ストリーミングの場合、TAEDはASRタスクにおいてTransducerを1つのST方向で上回り、同じ結果が別の翻訳方向で達成される。 Transducer and Attention based Encoder-Decoder (AED) are two widely used frameworks for speech-to-text tasks. They are designed for different purposes and each has its own benefits and drawbacks for speech-to-text tasks. In order to leverage strengths of both modeling methods, we propose a solution by combining Transducer and Attention based Encoder-Decoder (TAED) for speech-to-text tasks. The new method leverages AED's strength in non-monotonic sequence to sequence learning while retaining Transducer's streaming property. In the proposed framework, Transducer and AED share the same speech encoder. The predictor in Transducer is replaced by the decoder in the AED model, and the outputs of the decoder are conditioned on the speech inputs instead of outputs from an unconditioned language model. The proposed solution ensures that the model is optimized by covering all possible read/write scenarios and creates a matched environment for streaming applications. We evaluate the proposed approach on the \textsc{MuST-C} dataset and the findings demonstrate that TAED performs significantly better than Transducer for offline automatic speech recognition (ASR) and speech-to-text translation (ST) tasks. In the streaming case, TAED outperforms Transducer in the ASR task and one ST direction while comparable results are achieved in another translation direction. | 翻訳日:2023-05-08 16:26:04 公開日:2023-05-04 |
# シナジー関数の分散: 機械学習説明可能性のためのゲーム理論的相互作用手法の統合 Distributing Synergy Functions: Unifying Game-Theoretic Interaction Methods for Machine-Learning Explainability ( http://arxiv.org/abs/2305.03100v1 ) ライセンス: Link先を確認 | Daniel Lundstrom and Meisam Razaviyayn | (参考訳) ディープラーニングはコンピュータビジョンから自然言語処理まで、機械学習の多くの領域に革命をもたらしたが、これらの高性能モデルは一般に「ブラックボックス」である。
このようなモデルを説明することで、AIによる意思決定に対する透明性と信頼が向上し、堅牢性や公正性といった他の実践的なニーズを理解する上で必要となる。
モデルの透明性を高める一般的な手段は、個々の入力がモデル出力(属性と呼ばれる)と入力のグループ間の相互作用の大きさにどのように貢献するかを定量化することである。
これらの手法はゲーム理論から概念や結果をインポートし、属性や相互作用を生成する。
本研究は,ゲーム理論に触発された帰属と$k^\text{th}$-orderインタラクションの統一フレームワークを提案する。
連続的な入力設定では、モデム的な仮定により、相乗効果と呼ばれる特徴間の相互作用の完全な説明が可能であることを示す。
相乗効果を分配する政策によって,様々な手法がどう特徴づけられるかを明らかにする。
また,相乗関数の一種であるモノミアルに対する作用が勾配ベース手法の特徴であることを示し,特異な勾配ベース手法を導入する。
様々な基準の組み合わせは、属性/相互作用法を一意に定義する。
したがって、コミュニティは属性とインタラクションメソッドを開発し、採用する際に、目標とコンテキストを特定する必要がある。 Deep learning has revolutionized many areas of machine learning, from computer vision to natural language processing, but these high-performance models are generally "black box." Explaining such models would improve transparency and trust in AI-powered decision making and is necessary for understanding other practical needs such as robustness and fairness. A popular means of enhancing model transparency is to quantify how individual inputs contribute to model outputs (called attributions) and the magnitude of interactions between groups of inputs. A growing number of these methods import concepts and results from game theory to produce attributions and interactions. This work presents a unifying framework for game-theory-inspired attribution and $k^\text{th}$-order interaction methods. We show that, given modest assumptions, a unique full account of interactions between features, called synergies, is possible in the continuous input setting. We identify how various methods are characterized by their policy of distributing synergies. We also demonstrate that gradient-based methods are characterized by their actions on monomials, a type of synergy function, and introduce unique gradient-based methods. We show that the combination of various criteria uniquely defines the attribution/interaction methods. Thus, the community needs to identify goals and contexts when developing and employing attribution and interaction methods. | 翻訳日:2023-05-08 16:25:40 公開日:2023-05-04 |
# 高速教師付き学習のためのブートストラップアルゴリズム A Bootstrap Algorithm for Fast Supervised Learning ( http://arxiv.org/abs/2305.03099v1 ) ライセンス: Link先を確認 | Michael A Kouritzin, Stephen Styles and Beatrice-Helen Vritsiou | (参考訳) ニューラルネットワーク(NN)のトレーニングは通常、勾配降下(GD)や確率勾配降下(SGD)、ADADELTA、ADAM、あるいは限られたメモリアルゴリズムなど、ある種の曲線追従法に依存する。
これらのアルゴリズムの収束は通常、高いレベルの精度を達成するために大量の観測にアクセスできることに依存しており、特定の種類の関数で、これらのアルゴリズムはキャッチするデータポイントの複数のエポックを取ることができる。
ここでは,特に浅層ネットワークにおいて,収束速度が劇的に向上する可能性のある,別の手法が検討されている。 カーブフォローではなく,隠れたレイヤの分離と,ブートストラップ,リニアレグレッションによる重み付け接続の更新に依存している。
再サンプリングされた観測を利用して、このプロセスの収束は驚くほど速く、より少ないデータポイントを必要とすることが実証的に示され、特に、我々の実験では、様々な種類の関数を近似するために、従来のニューラルネットワークトレーニング手法で必要とされる観測のごく一部が必要であることが示されている。 Training a neural network (NN) typically relies on some type of curve-following method, such as gradient descent (GD) (and stochastic gradient descent (SGD)), ADADELTA, ADAM or limited memory algorithms. Convergence for these algorithms usually relies on having access to a large quantity of observations in order to achieve a high level of accuracy and, with certain classes of functions, these algorithms could take multiple epochs of data points to catch on. Herein, a different technique with the potential of achieving dramatically better speeds of convergence, especially for shallow networks, is explored: it does not curve-follow but rather relies on 'decoupling' hidden layers and on updating their weighted connections through bootstrapping, resampling and linear regression. By utilizing resampled observations, the convergence of this process is empirically shown to be remarkably fast and to require a lower amount of data points: in particular, our experiments show that one needs a fraction of the observations that are required with traditional neural network training methods to approximate various classes of functions. | 翻訳日:2023-05-08 16:25:21 公開日:2023-05-04 |
# 深部多像像を用いた高分解能乳房スキャンにおける教師なし異常像定位 Unsupervised anomaly localization in high-resolution breast scans using deep pluralistic image completion ( http://arxiv.org/abs/2305.03098v1 ) ライセンス: Link先を確認 | Nicholas Konz, Haoyu Dong, Maciej A. Mazurowski | (参考訳) デジタル乳房共生(DBT)における腫瘍自動検出は, 天然腫瘍の出現率, 乳房組織の変化, 高分解能により困難である。
異常画像の不足と正常画像の多さを考えると,異常検出・局所化アプローチが適している可能性がある。
しかし、機械学習におけるほとんどの異常なローカライゼーション研究は、非医療的データセットに焦点を当てており、医療画像データセットに適用した場合、これらの手法は不足している。
画像完成の観点から課題を解決した場合、その課題は、その本来の外観と周囲条件のオートコンプリートとの食い違いによって、異常の存在を示すことができる。
しかし、同じ環境、特にDBTデータセットにおいて、多くの有効な正規補完が存在するため、この評価基準はより正確ではない。
このような問題に対処するため,我々は,定型的な予測を生成するのではなく,可能な完了の分布を探索することで,多元的画像補完を考える。
これは、推論時間のみに空間的なドロップアウトを適用し、追加のトレーニングコストを必要とせず、多様な完了を生成するのに有効である。
さらに,これらの確率的完備化により,新たな異常検出指標である最小完備距離(MCD)を提案する。
本稿では,提案手法を異常局所化に用いる既存手法よりも優れていることを示すとともに,理論的支援を行う。
DBTデータセットでは、我々のモデルは、画素レベルの検出のために少なくとも10\% AUROCで、他の最先端手法よりも優れている。 Automated tumor detection in Digital Breast Tomosynthesis (DBT) is a difficult task due to natural tumor rarity, breast tissue variability, and high resolution. Given the scarcity of abnormal images and the abundance of normal images for this problem, an anomaly detection/localization approach could be well-suited. However, most anomaly localization research in machine learning focuses on non-medical datasets, and we find that these methods fall short when adapted to medical imaging datasets. The problem is alleviated when we solve the task from the image completion perspective, in which the presence of anomalies can be indicated by a discrepancy between the original appearance and its auto-completion conditioned on the surroundings. However, there are often many valid normal completions given the same surroundings, especially in the DBT dataset, making this evaluation criterion less precise. To address such an issue, we consider pluralistic image completion by exploring the distribution of possible completions instead of generating fixed predictions. This is achieved through our novel application of spatial dropout on the completion network during inference time only, which requires no additional training cost and is effective at generating diverse completions. We further propose minimum completion distance (MCD), a new metric for detecting anomalies, thanks to these stochastic completions. We provide theoretical as well as empirical support for the superiority over existing methods of using the proposed method for anomaly localization. On the DBT dataset, our model outperforms other state-of-the-art methods by at least 10\% AUROC for pixel-level detection. | 翻訳日:2023-05-08 16:25:01 公開日:2023-05-04 |
# 連帯型アンサンブル指向オフライン強化学習 Federated Ensemble-Directed Offline Reinforcement Learning ( http://arxiv.org/abs/2305.03097v1 ) ライセンス: Link先を確認 | Desik Rengarajan, Nitin Ragothaman, Dileep Kalathil, Srinivas Shakkottai | (参考訳) 分散学習エージェントは、未知の行動ポリシーに基づいて生成された小さな事前収集データセットのみを用いて、高品質な制御ポリシーを協調的に学習しなければならない。
この問題を解決するために、標準のオフラインRLアプローチと標準のフェデレーション学習アプローチを組み合わせることは、パフォーマンスの悪いポリシーにつながる。
そこで我々は,アンサンブル学習アプローチを用いて,クライアントの集合知を蒸留するFederated Ensemble-Directed Offline Reinforcement Learning Algorithm (FEDORA)を開発した。
我々は,フェデレート学習プラットフォーム上で分散計算資源を利用するFEDORAコードベースを開発した。
FEDORAは、様々な複雑な連続制御環境や実世界のデータセットにおいて、組み合わせデータプールに対するオフラインRLなど、他のアプローチよりも大幅に優れています。
最後に,モバイルロボットを用いた実世界におけるFEDORAの性能を示す。 We consider the problem of federated offline reinforcement learning (RL), a scenario under which distributed learning agents must collaboratively learn a high-quality control policy only using small pre-collected datasets generated according to different unknown behavior policies. Naively combining a standard offline RL approach with a standard federated learning approach to solve this problem can lead to poorly performing policies. In response, we develop the Federated Ensemble-Directed Offline Reinforcement Learning Algorithm (FEDORA), which distills the collective wisdom of the clients using an ensemble learning approach. We develop the FEDORA codebase to utilize distributed compute resources on a federated learning platform. We show that FEDORA significantly outperforms other approaches, including offline RL over the combined data pool, in various complex continuous control environments and real world datasets. Finally, we demonstrate the performance of FEDORA in the real-world on a mobile robot. | 翻訳日:2023-05-08 16:24:35 公開日:2023-05-04 |
# 分類器を用いたコーパスのキュレート:オンラインクリーンエネルギー感情の事例研究 Curating corpora with classifiers: A case study of clean energy sentiment online ( http://arxiv.org/abs/2305.03092v1 ) ライセンス: Link先を確認 | Michael V. Arnold, Peter Sheridan Dodds, Chris M. Danforth | (参考訳) 広く世論を広めた大規模なソーシャルメディア投稿のコーパスは、従来の調査を補完する代替データソースを提供する。
調査は代表サンプルの収集に有効であり、高い精度を達成することができるが、数日ないし数週間で、実行や世論の遅れは高くつく。
これらの欠点は、リアルタイムで高ボリュームなデータストリームと高速な分析パイプラインで克服することができる。
このようなデータパイプラインを編成する上での課題は、分析のために関連ドキュメントの最高のコーパスを迅速に選択する効果的な方法を考案することである。
キーワードのみを問合せすると、バグ・オブ・ワードの自然言語処理手法と容易に区別できない無関係な文書がしばしば含まれる。
本稿では,手書きツイートの2進分類タスクを微調整したトランスフォーマーモデルを用いて,無関係なツイートをフィルタリングするコーパスキュレーション手法を検討する。
F1スコアは最大0.95まで達成できます。
このようなモデルの低コストで高性能な微調整は,コーパス境界が不明なソーシャルメディアデータセットの前処理ステップとして,幅広いメリットがある可能性が示唆されている。 Well curated, large-scale corpora of social media posts containing broad public opinion offer an alternative data source to complement traditional surveys. While surveys are effective at collecting representative samples and are capable of achieving high accuracy, they can be both expensive to run and lag public opinion by days or weeks. Both of these drawbacks could be overcome with a real-time, high volume data stream and fast analysis pipeline. A central challenge in orchestrating such a data pipeline is devising an effective method for rapidly selecting the best corpus of relevant documents for analysis. Querying with keywords alone often includes irrelevant documents that are not easily disambiguated with bag-of-words natural language processing methods. Here, we explore methods of corpus curation to filter irrelevant tweets using pre-trained transformer-based models, fine-tuned for our binary classification task on hand-labeled tweets. We are able to achieve F1 scores of up to 0.95. The low cost and high performance of fine-tuning such a model suggests that our approach could be of broad benefit as a pre-processing step for social media datasets with uncertain corpus boundaries. | 翻訳日:2023-05-08 16:24:19 公開日:2023-05-04 |
# 問合せ生成のための問合せと問合せのモデル化 Modeling What-to-ask and How-to-ask for Answer-unaware Conversational Question Generation ( http://arxiv.org/abs/2305.03088v1 ) ライセンス: Link先を確認 | Xuan Long Do, Bowei Zou, Shafiq Joty, Anh Tai Tran, Liangming Pan, Nancy F. Chen, Ai Ti Aw | (参考訳) 会話型質問生成(cqg)は、人間が会話を通じて情報ニーズを満たすのを支援する機械にとって重要なタスクである。
このタスクは一般的に2つの異なる設定に分類される。
前者は期待する回答を公開することによってモデルを促進するが、後者はより現実的で、最近注目を集めている。
What-to-askとHow-to-askは、回答を意識しない2つの主要な課題である。
最初の課題に対処するため、既存の手法は主に文脈内の逐次文を有理数として選択する。
このようなナイーブなヒューリスティックスを用いて生成された会話は、現実ほど自然ではないかもしれない、と我々は論じる。
さらに、以前のメソッドは生成すべき質問の種類(ブール/スパンベース)を暗黙的に決定する。
質問タイプを明示的にモデル化することは、モデルがブールあるいはスパンベースの質問を生成することを示唆する答えとして不可欠である。
この目的のために,2段階CQGフレームワークであるSG-CQGを提案する。
what-to-askステージでは、構築する意味グラフから文を論理として選択し、その文から回答スパンを抽出する。
How-to-askの段階では、分類器は、2つの明示的な制御信号を介して質問のターゲット回答タイプを決定する。
さらに,CQGの新たな評価指標であるConv-Distinctを提案し,文脈から生成された会話の多様性を評価する。
既存のCQGモデルと比較して、提案したSG-CQGは最先端の性能を実現する。 Conversational Question Generation (CQG) is a critical task for machines to assist humans in fulfilling their information needs through conversations. The task is generally cast into two different settings: answer-aware and answer-unaware. While the former facilitates the models by exposing the expected answer, the latter is more realistic and receiving growing attentions recently. What-to-ask and how-to-ask are the two main challenges in the answer-unaware setting. To address the first challenge, existing methods mainly select sequential sentences in context as the rationales. We argue that the conversation generated using such naive heuristics may not be natural enough as in reality, the interlocutors often talk about the relevant contents that are not necessarily sequential in context. Additionally, previous methods decide the type of question to be generated (boolean/span-based) implicitly. Modeling the question type explicitly is crucial as the answer, which hints the models to generate a boolean or span-based question, is unavailable. To this end, we present SG-CQG, a two-stage CQG framework. For the what-to-ask stage, a sentence is selected as the rationale from a semantic graph that we construct, and extract the answer span from it. For the how-to-ask stage, a classifier determines the target answer type of the question via two explicit control signals before generating and filtering. In addition, we propose Conv-Distinct, a novel evaluation metric for CQG, to evaluate the diversity of the generated conversation from a context. Compared with the existing answer-unaware CQG models, the proposed SG-CQG achieves state-of-the-art performance. | 翻訳日:2023-05-08 16:24:00 公開日:2023-05-04 |
# ニューラルネットワークによる暗黒物質ハロ密度分布の解明 Explaining dark matter halo density profiles with neural networks ( http://arxiv.org/abs/2305.03077v1 ) ライセンス: Link先を確認 | Luisa Lucie-Smith, Hiranya V. Peiris and Andrew Pontzen | (参考訳) 説明可能なニューラルネットワークを用いて、暗黒物質ハロの進化史と密度プロファイルを結びつける。
ネットワークは低次元表現における密度プロファイルの変化の独立な要因を捉え、相互情報を用いて物理的に解釈する。
ハロスの進化に関する事前の知識がなければ、ネットワークは初期の組立と内部プロファイルの間の既知の関係を回復し、ウイルス半径を超えるプロファイルが最新の質量蓄積率を計測する単一のパラメータによって記述されることを発見する。
この結果は、複雑な天体物理学データセットにおける機械による科学的発見の可能性を示している。 We use explainable neural networks to connect the evolutionary history of dark matter halos with their density profiles. The network captures independent factors of variation in the density profiles within a low-dimensional representation, which we physically interpret using mutual information. Without any prior knowledge of the halos' evolution, the network recovers the known relation between the early time assembly and the inner profile, and discovers that the profile beyond the virial radius is described by a single parameter capturing the most recent mass accretion rate. The results illustrate the potential for machine-assisted scientific discovery in complicated astrophysical datasets. | 翻訳日:2023-05-08 16:23:38 公開日:2023-05-04 |
# コアシェルダイヤモンドナノ結晶のスピンコヒーレンス Engineering Spin Coherence in Core-Shell Diamond Nanocrystals ( http://arxiv.org/abs/2305.03075v1 ) ライセンス: Link先を確認 | Uri Zvi, Denis R. Candido, Adam Weiss, Aidan R. Jones, Lingjie Chen, Iryna Golovina, Xiaofei Yu, Stella Wang, Dmitri V. Talapin, Michael E. Flatt\'e, Aaron P. Esser-Kahn, Peter C. Maurer | (参考訳) ダイヤモンドナノ結晶は、ナノスケール空間分解能を持つ生体システムの物理的特性を探索できるスピン量子ビットセンサーを搭載できる。
これらのダイヤモンドナノセンサーは、無傷の細胞や生物に容易に届けられる。
しかし、現在の実証実験以外の応用には、表面ノイズによるスピンの脱落と緩和によって制限される感度が大幅に向上する必要がある。
本研究では, 工学的コアシェル構造による磁性表面のノイズを著しく低減し, 動的デカップリングと組み合わせることで, 52usから87usまでのクビットコヒーレンス時間(T2)が得られ, 素粒子にみられる1.1usから35usの大幅な改善が得られた。
このスピンコヒーレンスの改善は、粒子蛍光の全体的な増加と相まって、積分時間の2次減少に対応する。
さらに、単一粒子レベルでキュービットダイナミクスを求めると、ノイズ特性が実験中に空間配置を再構成するスピンを持つ浴槽から、より希薄な静浴へと根本的に変化することが明らかとなった。
その結果, ダイヤモンドナノ結晶におけるスピン脱落機構の解明と, コアシェル構造に基づく有効ノイズ低減戦略が得られた。 Diamond nanocrystals can harbor spin qubit sensors capable of probing the physical properties of biological systems with nanoscale spatial resolution. These diamond nanosensors can readily be delivered into intact cells and even living organisms. However, applications beyond current proof-of-principle experiments require a substantial increase in sensitivity, which is generally limited by surface-noise-induced spin dephasing and relaxation. In this work, we significantly reduce magnetic surface noise by engineering core-shell structures, which in combination with dynamical decoupling result in qubit coherence times (T2) ranging from 52us to 87us - a drastic improvement over the 1.1us to 35us seen in bare particles. This improvement in spin coherence, combined with an overall increase in particle fluorescence, corresponds to a two-order-of-magnitude reduction in integration time. Probing qubit dynamics at a single particle level, furthermore, reveals that the noise characteristics fundamentally change from a bath with spins that rearrange their spatial configuration during the course of an experiment to a more dilute static bath. The observed results shed light on the underlying mechanisms governing spin dephasing in diamond nanocrystals and offer an effective noise mitigation strategy based on engineered core-shell structures. | 翻訳日:2023-05-08 16:23:26 公開日:2023-05-04 |
# NLPのクラスタリング性能に及ぼす各種テキスト埋め込みの影響 Influence of various text embeddings on clustering performance in NLP ( http://arxiv.org/abs/2305.03144v1 ) ライセンス: Link先を確認 | Rohan Saha | (参考訳) 電子商取引プラットフォームの出現に伴い、顧客が製品の信頼性を評価するためにはレビューが不可欠である。
スター評価は、顧客によって書かれたレビューテキストと必ずしも一致しない。
例えば、3つ星の評価(5つ星のうち)は、レビューテキストと矛盾する可能性がある。
クラスタリングアプローチは、テキストレビューを個々のグループにグループ化し、正しい星の評価をリラベルするために使うことができる。
本研究では,これらのレビューを表現するために異なるテキスト組込みを選択するタスクを探索するとともに,組込み選択が各種クラスタリングアルゴリズムの性能に与える影響について検討する。
我々は、コンテキスト(BERT)と非コンテキスト(Word2Vec)のテキスト埋め込みを使用して、テキストを表現し、クラスタリングアルゴリズム(パーティショニングベース(KMeans)、単一リンク集約階層、密度ベース(DBSCANとHDBSCAN)の3つのクラスの影響を測定する。
我々は、silhouetteスコア、調整されたrandインデックススコア、クラスタ純度スコアメトリクスを用いて、アルゴリズムの性能を評価し、異なる埋め込みがクラスタリング性能に与える影響について論じる。
以上の結果から,組込み方式がアルゴリズムの性能に大きく影響すること,組込み方式が他よりも優れていること,DBSCANがKMeansや単一リンク集約クラスタリングより優れていること,さらにデータポイントをアウトレーヤとしてラベル付けすること,などが示唆された。
異なるアルゴリズムの性能を徹底的に比較し、テキストクラスタリングの分野におけるさらなる研究を促進するための多くのアイデアを提供する。 With the advent of e-commerce platforms, reviews are crucial for customers to assess the credibility of a product. The star ratings do not always match the review text written by the customer. For example, a three star rating (out of five) may be incongruous with the review text, which may be more suitable for a five star review. A clustering approach can be used to relabel the correct star ratings by grouping the text reviews into individual groups. In this work, we explore the task of choosing different text embeddings to represent these reviews and also explore the impact the embedding choice has on the performance of various classes of clustering algorithms. We use contextual (BERT) and non-contextual (Word2Vec) text embeddings to represent the text and measure their impact of three classes on clustering algorithms - partitioning based (KMeans), single linkage agglomerative hierarchical, and density based (DBSCAN and HDBSCAN), each with various experimental settings. We use the silhouette score, adjusted rand index score, and cluster purity score metrics to evaluate the performance of the algorithms and discuss the impact of different embeddings on the clustering performance. Our results indicate that the type of embedding chosen drastically affects the performance of the algorithm, the performance varies greatly across different types of clustering algorithms, no embedding type is better than the other, and DBSCAN outperforms KMeans and single linkage agglomerative clustering but also labels more data points as outliers. We provide a thorough comparison of the performances of different algorithms and provide numerous ideas to foster further research in the domain of text clustering. | 翻訳日:2023-05-08 16:18:32 公開日:2023-05-04 |
# 大域 atstasis の一般化モデルとしてのコントラスト損失 Contrastive losses as generalized models of global epistasis ( http://arxiv.org/abs/2305.03136v1 ) ライセンス: Link先を確認 | David H. Brookes, Jakub Otwinowski, and Sam Sinai | (参考訳) 適合関数は、生物系列の大きな組合せ空間を興味のある性質にマップする。
実験データからこれらのマルチモーダル関数を推測することは、現代のタンパク質工学において中心的なタスクである。
グローバルエピスタシスモデル(global epistasis model)は、観測データからフィットネス関数を推定するための有効で物理的に接地したモデルである。
これらのモデルは、スパース潜在関数が単調非線形性によって変換され、測定可能な適合度が生成されると仮定する。
本稿では,ブラッドレー・テリー損失のようなコントラスト損失関数を最小化することは,グローバル・エピスタシスが暗黙の潜在関数を抽出するための単純で柔軟な手法であることを示す。
我々は、大域的エピスタシスモデルの非線形性は、疎表現を含まない観察されたフィットネス関数を生成できるため、平均二乗誤差(MSE)損失を用いた場合の観察から学ぶのが非効率的である、というフィットネス・エピスタシスの不確実性原理を議論する。
我々は,MSEが有効でない制度においても,限られたデータからランキング関数を正確に推定できることを示す。
この洞察の実用的有用性を検証するために,コントラスト損失関数がベンチマークタスクのパフォーマンスを一貫して向上させることを示す。 Fitness functions map large combinatorial spaces of biological sequences to properties of interest. Inferring these multimodal functions from experimental data is a central task in modern protein engineering. Global epistasis models are an effective and physically-grounded class of models for estimating fitness functions from observed data. These models assume that a sparse latent function is transformed by a monotonic nonlinearity to emit measurable fitness. Here we demonstrate that minimizing contrastive loss functions, such as the Bradley-Terry loss, is a simple and flexible technique for extracting the sparse latent function implied by global epistasis. We argue by way of a fitness-epistasis uncertainty principle that the nonlinearities in global epistasis models can produce observed fitness functions that do not admit sparse representations, and thus may be inefficient to learn from observations when using a Mean Squared Error (MSE) loss (a common practice). We show that contrastive losses are able to accurately estimate a ranking function from limited data even in regimes where MSE is ineffective. We validate the practical utility of this insight by showing contrastive loss functions result in consistently improved performance on benchmark tasks. | 翻訳日:2023-05-08 16:17:10 公開日:2023-05-04 |
# 名前付きエンティティ認識におけるグローバルコンテキストとローカルコンテキストの役割 The Role of Global and Local Context in Named Entity Recognition ( http://arxiv.org/abs/2305.03132v1 ) ライセンス: Link先を確認 | Arthur Amalvy, Vincent Labatut, Richard Dufour | (参考訳) Named Entity Recognition (NER)に適用した場合、事前訓練されたトランスフォーマーベースのモデルの性能が向上した。
自己追跡機構の複雑さにより、長い文書を一度に処理できないため、これらのモデルは通常シーケンシャルに適用される。
このようなアプローチは、残念ながらローカルコンテキストのみを取り入れており、小説などの長文文書におけるグローバルドキュメントコンテキストの活用を妨げている。
本稿では,グローバルな文書コンテキストの影響と,そのローカルなコンテキストとの関係について考察する。
グローバルなドキュメントコンテキストを正しく取得することは、ローカルコンテキストのみを活用することよりもパフォーマンスに大きな影響を与え、そのコンテキストをよりよく取得する方法のさらなる研究を促す。 Pre-trained transformer-based models have recently shown great performance when applied to Named Entity Recognition (NER). As the complexity of their self-attention mechanism prevents them from processing long documents at once, these models are usually applied in a sequential fashion. Such an approach unfortunately only incorporates local context and prevents leveraging global document context in long documents such as novels, which might hinder performance. In this article, we explore the impact of global document context, and its relationships with local context. We find that correctly retrieving global document context has a greater impact on performance than only leveraging local context, prompting for further research on how to better retrieve that context. | 翻訳日:2023-05-08 16:16:38 公開日:2023-05-04 |
# Chain-of-Skills:オープンドメイン質問回答のための構成可能なモデル Chain-of-Skills: A Configurable Model for Open-domain Question Answering ( http://arxiv.org/abs/2305.03130v1 ) ライセンス: Link先を確認 | Kaixin Ma, Hao Cheng, Yu Zhang, Xiaodong Liu, Eric Nyberg, Jianfeng Gao | (参考訳) 検索モデルは現実世界の知識集約的なタスク、例えばオープンドメイン質問応答(ODQA)に必須のコンポーネントである。
異なるデータセットに対して別々の検索スキルがアノテートされるため、最近の研究はカスタマイズされたメソッドに焦点を当て、モデルの転送可能性とスケーラビリティを制限する。
本研究では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
我々のアプローチは、パフォーマンスを高めるためにターゲットドメインに基づいた柔軟なスキル構成をサポートします。
タスク干渉を軽減するため,スパース変圧器にインスパイアされた新しいモジュラー化パラメータ化を設計する。
我々は,ウィキペディアの自己教師型事前学習と,複数のODQAデータセットを用いた微調整の恩恵を受けることができることを示した。
提案手法は,NQ,HotpotQA,OTT-QAにおけるゼロショット評価において,近年の自己教師型検索よりも優れ,最先端の微調整検索性能を実現している。 The retrieval model is an indispensable component for real-world knowledge-intensive tasks, e.g., open-domain question answering (ODQA). As separate retrieval skills are annotated for different datasets, recent work focuses on customized methods, limiting the model transferability and scalability. In this work, we propose a modular retriever where individual modules correspond to key skills that can be reused across datasets. Our approach supports flexible skill configurations based on the target domain to boost performance. To mitigate task interference, we design a novel modularization parameterization inspired by sparse Transformer. We demonstrate that our model can benefit from self-supervised pretraining on Wikipedia and fine-tuning using multiple ODQA datasets, both in a multi-task fashion. Our approach outperforms recent self-supervised retrievers in zero-shot evaluations and achieves state-of-the-art fine-tuned retrieval performance on NQ, HotpotQA and OTT-QA. | 翻訳日:2023-05-08 16:16:25 公開日:2023-05-04 |
# 社会デモグラフィを用いた術前・術後がん検診におけるsmsリマインダーキャンペーンの最適化 : 膀胱癌に対するin-silco調査 Optimizing SMS Reminder Campaigns for Pre- and Post-Diagnosis Cancer Check-Ups using Socio-Demographics: An In-Silco Investigation Into Bladder Cancer ( http://arxiv.org/abs/2305.03126v1 ) ライセンス: Link先を確認 | Elizaveta Savchenko, Ariel Rosenfeld, Svetlana Bunimovich-Mendrazitsky | (参考訳) 診断前および術後のタイムリーなチェックアップは、がん患者にとって、あらゆる種類のがん患者にとって重要である。
いくつかの社会デマトグラフィー特性は、がんの臨床的ダイナミクスと(間接的に)個々のチェックアップ行動に強く関係していると認識されている。
残念ながら、既存のチェックアップポリシーは通常、以前の協会のみを明示的に考慮している。
本研究では,高分解能コンピュータシミュレーションを伴って,がん検診のための社会デマトグラフィに基づくSMSリマインダーキャンペーンを探索し,最適化する新しいフレームワークを提案する。
現在最も普及している10番目の膀胱癌に対する枠組みとシミュレーションを、広範囲な実世界データを用いて検討する。
以上の結果から,smsリマインダーキャンペーンは,単純な社会デポグラフィのみに基づいて最適化することで,死亡率を最大5.8%削減できる可能性が示唆された。 Timely pre- and post-diagnosis check-ups are critical for cancer patients, across all cancer types, as these often lead to better outcomes. Several socio-demographic properties have been identified as strongly connected with both cancer's clinical dynamics and (indirectly) with different individual check-up behaviors. Unfortunately, existing check-up policies typically consider only the former association explicitly. In this work, we propose a novel framework, accompanied by a high-resolution computer simulation, to investigate and optimize socio-demographic-based SMS reminder campaigns for cancer check-ups. We instantiate our framework and simulation for the case of bladder cancer, the 10th most prevalent cancer today, using extensive real-world data. Our results indicate that optimizing an SMS reminder campaign based solely on simple socio-demographic features can bring about a statistically significant reduction in mortality rate compared to alternative campaigns by up to 5.8%. | 翻訳日:2023-05-08 16:16:07 公開日:2023-05-04 |
# 相関最大化と最小化によるマルチモーダル理解 Multimodal Understanding Through Correlation Maximization and Minimization ( http://arxiv.org/abs/2305.03125v1 ) ライセンス: Link先を確認 | Yifeng Shi, Marc Niethammer | (参考訳) マルチモーダル学習は、ダウンストリームタスクのパフォーマンスを改善するために、大きなモデルを学習し、異なるモダリティから特徴表現を融合することに集中している。
本稿では,この傾向から遠ざかって,マルチモーダルデータの本質的性質について,次のような質問をする。
1)汎用マルチモーダルデータのより構造化された潜在表現を学べるか?
;そして
2) 数学的にも視覚的にも直感的に理解できますか。
1)に答えるために,相関最大化と最小化(mucmm)によるマルチモーダル理解という汎用的で軽量なフレームワークを提案する。
MUCMMは共通表現と個別表現の両方を学ぶ。
共通表現はモダリティの間に共通するものをキャプチャし、個々の表現はモダリティのユニークな側面をキャプチャする。
そこで本研究では,学習した共通構造と個々の構造を要約した新たなスコアを提案し,各表現を視覚的に把握し,入力に関するスコア勾配を可視化する。
さらに,線形設定で計算された勾配の数学的直観性を提供し,様々な実験によるアプローチの有効性を実証する。 Multimodal learning has mainly focused on learning large models on, and fusing feature representations from, different modalities for better performances on downstream tasks. In this work, we take a detour from this trend and study the intrinsic nature of multimodal data by asking the following questions: 1) Can we learn more structured latent representations of general multimodal data?; and 2) can we intuitively understand, both mathematically and visually, what the latent representations capture? To answer 1), we propose a general and lightweight framework, Multimodal Understanding Through Correlation Maximization and Minimization (MUCMM), that can be incorporated into any large pre-trained network. MUCMM learns both the common and individual representations. The common representations capture what is common between the modalities; the individual representations capture the unique aspect of the modalities. To answer 2), we propose novel scores that summarize the learned common and individual structures and visualize the score gradients with respect to the input, visually discerning what the different representations capture. We further provide mathematical intuitions of the computed gradients in a linear setting, and demonstrate the effectiveness of our approach through a variety of experiments. | 翻訳日:2023-05-08 16:15:49 公開日:2023-05-04 |
# 人間の説明はいつも役に立つのか?
自然言語説明の客観的評価に向けて Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations ( http://arxiv.org/abs/2305.03117v1 ) ライセンス: Link先を確認 | Bingsheng Yao, Prithviraj Sen, Lucian Popa, James Hendler and Dakuo Wang | (参考訳) 人間の注釈付きラベルと説明は、説明可能なNLPモデルのトレーニングに不可欠である。
しかし、品質が校正し易い(例えば多数決など)人称アノテートラベルとは異なり、人間による自由形の説明は非常に主観的であり、最近の研究でも議論されている。
mlモデルをトレーニングするための基礎的真実として盲目的に使用する前に、重要な疑問を問う必要がある。
本稿では、アノテーションが収集された所望のNLPタスクに対して、MLモデルの性能に対する有用性(または障害)に基づいて、人手による説明の質を計測できるという視点に基づいて構築する。
汎用のシミュラタビリティスコアと比較し、微調整と推論の両方におけるモデル性能の説明の有益さを考慮に入れることができる新しいメトリクスを定義した。
統合されたデータセットフォーマットを用いて,提案手法を5つのデータセット(例えばe-SNLI)上で2つのモデルアーキテクチャ(T5とBART)に対して評価し,提案手法が人間に注釈付けされた説明の質を客観的に評価できることを示した。 Human-annotated labels and explanations are critical for training explainable NLP models. However, unlike human-annotated labels whose quality is easier to calibrate (e.g., with a majority vote), human-crafted free-form explanations can be quite subjective, as some recent works have discussed. Before blindly using them as ground truth to train ML models, a vital question needs to be asked: How do we evaluate a human-annotated explanation's quality? In this paper, we build on the view that the quality of a human-annotated explanation can be measured based on its helpfulness (or impairment) to the ML models' performance for the desired NLP tasks for which the annotations were collected. In comparison to the commonly used Simulatability score, we define a new metric that can take into consideration the helpfulness of an explanation for model performance at both fine-tuning and inference. With the help of a unified dataset format, we evaluated the proposed metric on five datasets (e.g., e-SNLI) against two model architectures (T5 and BART), and the results show that our proposed metric can objectively evaluate the quality of human-annotated explanations, while Simulatability falls short. | 翻訳日:2023-05-08 16:15:29 公開日:2023-05-04 |
# 弱教師付きセマンティックセグメンテーションにおける変圧器の非偏平オーバースムーシングの軽減 Mitigating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.03112v1 ) ライセンス: Link先を確認 | Jingxuan He, Lechao Cheng, Chaowei Fang, Dingwen Zhang, Zhangye Wang, Wei Chen | (参考訳) 近年、その顕著な効率性から、弱い教師付きセマンティックセグメンテーションへの関心が高まっている。
トランスフォーマーに基づく既存のアプローチは主に、グローバルな関係を持つCAMを促進するアフィニティ行列の探索に焦点を当てている。
本研究は,まず連続した親和性行列の影響を考慮し,ネットワークが収束に近づき,過度なスムース化の顕在化を示すため,スペーサー化への傾きがあることを発見する。
また,注意度マップの強化は,より深い層において相当量の背景雑音を緩和する傾向が観察されている。
そこで本研究では,非分別オーバースムーシング現象が意味論的に無関係な背景雑音の注目に値する量をもたらし,性能低下を引き起こすという大胆な推測を仮定する。
この問題を軽減するため,我々は,特徴の領域を調査して興味の対象を強調する新たな視点を提案し,その結果,連続する親和性行列の広範囲な理解を育む。
そこで本研究では,物体内の不完全注意の問題や背景雑音を緩和する適応的再活性化機構(aream)を提案する。
AReAMは、浅い親和性行列で高いレベルの注意を監督することでこれを達成し、有望な結果をもたらす。
提案したAREAMにより, セグメンテーションの結果は, 深い層内の親和性行列に制限を課し, セグメンテーションの結果を大幅に改善できることを示した。 A surge of interest has emerged in weakly supervised semantic segmentation due to its remarkable efficiency in recent years. Existing approaches based on transformers mainly focus on exploring the affinity matrix to boost CAMs with global relationships. While in this work, we first perform a scrupulous examination towards the impact of successive affinity matrices and discover that they possess an inclination toward sparsification as the network approaches convergence, hence disclosing a manifestation of over-smoothing. Besides, it has been observed that enhanced attention maps tend to evince a substantial amount of extraneous background noise in deeper layers. Drawing upon this, we posit a daring conjecture that the undisciplined over-smoothing phenomenon introduces a noteworthy quantity of semantically irrelevant background noise, causing performance degradation. To alleviate this issue, we propose a novel perspective that highlights the objects of interest by investigating the regions of the trait, thereby fostering an extensive comprehension of the successive affinity matrix. Consequently, we suggest an adaptive re-activation mechanism (AReAM) that alleviates the issue of incomplete attention within the object and the unbounded background noise. AReAM accomplishes this by supervising high-level attention with shallow affinity matrices, yielding promising results. Exhaustive experiments conducted on the commonly used dataset manifest that segmentation results can be greatly improved through our proposed AReAM, which imposes restrictions on each affinity matrix in deep layers to make it attentive to semantic regions. | 翻訳日:2023-05-08 16:15:06 公開日:2023-05-04 |
# LLMはすでにデータベースインターフェースとして使えるか?
大規模データベース接地型テキストからsqlへの大きなベンチ Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs ( http://arxiv.org/abs/2305.03111v1 ) ライセンス: Link先を確認 | Jinyang Li, Binyuan Hui, Ge Qu, Binhua Li, Jiaxi Yang, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Chenhao Ma, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li | (参考訳) 自然言語命令を実行可能なSQLに変換することを目的としたテキストからSQLの構文解析が近年注目を集めている。
特に、codexとchatgptはこのタスクで印象的な結果を示している。
しかし、最も一般的なベンチマーク、すなわちスパイダーとウィキSQLは、学術研究と現実世界のアプリケーションの間のギャップを残したデータベース内容の行数でデータベーススキーマに焦点を当てている。
このギャップを軽減するために,テキストからSQLへのタスクをベースとした大規模データベースのベンチマークとして,12,751対のテキストからSQLデータと,合計33.4GBの95のデータベースを対象とするBirdを紹介した。
データベースの価値に重点を置いているのは、汚いデータベースの内容、NL質問とデータベースの内容の間の外部知識、SQL効率、特に大規模データベースの文脈における新しい課題です。
これらの問題を解決するためには、意味解析に加えて、データベース値の理解も必要である。
実験により,大規模データベースの正確なテキスト-SQL生成におけるデータベース値の重要性が示された。
さらに、最も効果的なテキスト対sqlモデル、すなわちchatgptでさえ、実行精度が40.08%しか達成していない。
さらに、業界に有益なテキストから効率のよいsqlを生成するための洞察を提供するための効率分析も提供しています。
BIRDは,テキスト・トゥ・SQL研究の現実的応用の進展に寄与すると考えている。
リーダーボードとソースコードは、https://bird-bench.github.io/で入手できる。 Text-to-SQL parsing, which aims at converting natural language instructions into executable SQLs, has gained increasing attention in recent years. In particular, Codex and ChatGPT have shown impressive results in this task. However, most of the prevalent benchmarks, i.e., Spider, and WikiSQL, focus on database schema with few rows of database contents leaving the gap between academic study and real-world applications. To mitigate this gap, we present Bird, a big benchmark for large-scale database grounded in text-to-SQL tasks, containing 12,751 pairs of text-to-SQL data and 95 databases with a total size of 33.4 GB, spanning 37 professional domains. Our emphasis on database values highlights the new challenges of dirty database contents, external knowledge between NL questions and database contents, and SQL efficiency, particularly in the context of massive databases. To solve these problems, text-to-SQL models must feature database value comprehension in addition to semantic parsing. The experimental results demonstrate the significance of database values in generating accurate text-to-SQLs for big databases. Furthermore, even the most effective text-to-SQL models, i.e. ChatGPT, only achieves 40.08% in execution accuracy, which is still far from the human result of 92.96%, proving that challenges still stand. Besides, we also provide an efficiency analysis to offer insights into generating text-to-efficient-SQLs that are beneficial to industries. We believe that BIRD will contribute to advancing real-world applications of text-to-SQL research. The leaderboard and source code are available: https://bird-bench.github.io/. | 翻訳日:2023-05-08 16:14:38 公開日:2023-05-04 |
# ボソニックモードに結合した量子系における冷却と熱シフトの効果的記述 Effective description of cooling and thermal shifts in quantum systems coupled to bosonic modes ( http://arxiv.org/abs/2305.03183v1 ) ライセンス: Link先を確認 | Simon B. J\"ager and Ralf Betzholz | (参考訳) 近年,散逸型ボソニックモードに動的に結合した量子系に対する効果的なリンドブラッドマスター方程式が導入された[Phys]。
Rev. Lett.
bf{129} 063601 (2022)]
このアプローチでは、ボソニックモードは断続的に排除され、量子系のダイナミクスを効果的に記述することができる。
ここでは,この実効マスター方程式を用いて,光物質相互作用を持つ系の冷却を記述できることを実証する。
2つの例を挙げる: 未解決および解決されたサイドバンド機構におけるオプトメカニカル発振器のサイドバンド冷却と相互作用量子系の冷却、横場イジングモデル。
実効的な説明と量子システムとボソニックモードによる合成の完全な数値シミュレーションを比較し,良好な一致を見出す。
さらに, 実効マスター方程式を, ボソニックモードの非消滅平均熱的占有の場合まで拡張する方法について述べる。
本手法は, 放散熱ボソニックモードに結合した2レベル系の線幅と周波数の変化を計算するために用いられる。
ここでは,このアプローチが基盤となるリウヴィル空間次元の大幅な削減を可能にすることを強調する。 Recently, an effective Lindblad master equation for quantum systems whose dynamics are coupled to dissipative bosonic modes has been introduced [Phys. Rev. Lett. \textbf{129} 063601 (2022)]. In this approach, the bosonic modes are adiabatically eliminated and one can effectively describe the dynamics of the quantum systems. Here, we demonstrate that this effective master equation can also be used to describe cooling in systems with light-matter interactions. We provide two examples: sideband cooling of an optomechanical oscillator in the unresolved as well as resolved sideband regime and cooling of an interacting quantum system, the transverse-field Ising model. We compare our effective description with a full numerical simulation of the composite formed by the quantum system plus bosonic mode and find an excellent agreement. In addition, we present how the effective master equation can be extended to the case of non-vanishing mean thermal occupations of the bosonic mode. We use this approach to calculate modifications of the linewidth and frequency for a two-level system coupled to a dissipative thermal bosonic mode. Here, we highlight that our approach allows for a massive reduction of the underlying Liouville-space dimension. | 翻訳日:2023-05-08 16:07:20 公開日:2023-05-04 |
# 近接決定的テレポーテーションプロトコルによる連続的および離散的可変デバイス間の量子モード転送 Qumode transfer between continuous and discrete variable devices by near-deterministic teleportation protocols ( http://arxiv.org/abs/2305.03179v1 ) ライセンス: Link先を確認 | Alexandru Macridin and Andy C. Y. Li and Panagiotis Spentzouris | (参考訳) 異なる種類の量子ハードウェア間で量子情報を転送することは、統合量子技術にとって不可欠である。
特に、連続変数(cv)と離散変数(dv)間の情報変換は、量子ネットワーク、量子センシング、量子機械学習、量子コンピューティングにおいて多くの応用を可能にする。
本稿では,CVとDVデバイス間のCV符号化情報の転送について述べる。
本稿では,DVデバイス上でCV状態を符号化し,CVゲートを実装するための効率的な方法と,CVとDVデバイス間でCV状態を転送するための2つのテレポーテーションプロトコルを提案する。
テレポーテーションプロトコルの成功確率は測定結果に依存するため、DVデバイスに補助量子ビットを追加することで、ほぼ決定論的値に拡張することができる。 Transferring quantum information between different types of quantum hardware is crucial for integrated quantum technology. In particular, converting information between continuous-variable (CV) and discrete-variable (DV) devices enables many applications in quantum networking, quantum sensing, quantum machine learning, and quantum computing. This paper addresses the transfer of CV-encoded information between CV and DV devices. We present an efficient method for encoding CV states and implementing CV gates on DV devices, as well as two teleportation protocols for transferring CV states between CV and DV devices. The success probability of the teleportation protocols depends on the measurement outcome and can be increased to near-deterministic values by adding ancillary qubits to the DV devices. | 翻訳日:2023-05-08 16:06:59 公開日:2023-05-04 |
# 量子情報のためのマグノンの統合 Integrating Magnons for Quantum Information ( http://arxiv.org/abs/2305.03164v1 ) ライセンス: Link先を確認 | Zhihao Jiang, Jinho Lim, Yi Li, Wolfgang Pfaff, Tzu-Hsiang Lo, Jiangchao Qian, Andr\'e Schleife, Jian-Min Zuo, Valentine Novosad and Axel Hoffmann | (参考訳) 磁気秩序物質における集合スピン励起の量子化であるマグノンは、量子情報応用に特有な性質を持つ。
マイクロ波の周波数でもナノメートルスケールまでの超小型波長を持つことができる。
それらは他の様々な量子励起との結合を提供し、その固有なジャイロトロピック力学は非相互性の発音の基礎を形成する。
本稿では、磁性材料を量子情報システムに統合する現在の研究課題と、それに対処するための展望について論じる。 Magnons, the quanta of collective spin excitations in magnetically ordered materials, have distinct properties that make them uniquely appealing for quantum information applications. They can have ultra-small wavelengths down to the nanometer scale even at microwave frequencies. They can provide coupling to a diverse set of other quantum excitations, and their inherently gyrotropic dynamics forms the basis for pronounced non-reciprocities. In this article we discuss what the current research challenges are for integrating magnetic materials into quantum information systems and provide a perspective on how to address them. | 翻訳日:2023-05-08 16:06:14 公開日:2023-05-04 |
# 結合行列変換による数原子・多モードディックモデルの効率的なテンソルネットワークシミュレーション Efficient tensor network simulation for few-atom, multimode Dicke model via coupling matrix transformation ( http://arxiv.org/abs/2305.03160v1 ) ライセンス: Link先を確認 | Christopher J. Ryu, Dong-Yeop Na, Weng C. Chew, Erhan Kudeki | (参考訳) 本稿では,結合行列変換を用いて,多原子多モード系に適用可能な連鎖マッピング手法の新たな一般化を提案する。
これは多モードディックモデルとマルチスピンボソンモデルのテンソルネットワークシミュレーションに非常に有用である。
このアプローチは、後者の結合形式を持つ同値なハミルトニアンを生成し、これをバンドハミルトニアンと呼び、その同値性をマルチモードのディック・ハミルトニアンに示す。
単一原子の場合、我々のアプローチはチェーンマッピング技術に還元されます。
数十のフィールドモードを考慮すると、超強結合系における2つの原子のテンソルネットワークシミュレーションが可能であることが判明した。
共振器に閉じ込められた一対の絡み合った原子を30の電磁モードと相互作用させることでこれを実証する。 We present a novel generalization of the chain mapping technique that applies to multi-atom, multimode systems by making use of coupling matrix transformations. This is extremely useful for tensor network simulations of multimode Dicke model and multi-spin-boson model because their coupling structures are altered from the star form to the chain form with near-neighbor interactions. Our approach produces an equivalent Hamiltonian with the latter coupling form, which we call the band Hamiltonian, and we demonstrate its equivalence to the multimode Dicke Hamiltonian. In the single atom case, our approach reduces to the chain mapping technique. When considering several tens of field modes, we have found that tensor network simulation of two atoms in the ultrastrong coupling regime is possible with our approach. We demonstrate this by considering a pair of entangled atoms confined in a cavity, interacting with thirty electromagnetic modes. | 翻訳日:2023-05-08 16:06:05 公開日:2023-05-04 |
# 凝縮相化学動力学のためのトラップイオン量子シミュレーション:量子優位性を求めて Trapped-ion quantum simulations for condensed-phase chemical dynamics: seeking a quantum advantage ( http://arxiv.org/abs/2305.03156v1 ) ライセンス: Link先を確認 | Mingyu Kang, Kai T. Liu, Sutirtha N. Chowdhury, Jonathon L. Yuly, Ke Sun, Jacob Whitlow, Jes\'us Valdiviezo, Zhendian Zhang, Peng Zhang, David N. Beratan, Kenneth R. Brown | (参考訳) 凝縮相における分子の量子力学のシミュレーションは、化学における長年の挑戦である。
トラップイオン量子システムは、現在の古典デジタルシミュレーションの範囲を超えている化学力学のアナログ量子シミュレーションの基盤として機能する。
これらのシミュレーションの「量子優位性」を特定するためには、古典的デジタルアルゴリズムとノイズの多いハードウェア上のアナログ量子シミュレーションの両方の性能解析が必要である。
本研究では,線形振動子カップリングを持つ分子の固有量子モデルを記述するモデル分子ハミルトニアンをシミュレーションし,その精度と計算コストを比較した。
分子システムをモデル化するのによく用いられるいくつかの単純なハミルトニアンについて述べる。
これらのハミルトニアンは、古典的デジタル手法の範囲を超えて、閉じ込められたイオンシミュレータの使用への踏み台として機能するかもしれない。
最後に、古典デジタルシミュレーションがアナログ量子シミュレーションに比べて最も弱い性能を持つように見える動的レジームを同定する。
これらのレジームは、潜在的な量子的な利点を生かすために最も低い吊り下げの果実を提供するかもしれない。 Simulating the quantum dynamics of molecules in the condensed phase represents a longstanding challenge in chemistry. Trapped-ion quantum systems may serve as a platform for the analog-quantum simulation of chemical dynamics that is beyond the reach of current classical-digital simulation. To identify a "quantum advantage" for these simulations, performance analysis of both classical-digital algorithms and analog-quantum simulation on noisy hardware is needed. In this Perspective, we make this comparison for the simulation of model molecular Hamiltonians that describe intrinsically quantum models for molecules that possess linear vibronic coupling, comparing the accuracy and computational cost. We describe several simple Hamiltonians that are commonly used to model molecular systems, which can be simulated with existing or emerging trapped-ion hardware. These Hamiltonians may serve as stepping stones toward the use of trapped-ion simulators beyond the reach of classical-digital methods. Finally, we identify dynamical regimes where classical-digital simulations seem to have the weakest performance compared to analog-quantum simulations. These regimes may provide the lowest hanging fruit to exploit potential quantum advantages. | 翻訳日:2023-05-08 16:05:49 公開日:2023-05-04 |
# G-MATT:分子文法木変換器を用いた単段階再合成予測 G-MATT: Single-step Retrosynthesis Prediction using Molecular Grammar Tree Transformer ( http://arxiv.org/abs/2305.03153v1 ) ライセンス: Link先を確認 | Kevin Zhang, Vipul Mann, Venkat Venkatasubramanian | (参考訳) 近年, 反応テンプレートとテンプレートフリーアプローチが, 単段階再合成予測のために報告されている。
これらのアプローチの多くは、従来のデータ駆動メトリクスの観点からうまく機能するが、使用されるモデルアーキテクチャと、レトロシンセシスを規定する基礎となる化学原理との間には断絶がある。
本稿では,強力なデータ駆動モデルと化学知識を組み合わせた,新しい化学対応レトロシンセシス予測フレームワークを提案する。
本稿では,階層型SMILES文法木に基づくツリー・ツー・シーケンス・トランスフォーマアーキテクチャを,純粋にSMILESに基づく表現に基づくモデルで無視される基礎となる化学情報を含む入力として報告する。
提案するフレームワークであるG-MATT(G-MATT)は,ベースライン再合成モデルと比較して大幅な性能向上を実現している。
G-MATTは51%(トップ10は79.1%)、無効率は1.5%、生物活性類似率は74.8%である。
注意図に基づくさらなる分析は、非常に複雑なモデルアーキテクチャを使わずに、G-MATTの化学知識の保存能力を示す。 In recent years, several reaction templates-based and template-free approaches have been reported for single-step retrosynthesis prediction. Even though many of these approaches perform well from traditional data-driven metrics standpoint, there is a disconnect between model architectures used and underlying chemistry principles governing retrosynthesis. Here, we propose a novel chemistry-aware retrosynthesis prediction framework that combines powerful data-driven models with chemistry knowledge. We report a tree-to-sequence transformer architecture based on hierarchical SMILES grammar trees as input containing underlying chemistry information that is otherwise ignored by models based on purely SMILES-based representations. The proposed framework, grammar-based molecular attention tree transformer (G-MATT), achieves significant performance improvements compared to baseline retrosynthesis models. G-MATT achieves a top-1 accuracy of 51% (top-10 accuracy of 79.1%), invalid rate of 1.5%, and bioactive similarity rate of 74.8%. Further analyses based on attention maps demonstrate G-MATT's ability to preserve chemistry knowledge without having to use extremely complex model architectures. | 翻訳日:2023-05-08 16:05:32 公開日:2023-05-04 |
# 確率的近傍拡大解析とキャッシングを用いた通信効率の高いグラフニューラルネットワーク Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching ( http://arxiv.org/abs/2305.03152v1 ) ライセンス: Link先を確認 | Tim Kaler, Alexandros-Stavros Iliopoulos, Philip Murzynowski, Tao B. Schardl, Charles E. Leiserson, Jie Chen | (参考訳) 大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、リコメンデーションシステムや金融法医学などの応用において、GNNの広範の使用と成功のために、GNNの開始以来活発に研究されている。
本稿では,分散ストレージ間での頂点機能のパーティショニングが要求されるため,分散環境におけるノードワイドサンプリングを用いたGNNによる最小限の学習と推論について述べる。
予測精度を損なうことなく通信量を大幅に削減するため,リモートパーティションにおいて頻繁にアクセスされる頂点に関連するデータをキャッシュするためのポリシーを提案する。
提案手法は,マルチホップ近傍サンプリングにおける頂点ワイド包摂確率(VIP)の分析に基づいており,グラフの分割境界をはるかに超える範囲を拡大する可能性がある。
VIP分析は通信ボトルネックの排除を可能にするだけでなく、最も頻繁にアクセスされる頂点機能に対してGPUストレージを優先することで、インメモリデータを整理する手段も提供する。
本稿では,従来のSALIENTシステムを分割した特徴データを扱うように拡張し,VIP方式のキャッシュポリシを活用するSALIENT++を提案する。
SALIENT++は、深層パイプラインを使用してSALIENTのローカルトレーニング効率とスケーラビリティを維持し、通信容量を大幅に削減し、SALIENTに必要なストレージのごく一部しか消費しない。
我々はOpen Graph Benchmarkデータセットを用いて実験結果を提供し、8個のシングルGPUマシン上でのSALIENT++を用いた3層グラフSAGEモデルのトレーニングは、1個のシングルGPUマシン上でのSALIENTよりも7.1、シングルGPUマシン上でのDistDGLよりも12.7高速であることを示した。 Training and inference with graph neural networks (GNNs) on massive graphs has been actively studied since the inception of GNNs, owing to the widespread use and success of GNNs in applications such as recommendation systems and financial forensics. This paper is concerned with minibatch training and inference with GNNs that employ node-wise sampling in distributed settings, where the necessary partitioning of vertex features across distributed storage causes feature communication to become a major bottleneck that hampers scalability. To significantly reduce the communication volume without compromising prediction accuracy, we propose a policy for caching data associated with frequently accessed vertices in remote partitions. The proposed policy is based on an analysis of vertex-wise inclusion probabilities (VIP) during multi-hop neighborhood sampling, which may expand the neighborhood far beyond the partition boundaries of the graph. VIP analysis not only enables the elimination of the communication bottleneck, but it also offers a means to organize in-memory data by prioritizing GPU storage for the most frequently accessed vertex features. We present SALIENT++, which extends the prior state-of-the-art SALIENT system to work with partitioned feature data and leverages the VIP-driven caching policy. SALIENT++ retains the local training efficiency and scalability of SALIENT by using a deep pipeline and drastically reducing communication volume while consuming only a fraction of the storage required by SALIENT. We provide experimental results with the Open Graph Benchmark data sets and demonstrate that training a 3-layer GraphSAGE model with SALIENT++ on 8 single-GPU machines is 7.1 faster than with SALIENT on 1 single-GPU machine, and 12.7 faster than with DistDGL on 8 single-GPU machines. | 翻訳日:2023-05-08 16:05:11 公開日:2023-05-04 |
# CAMEL: デバイス上での効率的な学習のためのAIモデルと組み込みDRAMの共同設計 CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device Learning ( http://arxiv.org/abs/2305.03148v1 ) ライセンス: Link先を確認 | Sai Qian Zhang, Thierry Tambe, Nestor Cuevas, Gu-Yeon Wei, David Brooks | (参考訳) IoT(Internet of Things)の出現により、エッジデバイス上で生成される膨大な量のデータが、AIアルゴリズムを使って処理されている。
デバイス上での学習により、エッジプラットフォームは、AIモデルをユーザの個人データに継続的に適用し、さらにサービス品質を向上させることができる。
しかし、集中的な計算作業量と、ディープニューラルネットワーク(dnn)による大量のオンチップメモリ消費のために、リソース制限されたデバイスでのaiトレーニングは極めて困難である。
そこで本研究では,学習データの主記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
静的ランダムアクセスメモリ(SRAM)と比較して、eDRAMはストレージ密度を2ドル以上改善し、オフチップメモリトラフィックを削減できる。
しかし、保存したデータをそのまま保持するためには、eDRAMが電力消費データリフレッシュ操作を実行する必要がある。
eDRAMリフレッシュは、データがeDRAM保持時間よりも短い期間保存されている場合、除去することができる。
そこで我々は,eDRAMリフレッシュの必要性を解消し,トレーニングプロセス中にデータ寿命を大幅に短縮できる新しい可逆的DNNアーキテクチャを設計する。
さらに,eDRAMをメインオンチップメモリとする,効率的なオンデバイストレーニングエンジンを設計する。
CAMELは、トレーニング中の中間結果をオンチップのeDRAMアレイに完全に適合させ、トレーニングプロセス中にオフチップのDRAMトラフィックを完全に排除する。
我々は、異なるデータセットを持つ複数のDNN上でCAMELシステムを評価し、他のベースラインと比較して、DNNのトレーニングエネルギー総消費量を3ドル以上削減し、検証精度が類似した(さらに良い)性能を実現した。 The emergence of the Internet of Things (IoT) has resulted in a remarkable amount of data generated on edge devices, which are often processed using AI algorithms. On-device learning enables edge platforms to continually adapt the AI models to user personal data and further allows for a better service quality. However, AI training on resource-limited devices is extremely difficult because of the intensive computing workload and the significant amount of on-chip memory consumption exacted by deep neural networks (DNNs). To mitigate this, we propose to use embedded dynamic random-access memory (eDRAM) as the main storage medium of training data. Compared with static random-access memory (SRAM), eDRAM introduces more than $2\times$ improvement on storage density, enabling reduced off-chip memory traffic. However, to keep the stored data intact, eDRAM is required to perform the power-hungry data refresh operations. eDRAM refresh can be eliminated if the data is stored for a period of time that is shorter than the eDRAM retention time. To achieve this, we design a novel reversible DNN architecture that enables a significantly reduced data lifetime during the training process and removes the need for eDRAM refresh. We further design an efficient on-device training engine, termed~\textit{CAMEL}, that uses eDRAM as the main on-chip memory. CAMEL enables the intermediate results during training to fit fully in on-chip eDRAM arrays and completely eliminates the off-chip DRAM traffic during the training process. We evaluate our CAMEL system on multiple DNNs with different datasets, demonstrating a more than $3\times$ saving on total DNN training energy consumption than the other baselines, while achieving a similar (even better) performance in validation accuracy. | 翻訳日:2023-05-08 16:04:39 公開日:2023-05-04 |
# 高性能Kerr量子電池 High-performance Kerr quantum battery ( http://arxiv.org/abs/2305.03202v1 ) ライセンス: Link先を確認 | Muhammad Shoufie Ukhtary, Ahmad R. T. Nugraha, Adam B. Cahaya, Andrivo Rusydi, Muhammad Aziz Majidi | (参考訳) 本稿では,2つの相互作用する量子発振器,すなわち充電器は高調波発振器であり,電池はKerr非線形性を含む非調和発振器からなるハイブリッド量子電池,いわゆるKerr量子電池の性能について検討する。
このようなセットアップは、エネルギーレベルとともに増加する量子発振器のエネルギーレベル間の不均一間隔を生成する。
我々は、Kerr量子電池は、キュービット電池よりも多くのエネルギーを蓄え、高調波発振器電池よりも早く最大蓄積エネルギーに達することを見出した。
特に、kerr量子バッテリの平均充電電力は、qubitバッテリよりも大きい。
さらに、kerr量子バッテリの蓄積エネルギーの大部分は、作業のために抽出することができる。
カー量子電池の全ての特性は非線形性の強さによって制御され、非線形性の強化は電池を高調波発振器から量子ビットに変換する。 We propose and investigate the performance of a hybrid quantum battery, the so-called Kerr quantum battery, which consists of two interacting quantum oscillators, i.e., the charger is a harmonic oscillator and the battery is an anharmonic oscillator involving the Kerr nonlinearity. Such a setup creates nonuniform spacing between energy levels of the quantum oscillator that increases with the energy level. We find that the Kerr quantum battery can store more energy than the qubit battery and reaches maximum stored energy faster than the harmonic oscillator battery. In particular, the average charging power of the Kerr quantum battery is larger than the qubit battery. Furthermore, most of the stored energy in the Kerr quantum battery can be extracted for work. All of the properties of the Kerr quantum battery are controlled by the strength of nonlinearity, in which the enhancement of the nonlinearity transforms the battery from a harmonic oscillator to a qubit. | 翻訳日:2023-05-08 15:58:30 公開日:2023-05-04 |
# 単一・複数ラベル解析のための言語処理技術を用いたパシュトテキスト分類の強化 Enhancing Pashto Text Classification using Language Processing Techniques for Single And Multi-Label Analysis ( http://arxiv.org/abs/2305.03201v1 ) ライセンス: Link先を確認 | Mursal Dawodi and Jawid Ahmad Baktash | (参考訳) テキスト分類は様々な分野において重要な課題となり、国語・国際言語の自動テキスト分類システムの開発に多大な研究が加えられている。
しかし、ローカル言語を処理できる自動テキスト分類システムの必要性が高まっている。
本研究の目的は,パシュトテキストの自動分類システムの構築である。
この目的を達成するため、我々はPashto文書のデータセットを構築し、DisttilBERT-base-multilingual-cased, Multilayer Perceptron, Support Vector Machine, K Nearest Neighbor, decision tree, Gaussian na\"ive Bayes, multinomial na\"ive Bayes, random forest, logistic regressionなどの統計およびニューラルネットワークモデルを適用し、最も効果的なアプローチを特定した。
また, 2つの特徴抽出法, 単語の袋, 項頻度逆文書の頻度を評価した。
本研究は,mlp分類法とtfidf特徴抽出法を用いて,単層マルチクラス分類において平均試験精度94%を達成した。
同様に、MLP+TFIDFはF1測定値0.81で最良の結果を得た。
さらに、DistilBERTなどの事前学習言語表現モデルを使用することで、Pashtoテキスト分類に有望な結果が得られたが、本研究では、妥当な結果を得るために特定の言語に対して特定のトークン化ツールを開発することの重要性を強調した。 Text classification has become a crucial task in various fields, leading to a significant amount of research on developing automated text classification systems for national and international languages. However, there is a growing need for automated text classification systems that can handle local languages. This study aims to establish an automated classification system for Pashto text. To achieve this goal, we constructed a dataset of Pashto documents and applied various models, including statistical and neural machine learning models such as DistilBERT-base-multilingual-cased, Multilayer Perceptron, Support Vector Machine, K Nearest Neighbor, decision tree, Gaussian na\"ive Bayes, multinomial na\"ive Bayes, random forest, and logistic regression, to identify the most effective approach. We also evaluated two different feature extraction methods, bag of words and Term Frequency Inverse Document Frequency. The study achieved an average testing accuracy rate of 94% using the MLP classification algorithm and TFIDF feature extraction method in single-label multiclass classification. Similarly, MLP+TFIDF yielded the best results, with an F1-measure of 0.81. Furthermore, the use of pre-trained language representation models, such as DistilBERT, showed promising results for Pashto text classification; however, the study highlights the importance of developing a specific tokenizer for a particular language to achieve reasonable results. | 翻訳日:2023-05-08 15:58:16 公開日:2023-05-04 |
# dari音声におけるハイブリッドディープニューラルネットワークの利用 Employing Hybrid Deep Neural Networks on Dari Speech ( http://arxiv.org/abs/2305.03200v1 ) ライセンス: Link先を確認 | Jawid Ahmad Baktash and Mursal Dawodi | (参考訳) 本論文は,前回の会議論文の拡張である。
近年,人間とコンピュータの相互作用を促進・強化する音声認識システムの開発や改良に研究者の間で関心が高まっている。
今日では、自動音声認識(asr)システムが普及し、ゲームから翻訳システム、ロボットなど、あらゆる場面で使われている。
しかし、低リソース言語のための音声認識システムでは、多くの研究がいまだに必要である。
本稿では,メル周波数ケプストラム係数(MFCC)特徴抽出法と,畳み込みニューラルネットワーク(CNN),リカレントニューラルネットワーク(RNN),MLP(Multilayer Perceptron)の3つの異なるディープニューラルネットワークモデルと,CNNとRNNを組み合わせた2つのハイブリッドモデルを用いて,ダリ語における個々の単語の認識に焦点を当てる。
我々はこれらのモデルについて,20の短いダリ語を用いた1000発話からなる孤立したダリ語コーパスを用いて評価した。
我々の研究は98.365%という印象的な平均精度を達成した。 This paper is an extension of our previous conference paper. In recent years, there has been a growing interest among researchers in developing and improving speech recognition systems to facilitate and enhance human-computer interaction. Today, Automatic Speech Recognition (ASR) systems have become ubiquitous, used in everything from games to translation systems, robots, and more. However, much research is still needed on speech recognition systems for low-resource languages. This article focuses on the recognition of individual words in the Dari language using the Mel-frequency cepstral coefficients (MFCCs) feature extraction method and three different deep neural network models: Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), and Multilayer Perceptron (MLP), as well as two hybrid models combining CNN and RNN. We evaluate these models using an isolated Dari word corpus that we have created, consisting of 1000 utterances for 20 short Dari terms. Our study achieved an impressive average accuracy of 98.365%. | 翻訳日:2023-05-08 15:57:50 公開日:2023-05-04 |
# 二原子分子を用いた量子機械式カルノライクエンジンの性能解析 The Performance Analysis of a Quantum-Mechanical Carnot-like Engine using Diatomic Molecules ( http://arxiv.org/abs/2305.03197v1 ) ライセンス: Link先を確認 | E. O. Oladimeji, V. T. Idundun, E. C. Umeh, T. T. Ibrahim, C. O. Edet, A. N. Ikot | (参考訳) 本稿では,2つの等エネルギー過程と2つの断熱過程からなるカルノ様サイクルの量子力学的バージョンの最適解析を行い,その量子状態 n と有限速度で移動する井戸の幅 l を変えることにより,二原子分子を作用物質として用いる。
出力の表現を導出し、最大出力での効率の表現を再現する。 We present an optimal analysis for a Quantum-Mechanical version of the Carnot-like cycle which consists of two isoenergetic and two adiabatic processes, using diatomic molecules i.e. Morse Oscilltor as a working substance by changing bot its Quantum state n and width L of the well which moves at a finite speed. We derive the expression of power output and replicate the expression for the efficiency at maximum power. | 翻訳日:2023-05-08 15:57:31 公開日:2023-05-04 |
# 神経運動系のエミュレーション学習 Emulation Learning for Neuromimetic Systems ( http://arxiv.org/abs/2305.03196v1 ) ライセンス: Link先を確認 | Zexin Sun, John Baillieul | (参考訳) ニューラルヒューリスティック量子化システムに関する最近の研究に基づいて、量子化運動の学習結果とチャネルドロップアウトに対するレジリエンスを報告する。
ニューロミメティックパラダイムに準拠した一般的なエミュレーション問題を提案する。
この最適量子化問題はモデル予測制御(MPC)によって解決できるが、最適化ステップは整数プログラミングを伴うため、入力チャネルの数が大きくなると組合せ複雑性に悩まされる。
同時にニューラルネットワークをトレーニングするためにデータポイントを収集しても、トレーニングデータとトレーニング自体の収集には時間がかかる。
そこで本研究では,経路を学習するだけでなく,チャネルドロップアウトに対するレジリエンスの利点を示す一般のディープQネットワーク(DQN)アルゴリズムを提案する。
さらに、モデルを他のエミュレーション問題に転送するために、マッピングベースの転送学習アプローチを現在のモデルに直接使用して、新しいエミュレーション問題の最適方向を求めることができる。 Building on our recent research on neural heuristic quantization systems, results on learning quantized motions and resilience to channel dropouts are reported. We propose a general emulation problem consistent with the neuromimetic paradigm. This optimal quantization problem can be solved by model predictive control (MPC), but because the optimization step involves integer programming, the approach suffers from combinatorial complexity when the number of input channels becomes large. Even if we collect data points to train a neural network simultaneously, collection of training data and the training itself are still time-consuming. Therefore, we propose a general Deep Q Network (DQN) algorithm that can not only learn the trajectory but also exhibit the advantages of resilience to channel dropout. Furthermore, to transfer the model to other emulation problems, a mapping-based transfer learning approach can be used directly on the current model to obtain the optimal direction for the new emulation problems. | 翻訳日:2023-05-08 15:57:22 公開日:2023-05-04 |
# Gpt-4:自然言語処理の進歩と機会 Gpt-4: A Review on Advancements and Opportunities in Natural Language Processing ( http://arxiv.org/abs/2305.03195v1 ) ライセンス: Link先を確認 | Jawid Ahmad Baktash and Mursal Dawodi | (参考訳) generative pre-trained transformer 4 (gpt-4) は openai が開発した gpt シリーズの第4世代言語モデルであり、自然言語処理(nlp)の分野で大きな進歩を約束している。
本稿では,GPT-4の特徴,その可能性,今後の課題について論じる。
また, GPT-4 と GPT-3 を比較した。
GPT-4はGPT-3よりもモデルサイズが大きく(1兆ドル以上)、多言語能力、文脈理解の改善、推論能力が優れている。
GPT-4の潜在的な応用には、チャットボット、パーソナルアシスタント、言語翻訳、テキスト要約、質問応答などがある。
しかし、gpt-4は計算要件、データ要件、倫理的懸念などいくつかの課題と制限を課している。 Generative Pre-trained Transformer 4 (GPT-4) is the fourth-generation language model in the GPT series, developed by OpenAI, which promises significant advancements in the field of natural language processing (NLP). In this research article, we have discussed the features of GPT-4, its potential applications, and the challenges that it might face. We have also compared GPT-4 with its predecessor, GPT-3. GPT-4 has a larger model size (more than one trillion), better multilingual capabilities, improved contextual understanding, and reasoning capabilities than GPT-3. Some of the potential applications of GPT-4 include chatbots, personal assistants, language translation, text summarization, and question-answering. However, GPT-4 poses several challenges and limitations such as computational requirements, data requirements, and ethical concerns. | 翻訳日:2023-05-08 15:57:06 公開日:2023-05-04 |
# 複数の観測可能な天体の量子速度限界:保存法則、相関法、マクロシステム Quantum Velocity Limits for Multiple Observables: Conservation Laws, Correlations, and Macroscopic Systems ( http://arxiv.org/abs/2305.03190v1 ) ライセンス: Link先を確認 | Ryusuke Hamazaki | (参考訳) 物理観測器の速度評価は、システムの非平衡ダイナミクスの理解と制御において重要な役割を果たす。
ここでは、実験的にアクセス可能なものや保存量など、他の観測可能なものに関する知識がある場合、我々の関心の観測可能な速度がより厳密に制限される可能性があることを解明する。
我々は,複数の可観測器に対する速度ベクトルの普遍的不等式である「量子速度限界」という新しい概念を導入し,従来の可観測器の速度制限を改善した。
まず,観測対象の一般化相関行列と量子フィッシャー情報を用いて,情報理論的な速度限界を求める。
The velocity limit has various novel consequences, some of which are particularly noteworthy: (I) Conservation law in the system, a fundamental ingredient of quantum dynamics, can improve the velocity and speed limits through the correlation between the observables and conserved quantities; (II) Speed of an observable can be bounded by a nontrivial lower bound from the information on another observable, while most of the previous speed limits provide only upper bounds; (III) There exists a new tradeoff relation in nonequilibrium quantum statistical mechanics, i.e., speeds of uncorrelated observables cannot be simultaneously large; (IV) Velocity and speed limits for observables on a subsystem in locally interacting many-body systems remain convergent even in the thermodynamic limit, unlike the naive application of the conventional speed limits.
さらに、確率電流の局所保存則に基づいて、複数の観測値に対する別の異なる速度制限を発見し、これは多量のマクロ遷移に有利となる。 Evaluating the speed of a physical observable plays a pivotal role in understanding and controlling nonequilibrium dynamics of a system. We here elucidate that the speed of an observable of our interest can be tighter bounded when we have knowledge of other observables, such as experimentally accessible ones or conserved quantities. We prove this by introducing a new concept, "quantum velocity limit," which is a universal inequality of a velocity vector for multiple observables and improves conventional speed limits for a single observable. We first derive an information-theoretical velocity limit in terms of the generalized correlation matrix of the observables and the quantum Fisher information. The velocity limit has various novel consequences, some of which are particularly noteworthy: (I) Conservation law in the system, a fundamental ingredient of quantum dynamics, can improve the velocity and speed limits through the correlation between the observables and conserved quantities; (II) Speed of an observable can be bounded by a nontrivial lower bound from the information on another observable, while most of the previous speed limits provide only upper bounds; (III) There exists a new tradeoff relation in nonequilibrium quantum statistical mechanics, i.e., speeds of uncorrelated observables cannot be simultaneously large; (IV) Velocity and speed limits for observables on a subsystem in locally interacting many-body systems remain convergent even in the thermodynamic limit, unlike the naive application of the conventional speed limits. Moreover, we discover another distinct velocity limit for multiple observables on the basis of the local conservation law of probability current, which becomes advantageous for macroscopic transitions of multiple quantities. | 翻訳日:2023-05-08 15:56:52 公開日:2023-05-04 |
# ミンコフスキーエンジンを用いた3次元セマンティックセマンティックセグメンテーションの小型モデルと知識蒸留法 Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski Engine and Knowledge Distillation Methods ( http://arxiv.org/abs/2305.03188v1 ) ライセンス: Link先を確認 | Alen Adamyan and Erik Harutyunyan | (参考訳) 3Dの領域には、メッシュやテクスチャを使ったポイントクラウドベースのアプローチ、保存方法を最適化するボクセル、3Dでの計算方法など、さまざまな最適化テクニックがある。
これらの手法は、フィードフォワードネットワーク、3次元畳み込み、グラフニューラルネットワーク、トランスフォーマー、スパーステンソルなどの手法を用いる。
しかし、3Dの分野は計算コストが最も高い分野の1つであり、これらの手法はキャパシティ、複雑性、計算能力の限界のため、その潜在能力を十分に達成できていない。
本稿では,特に3次元深層学習における疎テンソルに対する知識蒸留法を適用し,性能を維持しつつモデルサイズを削減することを提案する。
本研究では,標準的手法と各種損失の組み合わせを含む異なる損失関数を解析・利用し,ばらばらな畳み込みnnの最先端モデルの性能をシミュレーションする。
実験は標準のScanNet V2データセット上で行われ、4倍のモデルで約2.6\% mIoUの差を、最新の最先端の時空間修道院モデルで約16倍のモデルで約8\%の差を達成しました。 There are various optimization techniques in the realm of 3D, including point cloud-based approaches that use mesh, texture, and voxels which optimize how you store, and how do calculate in 3D. These techniques employ methods such as feed-forward networks, 3D convolutions, graph neural networks, transformers, and sparse tensors. However, the field of 3D is one of the most computationally expensive fields, and these methods have yet to achieve their full potential due to their large capacity, complexity, and computation limits. This paper proposes the application of knowledge distillation techniques, especially for sparse tensors in 3D deep learning, to reduce model sizes while maintaining performance. We analyze and purpose different loss functions, including standard methods and combinations of various losses, to simulate the performance of state-of-the-art models of different Sparse Convolutional NNs. Our experiments are done on the standard ScanNet V2 dataset, and we achieved around 2.6\% mIoU difference with a 4 times smaller model and around 8\% with a 16 times smaller model on the latest state-of-the-art spacio-temporal convents based models. | 翻訳日:2023-05-08 15:56:29 公開日:2023-05-04 |
# 人間の行動認識のための仮想テキスト記述から仮想体加速度計データを生成する Generating Virtual On-body Accelerometer Data from Virtual Textual Descriptions for Human Activity Recognition ( http://arxiv.org/abs/2305.03187v1 ) ライセンス: Link先を確認 | Zikang Leng, Hyeokhyen Kwon, Thomas Pl\"otz | (参考訳) 人間活動認識(HAR)における堅牢で一般化されたモデルの開発は、大規模ラベル付きデータセットの不足によって妨げられている。
近年の研究では、コンピュータビジョン技術を用いてビデオから抽出した仮想IMUデータが、実際のIMUデータの一部と組み合わさったHARモデルのトレーニングにおいて、大幅な性能向上をもたらすことが示されている。
テキスト記述からの動作合成の最近の進歩と大規模言語モデル(LLM)を様々なAIモデルに接続することから着想を得て、まずChatGPTを使用してさまざまなアクティビティのテキスト記述を生成する自動パイプラインを導入する。
これらのテキスト記述は、モーション合成モデルT2M-GPTを介して3次元の人間の動作シーケンスを生成するために使用され、後に仮想IMUデータストリームに変換される。
我々は3つのHARデータセット(RealWorld, PAMAP2, USC-HAD)にアプローチをベンチマークし、我々の新しいアプローチを用いて生成された仮想IMUトレーニングデータを使用することで、実際のIMUデータのみを使用する場合と比較して、HARモデルの性能が大幅に向上することを示した。
提案手法はクロスモダリティ伝達法の普及に寄与し,手作業を必要としない仮想トレーニングデータの生成を通じてharモデルをどのように改善できるかを説明する。 The development of robust, generalized models in human activity recognition (HAR) has been hindered by the scarcity of large-scale, labeled data sets. Recent work has shown that virtual IMU data extracted from videos using computer vision techniques can lead to substantial performance improvements when training HAR models combined with small portions of real IMU data. Inspired by recent advances in motion synthesis from textual descriptions and connecting Large Language Models (LLMs) to various AI models, we introduce an automated pipeline that first uses ChatGPT to generate diverse textual descriptions of activities. These textual descriptions are then used to generate 3D human motion sequences via a motion synthesis model, T2M-GPT, and later converted to streams of virtual IMU data. We benchmarked our approach on three HAR datasets (RealWorld, PAMAP2, and USC-HAD) and demonstrate that the use of virtual IMU training data generated using our new approach leads to significantly improved HAR model performance compared to only using real IMU data. Our approach contributes to the growing field of cross-modality transfer methods and illustrate how HAR models can be improved through the generation of virtual training data that do not require any manual effort. | 翻訳日:2023-05-08 15:56:06 公開日:2023-05-04 |
# データスパースレジームにおけるバイオメカニカル構成則の家族推定のための生成モデリングフレームワーク A Generative Modeling Framework for Inferring Families of Biomechanical Constitutive Laws in Data-Sparse Regimes ( http://arxiv.org/abs/2305.03184v1 ) ライセンス: Link先を確認 | Minglang Yin, Zongren Zou, Enrui Zhang, Cristina Cavinato, Jay D. Humphrey, George Em Karniadakis | (参考訳) ヒト血管の生体力学的特性の定量化は、心臓血管疾患の理解を深める可能性がある。
構成モデルにおける標準非線形回帰は、事前知識として、かなりの高品質のデータと構成モデルの明示的な形式を必要とする。
対照的に、生成的深層学習とベイズ推論を組み合わせ、データスパース体制における構成的関係の家族を効率的に推定する新しいアプローチを提案する。
機能的先行概念に着想を得て,ニューラル演算子をジェネレータとして,完全連結ニューラルネットワークを判別器として組み込んだ生成的対向ネットワーク(GAN)を開発した。
生成器は、測定データに基づいて条件付けられた雑音のベクトルを入力とし、次のステップで判別器によって精査される予測構成関係を生成する。
本手法は, モデル合成データから得られたデータと, 遺伝子異常のあるマウスに対するex vivo実験を用いて, マウス大動脈の構成的関係の手段と標準偏差を正確に推定できることを実証する。
さらに、このフレームワークは機能形態を明示的に知ることなく構成モデルの事前を学習し、データから隠れた構成行動を学ぶための新しいモデルに依存しないアプローチを提供する。 Quantifying biomechanical properties of the human vasculature could deepen our understanding of cardiovascular diseases. Standard nonlinear regression in constitutive modeling requires considerable high-quality data and an explicit form of the constitutive model as prior knowledge. By contrast, we propose a novel approach that combines generative deep learning with Bayesian inference to efficiently infer families of constitutive relationships in data-sparse regimes. Inspired by the concept of functional priors, we develop a generative adversarial network (GAN) that incorporates a neural operator as the generator and a fully-connected neural network as the discriminator. The generator takes a vector of noise conditioned on measurement data as input and yields the predicted constitutive relationship, which is scrutinized by the discriminator in the following step. We demonstrate that this framework can accurately estimate means and standard deviations of the constitutive relationships of the murine aorta using data collected either from model-generated synthetic data or ex vivo experiments for mice with genetic deficiencies. In addition, the framework learns priors of constitutive models without explicitly knowing their functional form, providing a new model-agnostic approach to learning hidden constitutive behaviors from data. | 翻訳日:2023-05-08 15:55:43 公開日:2023-05-04 |
# llm2loss: 説明可能なモデル診断に言語モデルを活用する LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics ( http://arxiv.org/abs/2305.03212v1 ) ライセンス: Link先を確認 | Shervin Ardeshir | (参考訳) 膨大な量のデータに基づいて訓練されたLarge Language Model (LLM)は、抽象空間におけるかなり複雑なテキスト入力のモデリングにおいて、前例のない成功と一般化を達成し、ゼロショット学習のための強力なツールとなった。
このような機能は、CLIPのようなクロスモーダル基盤モデルを用いて視覚ドメインのような他のモダリティに拡張され、結果として視覚入力から意味的に意味のある表現を抽出できる。
本研究では,この機能を活用し,モデルの障害パターンとバイアスに関する意味的な洞察を提供するアプローチを提案する。
ブラックボックスモデルとそのトレーニングデータ、タスク定義が与えられた場合、まず、各データポイントのタスク関連損失を計算します。
次に、各トレーニングデータポイント(例えば、そのビジュアルエンコーダからCLIP埋め込み)について意味論的意味のある表現を抽出し、この意味論的意味のあるデータポイントの表現をタスク損失にマッピングする軽量診断モデルを訓練する。
このような軽量モデルのアンサンブルは、故障やバイアスのパターンを識別する点において、ブラックボックスモデルの性能に関する洞察を生み出すのに有効であることを示す。 Trained on a vast amount of data, Large Language models (LLMs) have achieved unprecedented success and generalization in modeling fairly complex textual inputs in the abstract space, making them powerful tools for zero-shot learning. Such capability is extended to other modalities such as the visual domain using cross-modal foundation models such as CLIP, and as a result, semantically meaningful representation are extractable from visual inputs. In this work, we leverage this capability and propose an approach that can provide semantic insights into a model's patterns of failures and biases. Given a black box model, its training data, and task definition, we first calculate its task-related loss for each data point. We then extract a semantically meaningful representation for each training data point (such as CLIP embeddings from its visual encoder) and train a lightweight diagnosis model which maps this semantically meaningful representation of a data point to its task loss. We show that an ensemble of such lightweight models can be used to generate insights on the performance of the black-box model, in terms of identifying its patterns of failures and biases. | 翻訳日:2023-05-08 15:46:13 公開日:2023-05-04 |
# AttentionViz: トランスフォーマーのアテンションをグローバルに見る AttentionViz: A Global View of Transformer Attention ( http://arxiv.org/abs/2305.03210v1 ) ライセンス: Link先を確認 | Catherine Yeh, Yida Chen, Aoyu Wu, Cynthia Chen, Fernanda Vi\'egas, Martin Wattenberg | (参考訳) トランスフォーマーモデルは機械学習に革命をもたらすが、その内部動作は謎のままだ。
本研究では,トランスフォーマーの自己着脱機構を研究者が理解し,それらのモデルがシーケンスの要素間のリッチで文脈的な関係を学習できるようにするために,新たな可視化手法を提案する。
提案手法の背後にある主な考え方は,問合せとキーベクトルの組込みを可視化し,注意力を計算することである。
従来の注意可視化手法と異なり,複数の入力列にまたがるグローバルパターンの分析を可能にする。
我々は,これらの共同クエリキー埋め込みに基づいて対話型可視化ツールAttentionVizを作成し,言語および視覚変換器の注意機構を研究する。
いくつかのアプリケーションシナリオと専門家のフィードバックを通じて、モデル理解を改善し、クエリキーインタラクションに関する新たな洞察を提供するアプローチの有用性を実証する。 Transformer models are revolutionizing machine learning, but their inner workings remain mysterious. In this work, we present a new visualization technique designed to help researchers understand the self-attention mechanism in transformers that allows these models to learn rich, contextual relationships between elements of a sequence. The main idea behind our method is to visualize a joint embedding of the query and key vectors used by transformer models to compute attention. Unlike previous attention visualization techniques, our approach enables the analysis of global patterns across multiple input sequences. We create an interactive visualization tool, AttentionViz, based on these joint query-key embeddings, and use it to study attention mechanisms in both language and vision transformers. We demonstrate the utility of our approach in improving model understanding and offering new insights about query-key interactions through several application scenarios and expert feedback. | 翻訳日:2023-05-08 15:45:51 公開日:2023-05-04 |
# インド語用多言語機械翻訳における語彙共有の検討 Investigating Lexical Sharing in Multilingual Machine Translation for Indian Languages ( http://arxiv.org/abs/2305.03207v1 ) ライセンス: Link先を確認 | Sonal Sannigrahi and Rachel Bawden | (参考訳) 多言語言語モデルは、様々な言語やタスクにまたがる印象的な言語間移動能力を示している。
これらのモデルの言語間能力を改善するために、サブワードではなく文字への文字の翻訳やよりきめ細かいセグメンテーションを含む戦略がある。
本研究では,ヒンディー語,グジャラート語,ネパール語から英語への多言語機械翻訳における語彙共有について検討する。
我々は,データサンプリングと語彙サイズ間の翻訳性能のトレードオフについて検討し,翻訳がクロススクリプトの一般化を促進するのに有用かどうかを考察する。
また、異なる設定が見えない言語(Marathi と Bengali)にどのように一般化するかを検証する。
我々は、翻訳が発音上の改善をもたらさないことを見出し、分析の結果、オリジナルのスクリプトで訓練された我々の多言語mtモデルは、比較的低リソース言語であっても、すでにクロススクリプトの差異に頑健であることを示唆している。 Multilingual language models have shown impressive cross-lingual transfer ability across a diverse set of languages and tasks. To improve the cross-lingual ability of these models, some strategies include transliteration and finer-grained segmentation into characters as opposed to subwords. In this work, we investigate lexical sharing in multilingual machine translation (MT) from Hindi, Gujarati, Nepali into English. We explore the trade-offs that exist in translation performance between data sampling and vocabulary size, and we explore whether transliteration is useful in encouraging cross-script generalisation. We also verify how the different settings generalise to unseen languages (Marathi and Bengali). We find that transliteration does not give pronounced improvements and our analysis suggests that our multilingual MT models trained on original scripts seem to already be robust to cross-script differences even for relatively low-resource languages | 翻訳日:2023-05-08 15:45:37 公開日:2023-05-04 |
# VideoOFA:ビデオからテキスト生成のための2段階の事前トレーニング VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation ( http://arxiv.org/abs/2305.03204v1 ) ライセンス: Link先を確認 | Xilun Chen, Lili Yu, Wenhan Xiong, Barlas O\u{g}uz, Yashar Mehdad, Wen-tau Yih | (参考訳) 本稿では,ビデオキャプションやビデオ質問応答などの映像-テキスト生成タスクのための2段階の事前学習フレームワークを提案する。 生成エンコーダ-デコーダモデルはまず,大規模な画像テキストデータに対して事前学習し,基本的な視覚言語概念を学習し,その後,中間映像-テキスト事前学習段階の映像データに適応して,時空間推論などのビデオ固有のスキルを学ぶ。
その結果,ビデオOFAモデルでは,CIDErスコアの平均9.7ポイントの先行技術を上回る4つのビデオキャプションベンチマークにおいて,新たな最先端性能を実現している。
また、既存のモデルを2つのオープンエンドビデオ質問回答データセットで上回り、その一般化能力をユニバーサルビデオ・テキストモデルとして示す。 We propose a new two-stage pre-training framework for video-to-text generation tasks such as video captioning and video question answering: A generative encoder-decoder model is first jointly pre-trained on massive image-text data to learn fundamental vision-language concepts, and then adapted to video data in an intermediate video-text pre-training stage to learn video-specific skills such as spatio-temporal reasoning. As a result, our VideoOFA model achieves new state-of-the-art performance on four Video Captioning benchmarks, beating prior art by an average of 9.7 points in CIDEr score. It also outperforms existing models on two open-ended Video Question Answering datasets, showcasing its generalization capability as a universal video-to-text model. | 翻訳日:2023-05-08 15:45:24 公開日:2023-05-04 |
# SI-LSTM:会話における感情認識のための話者ハイブリッド長短記憶とクロスモーダル注意 SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation ( http://arxiv.org/abs/2305.03506v1 ) ライセンス: Link先を確認 | Xingwei Liang, You Zou, Ruifeng Xu | (参考訳) 会話における感情認識(erc)は、インテリジェントな医療、会話のための人工知能、チャット履歴に関する意見のマイニングなど、さまざまなアプリケーションにとって極めて重要である。
ERCの要点は、会話全体での相互モダリティと相互時間相互作用の両方をモデル化することである。
従来の方法では,会話の時系列情報を学習する一方で,会話における各話者の異なる感情状態を追跡する能力が欠如している。
本稿では,ERCタスクにおける話者情報強化長短記憶(SI-LSTM)と呼ばれる繰り返し構造を提案する。
さらに、ercにおけるマルチモーダル特徴の学習を改善するために、クロスモーダル注意成分を用いて、異なるモーダリティ間の特徴を融合させ、異なるモーダリティから重要な情報の相互作用をモデル化する。
2つのベンチマークデータセットの実験結果は、マルチモーダルデータに基づくERCタスクにおける最先端のベースライン手法に対する提案したSI-LSTMの優位性を示している。 Emotion Recognition in Conversation~(ERC) across modalities is of vital importance for a variety of applications, including intelligent healthcare, artificial intelligence for conversation, and opinion mining over chat history. The crux of ERC is to model both cross-modality and cross-time interactions throughout the conversation. Previous methods have made progress in learning the time series information of conversation while lacking the ability to trace down the different emotional states of each speaker in a conversation. In this paper, we propose a recurrent structure called Speaker Information Enhanced Long-Short Term Memory (SI-LSTM) for the ERC task, where the emotional states of the distinct speaker can be tracked in a sequential way to enhance the learning of the emotion in conversation. Further, to improve the learning of multimodal features in ERC, we utilize a cross-modal attention component to fuse the features between different modalities and model the interaction of the important information from different modalities. Experimental results on two benchmark datasets demonstrate the superiority of the proposed SI-LSTM against the state-of-the-art baseline methods in the ERC task on multimodal data. | 翻訳日:2023-05-08 14:03:29 公開日:2023-05-04 |
# 勾配輝き」とビームサーチによる自動プロンプト最適化 Automatic Prompt Optimization with "Gradient Descent" and Beam Search ( http://arxiv.org/abs/2305.03495v1 ) ライセンス: Link先を確認 | Reid Pryzant, Dan Iter, Jerry Li, Yin Tat Lee, Chenguang Zhu, Michael Zeng | (参考訳) LLM(Large Language Models)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力は、面倒な試行錯誤で手書きされたプロンプトに大きく依存している。
本稿では,数値勾配降下に触発されて,プロンプトを自動的に改善し,トレーニングデータとllm apiへのアクセスを前提とした,簡易かつ非パラメトリックな手法である自動プロンプト最適化(apo)を提案する。
このアルゴリズムはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語 ``gradients' を形成する。
次に、勾配の反対の意味方向においてプロンプトを編集することで、勾配をプロンプトに ``propagated''' として編集する。
これらの勾配降下ステップは、アルゴリズム効率を大幅に向上させるビーム探索およびバンディット選択手順によって導かれる。
3つのベンチマーク NLP タスクの予備結果と LLM ジェイルブレイク検出の新たな問題により、自動プロンプト最適化は、曖昧なタスク記述をより正確なアノテーション命令に書き換えることによって、事前のプロンプト編集技術より優れ、初期プロンプトの性能を最大 31 %向上させることができることが示唆された。 Large Language Models (LLMs) have shown impressive performance as general purpose agents, but their abilities remain highly dependent on prompts which are hand written with onerous trial-and-error effort. We propose a simple and nonparametric solution to this problem, Automatic Prompt Optimization (APO), which is inspired by numerical gradient descent to automatically improve prompts, assuming access to training data and an LLM API. The algorithm uses minibatches of data to form natural language ``gradients'' that criticize the current prompt. The gradients are then ``propagated'' into the prompt by editing the prompt in the opposite semantic direction of the gradient. These gradient descent steps are guided by a beam search and bandit selection procedure which significantly improves algorithmic efficiency. Preliminary results across three benchmark NLP tasks and the novel problem of LLM jailbreak detection suggest that Automatic Prompt Optimization can outperform prior prompt editing techniques and improve an initial prompt's performance by up to 31\%, by using data to rewrite vague task descriptions into more precise annotation instructions. | 翻訳日:2023-05-08 14:02:21 公開日:2023-05-04 |
# アラビア長文書分類のためのBERT言語モデルの活用 Leveraging BERT Language Model for Arabic Long Document Classification ( http://arxiv.org/abs/2305.03519v1 ) ライセンス: Link先を確認 | Muhammad AL-Qurishi | (参考訳) 世界中でアラビア語話者の数が増加し、法律、医学、ニュースなどいくつかの分野でウェブで顕著な量のコンテンツが使われていることから、かなりの長さの文書が定期的に作成されている。
従来の学習モデルを用いて文書を分類することは、文書の長さを延ばすことで計算の要件が持続不可能になるため、しばしば実用的ではない。
したがって、これらモデルを長文文書用に特別にカスタマイズする必要がある。
本稿では,アラビア語の長文文書を分類する2つの簡易かつ効果的なモデルを提案する。
また、同じタスクに対してLongformerとRoBERTという2つの異なるモデルを微調整し、その結果を我々のモデルと比較します。
どちらのモデルも、このタスクでLongformerとRoBERTを2つの異なるデータセットで上回ります。 Given the number of Arabic speakers worldwide and the notably large amount of content in the web today in some fields such as law, medicine, or even news, documents of considerable length are produced regularly. Classifying those documents using traditional learning models is often impractical since extended length of the documents increases computational requirements to an unsustainable level. Thus, it is necessary to customize these models specifically for long textual documents. In this paper we propose two simple but effective models to classify long length Arabic documents. We also fine-tune two different models-namely, Longformer and RoBERT, for the same task and compare their results to our models. Both of our models outperform the Longformer and RoBERT in this task over two different datasets. | 翻訳日:2023-05-08 13:51:47 公開日:2023-05-04 |
# サブスペース学習によるブラックボックスプロンプトチューニング Black-box Prompt Tuning with Subspace Learning ( http://arxiv.org/abs/2305.03518v1 ) ライセンス: Link先を確認 | Yuanhang Zheng, Zhixing Tan, Peng Li and Yang Liu | (参考訳) black-box prompt tuningはデリバティブフリーな最適化アルゴリズムを使用して、大言語モデル(llm)のネットワークをバックプロパゲーションするのではなく、低次元部分空間でプロンプトを学習する。
近年の研究では、ブラックボックスのプロンプトチューニングはタスクやLLM間の汎用性を欠いていることが判明している。
本稿では,ブラックボックスプロンプトチューニングの汎用性を向上させるために,サブスペース学習(bsl)を用いたブラックボックスプロンプトチューニングを提案する。
類似するタスクに対するほぼ最適プロンプトが共通の部分空間に存在するという仮定に基づいて、類似したソースタスクのセットでメタラーニングすることで、そのような部分空間を識別することを提案する。
したがって、ソースタスクと類似性を共有するターゲットタスクに対して、サブスペースの最適化は、ターゲットタスクでよく動作するプロンプトを見つけることができることを保証します。
実験により,我々のBSLフレームワークは,下流タスクやLLMに関わらず,常に競争性能を達成できることを確認した。 Black-box prompt tuning uses derivative-free optimization algorithms to learn prompts in low-dimensional subspaces instead of back-propagating through the network of Large Language Models (LLMs). Recent studies have found that black-box prompt tuning lacks versatility across tasks and LLMs, which we believe is related to the inappropriate choice of subspaces. In this paper, we propose Black-box prompt tuning with Subspace Learning (BSL) to improve the versatility of black-box prompt tuning. Based on the assumption that nearly optimal prompts for similar tasks exist in a common subspace, we propose identifying such subspaces by meta-learning on a set of similar source tasks. Therefore, for a target task that shares similarities with source tasks, we guarantee that optimizing in the subspace can find a prompt that performs well on the target task. Experiments confirm that our BSL framework consistently achieves competitive performance regardless of downstream tasks and LLMs. | 翻訳日:2023-05-08 13:51:34 公開日:2023-05-04 |
# テキストからのドメイン適応型視覚融合イベント検出 Few-shot Domain-Adaptive Visually-fused Event Detection from Text ( http://arxiv.org/abs/2305.03517v1 ) ライセンス: Link先を確認 | Fatemeh Shiri, Farhad Moghimifar, Van Nguyen, Reza Haffari, Yuan-Fang Li | (参考訳) 画像などの補助的なモダリティをイベント検出モデルに組み込むことは、ここ数年で注目を集めている。
状況記述における自然言語の複雑さにより、研究者は関連する視覚的コンテキストを利用してイベント検出性能を向上させるようになった。
しかし、この領域における現在のアプローチは、モデルトレーニングのために大量のラベル付きテキスト画像ペアが必要となるデータ不足に苦しむ。
さらに、推論時の視覚的コンテキストへの限られたアクセスは、そのようなモデルの性能に悪影響を及ぼし、現実のシナリオでは事実上効果がない。
本稿では,いくつかのラベル付き画像テキストペアデータポイントでトレーニング可能な,ドメイン適応型視覚融合イベント検出手法を提案する。
具体的には、視覚的文脈のないテキストから画像を生成する視覚的想像法を提案する。
さらに、イマジネータを特定のドメインにカスタマイズすることもできる。
これにより、事前訓練された視覚言語モデルの能力を活用でき、数ショットで訓練することができる。
これにより、単一のモダリティデータ(すなわちテキスト)のみが利用できるような効果的な推論が可能になる。
ベンチマークM2E2データセットの実験結果から,我々のモデルは既存の最先端モデルよりも最大11ポイント優れていた。 Incorporating auxiliary modalities such as images into event detection models has attracted increasing interest over the last few years. The complexity of natural language in describing situations has motivated researchers to leverage the related visual context to improve event detection performance. However, current approaches in this area suffer from data scarcity, where a large amount of labelled text-image pairs are required for model training. Furthermore, limited access to the visual context at inference time negatively impacts the performance of such models, which makes them practically ineffective in real-world scenarios. In this paper, we present a novel domain-adaptive visually-fused event detection approach that can be trained on a few labelled image-text paired data points. Specifically, we introduce a visual imaginator method that synthesises images from text in the absence of visual context. Moreover, the imaginator can be customised to a specific domain. In doing so, our model can leverage the capabilities of pre-trained vision-language models and can be trained in a few-shot setting. This also allows for effective inference where only single-modality data (i.e. text) is available. The experimental evaluation on the benchmark M2E2 dataset shows that our model outperforms existing state-of-the-art models, by up to 11 points. | 翻訳日:2023-05-08 13:51:15 公開日:2023-05-04 |
# Diffusion Explainer: テキスト間安定拡散のための視覚的説明 Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion ( http://arxiv.org/abs/2305.03509v1 ) ライセンス: Link先を確認 | Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng, Austin Wright, Kevin Li, Haekyu Park, Haoyang Yang, Duen Horng Chau | (参考訳) 拡散に基づく生成モデルによる説得力のある画像の作成能力は、世界的な注目を集めている。
しかし、それらの複雑な内部構造や操作は、非専門家が理解しにくいことが多い。
私たちはDiffusion Explainerを紹介します。Diffusionは、テキストプロンプトを画像に変換する方法を説明する最初のインタラクティブな可視化ツールです。
Diffusion Explainerは、Stable Diffusionの複雑なコンポーネントの視覚的概要を根底にある操作の詳細な説明と密に統合し、ユーザはアニメーションとインタラクティブな要素を通じて、複数のレベルの抽象化を流動的に移行することができる。
2つの関連するテキストプロンプトによって導かれる画像表現の進化を時間ステップで比較することで、プロンプトが画像生成に与える影響を見つけることができる。
diffusion explanationerは、インストールや特別なハードウェアを必要とせずに、ユーザのwebブラウザでローカルに動作し、現代のai技術への教育アクセスを広げる。
私たちのオープンソースツールは、https://poloclub.github.io/diffusion-explainer/で利用可能です。 Diffusion-based generative models' impressive ability to create convincing images has captured global attention. However, their complex internal structures and operations often make them difficult for non-experts to understand. We present Diffusion Explainer, the first interactive visualization tool that explains how Stable Diffusion transforms text prompts into images. Diffusion Explainer tightly integrates a visual overview of Stable Diffusion's complex components with detailed explanations of their underlying operations, enabling users to fluidly transition between multiple levels of abstraction through animations and interactive elements. By comparing the evolutions of image representations guided by two related text prompts over refinement timesteps, users can discover the impact of prompts on image generation. Diffusion Explainer runs locally in users' web browsers without the need for installation or specialized hardware, broadening the public's education access to modern AI techniques. Our open-sourced tool is available at: https://poloclub.github.io/diffusion-explainer/. | 翻訳日:2023-05-08 13:50:25 公開日:2023-05-04 |
# ChatGPTとScholarlyの実践 - AIによる文章作成におけるベストプラクティスと法的な落とし穴 ChatGPT and Works Scholarly: Best Practices and Legal Pitfalls in Writing with AI ( http://arxiv.org/abs/2305.03722v1 ) ライセンス: Link先を確認 | Bill Tomlinson, Andrew W. Torrance, Rebecca W. Black | (参考訳) 人工知能(AI)の最近の進歩は、様々な専門分野において、AIの使用が適切かつ合法であるかどうかという疑問を提起している。
本稿では,研究者がaiと連動して文章作成にどうアプローチするかという視点を示し,aiライティングが著作権に違反するか,公正使用の安全な場所にあるかを評価するためのアプローチを提案する。
我々は,盗用,著作権,公正使用に関して,ケア標準に関する一連のベストプラクティスを提示する。
AIは今後数年でより有能になる可能性が高いため、学術的な執筆活動にAIを統合するのは適切である。
健全な法的基礎と学術的基盤を確立するための枠組みを提供する。 Recent advances in artificial intelligence (AI) have raised questions about whether the use of AI is appropriate and legal in various professional contexts. Here, we present a perspective on how scholars may approach writing in conjunction with AI, and offer approaches to evaluating whether or not such AI-writing violates copyright or falls within the safe harbor of fair use. We present a set of best practices for standard of care with regard to plagiarism, copyright, and fair use. As AI is likely to grow more capable in the coming years, it is appropriate to begin integrating AI into scholarly writing activities. We offer a framework for establishing sound legal and scholarly foundations. | 翻訳日:2023-05-08 12:55:39 公開日:2023-05-04 |
# トレーニングはすべて:人工知能、著作権、公正なトレーニング Training Is Everything: Artificial Intelligence, Copyright, and Fair Training ( http://arxiv.org/abs/2305.03720v1 ) ライセンス: Link先を確認 | Andrew W. Torrance and Bill Tomlinson | (参考訳) 行動を学ぶためには、現在のAIの革命的な世代は膨大な量の公開画像、著作物、音で訓練されなければならない。
一部の人にとっては、AIのトレーニングセットとしての著作権付き作品の使用は、所有者のコンテンツやそれを保護する著作権に実質的に干渉しない、過渡的で非合意的な使用である。
このようなコンテンツをaiエンジンのトレーニングに使用する企業は、米国法(他国では「フェア取引」と呼ばれることもある)では、そのような使用は「フェア利用」と見なされるべきであるとしばしば信じている。
対照的に、多くの著作権所有者とその支持者は、著作権のある著作物をaiのトレーニングセットに組み込んで、所有者の知的財産の誤認を構成することを考慮し、法の下で公正に使用しないことを決定した。
この議論は、AIとその応用の将来的な軌道に不可欠である。
本稿では,AIのトレーニングセットにおける著作権付き作品の使用を公正な使用として,好意的かつ反対的な議論を分析する。
私たちはこのフェアユースをフェアトレーニングと呼んでいます。
我々はこの議論の両側で強い議論と刺激的な議論の両方を識別する。
さらに、我々は、AIの開発、改善、導入、拡散を促進するためのトレーニングセットとして、AIが著作権付き作品を簡単に利用できるようにするための、社会的コスト(例えば、ある種の人間の雇用の置き換え)と利益(例えば、環境破壊のようなグローバルな問題に対する、新しいAIベースのアプローチの可能性)について、より広い視点で検討しようとする。
最後に、貧困、平等、気候変動、生物多様性の喪失といった大きな社会的課題の広い文脈に置かれ、AIがソリューションの一部である可能性がある場合、AIと著作権のある作品に関する議論は、ティーポットの中では極端であるかもしれないことを示唆する。 To learn how to behave, the current revolutionary generation of AIs must be trained on vast quantities of published images, written works, and sounds, many of which fall within the core subject matter of copyright law. To some, the use of copyrighted works as training sets for AI is merely a transitory and non-consumptive use that does not materially interfere with owners' content or copyrights protecting it. Companies that use such content to train their AI engine often believe such usage should be considered "fair use" under United States law (sometimes known as "fair dealing" in other countries). By contrast, many copyright owners, as well as their supporters, consider the incorporation of copyrighted works into training sets for AI to constitute misappropriation of owners' intellectual property, and, thus, decidedly not fair use under the law. This debate is vital to the future trajectory of AI and its applications. In this article, we analyze the arguments in favor of, and against, viewing the use of copyrighted works in training sets for AI as fair use. We call this form of fair use "fair training". We identify both strong and spurious arguments on both sides of this debate. In addition, we attempt to take a broader perspective, weighing the societal costs (e.g., replacement of certain forms of human employment) and benefits (e.g., the possibility of novel AI-based approaches to global issues such as environmental disruption) of allowing AI to make easy use of copyrighted works as training sets to facilitate the development, improvement, adoption, and diffusion of AI. Finally, we suggest that the debate over AI and copyrighted works may be a tempest in a teapot when placed in the wider context of massive societal challenges such as poverty, equality, climate change, and loss of biodiversity, to which AI may be part of the solution. | 翻訳日:2023-05-08 12:55:28 公開日:2023-05-04 |
# AIによるAIのガバナンスとAI Governance of the AI, by the AI, and for the AI ( http://arxiv.org/abs/2305.03719v1 ) ライセンス: Link先を確認 | Andrew W. Torrance and Bill Tomlinson | (参考訳) 過去半世紀にわたり、世界を変える人工知能(AI)の「到着」が秘められたいくつかの誤った夜明けがあった。
著者らは、AIの時代がようやくやってきたと信じている。
DALL-E2やMidjourneyのような強力な画像生成装置によって、誰でも簡単にリッチで複雑なアートを作れるようになった。
同様に、GPT3.5(ChatGPTを含む)やBLOOMなどのテキストジェネレータは、ユーザーが興味のあるトピックの詳細な記述を作成できるようにする。
また、ソフトウェアを書く専門知識のない人にとっても、aiを使って無数のアプリケーションを作れるコードを生成することは可能になった。
AIは今後も進化と改善を続けるが、おそらくは急速なペースで、現在のAI状態は、すでに多くの異なる社会分野に深刻な変化をもたらしている。
あらゆる新しい技術は、人類が賢く統治する能力に挑戦する。
しかしながら、新しい技術がしばしば社会構造、産業、環境、その他の重要な人間の関心に影響を及ぼすため、ガバナンスは可能かつ必要であると見なされる。
この記事では、AIとガバナンスの間のさまざまな相互作用を分析し、利点を最大化し、コストを最小限にする賢明な決定を下すことを期待します。
この記事では、人間性によるAIのガバナンスと、人間性によるAIのガバナンスという、この関係の2つの主な側面について論じている。
この記事は著者とChatGPTによって共同で書かれたものだ。 Over the past half century, there have been several false dawns during which the "arrival" of world-changing artificial intelligence (AI) has been heralded. Tempting fate, the authors believe the age of AI has, indeed, finally arrived. Powerful image generators, such as DALL-E2 and Midjourney have suddenly allowed anyone with access the ability easily to create rich and complex art. In a similar vein, text generators, such as GPT3.5 (including ChatGPT) and BLOOM, allow users to compose detailed written descriptions of many topics of interest. And, it is even possible now for a person without extensive expertise in writing software to use AI to generate code capable of myriad applications. While AI will continue to evolve and improve, probably at a rapid rate, the current state of AI is already ushering in profound changes to many different sectors of society. Every new technology challenges the ability of humanity to govern it wisely. However, governance is usually viewed as both possible and necessary due to the disruption new technology often poses to social structures, industries, the environment, and other important human concerns. In this article, we offer an analysis of a range of interactions between AI and governance, with the hope that wise decisions may be made that maximize benefits and minimize costs. The article addresses two main aspects of this relationship: the governance of AI by humanity, and the governance of humanity by AI. The approach we have taken is itself informed by AI, as this article was written collaboratively by the authors and ChatGPT. | 翻訳日:2023-05-08 12:54:52 公開日:2023-05-04 |
# 時変凸最適化のための外挿に基づく予測補正法 Extrapolation-based Prediction-Correction Methods for Time-varying Convex Optimization ( http://arxiv.org/abs/2004.11709v4 ) ライセンス: Link先を確認 | Nicola Bastianello, Ruggero Carli, Andrea Simonetto | (参考訳) 本稿では、信号処理や機械学習で頻繁に発生するオンライン最適化問題の解決に焦点をあて、データのストリーミングソースにアクセスできるようにする。
予備空間と双対空間の両方において、予測補正パラダイムに基づくオンライン最適化のアルゴリズムについて論じる。
特に,多くの信号処理問題に現れる正規化最小二乗構造を利用して,外挿に基づく新しい予測手法を提案する。
演算子理論からのツールを用いて、原始問題と双対問題の両方に適用された提案手法の収束を解析し、追跡誤差の明示的な境界、すなわち時間変化最適解からの距離を導出する。
さらに,信号処理や機械学習,ロボット工学といった問題に適用したアルゴリズムの実証的性能について論じる。 In this paper, we focus on the solution of online optimization problems that arise often in signal processing and machine learning, in which we have access to streaming sources of data. We discuss algorithms for online optimization based on the prediction-correction paradigm, both in the primal and dual space. In particular, we leverage the typical regularized least-squares structure appearing in many signal processing problems to propose a novel and tailored prediction strategy, which we call extrapolation-based. By using tools from operator theory, we then analyze the convergence of the proposed methods as applied both to primal and dual problems, deriving an explicit bound for the tracking error, that is, the distance from the time-varying optimal solution. We further discuss the empirical performance of the algorithm when applied to signal processing, machine learning, and robotics problems. | 翻訳日:2023-05-05 20:49:31 公開日:2023-05-04 |
# 単調性推定によるアウトカムベースサンプリングにおける因果推論 Causal Inference under Outcome-Based Sampling with Monotonicity Assumptions ( http://arxiv.org/abs/2004.08318v5 ) ライセンス: Link先を確認 | Sung Jae Jun and Sokbae Lee | (参考訳) ケースコントロールとケースポピュレーションサンプリングによる因果推論について検討した。
具体的には、関心のパラメータが因果的相対性であり、潜在的な結果の枠組みを通じて定義された帰属的リスクであるバイナリアウトカムとバイナリ処理のケースに焦点を当てる。
強い無知性はランダムサンプリング下では必ずしも強力ではないことが示され、特定の単調性仮定は鋭く識別された間隔の点で同等の結果をもたらす。
特に、通常オッズ比は、単調治療反応および単調治療選択仮定の下で因果関係リスクの鋭い上限であることが示される。
共変数の真の集団分布上に集約された因果パラメータを推定するためのアルゴリズムを提供する。
本研究は,パキスタンの高名な大学に入学するための私立学校に通うことのメリット,ブラジルの麻薬密売ギャングとの関わりと学校滞在の関係,米国における医師の勤務時間とグループ実践の大きさの関連について,経験的事例を3つ検討し,その有用性を示した。 We study causal inference under case-control and case-population sampling. Specifically, we focus on the binary-outcome and binary-treatment case, where the parameters of interest are causal relative and attributable risks defined via the potential outcome framework. It is shown that strong ignorability is not always as powerful as it is under random sampling and that certain monotonicity assumptions yield comparable results in terms of sharp identified intervals. Specifically, the usual odds ratio is shown to be a sharp identified upper bound on causal relative risk under the monotone treatment response and monotone treatment selection assumptions. We offer algorithms for inference on the causal parameters that are aggregated over the true population distribution of the covariates. We show the usefulness of our approach by studying three empirical examples: the benefit of attending private school for entering a prestigious university in Pakistan; the relationship between staying in school and getting involved with drug-trafficking gangs in Brazil; and the link between physicians' hours and size of the group practice in the United States. | 翻訳日:2023-05-05 20:49:17 公開日:2023-05-04 |
# 純量子状態アンサンブルと量子ガウスホワイトノイズの局所漸近同値 Local asymptotic equivalence of pure quantum states ensembles and quantum Gaussian white noise ( http://arxiv.org/abs/1705.03445v2 ) ライセンス: Link先を確認 | Cristina Butucea, Madalin Guta, Michael Nussbaum | (参考訳) 量子技術は、量子計測データを分析するための特別な統計的推測手法に依存している。
これは、量子物理学と「古典的」統計の重なりで形づくられた分野である「量子統計」の発展を動機付ける。
あまり研究されていない話題の1つは、無限次元量子系に対する統計推論であり、これは非パラメトリック統計の量子対応と見なすことができる。
本稿では、純粋状態において同一に構成される量子系のアンサンブルからなる量子統計モデルの漸近理論を解析する。
大きなアンサンブルの極限において、我々はこのi.d.モデルの局所漸近同値(LAE)を量子ガウスホワイトノイズモデルに確立する。
我々は、波動関数のHermite-Sobolevクラスに属する純状態の最小値を求めるために、LEE結果を用いている。
さらに、同じ状態の二次的汎関数推定では、エルボ効果に注意し、純粋な状態のテストでは、急激なパラメトリックレートが非パラメトリックなヘルミテ・ソボレフクラス上で達成される。 Quantum technology is increasingly relying on specialised statistical inference methods for analysing quantum measurement data. This motivates the development of "quantum statistics", a field that is shaping up at the overlap of quantum physics and "classical" statistics. One of the less investigated topics to date is that of statistical inference for infinite dimensional quantum systems, which can be seen as quantum counterpart of non-parametric statistics. In this paper we analyse the asymptotic theory of quantum statistical models consisting of ensembles of quantum systems which are identically prepared in a pure state. In the limit of large ensembles we establish the local asymptotic equivalence (LAE) of this i.i.d. model to a quantum Gaussian white noise model. We use the LAE result in order to establish minimax rates for the estimation of pure states belonging to Hermite-Sobolev classes of wave functions. Moreover, for quadratic functional estimation of the same states we note an elbow effect in the rates, whereas for testing a pure state a sharp parametric rate is attained over the nonparametric Hermite-Sobolev class. | 翻訳日:2023-05-05 20:49:00 公開日:2023-05-04 |
# 富裕層ネットワークにおける頂点候補 Vertex Nomination in Richly Attributed Networks ( http://arxiv.org/abs/2005.02151v3 ) ライセンス: Link先を確認 | Keith Levin, Carey E. Priebe, Vince Lyzinski | (参考訳) 頂点指名は、あるグラフに対する関心の頂点を用いて第2のグラフに対する関心の頂点を探索し、第2のグラフに対する関心の頂点を検出する、軽量に制御されたネットワーク情報検索タスクである。
他の情報検索タスクと同様に、頂点指名スキームの出力は第2のグラフの頂点のランクリストであり、現在までに未知の関心の頂点がリストのトップに集中している。
頂点指定スキームは、関連する情報のために複雑なネットワークを効率的にマイニングするための有用なツールセットを提供する。
本稿では,頂点候補におけるコンテンツ(エッジ属性と頂点属性)とコンテキスト(ネットワークトポロジー)の2つの役割を理論的かつ実質的に検討する。
我々は、コンテンツとコンテキストの両方を利用する頂点の指名スキームが、コンテンツとコンテキストだけを別々に活用する、必要かつ十分な条件を提供する。
本論文では,コンテントとコンテキストの共用性が実証的に実証されているが,ネットワークの特徴とトポロジの潜在的な相補的役割を理解するための新たな理論的基盤を提供する。 Vertex nomination is a lightly-supervised network information retrieval task in which vertices of interest in one graph are used to query a second graph to discover vertices of interest in the second graph. Similar to other information retrieval tasks, the output of a vertex nomination scheme is a ranked list of the vertices in the second graph, with the heretofore unknown vertices of interest ideally concentrating at the top of the list. Vertex nomination schemes provide a useful suite of tools for efficiently mining complex networks for pertinent information. In this paper, we explore, both theoretically and practically, the dual roles of content (i.e., edge and vertex attributes) and context (i.e., network topology) in vertex nomination. We provide necessary and sufficient conditions under which vertex nomination schemes that leverage both content and context outperform schemes that leverage only content or context separately. While the joint utility of both content and context has been demonstrated empirically in the literature, the framework presented in this paper provides a novel theoretical basis for understanding the potential complementary roles of network features and topology. | 翻訳日:2023-05-05 20:43:16 公開日:2023-05-04 |
# アグリフード分野におけるデータ共有促進におけるクロスサイロフェデレート学習の役割 The Role of Cross-Silo Federated Learning in Facilitating Data Sharing in the Agri-Food Sector ( http://arxiv.org/abs/2104.07468v2 ) ライセンス: Link先を確認 | Aiden Durrant, Milan Markovic, David Matthews, David May, Jessica Enright and Georgios Leontidis | (参考訳) データ共有は、AI技術全般、特にアグリフード分野の採用に関して、依然として大きな障害となっている。
データはデータ所有者にとって貴重な商品であり、適切に使用すれば、競争上の優位性につながる操作やプロセスについての有用な洞察を提供することができる。
残念なことに、新しいAI技術は、よく機能するために大量のトレーニングデータを必要とすることが多い。
しかし、最近の機械学習の進歩、例えばフェデレートドラーニングとプライバシ保存技術は、さまざまなソースのデータを使用して、生データを自身で共有することなくモデルをトレーニングするために必要なインフラストラクチャと基盤技術を提供することによって、この問題に対する解決策を提供することができる。
本稿では,サプライチェーン間でのデータ共有を容易にするクロスサイロ機械学習モデルを開発するために,分散データ(交換や共有ではなく,所有者と保持されるデータ)を用いたフェデレーション学習に基づく技術ソリューションを提案する。
我々は、大豆収量予測による生産最適化の改善にデータ共有の提案を集中させ、そのような手法が他の問題設定を補助できる潜在的なユースケースを提供する。
私たちの手法は、個々のデータソースでトレーニングされた各モデルよりも優れているだけでなく、データ交換の代替手段を通じてアグリフードセクターのデータ共有を可能にし、同時に、新たな機械学習技術を採用して生産性を向上する効果も示しています。 Data sharing remains a major hindering factor when it comes to adopting emerging AI technologies in general, but particularly in the agri-food sector. Protectiveness of data is natural in this setting; data is a precious commodity for data owners, which if used properly can provide them with useful insights on operations and processes leading to a competitive advantage. Unfortunately, novel AI technologies often require large amounts of training data in order to perform well, something that in many scenarios is unrealistic. However, recent machine learning advances, e.g. federated learning and privacy-preserving technologies, can offer a solution to this issue via providing the infrastructure and underpinning technologies needed to use data from various sources to train models without ever sharing the raw data themselves. In this paper, we propose a technical solution based on federated learning that uses decentralized data, (i.e. data that are not exchanged or shared but remain with the owners) to develop a cross-silo machine learning model that facilitates data sharing across supply chains. We focus our data sharing proposition on improving production optimization through soybean yield prediction, and provide potential use-cases that such methods can assist in other problem settings. Our results demonstrate that our approach not only performs better than each of the models trained on an individual data source, but also that data sharing in the agri-food sector can be enabled via alternatives to data exchange, whilst also helping to adopt emerging machine learning technologies to boost productivity. | 翻訳日:2023-05-05 20:18:32 公開日:2023-05-04 |
# マルチカーネル学習のニューラルジェネライゼーション Neural Generalization of Multiple Kernel Learning ( http://arxiv.org/abs/2102.13337v2 ) ライセンス: Link先を確認 | Ahmad Navid Ghanizadeh, Kamaledin Ghiasi-Shirazi, Reza Monsefi, Mohammadreza Qaraei | (参考訳) マルチカーネル学習は、カーネルベースの手法でカーネル関数を学習する従来の方法である。
MKLアルゴリズムはカーネルメソッドの性能を向上させる。
しかし、これらの手法はディープラーニングモデルに比べて複雑さが低く、認識精度の点でこれらのモデルに劣る。
ディープラーニングモデルは、複数の層を通してデータに非線形変換を適用することで、複雑な関数を学習することができる。
本稿では,典型的なMKLアルゴリズムを線形活性化関数を持つ一層ニューラルネットワークとして解釈できることを示す。
本稿では,従来のマルチカーネル学習フレームワークを非線形アクティベーション関数を持つ多層ニューラルネットワークに拡張した,マルチカーネル学習(ngmkl)のニューラルネットワーク一般化を提案する。
いくつかのベンチマーク実験により,提案手法はMKLアルゴリズムの複雑性を向上し,高い認識精度をもたらすことが示された。 Multiple Kernel Learning is a conventional way to learn the kernel function in kernel-based methods. MKL algorithms enhance the performance of kernel methods. However, these methods have a lower complexity compared to deep learning models and are inferior to these models in terms of recognition accuracy. Deep learning models can learn complex functions by applying nonlinear transformations to data through several layers. In this paper, we show that a typical MKL algorithm can be interpreted as a one-layer neural network with linear activation functions. By this interpretation, we propose a Neural Generalization of Multiple Kernel Learning (NGMKL), which extends the conventional multiple kernel learning framework to a multi-layer neural network with nonlinear activation functions. Our experiments on several benchmarks show that the proposed method improves the complexity of MKL algorithms and leads to higher recognition accuracy. | 翻訳日:2023-05-05 20:18:05 公開日:2023-05-04 |
# QNLPの実践: 量子コンピュータにおける構成的意味モデルの実行 QNLP in Practice: Running Compositional Models of Meaning on a Quantum Computer ( http://arxiv.org/abs/2102.12846v2 ) ライセンス: Link先を確認 | Robin Lorenz, Anna Pearson, Konstantinos Meichanetzidis, Dimitri Kartsaklis, Bob Coecke | (参考訳) 量子自然言語処理(QNLP)は、量子ハードウェア上で動くことを意図したNLPモデルの設計と実装を扱う。
本稿では,100文以上のデータセットを対象としたNISQ(Noisy Intermediate-Scale Quantum)コンピュータ上で行った最初のNLP実験について報告する。
Coecke, Sadrzadeh and Clark (2010) による構成的意味モデルと量子論の形式的類似性を発見し、量子回路への自然な写像を持つ文の表現を作成する。
量子ハードウェア上で単純な文分類タスクを解決するnlpモデルの実装とトレーニングにこれらの表現を用いる。
我々は、Coeckeらの構文感受性モデルと、ほとんどあるいは全く構文を使用しない2つのベースラインを比較する量子シミュレーションを行い、具体的には、構文が全く考慮されていない「単語のバグ」モデルの量子アナログと、単語順序のみを尊重する単語列モデルを実装している。
シミュレーションと量子ハードウェア上での実行の両方において,すべてのモデルがスムーズに収束し,タスクや使用するデータセットの性質に基づいた期待結果であることが実証された。
この論文の重要なゴールは、AIやNLP研究者が量子ハードウェアの実験の主要な原則、プロセス、課題にアクセスできる方法で説明することである。
我々の目標は、この未調査研究領域における最初の小さな一歩を踏み出し、実用的な量子自然言語処理の道を開くことである。 Quantum Natural Language Processing (QNLP) deals with the design and implementation of NLP models intended to be run on quantum hardware. In this paper, we present results on the first NLP experiments conducted on Noisy Intermediate-Scale Quantum (NISQ) computers for datasets of size greater than 100 sentences. Exploiting the formal similarity of the compositional model of meaning by Coecke, Sadrzadeh and Clark (2010) with quantum theory, we create representations for sentences that have a natural mapping to quantum circuits. We use these representations to implement and successfully train NLP models that solve simple sentence classification tasks on quantum hardware. We conduct quantum simulations that compare the syntax-sensitive model of Coecke et al. with two baselines that use less or no syntax; specifically, we implement the quantum analogues of a "bag-of-words" model, where syntax is not taken into account at all, and of a word-sequence model, where only word order is respected. We demonstrate that all models converge smoothly both in simulations and when run on quantum hardware, and that the results are the expected ones based on the nature of the tasks and the datasets used. Another important goal of this paper is to describe in a way accessible to AI and NLP researchers the main principles, process and challenges of experiments on quantum hardware. Our aim in doing this is to take the first small steps in this unexplored research territory and pave the way for practical Quantum Natural Language Processing. | 翻訳日:2023-05-05 20:17:52 公開日:2023-05-04 |
# ISP蒸留 ISP Distillation ( http://arxiv.org/abs/2101.10203v3 ) ライセンス: Link先を確認 | Eli Schwartz, Alex Bronstein, Raja Giryes | (参考訳) 今日では、撮影された画像の多くは、機械によってのみ観察され、人間、例えば自律システムによって観察される。
オブジェクト認識やセマンティックセグメンテーションなどの高レベルマシンビジョンモデルは、画像がカメラ \ans{Image Signal Processor (ISP)} によって標準的な画像空間に変換されると仮定する。
しかし、カメラISPは、人間の観察者にとって、マシンではなく、視覚的に喜ぶイメージを作り出すために最適化されている。
したがって、ISPの計算時間を省き、RAW画像に直接視覚モデルを適用することができる。
しかし,RAW画像から直接そのようなモデルをトレーニングすると,性能低下が生じることが示されている。
この減少を緩和するために、RAWとRGBイメージペアデータセットを使用し、人間のラベルなしで容易に取得できる。
次に、知識蒸留を用いてRAWデータに直接適用されるモデルを訓練し、RAW画像のモデル予測が、処理されたRGB画像の既訓練モデルの予測と一致するようにする。
実験の結果,RAW画像におけるオブジェクト分類とセマンティックセグメンテーションの性能は,ラベル付きRAW画像のトレーニングモデルよりも有意に優れていることがわかった。
また、ISPの計算オーバーヘッドを節約しながら、処理されたRGBイメージ上で事前訓練されたモデルの予測と合理的に一致します。 Nowadays, many of the images captured are `observed' by machines only and not by humans, e.g., in autonomous systems. High-level machine vision models, such as object recognition or semantic segmentation, assume images are transformed into some canonical image space by the camera \ans{Image Signal Processor (ISP)}. However, the camera ISP is optimized for producing visually pleasing images for human observers and not for machines. Therefore, one may spare the ISP compute time and apply vision models directly to RAW images. Yet, it has been shown that training such models directly on RAW images results in a performance drop. To mitigate this drop, we use a RAW and RGB image pairs dataset, which can be easily acquired with no human labeling. We then train a model that is applied directly to the RAW data by using knowledge distillation such that the model predictions for RAW images will be aligned with the predictions of an off-the-shelf pre-trained model for processed RGB images. Our experiments show that our performance on RAW images for object classification and semantic segmentation is significantly better than models trained on labeled RAW images. It also reasonably matches the predictions of a pre-trained model on processed RGB images, while saving the ISP compute overhead. | 翻訳日:2023-05-05 20:17:28 公開日:2023-05-04 |
# 自動損失認識モデル圧縮のためのシングルパスビット共有 Single-path Bit Sharing for Automatic Loss-aware Model Compression ( http://arxiv.org/abs/2101.04935v4 ) ライセンス: Link先を確認 | Jing Liu, Bohan Zhuang, Peng Chen, Chunhua Shen, Jianfei Cai, Mingkui Tan | (参考訳) ネットワークプルーニングと量子化は、ディープモデル圧縮に有効な方法であることが証明されている。
高コンパクトなモデルを得るため、ほとんどの手法はまずネットワークプルーニングを行い、次にプルーンドモデルに基づいてネットワーク量子化を行う。
しかし、この戦略は相互に影響しあうことを無視し、個別に実行すると最適以下のパフォーマンスにつながる可能性がある。
これに対処するためには、プルーニングと量子化を共同で行うことが不可欠である。
それでも、刈り取りと量子化のトレードオフは自明ではない。
さらに、既存の圧縮メソッドは、事前定義された圧縮設定に依存することが多い。
最適設定を探索する試みはいくつかあるが、これは許容できない最適化コストを必要とする可能性がある。
上記の問題に対処するため,Single-path Bit Sharing (SBS) というシンプルな手法を考案した。
具体的には,まずネットワークプルーニングを,プルーニングと量子化の統一的なビューを提供する量子化の特別なケースとして捉えた。
次に、すべての候補圧縮構成をエンコードする単一パスモデルを導入する。
このようにして、構成探索問題をサブセット選択問題に変換し、パラメータ数、計算コスト、最適化の難しさを大幅に低減する。
単一パスモデルに依存して、bitwidthの選択をエンコードするために学習可能なバイナリゲートも導入する。
ネットワークパラメータとともにバイナリゲートを共同でトレーニングすることにより、各レイヤの圧縮構成を自動的に決定することができる。
CIFAR-100とImageNetの両方での大規模な実験により、SBSは有望な性能を達成しつつ、計算コストを大幅に削減できることが示された。
例えば、SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍のビット演算(BOP)を実現する。 Network pruning and quantization are proven to be effective ways for deep model compression. To obtain a highly compact model, most methods first perform network pruning and then conduct network quantization based on the pruned model. However, this strategy may ignore that they would affect each other and thus performing them separately may lead to sub-optimal performance. To address this, performing pruning and quantization jointly is essential. Nevertheless, how to make a trade-off between pruning and quantization is non-trivial. Moreover, existing compression methods often rely on some pre-defined compression configurations. Some attempts have been made to search for optimal configurations, which however may take unbearable optimization cost. To address the above issues, we devise a simple yet effective method named Single-path Bit Sharing (SBS). Specifically, we first consider network pruning as a special case of quantization, which provides a unified view for pruning and quantization. We then introduce a single-path model to encode all candidate compression configurations. In this way, the configuration search problem is transformed into a subset selection problem, which significantly reduces the number of parameters, computational cost and optimization difficulty. Relying on the single-path model, we further introduce learnable binary gates to encode the choice of bitwidth. By jointly training the binary gates in conjunction with network parameters, the compression configurations of each layer can be automatically determined. Extensive experiments on both CIFAR-100 and ImageNet show that SBS is able to significantly reduce computational cost while achieving promising performance. For example, our SBS compressed MobileNetV2 achieves 22.6x Bit-Operation (BOP) reduction with only 0.1% drop in the Top-1 accuracy. | 翻訳日:2023-05-05 20:17:09 公開日:2023-05-04 |
# GTEA:時間的エッジアグリゲーションによる時間的相互作用グラフの帰納的表現学習 GTEA: Inductive Representation Learning on Temporal Interaction Graphs via Temporal Edge Aggregation ( http://arxiv.org/abs/2009.05266v3 ) ライセンス: Link先を確認 | Siyue Xie, Yiming Li, Da Sun Handason Tam, Xiaxin Liu, Qiu Fang Ying, Wing Cheong Lau, Dah Ming Chiu, Shou Zhi Chen | (参考訳) 本稿では,時間的相互作用グラフ(TIG)の帰納学習のためのグラフ時間的エッジ集約(GTEA)フレームワークを提案する。
以前の研究と異なり、GTEAは連続時間空間における相互作用列の時間的ダイナミクスをモデル化し、グラフ内のリッチノードとエッジ/インタラクション属性の両方を活用する。
具体的には、時系列モデルと時間エンコーダを統合することで、2つの隣接ノード間のペア回りの相互作用ダイナミクスを学習し、履歴に沿ってノードペアの複雑な時間的相互作用パターンをキャプチャし、gnnバックボーンに供給可能なエッジ埋め込みを生成する。
隣接ノードと対応するエッジ埋め込みの特徴を集約することにより、GTEAはTIGの位相的および時間的依存関係の両方を共同で学習する。
さらに, 隣接アグリゲーションに空間性誘導型自己注意スキームが組み込まれ, より重要で, GTEA の自明なノイズを抑制する。
シーケンスモデルとGNNバックボーンを協調的に最適化することにより、GTEAは時間的およびグラフ的両方の構造特性をキャプチャするより包括的なノード表現を学習する。
5つの大規模実世界のデータセットに関する広範な実験は、他の帰納的モデルよりもgteaが優れていることを示している。 In this paper, we propose the Graph Temporal Edge Aggregation (GTEA) framework for inductive learning on Temporal Interaction Graphs (TIGs). Different from previous works, GTEA models the temporal dynamics of interaction sequences in the continuous-time space and simultaneously takes advantage of both rich node and edge/ interaction attributes in the graph. Concretely, we integrate a sequence model with a time encoder to learn pairwise interactional dynamics between two adjacent nodes.This helps capture complex temporal interactional patterns of a node pair along the history, which generates edge embeddings that can be fed into a GNN backbone. By aggregating features of neighboring nodes and the corresponding edge embeddings, GTEA jointly learns both topological and temporal dependencies of a TIG. In addition, a sparsity-inducing self-attention scheme is incorporated for neighbor aggregation, which highlights more important neighbors and suppresses trivial noises for GTEA. By jointly optimizing the sequence model and the GNN backbone, GTEA learns more comprehensive node representations capturing both temporal and graph structural characteristics. Extensive experiments on five large-scale real-world datasets demonstrate the superiority of GTEA over other inductive models. | 翻訳日:2023-05-05 20:16:43 公開日:2023-05-04 |
# 量子インターネットにおける因果活性化による多部絡み合いの決定論的生成 Deterministic Generation of Multipartite Entanglement via Causal Activation in the Quantum Internet ( http://arxiv.org/abs/2112.00543v2 ) ライセンス: Link先を確認 | Seid Koudia, Angela Sara Cacciapuoti, Marcello Caleffi | (参考訳) エンタングルメントは、量子通信から分散量子コンピューティングまで、量子情報処理のいくつかの応用のための '`\textit{the}'' キーリソースを表す。
基本的重要性にもかかわらず、最大絡み合った量子ビットの決定論的生成は、現在進行中の開問題を表している。
ここでは,2つの魅力的な特徴を示す新しい生成方式をデザインする。
一 真に多部交絡状態の異なるクラス(GHZ様、W様及びグラフ状態)を決定論的に生成すること。
二 キュービット間の直接的相互作用を必要とせず。
実際、唯一の必要条件は、不確定因果順序フレームワークによれば、キュービットに作用するユニタリ間の因果順序をコヒーレントに制御する可能性である。
本稿では,決定論的生成のためのユニタリの条件を分析し,導出し,ユニタリの実践例を示す。
本稿では,提案手法の高次元真の多部絡み合い(GME)状態への拡張性について議論し,提案手法の量子ネットワークへの応用の可能性を紹介する。 Entanglement represents ``\textit{the}'' key resource for several applications of quantum information processing, ranging from quantum communications to distributed quantum computing. Despite its fundamental importance, deterministic generation of maximally entangled qubits represents an on-going open problem. Here, we design a novel generation scheme exhibiting two attractive features, namely, i) deterministically generating different classes -- namely, GHZ-like, W-like and graph states -- of genuinely multipartite entangled states, ii) without requiring any direct interaction between the qubits. Indeed, the only necessary condition is the possibility of coherently controlling -- according to the indefinite causal order framework -- the causal order among the unitaries acting on the qubits. Through the paper, we analyze and derive the conditions on the unitaries for deterministic generation, and we provide examples for unitaries practical implementation. We conclude the paper by discussing the scalability of the proposed scheme to higher dimensional genuine multipartite entanglement (GME) states and by introducing some possible applications of the proposal for quantum networks. | 翻訳日:2023-05-05 20:08:19 公開日:2023-05-04 |
# adaafford: 少数ショットインタラクションによる3次元関節オブジェクトの操作能力適応のための学習 AdaAfford: Learning to Adapt Manipulation Affordance for 3D Articulated Objects via Few-shot Interactions ( http://arxiv.org/abs/2112.00246v6 ) ライセンス: Link先を確認 | Yian Wang, Ruihai Wu, Kaichun Mo, Jiaqi Ke, Qingnan Fan, Leonidas Guibas, Hao Dong | (参考訳) キャビネット、ドア、蛇口などの3次元関節オブジェクトを知覚し、相互作用させることは、人間の環境で日々の作業を行うホームアシスタントロボットに特別な課題をもたらす。
関節部分や関節パラメータを解析するだけでなく、最近の研究者は、よりタスクに敏感で幾何学的にきめ細かな入力形状に対する学習操作の余裕を提唱している。
しかし、受動的観察のみを入力とすると、これらの手法は多くの隠れて重要なキネマティックな制約(例えば、関節の位置と限界)と動的要因(例えば、関節摩擦と再構成)を無視して、そのような不確実性のあるテストケースでかなりの精度を失う。
本稿では,adaaffordという新しいフレームワークを提案する。adaaffordは,より正確なインスタンス固有の後方へのアプライアンスを迅速に適用するために,テスト時のインタラクションをほとんど行わないことを学ぶ。
我々はpartnet-mobilityデータセットを用いて大規模実験を行い,本システムはベースラインよりも優れた性能を示す。 Perceiving and interacting with 3D articulated objects, such as cabinets, doors, and faucets, pose particular challenges for future home-assistant robots performing daily tasks in human environments. Besides parsing the articulated parts and joint parameters, researchers recently advocate learning manipulation affordance over the input shape geometry which is more task-aware and geometrically fine-grained. However, taking only passive observations as inputs, these methods ignore many hidden but important kinematic constraints (e.g., joint location and limits) and dynamic factors (e.g., joint friction and restitution), therefore losing significant accuracy for test cases with such uncertainties. In this paper, we propose a novel framework, named AdaAfford, that learns to perform very few test-time interactions for quickly adapting the affordance priors to more accurate instance-specific posteriors. We conduct large-scale experiments using the PartNet-Mobility dataset and prove that our system performs better than baselines. | 翻訳日:2023-05-05 20:07:54 公開日:2023-05-04 |
# SU($N$)トーリックコードと非アーベルアポン SU($N$) Toric Code and Nonabelian Anyons ( http://arxiv.org/abs/2110.13841v2 ) ライセンス: Link先を確認 | Manu Mathur, Atul Rathor | (参考訳) 二次元トーラス上のsu($n$)電気および磁束のダイナミクスを記述するsu($n$)トーラス符号モデルを構築する。
n^2$ 位相的に異なる基底状態 $|\psi_0\rangle_{({\mathsf p},{\mathsf q})} が成立し、これらのループ状態は $z_n \otimes z_n$ 中心電荷 $({\mathsf p},{\mathsf q} =0,1,2,\cdots, n-1)$ で特徴づけられる。
我々は、ウィグナー係数を振幅としてトーラス上の全ての可能なスピンネットワーク状態のコヒーレント重ね合わせを明示的に構成する。
SU($N$)の電荷と磁束を持つ全ての励起準粒子状態が構築される。
これらのSU(N) 電気, 磁性準粒子, 非アーベル粒子のブレイディング統計がウィグナー回転行列に符号化されていることを示す。 We construct SU($N$) toric code model describing the dynamics of SU($N$) electric and magnetic fluxes on a two dimensional torus. We show that the model has $N^2$ topologically distinct ground states $|\psi_0\rangle_{({\mathsf p},{\mathsf q})}$ which are loop states characterized by $Z_N \otimes Z_N$ centre charges $({\mathsf p},{\mathsf q} =0,1,2,\cdots, N-1)$. We explicitly construct them in terms of coherent superpositions of all possible spin network states on torus with Wigner coefficients as their amplitudes. All excited quasiparticle states with SU($N$) electric charges and magnetic fluxes are constructed. We show that the braiding statistics of these SU(N) electric, magnetic quasiparticles or nonabelian anyons is encoded in the Wigner rotation matrices. | 翻訳日:2023-05-05 20:07:34 公開日:2023-05-04 |
# セントロイドコントラスト学習によるテールクラス表現の改善 Improving Tail-Class Representation with Centroid Contrastive Learning ( http://arxiv.org/abs/2110.10048v2 ) ライセンス: Link先を確認 | Anthony Meng Huat Tiong, Junnan Li, Guosheng Lin, Boyang Li, Caiming Xiong, Steven C.H. Hoi | (参考訳) 視覚領域では、大規模自然データセットは通常、頭と尾の間の大きなクラス不均衡を持つ長い尾の分布を示す。
この分布はテールクラスのよい表現を学ぶのに困難をもたらす。
最近の研究では、トレーニングを表現学習と分類器のバランスに分離することで、優れたロングテールモデルが学習できることが示されている。
しかし,これらの研究は,表現学習に対する長期的影響について十分考慮していない。
本研究では,長期表現学習を改善するために,補間型セントロイドコントラスト学習(ICCL)を提案する。
ICCLは、クラス別サンプルとクラス別サンプルの2つの画像を補間し、補間画像の表現を使って、両方のソースクラスのセントロイドを検索できるようにモデルを訓練する。
提案手法の有効性を複数の長期画像分類ベンチマークで示す。
その結果,実世界のロングテール分布を持つinaturalist 2018データセットの精度は2.8%向上した。 In vision domain, large-scale natural datasets typically exhibit long-tailed distribution which has large class imbalance between head and tail classes. This distribution poses difficulty in learning good representations for tail classes. Recent developments have shown good long-tailed model can be learnt by decoupling the training into representation learning and classifier balancing. However, these works pay insufficient consideration on the long-tailed effect on representation learning. In this work, we propose interpolative centroid contrastive learning (ICCL) to improve long-tailed representation learning. ICCL interpolates two images from a class-agnostic sampler and a class-aware sampler, and trains the model such that the representation of the interpolative image can be used to retrieve the centroids for both source classes. We demonstrate the effectiveness of our approach on multiple long-tailed image classification benchmarks. Our result shows a significant accuracy gain of 2.8% on the iNaturalist 2018 dataset with a real-world long-tailed distribution. | 翻訳日:2023-05-05 20:07:17 公開日:2023-05-04 |
# 代数的ZX計算を用いた行列の表現と実装 Representing and Implementing Matrices Using Algebraic ZX-calculus ( http://arxiv.org/abs/2110.06898v4 ) ライセンス: Link先を確認 | Quanlong Wang, Richie Yeung | (参考訳) 線型代数の応用において、基本行列は重要な役割を果たす。
本稿では,代数的zx計算における2^m\times 2^n$-size basic matricesの図式表現について述べる。
さらに、この表現を用いて代数的 zx 計算における jozsa-style matchgate を記述する。
実用性をさらに向上するため,この表現をtexttt{discopy} で実装した。
この研究は、量子コンピューティングにおける制御行列 [arXiv:2212.04462] の合成など、ZX-計算のさらなる応用の基礎となる。 In linear algebra applications, elementary matrices hold a significant role. This paper presents a diagrammatic representation of all $2^m\times 2^n$-sized elementary matrices in algebraic ZX-calculus, showcasing their properties on inverses and transpose through diagrammatic rewriting. Additionally, the paper uses this representation to depict the Jozsa-style matchgate in algebraic ZX-calculus. To further enhance practical use, we have implemented this representation in \texttt{discopy}. Overall, this work sets the groundwork for more applications of ZX-calculus such as synthesising controlled matrices [arXiv:2212.04462] in quantum computing. | 翻訳日:2023-05-05 20:07:01 公開日:2023-05-04 |
# 階層型ニューラルネットワーク探索のための新しい進化アルゴリズム A Novel Evolutionary Algorithm for Hierarchical Neural Architecture Search ( http://arxiv.org/abs/2107.08484v2 ) ライセンス: Link先を確認 | Aristeidis Christoforidis, George Kyriakides, Konstantinos Margaritis | (参考訳) 本研究では,グローバルな探索空間に適用可能なニューラルアーキテクチャ探索のための新しい進化的アルゴリズムを提案する。
アルゴリズムのアーキテクチャ表現は、複数の階層的なモジュールでトポロジを整理し、設計プロセスはこの表現を利用して探索空間を探索する。
また,良好なサブ構造の利用を後世に促進するキュレーションシステムも採用している。
本手法をファッション・マンニストとnas-bench101に適用し,比較的少ない世代でそれぞれ93.2\%$と94.8\%$の確率を達成した。 In this work, we propose a novel evolutionary algorithm for neural architecture search, applicable to global search spaces. The algorithm's architectural representation organizes the topology in multiple hierarchical modules, while the design process exploits this representation, in order to explore the search space. We also employ a curation system, which promotes the utilization of well performing sub-structures to subsequent generations. We apply our method to Fashion-MNIST and NAS-Bench101, achieving accuracies of $93.2\%$ and $94.8\%$ respectively in a relatively small number of generations. | 翻訳日:2023-05-05 20:06:50 公開日:2023-05-04 |
# 情報の欠如による量子不確かさの実験的研究 Experimental study of quantum uncertainty from lack of information ( http://arxiv.org/abs/2105.09005v3 ) ライセンス: Link先を確認 | Yuan-Yuan Zhao, Filip Rozp\k{e}dek, Zhibo Hou, Kang-Da Wu, Guo-Yong Xiang, Chuan-Feng Li, and Guang-Can Guo | (参考訳) 量子不確実性は量子力学のよく知られた性質であり、複数の不整合可観測体の測定結果を予測することは不可能である。
対照的に、古典的領域における不確実性は、システムの正確な状態に関する情報の欠如から生じる。
量子の不確かさが量子論の完全な本質的性質であるかどうか、あるいは古典領域と同様に物理系の特定の部分に関する知識の欠如が、この不確実性の原因であるかどうかを自然に問うことができる。
この問題は、著者たちが、いわゆる推測ゲームを用いて説明できる不確実性原理のエントロピックな定式化において、実際にそのような情報の欠如が量子不確実性の原因となると論じる以前の文献で論じられている。
本稿では,対応する2次元および3次元推測ゲームの実装により,この問題を実験的に検討する。
その結果,推定ゲームフレームワーク内では,ゲームの主要特性を決定する量子情報が,推測者にとってアクセス不能な自由度に格納されているという事実に大きく依存していることが確認された。
さらに, 量子計算, 量子通信, 量子メトロロジーの様々なタスクにおいて, 主要な構成要素である高次元フーリエゲートを構築するための実験的にコンパクトな手法を提案する。 Quantum uncertainty is a well-known property of quantum mechanics that states the impossibility of predicting measurement outcomes of multiple incompatible observables simultaneously. In contrast, the uncertainty in the classical domain comes from the lack of information about the exact state of the system. One may naturally ask, whether the quantum uncertainty is indeed a fully intrinsic property of the quantum theory, or whether similarly to the classical domain lack of knowledge about specific parts of the physical system might be the source of this uncertainty. This question has been addressed in the previous literature where the authors argue that in the entropic formulation of the uncertainty principle that can be illustrated using the, so-called, guessing games, indeed such lack of information has a significant contribution to the arising quantum uncertainty. Here we investigate this issue experimentally by implementing the corresponding two-dimensional and three-dimensional guessing games. Our results confirm that within the guessing-game framework, the quantum uncertainty to a large extent relies on the fact that quantum information determining the key properties of the game is stored in the degrees of freedom that remain inaccessible to the guessing party. Moreover, we offer an experimentally compact method to construct the high-dimensional Fourier gate which is a major building block for various tasks in quantum computation, quantum communication, and quantum metrology. | 翻訳日:2023-05-05 20:06:38 公開日:2023-05-04 |
# 情報分解に基づく特徴選択における冗長性と関連性の厳密な情報理論的定義 A Rigorous Information-Theoretic Definition of Redundancy and Relevancy in Feature Selection Based on (Partial) Information Decomposition ( http://arxiv.org/abs/2105.04187v4 ) ライセンス: Link先を確認 | Patricia Wollstadt and Sebastian Schmitt and Michael Wibral | (参考訳) ターゲット変数について最大限に情報を提供する最小の機能セットを選択することは、機械学習と統計の中心的なタスクである。
情報理論は、機能選択アルゴリズムを定式化する強力なフレームワークを提供するが、冗長や相乗的コントリビュートなどの機能インタラクションを考慮した、厳密で情報理論的な機能関連の定義は、いまだ欠落している。
この欠如は古典的な情報理論に固有のものであり、変数の集合が対象に関する情報をユニークで冗長でシナジスティックな貢献に分解する手段を提供していない。
このような分解は、最近になって部分情報分解(PID)フレームワークによってのみ導入された。
PIDを用いて情報理論を用いた場合,特徴選択が概念的に難しい問題である理由を明らかにし,PID用語における特徴の関連性と冗長性の新たな定義を提供する。
この定義から,条件付き相互情報(CMI)は冗長性を最小化しながら関連性を最大化し,実用的な特徴選択のための反復的CMIベースのアルゴリズムを提案する。
我々は,CMIに基づくアルゴリズムのパワーを,ベンチマーク例における無条件の相互情報と比較し,PIDが特徴と特徴選択問題における相互作用の情報提供を定量化できることを示す。 Selecting a minimal feature set that is maximally informative about a target variable is a central task in machine learning and statistics. Information theory provides a powerful framework for formulating feature selection algorithms -- yet, a rigorous, information-theoretic definition of feature relevancy, which accounts for feature interactions such as redundant and synergistic contributions, is still missing. We argue that this lack is inherent to classical information theory which does not provide measures to decompose the information a set of variables provides about a target into unique, redundant, and synergistic contributions. Such a decomposition has been introduced only recently by the partial information decomposition (PID) framework. Using PID, we clarify why feature selection is a conceptually difficult problem when approached using information theory and provide a novel definition of feature relevancy and redundancy in PID terms. From this definition, we show that the conditional mutual information (CMI) maximizes relevancy while minimizing redundancy and propose an iterative, CMI-based algorithm for practical feature selection. We demonstrate the power of our CMI-based algorithm in comparison to the unconditional mutual information on benchmark examples and provide corresponding PID estimates to highlight how PID allows to quantify information contribution of features and their interactions in feature-selection problems. | 翻訳日:2023-05-05 20:06:16 公開日:2023-05-04 |
# 量子離散事象システムの監視制御 Supervisory Control of Quantum Discrete Event Systems ( http://arxiv.org/abs/2104.09753v3 ) ライセンス: Link先を確認 | Daowen Qiu | (参考訳) 離散イベントシステム(DES)は、実際、深く開発され、適用されてきたが、DESにおける状態複雑性は、革新的な方法でよりよく解決できる重要な問題である。
量子コンピューティングと量子制御の発展により、自然問題は量子コンピューティングモデルを用いてDESをシミュレートし、量子DES(QDES)を確立することである。
その動機は2つある:一方、qdesは量子コンピュータによってdesがシミュレーションされ処理される場合、量子システムは離散的な事象によって駆動される状態の進化をシミュレートするために使用される。
そこで,本論文の目的は,量子有限オートマトン(QFA)をモデル形式としてQDESの基本的枠組みを確立することであり,QDESの監督制御定理が確立され,証明される。
次に,制御性条件が成立するか否かを決定する多項式時間アルゴリズムを提案する。
特に,QDESのスーパーバイザリコントロールを図り,従来のDESよりもQDESの本質的な優位性を検証するために,QFAの新しい例を多数構築する。 Discrete event systems (DES) have been deeply developed and applied in practice, but state complexity in DES still is an important problem to be better solved with innovative methods. With the development of quantum computing and quantum control, a natural problem is to simulate DES by means of quantum computing models and to establish {\it quantum DES} (QDES). The motivation is twofold: on the one hand, QDES have potential applications when DES are simulated and processed by quantum computers, where quantum systems are employed to simulate the evolution of states driven by discrete events, and on the other hand, QDES may have essential advantages over DES concerning state complexity for imitating some practical problems. So, the goal of this paper is to establish a basic framework of QDES by using {\it quantum finite automata} (QFA) as the modelling formalisms, and the supervisory control theorems of QDES are established and proved. Then we present a polynomial-time algorithm to decide whether or not the controllability condition holds. In particular, we construct a number of new examples of QFA to illustrate the supervisory control of QDES and to verify the essential advantages of QDES over classical DES in state complexity. | 翻訳日:2023-05-05 20:05:53 公開日:2023-05-04 |
# ニューラルネットワークを用いた非線形関数モデリング Non-linear Functional Modeling using Neural Networks ( http://arxiv.org/abs/2104.09371v2 ) ライセンス: Link先を確認 | Aniruddha Rajendra Rao and Matthew Reimherr | (参考訳) ニューラルネットワークに基づく関数型データのための非線形モデルの新たなクラスを導入する。
ディープラーニングは非線形モデリングにおいて非常に成功したが、機能的なデータ設定ではほとんど行われていない。
我々は,機能的直接ニューラルネットワーク(fdnn)と呼ばれる,連続的な隠れ層を持つ機能的ニューラルネットワークと,機能的基底ニューラルネットワーク(fbnn)と呼ばれる基底拡張と連続的隠れ層を利用する2番目のバージョンを提案する。
どちらも関数データに固有の構造を利用するように設計されている。
これらのモデルに適合するため、関数勾配に基づく最適化アルゴリズムを導出する。
複雑な関数モデルを扱うための提案手法の有効性を総合的なシミュレーションと実データ例を用いて実証した。 We introduce a new class of non-linear models for functional data based on neural networks. Deep learning has been very successful in non-linear modeling, but there has been little work done in the functional data setting. We propose two variations of our framework: a functional neural network with continuous hidden layers, called the Functional Direct Neural Network (FDNN), and a second version that utilizes basis expansions and continuous hidden layers, called the Functional Basis Neural Network (FBNN). Both are designed explicitly to exploit the structure inherent in functional data. To fit these models we derive a functional gradient based optimization algorithm. The effectiveness of the proposed methods in handling complex functional models is demonstrated by comprehensive simulation studies and real data examples. | 翻訳日:2023-05-05 20:05:30 公開日:2023-05-04 |
# 隠れ部分群問題を解決する多項式時間量子アルゴリズム Polynomial-time quantum algorithm for solving the hidden subgroup problem ( http://arxiv.org/abs/2204.03295v5 ) ライセンス: Link先を確認 | Hefeng Wang | (参考訳) 隠れ部分群問題~(HSP)は量子計算における最も重要な問題の1つである。
量子アルゴリズムが古典的よりも指数的なスピードアップを達成する多くの問題は、アベリア HSP に還元できる。
しかし、非アベリア HSP を解くための効率的な量子アルゴリズムは存在しない。
我々は,HSPを,マルチステップ量子計算による量子アルゴリズムを用いて効率的に解けるネスト型構造化探索問題に還元できることを発見した。
そして、このアルゴリズムを用いて、HSPとAbelianと非Abelian HSPの両方に多項式時間で還元できる問題を解く。 The hidden subgroup problem~(HSP) is one of the most important problems in quantum computation. Many problems for which quantum algorithm achieves exponential speedup over its classical counterparts can be reduced to the Abelian HSP. However, there is no efficient quantum algorithm for solving the non-Abelian HSP. We find that the HSP can be reduced to a nested structured search problem that is solved efficiently by using a quantum algorithm via multistep quantum computation. Then we solve the HSP and problems that can be reduced to both the Abelian and the non-Abelian HSP in polynomial time by using this algorithm. | 翻訳日:2023-05-05 19:59:23 公開日:2023-05-04 |
# リモートセンシング事前学習の実証的研究 An Empirical Study of Remote Sensing Pretraining ( http://arxiv.org/abs/2204.02825v4 ) ライセンス: Link先を確認 | Di Wang, Jing Zhang, Bo Du, Gui-Song Xia and Dacheng Tao | (参考訳) 深層学習は空中画像理解のためのリモートセンシング(RS)研究を大きく変え、大きな成功を収めた。
それでも、既存のディープモデルのほとんどは、ImageNet事前訓練された重量で初期化されている。
自然画像は必然的に航空画像に比べて大きな領域間隙を呈するので、おそらく下流の航空シーンでの微調整性能は制限されるだろう。
この問題により,航空画像におけるリモートセンシングプリトレーニング(rsp)の実証研究を行う動機となった。
この目的のために、これまで最大のRSシーン認識データセット -- MillionAIDの助けを借りて、さまざまなネットワークをゼロからトレーニングし、コンピュータビジョンタスクで有望なパフォーマンスを示す畳み込みニューラルネットワーク(CNN)と、SwinやViTAEのようなビジョントランスフォーマーを含む、一連のRS事前トレーニングされたバックボーンを取得する。
次に,これらのCNNと視覚変換器のバックボーンを用いたシーン認識,セマンティックセグメンテーション,オブジェクト検出,変化検出などの下流タスクに対するRSPの影響を検討した。
経験的研究によれば、rspはシーン認識タスクや"ブリッジ"や"飛行機"といったrs関連のセマンティクスに特有のパフォーマンスを提供するのに役立つ。
RSPは従来のイメージネットによるRS画像の事前学習におけるデータ格差を緩和するが、下流タスクがシーン認識タスクとは異なる表現を必要とするタスクの相違に悩まされている可能性がある。
これらの知見は、大規模事前トレーニングデータセットと効果的な事前トレーニング方法の両方について、さらなる研究の努力を必要とする。
コードと事前訓練されたモデルはhttps://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensingでリリースされる。 Deep learning has largely reshaped remote sensing (RS) research for aerial image understanding and made a great success. Nevertheless, most of the existing deep models are initialized with the ImageNet pretrained weights. Since natural images inevitably present a large domain gap relative to aerial images, probably limiting the finetuning performance on downstream aerial scene tasks. This issue motivates us to conduct an empirical study of remote sensing pretraining (RSP) on aerial images. To this end, we train different networks from scratch with the help of the largest RS scene recognition dataset up to now -- MillionAID, to obtain a series of RS pretrained backbones, including both convolutional neural networks (CNN) and vision transformers such as Swin and ViTAE, which have shown promising performance on computer vision tasks. Then, we investigate the impact of RSP on representative downstream tasks including scene recognition, semantic segmentation, object detection, and change detection using these CNN and vision transformer backbones. Empirical study shows that RSP can help deliver distinctive performances in scene recognition tasks and in perceiving RS related semantics such as "Bridge" and "Airplane". We also find that, although RSP mitigates the data discrepancies of traditional ImageNet pretraining on RS images, it may still suffer from task discrepancies, where downstream tasks require different representations from scene recognition tasks. These findings call for further research efforts on both large-scale pretraining datasets and effective pretraining methods. The codes and pretrained models will be released at https://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensing. | 翻訳日:2023-05-05 19:59:14 公開日:2023-05-04 |
# autoopt: 多様な構造を持つメタヒューリスティック最適化アルゴリズムを自動設計する汎用フレームワーク AutoOpt: A General Framework for Automatically Designing Metaheuristic Optimization Algorithms with Diverse Structures ( http://arxiv.org/abs/2204.00998v6 ) ライセンス: Link先を確認 | Qi Zhao, Bai Yan, Xianglong Chen, Taiwei Hu, Shi Cheng, Yuhui Shi | (参考訳) メタヒューリスティックス(Metaheuristics)は、従来の解法の厳密な数学的仮定を満たさない難題に対する勾配のない解法である。
メタヒューリスティックアルゴリズムの自動設計は、手作業による設計作業を緩和し、人為的なアルゴリズムを超えて性能を向上させる魅力的な経路を提供する。
しかしながら、現在の自動設計パイプラインにおける特定のアルゴリズムのプロトタイプと線形アルゴリズム表現は、メタヒューリスティックな家系における新規性と多様性の発見を妨げる固定されたアルゴリズム構造内の設計を制限する。
この課題に対処するために,多様な構造を持つメタヒューリスティックアルゴリズムを自動設計する汎用フレームワークAutoOptを提案する。
autooptには3つのイノベーションがあります
(i)メタヒューリスティックファミリーを可能な限り広くカバーする汎用アルゴリズムのプロトタイプ。
様々な問題に対する高品質な自動設計を推進し、家族全体の潜在能力と新奇性を完全に発見する。
(II)提案したプロトタイプに適合する有向非巡回グラフアルゴリズムの表現。
その柔軟性と進化性により、単一の設計で様々なアルゴリズム構造を発見できるため、高性能なアルゴリズムを見つけることができる。
(iii) グラフの別のコンパクトな形式を提供するグラフ表現埋め込み方式は、オートオプトの一般性を保証する。
数値関数と実応用の実験はAutoOptの効率性と実用性を検証する。 Metaheuristics are widely recognized gradient-free solvers to hard problems that do not meet the rigorous mathematical assumptions of conventional solvers. The automated design of metaheuristic algorithms provides an attractive path to relieve manual design effort and gain enhanced performance beyond human-made algorithms. However, the specific algorithm prototype and linear algorithm representation in the current automated design pipeline restrict the design within a fixed algorithm structure, which hinders discovering novelties and diversity across the metaheuristic family. To address this challenge, this paper proposes a general framework, AutoOpt, for automatically designing metaheuristic algorithms with diverse structures. AutoOpt contains three innovations: (i) A general algorithm prototype dedicated to covering the metaheuristic family as widely as possible. It promotes high-quality automated design on different problems by fully discovering potentials and novelties across the family. (ii) A directed acyclic graph algorithm representation to fit the proposed prototype. Its flexibility and evolvability enable discovering various algorithm structures in a single run of design, thus boosting the possibility of finding high-performance algorithms. (iii) A graph representation embedding method offering an alternative compact form of the graph to be manipulated, which ensures AutoOpt's generality. Experiments on numeral functions and real applications validate AutoOpt's efficiency and practicability. | 翻訳日:2023-05-05 19:58:44 公開日:2023-05-04 |
# ECOLA: 文脈型言語表現を用いた時間的知識埋め込みの強化 ECOLA: Enhanced Temporal Knowledge Embeddings with Contextualized Language Representations ( http://arxiv.org/abs/2203.09590v5 ) ライセンス: Link先を確認 | Zhen Han, Ruotong Liao, Jindong Gu, Yao Zhang, Zifeng Ding, Yujia Gu, Heinz K\"oppl, Hinrich Sch\"utze, Volker Tresp | (参考訳) 従来の知識埋め込みモデルは、豊富なテキスト情報を完全に活用できないため、テキストを用いた知識埋め込みを強化する研究が盛んに行われている。
しかし、既存の拡張アプローチは、複雑な時間的ダイナミクスを持つ時間依存イベント知識を含む時間的知識グラフ(tKG)には適用できない。
特に、既存の強化アプローチでは、知識の埋め込みは時間に依存しないとしばしば仮定している。
対照的に、tKGモデルに埋め込まれたエンティティは通常進化し、時間的に関係のあるテキストをエンティティと整合させることが課題となる。
そこで本研究では,テキストデータを用いた時間知識埋め込みの強化について検討する。
本課題へのアプローチとして,時間的側面を考慮した文脈的言語表現を用いた時間的知識埋め込み(ECOLA)を提案し,時間的知識埋め込みにテキスト情報を注入する。
ECOLAを評価するために,ECOLAのトレーニングと評価のための3つの新しいデータセットを導入する。
ECOLAは、リンク予測タスクにおいて、Hits@1に関する287%の相対的な改善により、時間的KG埋め込みモデルを大幅に向上することを示した。
コードとモデルはhttps://anonymous.4open.science/r/ECOLAで公開されている。 Since conventional knowledge embedding models cannot take full advantage of the abundant textual information, there have been extensive research efforts in enhancing knowledge embedding using texts. However, existing enhancement approaches cannot apply to temporal knowledge graphs (tKGs), which contain time-dependent event knowledge with complex temporal dynamics. Specifically, existing enhancement approaches often assume knowledge embedding is time-independent. In contrast, the entity embedding in tKG models usually evolves, which poses the challenge of aligning temporally relevant texts with entities. To this end, we propose to study enhancing temporal knowledge embedding with textual data in this paper. As an approach to this task, we propose Enhanced Temporal Knowledge Embeddings with Contextualized Language Representations (ECOLA), which takes the temporal aspect into account and injects textual information into temporal knowledge embedding. To evaluate ECOLA, we introduce three new datasets for training and evaluating ECOLA. Extensive experiments show that ECOLA significantly enhances temporal KG embedding models with up to 287% relative improvements regarding Hits@1 on the link prediction task. The code and models are publicly available on https://anonymous.4open.science/r/ECOLA. | 翻訳日:2023-05-05 19:58:23 公開日:2023-05-04 |
# 格子ゲージ理論におけるロバスト量子多体スカー Robust quantum many-body scars in lattice gauge theories ( http://arxiv.org/abs/2203.08828v4 ) ライセンス: Link先を確認 | Jad C. Halimeh, Luca Barbiero, Philipp Hauke, Fabian Grusdt, Annabelle Bohrdt | (参考訳) 量子多体スカーリング(quantum many-body scarring)は、低エンタングルメントエントロピーを持つ特別な非熱多体固有状態の存在によって生じる弱いエルゴード性破壊のパラダイムである。
傷跡はゲージ理論と密接な関係にあることが示されているが、そのような実験的に関連するモデルにおけるその安定性はまだ未解決の問題であり、一般的には微調整された条件下でのみ存在すると考えられている。
本研究では, ゲージ対称性生成器の線形項や, $\mathrm{U}(1)$および$\mathbb{Z}_2$ゲージゲージ理論の簡易擬似生成器を用いて, 実験誤差の存在下で量子多体傷を堅牢にすることができることを示す。
我々の発見は量子ゼノダイナミクスの概念によって説明される。
実験で実現可能な手法は、既存の大規模超低温量子シミュレータやライドバーグ原子の光学トワイザーによるセットアップに容易に実装できる。 Quantum many-body scarring is a paradigm of weak ergodicity breaking arising due to the presence of special nonthermal many-body eigenstates that possess low entanglement entropy, are equally spaced in energy, and concentrate in certain parts of the Hilbert space. Though scars have been shown to be intimately connected to gauge theories, their stability in such experimentally relevant models is still an open question, and it is generally considered that they exist only under fine-tuned conditions. In this work, we show through Krylov-based time-evolution methods how quantum many-body scars can be made robust in the presence of experimental errors through utilizing terms linear in the gauge-symmetry generator or a simplified pseudogenerator in $\mathrm{U}(1)$ and $\mathbb{Z}_2$ lattice gauge theories. Our findings are explained by the concept of quantum Zeno dynamics. Our experimentally feasible methods can be readily implemented in existing large-scale ultracold-atom quantum simulators and setups of Rydberg atoms with optical tweezers. | 翻訳日:2023-05-05 19:58:05 公開日:2023-05-04 |
# 映像からのリアルアバター作成のための暗黙的ニューラル表現 Animatable Implicit Neural Representations for Creating Realistic Avatars from Videos ( http://arxiv.org/abs/2203.08133v4 ) ライセンス: Link先を確認 | Sida Peng, Zhen Xu, Junting Dong, Qianqian Wang, Shangzhan Zhang, Qing Shuai, Hujun Bao, Xiaowei Zhou | (参考訳) 本稿では,多視点映像から人間モデルを再構築する課題について述べる。
近年の研究では、非剛性変形シーンを正準神経放射場と、観測空間を正準空間にマッピングする変形フィールドの集合に分解することで、画像から動的シーンを学べることが提案されている。
しかし、これらは変形場を変換ベクトル場またはSE(3)場として表現し、最適化は過小制約される。
さらに、これらの表現は入力運動によって明示的に制御することはできない。
代わりに, 重みをブレンドして三次元人体骨格を合成した線形ブレンドスキン化アルゴリズムに基づくポーズ駆動変形場を導入し, 観察とカノニカル対応を生成する。
3次元の人間の骨格はより観察しやすいため、変形場の学習を規則化することができる。
また、姿勢駆動変形場は、入力骨格運動によって制御され、カノニカル人体モデルに適合する新しい変形場を生成することができる。
実験の結果,最近の人間のモデリング手法を有意に上回っていることがわかった。
コードはhttps://zju3dv.github.io/animatable_nerf/で入手できる。 This paper addresses the challenge of reconstructing an animatable human model from a multi-view video. Some recent works have proposed to decompose a non-rigidly deforming scene into a canonical neural radiance field and a set of deformation fields that map observation-space points to the canonical space, thereby enabling them to learn the dynamic scene from images. However, they represent the deformation field as translational vector field or SE(3) field, which makes the optimization highly under-constrained. Moreover, these representations cannot be explicitly controlled by input motions. Instead, we introduce a pose-driven deformation field based on the linear blend skinning algorithm, which combines the blend weight field and the 3D human skeleton to produce observation-to-canonical correspondences. Since 3D human skeletons are more observable, they can regularize the learning of the deformation field. Moreover, the pose-driven deformation field can be controlled by input skeletal motions to generate new deformation fields to animate the canonical human model. Experiments show that our approach significantly outperforms recent human modeling methods. The code is available at https://zju3dv.github.io/animatable_nerf/. | 翻訳日:2023-05-05 19:57:41 公開日:2023-05-04 |
# 一般ゲームにおける空間状態特性 Spatial State-Action Features for General Games ( http://arxiv.org/abs/2201.06401v2 ) ライセンス: Link先を確認 | Dennis J.N.J. Soemers and \'Eric Piette and Matthew Stephenson and Cameron Browne | (参考訳) 多くのボードゲームやその他の抽象ゲームでは、パターンは自動ゲームプレイエージェントを導く機能として使われてきた。
このようなパターンや特徴は、ゲームの戦略に関係のある特定の構成や空の位置などを表現することが多い。
それらの利用は、Goのゲームで特に広く使われてきたが、AI研究のベンチマークとして使用されている他のゲームも数多くある。
本稿では,一般ゲームにおける空間状態対応機能の設計と効率的な実装について述べる。
これらのパターンは、アクション変数周辺のローカル領域の状態変数にマッチするかどうかに基づいて、アクションをインセンティブまたは非インセンティブにすることができる。
いくつかの設計と実装の選択肢について詳細な情報を提供し、様々なボードジオメトリや他のグラフを用いて様々なゲームをサポートするための高度な汎用性の実現に重点を置いている。
第2に,任意の機能セットのアクティブ機能を評価するための効率的なアプローチを提案する。
このアプローチでは,SATなどの問題で用いられるヒューリスティックスからインスピレーションを得て,パターンの一部が一致し不必要な評価を行う順序を最適化する。
このアプローチは、この問題の非常に一般的で抽象的な記述のために定義されている - 可解な正規形式の公式の命題が評価される順序を最適化するものとして記述され、ボードゲーム以外の種類の問題にも関心があるかもしれない。
ludii汎用ゲームシステムにおける33の異なるゲームに対する経験的評価は、このアプローチの効率性を示すとともに、プレフィックスツリーに基づくベースラインと比較し、検索を誘導する機能を用いてエージェントのプレイ強度を大幅に向上させることを示した。 In many board games and other abstract games, patterns have been used as features that can guide automated game-playing agents. Such patterns or features often represent particular configurations of pieces, empty positions, etc., which may be relevant for a game's strategies. Their use has been particularly prevalent in the game of Go, but also many other games used as benchmarks for AI research. In this paper, we formulate a design and efficient implementation of spatial state-action features for general games. These are patterns that can be trained to incentivise or disincentivise actions based on whether or not they match variables of the state in a local area around action variables. We provide extensive details on several design and implementation choices, with a primary focus on achieving a high degree of generality to support a wide variety of different games using different board geometries or other graphs. Secondly, we propose an efficient approach for evaluating active features for any given set of features. In this approach, we take inspiration from heuristics used in problems such as SAT to optimise the order in which parts of patterns are matched and prune unnecessary evaluations. This approach is defined for a highly general and abstract description of the problem -- phrased as optimising the order in which propositions of formulas in disjunctive normal form are evaluated -- and may therefore also be of interest to other types of problems than board games. An empirical evaluation on 33 distinct games in the Ludii general game system demonstrates the efficiency of this approach in comparison to a naive baseline, as well as a baseline based on prefix trees, and demonstrates that the additional efficiency significantly improves the playing strength of agents using the features to guide search. | 翻訳日:2023-05-05 19:57:08 公開日:2023-05-04 |
# CrAM:圧縮認識最小化器 CrAM: A Compression-Aware Minimizer ( http://arxiv.org/abs/2207.14200v4 ) ライセンス: Link先を確認 | Alexandra Peste, Adrian Vladu, Eldar Kurtic, Christoph H. Lampert, Dan Alistarh | (参考訳) ディープニューラルネットワーク(DNN)は、実用的な設定でデプロイする前に、プルーニングや量子化を通じて圧縮されることが多い。
本研究では,pruningなどの圧縮操作において局所的損失挙動が安定なモデルを生成するために,最適化ステップを原理的に修正する新しい圧縮認識最小化器 cramを提案する。
したがって、CrAMを用いて訓練された高密度モデルは、単一のステップで圧縮可能であり、精度の低下は生じない。
imagenet分類のための残留ネットワークや言語モデリングのためのbertモデルといった標準ベンチマークの実験結果は、クローズが標準のsgd/adamベースのベースラインよりも正確であるが、重みのプラニングで安定な、密集したモデルを生成することを示している。
さらにkullは、転送学習に適したスパースモデルを生成することができ、gpuハードウェアがサポートする半構造化2:4のプルーニングパターンでも動作する。
結果を再現するためのコードはhttps://github.com/IST-DASLab/CrAM で公開されている。 Deep neural networks (DNNs) often have to be compressed, via pruning and/or quantization, before they can be deployed in practical settings. In this work we propose a new compression-aware minimizer dubbed CrAM that modifies the optimization step in a principled way, in order to produce models whose local loss behavior is stable under compression operations such as pruning. Thus, dense models trained via CrAM should be compressible post-training, in a single step, without significant accuracy loss. Experimental results on standard benchmarks, such as residual networks for ImageNet classification and BERT models for language modelling, show that CrAM produces dense models that can be more accurate than the standard SGD/Adam-based baselines, but which are stable under weight pruning: specifically, we can prune models in one-shot to 70-80% sparsity with almost no accuracy loss, and to 90% with reasonable ($\sim 1\%$) accuracy loss, which is competitive with gradual compression methods. Additionally, CrAM can produce sparse models which perform well for transfer learning, and it also works for semi-structured 2:4 pruning patterns supported by GPU hardware. The code for reproducing the results is available at https://github.com/IST-DASLab/CrAM . | 翻訳日:2023-05-05 19:49:50 公開日:2023-05-04 |
# 離散推論による複雑な文書理解に向けて Towards Complex Document Understanding By Discrete Reasoning ( http://arxiv.org/abs/2207.11871v3 ) ライセンス: Link先を確認 | Fengbin Zhu, Wenqiang Lei, Fuli Feng, Chao Wang, Haozhou Zhang, Tat-Seng Chua | (参考訳) Document Visual Question Answering (VQA) は、自然言語処理とコンピュータビジョンの両方において新たな研究トピックである自然言語による質問に答えるために、視覚的に豊富な文書を理解することを目的としている。
本研究では, 半構造化テーブルと非構造化テキストからなる3,067の文書ページと, TAT-DQAデータセットを拡張した16,558の質問応答ペアからなる新しい文書VQAデータセット, TAT-DQAを紹介する。
これらの文書は現実世界の財務報告からサンプリングされ、多数の数字を含んでいるため、このデータセットの質問に答えるために個別の推論能力が要求される。
TAT-DQAに基づいて、テキスト、レイアウト、視覚画像を含む多要素の情報を考慮に入れたMHSTと呼ばれる新しいモデルを開発し、対応する戦略、すなわち抽出や推論で異なるタイプの質問にインテリジェントに対処する。
大規模な実験により、MHSTモデルはベースライン法を著しく上回り、その有効性を示した。
しかし、パフォーマンスは専門家の人間よりもずっと遅れています。
我々の新しいTAT-DQAデータセットは、視覚と言語、特に離散的推論を必要とするシナリオにおいて、視覚に富んだドキュメントの深い理解を促進することを期待する。
また,提案モデルが今後,より高度なドキュメントVQAモデルの設計を促すことを期待している。
当社のデータセットは、https://nextplus.github.io/TAT-DQA/で非商用使用のために公開されます。 Document Visual Question Answering (VQA) aims to understand visually-rich documents to answer questions in natural language, which is an emerging research topic for both Natural Language Processing and Computer Vision. In this work, we introduce a new Document VQA dataset, named TAT-DQA, which consists of 3,067 document pages comprising semi-structured table(s) and unstructured text as well as 16,558 question-answer pairs by extending the TAT-QA dataset. These documents are sampled from real-world financial reports and contain lots of numbers, which means discrete reasoning capability is demanded to answer questions on this dataset. Based on TAT-DQA, we further develop a novel model named MHST that takes into account the information in multi-modalities, including text, layout and visual image, to intelligently address different types of questions with corresponding strategies, i.e., extraction or reasoning. Extensive experiments show that the MHST model significantly outperforms the baseline methods, demonstrating its effectiveness. However, the performance still lags far behind that of expert humans. We expect that our new TAT-DQA dataset would facilitate the research on deep understanding of visually-rich documents combining vision and language, especially for scenarios that require discrete reasoning. Also, we hope the proposed model would inspire researchers to design more advanced Document VQA models in future. Our dataset will be publicly available for non-commercial use at https://nextplusplus.github.io/TAT-DQA/. | 翻訳日:2023-05-05 19:49:27 公開日:2023-05-04 |
# トポロジカルデータ分析と機械学習 Topological data analysis and machine learning ( http://arxiv.org/abs/2206.15075v2 ) ライセンス: Link先を確認 | Daniel Leykam and Dimitris G. Angelakis | (参考訳) トポロジカルデータ分析(トポロジカルデータ解析)とは、複雑なデータセットの抽象的な ``shapes'' を体系的かつ確実に計算するためのアプローチである。
生命科学やデータ科学におけるトポロジカルデータ分析には様々な応用があり、物理学者の間で関心が高まっている。
我々は、位相遷移の検出を含む物理学におけるトポロジカルデータ解析の物理学および機械学習問題への応用について、簡潔かつ包括的なレビューを行う。
今後の研究に期待できる方向のプレビューで締めくくります。 Topological data analysis refers to approaches for systematically and reliably computing abstract ``shapes'' of complex data sets. There are various applications of topological data analysis in life and data sciences, with growing interest among physicists. We present a concise yet (we hope) comprehensive review of applications of topological data analysis to physics and machine learning problems in physics including the detection of phase transitions. We finish with a preview of anticipated directions for future research. | 翻訳日:2023-05-05 19:48:28 公開日:2023-05-04 |
# フェデレーション表現学習のためのセキュアな埋め込みアグリゲーション Secure Embedding Aggregation for Federated Representation Learning ( http://arxiv.org/abs/2206.09097v2 ) ライセンス: Link先を確認 | Jiaxiang Tang, Jinbao Zhu, Songze Li, Lichao Sun | (参考訳) 我々は、中央サーバの助けを借りて、分散クライアントのグループは、一連のエンティティ(例えば、ソーシャルネットワークのユーザ)の表現(または埋め込み)に対して、プライベートデータを協調的にトレーニングする、連合表現学習フレームワークを検討する。
このフレームワークでは、クライアントでプライベートにトレーニングされたローカル埋め込みを集約する重要なステップとして、すべてのクライアントの潜在的な集約機会をすべて活用し、各クライアントにおけるローカルエンティティのセットと対応する埋め込みのプライバシー保証を、好奇心のあるサーバと最大$T < N/2$の照合クライアントに対して提供します。 We consider a federated representation learning framework, where with the assistance of a central server, a group of $N$ distributed clients train collaboratively over their private data, for the representations (or embeddings) of a set of entities (e.g., users in a social network). Under this framework, for the key step of aggregating local embeddings trained privately at the clients, we develop a secure embedding aggregation protocol named \scheme, which leverages all potential aggregation opportunities among all the clients, while providing privacy guarantees for the set of local entities and corresponding embeddings \emph{simultaneously} at each client, against a curious server and up to $T < N/2$ colluding clients. | 翻訳日:2023-05-05 19:48:18 公開日:2023-05-04 |
# unbiased 4d : 神経変形モデルを用いた単眼4次元再構成 Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model ( http://arxiv.org/abs/2206.08368v3 ) ライセンス: Link先を確認 | Erik C.M. Johnson and Marc Habermann and Soshi Shimada and Vladislav Golyanik and Christian Theobalt | (参考訳) モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
しかし、現在のアプローチでは、大きなシーンの変形、不正確な形状の完了、あるいは2dポイントトラックを必要とするなど、欠点がある。
対照的に, ub4dは大きな変形を処理し, 遮蔽領域で形状補完を行い, 微分可能なボリュームレンダリングを用いて単眼rgbビデオを直接操作できる。
この技術は、非剛性3次元再構成部品の文脈における3つの新しい要素を含む。
1)非厳密なシーンに対する座標に基づく暗黙的ニューラル表現は、異なるボリュームレンダリングと組み合わせることで、動的シーンの非バイアスのない再構築を可能にする。
2)ボリュームレンダリングの偏りのない定式化を動的シーンに拡張する証明
3) 新たな動的シーンフロー損失は, 他の手法の粗い推定を活用し, より大きな変形の復元を可能にする。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。 Capturing general deforming scenes from monocular RGB video is crucial for many computer graphics and vision applications. However, current approaches suffer from drawbacks such as struggling with large scene deformations, inaccurate shape completion or requiring 2D point tracks. In contrast, our method, Ub4D, handles large deformations, performs shape completion in occluded regions, and can operate on monocular RGB videos directly by using differentiable volume rendering. This technique includes three new in the context of non-rigid 3D reconstruction components, i.e., 1) A coordinate-based and implicit neural representation for non-rigid scenes, which in conjunction with differentiable volume rendering enables an unbiased reconstruction of dynamic scenes, 2) a proof that extends the unbiased formulation of volume rendering to dynamic scenes, and 3) a novel dynamic scene flow loss, which enables the reconstruction of larger deformations by leveraging the coarse estimates of other methods. Results on our new dataset, which will be made publicly available, demonstrate a clear improvement over the state of the art in terms of surface reconstruction accuracy and robustness to large deformations. | 翻訳日:2023-05-05 19:48:02 公開日:2023-05-04 |
# モデルベース強化学習のためのnerized stein discrepancyを用いた後方コアセットの構築 Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2206.01162v2 ) ライセンス: Link先を確認 | Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Brian M. Sadler, Furong Huang, Pratap Tokekar, Dinesh Manocha | (参考訳) モデルに基づく強化学習(mbrl)のアプローチは、実際には良好な性能を示すが、大きな空間における理論的な保証は、遷移モデルがガウスあるいはリプシッツである場合の設定に制限され、時間とともに表現複雑性が増大しない後方推定を要求する。
本研究では,新しいMBRL法を提案する。
i) 対象遷移モデルの仮定を緩和し,混合モデルの一般的なファミリーに属すること。
(ii)後方推定が統計的に有意な過去の状態-作用対のみからなるベイズコアセットからなる圧縮ステップを組み込んだ大規模訓練に適用できる。
(iii) ベイズ亜線形の後悔を示す。
これらの結果を達成するために,背後および目標の平滑性条件下での分布距離をカーネル化スタイン差(ksd)として閉じた形で評価できる,stein法に基づくアプローチを採用する。
上記の圧縮ステップは、前モデルの推定値から一定の ksd 以上のサンプルのみを厳格に保持するという意味で計算される。
実験により、この手法はいくつかの最先端のRL手法と競合し、連続制御環境では壁時計時間を最大50%削減できることがわかった。 Model-based approaches to reinforcement learning (MBRL) exhibit favorable performance in practice, but their theoretical guarantees in large spaces are mostly restricted to the setting when transition model is Gaussian or Lipschitz, and demands a posterior estimate whose representational complexity grows unbounded with time. In this work, we develop a novel MBRL method (i) which relaxes the assumptions on the target transition model to belong to a generic family of mixture models; (ii) is applicable to large-scale training by incorporating a compression step such that the posterior estimate consists of a Bayesian coreset of only statistically significant past state-action pairs; and (iii) exhibits a sublinear Bayesian regret. To achieve these results, we adopt an approach based upon Stein's method, which, under a smoothness condition on the constructed posterior and target, allows distributional distance to be evaluated in closed form as the kernelized Stein discrepancy (KSD). The aforementioned compression step is then computed in terms of greedily retaining only those samples which are more than a certain KSD away from the previous model estimate. Experimentally, we observe that this approach is competitive with several state-of-the-art RL methodologies, and can achieve up-to 50 percent reduction in wall clock time in some continuous control environments. | 翻訳日:2023-05-05 19:47:41 公開日:2023-05-04 |
# 衛星コンステレーションにおけるフェデレーション学習 Federated Learning in Satellite Constellations ( http://arxiv.org/abs/2206.00307v3 ) ライセンス: Link先を確認 | Bho Matthiesen, Nasrin Razmi, Israel Leyva-Mayorga, Armin Dekorsy, Petar Popovski | (参考訳) フェデレートラーニング(FL)は、最近、限定的で断続的な接続を持つシステムのための分散機械学習パラダイムとして登場した。
本稿では,衛星コンステレーションがFLにもたらす新たなコンテキストについて述べる。
焦点は低軌道(leo)の大きな星座であり、各衛星はローカルに格納されたデータセットを使用してデータ駆動のflタスクに参加する。
このシナリオは、LEO内の相互接続された小さな衛星の巨大星座への傾向と、衛星への人工知能の統合によるものである。
本稿では,衛星の通信能力,コンステレーション設計,パラメータサーバの位置に基づく衛星flの分類を提案する。
本分野における最先端技術の概要を概観し,サテライトflのユニークな課題と機会について考察した。
最後に、衛星コンステレーションにおけるFL研究の方向性について概説し、今後の展望を述べる。 Federated learning (FL) has recently emerged as a distributed machine learning paradigm for systems with limited and intermittent connectivity. This paper presents the new context brought to FL by satellite constellations, where the connectivity patterns are significantly different from the ones observed in conventional terrestrial FL. The focus is on large constellations in low Earth orbit (LEO), where each satellites participates in a data-driven FL task using a locally stored dataset. This scenario is motivated by the trend towards mega constellations of interconnected small satellites in LEO and the integration of artificial intelligence in satellites. We propose a classification of satellite FL based on the communication capabilities of the satellites, the constellation design, and the location of the parameter server. A comprehensive overview of the current state-of-the-art in this field is provided and the unique challenges and opportunities of satellite FL are discussed. Finally, we outline several open research directions for FL in satellite constellations and present some future perspectives on this topic. | 翻訳日:2023-05-05 19:47:17 公開日:2023-05-04 |
# MiniDisc: 言語モデル圧縮のための最小蒸留スケジュール MiniDisc: Minimal Distillation Schedule for Language Model Compression ( http://arxiv.org/abs/2205.14570v2 ) ライセンス: Link先を確認 | Chen Zhang, Yang Yang, Qifan Wang, Jiahao Liu, Jingang Wang, Yunsen Xian, Wei Wu, Dawei Song | (参考訳) 近年の研究では、教師と生徒の間の大きな容量ギャップに直面した場合、言語モデル蒸留は効果が低いことが判明し、そのギャップを埋めるために教師アシスタントベースの蒸留を導入した。
その結果,教員アシスタントの規模と性能は,教師の知識を生徒に伝える上で極めて重要であることがわかった。
しかし、既存の教師アシスタントベース手法では、最適な教師アシスタントをスケジューリングする前に、最大限多くの試行が必要となる。
そこで本研究では,最小1回の試行で最適な教師アシスタントをスケジューリングするための最小蒸留スケジュール(MiniDisc)を提案する。
特に、生徒のパフォーマンスが教師アシスタントのスケールパフォーマンストレードオフと正の相関があることに動機づけられ、minidiscは学生への試用蒸留なしで教師アシスタントの最適性を測定するために$\lambda$-tradeoffで設計されている。
するとMiniDiscは、サンドイッチフレームワークで最高の$\lambda$-tradeoffで最適な教師アシスタントをスケジュールできる。
MiniDiscはGLUEに関する広範な実験で評価されている。
実験の結果,いくつかの最先端ベースラインと比較して,ミニディスクの効率性が向上した。
さらに、数十億のパラメータを持つ言語モデルにMiniDiscを適用し、そのスケーラビリティを示す。 Recent studies have uncovered that language model distillation is less effective when facing a large capacity gap between the teacher and the student, and introduced teacher assistant-based distillation to bridge the gap. As a connection, the scale and the performance of the teacher assistant is of vital importance to bring the knowledge from the teacher to the student. However, existing teacher assistant-based methods require maximally many trials before scheduling an optimal teacher assistant. To this end, we propose a minimal distillation schedule (MiniDisc) for scheduling the optimal teacher assistant in minimally one trial. In particular, motivated by the finding that the performance of the student is positively correlated to the scale-performance tradeoff of the teacher assistant, MiniDisc is designed with a $\lambda$-tradeoff to measure the optimality of the teacher assistant without trial distillation to the student. MiniDisc then can schedule the optimal teacher assistant with the best $\lambda$-tradeoff in a sandwich framework. MiniDisc is evaluated with an extensive set of experiments on GLUE. Experimental results demonstrate the improved efficiency our MiniDisc compared to several state-of-the-art baselines. We further apply MiniDisc to a language model with billions of parameters and show its scalability. | 翻訳日:2023-05-05 19:47:02 公開日:2023-05-04 |
# 勾配ブースト決定木の適応と影響推定法の評価 Adapting and Evaluating Influence-Estimation Methods for Gradient-Boosted Decision Trees ( http://arxiv.org/abs/2205.00359v2 ) ライセンス: Link先を確認 | Jonathan Brophy, Zayd Hammoudeh, and Daniel Lowd | (参考訳) この分析は、これらの予測、これらの予測を行うモデル、トレーニングされているデータセットをよりよく理解するのに役立ちます。
しかしながら、ほとんどの影響推定手法は連続的なパラメータを持つディープラーニングモデル向けに設計されている。
グラデーションブースト決定木(gbdts)は強力で広く使われているモデルであるが、これらのモデルは不透明な意思決定プロセスを持つブラックボックスである。
GBDTの予測をよりよく理解し、これらのモデルを全般的に改善するために、ディープラーニングモデル用に設計された近年、人気のある影響推定手法をGBDTに適用する。
具体的には、representer-pointメソッドとtracinをそれぞれ適用し、新しいメソッドであるtrexとboostinを示します。ソースコードはhttps://github.com/jjbrophy47/tree_influenceで利用可能です。
提案手法をリーフインフルエンスや他のベースラインと比較し,4つのGBDT実装を持つ22の実世界のデータセットに対する5つの異なる評価尺度を用いた。
これらの実験により、GBDTモデルにおける様々なアプローチがどのように影響するかを概観する。
BoostIn は GBDT の効率的な影響推定手法であり,既存の作業よりも 4 桁高速に動作可能である。
また,本評価では,リトレーニングの金本位制的アプローチは,最も影響力のあるトレーニング例を一貫して特定するが,目標予測の最も影響力のあるトレーニング例を見出すには不十分であることが示唆された。 Influence estimation analyzes how changes to the training data can lead to different model predictions; this analysis can help us better understand these predictions, the models making those predictions, and the data sets they're trained on. However, most influence-estimation techniques are designed for deep learning models with continuous parameters. Gradient-boosted decision trees (GBDTs) are a powerful and widely-used class of models; however, these models are black boxes with opaque decision-making processes. In the pursuit of better understanding GBDT predictions and generally improving these models, we adapt recent and popular influence-estimation methods designed for deep learning models to GBDTs. Specifically, we adapt representer-point methods and TracIn, denoting our new methods TREX and BoostIn, respectively; source code is available at https://github.com/jjbrophy47/tree_influence. We compare these methods to LeafInfluence and other baselines using 5 different evaluation measures on 22 real-world data sets with 4 popular GBDT implementations. These experiments give us a comprehensive overview of how different approaches to influence estimation work in GBDT models. We find BoostIn is an efficient influence-estimation method for GBDTs that performs equally well or better than existing work while being four orders of magnitude faster. Our evaluation also suggests the gold-standard approach of leave-one-out~(LOO) retraining consistently identifies the single-most influential training example but performs poorly at finding the most influential set of training examples for a given target prediction. | 翻訳日:2023-05-05 19:46:42 公開日:2023-05-04 |
# BRDFの学習とサンプル化 Learning to Learn and Sample BRDFs ( http://arxiv.org/abs/2210.03510v2 ) ライセンス: Link先を確認 | Chen Liu, Michael Fischer, Tobias Ritschel | (参考訳) 本稿では,神経双方向反射率分布関数(brdf)モデルの物理的獲得と学習の協調プロセスを促進させる手法を提案する。
BRDF学習はメタラーニングによって加速することができるが、機械的プロセスに依存しているため、獲得は遅いままである。
物理サンプリングパターンを最適化するためにメタ学習も拡張可能であることを示す。
本手法は,完全サンプリングbrdfに対してメタトレーニングを行った後,最大5桁の物理的取得サンプルを同じ品質で,新しいbrdfを迅速に訓練することができる。
また,本手法は他の線形および非線形brdfモデルにも拡張し,広範な評価を行った。 We propose a method to accelerate the joint process of physically acquiring and learning neural Bi-directional Reflectance Distribution Function (BRDF) models. While BRDF learning alone can be accelerated by meta-learning, acquisition remains slow as it relies on a mechanical process. We show that meta-learning can be extended to optimize the physical sampling pattern, too. After our method has been meta-trained for a set of fully-sampled BRDFs, it is able to quickly train on new BRDFs with up to five orders of magnitude fewer physical acquisition samples at similar quality. Our approach also extends to other linear and non-linear BRDF models, which we show in an extensive evaluation. | 翻訳日:2023-05-05 19:40:35 公開日:2023-05-04 |
# DALL-E-Bot: Webスケール拡散モデルをロボティクスに導入 DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics ( http://arxiv.org/abs/2210.02438v3 ) ライセンス: Link先を確認 | Ivan Kapelyukh, Vitalis Vosylius, Edward Johns | (参考訳) 本稿では,ロボット工学におけるWebスケール拡散モデルに関する最初の研究を紹介する。
DALL-E-Botは、まずこれらのオブジェクトのテキスト記述を推測し、そのオブジェクトの自然な人間的な配置を表す画像を生成し、最終的にその目標画像に従ってオブジェクトを物理的に配置することで、シーン内のオブジェクトを並べ替えることができる。
DALL-Eを使ったゼロショットが可能であり、追加の例、データ収集、トレーニングは不要である。
DALL-E-Botは完全に自律的であり、DALL-EのWebスケール事前トレーニングのおかげで、事前に定義されたオブジェクトやシーンに制限されない。
人間の研究と客観的な測定値の両方で現実世界の結果を促進させることで、Webスケールの拡散モデルをロボットパイプラインに統合することは、スケーラブルで教師なしのロボット学習にとって有望な方向であることを示している。 We introduce the first work to explore web-scale diffusion models for robotics. DALL-E-Bot enables a robot to rearrange objects in a scene, by first inferring a text description of those objects, then generating an image representing a natural, human-like arrangement of those objects, and finally physically arranging the objects according to that goal image. We show that this is possible zero-shot using DALL-E, without needing any further example arrangements, data collection, or training. DALL-E-Bot is fully autonomous and is not restricted to a pre-defined set of objects or scenes, thanks to DALL-E's web-scale pre-training. Encouraging real-world results, with both human studies and objective metrics, show that integrating web-scale diffusion models into robotics pipelines is a promising direction for scalable, unsupervised robot learning. | 翻訳日:2023-05-05 19:40:23 公開日:2023-05-04 |
# Sachdev-Ye-Kitaevモデルにおけるケルディシュワームホールと異常緩和 Keldysh Wormholes and Anomalous Relaxation in the Dissipative Sachdev-Ye-Kitaev Model ( http://arxiv.org/abs/2210.01695v3 ) ライセンス: Link先を確認 | Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, Jacobus J. M. Verbaarschot, and Jie Ping Zheng | (参考訳) 我々は,Sachdev-Ye-Kitaev(SYK)モデル,$N$フェルミオン,および無限範囲の$q$ボディ相互作用の平衡外ダイナミクスをマルコフ環境に結合して検討した。
無限温度定常状態に近く、この系のリアルタイムリンドブラディアン力学は、最近重力双対がワームホールの構成と関連している2つの非エルミートSYKのユークリッド時間における近ゼロ温度ダイナミクスと同一である。
実時間定式化における鞍点方程式はユークリッド時間における方程式と同一であることを示す。
実際、低温でのグリーン関数の明示的な計算は、$q = 4$ で数値化され、$q = 2$ で解析すると、この同値を示す。
非常に強いカップリングのためにのみ、崩壊速度は定常状態への散逸駆動アプローチのカップリング特性への線形依存にアプローチする。
q > 2$ の場合、実時間散逸SYKモデルの潜在的な重力双対を同定する。
この構成はケルディッシュワームホール(keldysh wormhole)と呼ばれ、環境とのカップリングがなくても有限減衰率の原因となる。 We study the out-of-equilibrium dynamics of a Sachdev-Ye-Kitaev (SYK) model, $N$ fermions with a $q$-body interaction of infinite range, coupled to a Markovian environment. Close to the infinite-temperature steady state, the real-time Lindbladian dynamics of this system is identical to the near-zero-temperature dynamics in Euclidean time of a two-site non-Hermitian SYK with intersite coupling whose gravity dual has been recently related to wormhole configurations. We show that the saddle-point equations in the real-time formulation are identical to those in Euclidean time. Indeed, an explicit calculation of Green's functions at low temperature, numerical for $q = 4$ and analytical for $q = 2$ and large $q$, illustrates this equivalence. Only for very strong coupling does the decay rate approach the linear dependence on the coupling characteristic of a dissipation-driven approach to the steady state. For $q > 2$, we identify a potential gravity dual of the real-time dissipative SYK model: a double-trumpet configuration in a near-de Sitter space in two dimensions with matter. This configuration, which we term a Keldysh wormhole, is responsible for a finite decay rate even in the absence of coupling to the environment. | 翻訳日:2023-05-05 19:40:07 公開日:2023-05-04 |
# Rhythmic Gesticulator:階層型ニューラルエンベディングを用いたリズム対応音声合成 Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings ( http://arxiv.org/abs/2210.01448v3 ) ライセンス: Link先を確認 | Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu | (参考訳) リアルな音声ジェスチャーの自動合成は, 人工内在エージェント作成において, ますます重要な課題となっている。
従来のシステムは、主にエンドツーエンドでジェスチャーを生成することに焦点を当てており、音声とジェスチャーの複雑な微妙な調和のため、明確なリズムと意味をマイニングするのは難しい。
本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。
本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。
ジェスチャーセマンティクスについては,言語理論に基づく音声と動作の低レベルおよび高レベルの神経埋め込みを効果的に分離するメカニズムを考案する。
高レベルの埋め込みは意味論に対応し、低レベルの埋め込みは微妙なバリエーションに関連する。
最後に、音声の階層的な埋め込みと動きの対応性を構築し、リズムと意味を意識したジェスチャー合成を実現する。
既存の客観的指標,新たに提案されたリズミカル指標,人的フィードバックによる評価から,本手法が最先端システムよりも明確なマージンで優れていることが示された。 Automatic synthesis of realistic co-speech gestures is an increasingly important yet challenging task in artificial embodied agent creation. Previous systems mainly focus on generating gestures in an end-to-end manner, which leads to difficulties in mining the clear rhythm and semantics due to the complex yet subtle harmony between speech and gestures. We present a novel co-speech gesture synthesis method that achieves convincing results both on the rhythm and semantics. For the rhythm, our system contains a robust rhythm-based segmentation pipeline to ensure the temporal coherence between the vocalization and gestures explicitly. For the gesture semantics, we devise a mechanism to effectively disentangle both low- and high-level neural embeddings of speech and motion based on linguistic theory. The high-level embedding corresponds to semantics, while the low-level embedding relates to subtle variations. Lastly, we build correspondence between the hierarchical embeddings of the speech and the motion, resulting in rhythm- and semantics-aware gesture synthesis. Evaluations with existing objective metrics, a newly proposed rhythmic metric, and human feedback show that our method outperforms state-of-the-art systems by a clear margin. | 翻訳日:2023-05-05 19:39:44 公開日:2023-05-04 |
# 量子アドバンテージに向けた量子ビットマッピング Qubit Mapping Toward Quantum Advantage ( http://arxiv.org/abs/2210.01306v2 ) ライセンス: Link先を確認 | Chin-Yi Cheng, Chien-Yi Yang, Ren-Chu Wang, Yi-Hsiang Kuo, Hao-Chung Cheng, Chung-Yang (Ric) Huang | (参考訳) 量子マッピングは、実際のハードウェアデバイス上で量子回路を実現するための重要なステップである。
しかし、この問題の複雑さが高いため、現在の解はかなり小さなスケールの回路でしか動作できない(つまり$<50$ qubits)。
本稿では,我々の知る限り,非常に大きな量子回路(すなわち数千の量子ビット)を量子優位性に向けて扱う最初のフレームワークである量子ビットマッピング手法を提案する。
提案するルーティングアルゴリズムduostraは,スワップゲート挿入により物理キュービット上で動作させる2量子ビットゲートの最適ルーティング経路を効率的に同定でき,スケジューリングヒューリスティックは,性能の最適化とスケーラビリティの追求においてバランスを取る柔軟性を提供する。
実験の結果,提案手法は最先端の手法よりも10ドル以上高速に動作し,量子回路の実行時間では平均5.5%以上性能が向上していることがわかった。
より具体的には、提案アルゴリズムは、11,969ドルの量子フーリエ変換回路を5時間以内に完成させることができる。 Qubit Mapping is an essential step in realizing quantum circuits on actual hardware devices. However, due to the high complexity of this problem, current solutions can only work on circuits in fairly small scales (i.e. $<50$ qubits). In this paper, we propose a qubit mapping methodology which, to the best of our knowledge, is the first framework to handle very large quantum circuits (i.e. thousands of qubits) towards the quantum advantage. Our novel routing algorithm, Duostra, can efficiently identify the optimal routing path for a given two-qubit gate to operate on physical qubits through swap-gate insertions, and our scheduling heuristic offers the flexibility to strike the balance in optimizing the performance and pursuing the scalability. Experimental results show that our method runs $10$ times faster than the state-of-the-art approaches, while on average can still outperform them by over $5\%$ in terms of the execution time of the quantum circuits. More specifically, our proposed algorithm can complete the qubit mapping of an $11,969$-qubit Quantum Fourier Transform circuit within five hours. | 翻訳日:2023-05-05 19:39:21 公開日:2023-05-04 |
# 擬似ハーミティティーによる擬似エントロピーの構成可能現実条件 Constructible reality condition of pseudo entropy via pseudo-Hermiticity ( http://arxiv.org/abs/2209.07308v3 ) ライセンス: Link先を確認 | Wu-zhong Guo, Song He, Yu-Xuan Zhang | (参考訳) 絡み合いのエントロピーの一般化として、擬エントロピーは必ずしも現実ではない。
実数値擬エントロピーはホログラフィと量子相転移に有望な応用がある。
擬楕円性の概念を擬似エントロピーの現実条件の定式化に適用する。
我々は、還元された遷移行列の固有値が固有値の実または複素対を持つ遷移行列の一般形式を見つける。
さらに、擬(R\'enyi)エントロピーが非負となる遷移行列のクラスを構築する。
量子場理論における実擬エントロピーを与えるいくつかの既知の例は、我々の枠組みで説明できる。
この結果は, 実擬エントロピーを持つ遷移行列を生成する新しい手法を提供する。
最後に、擬似エントロピーの現実条件は、量子場理論の富田・竹崎モジュラー理論と関連していることを示す。 As a generalization of entanglement entropy, pseudo entropy is not always real. The real-valued pseudo entropy has promising applications in holography and quantum phase transition. We apply the notion of pseudo-Hermticity to formulate the reality condition of pseudo entropy. We find the general form of the transition matrix for which the eigenvalues of the reduced transition matrix possess real or complex pairs of eigenvalues. Further, we construct a class of transition matrices for which the pseudo (R\'enyi) entropies are non-negative. Some known examples which give real pseudo entropy in quantum field theories can be explained in our framework. Our results offer a novel method to generate the transition matrix with real pseudo entropy. Finally, we show the reality condition for pseudo entropy is related to the Tomita-Takesaki modular theory for quantum field theory. | 翻訳日:2023-05-05 19:38:59 公開日:2023-05-04 |
# 貯水池における量子熱機関の熱力学とゆらぎ Thermodynamics and Fluctuations in Quantum Heat Engines under Reservoir Squeezing ( http://arxiv.org/abs/2209.05885v2 ) ライセンス: Link先を確認 | Yang Xiao, Dehua Liu, Jizhou He, Wu-Ming Liu, L.-L. Yan, and Jianhui Wang | (参考訳) 熱絞りと冷熱貯水池によって駆動される有限時間量子オットーエンジンの熱力学と揺らぎについて検討した。
貯水池のスクイージングは, 熱力学的効率と電力の増大により性能を著しく向上し, 相対的な電力変動を低減し, 量子効率の収束を最も期待できる値に高速化することにより, 高い安定性を実現する。
これらの結果は、有限時間による量子摩擦とコヒーレンスに伴う非可逆性に貯水池のスクイージングの効果を組み込んだ理論解析によって説明される。
この量子熱エンジンを実現するための実験的スキームは、トラップされた40Ca$^+$イオンに関連する単一電子スピンを用いて提案される。
我々は、有限時間量子熱エンジンを確実に研究するための一般的な枠組みを提供し、古典的な熱機械を超えた新しい熱力学挙動に関する重要な洞察を導き出す。 We investigate the thermodynamics and fluctuations of a finite-time quantum Otto engine alternatively driven by a hot squeezed and a cold thermal reservoir. We show that reservoir squeezing significantly enhances the performance by increasing the thermodynamic efficiency and the power, and enables higher stability by decreasing the relative power fluctuations and speeding up the convergence of quantum efficiency to its most probable value. These results are explained by our theoretical analysis that incorporates the effect of reservoir squeezing on the irreversibility associated with quantum friction and coherence due to finite time. An experimental scheme for realizing this quantum heat engine is proposed using a single-electron spin pertaining to a trapped 40Ca$^+$ ion. We provide a general framework for reliably studying the finite-time quantum heat engine and derive important insights into the novel thermodynamic behaviors beyond the classical thermal machines. | 翻訳日:2023-05-05 19:38:19 公開日:2023-05-04 |
# わずかなインクリメンタルイベント検出 Few-shot Incremental Event Detection ( http://arxiv.org/abs/2209.01979v2 ) ライセンス: Link先を確認 | Hao Wang, Hanwen Shi, and Jianyong Duan | (参考訳) イベント検出タスクは、テキストからのイベントの迅速な検出を可能にし、下流自然言語処理タスクの強力なサポートを提供する。
ほとんどのメソッドは、事前に定義されたイベントクラスの固定セットしか検出できない。
古いクラスを検出する能力を失うことなく、新しいクラスを検出するよう拡張するには、スクラッチからモデルを再トレーニングする必要がある。
インクリメンタル学習は効果的にこの問題を解決できるが、新しいクラスの豊富なデータを必要とする。
しかし実際には、新しいイベントクラスの高品質なラベル付きデータがないため、モデルのトレーニングに十分なデータを得ることは困難である。
上記の問題に対処するために,新しいタスクであるマイナショットインクリメンタルイベント検出を定義する。データ制限のある新しいイベントクラスを学習し,可能な限り古いクラスを検出できる機能を保ちながら,新たなイベントクラスを検出することにフォーカスする。
我々は、FewEventに基づく数ショットのインクリメンタルイベント検出タスクのためのベンチマークデータセットIFSEDを作成し、IFSED-KとIFSED-KPの2つのベンチマークを提案する。
実験の結果,本手法はベースライン法よりもF1スコアが高く,安定であることがわかった。 Event detection tasks can enable the quick detection of events from texts and provide powerful support for downstream natural language processing tasks. Most such methods can only detect a fixed set of predefined event classes. To extend them to detect a new class without losing the ability to detect old classes requires costly retraining of the model from scratch. Incremental learning can effectively solve this problem, but it requires abundant data of new classes. In practice, however, the lack of high-quality labeled data of new event classes makes it difficult to obtain enough data for model training. To address the above mentioned issues, we define a new task, few-shot incremental event detection, which focuses on learning to detect a new event class with limited data, while retaining the ability to detect old classes to the extent possible. We created a benchmark dataset IFSED for the few-shot incremental event detection task based on FewEvent and propose two benchmarks, IFSED-K and IFSED-KP. Experimental results show that our approach has a higher F1-score than baseline methods and is more stable. | 翻訳日:2023-05-05 19:38:01 公開日:2023-05-04 |
# 量子相対エントロピーの積分公式はデータ処理の不等式を意味する Integral formula for quantum relative entropy implies data processing inequality ( http://arxiv.org/abs/2208.12194v3 ) ライセンス: Link先を確認 | P\'eter E. Frenkel | (参考訳) Integral representations of quantum relative entropy, and of the directional second and higher order derivatives of von Neumann entropy, are established, and used to give simple proofs of fundamental, known data processing inequalities: the Holevo bound on the quantity of information transmitted by a quantum communication channel, and, much more generally, the monotonicity of quantum relative entropy under trace-preserving positive linear maps -complete positivity of the map need not be assumed.
後者の結果は、ビギの業績に基づいてM\"uller-Hermes and Reebによって初めて証明された。
そのような単調性の簡単な応用として、フォン・ノイマンエントロピーの凹凸や様々な既知の量子発散など、量子測度では増加しない「発散」を考える。
hiai, ohya, tsukadaによるエレガントな議論は、特定のトレース距離を持つ量子状態の対におけるそのような「ダイバージェンス」のインフィムが、二元古典状態の対の対応するインフィムと同じであることを示すために用いられる。
情報理論の一般確率モデルへの新しい積分公式の適用、および古典的R'enyi分散に対する関連する積分公式についても論じる。 Integral representations of quantum relative entropy, and of the directional second and higher order derivatives of von Neumann entropy, are established, and used to give simple proofs of fundamental, known data processing inequalities: the Holevo bound on the quantity of information transmitted by a quantum communication channel, and, much more generally, the monotonicity of quantum relative entropy under trace-preserving positive linear maps -- complete positivity of the map need not be assumed. The latter result was first proved by M\"uller-Hermes and Reeb, based on work of Beigi. For a simple application of such monotonicities, we consider any `divergence' that is non-increasing under quantum measurements, such as the concavity of von Neumann entropy, or various known quantum divergences. An elegant argument due to Hiai, Ohya, and Tsukada is used to show that the infimum of such a `divergence' on pairs of quantum states with prescribed trace distance is the same as the corresponding infimum on pairs of binary classical states. Applications of the new integral formulae to the general probabilistic model of information theory, and a related integral formula for the classical R\'enyi divergence, are also discussed. | 翻訳日:2023-05-05 19:37:42 公開日:2023-05-04 |
# リニアプログラミングのチュートリアルと実践:サプライチェーンと輸送ロジスティックスにおける最適化問題 Tutorial and Practice in Linear Programming: Optimization Problems in Supply Chain and Transport Logistics ( http://arxiv.org/abs/2211.07345v2 ) ライセンス: Link先を確認 | Raj Bridgelall | (参考訳) このチュートリアルは、リニアプログラミングの基礎と実践を理解しようとする学生と実践者のためのandragogical guideである。
実験は,サプライチェーン管理と輸送ロジスティクスにおける空間分析を重視して,古典的最適化問題の解法を示す。
すべてのエクササイズはPythonプログラムとそれを解決するために使用される最適化ライブラリを表示する。
第1章では線形プログラミングの重要な概念を紹介し、学生や実践者がそれぞれの最適化問題を設定するのを助ける新しい認知フレームワークに寄与する。
cognitive frameworkは、決定変数、制約、目的関数、変数境界を最適化ソフトウェアに直接適用するためのフォーマットで整理する。
第2章では,デリバリとサービス計画のロジスティックスの観点から,モビリティ最適化の問題(ネットワークにおける最短経路と最小コストツアー)を2つ紹介する。
第3章では,空間最適化の4つの問題(近距離カバレッジ,フローキャプチャ,ゾーンの不均一性,サービスカバレッジ)を紹介し,マップの最適化ソリューションを視覚化するワークフローに寄与する。
このワークフローは、自由地理情報システム(GIS)プログラムQGISとGeoDAを用いて、地図から決定変数を生成する。
第4章では,空間的ロジスティック問題(空間分布,フロー最大化,倉庫配置最適化)の3つのタイプを紹介し,ソフトウェアにおける認知的枠組みをスケールアップしてソリューションに到達する方法をデモする。
最終章では、学んだ教訓を要約し、学生や実践者がPhytonプログラムやGISワークフローを修正して、自身の最適化問題を解決し、結果を視覚化する方法についての洞察を提供する。 This tutorial is an andragogical guide for students and practitioners seeking to understand the fundamentals and practice of linear programming. The exercises demonstrate how to solve classical optimization problems with an emphasis on spatial analysis in supply chain management and transport logistics. All exercises display the Python programs and optimization libraries used to solve them. The first chapter introduces key concepts in linear programming and contributes a new cognitive framework to help students and practitioners set up each optimization problem. The cognitive framework organizes the decision variables, constraints, the objective function, and variable bounds in a format for direct application to optimization software. The second chapter introduces two types of mobility optimization problems (shortest path in a network and minimum cost tour) in the context of delivery and service planning logistics. The third chapter introduces four types of spatial optimization problems (neighborhood coverage, flow capturing, zone heterogeneity, service coverage) and contributes a workflow to visualize the optimized solutions in maps. The workflow creates decision variables from maps by using the free geographic information systems (GIS) programs QGIS and GeoDA. The fourth chapter introduces three types of spatial logistical problems (spatial distribution, flow maximization, warehouse location optimization) and demonstrates how to scale the cognitive framework in software to reach solutions. The final chapter summarizes lessons learned and provides insights about how students and practitioners can modify the Phyton programs and GIS workflows to solve their own optimization problem and visualize the results. | 翻訳日:2023-05-05 19:30:50 公開日:2023-05-04 |
# MedleyVox: 複数の歌声分離のための評価データセット MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation ( http://arxiv.org/abs/2211.07302v2 ) ライセンス: Link先を確認 | Chang-Bin Jeon, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon, and Kyogu Lee | (参考訳) 複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される分野である。
ベンチマークデータセットの欠如は、その進捗を妨げている。
本稿では,評価データセットと,複数の歌声分離のためのベースライン研究について述べる。
まず,複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。
我々は、このデータセットで問題定義を分類して指定する。
i (複数形 is)
二 デュエット
三 主対休息及び
iv) n-singing separation。
第2に,既存の複数歌唱データセットの学習目的の欠如を克服するため,様々なシングル歌唱データセットを用いて複数の歌唱ミックスを構築するための戦略を提案する。
第3に,分離ネットワークの初期推定を大幅に向上させる改良された超解像ネットワーク (iSRNet) を提案する。
Conv-TasNetとマルチシング混合構成戦略を併用して、提案したiSRNetは、MedleyVoxのデュエットおよびユニゾンサブセット上の理想的な時間周波数マスクに匹敵する性能を達成した。
オーディオサンプル、データセット、コードは当社のウェブサイトから入手できます(https://github.com/jeonchangbin49/medleyvox)。 Separation of multiple singing voices into each voice is a rarely studied area in music source separation research. The absence of a benchmark dataset has hindered its progress. In this paper, we present an evaluation dataset and provide baseline studies for multiple singing voices separation. First, we introduce MedleyVox, an evaluation dataset for multiple singing voices separation. We specify the problem definition in this dataset by categorizing it into i) unison, ii) duet, iii) main vs. rest, and iv) N-singing separation. Second, to overcome the absence of existing multi-singing datasets for a training purpose, we present a strategy for construction of multiple singing mixtures using various single-singing datasets. Third, we propose the improved super-resolution network (iSRNet), which greatly enhances initial estimates of separation networks. Jointly trained with the Conv-TasNet and the multi-singing mixture construction strategy, the proposed iSRNet achieved comparable performance to ideal time-frequency masks on duet and unison subsets of MedleyVox. Audio samples, the dataset, and codes are available on our website (https://github.com/jeonchangbin49/MedleyVox). | 翻訳日:2023-05-05 19:30:22 公開日:2023-05-04 |
# 交流電力流れのニューラルネットワークモデルにおけるグローバル性能保証 Global Performance Guarantees for Neural Network Models of AC Power Flow ( http://arxiv.org/abs/2211.07125v2 ) ライセンス: Link先を確認 | Samuel Chevalier and Spyros Chatzivasileiadis | (参考訳) 機械学習は、非常に高速かつ高精度なブラックボックスサーロゲートモデルを生成することができる。
しかし、これらのブラックボックスモデルの精度を厳格に検証することは困難である。
電力システムに関しては、ACパワーフローの学習は、最適化、制御、動的処理のいずれにおいても、計算を劇的に加速したいと願う機械学習サロゲートモデルの基盤となる。
本稿では,非線形交流電力流方程式の基礎的真理を取り入れ,最悪の場合のニューラルネットワーク性能を判定するトラクタブルニューラルネットワーク検証手法を,私たちの知る限り初めて開発する。
我々の手法は逐次的目標追尾(STT)と呼ばれ、混合整数二次プログラム(MIQP)である元の検証問題のゆるやかに凸化された再構成を利用する。
目標カットの逐次追加を用いることで, 解が十分にきついか, 性能保証が十分に得られるまで, 反復的に定式化を締め付ける。
14,57,118,200-busのPGLibテストケースのニューラルネットワークモデルを学習した後、STT手順によって生成された性能保証と最先端MIQP解決器であるGurobi 9.5による性能保証を比較した。
STTはMIQP上界よりも桁違いに厳密な性能保証をしばしば生成することを示す。 Machine learning can generate black-box surrogate models which are both extremely fast and highly accurate. Rigorously verifying the accuracy of these black-box models, however, is computationally challenging. When it comes to power systems, learning AC power flow is the cornerstone of any machine learning surrogate model wishing to drastically accelerate computations, whether it is for optimization, control, or dynamics. This paper develops for the first time, to our knowledge, a tractable neural network verification procedure which incorporates the ground truth of the non-linear AC power flow equations to determine worst-case neural network performance. Our approach, termed Sequential Targeted Tightening (STT), leverages a loosely convexified reformulation of the original verification problem, which is a mixed integer quadratic program (MIQP). Using the sequential addition of targeted cuts, we iteratively tighten our formulation until either the solution is sufficiently tight or a satisfactory performance guarantee has been generated. After learning neural network models of the 14, 57, 118, and 200-bus PGLib test cases, we compare the performance guarantees generated by our STT procedure with ones generated by a state-of-the-art MIQP solver, Gurobi 9.5. We show that STT often generates performance guarantees which are orders of magnitude tighter than the MIQP upper bound. | 翻訳日:2023-05-05 19:30:03 公開日:2023-05-04 |
# 教師なしコントラスト学習 Unbiased Supervised Contrastive Learning ( http://arxiv.org/abs/2211.05568v4 ) ライセンス: Link先を確認 | Carlo Alberto Barbano, Benoit Dufumier, Enzo Tartaglione, Marco Grangetto, Pietro Gori | (参考訳) 多くのデータセットは偏りがあり、それは、データセット内でのみターゲットクラスと高い相関を持つが、真の基盤となるデータの分布にはない、分かりやすい特徴を含んでいる。
このため、偏りのないデータから偏りのないモデルを学ぶことは、ここ数年で非常に重要な研究テーマとなっている。
本研究では,バイアスに対して頑健な表現を学習する問題に取り組む。
まず,偏りのあるデータを扱う場合,最近のコントラスト損失(インフォメーション,サッコンなど)がなぜ失敗するのかを明らかにするために,マージンに基づく理論的枠組みを提案する。
それに基づいて,教師付きコントラスト損失(epsilon-supinfonce)の新しい定式化を行い,正のサンプルと負のサンプルとの最小距離をより正確に制御する。
さらに,理論的な枠組みにより,超偏りのあるデータでも有効に機能する新しい偏り正規化損失であるfairklも提案する。
CIFAR10, CIFAR100, ImageNetなどの標準ビジョンデータセットの損失を検証し, Epsilon-SupInfoNCEによるFairKLの劣化能力を評価し, 野におけるバイアスの実例を含む多くのバイアス付きデータセットで最先端のパフォーマンスに到達する。 Many datasets are biased, namely they contain easy-to-learn features that are highly correlated with the target class only in the dataset but not in the true underlying distribution of the data. For this reason, learning unbiased models from biased data has become a very relevant research topic in the last years. In this work, we tackle the problem of learning representations that are robust to biases. We first present a margin-based theoretical framework that allows us to clarify why recent contrastive losses (InfoNCE, SupCon, etc.) can fail when dealing with biased data. Based on that, we derive a novel formulation of the supervised contrastive loss (epsilon-SupInfoNCE), providing more accurate control of the minimal distance between positive and negative samples. Furthermore, thanks to our theoretical framework, we also propose FairKL, a new debiasing regularization loss, that works well even with extremely biased data. We validate the proposed losses on standard vision datasets including CIFAR10, CIFAR100, and ImageNet, and we assess the debiasing capability of FairKL with epsilon-SupInfoNCE, reaching state-of-the-art performance on a number of biased datasets, including real instances of biases in the wild. | 翻訳日:2023-05-05 19:29:39 公開日:2023-05-04 |
# 協調推論誘導言語モデルによる数学単語問題の解法 Solving Math Word Problems via Cooperative Reasoning induced Language Models ( http://arxiv.org/abs/2210.16257v3 ) ライセンス: Link先を確認 | Xinyu Zhu, Junjie Wang, Lin Zhang, Yuxiang Zhang, Ruyi Gan, Jiaxing Zhang, Yujiu Yang | (参考訳) 大規模事前学習言語モデル(PLM)は、特に数学語問題(MWP)のような高レベルの知性を必要とする問題に新たな機会をもたらす。
しかしながら、既存のPLMをMWPに直接適用することは、生成プロセスが十分な監督を欠いているため、人間としての高速な適応性を欠いているため失敗する可能性がある。
人間の推論には、即時反応系(システム1)と微妙な推論系(システム2)から構成される二重推論の枠組みがあることに気付く。
これにより、協調推論(Cooperative Reasoning, CoRe)と呼ばれる、MWPを解くための協調推論によるPLMを開発することとなり、システム1をジェネレータとして、システム2をバリデーションとして、人間のような推論アーキテクチャを実現する。
提案手法では, ジェネレータは推論経路の生成に責任を持ち, 検証器を用いて評価を監督し, ジェネレータに対する信頼性の高いフィードバックを得る。
我々はCoReフレームワークをいくつかの数学的推論データセット上で評価し、最先端の手法よりも優れた改善を実現した。 Large-scale pre-trained language models (PLMs) bring new opportunities to challenging problems, especially those that need high-level intelligence, such as the math word problem (MWPs). However, directly applying existing PLMs to MWPs can fail as the generation process lacks sufficient supervision and thus lacks fast adaptivity as humans. We notice that human reasoning has a dual reasoning framework that consists of an immediate reaction system (system 1) and a delicate reasoning system (system 2), where the entire reasoning is determined by their interaction. This inspires us to develop a cooperative reasoning-induced PLM for solving MWPs, called Cooperative Reasoning (CoRe), resulting in a human-like reasoning architecture with system 1 as the generator and system 2 as the verifier. In our approach, the generator is responsible for generating reasoning paths, and the verifiers are used to supervise the evaluation in order to obtain reliable feedback for the generator. We evaluate our CoRe framework on several mathematical reasoning datasets and achieve decent improvement over state-of-the-art methods, up to 9.6% increase over best baselines. | 翻訳日:2023-05-05 19:29:03 公開日:2023-05-04 |
# 機械学習を用いたメトロ需要予測における気象の影響の探索 Exploring the impact of weather on Metro demand forecasting using machine learning method ( http://arxiv.org/abs/2210.13965v2 ) ライセンス: Link先を確認 | Yiming Hu, Yangchuan Huang, Shuying Liu, Yuanyang Qi, and Danhui Bai | (参考訳) 都市鉄道は大規模な交通量や高速化などの包括的利益をもたらし、都市交通建設管理と渋滞対策の最も重要な要素の1つとなっている。
本研究は、2018年4月から6月にかけてのアジア地下鉄の実際の乗客フローデータを用いて、短時間の交通流予測を用いて、乗客フローの時空間分布を解析する。
駅は旅客流量予測のために4つのタイプに分けられ、気象記録は同じ期間に収集される。
そして、異なる入力を持つ機械学習手法を適用し、各気象要素の改善効果を時間順に評価する多変量回帰を行う。
その結果、天気変数を入力すると、週末の予測精度が向上し、平日のパフォーマンスはわずかに向上したが、天候要素の違いによる寄与は異なることがわかった。
また、異なるカテゴリーの駅は天候によって異なる。
本研究は、他の予測モデルをさらに改善する方法を提供し、トランジット管理における短期スケジューリングの最適化のためのデータ駆動分析の可能性を実証する。 Urban rail transit provides significant comprehensive benefits such as large traffic volume and high speed, serving as one of the most important components of urban traffic construction management and congestion solution. Using real passenger flow data of an Asian subway system from April to June of 2018, this work analyzes the space-time distribution of the passenger flow using short-term traffic flow prediction. Stations are divided into four types for passenger flow forecasting, and meteorological records are collected for the same period. Then, machine learning methods with different inputs are applied and multivariate regression is performed to evaluate the improvement effect of each weather element on passenger flow forecasting of representative metro stations on hourly basis. Our results show that by inputting weather variables the precision of prediction on weekends enhanced while the performance on weekdays only improved marginally, while the contribution of different elements of weather differ. Also, different categories of stations are affected differently by weather. This study provides a possible method to further improve other prediction models, and attests to the promise of data-driven analytics for optimization of short-term scheduling in transit management. | 翻訳日:2023-05-05 19:28:41 公開日:2023-05-04 |
# 環境的な)コストに見合う価値はあるか?
連続学習による時間適応の限定的証拠 Is It Worth the (Environmental) Cost? Limited Evidence for Temporal Adaptation via Continuous Training ( http://arxiv.org/abs/2210.07365v2 ) ライセンス: Link先を確認 | Giuseppe Attanasio, Debora Nozza, Federico Bianchi, Dirk Hovy | (参考訳) 言語は絶えず変化し、進化しており、言語モデルは急速に時代遅れになっている。
そのため、新しいイベントや事実に公開するために、新しいデータでモデルを継続的に更新する必要があります。
しかし、これは新しい二酸化炭素排出量を意味する追加のコンピューティングを必要とする。
測定可能なメリットはこのコストを正当化するのでしょうか?
本稿では,継続的トレーニングを支援するための実証的証拠を求める。
既存のベンチマークを再現し、追加の時間、モデル、タスクを含むように拡張します。
その結果,ソーシャルメディアデータに対する時間適応型英語モデルのダウンストリームタスク性能は時間とともに改善しないことがわかった。
時間適応のない事前学習モデルは実際、より効果的で効率的である。
しかし、適切な時間ベンチマークの欠如にも留意する。
本研究は,持続可能性を考慮した言語モデルの時間的適応に関する批判的考察である。 Language is constantly changing and evolving, leaving language models to become quickly outdated. Consequently, we should continuously update our models with new data to expose them to new events and facts. However, that requires additional computing, which means new carbon emissions. Do any measurable benefits justify this cost? This paper looks for empirical evidence to support continuous training. We reproduce existing benchmarks and extend them to include additional time periods, models, and tasks. Our results show that the downstream task performance of temporally adapted English models for social media data do not improve over time. Pretrained models without temporal adaptation are actually significantly more effective and efficient. However, we also note a lack of suitable temporal benchmarks. Our findings invite a critical reflection on when and how to temporally adapt language models, accounting for sustainability. | 翻訳日:2023-05-05 19:28:22 公開日:2023-05-04 |
# 太陽ダイナミクス観測における注意に基づく生成ニューラルイメージ圧縮 Attention-Based Generative Neural Image Compression on Solar Dynamics Observatory ( http://arxiv.org/abs/2210.06478v2 ) ライセンス: Link先を確認 | Ali Zafari, Atefeh Khoshkhahtinat, Piyush M. Mehta, Nasser M. Nasrabadi, Barbara J. Thompson, Daniel da Silva, Michael S. F. Kirk | (参考訳) NASAのSolar Dynamics Observatory(SDO)ミッションは、地球同期軌道から毎日1.4テラバイトのデータを収集する。
SDOのデータには、異なる波長で捉えた太陽の画像が含まれており、太陽を統治する動的な過程を理解するための科学的目的がある。
近年,end-to-end optimized artificial neural networks (ann) が画像圧縮を行う大きな可能性を示している。
annベースの圧縮方式は、従来の手作業による画像圧縮よりも優れている。
我々は、太陽力学を研究する宇宙ミッションにおいて、保存・回収に必要なデータ量を削減するために、アドホックなANNベースの画像圧縮スキームを設計した。
本研究では, 対向的に訓練されたニューラルイメージ圧縮ネットワークにおいて, 局所的および非局所的注意機構を利用するアテンションモジュールを提案する。
また,このニューラルイメージ圧縮機の知覚的品質も実証した。
SDO衛星からダウンロードされた画像の圧縮アルゴリズムは、JPEGやJPEG2000のような一般的な画像圧縮コーデックよりも、速度歪みのトレードオフが優れている。
さらに,提案手法は,BPG圧縮コーデックの最先端化に優れることを示した。 NASA's Solar Dynamics Observatory (SDO) mission gathers 1.4 terabytes of data each day from its geosynchronous orbit in space. SDO data includes images of the Sun captured at different wavelengths, with the primary scientific goal of understanding the dynamic processes governing the Sun. Recently, end-to-end optimized artificial neural networks (ANN) have shown great potential in performing image compression. ANN-based compression schemes have outperformed conventional hand-engineered algorithms for lossy and lossless image compression. We have designed an ad-hoc ANN-based image compression scheme to reduce the amount of data needed to be stored and retrieved on space missions studying solar dynamics. In this work, we propose an attention module to make use of both local and non-local attention mechanisms in an adversarially trained neural image compression network. We have also demonstrated the superior perceptual quality of this neural image compressor. Our proposed algorithm for compressing images downloaded from the SDO spacecraft performs better in rate-distortion trade-off than the popular currently-in-use image compression codecs such as JPEG and JPEG2000. In addition we have shown that the proposed method outperforms state-of-the art lossy transform coding compression codec, i.e., BPG. | 翻訳日:2023-05-05 19:28:11 公開日:2023-05-04 |
# 確率的近位ポリアークステップサイズ A Stochastic Proximal Polyak Step Size ( http://arxiv.org/abs/2301.04935v2 ) ライセンス: Link先を確認 | Fabian Schaipp, Robert M. Gower, Michael Ulbrich | (参考訳) 近年,確率的ポリアクステップサイズ (SPS) が,確率的勾配降下のための適応的ステップサイズスキームとして出現している。
ここでは正規化項を扱えるSPSの近位変種であるProxSPSを開発する。
SPS の近位変種の開発は特に重要であり、SPS は目的関数の下位境界をうまく機能させる必要がある。
目的関数が損失と正規化子の和であるとき、その和の下限の利用可能な推定はゆるくすることができる。
対照的に、ProxSPSは損失に対して低いバウンダリしか必要としない。
その結果,正規化の存在下では,ProxSPSのチューニングが容易で,より安定であることが示唆された。
さらに、画像分類タスクでは、ProxSPSはAdamWと同様にチューニングをほとんど行わず、結果としてより小さな重みパラメータを持つネットワークとなる。
また,非平滑,滑らか,弱凸,強凸の設定を含む ProxSPS に対して広範な収束解析を行う。 Recently, the stochastic Polyak step size (SPS) has emerged as a competitive adaptive step size scheme for stochastic gradient descent. Here we develop ProxSPS, a proximal variant of SPS that can handle regularization terms. Developing a proximal variant of SPS is particularly important, since SPS requires a lower bound of the objective function to work well. When the objective function is the sum of a loss and a regularizer, available estimates of a lower bound of the sum can be loose. In contrast, ProxSPS only requires a lower bound for the loss which is often readily available. As a consequence, we show that ProxSPS is easier to tune and more stable in the presence of regularization. Furthermore for image classification tasks, ProxSPS performs as well as AdamW with little to no tuning, and results in a network with smaller weight parameters. We also provide an extensive convergence analysis for ProxSPS that includes the non-smooth, smooth, weakly convex and strongly convex setting. | 翻訳日:2023-05-05 19:22:09 公開日:2023-05-04 |
# 言語モデルのプロンプトによる推論:調査 Reasoning with Language Model Prompting: A Survey ( http://arxiv.org/abs/2212.09597v2 ) ライセンス: Link先を確認 | Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen | (参考訳) 推論は複雑な問題解決に不可欠な能力であり、医療診断や交渉など、さまざまな現実世界のアプリケーションに対するバックエンドサポートを提供することができる。
本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。
比較や要約による研究成果を紹介し,初心者を支援するための体系的な資源を提供する。
また,このような推論能力が出現する潜在的な理由を議論し,今後の研究の方向性を強調する。
リソースはhttps://github.com/zjunlp/Prompt4ReasoningPapers(定期的に更新)で入手できる。 Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions. Resources are available at https://github.com/zjunlp/Prompt4ReasoningPapers (updated periodically). | 翻訳日:2023-05-05 19:21:20 公開日:2023-05-04 |
# 正規化圧縮二重因子分解による化学の量子計算の加速 Accelerating Quantum Computations of Chemistry Through Regularized Compressed Double Factorization ( http://arxiv.org/abs/2212.07957v2 ) ライセンス: Link先を確認 | Oumarou Oumarou and Maximilian Scheurer and Robert M. Parrish and Edward G. Hohenstein and Christian Gogolin | (参考訳) そこで本研究では,分子ハミルトニアンの圧縮表現を古典的に計算し,ノイズのある中間スケール(NISQ)と誤り訂正量子アルゴリズムによる効率的なシミュレーションを実現するために,RC-DF法を提案する。
すでに12から20量子ビットの小さなシステムでは、nisq測定方式によって測定ベース数を3倍、ショット数を3倍から6倍に減らして化学精度を3倍から6倍に抑え、ポーリ・グルーピング方式よりも桁違いに改善されていることが判明した。
本研究では, サイトクロームp450のcpdi種に対して, 58個の軌道を持つrc-dfを行うことにより, 圧縮ハミルトニアンは, 量子化の実行時間を半減し, df系誤差補正アルゴリズムを半減し, テンソル超縮約 (thc) で達成可能なラムダパラメータを上回ることと, ccsd(t) エネルギーエラーヒューリスティックを桁違いに減少させることを実証した。 We propose the regularized compressed double factorization (RC-DF) method to classically compute compressed representations of molecular Hamiltonians that enable efficient simulation with noisy intermediate scale (NISQ) and error corrected quantum algorithms. We find that already for small systems with 12 to 20 qubits, the resulting NISQ measurement scheme reduces the number of measurement bases by roughly a factor of three and the shot count to reach chemical accuracy by a factor of three to six compared to truncated double factorization (DF) and we see order of magnitude improvements over Pauli grouping schemes. We demonstrate the scalability of our approach by performing RC-DF on the CpdI species of cytochrome P450 with 58 orbitals and find that using the resulting compressed Hamiltonian cuts the run time of qubitization and truncated DF based error corrected algorithms almost in half and even outperforms the lambda parameters achievable with tensor hypercontraction (THC) while at the same time reducing the CCSD(T) energy error heuristic by an order of magnitude. | 翻訳日:2023-05-05 19:20:30 公開日:2023-05-04 |
# マルチモーダル抽象要約のための概要指向ビジョンモデリング Summary-Oriented Vision Modeling for Multimodal Abstractive Summarization ( http://arxiv.org/abs/2212.07672v2 ) ライセンス: Link先を確認 | Yunlong Liang, Fandong Meng, Jinan Xu, Jiaan Wang, Yufeng Chen, Jie Zhou | (参考訳) multimodal abstractive summarization (mas) は、マルチモーダルデータ(テキストとビジョン)を与えられた簡潔な要約を作成することを目的としている。
既存の研究は主に記事の観点から視覚的特徴を効果的に活用する方法に焦点を当てており、高リソースの英語データセットで素晴らしい成功を収めた。
しかし、要約の観点からは視覚的特徴にはあまり注意が払われておらず、特に低リソースとゼロリソースのシナリオでは、モデルの性能が制限される可能性がある。
本稿では,要約指向の視覚的特徴を通して要約品質を向上させることを提案する。
この目的のために,視覚要約タスクとマスク画像モデリングタスクという2つの補助タスクを考案する。
主要な要約タスクとともに、これらのタスクの訓練目的を通したMASモデルを最適化する。
これにより、要約指向の視覚的特徴をキャプチャすることで、masモデルを強化することが可能となり、より正確な要約が得られる。
中・低・ゼロリソースのシナリオをカバーする44言語の実験では、すべてのシナリオにおいて最先端のパフォーマンスを実現する提案手法の有効性と優位性を検証する。
さらに,多言語多モーダル抽象要約(mm-sum)データセットにも貢献する。 Multimodal abstractive summarization (MAS) aims to produce a concise summary given the multimodal data (text and vision). Existing studies mainly focus on how to effectively use the visual features from the perspective of an article, having achieved impressive success on the high-resource English dataset. However, less attention has been paid to the visual features from the perspective of the summary, which may limit the model performance, especially in the low- and zero-resource scenarios. In this paper, we propose to improve the summary quality through summary-oriented visual features. To this end, we devise two auxiliary tasks including vision to summary task and masked image modeling task. Together with the main summarization task, we optimize the MAS model via the training objectives of all these tasks. By these means, the MAS model can be enhanced by capturing the summary-oriented visual features, thereby yielding more accurate summaries. Experiments on 44 languages, covering mid-high-, low-, and zero-resource scenarios, verify the effectiveness and superiority of the proposed approach, which achieves state-of-the-art performance under all scenarios. Additionally, we will contribute a large-scale multilingual multimodal abstractive summarization (MM-Sum) dataset. | 翻訳日:2023-05-05 19:20:04 公開日:2023-05-04 |
# 階層的動的画像調和 Hierarchical Dynamic Image Harmonization ( http://arxiv.org/abs/2211.08639v2 ) ライセンス: Link先を確認 | Haoxing Chen and Zhangxuan Gu and Yaohui Li and Jun Lan and Changhua Meng and Weiqiang Wang and Huaxiong Li | (参考訳) 画像調和はコンピュータビジョンにおいて重要なタスクであり、背景と互換性を持たせるために前景を調整することを目的としている。
最近の研究は、視覚的整合性を達成するために大域変換(正規化と色曲線レンダリング)を使うことに重点を置いている。
しかし、これらのモデルは局所的な視覚的一貫性を無視し、その巨大なモデルサイズはエッジデバイスでの調和能力を制限する。
本稿では,高効率な画像調和における特徴変換のために,特徴をローカルからグローバルに適応させる階層型動的ネットワーク(HDNet)を提案する。
本稿では,様々な動的モデルの成功に触発されて,局所動的(LD)モジュールとマスク対応グローバル動的(MGD)モジュールを提案する。
具体的には、LDは意味的類似性に基づいて、前景と背景領域間の局所表現と一致し、その後、近隣の背景領域の$K$-nearestの出現に応じて、前景のすべての局所表現を適応的に調整する。
このように、LDはよりきめ細かいレベルでよりリアルな画像を生成し、同時にセマンティックアライメントの特性を楽しむことができる。
MGDは、フォアグラウンドと背景領域に明確な畳み込みを効果的に適用し、フォアグラウンドと背景領域の表現を学習し、グローバルな調和と相関し、画像の局所的な視覚的一貫性をより効率的にする。
実験の結果,提案するhdnetは,iharmony4データセットにおける最先端性能を保ちつつ,従来手法と比較して,モデルパラメータを80%以上削減できることが判明した。
特に、HDNetは従来の最先端手法に比べてPSNRが4倍改善し、MSEが19倍削減された。 Image harmonization is a critical task in computer vision, which aims to adjust the foreground to make it compatible with the background. Recent works mainly focus on using global transformations (i.e., normalization and color curve rendering) to achieve visual consistency. However, these models ignore local visual consistency and their huge model sizes limit their harmonization ability on edge devices. In this paper, we propose a hierarchical dynamic network (HDNet) to adapt features from local to global view for better feature transformation in efficient image harmonization. Inspired by the success of various dynamic models, local dynamic (LD) module and mask-aware global dynamic (MGD) module are proposed in this paper. Specifically, LD matches local representations between the foreground and background regions based on semantic similarities, then adaptively adjust every foreground local representation according to the appearance of its $K$-nearest neighbor background regions. In this way, LD can produce more realistic images at a more fine-grained level, and simultaneously enjoy the characteristic of semantic alignment. The MGD effectively applies distinct convolution to the foreground and background, learning the representations of foreground and background regions as well as their correlations to the global harmonization, facilitating local visual consistency for the images much more efficiently. Experimental results demonstrate that the proposed HDNet significantly reduces the total model parameters by more than 80\% compared to previous methods, while still attaining state-of-the-art performance on the popular iHarmony4 dataset. Notably, the HDNet achieves a 4\% improvement in PSNR and a 19\% reduction in MSE compared to the prior state-of-the-art methods. | 翻訳日:2023-05-05 19:19:08 公開日:2023-05-04 |
# 変圧器の効率的な訓練に関する調査研究 A Survey on Efficient Training of Transformers ( http://arxiv.org/abs/2302.01107v3 ) ライセンス: Link先を確認 | Bohan Zhuang, Jing Liu, Zizheng Pan, Haoyu He, Yuetian Weng, Chunhua Shen | (参考訳) トランスフォーマーの最近の進歩は、コンピュータリソースに対する大きな要求を伴い、トランスフォーマーのトレーニングをより速く、低コストで、計算とメモリリソースの効率的な使用により精度を高めるために効率的なトレーニング技術を開発することの重要性を強調している。
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供し、加速度演算とハードウェアの最近の進歩をカバーし、前者に焦点を当てている。
中間テンソルの計算とメモリコストを節約する手法を,ハードウェア/アルゴリズムの共同設計手法と合わせて分析・比較した。
今後の研究の課題と将来性について論じる。 Recent advances in Transformers have come with a huge requirement on computing resources, highlighting the importance of developing efficient training techniques to make Transformer training faster, at lower cost, and to higher accuracy by the efficient use of computation and memory resources. This survey provides the first systematic overview of the efficient training of Transformers, covering the recent progress in acceleration arithmetic and hardware, with a focus on the former. We analyze and compare methods that save computation and memory costs for intermediate tensors during training, together with techniques on hardware/algorithm co-design. We finally discuss challenges and promising areas for future research. | 翻訳日:2023-05-05 19:12:03 公開日:2023-05-04 |
# 補助データの探索と活用による少数ショット一般化の改善 Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data ( http://arxiv.org/abs/2302.00674v3 ) ライセンス: Link先を確認 | Alon Albalak, Colin Raffel, William Yang Wang | (参考訳) しかし、ラベル付きデータポイントに過度に適合することなく、一般化可能なモデルを学習することは困難である。
本研究では,補足データ(flad: few-shot learning with auxiliary data)に着目し,補足データへのアクセスを想定した学習パラダイムを提案する。
従来の研究では、補助データと目標データを混合する自動化手法が提案されていたが、これらの手法は通常、補助データセットの数と線形に(あるいはそれ以上)スケールし、実用性を制限する。
本研究では、FLADとマルチアームバンディット設定の中心となる探索探索ジレンマを関連付け、計算複雑性が補助データセットの数に依存しないアルゴリズムを導出し、従来の手法よりも100倍の補助データセットにスケールできるようにする。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つで,従来の FLAD メソッドと比較し,探索と利用の組み合わせが不可欠であることを確認した。
実験により,提案手法は既存のFLAD法を4%上回る結果となり,最初の30億のパラメータ言語モデルが1億7500億のパラメータ GPT-3 を上回った。
全体として、FLADのより優れた、より効率的な混合戦略の発見は、数発の学習における一般化を著しく改善するための有効な道筋となることを示唆している。 Few-shot learning is valuable in many real-world applications, but learning a generalizable model without overfitting to the few labeled datapoints is challenging. In this work, we focus on Few-shot Learning with Auxiliary Data (FLAD), a training paradigm that assumes access to auxiliary data during few-shot learning in hopes of improving generalization. Previous works have proposed automated methods for mixing auxiliary and target data, but these methods typically scale linearly (or worse) with the number of auxiliary datasets, limiting their practicality. In this work we relate FLAD to the explore-exploit dilemma that is central to the multi-armed bandit setting and derive algorithms whose computational complexity is independent of the number of auxiliary datasets, allowing us to scale to 100x more auxiliary datasets than prior methods. We propose two algorithms -- EXP3-FLAD and UCB1-FLAD -- and compare them with prior FLAD methods that either explore or exploit, finding that the combination of exploration and exploitation is crucial. Through extensive experimentation we find that our methods outperform all pre-existing FLAD methods by 4% and lead to the first 3 billion parameter language models that outperform the 175 billion parameter GPT-3. Overall, our work suggests that the discovery of better, more efficient mixing strategies for FLAD may provide a viable path towards substantially improving generalization in few-shot learning. | 翻訳日:2023-05-05 19:11:52 公開日:2023-05-04 |
# PaCaNet:中国絵画・書画の多様化のための移行学習によるCycleGANの研究 PaCaNet: A Study on CycleGAN with Transfer Learning for Diversifying Fused Chinese Painting and Calligraphy ( http://arxiv.org/abs/2301.13082v4 ) ライセンス: Link先を確認 | Zuhao Yang, Huajun Bai, Zhang Luo, Yang Xu, Wei Pang, Yue Wang, Yisheng Yuan, Yingfang Yuan | (参考訳) AI-Generated Content(AIGC)は、その高効率性と本番環境での一貫性、カスタマイズと多様化の能力によって、最近人気が高まっている。
ほとんどのAIGC技術における表現学習メカニズムのクロスモダリティの性質は、過去には不可能だった新しいタイプのアートを探索する際の、より自由で柔軟性をもたらす。
漢字のピクトグラムのサブセットに触発されて、私たちは、伝統的な中国絵画と書道という2つの異なる芸術タイプを融合させる、新しい芸術作品を制作するためのサイクガンベースのパイプラインであるpacanetを提案しました。
安定的で多様化したアウトプットを生み出すために、私たちは3つの主要な技術革新を採用しました。
1 ワンショット学習を用いて、事前学習したモデルの創造性を高め、融合画像の内容の多様化を図る。
2. 事前学習モデルにおけるランダムサンプリングパラメータの凍結による中国語書道に対する嗜好の制御
3.中国絵画に類似した画像の制作を奨励するために正規化法を用いる。
さらに,中国絵画と書道の多様化にともなうPaCaNetの性能について,系統的研究を行い,満足な結果を得た。
結論として,絵画の視覚情報と中国書道の脳卒中の特徴を融合させることにより,芸術を創造する新たな方向性を提案する。
われわれのアプローチは、中国語のヒエログリフ文字の起源に根ざした独特の美的体験を生み出す。
また、伝統的な美術品を深く掘り下げて、伝統的遺産の保存と再生に有意義な影響を及ぼす特別な機会でもある。 AI-Generated Content (AIGC) has recently gained a surge in popularity, powered by its high efficiency and consistency in production, and its capability of being customized and diversified. The cross-modality nature of the representation learning mechanism in most AIGC technology allows for more freedom and flexibility in exploring new types of art that would be impossible in the past. Inspired by the pictogram subset of Chinese characters, we proposed PaCaNet, a CycleGAN-based pipeline for producing novel artworks that fuse two different art types, traditional Chinese painting and calligraphy. In an effort to produce stable and diversified output, we adopted three main technical innovations: 1. Using one-shot learning to increase the creativity of pre-trained models and diversify the content of the fused images. 2. Controlling the preference over generated Chinese calligraphy by freezing randomly sampled parameters in pre-trained models. 3. Using a regularization method to encourage the models to produce images similar to Chinese paintings. Furthermore, we conducted a systematic study to explore the performance of PaCaNet in diversifying fused Chinese painting and calligraphy, which showed satisfying results. In conclusion, we provide a new direction of creating arts by fusing the visual information in paintings and the stroke features in Chinese calligraphy. Our approach creates a unique aesthetic experience rooted in the origination of Chinese hieroglyph characters. It is also a unique opportunity to delve deeper into traditional artwork and, in doing so, to create a meaningful impact on preserving and revitalizing traditional heritage. | 翻訳日:2023-05-05 19:11:26 公開日:2023-05-04 |
# 多項ロジットモデルにおける最適アソートメントの組合せ推論 Combinatorial Inference on the Optimal Assortment in Multinomial Logit Models ( http://arxiv.org/abs/2301.12254v4 ) ライセンス: Link先を確認 | Shuting Shen, Xi Chen, Ethan X. Fang, Junwei Lu | (参考訳) 過去数十年間、アソシエーションの最適化は実践的な重要性から活発な探索を受けてきた。
最適化アルゴリズムと潜在スコア推定を扱う広範な文献があるにもかかわらず、最適な分類のための不確実性定量化は依然として検討され、非常に実用的な意味を持つ。
完全な最適提案セットを推定し、回復する代わりに、意思決定者は、最適集合にいくつかの興味のある製品を含めるべきかどうか、最適集合が含めるべき製品のカテゴリ数など、与えられた性質が最適集合に対して真であるかどうかをテストすることに関心がある。
本稿では,そのような特性をテストするための新しい推論フレームワークを提案する。
我々は、広く採用されている多項ロジット(mnl)モデルを検討し、各顧客が製品に関連付けられた嗜好スコアに比例する確率で提供された製品の中でアイテムを購入すると仮定する。
我々は、限界収益ギャップの符号変化点検出に伴う不確実性を定量化するために、一般的な最適収差特性を推定する。
限界収益ギャップ推定器の漸近正規度を示し、ギャップ推定器を介して最大統計値を構築し、符号変化点を検出する。
最大統計量の分布をマルチプライアブートストラップ法で近似することにより,有効なテスト手順を提案する。
また,本手法の性能評価のための数値実験を行った。 Assortment optimization has received active explorations in the past few decades due to its practical importance. Despite the extensive literature dealing with optimization algorithms and latent score estimation, uncertainty quantification for the optimal assortment still needs to be explored and is of great practical significance. Instead of estimating and recovering the complete optimal offer set, decision-makers may only be interested in testing whether a given property holds true for the optimal assortment, such as whether they should include several products of interest in the optimal set, or how many categories of products the optimal set should include. This paper proposes a novel inferential framework for testing such properties. We consider the widely adopted multinomial logit (MNL) model, where we assume that each customer will purchase an item within the offered products with a probability proportional to the underlying preference score associated with the product. We reduce inferring a general optimal assortment property to quantifying the uncertainty associated with the sign change point detection of the marginal revenue gaps. We show the asymptotic normality of the marginal revenue gap estimator, and construct a maximum statistic via the gap estimators to detect the sign change point. By approximating the distribution of the maximum statistic with multiplier bootstrap techniques, we propose a valid testing procedure. We also conduct numerical experiments to assess the performance of our method. | 翻訳日:2023-05-05 19:10:59 公開日:2023-05-04 |
# コンピュータ代数システムを用いたシンボリック回帰の背景知識の導入 Incorporating Background Knowledge in Symbolic Regression using a Computer Algebra System ( http://arxiv.org/abs/2301.11919v2 ) ライセンス: Link先を確認 | Charles Fox, Neil Tran, Nikki Nacion, Samiha Sharlin, and Tyler R. Josephson | (参考訳) シンボリック回帰(SR)は、特定のデータセットに適合する解釈可能な簡潔な表現を生成することができ、ブラックボックスアプローチよりも構造をより人間的に理解することができる。
背景知識の追加(記号的な数学的制約の形で)により、理論に関して意味のある表現の生成が可能となり、データにも一貫性がある。
従来型遺伝的アルゴリズム(ga)に基づくsr(pysr)とマルコフ鎖モンテカルロ(mcmc)に基づくベイズ型srアーキテクチャ(ベイズ機械科学者)への制約の追加を具体的に検討し、実験および歴史的なデータセットから吸着方程式を再発見することに適用する。
その結果,厳密な制約がGAとMCMC SRの探索を妨げているのに対して,ソフトな制約は探索効率とモデル意味性の両面において性能を向上させ,計算コストは1桁程度増加することがわかった。
制約がデータセットや期待モデルとうまく相関しない場合は、表現の検索を妨げる可能性がある。
ベイジアンSRは、GAの適合関数を変更するよりも、(ベイジアン以前のように)これらの制約の方が優れている。 Symbolic Regression (SR) can generate interpretable, concise expressions that fit a given dataset, allowing for more human understanding of the structure than black-box approaches. The addition of background knowledge (in the form of symbolic mathematical constraints) allows for the generation of expressions that are meaningful with respect to theory while also being consistent with data. We specifically examine the addition of constraints to traditional genetic algorithm (GA) based SR (PySR) as well as a Markov-chain Monte Carlo (MCMC) based Bayesian SR architecture (Bayesian Machine Scientist), and apply these to rediscovering adsorption equations from experimental, historical datasets. We find that, while hard constraints prevent GA and MCMC SR from searching, soft constraints can lead to improved performance both in terms of search effectiveness and model meaningfulness, with computational costs increasing by about an order-of-magnitude. If the constraints do not correlate well with the dataset or expected models, they can hinder the search of expressions. We find Bayesian SR is better these constraints (as the Bayesian prior) than by modifying the fitness function in the GA | 翻訳日:2023-05-05 19:10:36 公開日:2023-05-04 |
# 大規模言語モデルは必然的にトピックモデルである:インテクスト学習のための良い説明と発見 Large Language Models Are Implicitly Topic Models: Explaining and Finding Good Demonstrations for In-Context Learning ( http://arxiv.org/abs/2301.11916v2 ) ライセンス: Link先を確認 | Xinyi Wang, Wanrong Zhu, Michael Saxon, Mark Steyvers, William Yang Wang | (参考訳) 近年、事前学習された大規模言語モデルは、文脈内学習として知られる推論時間限定学習能力を達成する上で、著しく効率が向上している。
しかし、既存の文献では、この能力のわずかなデモの選択に対する感受性が強調されている。
この能力の基盤となるメカニズムは、通常の言語モデルで事前訓練された目的から生じる。
本研究では,実演からタスク関連情報を暗黙的に推測する話題モデルとして,ベイズレンズによる文脈内学習現象を検討することを目的とする。
そこで本研究では,8つの実世界のテキスト分類データセット上で,8つのGPT2モデルとGPT3モデルの平均値に対して,注釈付きデータの集合から最適なデモを選択するアルゴリズムを提案する。
我々の経験的発見は、大きな言語モデルが潜在概念変数を暗黙的に推論するという仮説を支持する。 In recent years, pre-trained large language models have demonstrated remarkable efficiency in achieving an inference-time few-shot learning capability known as in-context learning. However, existing literature has highlighted the sensitivity of this capability to the selection of few-shot demonstrations. The underlying mechanisms by which this capability arises from regular language model pretraining objectives remain poorly understood. In this study, we aim to examine the in-context learning phenomenon through a Bayesian lens, viewing large language models as topic models that implicitly infer task-related information from demonstrations. On this premise, we propose an algorithm for selecting optimal demonstrations from a set of annotated data and demonstrate a significant 12.5% improvement relative to the random selection baseline, averaged over eight GPT2 and GPT3 models on eight different real-world text classification datasets. Our empirical findings support our hypothesis that large language models implicitly infer a latent concept variable. | 翻訳日:2023-05-05 19:10:14 公開日:2023-05-04 |
# 一般化オブジェクト検索 Generalized Object Search ( http://arxiv.org/abs/2301.10121v2 ) ライセンス: Link先を確認 | Kaiyu Zheng | (参考訳) 将来の協調ロボットは、物体を見つける能力を持つ必要がある。
このような基本的なスキルとして、オブジェクト探索は最終的には、オブジェクト検出、SLAM、モーションプランニングのような、あらゆるロボットの既製の能力になることを期待している。
しかし、既存のアプローチでは、非現実的な妥協(例えば、問題を3dから2dに減らす)、アドホックな検索戦略、あるいは実際のロボットや環境をまたいで一般化していないシミュレーションのエンドツーエンドポリシーを学習しようとする。
この論文は、部分観測可能なマルコフ決定過程(POMDP)を用いて、人間の世界の構造(オクツリー、相関など)と人間とロボットの相互作用(空間言語など)を利用してオブジェクト探索をモデル化することで、一般化されたオブジェクト探索のための実用的で効果的なシステムを実現することができると主張している。
この議論を支援するために,物体間の空間的相関や,不明瞭な空間的言語(例えば「赤い車はチェイスバンクの背後にある」など)など,視野,閉塞,ノイズ,信頼できない検出器,不確実性を考慮した3次元環境における多目的探索法とシステムを開発した。
PyGame、AirSim、AI2-THORなどのシミュレータの評価に加えて、私は3Dで一般化されたオブジェクト探索のためのロボット非依存の環境認識システムを設計し、Boston Dynamics Spotロボット、Kinova MOVOロボット、Universal Robots UR5eロボットアームにデプロイし、異なる環境でオブジェクト探索を行う。
このシステムは、例えばspotロボットがキッチンエリアのソファの下に隠れているおもちゃの猫を1分以内に見つけることができる。
この論文はまた、対象探索文献を幅広く調査し、対象探索問題設定、方法、システムに分類論を提案する。 Future collaborative robots must be capable of finding objects. As such a fundamental skill, we expect object search to eventually become an off-the-shelf capability for any robot, similar to e.g., object detection, SLAM, and motion planning. However, existing approaches either make unrealistic compromises (e.g., reduce the problem from 3D to 2D), resort to ad-hoc, greedy search strategies, or attempt to learn end-to-end policies in simulation that are yet to generalize across real robots and environments. This thesis argues that through using Partially Observable Markov Decision Processes (POMDPs) to model object search while exploiting structures in the human world (e.g., octrees, correlations) and in human-robot interaction (e.g., spatial language), a practical and effective system for generalized object search can be achieved. In support of this argument, I develop methods and systems for (multi-)object search in 3D environments under uncertainty due to limited field of view, occlusion, noisy, unreliable detectors, spatial correlations between objects, and possibly ambiguous spatial language (e.g., "The red car is behind Chase Bank"). Besides evaluation in simulators such as PyGame, AirSim, and AI2-THOR, I design and implement a robot-independent, environment-agnostic system for generalized object search in 3D and deploy it on the Boston Dynamics Spot robot, the Kinova MOVO robot, and the Universal Robots UR5e robotic arm, to perform object search in different environments. The system enables, for example, a Spot robot to find a toy cat hidden underneath a couch in a kitchen area in under one minute. This thesis also broadly surveys the object search literature, proposing taxonomies in object search problem settings, methods and systems. | 翻訳日:2023-05-05 19:09:57 公開日:2023-05-04 |
# トレーニングダイナミクスによる座標系mlpのスペクトルバイアスの理解 Understanding the Spectral Bias of Coordinate Based MLPs Via Training Dynamics ( http://arxiv.org/abs/2301.05816v4 ) ライセンス: Link先を確認 | John Lazzari, Xiuwen Liu | (参考訳) スペクトルバイアスはニューラルネットワークトレーニングの重要な観察であり、ネットワークは高い周波数成分に収束する前にターゲット関数の低周波数表現を学習すると述べている。
この性質は、過パラメータネットワークのよい一般化につながるため興味深い。
しかし、低次元の環境では、周波数成分への収束を完全に妨げる深刻なスペクトルバイアスが発生する。
この制限を克服するために、高周波正弦波符号化を用いて入力を符号化することができる。
従来の研究はニューラル・タンジェント・カーネル(NTK)とフーリエ分析を用いてこの現象を説明しようとした。
しかし、NTKは実際のネットワーク力学を捉えておらず、フーリエ解析はこのバイアスを誘発するネットワーク特性についてのみグローバルな視点を提供する。
本稿では,ReLU MLPトレーニングダイナミクスを直接研究することにより,スペクトルバイアスの理解に向けた新しいアプローチを提案する。
具体的には,reluネットワーク(アクティベーション領域)の計算と勾配降下収束速度との関係に注目した。
これらのダイナミクスを信号の空間情報と関連づけて研究し,スペクトルバイアスの影響を理解する。
次に、この定式化を用いて、低次元設定におけるスペクトルバイアスの重症度と位置符号化がこれを克服する方法について研究する。 Spectral bias is an important observation of neural network training, stating that the network will learn a low frequency representation of the target function before converging to higher frequency components. This property is interesting due to its link to good generalization in over-parameterized networks. However, in low dimensional settings, a severe spectral bias occurs that obstructs convergence to high frequency components entirely. In order to overcome this limitation, one can encode the inputs using a high frequency sinusoidal encoding. Previous works attempted to explain this phenomenon using Neural Tangent Kernel (NTK) and Fourier analysis. However, NTK does not capture real network dynamics, and Fourier analysis only offers a global perspective on the network properties that induce this bias. In this paper, we provide a novel approach towards understanding spectral bias by directly studying ReLU MLP training dynamics. Specifically, we focus on the connection between the computations of ReLU networks (activation regions), and the speed of gradient descent convergence. We study these dynamics in relation to the spatial information of the signal to understand how they influence spectral bias. We then use this formulation to study the severity of spectral bias in low dimensional settings, and how positional encoding overcomes this. | 翻訳日:2023-05-05 19:09:07 公開日:2023-05-04 |
# CHSHシナリオにおける量子集合の極端点:予想解析解 Extremal points of the quantum set in the CHSH scenario: conjectured analytical solution ( http://arxiv.org/abs/2302.10658v2 ) ライセンス: Link先を確認 | Antoni Mikos-Nuszkiewicz and J\k{e}drzej Kaniewski | (参考訳) 量子力学は、暗号、計算、メトロロジーといったいくつかの分野で大きな利点を約束するため、現代の情報処理の多くの側面に革命をもたらす可能性がある。
例えば量子暗号は、デバイスに依存しないプロトコルの実装を可能にします。
これらのプロトコルは非局所的な統計を生成するデバイスの使用に依存しており、理想的にはこれらの統計は確率空間の量子集合の極端点に対応する。
しかし、CHSHシナリオ(最も単純な非自明なベルシナリオ)でさえ、極端量子点の完全な理解は得られない。
実際、そのような点の分析的な族はわずかに2つしかない。
我々の最初の貢献は、解析的量子極値点の2つの新しい族をベル汎関数の2つの新しい族に解を提供することによって導入することである。
第2部では、CHSHシナリオにおける過渡性の分析基準の開発に重点を置いている。
有名なツィレルソン・ランダウ・マサネス基準は、一様辺縁を持つ点のみに適用されるが、石坂左利の一連の研究で一般化が提案されている。
これらの条件をスタンドアロンの予想と組み合わせて、技術的な詳細を探求し、適合性について議論する。
得られた理解に基づいて、エレガントな数学的形式と直感的な物理的解釈を備えた新しい条件セットを提案する。
最後に、両条件セットが量子極端点の新しい族に対して正しい予測を与えることを検証する。 Quantum mechanics may revolutionise many aspects of modern information processing as it promises significant advantages in several fields such as cryptography, computing and metrology. Quantum cryptography for instance allows us to implement protocols which are device-independent, i.e. they can be proven security under fewer assumptions. These protocols rely on using devices producing non-local statistics and ideally these statistics would correspond to extremal points of the quantum set in the probability space. However, even in the CHSH scenario (the simplest non-trivial Bell scenario) we do not have a full understanding of the extremal quantum points. In fact, there are only a couple of analytic families of such points. Our first contribution is to introduce two new families of analytical quantum extremal points by providing solutions to two new families of Bell functionals. In the second part we focus on developing an analytical criteria for extremality in the CHSH scenario. A well-known Tsirelson-Landau-Masanes criterion only applies to points with uniform marginals, but a generalisation has been suggested in a sequence of works by Satoshi Ishizaka. We combine these conditions into a standalone conjecture, explore their technical details and discuss their suitability. Based on the understanding acquired, we propose a new set of conditions with an elegant mathematical form and an intuitive physical interpretation. Finally, we verify that both sets of conditions give correct predictions on the new families of quantum extremal points. | 翻訳日:2023-05-05 19:02:33 公開日:2023-05-04 |
# 文脈適応と探索のための部分的MDPの推論法 Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration ( http://arxiv.org/abs/2302.04250v2 ) ライセンス: Link先を確認 | Chentian Jiang, Nan Rosemary Ke, Hado van Hasselt | (参考訳) タスクを一般化するためには、エージェントは将来のタスクへの適応と探索を容易にする過去のタスクから知識を取得する必要がある。
我々は文脈内適応と探索の問題に焦点を当て、エージェントは状況、すなわち状態の歴史、行動、報酬にのみ依存する。
後続サンプリング(トンプソンサンプリングの拡張)は有望なアプローチであるが、ベイズ推論と動的プログラミングを必要とする。
これらの困難に対処するために、トランスフォーマは、トレーニングタスクから推論プロセスを学習し、動的プログラミングに安価である小さなマルコフ決定プロセスとして表される部分モデルの仮説空間を考える。
シンボリック・錬金術ベンチマーク(symbolal alchemy benchmark)の我々のバージョンでは、この手法の適応速度と探索・探索のバランスは、正確に後方サンプリングされたオラクルのそれに近い。
また、部分的なモデルが環境から関連する情報を除外したとしても、良い政策につながることも示している。 To generalize across tasks, an agent should acquire knowledge from past tasks that facilitate adaptation and exploration in future tasks. We focus on the problem of in-context adaptation and exploration, where an agent only relies on context, i.e., history of states, actions and/or rewards, rather than gradient-based updates. Posterior sampling (extension of Thompson sampling) is a promising approach, but it requires Bayesian inference and dynamic programming, which often involve unknowns (e.g., a prior) and costly computations. To address these difficulties, we use a transformer to learn an inference process from training tasks and consider a hypothesis space of partial models, represented as small Markov decision processes that are cheap for dynamic programming. In our version of the Symbolic Alchemy benchmark, our method's adaptation speed and exploration-exploitation balance approach those of an exact posterior sampling oracle. We also show that even though partial models exclude relevant information from the environment, they can nevertheless lead to good policies. | 翻訳日:2023-05-05 19:01:31 公開日:2023-05-04 |
# hermiticity-preserving superoperatorsのための完全グラフィカル言語 Complete Graphical Language for Hermiticity-Preserving Superoperators ( http://arxiv.org/abs/2302.04212v3 ) ライセンス: Link先を確認 | Titouan Carette, Timoth\'ee Hoffreumon, \'Emile Larroque, and Renaud Vilmart | (参考訳) 普遍および完全グラフィカル言語は、ヒルベルト空間の間の線型写像に対応する純粋状態量子力学と、完全に正の超作用素に対応する混合状態量子力学のためにうまく設計されている。
本稿では、さらに一歩進んで、Hermiticity保存スーパーオペレータのための普遍的で完全なグラフィカル言語を提案する。
このような言語は、Choi-Jamio{\l}kowski同型、スピンフリップ、エンタングルメント目撃者など、様々な物理的状況で特徴付けられる反線型変換の図式的構成研究の可能性を開く。
我々の構成は、エルミート行列の正規形式を示すZW-計算の拡張に依存している。 Universal and complete graphical languages have been successfully designed for pure state quantum mechanics, corresponding to linear maps between Hilbert spaces, and mixed states quantum mechanics, corresponding to completely positive superoperators. In this paper, we go one step further and present a universal and complete graphical language for Hermiticity-preserving superoperators. Such a language opens the possibility of diagrammatic compositional investigations of antilinear transformations featured in various physical situations, such as the Choi-Jamio{\l}kowski isomorphism, spin-flip, or entanglement witnesses. Our construction relies on an extension of the ZW-calculus exhibiting a normal form for Hermitian matrices. | 翻訳日:2023-05-05 19:01:12 公開日:2023-05-04 |
# 相関データベース検出における位相遷移 Phase Transitions in the Detection of Correlated Databases ( http://arxiv.org/abs/2302.03380v2 ) ライセンス: Link先を確認 | Dor Elimelech and Wasim Huleihel | (参考訳) 2つのガウスデータベース間の相関を検知する問題について検討する。 $\mathsf{x}\in\mathbb{r}^{n\times d}$と$\mathsf{y}^{n\times d}$であり、それぞれが$d$の機能を持つ$n$ユーザで構成されている。
この問題は、ソーシャルメディア、計算生物学などの分析に関係している。
null仮説では、これらの2つのデータベースは統計的に独立しています。
しかし、この代替案の下では、$n$ ユーザ(または行の置換)の集合の上に、未知の置換 $\sigma$ が存在し、$\mathsf{x}$ は$\mathsf{y}^\sigma$、$\mathsf{y}$ の置換版である$\mathsf{y}^\sigma$ と関連している。
最適試験が相転移を示すシャープしきい値を決定する。
具体的には、$\rho^2d\to0$ を$d\to\infty$ とすると、弱い検出(ランダムな推測よりもわずかに良い)は統計的に不可能である。
これは、$\mathsf{X}^T\mathsf{Y}$の全てのエントリを閾値付けする単純なテストのパフォーマンスを補完する。
さらに、$d$を固定すると、$\rho<\rho^\star$は$d$の明示的な関数であり、$\rho^2d\to0$の弱い検出は$\rho^2d\to0$の限り再び不可能である。
これらの結果は最近の研究で大きなギャップを埋めている。 We study the problem of detecting the correlation between two Gaussian databases $\mathsf{X}\in\mathbb{R}^{n\times d}$ and $\mathsf{Y}^{n\times d}$, each composed of $n$ users with $d$ features. This problem is relevant in the analysis of social media, computational biology, etc. We formulate this as a hypothesis testing problem: under the null hypothesis, these two databases are statistically independent. Under the alternative, however, there exists an unknown permutation $\sigma$ over the set of $n$ users (or, row permutation), such that $\mathsf{X}$ is $\rho$-correlated with $\mathsf{Y}^\sigma$, a permuted version of $\mathsf{Y}$. We determine sharp thresholds at which optimal testing exhibits a phase transition, depending on the asymptotic regime of $n$ and $d$. Specifically, we prove that if $\rho^2d\to0$, as $d\to\infty$, then weak detection (performing slightly better than random guessing) is statistically impossible, irrespectively of the value of $n$. This compliments the performance of a simple test that thresholds the sum all entries of $\mathsf{X}^T\mathsf{Y}$. Furthermore, when $d$ is fixed, we prove that strong detection (vanishing error probability) is impossible for any $\rho<\rho^\star$, where $\rho^\star$ is an explicit function of $d$, while weak detection is again impossible as long as $\rho^2d\to0$. These results close significant gaps in current recent related studies. | 翻訳日:2023-05-05 19:01:00 公開日:2023-05-04 |
# 電気化学インピーダンススペクトルから等価回路モデルの分類のための機械学習ベンチマーク Machine Learning Benchmarks for the Classification of Equivalent Circuit Models from Electrochemical Impedance Spectra ( http://arxiv.org/abs/2302.03362v2 ) ライセンス: Link先を確認 | Joachim Schaeffer, Paul Gasper, Esteban Garcia-Tamayo, Raymond Gasper, Masaki Adachi, Juan Pablo Gaviria-Cardona, Simon Montoya-Bedoya, Anoushka Bhutani, Andrew Schiek, Rhys Goodall, Rolf Findeisen, Richard D. Braatz and Simon Engelke | (参考訳) 電気化学系の電気化学インピーダンス分光(EIS)データの解析は、専門知識を用いて等価回路モデル(ECM)を定義し、モデルパラメータを最適化して様々な抵抗、容量、誘導、拡散応答を解離させる。
小さなデータセットでは、この手順を手動で行うことができるが、広範囲のEIS応答を持つデータセットに対して、手動で適切なECMを定義することは不可能である。
ECMの自動識別は、大規模なEISデータの解析を大幅に高速化する。
本稿では,BatteryDEVハッカソン用にQuantumScapeが提供する9,300個のインピーダンススペクトルの機械学習手法を紹介する。
最も優れたアプローチは、ライブラリーを利用した勾配木モデルを用いて特徴を自動的に生成し、続いて生スペクトルデータを用いたランダム森林モデルである。
ニキスト表現のブール画像を用いた畳み込みニューラルネットワークを代替として提示するが、精度は低い。
データを公開し、関連するコードをオープンソース化します。
この記事に記載されたアプローチは、さらなる研究のベンチマークとして役立ちます。
残る重要な課題はラベルの識別性であり、モデルのパフォーマンスと誤った分類されたスペクトルの比較によって強調される。 Analysis of Electrochemical Impedance Spectroscopy (EIS) data for electrochemical systems often consists of defining an Equivalent Circuit Model (ECM) using expert knowledge and then optimizing the model parameters to deconvolute various resistance, capacitive, inductive, or diffusion responses. For small data sets, this procedure can be conducted manually; however, it is not feasible to manually define a proper ECM for extensive data sets with a wide range of EIS responses. Automatic identification of an ECM would substantially accelerate the analysis of large sets of EIS data. We showcase machine learning methods to classify the ECMs of 9,300 impedance spectra provided by QuantumScape for the BatteryDEV hackathon. The best-performing approach is a gradient-boosted tree model utilizing a library to automatically generate features, followed by a random forest model using the raw spectral data. A convolutional neural network using boolean images of Nyquist representations is presented as an alternative, although it achieves a lower accuracy. We publish the data and open source the associated code. The approaches described in this article can serve as benchmarks for further studies. A key remaining challenge is the identifiability of the labels, underlined by the model performances and the comparison of misclassified spectra. | 翻訳日:2023-05-05 19:00:21 公開日:2023-05-04 |
# 大腸発育診断のための没入型仮想大腸内視鏡ビューアの開発 Development of an Immersive Virtual Colonoscopy Viewer for Colon Growths Diagnosis ( http://arxiv.org/abs/2302.02946v2 ) ライセンス: Link先を確認 | Jo\~ao Serras and Anderson Maciel and Soraia Paulo and Andrew Duchowski and Regis Kopper and Catarina Moreira and Joaquim Jorge | (参考訳) デスクトップベースの仮想大腸内視鏡は大腸異常の同定に有用であることが証明されている。
プロセスは正確ですが、時間がかかります。
仮想大腸内視鏡における没入型インターフェースの使用は、初期的かつまだ理解されていない。
そこで本研究では,vrパラダイムの要素を探索し,没入分析をより効率的に行うための新しいデザインを提案する。
また,専門家による実験の実施を計画し,カバレッジ,持続時間,診断精度の多要素的影響を評価する。 Desktop-based virtual colonoscopy has been proven to be an asset in the identification of colon anomalies. The process is accurate, although time-consuming. The use of immersive interfaces for virtual colonoscopy is incipient and not yet understood. In this work, we present a new design exploring elements of the VR paradigm to make the immersive analysis more efficient while still effective. We also plan the conduction of experiments with experts to assess the multi-factor influences of coverage, duration, and diagnostic accuracy. | 翻訳日:2023-05-05 18:59:59 公開日:2023-05-04 |
# 層変動解析による領域適応の解釈 Interpretations of Domain Adaptations via Layer Variational Analysis ( http://arxiv.org/abs/2302.01798v3 ) ライセンス: Link先を確認 | Huan-Hsin Tseng, Hsin-Yi Lin, Kuo-Hsuan Hung and Yu Tsao | (参考訳) 転送学習は、多くのアプリケーションで経験的に効率的に行うことが知られているが、限られた文献では、シーンの背後にあるメカニズムを報告している。
本研究は,Deep Learningにおける伝達学習理論を定式化するために,形式的導出とヒューリスティック解析の両方を確立する。
層変動解析を用いたフレームワークは, トランスファー学習の成功が, 対応するデータ条件で保証できることを実証する。
さらに,この理論計算は知識伝達過程に対する直感的な解釈をもたらす。
その後、ネットワークベース転送学習の代替方法が導出される。
本手法は,ドメイン適応における効率と精度の向上を示す。
新しいドメインデータが適応中に十分にスパースである場合、特に有利である。
各種課題に対する数値実験により, 解析式が勾配降下法よりも, 領域適応において優れた性能を示した。 Transfer learning is known to perform efficiently in many applications empirically, yet limited literature reports the mechanism behind the scene. This study establishes both formal derivations and heuristic analysis to formulate the theory of transfer learning in deep learning. Our framework utilizing layer variational analysis proves that the success of transfer learning can be guaranteed with corresponding data conditions. Moreover, our theoretical calculation yields intuitive interpretations towards the knowledge transfer process. Subsequently, an alternative method for network-based transfer learning is derived. The method shows an increase in efficiency and accuracy for domain adaptation. It is particularly advantageous when new domain data is sufficiently sparse during adaptation. Numerical experiments over diverse tasks validated our theory and verified that our analytic expression achieved better performance in domain adaptation than the gradient descent method. | 翻訳日:2023-05-05 18:59:51 公開日:2023-05-04 |
# 不可解な対策による難易度検索の再検討 Revisiting Dense Retrieval with Unanswerable Counterfactuals ( http://arxiv.org/abs/2304.03031v5 ) ライセンス: Link先を確認 | Yongho Song, Dahyun Lee, Kyungjae Lee, Jinyeong Yeo | (参考訳) retriever-readerフレームワークはopen-domain question answering(odqa)で人気があり、レトリバーが読者に対して、大きなコーパスから関連する候補パスのセットをサンプリングする。
この手法の背景にある重要な前提は、検索者からの高関連度スコアは、読者からの高い応答可能性を示す可能性があり、検索されたパスが与えられた質問に対する回答を含む確率が高いということである。
本研究では,この信念を実証的に否定し,dprに基づく近年の密集した検索モデルが,解答可能な原文よりも不都合な偽文を上位にランク付けすることが多いことを観察する。
本研究では,dprの関連度測定と質問・回答対の対応性との同期性を高めるために,非実例を付加的な学習資源として活用する。
具体的には, 逆実例を学習空間における正と負のサンプルのピボットとして活用する, 経路探索のための新しい表現学習手法PiCLを提案する。
我々は, ODQAベンチマークにおけるPiCLの有効性と学習モデルの堅牢性を示すために, 検索学習にPiCLを組み込んだ。 The retriever-reader framework is popular for open-domain question answering (ODQA), where a retriever samples for the reader a set of relevant candidate passages from a large corpus. A key assumption behind this method is that high relevance scores from the retriever likely indicate high answerability from the reader, which implies a high probability that the retrieved passages contain answers to a given question. In this work, we empirically dispel this belief and observe that recent dense retrieval models based on DPR often rank unanswerable counterfactual passages higher than their answerable original passages. To address such answer-unawareness in dense retrievers, we seek to use counterfactual samples as additional training resources to better synchronize the relevance measurement of DPR with the answerability of question-passage pairs. Specifically, we present counterfactually-Pivoting Contrastive Learning (PiCL), a novel representation learning approach for passage retrieval that leverages counterfactual samples as pivots between positive and negative samples in their learned embedding space. We incorporate PiCL into the retriever training to show the effectiveness of PiCL on ODQA benchmarks and the robustness of the learned models. | 翻訳日:2023-05-05 18:53:11 公開日:2023-05-04 |
# 回転アノテーションのない回転検出学習のための知識の組み合わせ Knowledge Combination to Learn Rotated Detection Without Rotated Annotation ( http://arxiv.org/abs/2304.02199v2 ) ライセンス: Link先を確認 | Tianyu Zhu, Bryce Ferenczi, Pulak Purkait, Tom Drummond, Hamid Rezatofighi, Anton van den Hengel | (参考訳) 回転バウンディングボックスは、細長いオブジェクトの出力あいまいさを大幅に減らし、軸方向のバウンディングボックスよりも優れている。
この効果にもかかわらず、回転検出器は広く使われていない。
回転するバウンディングボックスのアノテーションは、軸整合アノテーションを使用する多くの検出データセットでは提供されないため、面倒なプロセスである。
本稿では、ターゲットデータセット1のより安価な軸整合アノテーションのみを必要とする精度の高い回転ボックスを予測できるフレームワークを提案する。
これを実現するために、ニューラルネットワークは、タスクで利用されるものよりも、ターゲットドメインのリッチな表現を学習できるという事実を利用する。
未使用の表現は、より詳細なタスクに対処するために利用することができる。
我々のフレームワークは、ドメイン外のソースデータセットのタスク知識と、より強力なアノテーションとより弱いアノテーションでターゲットデータセットのドメイン知識を組み合わせる。
ソースとターゲットデータセットのコトレーニングを可能にするために、新しい割り当てプロセスとプロジェクションロスが使用される。
結果として、モデルは推論中にさらなる計算オーバーヘッドを伴わずに、ターゲットドメインのより詳細なタスクを解決できる。
本手法は, 新たに生成したデータセット, HRSC2016, SSDDなど, 様々なターゲットデータセットに対して広範囲に評価する。
その結果,提案手法は完全教師付き手法と同程度の性能を示した。 Rotated bounding boxes drastically reduce output ambiguity of elongated objects, making it superior to axis-aligned bounding boxes. Despite the effectiveness, rotated detectors are not widely employed. Annotating rotated bounding boxes is such a laborious process that they are not provided in many detection datasets where axis-aligned annotations are used instead. In this paper, we propose a framework that allows the model to predict precise rotated boxes only requiring cheaper axis-aligned annotation of the target dataset 1. To achieve this, we leverage the fact that neural networks are capable of learning richer representation of the target domain than what is utilized by the task. The under-utilized representation can be exploited to address a more detailed task. Our framework combines task knowledge of an out-of-domain source dataset with stronger annotation and domain knowledge of the target dataset with weaker annotation. A novel assignment process and projection loss are used to enable the co-training on the source and target datasets. As a result, the model is able to solve the more detailed task in the target domain, without additional computation overhead during inference. We extensively evaluate the method on various target datasets including fresh-produce dataset, HRSC2016 and SSDD. Results show that the proposed method consistently performs on par with the fully supervised approach. | 翻訳日:2023-05-05 18:52:49 公開日:2023-05-04 |
# ソフトディッションによるノイズ画像分割 Noisy Image Segmentation With Soft-Dice ( http://arxiv.org/abs/2304.00801v3 ) ライセンス: Link先を確認 | Marcus Nordstr\"om, Henrik Hult, Atsuto Maki, Fredrik L\"ofman | (参考訳) 本稿では,対象ラベルにノイズが存在する状況において,医用画像セグメンテーションにおいて最も一般的な損失関数であるソフトダイス損失について検討する。
特に最適解の集合が特徴づけられ、これらの解の体積バイアスの鋭い境界が提供される。
さらに, 最適ソフトディスに収束するソフトセグメンテーションのシーケンスは, しきい値化を用いてハードセグメンテーションに変換した場合, 最適ディスに収束することを示した。
これは、ソフトディースの計量を最大化するためのプロキシとしてしばしば使用されるため、重要な結果である。
最後に、理論結果の確認実験を行う。 This paper presents a study on the soft-Dice loss, one of the most popular loss functions in medical image segmentation, for situations where noise is present in target labels. In particular, the set of optimal solutions are characterized and sharp bounds on the volume bias of these solutions are provided. It is further shown that a sequence of soft segmentations converging to optimal soft-Dice also converges to optimal Dice when converted to hard segmentations using thresholding. This is an important result because soft-Dice is often used as a proxy for maximizing the Dice metric. Finally, experiments confirming the theoretical results are provided. | 翻訳日:2023-05-05 18:52:29 公開日:2023-05-04 |
# 量子論におけるリレーショナルシズムを超えて--量子論への新しい不確定性に基づくアプローチ Beyond relationalism in quantum theory: A new indeterminacy-based approach to quantum theory ( http://arxiv.org/abs/2304.00608v3 ) ライセンス: Link先を確認 | Francisco Pipa | (参考訳) 量子論の基礎と哲学における影響力ある伝統は、QTを隠れ変数で補足することを拒絶し、ユニタリQTが正しいと考え、原則としてQTに対するリレーショナル主義的アプローチを採用するべきであると主張している。
この伝統は、測定結果を例えば世界、システム、エージェント、参照フレームに関連付ける一連のアプローチを含んでいる。
これには、エベレットのqtの相対的定式化、多世界解釈、関係量子力学、qbism、ヒーリーのプラグマティズム、ディークのperspectival modal interpretationが含まれる。
これらのアプローチは、それらの関係性と関連づけられる潜在的なコストを持ち、それらは魅力を失わせる可能性がある。
したがって、QT に対して非リレーショナルな非隠れ変数の普遍的アプローチがあるなら、真剣に取り組まなければならない。
本稿では,Endeterminacy-Based Quantum Theory (EBQT) と呼ばれる手法を提案する。
EBQTは、ユニタリな非隠れ変数の普遍QTを維持しながら、リレーショナルではない決定的および不決定的な量子特性のアカウントを構築することでリレーショナル性を回避する。
EBQTによると、リレーショナルストが、拡張されたウィグナーの友人シナリオのような測定結果が相対性化すると仮定するように迫られる状況では、決定的な結果ではなく、ある種の非関係的な不決定性を持つシステムが存在する。
このアプローチでは、ある相互作用を通じて、ある時点で決定的な性質を持つシステムが過去に発生し、これらのシステムにより、他のシステムが決定的な性質を持つことができるようになった。
システムは、特定のネットワークで表されるこれらの構造化された相互作用のために、時間とともに特性を減らし続ける。
友人の研究室など、これらのネットワークに属する他のシステムから隔離されている場合、実験室内で不確定な性質が絶対的に発生する。 An influential tradition in the foundations and philosophy of quantum theory (QT) claims that if we reject supplementing QT with hidden variables and consider that unitary QT is correct and, in principle, universal, we should adopt a relationalist approach to QT. This tradition involves a series of approaches that relativize measurement outcomes to, for example, worlds, systems, agents, or reference frames. It includes Everett's Relative-State formulation of QT, the Many-worlds Interpretation, Relational Quantum Mechanics, QBism, Healey's Pragmatism, and Diek's perspectival modal interpretation. These approaches have potential costs connected with their relationalism that may make them unattractive. Thus, if there is a non-relationalist non-hidden variable universal approach to QT, it should be taken seriously. I will present an approach of this kind called Endeterminacy-Based Quantum Theory (EBQT). EBQT circumvents relationalism by constructing an account of determinate and indeterminate quantum properties that is not relational while maintaining unitary non-hidden variable universal QT. In situations where a relationalist is pressed to assume that measurement outcomes are relativized, such as in the extended Wigner's friend scenarios, according to EBQT there aren't determinate outcomes but systems with certain non-relational indeterminate properties. In this approach, systems with determinate properties arose at some point in the past through certain interactions, and these systems further allowed other systems to have determinate properties. Systems keep having determinate properties over time because of these structured interactions represented by certain networks. In situations where there is isolation from the rest of the systems that belong to these networks, such as inside the friend's lab, indeterminate properties absolutely arise inside the lab. | 翻訳日:2023-05-05 18:52:04 公開日:2023-05-04 |
# Sigmoid Loss for Language Image Pre-Training (英語) Sigmoid Loss for Language Image Pre-Training ( http://arxiv.org/abs/2303.15343v3 ) ライセンス: Link先を確認 | Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer | (参考訳) 画像テキスト事前学習のための簡易なペアワイズsgmoid損失を提案する。
ソフトマックス正規化を伴う標準的なコントラスト学習とは異なり、シグモイド損失は画像とテキストのペアのみにのみ依存し、正規化にペアの類似点のグローバルなビューを必要としない。
Sigmoidの損失により、バッチサイズをさらにスケールアップできると同時に、より小さなバッチサイズでもパフォーマンスが向上する。
4つのTPUv4チップで、4kバッチサイズでBase CLIPモデルと20kバッチサイズでLarge LiTモデルをトレーニングでき、後者は2日間で84.5%のImageNetゼロショット精度を実現している。
このバッチサイズと損失のばらつきにより、サンプル対対および正の比率に対する負の影響をさらに研究することができる。
最後に、バッチサイズを最大100万まで極端にプッシュし、バッチサイズの増大によるメリットが急速に減少し、より合理的なバッチサイズである32kが十分であることが分かりました。
我々の研究は、言語イメージ事前学習の品質と効率を改善するためのさらなる研究を動機づけることを願っている。 We propose a simple pairwise sigmoid loss for image-text pre-training. Unlike standard contrastive learning with softmax normalization, the sigmoid loss operates solely on image-text pairs and does not require a global view of the pairwise similarities for normalization. The sigmoid loss simultaneously allows further scaling up the batch size, while also performing better at smaller batch sizes. With only four TPUv4 chips, we can train a Base CLIP model at 4k batch size and a Large LiT model at 20k batch size, the latter achieves 84.5% ImageNet zero-shot accuracy in two days. This disentanglement of the batch size from the loss further allows us to study the impact of examples vs pairs and negative to positive ratio. Finally, we push the batch size to the extreme, up to one million, and find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient. We hope our research motivates further explorations in improving the quality and efficiency of language-image pre-training. | 翻訳日:2023-05-05 18:51:32 公開日:2023-05-04 |
# CV-QKDの最大耐雑音化と2方向容量の低減 Maximum tolerable excess noise in CV-QKD and improved lower bound on two-way capacities ( http://arxiv.org/abs/2303.12867v3 ) ライセンス: Link先を確認 | Francesco Anna Mele, Ludovico Lami, Vittorio Giovannetti | (参考訳) 量子チャネルの双方向容量は、量子リピータがない状態でノイズ伝達線で接続された2つの遠くのパーティによって達成可能な究極の絡み合いと秘密鍵分布率を決定する。
リピータは構築とメンテナンスにコストがかかる可能性が高いため、量子通信の中心的な課題は、それらなしで達成可能なパフォーマンスを理解することである。
本稿では,光ファイバーや自由空間リンクに影響を及ぼす雑音の現実的モデルである熱減衰器,熱増幅器,加法的ガウス雑音など,すべての位相非感応性ガウス流路のエネルギー制約と非拘束性量子および秘密鍵容量の新たな下界を求める。
oursは、(逆)コヒーレント情報が負となるパラメータ範囲において、双方向量子容量上の最初の非零下界であり、チャネルが絡み合わなければ、絡み合い分布が常に可能であることを明示的に示している。
これは場の決定的な開問題、すなわち連続変数量子鍵分布において許容できる最大余剰ノイズを確立することを完全に解決する。
さらに、我々は、再帰性とハッシュプロトコルを組み合わせることで機能する具体的な絡み合い分布と蒸留プロトコルを考案し、最適化する。 The two-way capacities of quantum channels determine the ultimate entanglement and secret-key distribution rates achievable by two distant parties that are connected by a noisy transmission line, in absence of quantum repeaters. Since repeaters will likely be expensive to build and maintain, a central open problem of quantum communication is to understand what performances are achievable without them. In this paper, we find a new lower bound on the energy-constrained and unconstrained two-way quantum and secret-key capacities of all phase-insensitive bosonic Gaussian channels, namely thermal attenuator, thermal amplifier, and additive Gaussian noise, which are realistic models for the noise affecting optical fibres or free-space links. Ours is the first nonzero lower bound on the two-way quantum capacity in the parameter range where the (reverse) coherent information becomes negative, and it shows explicitly that entanglement distribution is always possible when the channel is not entanglement breaking. This completely solves a crucial open problem of the field, namely, establishing the maximum excess noise which is tolerable in continuous-variable quantum key distribution. In addition, our construction is fully explicit, i.e. we devise and optimise a concrete entanglement distribution and distillation protocol that works by combining recurrence and hashing protocols | 翻訳日:2023-05-05 18:51:12 公開日:2023-05-04 |
# dr.cpo:反復構成,ランダム配置,hpr閉塞による多様かつ現実的な3次元拡張 DR.CPO: Diversified and Realistic 3D Augmentation via Iterative Construction, Random Placement, and HPR Occlusion ( http://arxiv.org/abs/2303.12743v3 ) ライセンス: Link先を確認 | Jungwook Shin, Jaeill Kim, Kyungeun Lee, Hyunghun Cho, Wonjong Rhee | (参考訳) 自動運転では、データ拡張は3dオブジェクト検出を改善するために一般的に使用される。
最も基本的な方法は、コピーされたオブジェクトの挿入とトレーニングフレーム全体の回転とスケーリングである。
多くのバリエーションも開発されている。
しかし、既存の手法は現実世界の様々な可能性と比較してかなり制限されている。
本研究では,物体全体を柔軟に構築し,自由な位置と回転を可能とし,それに応じて自己閉塞と外部閉塞を適用可能な,多種多様で現実的な拡張法を開発する。
物体全体の多様性を向上させるため,実世界から観測された複数の物体を1つの物体に確率的に結合する反復手法を開発した。
既存の拡張法と異なり、最終段階において適切な咬合を全身に反映できるため、構築された物体をトレーニングフレーム内にランダムに配置して回転させることができる。
最後に、各局所オブジェクトレベルでの適切な自己閉塞とグローバルフレームレベルでの外部閉塞を、計算効率のよい隠れポイント除去(HPR)アルゴリズムを用いて適用する。
また、HPRはLiDARからの距離に応じて各物体の点密度を適応的に制御するためにも用いられる。
実験の結果,DR.CPOアルゴリズムは計算オーバーヘッドを発生させることなく,データ効率とモデルに依存しないことがわかった。
また、dr.cpoはkittiデータセットで知られている最良の3d検出結果と比較して、地図のパフォーマンスを2.08%向上できる。
コードはhttps://github.com/SNU-DRL/DRCPO.gitで公開されている。 In autonomous driving, data augmentation is commonly used for improving 3D object detection. The most basic methods include insertion of copied objects and rotation and scaling of the entire training frame. Numerous variants have been developed as well. The existing methods, however, are considerably limited when compared to the variety of the real world possibilities. In this work, we develop a diversified and realistic augmentation method that can flexibly construct a whole-body object, freely locate and rotate the object, and apply self-occlusion and external-occlusion accordingly. To improve the diversity of the whole-body object construction, we develop an iterative method that stochastically combines multiple objects observed from the real world into a single object. Unlike the existing augmentation methods, the constructed objects can be randomly located and rotated in the training frame because proper occlusions can be reflected to the whole-body objects in the final step. Finally, proper self-occlusion at each local object level and external-occlusion at the global frame level are applied using the Hidden Point Removal (HPR) algorithm that is computationally efficient. HPR is also used for adaptively controlling the point density of each object according to the object's distance from the LiDAR. Experiment results show that the proposed DR.CPO algorithm is data-efficient and model-agnostic without incurring any computational overhead. Also, DR.CPO can improve mAP performance by 2.08% when compared to the best 3D detection result known for KITTI dataset. The code is available at https://github.com/SNU-DRL/DRCPO.git | 翻訳日:2023-05-05 18:50:46 公開日:2023-05-04 |
# DR-VIDAL --2つのロバストな変分情報-実世界データに基づく対実予測と処理効果推定のためのディープラーニング DR-VIDAL -- Doubly Robust Variational Information-theoretic Deep Adversarial Learning for Counterfactual Prediction and Treatment Effect Estimation on Real World Data ( http://arxiv.org/abs/2303.04201v2 ) ライセンス: Link先を確認 | Shantanu Ghosh, Zheng Feng, Jiang Bian, Kevin Butler, Mattia Prosperi | (参考訳) リアルワールド、観察的(非ランダム化)データ、例えば電子的な健康記録を用いた治療の再利用の結果に対する介入の因果効果の決定は、基礎的なバイアスのために困難である。
因果深い学習は、個別化された治療効果(ITE)を推定する伝統的な手法よりも改善されている。
本稿では2つの治療と結果のジョイントモデルを組み合わせた新たな生成フレームワークであるDouubly Robust Variational Information-theoretic Deep Adversarial Learning(DR-VIDAL)を提案する。
DR-VIDAL の統合
(i)共起者を因果的前提に従って潜在変数に分解する変分オートエンコーダ(vae)
二 反事実を発生させる情報理論的生成広告ネットワーク(info-gan)
(iii)アウトカム予測のための治療効果を組み込んだ二重ロバストなブロック。
Infant Health and Development Program、Twin Birth Registry、National Supported Work Programといった人工的および現実世界のデータセットでは、DR-VIDALは他の生成的および生成的手法よりも優れたパフォーマンスを達成する。
結論として、DR-VIDALは因果仮定、VAE、Info-GAN、そして2倍の堅牢性を包括的でパフォーマンスのよいフレームワークに融合させる。
コードは、MITライセンス下でhttps://github.com/Shantanu48114860/DR-VIDAL-AMIA-22で入手できる。 Determining causal effects of interventions onto outcomes from real-world, observational (non-randomized) data, e.g., treatment repurposing using electronic health records, is challenging due to underlying bias. Causal deep learning has improved over traditional techniques for estimating individualized treatment effects (ITE). We present the Doubly Robust Variational Information-theoretic Deep Adversarial Learning (DR-VIDAL), a novel generative framework that combines two joint models of treatment and outcome, ensuring an unbiased ITE estimation even when one of the two is misspecified. DR-VIDAL integrates: (i) a variational autoencoder (VAE) to factorize confounders into latent variables according to causal assumptions; (ii) an information-theoretic generative adversarial network (Info-GAN) to generate counterfactuals; (iii) a doubly robust block incorporating treatment propensities for outcome predictions. On synthetic and real-world datasets (Infant Health and Development Program, Twin Birth Registry, and National Supported Work Program), DR-VIDAL achieves better performance than other non-generative and generative methods. In conclusion, DR-VIDAL uniquely fuses causal assumptions, VAE, Info-GAN, and doubly robustness into a comprehensive, performant framework. Code is available at: https://github.com/Shantanu48114860/DR-VIDAL-AMIA-22 under MIT license. | 翻訳日:2023-05-05 18:50:21 公開日:2023-05-04 |
# 教師なしの病理検出: 最先端技術への深入り Unsupervised Pathology Detection: A Deep Dive Into the State of the Art ( http://arxiv.org/abs/2303.00609v2 ) ライセンス: Link先を確認 | Ioannis Lagogiannis, Felix Meissen, Georgios Kaissis and Daniel Rueckert | (参考訳) 深い教師なしのアプローチは、大きなラベル付きデータセットの必要性を軽減し、どんな稀な病理も検出できるような教師付きアプローチよりも一般化可能であることを約束するため、医学画像の病理検出やセグメンテーションなどの応用に注目が集まっている。
非教師なし異常検出(UAD)の文献が継続的に増加し,新たなパラダイムが出現するにつれ,SOTA(State-of-the-art)を再評価し,将来的な研究方向性を特定するために,新たな手法を共通のフレームワークで継続的に評価し,ベンチマークすることが不可欠である。
そこで我々は,複数の医学的データセット上での最先端のUAD法の選択を多種多様に評価し,脳MRIにおいて確立されたSOTAと比較した。
本実験により, 産業・医学文献から新たに開発された特徴モデリング手法は, 従来に比べて性能が向上し, 様々なモダリティやデータセットに新たなSOTAを設定できることが実証された。
さらに,このような手法は,最近開発された自己教師付き事前学習アルゴリズムの恩恵を受けることができることを示す。
最後に,選択したモデルとデータセットのユニークな特徴についてさらなる洞察を得るために,一連の実験を行う。
コードはhttps://github.com/iolag/upd_study/で確認できます。 Deep unsupervised approaches are gathering increased attention for applications such as pathology detection and segmentation in medical images since they promise to alleviate the need for large labeled datasets and are more generalizable than their supervised counterparts in detecting any kind of rare pathology. As the Unsupervised Anomaly Detection (UAD) literature continuously grows and new paradigms emerge, it is vital to continuously evaluate and benchmark new methods in a common framework, in order to reassess the state-of-the-art (SOTA) and identify promising research directions. To this end, we evaluate a diverse selection of cutting-edge UAD methods on multiple medical datasets, comparing them against the established SOTA in UAD for brain MRI. Our experiments demonstrate that newly developed feature-modeling methods from the industrial and medical literature achieve increased performance compared to previous work and set the new SOTA in a variety of modalities and datasets. Additionally, we show that such methods are capable of benefiting from recently developed self-supervised pre-training algorithms, further increasing their performance. Finally, we perform a series of experiments in order to gain further insights into some unique characteristics of selected models and datasets. Our code can be found under https://github.com/iolag/UPD_study/. | 翻訳日:2023-05-05 18:49:54 公開日:2023-05-04 |
# naturalspeech 2: 潜在拡散モデルは自然音声とゼロショット音声と歌唱シンセサイザーである NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers ( http://arxiv.org/abs/2304.09116v2 ) ライセンス: Link先を確認 | Kai Shen, Zeqian Ju, Xu Tan, Yanqing Liu, Yichong Leng, Lei He, Tao Qin, Sheng Zhao, Jiang Bian | (参考訳) 音声合成(TTS)を大規模、複数話者、および単語内データセットに拡張することは、話者のアイデンティティ、韻律、スタイル(例えば歌)などの人間の発話の多様性を捉えるために重要である。
現在の大規模なTSSシステムは、音声を離散トークンに量子化し、言語モデルを用いて、不安定な韻律、単語のスキップ/繰り返しの問題、低音質に悩まされているトークンを1つずつ生成する。
本稿では, 量子化された潜在ベクトルを得るために, 残留ベクトル量子化器を用いたニューラルオーディオコーデックを活用したttsシステムであるnaturalspeech 2 を開発し, 拡散モデルを用いてこれらの潜在ベクトルをテキスト入力に基づいて生成する。
多様な音声合成を実現するために重要となるゼロショット機能を強化するために,拡散モデルと継続時間/ピッチ予測器における文脈内学習を容易にする音声プロンプト機構を設計する。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,その音声品質を評価する。
naturalspeech 2は、ゼロショット設定において、韻律/音色類似性、頑健性、声質の点で、従来のttsシステムを大きく上回り、音声プロンプトだけで新規なゼロショット歌唱合成を行う。
オーディオサンプルはhttps://speechresearch.github.io/naturalspeech2で入手できる。 Scaling text-to-speech (TTS) to large-scale, multi-speaker, and in-the-wild datasets is important to capture the diversity in human speech such as speaker identities, prosodies, and styles (e.g., singing). Current large TTS systems usually quantize speech into discrete tokens and use language models to generate these tokens one by one, which suffer from unstable prosody, word skipping/repeating issue, and poor voice quality. In this paper, we develop NaturalSpeech 2, a TTS system that leverages a neural audio codec with residual vector quantizers to get the quantized latent vectors and uses a diffusion model to generate these latent vectors conditioned on text input. To enhance the zero-shot capability that is important to achieve diverse speech synthesis, we design a speech prompting mechanism to facilitate in-context learning in the diffusion model and the duration/pitch predictor. We scale NaturalSpeech 2 to large-scale datasets with 44K hours of speech and singing data and evaluate its voice quality on unseen speakers. NaturalSpeech 2 outperforms previous TTS systems by a large margin in terms of prosody/timbre similarity, robustness, and voice quality in a zero-shot setting, and performs novel zero-shot singing synthesis with only a speech prompt. Audio samples are available at https://speechresearch.github.io/naturalspeech2. | 翻訳日:2023-05-05 18:44:13 公開日:2023-05-04 |
# samが医用画像に出会うとき:多相肝腫瘍分画におけるsegment anything model(sam)の検討 When SAM Meets Medical Images: An Investigation of Segment Anything Model (SAM) on Multi-phase Liver Tumor Segmentation ( http://arxiv.org/abs/2304.08506v3 ) ライセンス: Link先を確認 | Chuanfei Hu, Xinde Li | (参考訳) 大規模なサンプルなしでセグメンテーションを学ぶことは、人間の固有の能力である。
最近、segment anything model (sam)は、コンピュータビジョンコミュニティからかなりの注目を集めるゼロショット画像のセグメンテーションを実行する。
本稿では,医療画像解析におけるSAMの有用性,特にMPLiTS(multi-phase liver tumor segmentation)について,プロンプト,データ分解能,位相の観点から検討する。
実験の結果、SAMと期待性能の間に大きなギャップがあることが示されている。
幸いなことに、質的な結果はSAMがインタラクティブな医療画像セグメンテーションのコミュニティにとって強力なアノテーションツールであることを示している。 Learning to segmentation without large-scale samples is an inherent capability of human. Recently, Segment Anything Model (SAM) performs the significant zero-shot image segmentation, attracting considerable attention from the computer vision community. Here, we investigate the capability of SAM for medical image analysis, especially for multi-phase liver tumor segmentation (MPLiTS), in terms of prompts, data resolution, phases. Experimental results demonstrate that there might be a large gap between SAM and expected performance. Fortunately, the qualitative results show that SAM is a powerful annotation tool for the community of interactive medical image segmentation. | 翻訳日:2023-05-05 18:43:43 公開日:2023-05-04 |
# 聴覚のない音の言語:大規模言語モデルの音韻意味論の探索 The language of sounds unheard: Exploring musical timbre semantics of large language models ( http://arxiv.org/abs/2304.07830v3 ) ライセンス: Link先を確認 | Kai Siedenburg and Charalampos Saitis | (参考訳) 音のセマンティック次元は、聴覚感覚経験の性質や、知覚、言語、意味のより広い関係を理解する上で、中心的な役割を担っている。
その結果,近年の大型言語モデル(LLMs)の普及に伴い,このようなモデルが人間のものと類似した知覚意味論の組織を示すかどうかを問うことができた。
具体的には、最先端のLLMに基づくチャットボットChatGPTに、20のセマンティックスケールで楽器の音質を評価するよう促した。
別々のチャットで複数の応答を導き出しました。
ChatGPTは人間の評価と部分的にしか相関しないセマンティックプロファイルを作成したが、明るさ(明暗)やピッチ高さ(深高)といった音楽音のよく知られた心理物理学的次元に沿って強い一致を示した。
探索的因子分析により,チャットボットと人間の格付けの間に潜伏因子空間の空間配置が異なっていた。
予想外に、チャットボットは人間の評価に匹敵する程度の内部変動を示した。
我々の研究は、人間の感覚経験の健全な次元を捉えるLLMの可能性を強調している。 Semantic dimensions of sound have been playing a central role in understanding the nature of auditory sensory experience as well as the broader relation between perception, language, and meaning. Accordingly, and given the recent proliferation of large language models (LLMs), here we asked whether such models exhibit an organisation of perceptual semantics similar to those observed in humans. Specifically, we prompted ChatGPT, a chatbot based on a state-of-the-art LLM, to rate musical instrument sounds on a set of 20 semantic scales. We elicited multiple responses in separate chats, analogous to having multiple human raters. ChatGPT generated semantic profiles that only partially correlated with human ratings, yet showed robust agreement along well-known psychophysical dimensions of musical sounds such as brightness (bright-dark) and pitch height (deep-high). Exploratory factor analysis suggested the same dimensionality but different spatial configuration of a latent factor space between the chatbot and human ratings. Unexpectedly, the chatbot showed degrees of internal variability that were comparable in magnitude to that of human ratings. Our work highlights the potential of LLMs to capture salient dimensions of human sensory experience. | 翻訳日:2023-05-05 18:43:31 公開日:2023-05-04 |
# 顔映像圧縮の知覚的品質評価 : ベンチマークと効果的な方法 Perceptual Quality Assessment of Face Video Compression: A Benchmark and An Effective Method ( http://arxiv.org/abs/2304.07056v2 ) ライセンス: Link先を確認 | Yixuan Li, Bolin Chen, Baoliang Chen, Meng Wang, Shiqi Wang | (参考訳) 近年、顔画像圧縮の需要が急激に増加し、人工知能の成功により、従来のハイブリッドビデオ符号化を超えて境界が拡大している。
生成的符号化アプローチは、顔ビデオの統計的先行性を利用して、合理的な知覚的レート歪みトレードオフを持つ有望な代替手段として認識されている。
しかしながら、伝統的なハイブリッドコーディングフレームワークから生成モデルまで、空間的および時間的領域における歪みタイプの大きな多様性は、vqa(compressed face video quality assessment)において大きな課題となっている。
本稿では,顔映像の知覚的品質と多角的圧縮歪みを体系的に理解する最初の試みである,cfvqaデータベースについて述べる。
このデータベースは3,240個の圧縮された顔ビデオクリップを複数の圧縮レベルに収めており、これは6つの代表ビデオコーデックを用いた135個のソースビデオから派生したもので、その中にはハイブリッドコーディングフレームワークに基づく2つの伝統的な方法、2つのエンドツーエンドメソッド、2つの生成方法が含まれる。
さらに,顔映像のコンテンツ特性と時間的先行性を考慮して,顔映像圧縮のためのFACE VideO IntegeRity(FAVOR)指標を開発した。
実験の結果,提案したCFVQAデータセットよりも優れた性能を示した。
ベンチマークは現在、https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessmentで公開されている。 Recent years have witnessed an exponential increase in the demand for face video compression, and the success of artificial intelligence has expanded the boundaries beyond traditional hybrid video coding. Generative coding approaches have been identified as promising alternatives with reasonable perceptual rate-distortion trade-offs, leveraging the statistical priors of face videos. However, the great diversity of distortion types in spatial and temporal domains, ranging from the traditional hybrid coding frameworks to generative models, present grand challenges in compressed face video quality assessment (VQA). In this paper, we introduce the large-scale Compressed Face Video Quality Assessment (CFVQA) database, which is the first attempt to systematically understand the perceptual quality and diversified compression distortions in face videos. The database contains 3,240 compressed face video clips in multiple compression levels, which are derived from 135 source videos with diversified content using six representative video codecs, including two traditional methods based on hybrid coding frameworks, two end-to-end methods, and two generative methods. In addition, a FAce VideO IntegeRity (FAVOR) index for face video compression was developed to measure the perceptual quality, considering the distinct content characteristics and temporal priors of the face videos. Experimental results exhibit its superior performance on the proposed CFVQA dataset. The benchmark is now made publicly available at: https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessment. | 翻訳日:2023-05-05 18:43:00 公開日:2023-05-04 |
# ワイルドフェイスのアンチスプーフィングチャレンジ2023:ベンチマークと結果 Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results ( http://arxiv.org/abs/2304.05753v2 ) ライセンス: Link先を確認 | Dong Wang, Jia Guo, Qiqi Shao, Haochi He, Zhian Chen, Chuanbao Xiao, Ajian Liu, Sergio Escalera, Hugo Jair Escalante, Lei Zhen, Jun Wan, Jiankang Deng | (参考訳) 顔認証システム(FAS)は、顔認識システムの完全性を保護するための重要なメカニズムである。
大幅な進歩にもかかわらず、現実のアプリケーションに対する既存のアプローチの一般化は依然として困難である。
この制限は、公開利用可能なfasデータセットの不足と多様性の欠如に起因する可能性がある。
量に関して言えば、被験者の数は臨界決定要因である。
ほとんどのデータセットは2000人未満の被験者で構成されている。
多様性に関して、データセットの大部分は、反復的な機械的プロセスを使用して制御された環境で収集されたスプーフサンプルから成っている。
このデータ収集手法は、均質化されたサンプルとシナリオの多様性の欠如をもたらす。
これらの欠点に対処するために、制約のない環境で収集された大規模で多様なFASデータセットであるWFASデータセット(Wild Face Anti-Spoofing)を導入する。
本データセットは,321,751人の被験者の853,729枚の画像と,148,169人の生きた被験者の529,571枚の画像を含む。
さらに当社のデータセットは,インターネットから取得したspoofデータと,2dと3dの両方を包含する17のプレゼンテーションアタック(pas)を含む,幅広いシナリオとさまざまな商業センサを包含する。
この新たなデータ収集戦略は、fasデータ多様性を著しく向上させる。
WFASデータセットとプロトコル1(Known-Type)を活用して、CVPR2023ワークショップでWild Face Anti-Spoofing Challengeを開催します。
さらに,Protocol 1 とProtocol 2 (Unknown-Type) を用いた代表メソッドの評価を行った。
チャレンジ結果とベンチマーク基準を詳細に検討し,洞察に富んだ分析を行い,今後の研究への道筋を示唆する。
データセットはInsightfaceでリリースされている。 Face anti-spoofing (FAS) is an essential mechanism for safeguarding the integrity of automated face recognition systems. Despite substantial advancements, the generalization of existing approaches to real-world applications remains challenging. This limitation can be attributed to the scarcity and lack of diversity in publicly available FAS datasets, which often leads to overfitting during training or saturation during testing. In terms of quantity, the number of spoof subjects is a critical determinant. Most datasets comprise fewer than 2,000 subjects. With regard to diversity, the majority of datasets consist of spoof samples collected in controlled environments using repetitive, mechanical processes. This data collection methodology results in homogenized samples and a dearth of scenario diversity. To address these shortcomings, we introduce the Wild Face Anti-Spoofing (WFAS) dataset, a large-scale, diverse FAS dataset collected in unconstrained settings. Our dataset encompasses 853,729 images of 321,751 spoof subjects and 529,571 images of 148,169 live subjects, representing a substantial increase in quantity. Moreover, our dataset incorporates spoof data obtained from the internet, spanning a wide array of scenarios and various commercial sensors, including 17 presentation attacks (PAs) that encompass both 2D and 3D forms. This novel data collection strategy markedly enhances FAS data diversity. Leveraging the WFAS dataset and Protocol 1 (Known-Type), we host the Wild Face Anti-Spoofing Challenge at the CVPR2023 workshop. Additionally, we meticulously evaluate representative methods using Protocol 1 and Protocol 2 (Unknown-Type). Through an in-depth examination of the challenge outcomes and benchmark baselines, we provide insightful analyses and propose potential avenues for future research. The dataset is released under Insightface. | 翻訳日:2023-05-05 18:42:33 公開日:2023-05-04 |
# 雑音画像分割における限界しきい値 Marginal Thresholding in Noisy Image Segmentation ( http://arxiv.org/abs/2304.04116v2 ) ライセンス: Link先を確認 | Marcus Nordstr\"om, Henrik Hult, Atsuto Maki | (参考訳) 本研究は,ガウス場変形に基づく雑音モデルを考慮した医用画像分割におけるラベルノイズの検討である。
このようなノイズは、現実的な外観のセグメンテーションをもたらし、期待される変形が恒等写像であるという意味では偏りがないため、興味がある。
限界確率に対するサンプリングおよび閉形解の効率的な方法が提供される。
さらに,損失関数のクロスエントロピーとソフトディスに対する理論的最適解について検討し,ノイズレベルが増加するにつれてどのように分岐するかを示した。
損失関数のキャラクタリゼーションに関する最近の研究に基づき、効率的に計算できる特定の未知のしきい値を持つクロスエントロピーの解をしきい値にすることで、ソフトディースの最適解を復元できることが示されている。
これにより, クロスエントロピーをソフトディスと比較した場合のパフォーマンス低下は, 間違ったしきい値を用いて生じるのかという疑問が持ち上がる。
この仮説は、トータルセグメンタデータセットから3つの臓器区分問題に関する5倍の研究で検証され、4つの異なる雑音強度を用いて検証される。
その結果, 閾値の変化は, クロスエントロピーの性能をソフトディスより体系的に悪いものから, ソフトディスより良いものへと導くことが示唆された。 This work presents a study on label noise in medical image segmentation by considering a noise model based on Gaussian field deformations. Such noise is of interest because it yields realistic looking segmentations and because it is unbiased in the sense that the expected deformation is the identity mapping. Efficient methods for sampling and closed form solutions for the marginal probabilities are provided. Moreover, theoretically optimal solutions to the loss functions cross-entropy and soft-Dice are studied and it is shown how they diverge as the level of noise increases. Based on recent work on loss function characterization, it is shown that optimal solutions to soft-Dice can be recovered by thresholding solutions to cross-entropy with a particular a priori unknown threshold that efficiently can be computed. This raises the question whether the decrease in performance seen when using cross-entropy as compared to soft-Dice is caused by using the wrong threshold. The hypothesis is validated in 5-fold studies on three organ segmentation problems from the TotalSegmentor data set, using 4 different strengths of noise. The results show that changing the threshold leads the performance of cross-entropy to go from systematically worse than soft-Dice to similar or better results than soft-Dice. | 翻訳日:2023-05-05 18:42:04 公開日:2023-05-04 |
# スケーラブルなテーマ埋め込みによる連続ニュースストリームからの教師なしストーリー発見 Unsupervised Story Discovery from Continuous News Streams via Scalable Thematic Embedding ( http://arxiv.org/abs/2304.04099v3 ) ライセンス: Link先を確認 | Susik Yoon, Dongha Lee, Yunyi Zhang, Jiawei Han | (参考訳) 関連ニュース記事のあるストーリーをリアルタイムで発見することは、高価な人間のアノテーションなしで巨大なニュースストリームを消化するのに役立ちます。
教師なしオンラインストーリー発見のための既存の研究の一般的なアプローチは、ニュース記事を象徴的あるいはグラフベースの埋め込みで表現し、ストーリーに漸進的にクラスタ化することである。
最近の大規模言語モデルは、埋め込みをさらに改善することが期待されているが、記事にすべての情報を無差別にエンコードすることで、モデルを直接採用することは、テキストリッチで進化するニュースストリームを扱うには効果がない。
そこで本研究では,テーマの共有を考慮し,記事やストーリーを動的に表現する,既成の事前学習文エンコーダを用いたテーマ埋め込みを提案する。
教師なしのオンラインストーリー発見のアイデアを実現するために,UTORYは,テーマとタイムアウェアの動的埋め込みと,軽量なストーリーサマリーを駆使した新規な適応クラスタリングという,2つの主要な手法で導入された。
実ニュースデータセットによる徹底的な評価は、USTORYがベースラインよりも高いストーリー発見性能を達成し、さまざまなストリーミング設定に対して堅牢でスケーラブルであることを示している。 Unsupervised discovery of stories with correlated news articles in real-time helps people digest massive news streams without expensive human annotations. A common approach of the existing studies for unsupervised online story discovery is to represent news articles with symbolic- or graph-based embedding and incrementally cluster them into stories. Recent large language models are expected to improve the embedding further, but a straightforward adoption of the models by indiscriminately encoding all information in articles is ineffective to deal with text-rich and evolving news streams. In this work, we propose a novel thematic embedding with an off-the-shelf pretrained sentence encoder to dynamically represent articles and stories by considering their shared temporal themes. To realize the idea for unsupervised online story discovery, a scalable framework USTORY is introduced with two main techniques, theme- and time-aware dynamic embedding and novelty-aware adaptive clustering, fueled by lightweight story summaries. A thorough evaluation with real news data sets demonstrates that USTORY achieves higher story discovery performances than baselines while being robust and scalable to various streaming settings. | 翻訳日:2023-05-05 18:41:43 公開日:2023-05-04 |
# グラフ理論による個人学習可能性の統一的特徴付け A Unified Characterization of Private Learnability via Graph Theory ( http://arxiv.org/abs/2304.03996v2 ) ライセンス: Link先を確認 | Noga Alon, Shay Moran, Hilla Schefler, Amir Yehudayoff | (参考訳) 純粋かつ近似微分プライベート(DP)学習を特徴付ける統一的なフレームワークを提供する。
このフレームワークはグラフ理論の言語を使用する: 概念クラス $\mathcal{H}$ に対して、矛盾グラフ $G$ of $\mathcal{H}$ を定義する。
it頂点は実現可能なデータセットであり、2つのデータセット$s,s'$は、互いに矛盾した場合、エッジによって接続される(すなわち、$s$と$s'$で異なるラベルが付けられたポイント$x$がある)。
主な発見は、$g$ の組合せ構造は dp の下で $\mathcal{h}$ の学習と深く関係していることである。
純粋な DP の下で $\mathcal{H}$ を学ぶことは、分数clique の$G$ で表される。
DP で $\mathcal{H}$ を学ぶことは、clique number of $G$ で表される。
その結果,dp学習性を特徴づけるグラフ理論的次元,すなわち,クランク次元と分数的クランク次元を同定した。
その過程で、独立興味を持つかもしれない矛盾グラフの特性を明らかにする。
今後の研究にはいくつかのオープンな質問や方向性も提案する。 We provide a unified framework for characterizing pure and approximate differentially private (DP) learnabiliity. The framework uses the language of graph theory: for a concept class $\mathcal{H}$, we define the contradiction graph $G$ of $\mathcal{H}$. It vertices are realizable datasets, and two datasets $S,S'$ are connected by an edge if they contradict each other (i.e., there is a point $x$ that is labeled differently in $S$ and $S'$). Our main finding is that the combinatorial structure of $G$ is deeply related to learning $\mathcal{H}$ under DP. Learning $\mathcal{H}$ under pure DP is captured by the fractional clique number of $G$. Learning $\mathcal{H}$ under approximate DP is captured by the clique number of $G$. Consequently, we identify graph-theoretic dimensions that characterize DP learnability: the clique dimension and fractional clique dimension. Along the way, we reveal properties of the contradiction graph which may be of independent interest. We also suggest several open questions and directions for future research. | 翻訳日:2023-05-05 18:41:21 公開日:2023-05-04 |
# セマンティック・ビジュアル・プライオリティを用いた視覚と言語生成モデルの解釈 Interpreting Vision and Language Generative Models with Semantic Visual Priors ( http://arxiv.org/abs/2304.14986v2 ) ライセンス: Link先を確認 | Michele Cafagna, Lina M. Rojas-Barahona, Kees van Deemter, Albert Gatt | (参考訳) 画像からテキストへのモデルに適用すると、解釈可能性の手法はトークン毎の説明、つまり生成されたシーケンスの各トークンに対する視覚的な説明を計算する。
これらの説明は計算に高価であり、モデルの出力を包括的に説明できない。
したがって、これらのモデルは、しばしば誤解を招く説明につながる何らかの近似を必要とする。
我々は,出力列全体の意味表現を活用し,包括的かつ有意義な説明を生成できるフレームワークであるshapを開発した。
さらに,視覚バックボーンのセマンティクスプリエントを活用し,大規模モデル上でのシェープリー値の効率的な計算を可能にする任意の数の特徴を抽出し,同時に非常に有意義な視覚的説明を生成する。
提案手法は,計算コストの低い従来の手法よりも意味的に表現力に富む説明を生成し,他の説明可能性法よりも一般化できることを実証する。 When applied to Image-to-text models, interpretability methods often provide token-by-token explanations namely, they compute a visual explanation for each token of the generated sequence. Those explanations are expensive to compute and unable to comprehensively explain the model's output. Therefore, these models often require some sort of approximation that eventually leads to misleading explanations. We develop a framework based on SHAP, that allows for generating comprehensive, meaningful explanations leveraging the meaning representation of the output sequence as a whole. Moreover, by exploiting semantic priors in the visual backbone, we extract an arbitrary number of features that allows the efficient computation of Shapley values on large-scale models, generating at the same time highly meaningful visual explanations. We demonstrate that our method generates semantically more expressive explanations than traditional methods at a lower compute cost and that it can be generalized over other explainability methods. | 翻訳日:2023-05-05 18:33:49 公開日:2023-05-04 |
# 多体相互作用を持つスピンモデルにおける量子多体傷 Quantum many-body scars in spin models with multi-body interactions ( http://arxiv.org/abs/2304.13624v2 ) ライセンス: Link先を確認 | Kazuyuki Sanada, Yuan Miao, Hosho Katsura | (参考訳) 我々は、量子多体傷を示す多体相互作用を持つ量子スピンモデルのいくつかのクラスを紹介し、研究する。
モデルは2つの異なる方法によって構成される: 1つは可積分スピン鎖における境界状態を利用し、もう1つは制限スペクトル生成代数のような既存の方法の変種に基づく。
最初の方法は、フラストレーションのないシステムのプロトタイプであるMageumdar-GhoshとAffleck-Kennedy-Lieb-Tasakiモデルの変形を構築することができる。
2つ目の方法により、1次元と2次元の両方でスカラースピンキラリティを含む1$のスピンモデルの大規模なクラスを構築する。
興味深いことに、いくつかのケースでは、構築されたモデルには、異なる特徴の傷跡状態の塔がある。
それぞれの例において、そのスペクトル特性と力学特性を他の状態と比較することにより、傷跡状態と熱状態とが異なる挙動を示す。
また,第2法により構築された傷痕状態の重ね合わせは,動的に完全に周期的に回復することを示す。 We introduce and study several classes of quantum spin models with multi-body interactions that exhibit quantum many-body scars. The models are constructed by two different methods: one exploiting boundary states in integrable spin chains and the other based on a variant of existing methods such as restricted spectrum generating algebras. The first method allows us to construct deformations of the Majumdar-Ghosh and Affleck-Kennedy-Lieb-Tasaki models -- prototypes of frustration-free systems. With the second method, we construct a large class of spin-$1$ models involving scalar spin chirality in both one and two dimensions. Interestingly, in some cases, the models so constructed have towers of scar states of different character. For each example, we show that the scar states behave differently from thermal states by comparing their spectral and dynamical properties with those of other states. We also show that a superposition of the scar states constructed by the second method exhibits perfectly periodic revivals in the dynamics. | 翻訳日:2023-05-05 18:32:41 公開日:2023-05-04 |
# 学習軌跡は一般化指標である Learning Trajectories are Generalization Indicators ( http://arxiv.org/abs/2304.12579v2 ) ライセンス: Link先を確認 | Jingwen Fu, Zhizheng Zhang, Dacheng Yin, Yan Lu, Nanning Zheng | (参考訳) 本稿では,深層ニューラルネットワーク(dnn)の学習軌跡と,それに対応する一般化能力との関係について,広範に使用される勾配降下法と確率的勾配降下法を用いて検討する。
本稿では,軌道情報をモデル化するための線形近似関数を構築し,それに基づくよりリッチな軌道情報を持つ新しい一般化を提案する。
提案する一般化は,学習軌跡の複雑さと,学習集合のバイアスと多様性の比率に依存する。
実験結果から,提案手法は様々な学習段階,学習率,ラベルノイズレベルの一般化傾向を効果的に捉えていることがわかった。 The aim of this paper is to investigate the connection between learning trajectories of the Deep Neural Networks (DNNs) and their corresponding generalization capabilities when being optimized with broadly used gradient descent and stochastic gradient descent algorithms. In this paper, we construct Linear Approximation Function to model the trajectory information and we propose a new generalization bound with richer trajectory information based on it. Our proposed generalization bound relies on the complexity of learning trajectory and the ratio between the bias and diversity of training set. Experimental results indicate that the proposed method effectively captures the generalization trend across various training steps, learning rates, and label noise levels. | 翻訳日:2023-05-05 18:32:24 公開日:2023-05-04 |
# マルチパーティト凸分割による量子放送チャネルシミュレーション Quantum Broadcast Channel Simulation via Multipartite Convex Splitting ( http://arxiv.org/abs/2304.12056v2 ) ライセンス: Link先を確認 | Hao-Chung Cheng, Li Gao, Mario Berta | (参考訳) 送信者と受信者の自由絡み合い支援下での量子放送チャネルシミュレーションの通信コストは、チャネルの多部的相互情報の観点から、効率的に計算可能なシングルレター式によって漸近的に特徴付けられることを示す。
我々のコアコントリビューションは、マルチパーティイト量子状態分割のための新しいワンショット達成性結果である。
このことの一部として、任意に重複する境界を持つ量子ジョイント典型問題の一般的な例に直面している。
この困難を補う上で重要な技術的要素は概念的に新しい平均ゼロ分解補間であり、最近導入されたR'enyiの分岐体に対する複雑な補間技術も取り入れている。
さらに,通信コストがキャパシティ領域の内部にある場合,シミュレーション誤差の指数収束性を確立する。
コストが適度にキャパシティ領域の境界に近づくと、誤差が漸近的に消えることが示される。 We show that the communication cost of quantum broadcast channel simulation under free entanglement assistance between the sender and the receivers is asymptotically characterized by an efficiently computable single-letter formula in terms of the channel's multipartite mutual information. Our core contribution is a new one-shot achievability result for multipartite quantum state splitting via multipartite convex splitting. As part of this, we face a general instance of the quantum joint typicality problem with arbitrarily overlapping marginals. The crucial technical ingredient to sidestep this difficulty is a conceptually novel multipartite mean-zero decomposition lemma, together with employing recently introduced complex interpolation techniques for sandwiched R\'enyi divergences. Moreover, we establish an exponential convergence of the simulation error when the communication costs are within the interior of the capacity region. As the costs approach the boundary of the capacity region moderately quickly, we show that the error still vanishes asymptotically. | 翻訳日:2023-05-05 18:32:11 公開日:2023-05-04 |
# 対流分裂のタイトワンショット解析と量子情報理論への応用 Tight One-Shot Analysis for Convex Splitting with Applications in Quantum Information Theory ( http://arxiv.org/abs/2304.12055v2 ) ライセンス: Link先を確認 | Hao-Chung Cheng, Li Gao | (参考訳) 凸分割は、量子状態の再分配や量子ネットワークチャネル符号化といった多くの情報処理プロトコルの達成可能性を証明するために使用される量子情報理論において強力な技術である。
本研究では1ショット誤差指数と1ショット強い逆を,誤差基準としてトレース距離で分割する凸に対して確立する。
その結果、導出誤差指数(強い逆指数)が正であることと、その確率が達成可能な領域内(外側)であることが分かる。
これにより、量子無線通信、秘密鍵蒸留、ワンウェイ量子メッセージ圧縮、量子計測シミュレーション、送信機側情報による量子チャネル符号化など、様々なタスクにおける新しいワンショット指数が導かれる。
また,2次漸近現象に一致した凸分割における試料の複雑さをほぼ最適に評価した。
これにより、多くの量子情報理論タスクにおいてより強力なワンショット解析がもたらされる。 Convex splitting is a powerful technique in quantum information theory used in proving the achievability of numerous information-processing protocols such as quantum state redistribution and quantum network channel coding. In this work, we establish a one-shot error exponent and a one-shot strong converse for convex splitting with trace distance as an error criterion. Our results show that the derived error exponent (strong converse exponent) is positive if and only if the rate is in (outside) the achievable region. This leads to new one-shot exponent results in various tasks such as communication over quantum wiretap channels, secret key distillation, one-way quantum message compression, quantum measurement simulation, and quantum channel coding with side information at the transmitter. We also establish a near-optimal one-shot characterization of the sample complexity for convex splitting, which yields matched second-order asymptotics. This then leads to stronger one-shot analysis in many quantum information-theoretic tasks. | 翻訳日:2023-05-05 18:31:56 公開日:2023-05-04 |
# FineEHR: 死亡予測を改善するための臨床ノートのリファイン化 FineEHR: Refine Clinical Note Representations to Improve Mortality Prediction ( http://arxiv.org/abs/2304.11794v2 ) ライセンス: Link先を確認 | Jun Wu, Xuesong Ye, Chengjie Mou and Weinan Dai | (参考訳) 集中治療室(ICU)患者の健康状態のモニタリングは、優れたケアと治療を提供する上で重要な側面である。
大規模電子健康記録(ehr)の可用性は、臨床テキストとバイタルサインデータを豊富に含む機械学習モデルを提供し、高精度な予測を可能にする。
臨床ノート分析のための高度な自然言語処理(NLP)アルゴリズムの出現にもかかわらず、生臨床データに存在する複雑なテキスト構造とノイズは重大な課題となっている。
ドメイン固有の洗練のない粗い埋め込みアプローチは、これらのアルゴリズムの精度を制限している。
そこで本研究では,2つの表現学習技術,すなわちメートル法学習と微調整を併用したFINEEHRを用いて,異なる健康状態とノートカテゴリーの内在的相関を生かしながら,臨床ノートの埋め込みを洗練させるシステムを提案する。
実世界のMIMIC IIIデータセットを用いて,AUC(Area Under the Curve)とAUC-PRの2つの指標を用いてFINEEHRの性能を評価する。
実験結果から,両改良法が予測精度を向上し,それらの組み合わせが最良の結果をもたらすことが示された。
さらに, 提案手法は, aucが10%以上向上し, 平均 auc が96.04%, auc-pr が96.48%, auc-pr が96.48%となった。 Monitoring the health status of patients in the Intensive Care Unit (ICU) is a critical aspect of providing superior care and treatment. The availability of large-scale electronic health records (EHR) provides machine learning models with an abundance of clinical text and vital sign data, enabling them to make highly accurate predictions. Despite the emergence of advanced Natural Language Processing (NLP) algorithms for clinical note analysis, the complex textual structure and noise present in raw clinical data have posed significant challenges. Coarse embedding approaches without domain-specific refinement have limited the accuracy of these algorithms. To address this issue, we propose FINEEHR, a system that utilizes two representation learning techniques, namely metric learning and fine-tuning, to refine clinical note embeddings, while leveraging the intrinsic correlations among different health statuses and note categories. We evaluate the performance of FINEEHR using two metrics, namely Area Under the Curve (AUC) and AUC-PR, on a real-world MIMIC III dataset. Our experimental results demonstrate that both refinement approaches improve prediction accuracy, and their combination yields the best results. Moreover, our proposed method outperforms prior works, with an AUC improvement of over 10%, achieving an average AUC of 96.04% and an average AUC-PR of 96.48% across various classifiers. | 翻訳日:2023-05-05 18:31:38 公開日:2023-05-04 |
# 実顔自己摂動のみを用いた逆顔検出 Detecting Adversarial Faces Using Only Real Face Self-Perturbations ( http://arxiv.org/abs/2304.11359v2 ) ライセンス: Link先を確認 | Qian Wang, Yongqin Xian, Hefei Ling, Jinyuan Zhang, Xiaorui Lin, Ping Li, Jiazhong Chen, Ning Yu | (参考訳) 敵の攻撃は、入力サンプルに特定のノイズを追加してターゲットシステムの機能を阻害することを目的としており、顔認識システムに適用された場合のセキュリティと堅牢性に潜在的な脅威をもたらす。
既存の防御技術は、特定の対向顔(adv面)の検出において高い精度を達成するが、新しい攻撃方法、特に全く異なるノイズパターンを持つGANベースの攻撃はそれらを回避し、より高い攻撃成功率に達する。
さらに悪いことに、既存の技術は防御を実装する前に攻撃データを必要とするため、防御者には見えない新たな攻撃を防衛することは現実的ではない。
本稿では,3つのヒューリスティックなノイズパターンを持つ実顔を摂動させることにより,adv面の固有一般性を検証し,擬似adv面を生成することを提案する。
実顔と自己摂動のみを使用してadv顔検出を訓練し、被害者の顔認証システムに無関係であり、目に見えない攻撃に無関係である。
そこで本研究では,adv-facesを分散データとして扱うことにより,異常局所色収差に着目したデータ自己摂動,決定境界正規化,最大プール型2値分類器からなる新しいadv-face検出用カスケードシステムを提案する。
LFWとCelebA-HQの8つの勾配ベースと2つのGANベースの攻撃を用いた実験により、本手法が様々な未知の敵攻撃に一般化できることが確認された。 Adversarial attacks aim to disturb the functionality of a target system by adding specific noise to the input samples, bringing potential threats to security and robustness when applied to facial recognition systems. Although existing defense techniques achieve high accuracy in detecting some specific adversarial faces (adv-faces), new attack methods especially GAN-based attacks with completely different noise patterns circumvent them and reach a higher attack success rate. Even worse, existing techniques require attack data before implementing the defense, making it impractical to defend newly emerging attacks that are unseen to defenders. In this paper, we investigate the intrinsic generality of adv-faces and propose to generate pseudo adv-faces by perturbing real faces with three heuristically designed noise patterns. We are the first to train an adv-face detector using only real faces and their self-perturbations, agnostic to victim facial recognition systems, and agnostic to unseen attacks. By regarding adv-faces as out-of-distribution data, we then naturally introduce a novel cascaded system for adv-face detection, which consists of training data self-perturbations, decision boundary regularization, and a max-pooling-based binary classifier focusing on abnormal local color aberrations. Experiments conducted on LFW and CelebA-HQ datasets with eight gradient-based and two GAN-based attacks validate that our method generalizes to a variety of unseen adversarial attacks. | 翻訳日:2023-05-05 18:31:11 公開日:2023-05-04 |
# 自己指導型学習と情報理論を圧縮するか否か : レビュー To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review ( http://arxiv.org/abs/2304.09355v3 ) ライセンス: Link先を確認 | Ravid Shwartz-Ziv and Yann LeCun | (参考訳) ディープニューラルネットワークは教師付き学習タスクにおいて顕著な性能を示しているが、大量のラベル付きデータを必要とする。
自己組織化学習は代替のパラダイムを提供し、明示的なラベルなしでモデルがデータから学習できるようにする。
情報理論はディープニューラルネットワークの理解と最適化に役立っている。
具体的には、情報ボトルネック原理を適用し、教師付き設定における圧縮と関連する情報保存のトレードオフを最適化する。
しかし,自己教師付き学習における最適な情報目標はいまだ不明である。
本稿では,情報理論の観点からの自己教師型学習への様々なアプローチをレビューし,自己教師型情報理論学習問題を定式化する統一フレームワークを提案する。
既存の研究をコヒーレントなフレームワークに統合し、最近の自己監督手法を調査し、研究の機会と課題を特定します。
さらに,情報理論量とその推定器の実証測定について論じる。
本稿では,情報理論,自己教師付き学習,深層ニューラルネットワークの交点を網羅的に検討する。 Deep neural networks have demonstrated remarkable performance in supervised learning tasks but require large amounts of labeled data. Self-supervised learning offers an alternative paradigm, enabling the model to learn from data without explicit labels. Information theory has been instrumental in understanding and optimizing deep neural networks. Specifically, the information bottleneck principle has been applied to optimize the trade-off between compression and relevant information preservation in supervised settings. However, the optimal information objective in self-supervised learning remains unclear. In this paper, we review various approaches to self-supervised learning from an information-theoretic standpoint and present a unified framework that formalizes the self-supervised information-theoretic learning problem. We integrate existing research into a coherent framework, examine recent self-supervised methods, and identify research opportunities and challenges. Moreover, we discuss empirical measurement of information-theoretic quantities and their estimators. This paper offers a comprehensive review of the intersection between information theory, self-supervised learning, and deep neural networks. | 翻訳日:2023-05-05 18:30:43 公開日:2023-05-04 |
# ChatGPTは入門レベルの関数型言語プログラミングコースをパスできるか? Can ChatGPT Pass An Introductory Level Functional Language Programming Course? ( http://arxiv.org/abs/2305.02230v2 ) ライセンス: Link先を確認 | Chuqin Geng, Yihan Zhang, Brigitte Pientka, Xujie Si | (参考訳) chatgptの最近の導入は、言語翻訳、テキスト要約、コンピュータプログラミングなど、さまざまなタスクを解決できるという印象的な能力によって、業界とアカデミアの両方から大きな注目を集めている。
コードを書き、修正し、修正する能力と使いやすさ、アクセス性は、すでにコンピュータサイエンス教育に劇的に影響を与えています。
本稿では,ChatGPTが導入レベルの関数型言語プログラミングコースでどのように機能するかを検討する。
システム評価では,chatgptを学生の1人として扱い,b級の成績が得られ,全学生314名中155名であることを示した。
総合的な評価は、ChatGPTが学生とインストラクターの両方に与える影響についての貴重な洞察を提供する。
さらに、ChatGPTが両グループに提供できる潜在的なメリットをいくつか挙げる。
全体として、この研究はChatGPTの能力と潜在的なコンピュータサイエンス教育への影響についての理解を深めるものであると信じている。 The recent introduction of ChatGPT has drawn significant attention from both industry and academia due to its impressive capabilities in solving a diverse range of tasks, including language translation, text summarization, and computer programming. Its capability for writing, modifying, and even correcting code together with its ease of use and access is already dramatically impacting computer science education. This paper aims to explore how well ChatGPT can perform in an introductory-level functional language programming course. In our systematic evaluation, we treated ChatGPT as one of our students and demonstrated that it can achieve a grade B- and its rank in the class is 155 out of 314 students overall. Our comprehensive evaluation provides valuable insights into ChatGPT's impact from both student and instructor perspectives. Additionally, we identify several potential benefits that ChatGPT can offer to both groups. Overall, we believe that this study significantly clarifies and advances our understanding of ChatGPT's capabilities and potential impact on computer science education. | 翻訳日:2023-05-05 18:22:20 公開日:2023-05-04 |
# 未知多様体上の潜在構造ネットワークにおける半教師付き回帰 Semisupervised regression in latent structure networks on unknown manifolds ( http://arxiv.org/abs/2305.02473v1 ) ライセンス: Link先を確認 | Aranyak Acharyya, Joshua Agterberg, Michael W. Trosset, Youngser Park, Carey E. Priebe | (参考訳) ランダムグラフは、幅広いアプリケーションにおけるモデリングネットワークの関心の対象になりつつある。
潜位ランダムグラフモデルは、各ノードが潜位ベクトルと関連付けられ、これらのベクトルは潜位空間の幾何構造に従うことを仮定する。
本稿では,各潜在位置の内積によって与えられる確率を持つ2つのノードの間にエッジが形成されるランダムドット積グラフについて考察する。
潜在位置ベクトルは未知の一次元曲線上にあり、回帰モデルを介して応答共変量と結合していると仮定する。
基礎となる潜在位置ベクトルの幾何構造を用いて,各ノードの応答変数を予測するための多様体学習およびグラフ埋め込み手法を提案し,これらの応答に対する収束保証を確立する。
我々の理論的結果はシミュレーションとショウジョウバエ脳データへの応用によって支持されている。 Random graphs are increasingly becoming objects of interest for modeling networks in a wide range of applications. Latent position random graph models posit that each node is associated with a latent position vector, and that these vectors follow some geometric structure in the latent space. In this paper, we consider random dot product graphs, in which an edge is formed between two nodes with probability given by the inner product of their respective latent positions. We assume that the latent position vectors lie on an unknown one-dimensional curve and are coupled with a response covariate via a regression model. Using the geometry of the underlying latent position vectors, we propose a manifold learning and graph embedding technique to predict the response variable on out-of-sample nodes, and we establish convergence guarantees for these responses. Our theoretical results are supported by simulations and an application to Drosophila brain data. | 翻訳日:2023-05-05 17:37:32 公開日:2023-05-04 |
# 海事領域における確率的知識グラフの自動構築に向けて Toward the Automated Construction of Probabilistic Knowledge Graphs for the Maritime Domain ( http://arxiv.org/abs/2305.02471v1 ) ライセンス: Link先を確認 | Fatemeh Shiri, Teresa Wang, Shirui Pan, Xiaojun Chang, Yuan-Fang Li, Reza Haffari, Van Nguyen, Shuang Yu | (参考訳) 国際海事犯罪はますます高度化しており、しばしばより広範な犯罪ネットワークと結びついている。
物理的な動き(物理的センサーやハードデータによって生成されたもの)と純粋に関連するデータを融合させることで海洋の脅威を検出することは十分ではない。
これにより、ハードデータと他の種類のデータ(特に人造データやソフトデータ)を組み合わせる研究や開発が進められている。
既存の作業では、入力されたソフトデータが構造化されたフォーマットで利用可能であると仮定したり、ハードデータを添付したり注釈付けしたりするための特定の関連するエンティティや概念の抽出に重点を置いている場合が多い。
非構造化形式(インテリジェンスレポートやニュース記事など)に存在する大量のソフトデータに暗黙的に埋め込まれた関心のある状況に関する豊富な知識を抽出することにはあまり注意が払われていない。
このような情報源から潜在的に有用で豊富な情報を活用するためには、関連する実体や概念だけでなく、その意味関係も抽出された知識(確率的知識グラフの形で)に関連する不確実性とともに抽出する必要がある。
これにより、抽出された知識の正確性と信頼性を高め、その後の推論と学習を促進する。
そこで本研究では,海洋領域の自然言語データから確率的知識グラフを自動構築するためのプロトタイプであるMaritime DeepDiveを提案する。
本稿では,海事海賊事件から発生した確率的事象の抽出に関する予備的な結果とともに,海事深層調査の実施状況について報告する。
このパイプラインは手作業による金の標準で評価され、有望な結果を得た。 International maritime crime is becoming increasingly sophisticated, often associated with wider criminal networks. Detecting maritime threats by means of fusing data purely related to physical movement (i.e., those generated by physical sensors, or hard data) is not sufficient. This has led to research and development efforts aimed at combining hard data with other types of data (especially human-generated or soft data). Existing work often assumes that input soft data is available in a structured format, or is focused on extracting certain relevant entities or concepts to accompany or annotate hard data. Much less attention has been given to extracting the rich knowledge about the situations of interest implicitly embedded in the large amount of soft data existing in unstructured formats (such as intelligence reports and news articles). In order to exploit the potentially useful and rich information from such sources, it is necessary to extract not only the relevant entities and concepts but also their semantic relations, together with the uncertainty associated with the extracted knowledge (i.e., in the form of probabilistic knowledge graphs). This will increase the accuracy of and confidence in, the extracted knowledge and facilitate subsequent reasoning and learning. To this end, we propose Maritime DeepDive, an initial prototype for the automated construction of probabilistic knowledge graphs from natural language data for the maritime domain. In this paper, we report on the current implementation of Maritime DeepDive, together with preliminary results on extracting probabilistic events from maritime piracy incidents. This pipeline was evaluated on a manually crafted gold standard, yielding promising results. | 翻訳日:2023-05-05 17:37:00 公開日:2023-05-04 |
# 交通信号分類器の多重性向上:ExoMinerの多重性ブーストを用いた69個の新しい太陽系外惑星の検証 Multiplicity Boost Of Transit Signal Classifiers: Validation of 69 New Exoplanets Using The Multiplicity Boost of ExoMiner ( http://arxiv.org/abs/2305.02470v1 ) ライセンス: Link先を確認 | Hamed Valizadegan, Miguel J. S. Martinho, Jon M. Jenkins, Douglas A. Caldwell, Joseph D. Twicken, Stephen T. Bryson | (参考訳) 既存の太陽系外惑星のほとんどは、補完的な観測によって確認されるのではなく、検証技術を用いて発見されている。
これらの手法は、その信号に関連する情報(xで表される)を与えられた外惑星(y(x)=外惑星)である遷移信号の確率であるスコアを生成する。
多重度情報を用いてこれらの確率スコアを生成するRowe et al. (2014)の検証手法を除いて、既存の検証手法は多重度アップ情報を無視する。
本稿では,既存のトランジット信号vetter (classifier) を与えられた場合,多重性情報による性能向上を前提とした枠組みを提案する。
我々は、このフレームワークを、vespa (Morton et al. 2016), Robovetter (Coughlin et al. 2017), AstroNet (Shallue & Vanderburg 2018), ExoNet (Ansdel et al. 2018), GPC and RFC (Armstrong et al. 2020), ExoMiner (Valizadegan et al. 2022)など、既存の分類器に適用して、このフレームワークが与えられた分類器のパフォーマンスを向上できると主張する。
次に、提案したExoMiner V1.2の多重化促進フレームワークを使用し、元のExoMiner分類器(Valizadegan et al. 2022)の欠点に対処し、ケプラーカタログから複数のKOIを持つ系に対して69個の新しい太陽系外惑星を検証する。 Most existing exoplanets are discovered using validation techniques rather than being confirmed by complementary observations. These techniques generate a score that is typically the probability of the transit signal being an exoplanet (y(x)=exoplanet) given some information related to that signal (represented by x). Except for the validation technique in Rowe et al. (2014) that uses multiplicity information to generate these probability scores, the existing validation techniques ignore the multiplicity boost information. In this work, we introduce a framework with the following premise: given an existing transit signal vetter (classifier), improve its performance using multiplicity information. We apply this framework to several existing classifiers, which include vespa (Morton et al. 2016), Robovetter (Coughlin et al. 2017), AstroNet (Shallue & Vanderburg 2018), ExoNet (Ansdel et al. 2018), GPC and RFC (Armstrong et al. 2020), and ExoMiner (Valizadegan et al. 2022), to support our claim that this framework is able to improve the performance of a given classifier. We then use the proposed multiplicity boost framework for ExoMiner V1.2, which addresses some of the shortcomings of the original ExoMiner classifier (Valizadegan et al. 2022), and validate 69 new exoplanets for systems with multiple KOIs from the Kepler catalog. | 翻訳日:2023-05-05 17:36:35 公開日:2023-05-04 |
# システムモデルとユーザモデル:AIダッシュボード設計の探求 The System Model and the User Model: Exploring AI Dashboard Design ( http://arxiv.org/abs/2305.02469v1 ) ライセンス: Link先を確認 | Fernanda Vi\'egas and Martin Wattenberg | (参考訳) これはインターフェース設計と人工知能に関する投機的なエッセイです。
近年,大きな言語モデルに基づくチャットボットへの注目が高まっている。
高度なAIシステムは、他のすべての複雑なデバイスと同じように、ダッシュボードを持つべきです。
ニューラルネットワークに基づくaiシステムは、周囲の世界の解釈可能なモデルを含むという仮説を仮定し、このようなダッシュボードが表示するデータについて論じる。
多くのシステムにとって、最も重要な2つのモデルはユーザーとシステム自体のものであると推測する。
これをシステムモデルとユーザモデルと呼びます。
ユーザビリティと安全性のために、対話型AIシステムへのインタフェースは、システムモデルとユーザモデルの状態に基づく並列ディスプレイを持つべきである、と我々は主張する。
これら2つのモデルを識別し、解釈し、表示する方法を見つけることは、AIのためのインターフェース研究のコア部分であるべきです。 This is a speculative essay on interface design and artificial intelligence. Recently there has been a surge of attention to chatbots based on large language models, including widely reported unsavory interactions. We contend that part of the problem is that text is not all you need: sophisticated AI systems should have dashboards, just like all other complicated devices. Assuming the hypothesis that AI systems based on neural networks will contain interpretable models of aspects of the world around them, we discuss what data such dashboards might display. We conjecture that, for many systems, the two most important models will be of the user and of the system itself. We call these the System Model and User Model. We argue that, for usability and safety, interfaces to dialogue-based AI systems should have a parallel display based on the state of the System Model and the User Model. Finding ways to identify, interpret, and display these two models should be a core part of interface research for AI. | 翻訳日:2023-05-05 17:36:01 公開日:2023-05-04 |
# タスク指向対話システムのためのタスク最適化アダプタ Task-Optimized Adapters for an End-to-End Task-Oriented Dialogue System ( http://arxiv.org/abs/2305.02468v1 ) ライセンス: Link先を確認 | Namo Bang, Jeehyun Lee, Myoung-Wan Koo | (参考訳) タスク指向対話(tod)システムは、対話状態を追跡し、ユーザが定義された目標を達成するのに役立つ適切な応答を生成することによって、特定のタスクを実行するように設計されている。
近年,大規模データセットに基づいて事前学習したエンドツーエンド対話モデルは,対話システムにおいて有望な性能を示した。
しかし、対話システムのタスク(NLU、DST、NLG)をトレーニングするために同じパラメータを共有するため、各タスクのデバッグは困難である。
また、タスク指向のチャットボットを作成するために、大きなパラメータを微調整するのに多くの労力を必要とします。
したがって、PLMと比較して比較的軽量で高速なモデルを訓練する。
本稿では,タスクごとの学習を個別に行うタスク最適化アダプタを用いたエンドツーエンドTODシステムを提案する。
また,強化学習によるdstおよびnlgモジュールの性能向上,アダプタ学習の欠如した学習曲線の克服,目標に適した自然かつ一貫した応答生成を実現している。
提案手法はモデルに依存しない手法であり,プロンプトを使わずに入力データのみをプロンプトチューニングする必要がない。
実験の結果,既存のエンドツーエンドモデルと比較して,MultiWOZベンチマーク上での競合性能を示した。
特に、2.2データセットのDSTタスクで最先端のパフォーマンスを得る。 Task-Oriented Dialogue (TOD) systems are designed to carry out specific tasks by tracking dialogue states and generating appropriate responses to help users achieve defined goals. Recently, end-to-end dialogue models pre-trained based on large datasets have shown promising performance in the conversational system. However, they share the same parameters to train tasks of the dialogue system (NLU, DST, NLG), so debugging each task is challenging. Also, they require a lot of effort to fine-tune large parameters to create a task-oriented chatbot, making it difficult for non-experts to handle. Therefore, we intend to train relatively lightweight and fast models compared to PLM. In this paper, we propose an End-to-end TOD system with Task-Optimized Adapters which learn independently per task, adding only small number of parameters after fixed layers of pre-trained network. We also enhance the performance of the DST and NLG modules through reinforcement learning, overcoming the learning curve that has lacked at the adapter learning and enabling the natural and consistent response generation that is appropriate for the goal. Our method is a model-agnostic approach and does not require prompt-tuning as only input data without a prompt. As results of the experiment, our method shows competitive performance on the MultiWOZ benchmark compared to the existing end-to-end models. In particular, we attain state-of-the-art performance on the DST task of 2.2 dataset. | 翻訳日:2023-05-05 17:35:48 公開日:2023-05-04 |
# 人間-言語モデル相互作用による否定的思考の認知的リフレーミング Cognitive Reframing of Negative Thoughts through Human-Language Model Interaction ( http://arxiv.org/abs/2305.02466v1 ) ライセンス: Link先を確認 | Ashish Sharma, Kevin Rushton, Inna Wanyin Lin, David Wadden, Khendra G. Lucas, Adam S. Miner, Theresa Nguyen, Tim Althoff | (参考訳) 否定的思考を克服する実証された治療法は、より希望的な「再編成された思考」に置き換えることである。
セラピーは、人々がこの否定的思考の認知的リフレーミング(Cognitive Reframing of Negative Thoughts)を実践し、学習するのに役立つが、クリニックの不足とメンタルヘルスの汚名は通常、治療へのアクセスを制限する。
本稿では,言語モデルが否定的思考の反映にどのように役立つのかを人間中心で検討する。
心理学文献に基づいて,思考の再構築に使用できる7つの言語属性の枠組みを定義した。
これらの属性を自動測定し、メンタルヘルス実践者の専門家による判断で評価する。
実践者から600の状況、思考、リフレームのデータセットを収集し、このデータセットを使用して、リフレームされた思考を効果的に生成し、言語特性を制御する検索強化されたインコンテキスト学習モデルを訓練する。
ハイクオリティ」なリフレームを構成するものを調査するために,2000名以上の参加者を擁する大規模メンタルヘルスウェブサイト上で,irb認定ランダムフィールドスタディを実施した。
他の発見の中で、過度に肯定的なリフレームとは対照的に、人々は共感的あるいは特定のリフレームを好む。
本研究は, 否定的思考を克服する上で, LMの使用が重要な意味を持つことを示す。 A proven therapeutic technique to overcome negative thoughts is to replace them with a more hopeful "reframed thought." Although therapy can help people practice and learn this Cognitive Reframing of Negative Thoughts, clinician shortages and mental health stigma commonly limit people's access to therapy. In this paper, we conduct a human-centered study of how language models may assist people in reframing negative thoughts. Based on psychology literature, we define a framework of seven linguistic attributes that can be used to reframe a thought. We develop automated metrics to measure these attributes and validate them with expert judgements from mental health practitioners. We collect a dataset of 600 situations, thoughts and reframes from practitioners and use it to train a retrieval-enhanced in-context learning model that effectively generates reframed thoughts and controls their linguistic attributes. To investigate what constitutes a "high-quality" reframe, we conduct an IRB-approved randomized field study on a large mental health website with over 2,000 participants. Amongst other findings, we show that people prefer highly empathic or specific reframes, as opposed to reframes that are overly positive. Our findings provide key implications for the use of LMs to assist people in overcoming negative thoughts. | 翻訳日:2023-05-05 17:35:27 公開日:2023-05-04 |
# AutoML-GPT: GPTによる自動機械学習 AutoML-GPT: Automatic Machine Learning with GPT ( http://arxiv.org/abs/2305.02499v1 ) ライセンス: Link先を確認 | Shujian Zhang, Chengyue Gong, Lemeng Wu, Xingchao Liu, Mingyuan Zhou | (参考訳) AIタスクは、広範囲のドメインとフィールドを含んでいる。
多くのAIモデルは特定のタスクやアプリケーションのために設計されているが、適切なモデルアーキテクチャ、最適化アルゴリズム、ハイパーパラメータを見つけるのにかなりの努力を必要とすることが多い。
ChatGPTのような大規模言語モデル(LLM)の最近の進歩は、推論、理解、相互作用の様々な側面において顕著な能力を示している。
そこで我々は,タスク指向のプロンプトを開発し,LLMを自動で学習パイプラインの自動化に活用する。
この概念を実現するために,多様なAIモデルへのブリッジとしてGPTを用いたAutoML-GPTを提案する。
AutoML-GPTは、モデルとデータカードからのユーザ要求を動的に受け取り、対応するプロンプト段落を構成する。
最終的に、このプロンプト文でAutoML-GPTは、データ処理からモデルアーキテクチャ、ハイパーパラメータチューニング、予測トレーニングログまで、自動で実験を行う。
{\ours}の堅牢な言語機能と利用可能なAIモデルを活用することで、AutoML-GPTはさまざまなタスクやデータセットにわたる複雑なAIタスクに取り組むことができる。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
大規模な実験とアブレーション研究は、我々の手法が多くのAIタスクに対して汎用的で効果的で有益であることを示した。 AI tasks encompass a wide range of domains and fields. While numerous AI models have been designed for specific tasks and applications, they often require considerable human efforts in finding the right model architecture, optimization algorithm, and hyperparameters. Recent advances in large language models (LLMs) like ChatGPT show remarkable capabilities in various aspects of reasoning, comprehension, and interaction. Consequently, we propose developing task-oriented prompts and automatically utilizing LLMs to automate the training pipeline. To implement this concept, we present the AutoML-GPT, which employs GPT as the bridge to diverse AI models and dynamically trains models with optimized hyperparameters. AutoML-GPT dynamically takes user requests from the model and data cards and composes the corresponding prompt paragraph. Ultimately, with this prompt paragraph, AutoML-GPT will automatically conduct the experiments from data processing to model architecture, hyperparameter tuning, and predicted training log. By leveraging {\ours}'s robust language capabilities and the available AI models, AutoML-GPT can tackle numerous intricate AI tasks across various tasks and datasets. This approach achieves remarkable results in computer vision, natural language processing, and other challenging areas. Extensive experiments and ablation studies demonstrate that our method can be general, effective, and beneficial for many AI tasks. | 翻訳日:2023-05-05 17:28:34 公開日:2023-05-04 |
# 異常検出のためのグラフコントラスト学習の再検討 Revisiting Graph Contrastive Learning for Anomaly Detection ( http://arxiv.org/abs/2305.02496v1 ) ライセンス: Link先を確認 | Zhiyuan Liu, Chunjie Cao, Fangjian Tao and Jingzhang Sun | (参考訳) グラフニューラルネットワーク(gnns)と対比学習を組み合わせた異常検出が注目されている。
既存のグラフコントラスト検出法(GCAD)は,グラフ拡張とマルチスケールコントラストモジュールによる検出能力の向上に重点を置いている。
しかしながら、これらのモジュールの動作のメカニズムは十分に解明されていない。
我々は,マルチスケールおよびグラフ拡張機構について考察し,マルチスケールコントラストモジュールは表現を増強しないのに対し,マルチgnnモジュールは隠れた寄与者であることを確認した。
これまでの研究は、マルチGNNのメリットをマルチスケールモジュールにもたらす傾向があった。
本稿では,この誤解を深く掘り下げ,従来のGCAD手法を自己監督的視点で統一したマルチGNNおよびAugmented GraphコントラストフレームワークMAGを提案する。
MAGフレームワークからL-MAGとM-MAGの2つの変種を抽出した。
L-MAGはMAGの軽量なインスタンスであり、コラの最先端技術より優れ、計算コストも低い。
マルチGNNモジュールを備えたM-MAGは検出性能をさらに向上させる。
本研究は,既存のGCAD手法の欠点に光を当て,マルチGNNおよびグラフ拡張モジュールの可能性を示す。
私たちのコードはhttps://github.com/liuyishoua/mag-frameworkで利用可能です。 Combining Graph neural networks (GNNs) with contrastive learning for anomaly detection has drawn rising attention recently. Existing graph contrastive anomaly detection (GCAD) methods have primarily focused on improving detection capability through graph augmentation and multi-scale contrast modules. However, the underlying mechanisms of how these modules work have not been fully explored. We dive into the multi-scale and graph augmentation mechanism and observed that multi-scale contrast modules do not enhance the expression, while the multi-GNN modules are the hidden contributors. Previous studies have tended to attribute the benefits brought by multi-GNN to the multi-scale modules. In the paper, we delve into the misconception and propose Multi-GNN and Augmented Graph contrastive framework MAG, which unified the existing GCAD methods in the contrastive self-supervised perspective. We extracted two variants from the MAG framework, L-MAG and M-MAG. The L-MAG is the lightweight instance of the MAG, which outperform the state-of-the-art on Cora and Pubmed with the low computational cost. The variant M-MAG equipped with multi-GNN modules further improve the detection performance. Our study sheds light on the drawback of the existing GCAD methods and demonstrates the potential of multi-GNN and graph augmentation modules. Our code is available at https://github.com/liuyishoua/MAG-Framework. | 翻訳日:2023-05-05 17:28:10 公開日:2023-05-04 |
# RCP-RF: 運転リスクポテンシャルに基づく総合道路交通歩行者リスクマネジメントフレームワーク RCP-RF: A Comprehensive Road-car-pedestrian Risk Management Framework based on Driving Risk Potential Field ( http://arxiv.org/abs/2305.02493v1 ) ライセンス: Link先を確認 | Shuhang Tan, Zhiling Wang and Yan Zhong | (参考訳) 近年、交通事故の急増が見られ、自動車事故、特にAV技術のリスクアセスメントの枠組みにおいて自動車事故を減らすための自動車技術の研究が盛んに進められている。
しかし、既存の時間ベースのフレームワークは複雑なトラフィックシナリオを処理できず、各移動物体がリスク分布に与える影響を無視し、パフォーマンスが低下する。
そこで本研究では,道路交通リスク管理を統合した道路交通リスク管理フレームワークに歩行者リスク指標を組み込んだ,コネクテッド・アンド・オートマチック・ビークル(CAV)環境下での電位場理論に基づく総合運転リスク管理フレームワーク RCP-RF を提案する。
提案手法では,既存のアルゴリズムと異なり,自走車と障害物車の移動傾向と歩行者要因が正当に考慮され,運転リスクモデルの性能向上が期待できる。
さらに,提案手法では時間複雑性のo(n2)のみを必要とする。
実世界のデータセットNGSIMおよび実AVプラットフォーム上での最先端手法に対する提案手法の優位性を検証する実証的研究を行った。 Recent years have witnessed the proliferation of traffic accidents, which led wide researches on Automated Vehicle (AV) technologies to reduce vehicle accidents, especially on risk assessment framework of AV technologies. However, existing time-based frameworks can not handle complex traffic scenarios and ignore the motion tendency influence of each moving objects on the risk distribution, leading to performance degradation. To address this problem, we novelly propose a comprehensive driving risk management framework named RCP-RF based on potential field theory under Connected and Automated Vehicles (CAV) environment, where the pedestrian risk metric are combined into a unified road-vehicle driving risk management framework. Different from existing algorithms, the motion tendency between ego and obstacle cars and the pedestrian factor are legitimately considered in the proposed framework, which can improve the performance of the driving risk model. Moreover, it requires only O(N 2) of time complexity in the proposed method. Empirical studies validate the superiority of our proposed framework against state-of-the-art methods on real-world dataset NGSIM and real AV platform. | 翻訳日:2023-05-05 17:27:48 公開日:2023-05-04 |
# 不確実性定量化を伴う危険臓器の自己教師付き学習と腫瘍分節 Self-Supervised Learning for Organs At Risk and Tumor Segmentation with Uncertainty Quantification ( http://arxiv.org/abs/2305.02491v1 ) ライセンス: Link先を確認 | Ilkin Isler, Debesh Jha, Curtis Lisle, Justin Rineer, Patrick Kelly, Bulent Aydogan, Mohamed Abazeed, Damla Turgut, Ulas Bagci | (参考訳) 本研究の目的は,臓器疾患(OAR)に対するトランスフォーマーの自己指導的事前訓練と腫瘍の分節化が,費用がかかる完全教師付き学習と比較して与える影響を明らかにすることである。
提案アルゴリズムはモンテカルロ変換器ベースU-Net (MC-Swin-U) と呼ばれる。
他の多くのモデルとは異なり、このアプローチはモンテカルロドロップアウト戦略による不確実性定量化を示しながら、voxel-wise予測を生成する。
一般および1つのプライベートデータセット上で提案モデルの検証と検証を行い,gtv(gross tumor volume)および近接危険臓器境界の評価を行った。
自己教師付き事前学習アプローチは,大規模なアノテーションコストを回避するための付加的なメリットを提供しつつ,セグメント化スコアを大幅に向上させる。 In this study, our goal is to show the impact of self-supervised pre-training of transformers for organ at risk (OAR) and tumor segmentation as compared to costly fully-supervised learning. The proposed algorithm is called Monte Carlo Transformer based U-Net (MC-Swin-U). Unlike many other available models, our approach presents uncertainty quantification with Monte Carlo dropout strategy while generating its voxel-wise prediction. We test and validate the proposed model on both public and one private datasets and evaluate the gross tumor volume (GTV) as well as nearby risky organs' boundaries. We show that self-supervised pre-training approach improves the segmentation scores significantly while providing additional benefits for avoiding large-scale annotation costs. | 翻訳日:2023-05-05 17:27:27 公開日:2023-05-04 |
# 超伝導回路におけるトポロジーと局在の相互作用 Interplay between topology and localization on superconducting circuits ( http://arxiv.org/abs/2305.02486v1 ) ライセンス: Link先を確認 | Xin Guan, Gang Chen | (参考訳) トポロジカル絶縁体は凝縮物質物理学の最前線にある。
しかし、強い障害はトポロジカルな状態を破壊し、全ての状態が局所化される。
本稿では,超伝導回路上の準周期変調を制御可能な一次元Su-Schrieffer-Heegerモデルにおける位相と局在の競合について検討する。
外部交流磁束を利用することで、各トランスモンを駆動でき、全ての結合強度を独立して調整できる。
このモデルに基づき、位相的非自明で臨界局在性が拡張され、位相的および臨界局在性が共存する位相図を構築する。
本稿では、量子ビットの励起のダイナミクスについても論じ、トポロジーと局在の相互作用から生じる量子状態転移を明らかにした。
さらに,現在の実験装置を用いて異なる量子位相を検出する手法を提案する。 Topological insulator lie at the forefront of condensed matter physics. However strong disorder can destroy the topological states and make all states become localized. In this paper, we investigate the competition between topology and localization in the one-dimensional Su-Schrieffer-Heeger (SSH) model with controllable off-diagonal quasi-periodic modulations on superconducting circuits. By utilizing external ac magnetic fluxes, each transmon can be driven and all coupling strengths can be tuned independently. Based on this model we construct phase diagrams that illustrate the extended topologically nontrivial, critical localization, and coexisting topological and critical localization phases. The dynamics of the qubits' excitations are also discussed in this paper, revealing distinct quantum state transfers resulting from the interplay between topology and localization. Furthermore, we propose a method for detecting different quantum phases using current experimental setups. | 翻訳日:2023-05-05 17:27:13 公開日:2023-05-04 |
# 今後の電力市場設計に強化学習をどう活用するか
第1部 パラダイム理論 How to Use Reinforcement Learning to Facilitate Future Electricity Market Design? Part 1: A Paradigmatic Theory ( http://arxiv.org/abs/2305.02485v1 ) ライセンス: Link先を確認 | Ziqing Zhu, Siqi Bu, Ka Wing Chan, Bin Zhou, Shiwei Xia | (参考訳) 電力部門における脱炭の必要性が強まる中、再生可能世代への高浸透に対処し、電力系統の安全、経済効率、環境に優しくするためのマルコレベルのアプローチとして、電力市場の再設計が必要である。
しかし、既存の市場設計手法は、エナジースポット市場(ESM)、アシラリーサービス市場(ASM)、金融市場(FM)、すなわち「ジョイント市場」と信頼性のあるシミュレーションベースの検証の欠如に悩まされている。
これらの欠点に対処するため,本論文では,強化学習(rl)に基づくシミュレーションを用いた共同市場設計のパラダイム理論と詳細な手法について述べる。
パート1では、この新しい市場デザイン哲学の理論と枠組みが提案されている。
まず、共同市場を設計する際の市場デザインオプションについて、対象とする研究課題として要約する。
第2に,市場設計の選択肢を取り入れた共同市場における入札ゲームを記述するために,マルコフゲームモデルを開発した。
第3に、市場モデルをシミュレートする複数のタイプのRLアルゴリズムをデプロイするフレームワークを開発する。
最後に、シミュレーション結果に基づいて市場設計を検証するために、いくつかの市場操作性能指標を提案する。 In face of the pressing need of decarbonization in the power sector, the re-design of electricity market is necessary as a Marco-level approach to accommodate the high penetration of renewable generations, and to achieve power system operation security, economic efficiency, and environmental friendliness. However, existing market design methodologies suffer from the lack of coordination among energy spot market (ESM), ancillary service market (ASM) and financial market (FM), i.e., the "joint market", and the lack of reliable simulation-based verification. To tackle these deficiencies, this two-part paper develops a paradigmatic theory and detailed methods of the joint market design using reinforcement-learning (RL)-based simulation. In Part 1, the theory and framework of this novel market design philosophy are proposed. First, the controversial market design options while designing the joint market are summarized as the targeted research questions. Second, the Markov game model is developed to describe the bidding game in the joint market, incorporating the market design options to be determined. Third, a framework of deploying multiple types of RL algorithms to simulate the market model is developed. Finally, several market operation performance indicators are proposed to validate the market design based on the simulation results. | 翻訳日:2023-05-05 17:27:00 公開日:2023-05-04 |
# 抽象要約のカスタマイズのためのChatGPT-steered Editing Instructor ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization ( http://arxiv.org/abs/2305.02483v1 ) ライセンス: Link先を確認 | Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He | (参考訳) ChatGPTのような大規模言語モデルのアウトプットを特定のユーザのニーズに合わせることは、素晴らしい世代品質にもかかわらず、依然として課題である。
本稿では,生成する出力のカスタマイズ性を高めるために,ジェネレータ,インストラクタ,エディタからなるトリエージェント生成パイプラインを提案する。
ジェネレータは初期出力を生成し、ユーザ固有のインストラクターは編集命令を生成し、エディタはユーザの好みに沿った修正出力を生成する。
推論のみの大規模言語モデル(ChatGPT)はジェネレータとエディタの両方として機能し、小さなモデルはユーザ固有のインストラクターとして機能し、生成プロセスをユーザニーズに導く。
インストラクタは,大規模なエディタモデルからのフィードバックを利用して,教師生成の最適化を行う。
2つの抽象的な要約データセットの実験結果から,ユーザの期待に応える出力生成におけるアプローチの有効性が示された。 Tailoring outputs of large language models, such as ChatGPT, to specific user needs remains a challenge despite their impressive generation quality. In this paper, we propose a tri-agent generation pipeline consisting of a generator, an instructor, and an editor to enhance the customization of generated outputs. The generator produces an initial output, the user-specific instructor generates editing instructions, and the editor generates a revised output aligned with user preferences. The inference-only large language model (ChatGPT) serves as both the generator and the editor, while a smaller model acts as the user-specific instructor to guide the generation process toward user needs. The instructor is trained using editor-steered reinforcement learning, leveraging feedback from the large-scale editor model to optimize instruction generation. Experimental results on two abstractive summarization datasets demonstrate the effectiveness of our approach in generating outputs that better fulfill user expectations. | 翻訳日:2023-05-05 17:26:39 公開日:2023-05-04 |
# 機械学習を用いた乳癌診断 Breast Cancer Diagnosis Using Machine Learning Techniques ( http://arxiv.org/abs/2305.02482v1 ) ライセンス: Link先を確認 | Juan Zuluaga-Gomez | (参考訳) 乳がんは女性の生活において最も危険な疾患の1つであり、早期かつ正確な診断は患者の生活における死亡リスクを減らす上で重要な役割を担っている。
マンモグラフィは乳がん検診の基準技術であるが、多くの国では経済的、社会的、文化的問題のためにマンモグラフィへのアクセスが不足している。
計算ツール、赤外線カメラ、生体影響定量化装置の最近の進歩は、血液検査で見つかったサーモグラフィ、赤外線サーモグラフィ、電気インピーダンストモグラフィ、バイオマーカーなどの他の参照技術が出現する機会を与え、他の方法よりも高速で信頼性が高く、安価である。
過去20年間で、上記の手法は乳がんの診断に平行で拡張的なアプローチとして検討され、多くの著者が偽陽性と偽陰性率は著しく減少していると結論付けている。
さらに,スクリーニング手法が計算手法と連携して動作すると,コンピュータ支援診断システムを生成する。
本研究は,先述した3つの手法に関する最後のブレークスルー,乳がん診断への機械学習技術の提案,ロジスティック回帰,決定木,ランダムフォレスト,深層および畳み込みニューラルネットワークなど,他の手法と関連するいくつかの手法の利点を説明することを目的とした。
そこで本研究では,高パラメータ最適化手法について検討し,ベースラインモデルの性能向上を目的とした。
各データベースの探索データ解析と熱画像データベースのための畳み込みニューラルネットワークのベンチマークを示す。
ベンチマークプロセスは、Resnet50、NasNetmobile、InceptionResnet、Xceptionなど、畳み込みニューラルネットワークによる画像分類手法をレビューする。 Breast cancer is one of the most threatening diseases in women's life; thus, the early and accurate diagnosis plays a key role in reducing the risk of death in a patient's life. Mammography stands as the reference technique for breast cancer screening; nevertheless, many countries still lack access to mammograms due to economic, social, and cultural issues. Latest advances in computational tools, infrared cameras and devices for bio-impedance quantification, have given a chance to emerge other reference techniques like thermography, infrared thermography, electrical impedance tomography and biomarkers found in blood tests, therefore being faster, reliable and cheaper than other methods. In the last two decades, the techniques mentioned above have been considered as parallel and extended approaches for breast cancer diagnosis, as well many authors concluded that false positives and false negatives rates are significantly reduced. Moreover, when a screening method works together with a computational technique, it generates a "computer-aided diagnosis" system. The present work aims to review the last breakthroughs about the three techniques mentioned earlier, suggested machine learning techniques to breast cancer diagnosis, thus, describing the benefits of some methods in relation with other ones, such as, logistic regression, decision trees, random forest, deep and convolutional neural networks. With this, we studied several hyperparameters optimization approaches with parzen tree optimizers to improve the performance of baseline models. An exploratory data analysis for each database and a benchmark of convolutional neural networks for the database of thermal images are presented. The benchmark process, reviews image classification techniques with convolutional neural networks, like, Resnet50, NasNetmobile, InceptionResnet and Xception. | 翻訳日:2023-05-05 17:26:22 公開日:2023-05-04 |
# 深層学習を用いた心臓再同期療法の反応予測法 A new method using deep learning to predict the response to cardiac resynchronization therapy ( http://arxiv.org/abs/2305.02475v1 ) ライセンス: Link先を確認 | Kristoffer Larsena, Zhuo He, Chen Zhao, Xinwei Zhang, Quiying Sha, Claudio T Mesquitad, Diana Paeze, Ernest V. Garciaf, Jiangang Zou, Amalia Peix, Weihua Zhou | (参考訳) 背景。
ゲート型単光子ct心筋灌流画像(spect mpi)から測定した臨床パラメータは、心臓再同期療法(crt)患者の予後予測に有用であるが、まだ限界がある。
本研究の目的は,臨床変数,心電図(ECG)の特徴,および心機能評価からCRT応答を予測するための深層学習(DL)を通して,ゲートSPECT MPIの極マップを抽出することである。
メソッド。
SPECT SPECT MPI を施行した218例について検討した。
crt反応は6ヶ月の追跡で左室射出率 (lvef) が5%以上増加したと定義した。
VGG16モジュールと多層パーセプトロンを組み合わせたDLモデルを構築した。
SPECT MPIの極地図画像と臨床像と心電図パラメータの2つのデータモダリティをモデルに入力した。
勾配重み付きクラスアクティベーションマッピング(Grad-CAM)をVGG16モジュールに適用し、極性マップの説明可能性を提供した。
比較のために、4つの機械学習(ML)モデルが表の特徴のみを用いて訓練された。
結果だ
5.5% (n = 121) の反応率でcrt移植を行った218例に対してモデリングを行った。
dlモデルでは平均auc (0.83), 精度 (0.73), 感度 (0.76), 特異度 (0.69) がmlモデルとガイドライン基準を上回った。
ガイドラインでは精度(0.53)、感度(0.75)、特異性(0.26)が示された。
結論だ
DLモデルはMLモデルよりも優れており、SPECT MPI極マップの利用によるさらなる予測上の利点を示している。
医療画像の形で追加の患者データを直接組み込むことで、CRT応答予測を改善することができる。 Background. Clinical parameters measured from gated single-photon emission computed tomography myocardial perfusion imaging (SPECT MPI) have value in predicting cardiac resynchronization therapy (CRT) patient outcomes, but still show limitations. The purpose of this study is to combine clinical variables, features from electrocardiogram (ECG), and parameters from assessment of cardiac function with polarmaps from gated SPECT MPI through deep learning (DL) to predict CRT response. Methods. 218 patients who underwent rest gated SPECT MPI were enrolled in this study. CRT response was defined as an increase in left ventricular ejection fraction (LVEF) > 5% at a 6-month follow up. A DL model was constructed by combining a pre-trained VGG16 module and a multilayer perceptron. Two modalities of data were input to the model: polarmap images from SPECT MPI and tabular data from clinical features and ECG parameters. Gradient-weighted Class Activation Mapping (Grad-CAM) was applied to the VGG16 module to provide explainability for the polarmaps. For comparison, four machine learning (ML) models were trained using only the tabular features. Results. Modeling was performed on 218 patients who underwent CRT implantation with a response rate of 55.5% (n = 121). The DL model demonstrated average AUC (0.83), accuracy (0.73), sensitivity (0.76), and specificity (0.69) surpassing the ML models and guideline criteria. Guideline recommendations presented accuracy (0.53), sensitivity (0.75), and specificity (0.26). Conclusions. The DL model outperformed the ML models, showcasing the additional predictive benefit of utilizing SPECT MPI polarmaps. Incorporating additional patient data directly in the form of medical imagery can improve CRT response prediction. | 翻訳日:2023-05-05 17:25:49 公開日:2023-05-04 |
# MLHOps:医療運用のための機械学習 MLHOps: Machine Learning for Healthcare Operations ( http://arxiv.org/abs/2305.02474v1 ) ライセンス: Link先を確認 | Faiza Khan Khattak, Vallijah Subasri, Amrit Krishnan, Elham Dolatabadi, Deval Pandya, Laleh Seyyed-Kalantari, Frank Rudzicz | (参考訳) 機械学習ヘルスオペレーション(MLHOps)は、医療環境における機械学習モデルの信頼性、効率的、有用、倫理的な展開と保守のためのプロセスの組み合わせである。
本報告では,この領域における作業の実態調査と,臨床実習における自身のモデルを展開,維持するための開発者および臨床医のガイドラインについて述べる。
一般的な機械学習オペレーションの基本概念を取り上げ、mlhopsパイプライン(データソース、準備、エンジニアリング、ツールを含む)の初期セットアップについて説明する。
次に,長期監視と更新(データ分散シフトとモデル更新を含む)と倫理的考察(バイアス,公平性,解釈可能性,プライバシを含む)について述べる。
この作業は、MLHOpsの完全なパイプライン全体に対して、概念から初期および進行中のデプロイメントまでのガイダンスを提供する。 Machine Learning Health Operations (MLHOps) is the combination of processes for reliable, efficient, usable, and ethical deployment and maintenance of machine learning models in healthcare settings. This paper provides both a survey of work in this area and guidelines for developers and clinicians to deploy and maintain their own models in clinical practice. We cover the foundational concepts of general machine learning operations, describe the initial setup of MLHOps pipelines (including data sources, preparation, engineering, and tools). We then describe long-term monitoring and updating (including data distribution shifts and model updating) and ethical considerations (including bias, fairness, interpretability, and privacy). This work therefore provides guidance across the full pipeline of MLHOps from conception to initial and ongoing deployment. | 翻訳日:2023-05-05 17:25:16 公開日:2023-05-04 |
# bitgnn: gpu上のバイナリグラフニューラルネットワークのパフォーマンスポテンシャルを解き放つ BitGNN: Unleashing the Performance Potential of Binary Graph Neural Networks on GPUs ( http://arxiv.org/abs/2305.02522v1 ) ライセンス: Link先を確認 | Jou-An Chen, Hsin-Hsuan Sung, Xipeng Shen, Sutanay Choudhury, Ang Li | (参考訳) 最近の研究によると、バイナリグラフニューラルネットワーク(GNN)は双有理テンソルによるGNNの計算を省くことを約束している。
しかし、以前の作業は主にアルゴリズム設計やトレーニング技術に重点を置いており、アクセラレーターハードウェアにおけるパフォーマンスポテンシャルを完全に実現する方法に開放されていた。
この作業は効率の観点からバイナリGNN推論バックエンドを再設計する。
gpu上のビット操作の性質に最も適したバイナリgnnとその計算をマッピングするための一連の抽象化とテクニックを提案することで、ギャップを埋めている。
GCN、GraphSAGE、GraphSAINTによる実世界のグラフの結果、提案手法は、同じ精度で8-22Xで最先端のバイナリGNN実装より優れていた。
BitGNNコードは公開されている。 Recent studies have shown that Binary Graph Neural Networks (GNNs) are promising for saving computations of GNNs through binarized tensors. Prior work, however, mainly focused on algorithm designs or training techniques, leaving it open to how to materialize the performance potential on accelerator hardware fully. This work redesigns the binary GNN inference backend from the efficiency perspective. It fills the gap by proposing a series of abstractions and techniques to map binary GNNs and their computations best to fit the nature of bit manipulations on GPUs. Results on real-world graphs with GCNs, GraphSAGE, and GraphSAINT show that the proposed techniques outperform state-of-the-art binary GNN implementations by 8-22X with the same accuracy maintained. BitGNN code is publicly available. | 翻訳日:2023-05-05 17:18:09 公開日:2023-05-04 |
# ANetQA: 未編集ビデオに対するきめ細かい合成推論のための大規模ベンチマーク ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed Videos ( http://arxiv.org/abs/2305.02519v1 ) ライセンス: Link先を確認 | Zhou Yu, Lixiang Zheng, Zhou Zhao, Fei Wu, Jianping Fan, Kui Ren, Jun Yu | (参考訳) ビデオ質問応答(VideoQA)モデルのさまざまな機能を体系的に分析するベンチマークを構築することは、非常に難しい。
既存のベンチマークでは、非コンポジション的な単純な質問や言語バイアスに苦しむことが多いため、モデルの弱点を切迫的に診断することは困難である。
最近のベンチマークAGQAは、事前に注釈付けされたシーングラフからQAペアを自動的に生成し、粒度の制御で様々な推論能力を測定するという有望なパラダイムを採っている。
しかし、その質問は、シーングラフに情報がないため、ビデオの細かなセマンティクスについての推論に制限がある。
この目的のために,ActivityNetの未編集ビデオに対して,詳細な合成推論をサポートする大規模ベンチマークANetQAを提案する。
AGQAと同様に、ANetQAのQAペアは、注釈付きビデオシーングラフから自動的に生成される。
ANetQAの細粒度特性を以下に反映する。
(i)きめ細かな意味を持つ未編集ビデオ
(ii)細粒度の分類を施した時空間的シーングラフ、
(iii)細粒度テンプレートから生じる多様な質問。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最先端手法の総合実験を行う。
最高のモデルは44.5%の精度で、人間のパフォーマンスは84.5%で、改善の余地は十分にある。 Building benchmarks to systemically analyze different capabilities of video question answering (VideoQA) models is challenging yet crucial. Existing benchmarks often use non-compositional simple questions and suffer from language biases, making it difficult to diagnose model weaknesses incisively. A recent benchmark AGQA poses a promising paradigm to generate QA pairs automatically from pre-annotated scene graphs, enabling it to measure diverse reasoning abilities with granular control. However, its questions have limitations in reasoning about the fine-grained semantics in videos as such information is absent in its scene graphs. To this end, we present ANetQA, a large-scale benchmark that supports fine-grained compositional reasoning over the challenging untrimmed videos from ActivityNet. Similar to AGQA, the QA pairs in ANetQA are automatically generated from annotated video scene graphs. The fine-grained properties of ANetQA are reflected in the following: (i) untrimmed videos with fine-grained semantics; (ii) spatio-temporal scene graphs with fine-grained taxonomies; and (iii) diverse questions generated from fine-grained templates. ANetQA attains 1.4 billion unbalanced and 13.4 million balanced QA pairs, which is an order of magnitude larger than AGQA with a similar number of videos. Comprehensive experiments are performed for state-of-the-art methods. The best model achieves 44.5% accuracy while human performance tops out at 84.5%, leaving sufficient room for improvement. | 翻訳日:2023-05-05 17:17:54 公開日:2023-05-04 |
# SemEval-2023 Task 2 におけるUTC-NELSLIP:多言語複合NERのためのガゼッタの統計的構成と双対適応 USTC-NELSLIP at SemEval-2023 Task 2: Statistical Construction and Dual Adaptation of Gazetteer for Multilingual Complex NER ( http://arxiv.org/abs/2305.02517v1 ) ライセンス: Link先を確認 | Jun-Yu Ma, Jia-Chen Gu, Jiajun Qi, Zhen-Hua Ling, Quan Liu, Xiaoyi Zhao | (参考訳) 本稿では,SemEval-2023 Task 2 Multilingual Complex Named Entity Recognition (MultiCoNER II)のためにUSTC-NELSLIPチームが開発したシステムについて述べる。
Gazetteer (SCDAG) の統計的構成と双対適応法が多言語複合NERに対して提案されている。
この方法は、まず統計に基づくアプローチを用いてガゼッタを構成する。
第2に、ガゼッタネットワークと言語モデルの表現は、文レベルとエンティティレベルでのklの相違を最小限にすることで適応される。
最後に、これら2つのネットワークは、教師付きエンティティ認識(ner)トレーニングのために統合される。
提案手法はWikidata で構築したガゼッタを用いて XLM-R に適用され,様々なトラックにまたがる高度な一般化能力を示す。
実験結果と詳細な解析により,提案手法の有効性が検証された。
公式の結果,我々のシステムは1トラック (hindi) で1位にランクインした。 This paper describes the system developed by the USTC-NELSLIP team for SemEval-2023 Task 2 Multilingual Complex Named Entity Recognition (MultiCoNER II). A method named Statistical Construction and Dual Adaptation of Gazetteer (SCDAG) is proposed for Multilingual Complex NER. The method first utilizes a statistics-based approach to construct a gazetteer. Secondly, the representations of gazetteer networks and language models are adapted by minimizing the KL divergence between them at both the sentence-level and entity-level. Finally, these two networks are then integrated for supervised named entity recognition (NER) training. The proposed method is applied to XLM-R with a gazetteer built from Wikidata, and shows great generalization ability across different tracks. Experimental results and detailed analysis verify the effectiveness of the proposed method. The official results show that our system ranked 1st on one track (Hindi) in this task. | 翻訳日:2023-05-05 17:17:31 公開日:2023-05-04 |
# SuperNeuro:ニューロモルフィックコンピューティングのための高速でスケーラブルなシミュレータ SuperNeuro: A Fast and Scalable Simulator for Neuromorphic Computing ( http://arxiv.org/abs/2305.02510v1 ) ライセンス: Link先を確認 | Prasanna Date, Chathika Gunaratne, Shruti Kulkarni, Robert Patton, Mark Coletti, Thomas Potok | (参考訳) 多くのニューロモーフィックワークフローにおいて、シミュレータはスパイクニューラルネットワーク(SNN)のトレーニング、神経科学シミュレーションの実行、ニューロモーフィックアルゴリズムの設計、実装、テストといった重要なタスクにおいて重要な役割を果たす。
現在利用可能なシミュレータは、神経科学ワークフロー(NESTやBrian2)か、ディープラーニングワークフロー(BindsNETなど)のいずれかに対応している。
神経科学ベースのシミュレータは遅くてスケーラビリティがあまりないが、ディープラーニングベースのシミュレータは神経型ワークロードの典型的なシナプス遅延のような特定の機能をサポートしていない。
本稿では,ニューロモルフィックコンピューティングのための高速・スケーラブルなシミュレータであるsuperneuroと,同質・異質なシミュレーションとgpuアクセラレーションの両方が可能なsuperneuroについて述べる。
また,NEST,Brian2,BindsNETなどのニューロモルフィックシミュレータを計算時間で比較した予備的な結果を示す。
我々は,SuperNeuroが,他のスパルスネットワークシミュレータの約10~300倍の速度で動作可能であることを示した。
大型のスパースネットワークと大型の高密度ネットワークでは、SuperNeuroは他のシミュレータの約2.2倍と3.4倍高速である。 In many neuromorphic workflows, simulators play a vital role for important tasks such as training spiking neural networks (SNNs), running neuroscience simulations, and designing, implementing and testing neuromorphic algorithms. Currently available simulators are catered to either neuroscience workflows (such as NEST and Brian2) or deep learning workflows (such as BindsNET). While the neuroscience-based simulators are slow and not very scalable, the deep learning-based simulators do not support certain functionalities such as synaptic delay that are typical of neuromorphic workloads. In this paper, we address this gap in the literature and present SuperNeuro, which is a fast and scalable simulator for neuromorphic computing, capable of both homogeneous and heterogeneous simulations as well as GPU acceleration. We also present preliminary results comparing SuperNeuro to widely used neuromorphic simulators such as NEST, Brian2 and BindsNET in terms of computation times. We demonstrate that SuperNeuro can be approximately 10--300 times faster than some of the other simulators for small sparse networks. On large sparse and large dense networks, SuperNeuro can be approximately 2.2 and 3.4 times faster than the other simulators respectively. | 翻訳日:2023-05-05 17:17:14 公開日:2023-05-04 |
# 0.5T MRIによる1.5T様画像再構成のためのメタラーニング型スコアベース生成モデル Meta-Learning Enabled Score-Based Generative Model for 1.5T-Like Image Reconstruction from 0.5T MRI ( http://arxiv.org/abs/2305.02509v1 ) ライセンス: Link先を確認 | Zhuo-Xu Cui, Congcong Liu, Chentao Cao, Yuanyuan Liu, Jing Cheng, Qingyong Zhu, Yanjie Zhu, Haifeng Wang, Dong Liang | (参考訳) 磁気共鳴画像(MRI)は、低磁場強度での信号-雑音比(SNR)を減少させ、高磁場MRI画像を生成する際に信号劣化を引き起こすことが知られている。
したがって、低磁場MRIからの高視野画像の再構成は、タスクの不正な性質のため複雑な問題である。
また,低磁場MR画像と高磁場MR画像のペア取得は実用的ではないことが多い。
理論上,これらの課題の組み合わせは,低視野mr画像から高視野mr画像へのマッピングを直接学習する従来のディープラーニング手法が不適当であることを示す。
これらの課題を克服するために,教師の学習機構を利用した新しいメタラーニング手法を提案する。
まず、最適トランスポート駆動の教師は、高磁場から低磁場MRI画像への劣化過程を学習し、擬似対向高磁場MRI画像を生成する。
そして、スコアベースの学生は、擬似ペア画像の合体分布を学習し、レギュラライザとして作用することにより、反復正規化の枠組み内の低視野mriから高視野様mr画像を再構成する逆問題を解く。
実低磁場MRIデータによる実験結果から,提案手法は最先端の未経験学習法より優れていることが示された。 Magnetic resonance imaging (MRI) is known to have reduced signal-to-noise ratios (SNR) at lower field strengths, leading to signal degradation when producing a low-field MRI image from a high-field one. Therefore, reconstructing a high-field-like image from a low-field MRI is a complex problem due to the ill-posed nature of the task. Additionally, obtaining paired low-field and high-field MR images is often not practical. We theoretically uncovered that the combination of these challenges renders conventional deep learning methods that directly learn the mapping from a low-field MR image to a high-field MR image unsuitable. To overcome these challenges, we introduce a novel meta-learning approach that employs a teacher-student mechanism. Firstly, an optimal-transport-driven teacher learns the degradation process from high-field to low-field MR images and generates pseudo-paired high-field and low-field MRI images. Then, a score-based student solves the inverse problem of reconstructing a high-field-like MR image from a low-field MRI within the framework of iterative regularization, by learning the joint distribution of pseudo-paired images to act as a regularizer. Experimental results on real low-field MRI data demonstrate that our proposed method outperforms state-of-the-art unpaired learning methods. | 翻訳日:2023-05-05 17:16:54 公開日:2023-05-04 |
# Stimulative Training++: 残余ネットワークのパフォーマンス限界を超えて Stimulative Training++: Go Beyond The Performance Limits of Residual Networks ( http://arxiv.org/abs/2305.02507v1 ) ライセンス: Link先を確認 | Peng Ye, Tong He, Shengji Tang, Baopu Li, Tao Chen, Lei Bai, Wanli Ouyang | (参考訳) 残差ネットワークは大きな成功を収め、最近のディープニューラルネットワークモデルでは不可欠になった。
本研究は, 新たな社会的心理学的視点から, 残余ネットワークの学習過程を再検討することを目的としており, さらに, 残余ネットワークを性能限界を超えて強化するための3つの改善戦略も提案する。
これまでの研究では、残差ネットワークは浅いネットワークのアンサンブルと見なすことができ、残差ネットワークの最終性能はサブネットワークのグループに影響されていることを示唆している。
我々は、残余ネットワーク内のサブネットワークが、単独で作業するよりもグループとして働く場合の労力を減らしがちな、社会的疎結合に類似した、これまで見過ごされていた問題を特定する。
この問題を \textit{network loafing} と定義する。
個人の生産性の低下や社会での全体的なパフォーマンスと同様に、ネットワークローフは必然的にサブパーパフォーマンスを引き起こす。
社会心理学の解に触発されて,まず,残余サブネットワークをランダムにサンプリングし,サンプルサブネットワークと与えられた残余ネットワーク間のKL分散損失を計算し,余剰監視を行う刺激訓練という新たなトレーニング手法を提案する。
刺激的学習の可能性を明らかにするため,ネットワークロジッツ方向のみを調整可能な新しいkllos,サブネットワークに対するランダムな小さな入力,ステージ間サンプリングルールなど,簡便かつ効果的な3つの戦略を提案する。
総合的な実験と分析により,刺激訓練の有効性と3つの改善戦略が検証された。 Residual networks have shown great success and become indispensable in recent deep neural network models. In this work, we aim to re-investigate the training process of residual networks from a novel social psychology perspective of loafing, and further propose a new training scheme as well as three improved strategies for boosting residual networks beyond their performance limits. Previous research has suggested that residual networks can be considered as ensembles of shallow networks, which implies that the final performance of a residual network is influenced by a group of subnetworks. We identify a previously overlooked problem that is analogous to social loafing, where subnetworks within a residual network are prone to exert less effort when working as part of a group compared to working alone. We define this problem as \textit{network loafing}. Similar to the decreased individual productivity and overall performance as demonstrated in society, network loafing inevitably causes sub-par performance. Inspired by solutions from social psychology, we first propose a novel training scheme called stimulative training, which randomly samples a residual subnetwork and calculates the KL divergence loss between the sampled subnetwork and the given residual network for extra supervision. In order to unleash the potential of stimulative training, we further propose three simple-yet-effective strategies, including a novel KL- loss that only aligns the network logits direction, random smaller inputs for subnetworks, and inter-stage sampling rules. Comprehensive experiments and analysis verify the effectiveness of stimulative training as well as its three improved strategies. | 翻訳日:2023-05-05 17:16:29 公開日:2023-05-04 |
# 分解密度を持つ文字列図形 String Diagrams with Factorized Densities ( http://arxiv.org/abs/2305.02506v1 ) ライセンス: Link先を確認 | Eli Sennesh and Jan-Willem van de Meent | (参考訳) 確率的プログラムと因果モデルに関する研究の活発化は、有向グラフィカルモデルを拡張するモデルクラスについて構成的に考える必要性を強調している。
確率的プログラムと因果モデルの両方は、ランダム変数の集合上の合同確率密度を定義し、因果関係と条件独立性を推論するために使用できるスパース構造を示す。
この研究は、確率写像のマルコフ圏に関する最近の研究に基づいて、射が各サンプル空間上で分解された結合密度と、サンプルから戻り値への決定論的写像を組み合わせた圏を定義する。
これは、確率測度に関する最近のカテゴリー論的記述と、確率計画法や因果推論によく用いられる分解密度の操作的定義とのギャップを埋めるためのステップである。 A growing body of research on probabilistic programs and causal models has highlighted the need to reason compositionally about model classes that extend directed graphical models. Both probabilistic programs and causal models define a joint probability density over a set of random variables, and exhibit sparse structure that can be used to reason about causation and conditional independence. This work builds on recent work on Markov categories of probabilistic mappings to define a category whose morphisms combine a joint density, factorized over each sample space, with a deterministic mapping from samples to return values. This is a step towards closing the gap between recent category-theoretic descriptions of probability measures, and the operational definitions of factorized densities that are commonly employed in probabilistic programming and causal inference. | 翻訳日:2023-05-05 17:16:02 公開日:2023-05-04 |
# 量子コンピューティングのセキュリティに関するプライマー A Primer on Security of Quantum Computing ( http://arxiv.org/abs/2305.02505v1 ) ライセンス: Link先を確認 | Swaroop Ghosh, Suryansh Upadhyay, Abdullah Ash Saki | (参考訳) 量子コンピューティングは、古典的な領域から難解な問題を解くことで、いくつかのアプリケーション領域を変換できる新しいコンピューティングパラダイムである。
古典的な計算システムと同様に、ソフトウェアやハードウェアを含む量子コンピューティングスタックはサードパーティに大きく依存しており、信頼できない、信頼できない、信頼できないものも多い。
量子コンピューティングスタックは、保護を必要とする機密性のある知的特性(IP)を含むことができる。
ハードウェアの観点から、量子コンピュータは、伝統的に知られている障害注入攻撃を促進するために、2つのプログラムをマルチテナント環境で結合するクロストークに悩まされる。
さらに、サードパーティのキャリブレーションサービスは、qubitsの不正確なエラー率を報告したり、qubitsを誤って調整したりして、サービス拒否攻撃の計算性能を低下させることができる。
量子コンピュータは高価で、アクセスキューは一般的に信頼できるプロバイダにとって長い。
そのため、ユーザは、IPの盗聴や量子プログラムの改ざんや計算結果の改ざんを可能にする、信頼できないが安価で手軽に利用可能な量子ハードウェアを探求することができる。
近年の研究では、量子回路に存在するipsにリスクをもたらす効率的だが信頼できないコンパイルサービスの進化が示されている。
信頼できないコンパイラは、Trojansを注入し、改ざんを行うこともできる。
量子コンピューティングには機密性の高いIPとプライベート情報が含まれ、戦略的影響で問題を解決することができるが、そのセキュリティとプライバシは不十分な注目を集めている。
本稿では,量子コンピューティングの基礎,量子システムに埋め込まれた鍵となる脆弱性,最近の攻撃ベクトルとその防御について概観する。
将来の研究の方向性は、より強力な量子セキュリティ研究者のコミュニティを構築するためにも提供される。 Quantum computing is an emerging computing paradigm that can potentially transform several application areas by solving some of the intractable problems from classical domain. Similar to classical computing systems, quantum computing stack including software and hardware rely extensively on third parties many of them could be untrusted or less-trusted or unreliable. Quantum computing stack may contain sensitive Intellectual Properties (IP) that requires protection. From hardware perspective, quantum computers suffer from crosstalk that couples two programs in a multi-tenant setting to facilitate traditionally known fault injection attacks. Furthermore, third party calibration services can report incorrect error rates of qubits or mis-calibrate the qubits to degrade the computation performance for denial-of-service attacks. Quantum computers are expensive and access queue is typically long for trusted providers. Therefore, users may be enticed to explore untrusted but cheaper and readily available quantum hardware which can enable stealth of IP and tampering of quantum programs and/or computation outcomes. Recent studies have indicated the evolution of efficient but untrusted compilation services which presents risks to the IPs present in the quantum circuits. The untrusted compiler can also inject Trojans and perform tampering. Although quantum computing can involve sensitive IP and private information and can solve problems with strategic impact, its security and privacy has received inadequate attention. This paper provides comprehensive overview of the basics of quantum computing, key vulnerabilities embedded in the quantum systems and the recent attack vectors and corresponding defenses. Future research directions are also provided to build a stronger community of quantum security investigators. | 翻訳日:2023-05-05 17:15:48 公開日:2023-05-04 |
# 統一型マルチモーダルデータ埋め込みとモダリティ認識による電子健康記録の欠落の学習 Learning Missing Modal Electronic Health Records with Unified Multi-modal Data Embedding and Modality-Aware Attention ( http://arxiv.org/abs/2305.02504v1 ) ライセンス: Link先を確認 | Kwanhyung Lee, Soojeong Lee, Sangchul Hahn, Heejung Hyun, Edward Choi, Byungeun Ahn, Joohyung Lee | (参考訳) 電子健康記録(ehr)は様々な形態を通じて豊富な情報を提供する。
しかし、マルチモーダルEHRの学習は、現在2つの大きな課題に直面している。
1)データ埋め込み
2)モダリティの欠如例。
モダリティ間の共有埋め込み機能の欠如は、異なるEHRモダリティ間の時間的関係を破棄することができる。
一方、ほとんどの EHR 研究は EHR Times シリーズのみに依存しているため、EHR におけるモダリティの欠如はよく研究されていない。
そこで本研究では,Skip Bottleneck(SB)を用いたUMSE(Unified Multi-modal Set Embedding)とMAA(Modality-Aware Attention)を導入する。
UMSEは、別の計算モジュールやエラーを起こしやすい搬送フォワードを使わずに全てのEHRモダリティを扱い、一方、SBを持つMAAは、効果的なモダリティに注意を払って欠落したモードEHRを学習する。
我々のモデルは,MIMIC-IVデータセットを用いて,死亡率,血管圧下ニーズ,挿管需要の予測において,他のベースラインモデルよりも優れている。 Electronic Health Record (EHR) provides abundant information through various modalities. However, learning multi-modal EHR is currently facing two major challenges, namely, 1) data embedding and 2) cases with missing modality. A lack of shared embedding function across modalities can discard the temporal relationship between different EHR modalities. On the other hand, most EHR studies are limited to relying only on EHR Times-series, and therefore, missing modality in EHR has not been well-explored. Therefore, in this study, we introduce a Unified Multi-modal Set Embedding (UMSE) and Modality-Aware Attention (MAA) with Skip Bottleneck (SB). UMSE treats all EHR modalities without a separate imputation module or error-prone carry-forward, whereas MAA with SB learns missing modal EHR with effective modality-aware attention. Our model outperforms other baseline models in mortality, vasopressor need, and intubation need prediction with the MIMIC-IV dataset. | 翻訳日:2023-05-05 17:15:21 公開日:2023-05-04 |
# 小さなロゴ検出のためのクロスディレクティブタスクデカップリングネットワーク A Cross-direction Task Decoupling Network for Small Logo Detection ( http://arxiv.org/abs/2305.02503v1 ) ライセンス: Link先を確認 | Hou, Sujuan and Li, Xingzhuo and Min, Weiqing and Li, Jiacheng and Wang, Jing and Zheng, Yuanjie and Jiang, Shuqiang | (参考訳) ロゴ検出は多くのアプリケーションで不可欠な役割を果たす。
しかし,画像中の画素数が多すぎるため,識別的特徴の抽出が困難なため,小さなロゴの扱いは依然として困難である。
小さなロゴの集約は、ロゴの分類とローカライズにも大きな課題をもたらします。
これらの問題を解決するために,小さなロゴ検出のためのクロス指向タスクデカップリングネットワーク(CTDNet)を提案する。
まず, 水平伝送と垂直伝送を併用したクロス指向機能融合を実現するために, クロス指向特徴ピラミッド(cfp)を導入する。
さらに、マルチ周波数タスクデカップリングヘッド(MTDH)は、分類タスクとローカライゼーションタスクを2つのブランチに分離する。
多周波数注意畳み込み分岐は離散コサイン変換と畳み込みを創造的に組み合わせてより正確な回帰を達成するように設計されている。
4つのロゴデータセットの総合実験により,提案手法の有効性と有効性を示した。 Logo detection plays an integral role in many applications. However, handling small logos is still difficult since they occupy too few pixels in the image, which burdens the extraction of discriminative features. The aggregation of small logos also brings a great challenge to the classification and localization of logos. To solve these problems, we creatively propose Cross-direction Task Decoupling Network (CTDNet) for small logo detection. We first introduce Cross-direction Feature Pyramid (CFP) to realize cross-direction feature fusion by adopting horizontal transmission and vertical transmission. In addition, Multi-frequency Task Decoupling Head (MTDH) decouples the classification and localization tasks into two branches. A multi frequency attention convolution branch is designed to achieve more accurate regression by combining discrete cosine transform and convolution creatively. Comprehensive experiments on four logo datasets demonstrate the effectiveness and efficiency of the proposed method. | 翻訳日:2023-05-05 17:15:02 公開日:2023-05-04 |
# PersonaLLM:GPT-3.5の性格特性と性差の表現能力の検討 PersonaLLM: Investigating the Ability of GPT-3.5 to Express Personality Traits and Gender Differences ( http://arxiv.org/abs/2305.02547v1 ) ライセンス: Link先を確認 | Hang Jiang, Xiajie Zhang, Xubo Cao, Jad Kabbara, Deb Roy | (参考訳) 様々な産業におけるチャットボットの設計における大規模言語モデル(LLM)の多くのユースケースや、異なる性格特性に対応するためにチャットボットをパーソナライズすることの重要性を示す研究にもかかわらず、パーソナライズされたLLMの挙動が特定の性格特性を正確に、一貫して反映できるかどうかを評価することはほとんど行われていない。
GPT-3.5(text-davinci-003)を用いたケーススタディを行い、大きな5人格と性別の役割を割り当てた場合、LLMが一貫した個性特性を持つコンテンツを生成できるかどうかを検討する。
われわれは320のLDMペルソナ(32のビッグファイブパーソナタイプで5人の女性と5人の男性)を作成し、44の古典的なビッグファイブインベントリ(BFI)を完成させ、その子供時代について800ワードの物語を書いた。
その結果、LLMペルソナの自己申告したBFIスコアは、割り当てられた性格タイプと一致しており、5つの特徴全てに大きな効果が認められた。
さらに、与えられたパーソナリティタイプと一部の言語調査と単語数(liwc)との間に有意な相関が認められた。
例えば、外向性は社会的・活動的な単語と関連しており、神経症は否定的な感情や精神健康に関連する単語と関連している。
また, LLM 生成した男女の人格記述において, 技術的, 文化的用語の使用に有意な差が認められた。
この研究は、パーソナライズされたLLMとそのヒューマンAI会話への応用について、さらなる研究のための第一歩となる。 Despite the many use cases for large language models (LLMs) in the design of chatbots in various industries and the research showing the importance of personalizing chatbots to cater to different personality traits, little work has been done to evaluate whether the behaviors of personalized LLMs can reflect certain personality traits accurately and consistently. We consider studying the behavior of LLM-based simulated agents which refer to as LLM personas and present a case study with GPT-3.5 (text-davinci-003) to investigate whether LLMs can generate content with consistent, personalized traits when assigned Big Five personality types and gender roles. We created 320 LLM personas (5 females and 5 males for each of the 32 Big Five personality types) and prompted them to complete the classic 44-item Big Five Inventory (BFI) and then write an 800-word story about their childhood. Results showed that LLM personas' self-reported BFI scores are consistent with their assigned personality types, with large effect sizes found on all five traits. Moreover, significant correlations were found between assigned personality types and some Linguistic Inquiry and Word Count (LIWC) psycholinguistic features of their writings. For instance, extroversion is associated with pro-social and active words, and neuroticism is associated with words related to negative emotions and mental health. Besides, we only found significant differences in using technological and cultural words in writing between LLM-generated female and male personas. This work provides a first step for further research on personalized LLMs and their applications in Human-AI conversation. | 翻訳日:2023-05-05 17:10:04 公開日:2023-05-04 |
# 外乱PCAの近距離時間とストリーミングアルゴリズム Nearly-Linear Time and Streaming Algorithms for Outlier-Robust PCA ( http://arxiv.org/abs/2305.02544v1 ) ライセンス: Link先を確認 | Ilias Diakonikolas, Daniel M. Kane, Ankit Pensia, Thanasis Pittas | (参考訳) 主成分分析 (pca) を研究し、分散から$\mathbb{r}^d$ のデータセットを与えられたとき、そのタスクは、$v$ に沿って投影された後に分布の分散をほぼ最大化する単位ベクトル $v$ を見つけることである。
古典的なタスクであるにもかかわらず、データがごく少数の外れ値を含む場合、標準推定器は大幅に失敗し、ロバストPCAの問題を動機付けている。
最近の研究は、超線形時間か準最適誤差保証を持つロバストPCAのための計算効率のよいアルゴリズムを開発した。
我々の主な貢献は、ほぼ最適誤差保証付きロバストPCAのためのニア線形時間アルゴリズムを開発することである。
また,メモリ使用量にほぼ線形なロバストPCAのためのシングルパスストリーミングアルゴリズムを開発した。 We study principal component analysis (PCA), where given a dataset in $\mathbb{R}^d$ from a distribution, the task is to find a unit vector $v$ that approximately maximizes the variance of the distribution after being projected along $v$. Despite being a classical task, standard estimators fail drastically if the data contains even a small fraction of outliers, motivating the problem of robust PCA. Recent work has developed computationally-efficient algorithms for robust PCA that either take super-linear time or have sub-optimal error guarantees. Our main contribution is to develop a nearly-linear time algorithm for robust PCA with near-optimal error guarantees. We also develop a single-pass streaming algorithm for robust PCA with memory usage nearly-linear in the dimension. | 翻訳日:2023-05-05 17:09:32 公開日:2023-05-04 |
# 実験における干渉の補正:Douyinを事例として Correcting for Interference in Experiments: A Case Study at Douyin ( http://arxiv.org/abs/2305.02542v1 ) ライセンス: Link先を確認 | Vivek F. Farias, Hao Li, Tianyi Peng, Xinyuyang Ren, Huawei Zhang, Andrew Zheng | (参考訳) 干渉は、douyin (china's analog of tiktok) のような双方向コンテンツ市場で行われた実験において、ユビキタスな問題である。
多くの場合、クリエーターは実験の自然な単位であるが、クリエーターは視聴者の限られた時間と注意を競うことで互いに干渉する。
現在使われている「ナイーブ」推定器は、単に干渉を無視するだけでなく、治療効果の順序に不正確な偏見を与える。
我々は,政策評価の1つとして,推論の問題を定式化する。
オフ・ポリティクス推定器は、偏りはないが、急激な高分散である。
本稿では,治療効果の第2次バイアスを実現する「差分・イン・qs(differences-in-qs)」手法に基づくモンテカルロ推定器を提案する。
理論面では、政策評価のためのテイラー展開の一般化理論を開発し、DQ理論を全ての主要なMDP定式化にまで拡張する。
実用面では、Duyinの実験プラットフォーム上で推定器を実装し、その過程でDQを実世界の干渉に対する真の「プラグ・アンド・プレイ」推定器へと発展させ、堅牢で低バイアス、低分散処理効果推定を提供する。 Interference is a ubiquitous problem in experiments conducted on two-sided content marketplaces, such as Douyin (China's analog of TikTok). In many cases, creators are the natural unit of experimentation, but creators interfere with each other through competition for viewers' limited time and attention. "Naive" estimators currently used in practice simply ignore the interference, but in doing so incur bias on the order of the treatment effect. We formalize the problem of inference in such experiments as one of policy evaluation. Off-policy estimators, while unbiased, are impractically high variance. We introduce a novel Monte-Carlo estimator, based on "Differences-in-Qs" (DQ) techniques, which achieves bias that is second-order in the treatment effect, while remaining sample-efficient to estimate. On the theoretical side, our contribution is to develop a generalized theory of Taylor expansions for policy evaluation, which extends DQ theory to all major MDP formulations. On the practical side, we implement our estimator on Douyin's experimentation platform, and in the process develop DQ into a truly "plug-and-play" estimator for interference in real-world settings: one which provides robust, low-bias, low-variance treatment effect estimates; admits computationally cheap, asymptotically exact uncertainty quantification; and reduces MSE by 99\% compared to the best existing alternatives in our applications. | 翻訳日:2023-05-05 17:09:16 公開日:2023-05-04 |
# キャッチミスの詳細:周波数拡張変分オートエンコーダによる画像再構成 Catch Missing Details: Image Reconstruction with Frequency Augmented Variational Autoencoder ( http://arxiv.org/abs/2305.02541v1 ) ライセンス: Link先を確認 | Xinmiao Lin, Yikang Li, Jenhao Hsiao, Chiuman Ho, Yu Kong | (参考訳) 一般的なVQ-VAEモデルは、離散的なコードブックを学習することで画像再構成を行うが、圧縮率が上昇するにつれて画像再構成の高速な品質劣化に悩まされる。
主な理由は、高い圧縮速度が、ピクセル空間の詳細を反映した高周波数スペクトルの視覚信号の損失を増加させるからである。
本稿では,周波数補完モジュール(FCM)アーキテクチャを提案する。
FCMはVQ-VAE構造に容易に組み込むことができ、新しいモデルをFA-VAE( Frequency Augmented VAE)と呼ぶ。
さらに、動的スペクトル損失(DSL)を導入し、最適再構成のために様々な周波数間で動的にバランスをとるようFCMを誘導する。
FA-VAEはテキスト間の合成タスクにさらに拡張され、テキストのより正確なセマンティック属性を得るために、CAT(Cross-attention Autoregressive Transformer)が提案される。
複数のベンチマークデータセットにおいて圧縮率の異なる広範囲な再構成実験を行い,提案手法がsoma法と比較してより忠実に詳細を復元できることを実証した。
CATはまた、画像テキストのセマンティックアライメントを改善することで、生成品質を改善している。 The popular VQ-VAE models reconstruct images through learning a discrete codebook but suffer from a significant issue in the rapid quality degradation of image reconstruction as the compression rate rises. One major reason is that a higher compression rate induces more loss of visual signals on the higher frequency spectrum which reflect the details on pixel space. In this paper, a Frequency Complement Module (FCM) architecture is proposed to capture the missing frequency information for enhancing reconstruction quality. The FCM can be easily incorporated into the VQ-VAE structure, and we refer to the new model as Frequency Augmented VAE (FA-VAE). In addition, a Dynamic Spectrum Loss (DSL) is introduced to guide the FCMs to balance between various frequencies dynamically for optimal reconstruction. FA-VAE is further extended to the text-to-image synthesis task, and a Cross-attention Autoregressive Transformer (CAT) is proposed to obtain more precise semantic attributes in texts. Extensive reconstruction experiments with different compression rates are conducted on several benchmark datasets, and the results demonstrate that the proposed FA-VAE is able to restore more faithfully the details compared to SOTA methods. CAT also shows improved generation quality with better image-text semantic alignment. | 翻訳日:2023-05-05 17:08:48 公開日:2023-05-04 |
# Cuttlefish: チューニング不要の低ランクモデルトレーニング Cuttlefish: Low-rank Model Training without All The Tuning ( http://arxiv.org/abs/2305.02538v1 ) ライセンス: Link先を確認 | Hongyi Wang, Saurabh Agarwal, Pongsakorn U-chupala, Yoshiki Tanaka, Eric P. Xing, Dimitris Papailiopoulos | (参考訳) 近年の研究では、低ランクニューラルネットワークのトレーニングにより、予測精度を犠牲にすることなく、トレーニング可能なパラメータの総数を効果的に削減できることが示されている。
しかし、低ランクモデルトレーニングでは、各層における因子化のランクなど、いくつかの追加の因子化ハイパーパラメータを調整する必要がある。
本稿では,因子化ハイパーパラメータのチューニングを不要にする低ランク自動トレーニング手法であるcuttlefishを導入することで,この課題に挑戦する。
カトルフィッシュは、フルランクトレーニングのいくつかのエポックの後、各層の安定なランク(すなわち、真のランクの近似)が一定値で安定化するという観察を利用する。
クトルフィッシュは全ての層の安定なランクが収束すると、フルランクからローランクのトレーニングに切り替え、それぞれの因子分解の次元を対応する安定なランクに設定する。
この結果から,Cuttlefishはフルランクモデルよりも最大5.6倍のモデルを生成し,最大1.2倍高速なエンドツーエンドトレーニングプロセスを実現するとともに,同等の精度を維持した。
さらに、クトルフィッシュは最先端の低ランクモデルのトレーニング方法や他の顕著なベースラインよりも優れています。
私たちの実装のソースコードは、https://github.com/hwang595/Cuttlefish.com/。 Recent research has shown that training low-rank neural networks can effectively reduce the total number of trainable parameters without sacrificing predictive accuracy, resulting in end-to-end speedups. However, low-rank model training necessitates adjusting several additional factorization hyperparameters, such as the rank of the factorization at each layer. In this paper, we tackle this challenge by introducing Cuttlefish, an automated low-rank training approach that eliminates the need for tuning factorization hyperparameters. Cuttlefish leverages the observation that after a few epochs of full-rank training, the stable rank (i.e., an approximation of the true rank) of each layer stabilizes at a constant value. Cuttlefish switches from full-rank to low-rank training once the stable ranks of all layers have converged, setting the dimension of each factorization to its corresponding stable rank. Our results show that Cuttlefish generates models up to 5.6 times smaller than full-rank models, and attains up to a 1.2 times faster end-to-end training process while preserving comparable accuracy. Moreover, Cuttlefish outperforms state-of-the-art low-rank model training methods and other prominent baselines. The source code for our implementation can be found at: https://github.com/hwang595/Cuttlefish. | 翻訳日:2023-05-05 17:08:26 公開日:2023-05-04 |
# コード長最小化によるパノラマ映像の走査パス予測 Scanpath Prediction in Panoramic Videos via Expected Code Length Minimization ( http://arxiv.org/abs/2305.02536v1 ) ライセンス: Link先を確認 | Mu Li, Kanglong Fan, Kede Ma | (参考訳) パノラマビデオの探索における人間の走査パスの予測は、球面形状と入力の多モード性、出力の固有の不確かさと多様性のために難しい課題である。
これまでのほとんどの手法ではこれらの特性を完全に扱えないため、エラーを起こしやすい。
本稿では,損失データ圧縮の原理に基づくスカンパス予測のための簡易な新しい基準を提案する。
この基準は、トレーニングセットにおける量子化されたスキャンパスの期待コード長を最小化することを提案している。
特に、確率モデルは、変形還元された視覚入力としてのビューポートシーケンスと、各ビューポートにアライメントパス入力として投影された相対的歴史走査パスのセットの2つのモードで条件付けされる。
確率モデルは離散ガウス混合モデルの積によってパラメータ化され、異なるユーザからのスカンパスの不確実性と多様性を捉える。
最も重要なことは、確率モデルのトレーニングは、模倣学習のための'ground-truth'スキャンパスの仕様に依存しない。
また、学習確率モデルから現実的な人間様スキャンパスを生成するために、比例積分微分(PID)コントローラベースのサンプリングも導入する。
実験結果から,提案手法は予測精度(「地下真実」と推定される)と知覚現実性(機械識別による)を多岐にわたる予測地平線上で一貫した定量的な走査パス結果を生成することが示された。
さらに,形式的心理物理学実験による知覚的リアリズムの改善と,未認識のパノラマ映像データセットの一般化による改善を検証した。 Predicting human scanpaths when exploring panoramic videos is a challenging task due to the spherical geometry and the multimodality of the input, and the inherent uncertainty and diversity of the output. Most previous methods fail to give a complete treatment of these characteristics, and thus are prone to errors. In this paper, we present a simple new criterion for scanpath prediction based on principles from lossy data compression. This criterion suggests minimizing the expected code length of quantized scanpaths in a training set, which corresponds to fitting a discrete conditional probability model via maximum likelihood. Specifically, the probability model is conditioned on two modalities: a viewport sequence as the deformation-reduced visual input and a set of relative historical scanpaths projected onto respective viewports as the aligned path input. The probability model is parameterized by a product of discretized Gaussian mixture models to capture the uncertainty and the diversity of scanpaths from different users. Most importantly, the training of the probability model does not rely on the specification of ``ground-truth'' scanpaths for imitation learning. We also introduce a proportional-integral-derivative (PID) controller-based sampler to generate realistic human-like scanpaths from the learned probability model. Experimental results demonstrate that our method consistently produces better quantitative scanpath results in terms of prediction accuracy (by comparing to the assumed ``ground-truths'') and perceptual realism (through machine discrimination) over a wide range of prediction horizons. We additionally verify the perceptual realism improvement via a formal psychophysical experiment and the generalization improvement on several unseen panoramic video datasets. | 翻訳日:2023-05-05 17:08:05 公開日:2023-05-04 |
# 冠動脈標識用ポイントトランスフォーマー Point Transformer For Coronary Artery Labeling ( http://arxiv.org/abs/2305.02533v1 ) ライセンス: Link先を確認 | Xu Wang and Jun Ma and Jing Li | (参考訳) 冠動脈疾患の診断には冠動脈造影(CCTA)が広く用いられている。
CCTA分析のための正確かつ自動的な血管ラベリングアルゴリズムは、診断効率を大幅に改善し、臨床医の手作業を減らすことができる。
本稿では,冠動脈セグメンテーションのみを必要とするポイントトランスを用いた簡易な血管ラベリング法を提案する。
具体的には、まず、冠分割を点雲に変換する。
そして、これらの点を階層的トランスフォーマーブロックに流し込み、局所的およびグローバル的特徴を含む多レベル特徴を得る。
最後に、ネットワークはセマンティック分類ポイントを出力し、それらをセンターラインラベリングにマッピングする。
この方法は冠動脈の分節構造のみに基づいており、他の特徴を必要としないため、例えば頭頸部ラベリングのような他の血管ラベリングタスクに一般化することが容易である。
提案手法の性能を評価するため,53名の被験者のCCTAスキャンを実験で収集した。
実験の結果,本手法の有効性が示された。 Coronary CT angiography (CCTA) scans are widely used for diagnosis of coronary artery diseases. An accurate and automatic vessel labeling algorithm for CCTA analysis can significantly improve the diagnostic efficiency and reduce the clinicians'manual efforts. In this paper, we propose a simple vessel labeling method based on the Point Transformer, which only needs the coronary artery segmentation. Specifically, firstly, the coronary segmentation is transformed to point cloud. Then, these points are fed into the hierarchical transformer blocks to obtain the multi-level features, including local and global features. Finally, the network output the semantic classification points and map them to centerline labeling. This method is only based on the structure of coronary segmentation and need not other features, so it is easy to generalize to other vessel labeling tasks, e.g., head and neck vessel labeling. To evaluate the performance of our proposed method, CCTA scans of 53 subjects are collected in our experiment. The experimental results demonstrate the efficacy of this approach. | 翻訳日:2023-05-05 17:07:36 公開日:2023-05-04 |
# 言語、時間選好、消費者行動:大規模言語モデルからの証拠 Language, Time Preferences, and Consumer Behavior: Evidence from Large Language Models ( http://arxiv.org/abs/2305.02531v1 ) ライセンス: Link先を確認 | Ali Goli, Amandeep Singh | (参考訳) 言語は時間と報酬に対する認識に強い影響を与えます。
これは、大きな言語モデルが、異なる言語で尋ねられると、時間とともに報酬に対する異なる好みを示し、その選択が人間のものと似ているかどうかという疑問を提起する。
本研究では,複数の言語におけるプロンプトに対するgpt-3.5(以下gptと呼ぶ)の反応を分析し,より小さく,より早い報酬とより大きな後続報酬の選好について検討した。
以上の結果から, GPTはドイツ語やマンダリンなどの言語において, 英語やフランス語のような強いFTRを持つ言語と比較して, FTRが弱い言語において, より忍耐力を示すことが示された。
これらの知見は既存の文献と一致しており、GPTの選択と話者の好みの相関関係が示唆されている。
しかし、さらなる分析により、早期または後期の報酬の選好は、報酬ギャップによって体系的に変化せず、早期の支払いに対する語彙選好を示すことが明らかとなった。
GPTは言語間の興味深いバリエーションを捉えることができるが、これらのモデルによる選択は人間の意思決定者とは一致しない。 Language has a strong influence on our perceptions of time and rewards. This raises the question of whether large language models, when asked in different languages, show different preferences for rewards over time and if their choices are similar to those of humans. In this study, we analyze the responses of GPT-3.5 (hereafter referred to as GPT) to prompts in multiple languages, exploring preferences between smaller, sooner rewards and larger, later rewards. Our results show that GPT displays greater patience when prompted in languages with weak future tense references (FTR), such as German and Mandarin, compared to languages with strong FTR, like English and French. These findings are consistent with existing literature and suggest a correlation between GPT's choices and the preferences of speakers of these languages. However, further analysis reveals that the preference for earlier or later rewards does not systematically change with reward gaps, indicating a lexicographic preference for earlier payments. While GPT may capture intriguing variations across languages, our findings indicate that the choices made by these models do not correspond to those of human decision-makers. | 翻訳日:2023-05-05 17:07:21 公開日:2023-05-04 |
# スーパーポイントによる自己監督型3次元シーンフロー推定 Self-Supervised 3D Scene Flow Estimation Guided by Superpoints ( http://arxiv.org/abs/2305.02528v1 ) ライセンス: Link先を確認 | Yaqi Shen, Le Hui, Jin Xie, and Jian Yang | (参考訳) 3次元シーンフロー推定は、点雲の2つの連続するフレーム間の点運動を推定することを目的としている。
スーパーポイント、すなわち類似した幾何学的特徴を持つ点は通常、シーンフロー推定のために3dシーン内の局所領域の類似した動きをキャプチャするために使用される。
しかし、既存の手法ではスーパーポイントがオフラインクラスタリング法で生成され、複雑な3dシーンに対して同様の動きで局所領域を特徴づけることができないため、不正確なシーンフロー推定に繋がる。
そこで本研究では,ポイントレベルのフロー予測を導くために,動的にスーパーポイントを更新可能な,反復的なエンドツーエンドのスーパーポイントベースシーンフロー推定フレームワークを提案する。
具体的には,フローガイド型スーパーポイント生成モジュールとスーパーポイントガイド型フローリファインメントモジュールからなる。
スーパーポイント生成モジュールでは、前回の繰り返しにおける双方向フロー情報を用いて、ソフトポイント対スーパーポイントアソシエーション構築のためのポイントとスーパーポイントセンターの一致点を求め、このスーパーポイントをペアポイントの雲に対して生成する。
生成したスーパーポイントを用いて、まず、スーパーポイントレベルのフローを適応的に集約して各ポイントのフローを再構成し、次いでペアのポイント雲の再構成フロー間の一貫性を符号化する。
最後に、GRUに再構成された流れと共に整合性符号化を行い、点レベルの流れを洗練させる。
複数の異なるデータセットに対する大規模な実験により,本手法が有望な性能を実現することを示す。 3D scene flow estimation aims to estimate point-wise motions between two consecutive frames of point clouds. Superpoints, i.e., points with similar geometric features, are usually employed to capture similar motions of local regions in 3D scenes for scene flow estimation. However, in existing methods, superpoints are generated with the offline clustering methods, which cannot characterize local regions with similar motions for complex 3D scenes well, leading to inaccurate scene flow estimation. To this end, we propose an iterative end-to-end superpoint based scene flow estimation framework, where the superpoints can be dynamically updated to guide the point-level flow prediction. Specifically, our framework consists of a flow guided superpoint generation module and a superpoint guided flow refinement module. In our superpoint generation module, we utilize the bidirectional flow information at the previous iteration to obtain the matching points of points and superpoint centers for soft point-to-superpoint association construction, in which the superpoints are generated for pairwise point clouds. With the generated superpoints, we first reconstruct the flow for each point by adaptively aggregating the superpoint-level flow, and then encode the consistency between the reconstructed flow of pairwise point clouds. Finally, we feed the consistency encoding along with the reconstructed flow into GRU to refine point-level flow. Extensive experiments on several different datasets show that our method can achieve promising performance. | 翻訳日:2023-05-05 17:06:59 公開日:2023-05-04 |
# 遅延・複合・部分匿名報酬による強化学習 Reinforcement Learning with Delayed, Composite, and Partially Anonymous Reward ( http://arxiv.org/abs/2305.02527v1 ) ライセンス: Link先を確認 | Washim Uddin Mondal and Vaneet Aggarwal | (参考訳) 無限水平平均報酬マルコフ決定過程 (MDP) を, 遅延, 複合, 部分的に匿名の報酬フィードバックを用いて検討した。
報酬の遅れと複合性は、与えられた状態におけるアクションの結果として生じる報酬が、異なるコンポーネントに断片化され、遅延した時間インスタンスで順次実現されることを意味する。
部分匿名属性は、学習者が各状態に対して、その状態において異なるアクションによって生成された過去の報酬成分の集合のみを観察するが、観察インスタンスで実現されることを意味する。
提案するアルゴリズムは$\mathrm{DUCRL2}$と名づけられたアルゴリズムで、この設定に最適に近いポリシーを得られることを示し、$\tilde{\mathcal{O}}\left(DS\sqrt{AT} + d (SA)^3\right)$で、$S$と$A$は状態と行動空間のサイズであり、$D$はMDPの直径、$d$は最大報酬遅延によって上限付けられたパラメータであり、$T$は時間地平線を表す。
これは、バウンドが$t$の順に最適であることと遅延の付加的な影響を示している。 We investigate an infinite-horizon average reward Markov Decision Process (MDP) with delayed, composite, and partially anonymous reward feedback. The delay and compositeness of rewards mean that rewards generated as a result of taking an action at a given state are fragmented into different components, and they are sequentially realized at delayed time instances. The partial anonymity attribute implies that a learner, for each state, only observes the aggregate of past reward components generated as a result of different actions taken at that state, but realized at the observation instance. We propose an algorithm named $\mathrm{DUCRL2}$ to obtain a near-optimal policy for this setting and show that it achieves a regret bound of $\tilde{\mathcal{O}}\left(DS\sqrt{AT} + d (SA)^3\right)$ where $S$ and $A$ are the sizes of the state and action spaces, respectively, $D$ is the diameter of the MDP, $d$ is a parameter upper bounded by the maximum reward delay, and $T$ denotes the time horizon. This demonstrates the optimality of the bound in the order of $T$, and an additive impact of the delay. | 翻訳日:2023-05-05 17:06:33 公開日:2023-05-04 |
# マルチモーダル感情空間学習による高忠実度一般化感情対話顔生成 High-fidelity Generalized Emotional Talking Face Generation with Multi-modal Emotion Space Learning ( http://arxiv.org/abs/2305.02572v1 ) ライセンス: Link先を確認 | Chao Xu, Junwei Zhu, Jiangning Zhang, Yue Han, Wenqing Chu, Ying Tai, Chengjie Wang, Zhifeng Xie, Yong Liu | (参考訳) 近年,感情的な対面生成が注目されている。
しかし、既存の手法では、感情条件としてワンホットコーディング、イメージ、音声のみを採用しており、実用的なアプリケーションでは柔軟な制御ができず、セマンティクスに制限があるため、目に見えない感情スタイルを処理できない。
ワンショット設定や生成された顔の品質を無視する。
本稿では,より柔軟で汎用的なフレームワークを提案する。
具体的には、テキストプロンプトで感情のスタイルを補足し、CLIPに先立ってリッチなセマンティクスを継承するテキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
その結果、効果的なマルチモーダル感情空間学習は、テスト中に任意の感情モダリティをサポートし、知覚できない感情スタイルに一般化することができる。
さらに,感情条件と音声シーケンスを構造表現に結びつけるために,感情認識型3DMM変換器を提案する。
追従型高忠実感情顔生成器は、任意の高精細な現実的アイデンティティを生成するように設計されている。
我々のテクスチャジェネレータは階層的に流れ場とアニメーションの顔を残留的に学習する。
広範な実験により,感情制御における手法の柔軟性と一般化,高品質顔合成の有効性が実証された。 Recently, emotional talking face generation has received considerable attention. However, existing methods only adopt one-hot coding, image, or audio as emotion conditions, thus lacking flexible control in practical applications and failing to handle unseen emotion styles due to limited semantics. They either ignore the one-shot setting or the quality of generated faces. In this paper, we propose a more flexible and generalized framework. Specifically, we supplement the emotion style in text prompts and use an Aligned Multi-modal Emotion encoder to embed the text, image, and audio emotion modality into a unified space, which inherits rich semantic prior from CLIP. Consequently, effective multi-modal emotion space learning helps our method support arbitrary emotion modality during testing and could generalize to unseen emotion styles. Besides, an Emotion-aware Audio-to-3DMM Convertor is proposed to connect the emotion condition and the audio sequence to structural representation. A followed style-based High-fidelity Emotional Face generator is designed to generate arbitrary high-resolution realistic identities. Our texture generator hierarchically learns flow fields and animated faces in a residual manner. Extensive experiments demonstrate the flexibility and generalization of our method in emotion control and the effectiveness of high-quality face synthesis. | 翻訳日:2023-05-05 16:58:48 公開日:2023-05-04 |
# 構造的特徴に基づくニューロン膜セグメンテーションの教師なし領域適応 Unsupervised Domain Adaptation for Neuron Membrane Segmentation based on Structural Features ( http://arxiv.org/abs/2305.02569v1 ) ライセンス: Link先を確認 | Yuxiang An, Dongnan Liu, Weidong Cai | (参考訳) 電子顕微鏡(EM)画像における神経境界のAIによるセグメンテーションは、自動的かつ正確な神経情報学研究に不可欠である。
医用画像解析のための典型的なディープラーニングフレームワークの限定的な一般化能力を高めるために、教師なし領域適応法(UDA)が適用されている。
本研究では,EM画像における領域横断ニューロン膜分割におけるUDA法の性能向上を提案する。
まず,適応時の構造的特徴を考慮した特徴重みモジュールの設計を行った。
第2に,クロスドメイン画像の解像度を調整することで領域ギャップを軽減する構造的特徴に基づく超解像手法を提案する。
第3に, 領域不変特徴の抽出を容易にする直交分解モジュールを提案する。
2つの領域適応膜セグメンテーションの応用実験により,本手法の有効性が示された。 AI-enhanced segmentation of neuronal boundaries in electron microscopy (EM) images is crucial for automatic and accurate neuroinformatics studies. To enhance the limited generalization ability of typical deep learning frameworks for medical image analysis, unsupervised domain adaptation (UDA) methods have been applied. In this work, we propose to improve the performance of UDA methods on cross-domain neuron membrane segmentation in EM images. First, we designed a feature weight module considering the structural features during adaptation. Second, we introduced a structural feature-based super-resolution approach to alleviating the domain gap by adjusting the cross-domain image resolutions. Third, we proposed an orthogonal decomposition module to facilitate the extraction of domain-invariant features. Extensive experiments on two domain adaptive membrane segmentation applications have indicated the effectiveness of our method. | 翻訳日:2023-05-05 16:58:24 公開日:2023-05-04 |
# layoutdm: レイアウト生成のためのトランスベース拡散モデル LayoutDM: Transformer-based Diffusion Model for Layout Generation ( http://arxiv.org/abs/2305.02567v1 ) ライセンス: Link先を確認 | Shang Chai and Liansheng Zhuang and Fengying Yan | (参考訳) 高品質なレイアウトを合成できる自動レイアウト生成は、多くのアプリケーションにおいてグラフィックデザインの重要なツールである。
GAN (Generative Adversarial Networks) やVAE (variantal Auto-Encoders) といった生成モデルに基づく既存の手法は進歩しているが、結果の品質と多様性を改善する余地は残っていない。
高品質な画像生成における拡散モデルの成功に触発された本研究では,条件付き拡散確率モデル(DDPM)を純粋に変換器ベースのアーキテクチャでインスタンス化することにより,条件付きレイアウト生成の可能性を探り,トランスフォーマーベースのレイアウト拡散モデル(LayoutDM)を提案する。
畳み込みニューラルネットワークを使用する代わりに、ノイズレイアウトデータからサンプルを生成する逆拡散過程を学習するために、トランスベースの条件付きレイアウトデノイザーが提案されている。
transformer と ddpm の両方の利点により,layoutdm は gans や vaes と比較して高品質な生成,強いサンプル多様性,忠実な分布範囲,定常的なトレーニングといった望ましい特性を持っている。
定量的および定性的な実験結果から,本手法は品質と多様性の点で最先端の生成モデルより優れていることが示された。 Automatic layout generation that can synthesize high-quality layouts is an important tool for graphic design in many applications. Though existing methods based on generative models such as Generative Adversarial Networks (GANs) and Variational Auto-Encoders (VAEs) have progressed, they still leave much room for improving the quality and diversity of the results. Inspired by the recent success of diffusion models in generating high-quality images, this paper explores their potential for conditional layout generation and proposes Transformer-based Layout Diffusion Model (LayoutDM) by instantiating the conditional denoising diffusion probabilistic model (DDPM) with a purely transformer-based architecture. Instead of using convolutional neural networks, a transformer-based conditional Layout Denoiser is proposed to learn the reverse diffusion process to generate samples from noised layout data. Benefitting from both transformer and DDPM, our LayoutDM is of desired properties such as high-quality generation, strong sample diversity, faithful distribution coverage, and stationary training in comparison to GANs and VAEs. Quantitative and qualitative experimental results show that our method outperforms state-of-the-art generative models in terms of quality and diversity. | 翻訳日:2023-05-05 16:58:13 公開日:2023-05-04 |
# RetroMAE-2: 事前学習型検索言語モデルのための複写型自動エンコーダ RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models ( http://arxiv.org/abs/2305.02564v1 ) ライセンス: Link先を確認 | Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao | (参考訳) Web検索やオープンドメイン質問応答などの情報検索タスクをより支援するために,RetroMAEなどの検索指向言語モデルの開発に力を入れている。
既存の作業のほとんどは[cls]トークンのコンテキスト化された埋め込みのための意味表現能力の改善に重点を置いている。
しかし、最近の研究では、[CLS]以外の通常のトークンは、表現効果を高めるために余分な情報を提供する可能性があることが示されている。
そのため、コンテクスト化された埋め込みを検索タスクのために共同で事前学習できる現在のメソッドを拡張する必要がある。
本研究では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化された埋め込みを活用できるセマンティック表現の品質を向上させるように設計されている。
1つは[CLS]埋め込み上に入力文を再構成し、もう1つは通常のトークンの埋め込みに基づいて入力文の単語の特徴を予測する。
2つのタスクは統合エンコーダを訓練するために共同で行われ、コンテキスト化された埋め込み全体をコンパクトな方法で集約して最終的な意味表現を生成する。
DupMAEは単純だが実験的に競争力があり、MS MARCOやBEIRのような一般的なベンチマークで優れた検索性能が得られる事前訓練されたモデルの表現能力と転送性を大幅に改善する。 To better support information retrieval tasks such as web search and open-domain question answering, growing effort is made to develop retrieval-oriented language models, e.g., RetroMAE and many others. Most of the existing works focus on improving the semantic representation capability for the contextualized embedding of the [CLS] token. However, recent study shows that the ordinary tokens besides [CLS] may provide extra information, which help to produce a better representation effect. As such, it's necessary to extend the current methods where all contextualized embeddings can be jointly pre-trained for the retrieval tasks. In this work, we propose a novel pre-training method called Duplex Masked Auto-Encoder, a.k.a. DupMAE. It is designed to improve the quality of semantic representation where all contextualized embeddings of the pre-trained model can be leveraged. It takes advantage of two complementary auto-encoding tasks: one reconstructs the input sentence on top of the [CLS] embedding; the other one predicts the bag-of-words feature of the input sentence based on the ordinary tokens' embeddings. The two tasks are jointly conducted to train a unified encoder, where the whole contextualized embeddings are aggregated in a compact way to produce the final semantic representation. DupMAE is simple but empirically competitive: it substantially improves the pre-trained model's representation capability and transferability, where superior retrieval performances can be achieved on popular benchmarks, like MS MARCO and BEIR. | 翻訳日:2023-05-05 16:57:50 公開日:2023-05-04 |
# 人間と機械のスケーラブル符号化における条件と残留法 Conditional and Residual Methods in Scalable Coding for Humans and Machines ( http://arxiv.org/abs/2305.02562v1 ) ライセンス: Link先を確認 | Anderson de Andrade, Alon Harell, Yalda Foroutan, Ivan V. Baji\'c | (参考訳) 本稿では,人間および機械のスケーラブルコーディングの文脈において,条件付きおよび残差符号化の手法を提案する。
我々は,コンピュータビジョンタスクで利用可能な情報を用いて,再建作業の速度歪み性能を最適化することに注力する。
ベースラインを提供するための両手法の情報分析を含むとともに,モデリング能力の向上と従来と類似したトラクタビリティを備えた条件付き符号化に適したエントロピーモデルを提案する。
これらの手法を画像再構成に適用し、cityscapesデータセット上のセマンティックセグメンテーション用に作成された表現と、cocoデータセット上のオブジェクト検出のために作成された表現を用いている。
両実験とも条件付き法と残留法で同様の性能を示し,その結果の速度歪み曲線はベースラインに含まれる。 We present methods for conditional and residual coding in the context of scalable coding for humans and machines. Our focus is on optimizing the rate-distortion performance of the reconstruction task using the information available in the computer vision task. We include an information analysis of both approaches to provide baselines and also propose an entropy model suitable for conditional coding with increased modelling capacity and similar tractability as previous work. We apply these methods to image reconstruction, using, in one instance, representations created for semantic segmentation on the Cityscapes dataset, and in another instance, representations created for object detection on the COCO dataset. In both experiments, we obtain similar performance between the conditional and residual methods, with the resulting rate-distortion curves contained within our baselines. | 翻訳日:2023-05-05 16:57:24 公開日:2023-05-04 |
# AI開発ダイナミクスにおけるメリットシグナリング Beneficence Signaling in AI Development Dynamics ( http://arxiv.org/abs/2305.02561v1 ) ライセンス: Link先を確認 | Sarita Rosenstock | (参考訳) 本稿では,AI開発を取り巻く社会技術システムが社会福祉とどのように相互作用するかを理解するための枠組みを構築した。
進化ゲーム理論から‘signaling’の概念を導入し、AIシステムの評価とガバナンスを取り巻く既存の理論と実践をいかに拡張できるかを示した。 This paper motivates and develops a framework for understanding how the socio-technical systems surrounding AI development interact with social welfare. It introduces the concept of ``signaling'' from evolutionary game theory and demonstrates how it can enhance existing theory and practice surrounding the evaluation and governance of AI systems. | 翻訳日:2023-05-05 16:57:10 公開日:2023-05-04 |
# 計算言語学的視点による香港の法的判断の分析 Analyzing Hong Kong's Legal Judgments from a Computational Linguistics point-of-view ( http://arxiv.org/abs/2305.02558v1 ) ライセンス: Link先を確認 | Sankalok Sen | (参考訳) 計算言語学を用いた法的判断から有用な情報の分析と抽出は,情報検索分野において最も初期の問題であった。
現在、そのようなタスクを自動化するいくつかの商用ベンダーが存在する。
しかし、香港の法制度による判断の分析において、外為価格や資源の不足という形で重大なボトルネックが発生する。
本稿では,香港の裁判所制度の法的判断を効果的に分析するために,統計的,機械学習,深層学習,ゼロショット学習に基づくいくつかの手法を提供することにより,このギャップを埋めようとしている。
1) 引用ネットワークグラフ生成, (2) ページランクアルゴリズム, (3) キーワード分析と要約, (4) 感情極性, (5) パラグラ分類により, 個人から重要な洞察を抽出できる。
これにより、香港における判断の全体的な分析が退屈で自動化され、迅速な推論を使って洞察を素早く抽出できるようになる。
また,huggingfaceエコシステムを堅牢に活用した大規模言語モデルを用いて結果をベンチマークすることにより,結果の分析を行う。 Analysis and extraction of useful information from legal judgments using computational linguistics was one of the earliest problems posed in the domain of information retrieval. Presently, several commercial vendors exist who automate such tasks. However, a crucial bottleneck arises in the form of exorbitant pricing and lack of resources available in analysis of judgements mete out by Hong Kong's Legal System. This paper attempts to bridge this gap by providing several statistical, machine learning, deep learning and zero-shot learning based methods to effectively analyze legal judgments from Hong Kong's Court System. The methods proposed consists of: (1) Citation Network Graph Generation, (2) PageRank Algorithm, (3) Keyword Analysis and Summarization, (4) Sentiment Polarity, and (5) Paragrah Classification, in order to be able to extract key insights from individual as well a group of judgments together. This would make the overall analysis of judgments in Hong Kong less tedious and more automated in order to extract insights quickly using fast inferencing. We also provide an analysis of our results by benchmarking our results using Large Language Models making robust use of the HuggingFace ecosystem. | 翻訳日:2023-05-05 16:57:04 公開日:2023-05-04 |
# モンテカルロ計画による忠実な質問応答 Faithful Question Answering with Monte-Carlo Planning ( http://arxiv.org/abs/2305.02556v1 ) ライセンス: Link先を確認 | Ruixin Hong, Hongming Zhang, Hong Zhao, Dong Yu, Changshui Zhang | (参考訳) 大きな言語モデルは驚くべき質問応答性能を示すが、モデルが忠実に従う中間的推論ステップを明らかにすることは依然として困難である。
そこで本稿では,モンテカルロ計画によるファレンス(faithful question answering with monte-carlo planning)を提案する。
推論ステップは構造化された補足木として構成され、回答の正しさを証明する中間的な結論を生み出すために前提がどのように使われるかを示す。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
環境はモジュールであり、いくつかの基本的なタスク指向モジュールを含んでいるが、コントローラはモジュールを組み立てるためのアクションを提案する。
検索スペースが大きくなる可能性があるので,モンテカルロ計画アルゴリズムを導入してルックアヘッド検索を行い,最終的に高品質なステップへと導くアクションを選択する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
モデルサイズがはるかに小さい大きな言語モデルと比較して、有効で忠実な推論ステップを生成することができる。 Although large language models demonstrate remarkable question-answering performances, revealing the intermediate reasoning steps that the models faithfully follow remains challenging. In this paper, we propose FAME (FAithful question answering with MontE-carlo planning) to answer questions based on faithful reasoning steps. The reasoning steps are organized as a structured entailment tree, which shows how premises are used to produce intermediate conclusions that can prove the correctness of the answer. We formulate the task as a discrete decision-making problem and solve it through the interaction of a reasoning environment and a controller. The environment is modular and contains several basic task-oriented modules, while the controller proposes actions to assemble the modules. Since the search space could be large, we introduce a Monte-Carlo planning algorithm to do a look-ahead search and select actions that will eventually lead to high-quality steps. FAME achieves state-of-the-art performance on the standard benchmark. It can produce valid and faithful reasoning steps compared with large language models with a much smaller model size. | 翻訳日:2023-05-05 16:56:44 公開日:2023-05-04 |
# ChatGPTとBardはデータプロバイダと利益を共有すべきか?
AI時代の新しいビジネスモデル Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era ( http://arxiv.org/abs/2305.02555v1 ) ライセンス: Link先を確認 | Dong Zhang | (参考訳) ChatGPTのようなさまざまなAIツールが普及するにつれて、私たちは真のAIの時代に入りつつある。
例外的なAIツールがすぐにかなりの利益を得ると予想できる。
AIツールは、従来の利害関係者や株主に加えて、トレーニングデータプロバイダと収益を共有するべきか?
答えはイエスです。
大規模言語モデルのような大規模なAIツールは、継続的に改善するためには、より高品質なデータを必要とするが、現在の著作権法は様々な種類のデータへのアクセスを制限する。
AIツールとデータプロバイダ間で収益を共有することで、現在の敵対的なゼロサムゲーム関係を、AIツールと著作権のあるデータ所有者の大多数が協力的かつ相互に利益をもたらすものにすることができる。
しかし、現在の収益分配ビジネスモデルは、次のAI時代のAIツールでは機能しない。なぜなら、ウェブサイトベースのトラフィックやクリックのようなアクションのための最も広く使われているメトリクスは、生成AIツールのプロンプトやコストといった新しいメトリクスに置き換えられるからだ。
まったく新しい収益分配ビジネスモデルは、AIツールからほぼ独立して、データプロバイダに簡単に説明できる必要があるが、各データプロバイダのデータエンゲージメントを測定するために、プロンプトベースのスコアリングシステムを確立する必要がある。
本稿では、分類とコンテンツ類似性モデルに基づいて、AIツールのすべてのデータプロバイダに対して、このようなスコアリングシステムを構築する方法を体系的に議論し、それを構築するためのAIツールやサードパーティの要件を概説する。
このようなスコアリングシステムを使ってデータプロバイダと収益を共有することで、より多くのデータ所有者が収益共有プログラムに参加することができる。
これは、すべての当事者が恩恵を受ける、実用的なAI時代になるでしょう。 With various AI tools such as ChatGPT becoming increasingly popular, we are entering a true AI era. We can foresee that exceptional AI tools will soon reap considerable profits. A crucial question arise: should AI tools share revenue with their training data providers in additional to traditional stakeholders and shareholders? The answer is Yes. Large AI tools, such as large language models, always require more and better quality data to continuously improve, but current copyright laws limit their access to various types of data. Sharing revenue between AI tools and their data providers could transform the current hostile zero-sum game relationship between AI tools and a majority of copyrighted data owners into a collaborative and mutually beneficial one, which is necessary to facilitate the development of a virtuous cycle among AI tools, their users and data providers that drives forward AI technology and builds a healthy AI ecosystem. However, current revenue-sharing business models do not work for AI tools in the forthcoming AI era, since the most widely used metrics for website-based traffic and action, such as clicks, will be replaced by new metrics such as prompts and cost per prompt for generative AI tools. A completely new revenue-sharing business model, which must be almost independent of AI tools and be easily explained to data providers, needs to establish a prompt-based scoring system to measure data engagement of each data provider. This paper systematically discusses how to build such a scoring system for all data providers for AI tools based on classification and content similarity models, and outlines the requirements for AI tools or third parties to build it. Sharing revenue with data providers using such a scoring system would encourage more data owners to participate in the revenue-sharing program. This will be a utilitarian AI era where all parties benefit. | 翻訳日:2023-05-05 16:56:27 公開日:2023-05-04 |
# FormNetV2:フォーム文書情報抽出のためのマルチモーダルグラフコントラスト学習 FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction ( http://arxiv.org/abs/2305.02549v1 ) ライセンス: Link先を確認 | Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister | (参考訳) 近年、自己指導型事前学習技術が出現し、形式文書理解におけるマルチモーダル学習の利用が急増している。
しかしながら、マスク言語モデリングを他のモダリティに拡張する既存のアプローチでは、注意深いマルチタスクチューニング、複雑な再構築ターゲット設計、追加の事前トレーニングデータが必要である。
我々は,FormNetV2において,一損失におけるすべてのモダリティに対する自己教師付き事前学習を統一する,集中型マルチモーダルグラフコントラスト学習戦略を導入する。
グラフの対比的目的は多様表現の合意を最大化し、特別なカスタマイズなしにすべてのモダリティに対する自然な相互作用を提供する。
さらに,グラフエッジで接続された一対のトークンと結合するバウンディングボックス内の画像の特徴を抽出し,高度で個別に訓練された画像埋め込み装置をロードすることなく,より標的となる視覚的手がかりをキャプチャする。
FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。 The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size. | 翻訳日:2023-05-05 16:55:56 公開日:2023-05-04 |
# マルチモーダル対話型顔生成, 顔交換, 拡散モデル Multimodal-driven Talking Face Generation, Face Swapping, Diffusion Model ( http://arxiv.org/abs/2305.02594v1 ) ライセンス: Link先を確認 | Chao Xu, Shaoting Zhu, Junwei Zhu, Tianxin Huang, Jiangning Zhang, Ying Tai, Yong Liu | (参考訳) マルチモーダル対話顔生成(multimodal-driven talking face generation)とは、画像や映像から転送された所定のポーズ、表情、視線、あるいはテキストや音声から推定した人物像をアニメーションすることを指す。
しかし、既存の手法はテキスト・モーダルの可能性を無視しており、ジェネレータは主に不安定なGANフレームワークと組み合わされたソース指向の特徴再構成パラダイムに従う。
本研究では,まずテキストプロンプトの感情を表現し,CLIPからリッチな意味論を継承し,柔軟で一般化された感情制御を可能にする。
さらに,これらのタスクを目標指向のテクスチャ転送として再編成し,拡散モデルを採用する。
More specifically, given a textured face as the source and the rendered face projected from the desired 3DMM coefficients as the target, our proposed Texture-Geometry-aware Diffusion Model decomposes the complex transfer problem into multi-conditional denoising process, where a Texture Attention-based module accurately models the correspondences between appearance and geometry cues contained in source and target conditions, and incorporate extra implicit information for high-fidelity talking face generation.
さらに、TGDMは顔交換用に優雅に調整できる。
我々は,不安定なシーソー型最適化を含まない新しいパラダイムを導出し,単純で安定で効果的なトレーニングと推論スキームを実現する。
広範な実験により,本手法の優越性が示された。 Multimodal-driven talking face generation refers to animating a portrait with the given pose, expression, and gaze transferred from the driving image and video, or estimated from the text and audio. However, existing methods ignore the potential of text modal, and their generators mainly follow the source-oriented feature rearrange paradigm coupled with unstable GAN frameworks. In this work, we first represent the emotion in the text prompt, which could inherit rich semantics from the CLIP, allowing flexible and generalized emotion control. We further reorganize these tasks as the target-oriented texture transfer and adopt the Diffusion Models. More specifically, given a textured face as the source and the rendered face projected from the desired 3DMM coefficients as the target, our proposed Texture-Geometry-aware Diffusion Model decomposes the complex transfer problem into multi-conditional denoising process, where a Texture Attention-based module accurately models the correspondences between appearance and geometry cues contained in source and target conditions, and incorporate extra implicit information for high-fidelity talking face generation. Additionally, TGDM can be gracefully tailored for face swapping. We derive a novel paradigm free of unstable seesaw-style optimization, resulting in simple, stable, and effective training and inference schemes. Extensive experiments demonstrate the superiority of our method. | 翻訳日:2023-05-05 16:50:55 公開日:2023-05-04 |
# シングルライターファインチューニングのための事前学習手書き認識モデルの選択方法 How to Choose Pretrained Handwriting Recognition Models for Single Writer Fine-Tuning ( http://arxiv.org/abs/2305.02593v1 ) ライセンス: Link先を確認 | Vittorio Pippi, Silvia Cascianelli, Christopher Kermorvant, Rita Cucchiara | (参考訳) 深層学習に基づく手書き文字認識(htr)の最近の進歩は、大規模ベンチマークデータセットにおいて、現代の写本と歴史的写本の両方に顕著な性能を持つモデルにつながった。
それにもかかわらず、これらのモデルは、言語、紙の支持、インク、著者の筆跡などの独特の特徴を持つ写本に適用しても、同じパフォーマンスを得るのに苦労している。
この問題は、十分な注釈付きトレーニングデータを得るのにコストがかかるか、場合によっては不可能である、歴史資料に保存されている文書の小さなコレクションに非常に関係がある。
この課題を克服するために考えられる解決策は、大規模なデータセットでhtrモデルを事前トレーニングし、小さなシングル著者コレクションで微調整することだ。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
精細な調整線量も考慮し,広範囲な実験分析を行い,実際の精細な調整線を5本しか持たない小コレクションの写本を効果的に書き起こせるhtrモデルを得る上で,それらのデータに最も関連する特徴を定量的に示す。 Recent advancements in Deep Learning-based Handwritten Text Recognition (HTR) have led to models with remarkable performance on both modern and historical manuscripts in large benchmark datasets. Nonetheless, those models struggle to obtain the same performance when applied to manuscripts with peculiar characteristics, such as language, paper support, ink, and author handwriting. This issue is very relevant for valuable but small collections of documents preserved in historical archives, for which obtaining sufficient annotated training data is costly or, in some cases, unfeasible. To overcome this challenge, a possible solution is to pretrain HTR models on large datasets and then fine-tune them on small single-author collections. In this paper, we take into account large, real benchmark datasets and synthetic ones obtained with a styled Handwritten Text Generation model. Through extensive experimental analysis, also considering the amount of fine-tuning lines, we give a quantitative indication of the most relevant characteristics of such data for obtaining an HTR model able to effectively transcribe manuscripts in small collections with as little as five real fine-tuning lines. | 翻訳日:2023-05-05 16:50:31 公開日:2023-05-04 |
# 0.4ミリ秒の緩和時間による超電導ビットの機械的相関誤差 Mechanically Induced Correlated Errors on Superconducting Qubits with Relaxation Times Exceeding 0.4 Milliseconds ( http://arxiv.org/abs/2305.02591v1 ) ライセンス: Link先を確認 | Shingo Kono, Jiahe Pan, Mahdi Chegnizadeh, Xuxin Wang, Amir Youssefi, Marco Scigliuzzo, Tobias J. Kippenberg | (参考訳) 超伝導量子ビットはスケーラブルでフォールトトレラントな量子コンピューティングを実現する最も先進的な候補の一つである。
近年の量子ビット寿命の著しい進歩にもかかわらず、最先端の量子ビットの損失機構の起源はいまだに調査の対象となっている。
さらに、量子誤差補正を成功させるには、量子ビット間の相関誤差が無視できる必要がある。
本稿では、ジョセフソン進行波パラメトリック増幅器に基づくほぼ量子制限された読み出しチェーンを用いて、ニオブキャパシタ電極に基づく超コヒーレント超伝導量子ビットを0.4ms以上で実現し、複数の量子ビットデバイスで発生したビットフリップ誤差を同時記録し、2つの高コヒーレント量子ビットにおけるビットフリップ誤差が強く相関していることを明らかにする。
希釈冷凍機においてパルス管冷却器の動作と同期する新しい時間分解解析を導入することで,パルス管の機械的衝撃が量子ビットの非平衡ダイナミクスを生じさせ,ビットフリップ誤差と計算状態空間外の遷移の相関を生じさせることがわかった。
本研究により, 超伝導材料を応用したトランスモン量子ビットにおいて, コヒーレンス向上が達成可能であることを確認した。
さらに,2レベル系および準粒子によって誘導されるクビット力学と一致し,クビット誤り機構の理解を深めることができた。
最後に, 超伝導量子ビットを機械的環境から切り離すことにより, 新たな誤差軽減戦略がもたらされた。 Superconducting qubits are one of the most advanced candidates to realize scalable and fault-tolerant quantum computing. Despite recent significant advancements in the qubit lifetimes, the origin of the loss mechanism for state-of-the-art qubits is still subject to investigation. Moreover, successful implementation of quantum error correction requires negligible correlated errors among qubits. Here, we realize ultra-coherent superconducting transmon qubits based on niobium capacitor electrodes, with lifetimes exceeding 0.4 ms. By employing a nearly quantum-limited readout chain based on a Josephson traveling wave parametric amplifier, we are able to simultaneously record bit-flip errors occurring in a multiple-qubit device, revealing that the bit-flip errors in two highly coherent qubits are strongly correlated. By introducing a novel time-resolved analysis synchronized with the operation of the pulse tube cooler in a dilution refrigerator, we find that a pulse tube mechanical shock causes nonequilibrium dynamics of the qubits, leading to correlated bit-flip errors as well as transitions outside of the computational state space. Our observations confirm that coherence improvements are still attainable in transmon qubits based on the superconducting material that has been commonly used in the field. In addition, our findings are consistent with qubit dynamics induced by two-level systems and quasiparticles, deepening our understanding of the qubit error mechanisms. Finally, these results inform possible new error-mitigation strategies by decoupling superconducting qubits from their mechanical environments. | 翻訳日:2023-05-05 16:50:12 公開日:2023-05-04 |
# Renyi情報複合のための連鎖規則 Chain Rules for Renyi Information Combining ( http://arxiv.org/abs/2305.02589v1 ) ライセンス: Link先を確認 | Christoph Hirche, Xinyue Guan, Marco Tomamichel | (参考訳) 情報結合のバウンドは、特に極性符号の分析と信条伝播において、符号化理論の基本的な道具である。
彼らは通常、ランダム変数の進化をシャノンエントロピーに関して拘束する。
最近の研究で、このアプローチはRenyi $\alpha$-entropiesに一般化された。
しかし、レーニーエントロピーの伝統的なチェーンルールが欠如していたため、絵は未完成のままであった。
本研究では,林と有本によるRenyiエントロピーの異なる定義を接続するRenyi連鎖ルールを提供することにより,不足リンクを確立する。
これにより、Arimoto Renyiエントロピーに対する新たな情報結合バウンダリを提供することができる。
第2部では、連鎖則を量子設定に一般化し、フォン・ノイマンのエントロピーに対してのみ与えられた結果や予想を一般化する方法を示す。
特別の場合、$\alpha=2$ は、有界と量子側情報を組み合わせた最初の最適情報を与える。 Bounds on information combining are a fundamental tool in coding theory, in particular when analyzing polar codes and belief propagation. They usually bound the evolution of random variables with respect to their Shannon entropy. In recent work this approach was generalized to Renyi $\alpha$-entropies. However, due to the lack of a traditional chain rule for Renyi entropies the picture remained incomplete. In this work we establish the missing link by providing Renyi chain rules connecting different definitions of Renyi entropies by Hayashi and Arimoto. This allows us to provide new information combining bounds for the Arimoto Renyi entropy. In the second part, we generalize the chain rule to the quantum setting and show how they allow us to generalize results and conjectures previously only given for the von Neumann entropy. In the special case of $\alpha=2$ we give the first optimal information combining bounds with quantum side information. | 翻訳日:2023-05-05 16:49:47 公開日:2023-05-04 |
# 不規則群に基づくデカップリングによる意味的構造化画像圧縮 Semantically Structured Image Compression via Irregular Group-Based Decoupling ( http://arxiv.org/abs/2305.02586v1 ) ライセンス: Link先を確認 | Ruoyu Feng, Yixin Gao, Xin Jin, Runsen Feng, Zhibo Chen | (参考訳) 画像圧縮技術は通常、人間の消費のために長方形の画像を圧縮することに重点を置いている。
この制限を克服するために、いくつかの以前の研究は、選択的送信と再構成によって特定のアプリケーション要求を満たすビットストリームを意味的に構造化することを提案した。
それにもかかわらず、入力画像をセマンティクスに従って複数の矩形領域に分割し、それらの間の情報相互作用を無視し、ビットレートの浪費と領域境界の歪んだ再構成を引き起こす。
本稿では,カスタマイズしたグループマスクに基づいて,画像を不規則な形状の複数のグループに分離し,個別に圧縮する手法を提案する。
グループマスクは,画像の粒度を細かく表現し,冗長コンテンツの伝送を低減し,ビットレートを大幅に節約する。
さらに, 選択的再構成の忠実性を確保するために, 異なる集団間の独立性を維持する群非依存変換の概念を提案する。
そして、提案されている Group-Independent Swin-Block (GI Swin-Block) によってインスタンス化する。
実験の結果,我々のフレームワークはビットストリームを不要なコストで構成し,視覚的品質とインテリジェントなタスクサポートの両方において優れた性能を示すことがわかった。 Image compression techniques typically focus on compressing rectangular images for human consumption, however, resulting in transmitting redundant content for downstream applications. To overcome this limitation, some previous works propose to semantically structure the bitstream, which can meet specific application requirements by selective transmission and reconstruction. Nevertheless, they divide the input image into multiple rectangular regions according to semantics and ignore avoiding information interaction among them, causing waste of bitrate and distorted reconstruction of region boundaries. In this paper, we propose to decouple an image into multiple groups with irregular shapes based on a customized group mask and compress them independently. Our group mask describes the image at a finer granularity, enabling significant bitrate saving by reducing the transmission of redundant content. Moreover, to ensure the fidelity of selective reconstruction, this paper proposes the concept of group-independent transform that maintain the independence among distinct groups. And we instantiate it by the proposed Group-Independent Swin-Block (GI Swin-Block). Experimental results demonstrate that our framework structures the bitstream with negligible cost, and exhibits superior performance on both visual quality and intelligent task supporting. | 翻訳日:2023-05-05 16:49:34 公開日:2023-05-04 |
# トランスフォーマの注意における層ノルムの表現性の役割について On the Expressivity Role of LayerNorm in Transformers' Attention ( http://arxiv.org/abs/2305.02582v1 ) ライセンス: Link先を確認 | Shaked Brody, Uri Alon, Eran Yahav | (参考訳) 層正規化(layernorm)は、全てのトランスフォーマーモデルに固有のコンポーネントである。
本稿では、LayerNormが、それに続くマルチヘッドアテンション層の表現性に不可欠であることを示す。
これは、LayerNormの唯一の役割は前方通過時の活性化と後方通過時の勾配を正規化することだという一般的な信念とは対照的である。
私たちはLayerNormの幾何学的解釈を考察し、2つの構成要素からなることを示す。
(a)$\left[1,1,...,1\right]$ベクトルに直交する$d-1$空間への入力ベクトルの射影、および
(b)すべてのベクトルを$\sqrt{d}$という同じノルムにスケーリングする。
これらの各コンポーネントは、トランスフォーマーでそれに従うアテンション層にとって重要であることを示す。
(a)プロジェクションにより、注意機構は、すべてのキーに等しく出席する注意クエリを作成し、注意によってこの操作を学ぶ必要性をオフロードすることができる。
(b)スケーリングにより、各キーが最も注目される可能性があり、キーが「選択不能」になることを防げる。
本稿では,多言語モデリングにおけるLayeNormの特性や,"majority"のような単純な関数の計算において,Transformerが真に有益であることを示す。
私たちのコードはhttps://github.com/tech-srl/layer_norm_expressivity_roleで利用可能です。 Layer Normalization (LayerNorm) is an inherent component in all Transformer-based models. In this paper, we show that LayerNorm is crucial to the expressivity of the multi-head attention layer that follows it. This is in contrast to the common belief that LayerNorm's only role is to normalize the activations during the forward pass, and their gradients during the backward pass. We consider a geometric interpretation of LayerNorm and show that it consists of two components: (a) projection of the input vectors to a $d-1$ space that is orthogonal to the $\left[1,1,...,1\right]$ vector, and (b) scaling of all vectors to the same norm of $\sqrt{d}$. We show that each of these components is important for the attention layer that follows it in Transformers: (a) projection allows the attention mechanism to create an attention query that attends to all keys equally, offloading the need to learn this operation by the attention; and (b) scaling allows each key to potentially receive the highest attention, and prevents keys from being "un-select-able". We show empirically that Transformers do indeed benefit from these properties of LayeNorm in general language modeling and even in computing simple functions such as "majority". Our code is available at https://github.com/tech-srl/layer_norm_expressivity_role . | 翻訳日:2023-05-05 16:49:14 公開日:2023-05-04 |
# 統計的手法から深層学習へ -自動キーワード予測- From Statistical Methods to Deep Learning, Automatic Keyphrase Prediction: A Survey ( http://arxiv.org/abs/2305.02579v1 ) ライセンス: Link先を確認 | Binbin Xie, Jia Song, Liangying Shao, Suhang Wu, Xiangpeng Wei, Baosong Yang, Huan Lin, Jun Xie and Jinsong Su | (参考訳) keyphraseの予測は、指定されたドキュメントを高度に要約するフレーズ(keyphrases)を生成することを目的としている。
近年、研究者は様々な観点からこの課題を詳細に研究している。
本稿では,支配的モデル,データセット,評価指標の観点から,代表的研究を包括的に要約する。
我々の研究は、これまでの167件の作業を分析し、このタスクを以前の調査よりはるかに網羅している。
特に,近年,この課題に注目が集まる深層学習に基づくキーフレーズ予測に注目する。
その後、いくつかの実験グループで代表モデルを慎重に比較する。
私たちの知る限りでは、私たちの研究は、同じよく使われるデータセットと評価メトリクスを使ってこれらのモデルを比較する最初の試みです。
最後に,本課題の今後の研究方向性について論じる。 Keyphrase prediction aims to generate phrases (keyphrases) that highly summarizes a given document. Recently, researchers have conducted in-depth studies on this task from various perspectives. In this paper, we comprehensively summarize representative studies from the perspectives of dominant models, datasets and evaluation metrics. Our work analyzes up to 167 previous works, achieving greater coverage of this task than previous surveys. Particularly, we focus highly on deep learning-based keyphrase prediction, which attracts increasing attention of this task in recent years. Afterwards, we conduct several groups of experiments to carefully compare representative models. To the best of our knowledge, our work is the first attempt to compare these models using the identical commonly-used datasets and evaluation metric, facilitating in-depth analyses of their disadvantages and advantages. Finally, we discuss the possible research directions of this task in the future. | 翻訳日:2023-05-05 16:48:36 公開日:2023-05-04 |
# Prompt-ICM:タスク駆動型Promptを持つマシンの画像符号化のための統一フレームワーク Prompt-ICM: A Unified Framework towards Image Coding for Machines with Task-driven Prompts ( http://arxiv.org/abs/2305.02578v1 ) ライセンス: Link先を確認 | Ruoyu Feng, Jinming Liu, Xin Jin, Xiaohan Pan, Heming Sun, Zhibo Chen | (参考訳) 機械用画像符号化(ICM)は、人間の知覚の代わりに下流AI分析をサポートするために画像を圧縮することを目的としている。
icmでは、情報の冗長性を低減し、様々なビジョンタスクをサポートするために圧縮機能を付与する統一コーデックの開発が非常に重要であり、必然的に2つの大きな課題に直面している。
1) ダウンストリームタスクに基づいて圧縮戦略をどのように調整すべきか?
2) 圧縮された機能を下流のタスクに適切に適応させるには?
大規模事前学習型モデルを下流タスクに移行する最近の進歩に触発されて,本研究では,Prompt-ICMと呼ばれる新しいICMフレームワークを探索する。
タスク駆動のプロンプトを慎重に学習し、圧縮プロセスと下流分析をうまく協調させることで、両方の課題に対処する。
具体的には,本手法は2つのコア設計から構成される。
a)圧縮プロンプトは,情報セレクタが予測する重要マップとして実装され,異なる下流タスクに応じて圧縮中に異なるコンテンツ重み付けされたビット割り当てを達成するために使用される。
b) タスク適応プロンプトは、特定の知的タスクのために圧縮された特徴をチューニングするためのいくつかの学習可能なパラメータとしてインスタンス化されている。
広範な実験によって、単一の機能コーデックといくつかの追加パラメータによって、提案フレームワークは、より高いコーディング効率で、異なる種類のインテリジェントタスクを効率的にサポートできることが示されました。 Image coding for machines (ICM) aims to compress images to support downstream AI analysis instead of human perception. For ICM, developing a unified codec to reduce information redundancy while empowering the compressed features to support various vision tasks is very important, which inevitably faces two core challenges: 1) How should the compression strategy be adjusted based on the downstream tasks? 2) How to well adapt the compressed features to different downstream tasks? Inspired by recent advances in transferring large-scale pre-trained models to downstream tasks via prompting, in this work, we explore a new ICM framework, termed Prompt-ICM. To address both challenges by carefully learning task-driven prompts to coordinate well the compression process and downstream analysis. Specifically, our method is composed of two core designs: a) compression prompts, which are implemented as importance maps predicted by an information selector, and used to achieve different content-weighted bit allocations during compression according to different downstream tasks; b) task-adaptive prompts, which are instantiated as a few learnable parameters specifically for tuning compressed features for the specific intelligent task. Extensive experiments demonstrate that with a single feature codec and a few extra parameters, our proposed framework could efficiently support different kinds of intelligent tasks with much higher coding efficiency. | 翻訳日:2023-05-05 16:48:18 公開日:2023-05-04 |
# スパースグラフセグメンテーションによる無制御条件下でのテキスト読み出し順序 Text Reading Order in Uncontrolled Conditions by Sparse Graph Segmentation ( http://arxiv.org/abs/2305.02577v1 ) ライセンス: Link先を確認 | Renshen Wang, Yasuhisa Fujii and Alessandro Bissacco | (参考訳) テキストの読み込み順序は、OCRエンジンの出力において重要な側面であり、下流タスクに大きな影響を与えます。
その困難さはドメイン固有のレイアウト構造の大きなバリエーションにあり、視点歪みのような現実世界の画像劣化によってさらに悪化する。
本稿では,マルチモーダル・マルチタスクグラフ畳み込みネットワーク(GCN)をスパースレイアウトグラフ上で動作させることにより,テキストの読み出し順序を軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルからの予測は、テキスト行とレイアウト領域構造の間の2次元関係のヒントを提供し、その上で、後処理のクラスタ・アンド・ソートアルゴリズムが全てのテキスト行の順序列を生成する。
このモデルは言語に依存しず、制御不能な環境で撮影されたさまざまなタイプのイメージを含む多言語データセットで効果的に動作し、モバイルデバイスを含む事実上あらゆるプラットフォームにデプロイできるほど小さい。 Text reading order is a crucial aspect in the output of an OCR engine, with a large impact on downstream tasks. Its difficulty lies in the large variation of domain specific layout structures, and is further exacerbated by real-world image degradations such as perspective distortions. We propose a lightweight, scalable and generalizable approach to identify text reading order with a multi-modal, multi-task graph convolutional network (GCN) running on a sparse layout based graph. Predictions from the model provide hints of bidimensional relations among text lines and layout region structures, upon which a post-processing cluster-and-sort algorithm generates an ordered sequence of all the text lines. The model is language-agnostic and runs effectively across multi-language datasets that contain various types of images taken in uncontrolled conditions, and it is small enough to be deployed on virtually any platform including mobile devices. | 翻訳日:2023-05-05 16:47:39 公開日:2023-05-04 |
# ラプラシアン正則成層モデルにおけるジョイントグラフ学習とモデルフィッティング Joint Graph Learning and Model Fitting in Laplacian Regularized Stratified Models ( http://arxiv.org/abs/2305.02573v1 ) ライセンス: Link先を確認 | Ziheng Cheng, Junzi Zhang, Akshay Agrawal, Stephen Boyd | (参考訳) ラプラシア正規化成層モデル(英: Laplacian regularized stratified model、LRSM)は、成層(例えば、年齢、地域、時間、予測地平線など)と呼ばれる分類的特徴によって定義されたサブプロブレムの明示的または暗黙的なネットワーク構造を利用して、各サブプロブレムのパラメータ学習を強化するモデルである。
それらは、時系列予測、表現学習、グラフクラスタリング、最大マージン分類、一般的な少数ショット学習など、機械学習や信号処理の問題に広く適用されてきた。
それでも、LRSMに関する既存の研究は、既知のグラフを仮定するか、特定のアプリケーションに限定されている。
本稿では、LRSMにおけるグラフ重みの重要性と感度を示すことから始め、パラメータのスケールとサンプルサイズがノード間で大きく不均衡な場合に、その感度が任意に大きくなることを示す。
次に,単一最適化問題を解くことによって,モデルパラメータを適合させながらグラフを学習する汎用的手法を提案する。
本稿では,グラフ接続的視点とエンドツーエンドベイズ的視点の両方から提案した定式化を解釈し,その問題を解決するための効率的なアルゴリズムを提案する。
提案アルゴリズムの収束保証は、既存の文献で一般的に必要とされるラプラシアン正則化項のグローバルに強い滑らかさが欠如しているにもかかわらず提供される。
最後に,実世界の様々な数値例による既存手法と比較して,提案手法の効率性を示す。 Laplacian regularized stratified models (LRSM) are models that utilize the explicit or implicit network structure of the sub-problems as defined by the categorical features called strata (e.g., age, region, time, forecast horizon, etc.), and draw upon data from neighboring strata to enhance the parameter learning of each sub-problem. They have been widely applied in machine learning and signal processing problems, including but not limited to time series forecasting, representation learning, graph clustering, max-margin classification, and general few-shot learning. Nevertheless, existing works on LRSM have either assumed a known graph or are restricted to specific applications. In this paper, we start by showing the importance and sensitivity of graph weights in LRSM, and provably show that the sensitivity can be arbitrarily large when the parameter scales and sample sizes are heavily imbalanced across nodes. We then propose a generic approach to jointly learn the graph while fitting the model parameters by solving a single optimization problem. We interpret the proposed formulation from both a graph connectivity viewpoint and an end-to-end Bayesian perspective, and propose an efficient algorithm to solve the problem. Convergence guarantees of the proposed optimization algorithm is also provided despite the lack of global strongly smoothness of the Laplacian regularization term typically required in the existing literature, which may be of independent interest. Finally, we illustrate the efficiency of our approach compared to existing methods by various real-world numerical examples. | 翻訳日:2023-05-05 16:47:24 公開日:2023-05-04 |
# 「さあ、そう言ったの?」
Suggest-Critique-Reflect プロセスによる大規模言語モデルの非倫理的提案の検証と修復 "Oops, Did I Just Say That?" Testing and Repairing Unethical Suggestions of Large Language Models with Suggest-Critique-Reflect Process ( http://arxiv.org/abs/2305.02626v1 ) ライセンス: Link先を確認 | Pingchuan Ma, Zongjie Li, Ao Sun, Shuai Wang | (参考訳) 大規模言語モデル(LLM)の人気が様々なアプリケーションで高まり、人間の価値との整合性を確保することが最重要課題となっている。
特に、LLMは日常生活において汎用AIアシスタントとして機能する大きな可能性を秘めているため、倫理的に非倫理的な提案は深刻で真の関心事となる。
したがって、非倫理的な提案を自動的にテストし、修復するという課題に取り組むことは要求される。
本稿では,LLMによる非倫理的提案を検証し,修復するための最初の枠組みを紹介する。
まず,LLMをテストするための複雑な,コンテキスト化された,現実的な道徳的シナリオを示すテストスイートETHICSSUITEを提案する。
次に、非倫理的提案を検出するための自動テストオラクルとして機能する提案-批判-反射(SCR)プロセスを提案する。
我々は、LLMが非倫理的な提案(難しい問題であり、しばしば人間の専門知識を必要とし、決定にコストがかかる)をPCRタスクに再キャストし、自動的に違反をチェックできるようにします。
さらに,LLMによる非倫理的提案をリアルタイムに修復するOTF(On-the-fly)修復手法を提案する。
OTFスキームは、適度なコストでブラックボックスAPI設定でLLMに適用できる。
ETHICSSUITEでは,7つのLLM(例えばChatGPT, GPT-4)について,合計109,824件の非倫理的提案を行った。
我々は2つのLSM(Llama-13BとChatGPT)にOTFスキームを適用し、倫理的に意識的なLSMの道を開く。 As the popularity of large language models (LLMs) soars across various applications, ensuring their alignment with human values has become a paramount concern. In particular, given that LLMs have great potential to serve as general-purpose AI assistants in daily life, their subtly unethical suggestions become a serious and real concern. Tackling the challenge of automatically testing and repairing unethical suggestions is thus demanding. This paper introduces the first framework for testing and repairing unethical suggestions made by LLMs. We first propose ETHICSSUITE, a test suite that presents complex, contextualized, and realistic moral scenarios to test LLMs. We then propose a novel suggest-critic-reflect (SCR) process, serving as an automated test oracle to detect unethical suggestions. We recast deciding if LLMs yield unethical suggestions (a hard problem; often requiring human expertise and costly to decide) into a PCR task that can be automatically checked for violation. Moreover, we propose a novel on-the-fly (OTF) repairing scheme that repairs unethical suggestions made by LLMs in real-time. The OTF scheme is applicable to LLMs in a black-box API setting with moderate cost. With ETHICSSUITE, our study on seven popular LLMs (e.g., ChatGPT, GPT-4) uncovers in total 109,824 unethical suggestions. We apply our OTF scheme on two LLMs (Llama-13B and ChatGPT), which generates valid repair to a considerable amount of unethical ones, paving the way for more ethically conscious LLMs. | 翻訳日:2023-05-05 16:40:46 公開日:2023-05-04 |
# 条件付き生成逆ネットワークを用いた臨界熱流束診断 Critical heat flux diagnosis using conditional generative adversarial networks ( http://arxiv.org/abs/2305.02622v1 ) ライセンス: Link先を確認 | UngJin Na, Moonhee Choi, HangJin Jo | (参考訳) 臨界熱流束(chf)は、高熱流束熱流動系で用いられる沸騰熱伝達過程において不可欠な安全境界である。
CHFの同定は機器の損傷を防止し、システム全体の安全性を確保する上で不可欠であるが、現象の複雑さのため困難である。
複雑な現象を深く理解するためには、様々な手法が考案されているが、高解像度データの取得は大量の資源消費によって制限されている。
本研究では,CGANを用いたCHFにおけるボイリングシステムの熱データ再構成のためのデータ駆動画像変換手法を提案する。
教師付き学習プロセスは、フローボイリング実験から得られた全反射可視化と赤外線温度測定を含むペア画像に依存している。
提案手法は, 相界面力学と熱分布を結合するエビデンスを提供するだけでなく, 赤外線サーモグラフィーにともなう, 手間と時間を要する実験的セットアップとデータ抽出を簡素化し, CHF診断に有効なソリューションを提供する可能性がある。 The critical heat flux (CHF) is an essential safety boundary in boiling heat transfer processes employed in high heat flux thermal-hydraulic systems. Identifying CHF is vital for preventing equipment damage and ensuring overall system safety, yet it is challenging due to the complexity of the phenomena. For an in-depth understanding of the complicated phenomena, various methodologies have been devised, but the acquisition of high-resolution data is limited by the substantial resource consumption required. This study presents a data-driven, image-to-image translation method for reconstructing thermal data of a boiling system at CHF using conditional generative adversarial networks (cGANs). The supervised learning process relies on paired images, which include total reflection visualizations and infrared thermometry measurements obtained from flow boiling experiments. Our proposed approach has the potential to not only provide evidence connecting phase interface dynamics with thermal distribution but also to simplify the laborious and time-consuming experimental setup and data-reduction procedures associated with infrared thermal imaging, thereby providing an effective solution for CHF diagnosis. | 翻訳日:2023-05-05 16:40:17 公開日:2023-05-04 |
# 多視点ポートレート描画のセマンティックアウェア生成 Semantic-aware Generation of Multi-view Portrait Drawings ( http://arxiv.org/abs/2305.02618v1 ) ライセンス: Link先を確認 | Biao Ma, Fei Gao, Chang Jiang, Nannan Wang, Gang Xu | (参考訳) ニューラルレイディアンス場(NeRF)に基づく手法は,3次元写真画像の合成において驚くべき性能を示したが,多視点像の描画には失敗している。
キーとなるのは、これらのメソッドの基本的な仮定 -- 異なるビューからレンダリングされた時、表面ポイントは一貫性がある -- は描画に役立たないということだ。
ポートレート描画では、異なる角度から見ると顔の点の外観が変化することがある。
また、肖像画は通常、ほとんど3d情報を提示せず、訓練データ不足に苦しむ。
本稿では,この課題に対処するために,多視点肖像画の合成のためのセマンティック・アウェア・ジェネレータ(SAGE)を提案する。
私たちのモチベーションは、顔のセマンティックラベルがビュー一貫性があり、描画技術と相関していることです。
そこで我々は,多視点セマンティックマップと対応する肖像画を協調的に合成することを提案する。
訓練を容易にするために,写真顔の特徴に基づいた肖像画を生成する意味認識ドメイントランスレータを設計する。
さらに、合成によるデータ拡張を使用して、崩壊した結果を緩和する。
SAGEを用いて多視点の肖像画を多彩な芸術様式で合成する。
実験結果から,既存の3D認識画像合成法と比較して,SAGEは優れた性能と高い競争性能を示した。
コードはhttps://github.com/AiArt-HDU/SAGEで入手できる。 Neural radiance fields (NeRF) based methods have shown amazing performance in synthesizing 3D-consistent photographic images, but fail to generate multi-view portrait drawings. The key is that the basic assumption of these methods -- a surface point is consistent when rendered from different views -- doesn't hold for drawings. In a portrait drawing, the appearance of a facial point may changes when viewed from different angles. Besides, portrait drawings usually present little 3D information and suffer from insufficient training data. To combat this challenge, in this paper, we propose a Semantic-Aware GEnerator (SAGE) for synthesizing multi-view portrait drawings. Our motivation is that facial semantic labels are view-consistent and correlate with drawing techniques. We therefore propose to collaboratively synthesize multi-view semantic maps and the corresponding portrait drawings. To facilitate training, we design a semantic-aware domain translator, which generates portrait drawings based on features of photographic faces. In addition, use data augmentation via synthesis to mitigate collapsed results. We apply SAGE to synthesize multi-view portrait drawings in diverse artistic styles. Experimental results show that SAGE achieves significantly superior or highly competitive performance, compared to existing 3D-aware image synthesis methods. The codes are available at https://github.com/AiArt-HDU/SAGE. | 翻訳日:2023-05-05 16:39:59 公開日:2023-05-04 |
# 会話における発話レベルの影響推論:因果発見的アプローチ Affective Reasoning at Utterance Level in Conversations: A Causal Discovery Approach ( http://arxiv.org/abs/2305.02615v1 ) ライセンス: Link先を確認 | Hang Chen and Jing Luo and Xinyu Yang and Wenjing Zhu | (参考訳) 感情的推論タスクは、会話における感情に基づくタスクのセットであり、会話における感情認識(ERC)、感情・因果ペア抽出(ECPE)、感情・因果スパン認識(ECSR)などがある。
既存の手法では、骨格の不合理性や暗黙的原因の観測不可能性から本質的因果モデルを無視しながら、明らかな関係について様々な仮定を行っている。
本稿では,上記の2つの問題を整理し,さらにCACD(Conversational Affective Causal Discovery)を提案する。
共通の骨格を設計し、暗黙的な原因の代用を生成することによって、会話における因果関係の発見方法を示す新しい因果発見法である。
CACDには2つのステップがある。
(i)可変長会話におけるすべての発話に対する1つのグラフノード因果骨格の共通中心の構築
(II)因果オートエンコーダ(CAE)は、発生した暗黙的原因および既知の明示的原因を通じて因果的表現をもたらすように骨格を補正する。
包括的実験により,本手法は3つのタスクに対する6つの影響関連データセットにおいて,SOTAベースラインを著しく上回ることを示した。 The affective reasoning task is a set of emerging affect-based tasks in conversation, including Emotion Recognition in Conversation (ERC),Emotion-Cause Pair Extraction (ECPE), and Emotion-Cause Span Recognition (ECSR). Existing methods make various assumptions on the apparent relationship while neglecting the essential causal model due to the nonuniqueness of skeletons and unobservability of implicit causes. This paper settled down the above two problems and further proposed Conversational Affective Causal Discovery (CACD). It is a novel causal discovery method showing how to discover causal relationships in a conversation via designing a common skeleton and generating a substitute for implicit causes. CACD contains two steps: (i) building a common centering one graph node causal skeleton for all utterances in variable-length conversations; (ii) Causal Auto-Encoder (CAE) correcting the skeleton to yield causal representation through generated implicit causes and known explicit causes. Comprehensive experiments demonstrate that our novel method significantly outperforms the SOTA baselines in six affect-related datasets on the three tasks. | 翻訳日:2023-05-05 16:39:40 公開日:2023-05-04 |
# 非ラベルデータサンプリングを最適化した半教師あり学習によるベイズ最適化 High-dimensional Bayesian Optimization via Semi-supervised Learning with Optimized Unlabeled Data Sampling ( http://arxiv.org/abs/2305.02614v1 ) ライセンス: Link先を確認 | Yuxuan Yin, Yu Wang and Peng Li | (参考訳) ベイズ最適化(BO)はブラックボックス関数の大域的最適化を求める強力なツールである。
ブラックボックス関数の評価は非常にコストがかかるが、高価なラベル付きデータの使用を減らすことが望ましい。
本稿では,boの文脈下で大量のラベルなしデータを活用できる半教師付き学習を活用すべく,教師学習モデルを導入する。
重要なことは、検証とラベルなしデータの選定がBOの性能の鍵であることが示される。
ラベルなしデータのサンプリングを最適化するために,使用済みのbiレベル最適化フレームワークの一部として最適化されたブラックボックスパラメータ化サンプリング分布を用いる。
さらに,動的に適合した極値分布からラベルなしデータを選択することにより,boの性能をさらに向上できることを示す。
BO法は次元を小さくした学習潜在空間で動作し,高次元問題に対してスケーラブルである。
提案手法は,複数の合成および実世界の最適化タスクにおいて,既存のBO法よりも優れている。 Bayesian optimization (BO) is a powerful tool for seeking the global optimum of black-box functions. While evaluations of the black-box functions can be highly costly, it is desirable to reduce the use of expensive labeled data. For the first time, we introduce a teacher-student model to exploit semi-supervised learning that can make use of large amounts of unlabelled data under the context of BO. Importantly, we show that the selection of the validation and unlabeled data is key to the performance of BO. To optimize the sampling of unlabeled data, we employ a black-box parameterized sampling distribution optimized as part of the employed bi-level optimization framework. Taking one step further, we demonstrate that the performance of BO can be further improved by selecting unlabeled data from a dynamically fitted extreme value distribution. Our BO method operates in a learned latent space with reduced dimensionality, making it scalable to high-dimensional problems. The proposed approach outperforms significantly the existing BO methods on several synthetic and real-world optimization tasks. | 翻訳日:2023-05-05 16:39:18 公開日:2023-05-04 |
# 画像検索における逆学習による境界認識型後方対応表現 Boundary-aware Backward-Compatible Representation via Adversarial Learning in Image Retrieval ( http://arxiv.org/abs/2305.02610v1 ) ライセンス: Link先を確認 | Tan Pan, Furong Xu, Xudong Yang, Sifeng He, Chen Jiang, Qingpei Guo, Feng Qian Xiaobo Zhang, Yuan Cheng, Lei Yang, Wei Chu | (参考訳) 画像検索はインターネット世界で重要な役割を果たす。
通常、主流のビジュアル検索システムの中核となる部分は、埋め込みモデルのオンラインサービスと大規模なベクトルデータベースである。
従来のモデルアップグレードでは、データベース内のすべてのイメージの埋め込みが、大量のデータに数日から数週間かかる新しいモデルによって再計算されるまで、古いモデルは、新しいモデルに置き換えられません。
最近、後方互換性のあるトレーニング(BCT)により、新しいモデルを、古いモデルと直接比較して、即座にオンラインにデプロイできるようになりました。
bctの場合、検索性能に悪影響を及ぼさない2つのモデルの互換性を改善することが重要な課題である。
本稿では,互換性と識別を考慮に入れた弾性境界制約を持つ逆向型後方互換性トレーニング手法であるadvbctを提案する。
まず,新しいモデルの埋め込みと古いモデルとの分布格差を最小化するために,逆学習を用いる。
一方, 学習中に弾性境界制約を加え, 適合性と識別性を向上させる。
GLDv2、Revisited Oxford(ROxford)、Revisited Paris(RParis)の広範な実験により、我々の手法は互換性と差別の両方において他のBCT法よりも優れていることが示された。
AdvBCTの実装はhttps://github.com/Ashespt/AdvBCTで公開される。 Image retrieval plays an important role in the Internet world. Usually, the core parts of mainstream visual retrieval systems include an online service of the embedding model and a large-scale vector database. For traditional model upgrades, the old model will not be replaced by the new one until the embeddings of all the images in the database are re-computed by the new model, which takes days or weeks for a large amount of data. Recently, backward-compatible training (BCT) enables the new model to be immediately deployed online by making the new embeddings directly comparable to the old ones. For BCT, improving the compatibility of two models with less negative impact on retrieval performance is the key challenge. In this paper, we introduce AdvBCT, an Adversarial Backward-Compatible Training method with an elastic boundary constraint that takes both compatibility and discrimination into consideration. We first employ adversarial learning to minimize the distribution disparity between embeddings of the new model and the old model. Meanwhile, we add an elastic boundary constraint during training to improve compatibility and discrimination efficiently. Extensive experiments on GLDv2, Revisited Oxford (ROxford), and Revisited Paris (RParis) demonstrate that our method outperforms other BCT methods on both compatibility and discrimination. The implementation of AdvBCT will be publicly available at https://github.com/Ashespt/AdvBCT. | 翻訳日:2023-05-05 16:39:01 公開日:2023-05-04 |
# 応答関数の非慣習的適合とカシミール力の精密測定を用いたリフシッツ理論の比較 Comparison of the Lifshitz Theory Using the Nonconventional Fit of Response Functions with Precise Measurements of the Casimir Force ( http://arxiv.org/abs/2305.02608v1 ) ライセンス: Link先を確認 | G. L. Klimchitskaya and V. M. Mostepanenko | (参考訳) 熱量子場理論の第一原理に基づく基礎的なリフシッツ理論は、カシミール力の正確な測定と比較すると困難を経験することが知られている。
本稿で最近提案されている「修正」発振器の実証モデルを用いて, 仮想周波数軸に沿った多数の材料の応答関数の非従来型適合性を解析した。
以上の結果から,高頻度では応答関数の漸近的挙動につながり,基本物理原理のそれと矛盾するため,このモデルは受け入れられないことがわかった。
リフシッツ理論と修正発振器で表される量子化電磁場に対する応答関数を用いて、いくつかの精密実験の構成におけるカシミール相互作用を計算し、その結果が測定データによって除外されることを示す。
これは、これらの応答関数を用いて計算されたカシミール・ヴァン・デル・ワールス力が実験値と顕著に一致しているという文献上の主張を無効にする。
実験と理論の相容れない理由について論じ、その状況を改善する方法について論じる。 It has been known that the fundamental Lifshitz theory, which is based on first principles of thermal quantum field theory, experiences difficulties when compared with precise measurements of the Casimir force. We analyze the nonconventional fit of response functions of many materials along the imaginary frequency axis to the empirical model of "modified" oscillators which was recently proposed in the literature. According to our results, this model is unacceptable because at high frequencies it leads to the asymptotic behavior of response functions which is in contradiction with that following from the fundamental physical principles. We calculate the Casimir interaction in the configurations of several precise experiments using the Lifshitz theory and the response functions to quantized electromagnetic field expressed in terms of modified oscillators and demonstrate that the obtained results are excluded by the measurement data. This invalidates a claim made in the literature that the Casimir-van der Waals forces calculated using these response functions are in remarkable agreement with the experimental values. Possible reasons for a disagreement between experiment and theory are discussed, and the way to improve the situation is directed. | 翻訳日:2023-05-05 16:38:38 公開日:2023-05-04 |
# DN at SemEval-2023 Task 12: Multilingual Pretrained Language Model Fine-tuning による低リソース言語テキスト分類 DN at SemEval-2023 Task 12: Low-Resource Language Text Classification via Multilingual Pretrained Language Model Fine-tuning ( http://arxiv.org/abs/2305.02607v1 ) ライセンス: Link先を確認 | Daniil Homskiy, Narek Maloyan | (参考訳) 近年,自然言語処理において感情分析が重要になっている。
しかし、感情分析のための既存のモデルやデータセットは、英語や中国語のような高リソース言語向けに開発されており、低リソース言語、特にアフリカ言語は、ほとんど探索されていない。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
本稿では,多言語xlm-rモデルを用いて,アフリカの方言で再訓練されたり,ターゲット言語で微調整されたものを含む,様々なデータに基づいて分類ヘッドを訓練した。
われわれのチームはSubtask B, Track 16: Multilingualで3番目に高い結果を得た。
本モデルは多言語データにおいて比較的良好な結果を示したが,一部の言語では成績が低かった。
我々の研究は、感情分析研究を進めるために、低リソースのアフリカ言語のためのより包括的なデータセットとモデルを開発することの重要性を強調した。
githubリポジトリのソリューションも提供しています。 In recent years, sentiment analysis has gained significant importance in natural language processing. However, most existing models and datasets for sentiment analysis are developed for high-resource languages, such as English and Chinese, leaving low-resource languages, particularly African languages, largely unexplored. The AfriSenti-SemEval 2023 Shared Task 12 aims to fill this gap by evaluating sentiment analysis models on low-resource African languages. In this paper, we present our solution to the shared task, where we employed different multilingual XLM-R models with classification head trained on various data, including those retrained in African dialects and fine-tuned on target languages. Our team achieved the third-best results in Subtask B, Track 16: Multilingual, demonstrating the effectiveness of our approach. While our model showed relatively good results on multilingual data, it performed poorly in some languages. Our findings highlight the importance of developing more comprehensive datasets and models for low-resource African languages to advance sentiment analysis research. We also provided the solution on the github repository. | 翻訳日:2023-05-05 16:38:21 公開日:2023-05-04 |
# re$^3$dial:long-turn open-domain dialogue pre-trainingのための対話コーパスの検索、再構成、再スケール Re$^3$Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for Long-Turn Open-Domain Dialogue Pre-training ( http://arxiv.org/abs/2305.02606v1 ) ライセンス: Link先を確認 | Jiaxin Wen, Hao Zhou, Minlie Huang | (参考訳) ソーシャルメディアからクロールされた大規模オープンドメイン対話データは,対話モデルの性能を大幅に向上させた。
しかし、長い会話は非常に少ない。
具体的には、既存のコーパスのほとんどの対話セッションは3ターン以下である。
この問題を軽減するために,既存の短絡対話データから数十億ドル規模の長め対話コーパスを自動構築するRetrieve, Reorganize and Rescale framework(Re$^3$Dial)を提案する。
Re$3$Dialは、まずUnsupervised Dense Session Retriever (UDSR) を訓練し、関連するセッションと一貫性のあるセッションを検索するために、マルチターンダイアログ内のセマンティックおよび談話関係をキャプチャする。
そして,本提案手法により,短期対話を長期セッションに再編成し,再帰的検索と連続セッションの選択を行う。
複数のマルチターンダイアログベンチマークの大規模な評価により、Re$3$Dialは、異なる事前学習設定間でのマルチターンダイアログのモデリングに長期的コンテキストを利用するための対話モデルの能力を大幅に向上することが示された。
最後に、Re$^3$Dialで対話コーパスを効率的に再スケーリングするためのツールキットを構築し、11.3ターンで1B中国語対話セッションを含むコーパスを構築できる(元のEVAコーパスより5倍長い)。
UDSRモデル、ツールキット、およびデータをパブリックに利用するためにリリースします。 Large-scale open-domain dialogue data crawled from public social media has greatly improved the performance of dialogue models. However, long-turn dialogues are still highly scarce. Specifically, most dialogue sessions in existing corpora have less than three turns. To alleviate this issue, we propose the Retrieve, Reorganize and Rescale framework (Re$^3$Dial), which can automatically construct a billion-scale long-turn dialogue corpus from existing short-turn dialogue data. Re$^3$Dial first trains an Unsupervised Dense Session Retriever (UDSR) to capture semantic and discourse relationships within multi-turn dialogues for retrieving relevant and coherent sessions. It then reorganizes the short-turn dialogues into long-turn sessions via recursively retrieving and selecting the consecutive sessions with our proposed diversity sampling strategy. Extensive evaluations on multiple multi-turn dialogue benchmarks demonstrate that Re$^3$Dial consistently and significantly improves the dialogue model's ability to utilize long-term context for modeling multi-turn dialogues across different pre-training settings. Finally, we build a toolkit for efficiently rescaling dialogue corpus with Re$^3$Dial, which enables us to construct a corpus containing 1B Chinese dialogue sessions with 11.3 turns on average (5X longer than the original EVA corpus). We will release our UDSR model, toolkit, and data for public use. | 翻訳日:2023-05-05 16:38:01 公開日:2023-05-04 |
# IMAP: 本質的には敵対的政策 IMAP: Intrinsically Motivated Adversarial Policy ( http://arxiv.org/abs/2305.02605v1 ) ライセンス: Link先を確認 | Xiang Zheng, Xingjun Ma, Shengjie Wang, Xinyu Wang, Chao Shen, Cong Wang | (参考訳) 強化学習(RL)エージェントは、デプロイ中に回避攻撃に弱いことが知られている。
単一エージェント環境では、攻撃者はポリシーや価値ネットワークの入力や出力に知覚できない摂動を注入することができ、マルチエージェント環境では、攻撃者は敵を制御して被害者の観察に間接的に影響を及ぼすことができる。
敵の政策はそのような攻撃を行うための有望な解決策を提供する。
しかし、現在のアプローチでは、被害者ポリシーの完全または部分的な知識を必要とするか、タスク関連の報酬のスパースのためにサンプル非効率に苦しむかのどちらかである。
これらの制限を克服するために,単一・複数エージェント環境における効率的なブラックボックス回避攻撃を,被害者の方針を知らずに行うためのIMAP(Intivated Adversarial Policy)を提案する。
IMAPは、国家のカバレッジ、政策のカバレッジ、リスク、政策の多様化に基づく4つの本質的な目標を使用して、探索を促進し、より強力な攻撃スキルを発見する。
また,imapをさらに高めるための新しいバイアス・リダクション(br)法も設計した。
本実験は,種々の単一・マルチエージェントの MuJoCo 環境における複数種類の被害者エージェントに対するブラックボックス環境において,これらの固有目的とBRの有効性を実証するものである。
特に、我々のIMAPは、最先端のロバストなWocaR-PPOエージェントの性能を34\%-54\%削減し、2プレイヤのゼロサムゲームYouShallNotPassにおいて、SOTA攻撃成功率83.91\%を達成する。 Reinforcement learning (RL) agents are known to be vulnerable to evasion attacks during deployment. In single-agent environments, attackers can inject imperceptible perturbations on the policy or value network's inputs or outputs; in multi-agent environments, attackers can control an adversarial opponent to indirectly influence the victim's observation. Adversarial policies offer a promising solution to craft such attacks. Still, current approaches either require perfect or partial knowledge of the victim policy or suffer from sample inefficiency due to the sparsity of task-related rewards. To overcome these limitations, we propose the Intrinsically Motivated Adversarial Policy (IMAP) for efficient black-box evasion attacks in single- and multi-agent environments without any knowledge of the victim policy. IMAP uses four intrinsic objectives based on state coverage, policy coverage, risk, and policy divergence to encourage exploration and discover stronger attacking skills. We also design a novel Bias-Reduction (BR) method to boost IMAP further. Our experiments demonstrate the effectiveness of these intrinsic objectives and BR in improving adversarial policy learning in the black-box setting against multiple types of victim agents in various single- and multi-agent MuJoCo environments. Notably, our IMAP reduces the performance of the state-of-the-art robust WocaR-PPO agents by 34\%-54\% and achieves a SOTA attacking success rate of 83.91\% in the two-player zero-sum game YouShallNotPass. | 翻訳日:2023-05-05 16:37:32 公開日:2023-05-04 |
# Point2Tree(P2T) -- 針葉樹林における移動レーザ走査データを用いたセマンティックとインスタンスセグメンテーションのパラメータチューニングのためのフレームワーク Point2Tree(P2T) -- framework for parameter tuning of semantic and instance segmentation used with mobile laser scanning data in coniferous forest ( http://arxiv.org/abs/2305.02651v1 ) ライセンス: Link先を確認 | Maciej Wielgosz and Stefano Puliti and Phil Wilkes and Rasmus Astrup | (参考訳) この記事では、セマンティックセグメンテーション、インスタンスセグメンテーション、ハイパーパレメーターの重要性の最適化分析を含む3段階プロセスを含む、新しいフレームワークであるPoint2Treeを紹介する。
森林におけるレーザーポイント雲の処理に包括的かつモジュラーなアプローチを導入する。
2つの独立したデータセットでテストしました。
最初の地域はノルウェーのV{\aa}ler(V{\aa}ler)の活発に管理されている針葉樹林に位置し、種組成と起立密度の点で、様々な森林条件をカバーするために、400平方メートルの円形プロットが16個選択された。
意味セグメンテーションで 0.92 f1-score を達成するpointnet++ アーキテクチャに基づいたモデルをトレーニングした。
パイプラインの第2ステップとして、グラフベースのアプローチを使って、F1スコアの近似に到達しました。
0.6.
この最適化により、パイプラインのパフォーマンスをさらに向上することができた。
4 %であった。 This article introduces Point2Tree, a novel framework that incorporates a three-stage process involving semantic segmentation, instance segmentation, optimization analysis of hyperparemeters importance. It introduces a comprehensive and modular approach to processing laser points clouds in Forestry. We tested it on two independent datasets. The first area was located in an actively managed boreal coniferous dominated forest in V{\aa}ler, Norway, 16 circular plots of 400 square meters were selected to cover a range of forest conditions in terms of species composition and stand density. We trained a model based on Pointnet++ architecture which achieves 0.92 F1-score in semantic segmentation. As a second step in our pipeline we used graph-based approach for instance segmentation which reached F1-score approx. 0.6. The optimization allowed to further boost the performance of the pipeline by approx. 4 \% points. | 翻訳日:2023-05-05 16:31:02 公開日:2023-05-04 |
# blahutとarimotoのテーマのバリエーション Variations on a Theme by Blahut and Arimoto ( http://arxiv.org/abs/2305.02650v1 ) ライセンス: Link先を確認 | Lingyi Chen, Shitong Wu, Wenhao Ye, Huihui Wu, Wenyi Zhang, Hao Wu and Bo Bai | (参考訳) Blahut-Arimoto(BA)アルゴリズムは、RD関数の数値計算において基本的な役割を担っている。
このアルゴリズムは、固定乗数でラグランジアンを最小化することで、望ましい単調収束性を持つ。
本稿では, ニュートン法で効率的に実装できる単調不定値関数に対して, 1次元のルート探索ステップを介し, 反復毎に乗算器を更新できるbaアルゴリズムの新規な修正を提案する。
これにより、乗算器はフレキシブルで効率的な方法で更新され、元のBAアルゴリズムの大きな欠点を克服し、乗算器は反復を通して固定される。
これにより、修正アルゴリズムは、元のBAアルゴリズムのようにRD曲線全体を探索することなく、所定の目標歪みに対してRD関数を直接計算することができる。
理論的解析により、修正アルゴリズムは依然としてRD関数に収束し、収束率は$\Theta(1/n)$であり、$n$は反復数を表す。
数値実験により、修正アルゴリズムは与えられた目標歪みでRD関数を直接計算し、元のBAアルゴリズムを著しく高速化することを示した。 The Blahut-Arimoto (BA) algorithm has played a fundamental role in the numerical computation of rate-distortion (RD) functions. This algorithm possesses a desirable monotonic convergence property by alternatively minimizing its Lagrangian with a fixed multiplier. In this paper, we propose a novel modification of the BA algorithm, letting the multiplier be updated in each iteration via a one-dimensional root-finding step with respect to a monotonic univariate function, which can be efficiently implemented by Newton's method. This allows the multiplier to be updated in a flexible and efficient manner, overcoming a major drawback of the original BA algorithm wherein the multiplier is fixed throughout iterations. Consequently, the modified algorithm is capable of directly computing the RD function for a given target distortion, without exploring the entire RD curve as in the original BA algorithm. A theoretical analysis shows that the modified algorithm still converges to the RD function and the convergence rate is $\Theta(1/n)$, where $n$ denotes the number of iterations. Numerical experiments demonstrate that the modified algorithm directly computes the RD function with a given target distortion, and it significantly accelerates the original BA algorithm. | 翻訳日:2023-05-05 16:30:44 公開日:2023-05-04 |
# エッジアウェア型ステレオビデオ深度推定 Edge-aware Consistent Stereo Video Depth Estimation ( http://arxiv.org/abs/2305.02645v1 ) ライセンス: Link先を確認 | Elena Kosheleva, Sunil Jaiswal, Faranak Shamsafar, Noshaba Cheema, Klaus Illgner-Fehns, Philipp Slusallek | (参考訳) 映像深度推定はシーン再構成や拡張現実といった様々な応用において重要である。
画像から深度を推定するナイーブな手法とは対照的に、より洗練されたアプローチは時間的情報を使い、ひねりや幾何学的矛盾を取り除く。
ビデオ深度推定のための一貫した手法を提案するが、既存の単分子法とは異なり、ステレオビデオに関係している。
この手法は単眼入力から生じる制限を克服する。
ステレオ入力の利点として、性能を改善するために左右の整合性損失が導入された。
また、SLAMベースのカメラのポーズ推定も行っている。
テストタイムトレーニング(TTT)における深度ぼかし問題に対処するため,幾何的整合性を維持しながら細部視認性を向上するエッジ保存損失関数を提案する。
エッジ対応ステレオビデオモデルにより,深度マップを精度良く推定できることを示す。 Video depth estimation is crucial in various applications, such as scene reconstruction and augmented reality. In contrast to the naive method of estimating depths from images, a more sophisticated approach uses temporal information, thereby eliminating flickering and geometrical inconsistencies. We propose a consistent method for dense video depth estimation; however, unlike the existing monocular methods, ours relates to stereo videos. This technique overcomes the limitations arising from the monocular input. As a benefit of using stereo inputs, a left-right consistency loss is introduced to improve the performance. Besides, we use SLAM-based camera pose estimation in the process. To address the problem of depth blurriness during test-time training (TTT), we present an edge-preserving loss function that improves the visibility of fine details while preserving geometrical consistency. We show that our edge-aware stereo video model can accurately estimate the dense depth maps. | 翻訳日:2023-05-05 16:30:25 公開日:2023-05-04 |
# ニューロライザー:再訓練を行わない一般画像解析 Neuralizer: General Neuroimage Analysis without Re-Training ( http://arxiv.org/abs/2305.02644v1 ) ライセンス: Link先を確認 | Steffen Czolbe and Adrian V. Dalca | (参考訳) セグメンテーション、再構築、登録のような神経画像処理タスクは神経科学の研究の中心である。
これらのタスクを解決するために使用される堅牢なディープラーニング戦略とアーキテクチャは、しばしば似ている。
しかし、異なる視覚的特徴を持つ新しいタスクやデータセットを提示する場合、実践者は多くの場合、新しいモデルを訓練するか、既存のものを微調整する必要がある。
これは時間を要するプロセスであり、深層学習モデルのトレーニングにリソースや機械学習の専門知識を欠く何千もの神経科学者や臨床研究者にとって大きな障壁となる。
実際には、これはディープラーニングの採用の欠如につながり、神経科学ツールは古典的なフレームワークに支配されている。
ニューロライザー(neuralizer)は、神経画像のタスクやモダリティを、再訓練や微調整を必要とせずに認識できる単一モデルである。
タスクを優先順位で知る必要はなく、推論中に1回のフォワードパスで一般化が行われる。
このモデルは、複数のイメージモダリティ、取得メソッド、データセットにわたる処理タスクを解決し、トレーニングされていないタスクやモダリティに一般化することができる。
コロナスライス実験では,アノテート対象がほとんどない場合,タスクのトレーニングを行わずにタスク固有のベースラインよりもマルチタスクネットワークが優れていることが示された。 Neuroimage processing tasks like segmentation, reconstruction, and registration are central to the study of neuroscience. Robust deep learning strategies and architectures used to solve these tasks are often similar. Yet, when presented with a new task or a dataset with different visual characteristics, practitioners most often need to train a new model, or fine-tune an existing one. This is a time-consuming process that poses a substantial barrier for the thousands of neuroscientists and clinical researchers who often lack the resources or machine-learning expertise to train deep learning models. In practice, this leads to a lack of adoption of deep learning, and neuroscience tools being dominated by classical frameworks. We introduce Neuralizer, a single model that generalizes to previously unseen neuroimaging tasks and modalities without the need for re-training or fine-tuning. Tasks do not have to be known a priori, and generalization happens in a single forward pass during inference. The model can solve processing tasks across multiple image modalities, acquisition methods, and datasets, and generalize to tasks and modalities it has not been trained on. Our experiments on coronal slices show that when few annotated subjects are available, our multi-task network outperforms task-specific baselines without training on the task. | 翻訳日:2023-05-05 16:30:11 公開日:2023-05-04 |
# 潜在共同創設者の存在下での無期限データから因果関係を回復する学習 Learning to Recover Causal Relationship from Indefinite Data in the Presence of Latent Confounders ( http://arxiv.org/abs/2305.02640v1 ) ライセンス: Link先を確認 | Hang Chen and Xinyu Yang and Qing Yang | (参考訳) 潜在変数を用いた因果的発見では, 2つのデータパラダイムを定義している。 確定データ: 観測ノードを単一値とするシングルスケルトン構造と, 観測ノードを複数値とするマルチスケルトン構造である。
マルチスケトンはサンプル利用率の低下を誘発し、マルチ値は分布仮定の不可能を誘導し、どちらも未定のデータから因果関係を回復することは、まだほとんど未定である。
この2つの問題を解決するために因果強度変動モデルを設計する。
具体的には, 独立雑音ではなく因果強度を潜在変数として活用し, エビデンス下限を調停する。
この設計エトスにより、異なる骨格の因果強度は分布と見なされ、単一の値の因果グラフ行列として表される。
o は観測ノード間の純粋関係を含み、c は潜在変数から観測ノードへの関係を表す。
本稿では,この設計を,非定値データから因果表現を学習するためのbiCD (Confounding Disentanglement Causal Discovery) として要約する。
最後に,本手法の有効性を実証するために,合成および実世界のデータに関する包括的実験を行った。 In Causal Discovery with latent variables, We define two data paradigms: definite data: a single-skeleton structure with observed nodes single-value, and indefinite data: a set of multi-skeleton structures with observed nodes multi-value. Multi,skeletons induce low sample utilization and multi values induce incapability of the distribution assumption, both leading that recovering causal relations from indefinite data is, as of yet, largely unexplored. We design the causal strength variational model to settle down these two problems. Specifically, we leverage the causal strength instead of independent noise as latent variable to mediate evidence lower bound. By this design ethos, The causal strength of different skeletons is regarded as a distribution and can be expressed as a single-valued causal graph matrix. Moreover, considering the latent confounders, we disentangle the causal graph G into two relatisubgraphs O and C. O contains pure relations between observed nodes, while C represents the relations from latent variables to observed nodes. We summarize the above designs as Confounding Disentanglement Causal Discovery (biCD), which is tailored to learn causal representation from indefinite data under the latent confounding. Finally, we conduct comprehensive experiments on synthetic and real-world data to demonstrate the effectiveness of our method. | 翻訳日:2023-05-05 16:29:49 公開日:2023-05-04 |
# データセット間のヘイトスピーチ分類の弱化に向けて Towards Weakly-Supervised Hate Speech Classification Across Datasets ( http://arxiv.org/abs/2305.02637v1 ) ライセンス: Link先を確認 | Yiping Jin, Leo Wanner, Vishakha Laxman Kadam, Alexander Shvets | (参考訳) いくつかの学者が指摘しているように、ヘイトスピーチ(HS)の認識に関する現在の研究は、非体系的なデータ生成戦略とアノテーションスキーマの分散が特徴である。
その後、教師付き学習モデルは訓練を受けていないデータセットにうまく一般化する傾向にあり、異なるHS分類法を用いてラベル付けされたデータセットでトレーニングされたモデルのパフォーマンスは比較できない。
この問題を緩和するために,アノテーション付きデータからのクラスサンプルに頼らず,クラス名にのみ依存する極めて弱い監視手法を提案する。
各種データセットおよびクロスデータセット設定において,最先端の弱教師付きテキスト分類モデルの有効性を示す。
さらに,HS分類モデルの低一般化性源の詳細な定量的,定性的な分析を行う。 As pointed out by several scholars, current research on hate speech (HS) recognition is characterized by unsystematic data creation strategies and diverging annotation schemata. Subsequently, supervised-learning models tend to generalize poorly to datasets they were not trained on, and the performance of the models trained on datasets labeled using different HS taxonomies cannot be compared. To ease this problem, we propose applying extremely weak supervision that only relies on the class name rather than on class samples from the annotated data. We demonstrate the effectiveness of a state-of-the-art weakly-supervised text classification model in various in-dataset and cross-dataset settings. Furthermore, we conduct an in-depth quantitative and qualitative analysis of the source of poor generalizability of HS classification models. | 翻訳日:2023-05-05 16:29:25 公開日:2023-05-04 |
# コンフォーマル核サンプリング Conformal Nucleus Sampling ( http://arxiv.org/abs/2305.02633v1 ) ライセンス: Link先を確認 | Shauli Ravfogel, Yoav Goldberg and Jacob Goldberger | (参考訳) 言語モデルは次の単語を逐次サンプリングしてテキストを生成する。
核(top-$p$)サンプリングに基づく復号処理は、累積確率が確率$p$を超える最小の単語集合から選択する。
本研究では,p$のトップセットが,様々な言語文脈における確率的意味と実際に一致しているかを評価する。
適合予測(conformal prediction)は、望ましい信頼度に応じて最小の予測セットを構築することに焦点を当てたキャリブレーション手順で、次の単語分布のエントロピーの関数としてパラメータ$p$を校正する。
optモデルは自信過剰であり、キャリブレーションはモデルサイズで中程度の逆スケーリングを示す。 Language models generate text based on successively sampling the next word. A decoding procedure based on nucleus (top-$p$) sampling chooses from the smallest possible set of words whose cumulative probability exceeds the probability $p$. In this work, we assess whether a top-$p$ set is indeed aligned with its probabilistic meaning in various linguistic contexts. We employ conformal prediction, a calibration procedure that focuses on the construction of minimal prediction sets according to a desired confidence level, to calibrate the parameter $p$ as a function of the entropy of the next word distribution. We find that OPT models are overconfident, and that calibration shows a moderate inverse scaling with model size. | 翻訳日:2023-05-05 16:29:15 公開日:2023-05-04 |
# 社会学習エージェントにおける言語の発生と分析のための枠組み A framework for the emergence and analysis of language in social learning agents ( http://arxiv.org/abs/2305.02632v1 ) ライセンス: Link先を確認 | Tobias J. Wieczorek, Tatjana Tchumatchenko, Carlos Wert Carvajal and Maximilian F. Eggl | (参考訳) 人工ニューラルネットワーク(anns)は研究モデルとしてますます使われているが、その一般化可能性と表現不変性に関する疑問が残る。
社会的制約の下での生物学的ニューラルネットワークは、伝達可能な表現を可能にし、一般化能力を示すために進化した。
本研究では,協調エージェント間のコミュニケーションプロトコルを提案し,個々の抽象概念と共有抽象概念の形成とそのタスク性能への影響を解析する。
この通信プロトコルは,低次元表現を通じて高次元情報を符号化することで,言語特徴を模倣することを目的としている。
グリッドワールド迷路と強化学習を用いて、教師のANNは、より良いタスク完了のために圧縮メッセージを学生のANNに渡す。
これにより、生徒はより高い目標達成率を達成し、タスク世界全体でゴール位置を一般化する。
さらに、学生報酬の最大化のためにメッセージ内容の最適化が情報符号化を改善し、メッセージ空間における正確な表現には双方向の入力が必要であることを示唆する。
これはエージェント間の共通表現としての言語の役割と一般化能力への影響を強調している。 Artificial neural networks (ANNs) are increasingly used as research models, but questions remain about their generalizability and representational invariance. Biological neural networks under social constraints evolved to enable communicable representations, demonstrating generalization capabilities. This study proposes a communication protocol between cooperative agents to analyze the formation of individual and shared abstractions and their impact on task performance. This communication protocol aims to mimic language features by encoding high-dimensional information through low-dimensional representation. Using grid-world mazes and reinforcement learning, teacher ANNs pass a compressed message to a student ANN for better task completion. Through this, the student achieves a higher goal-finding rate and generalizes the goal location across task worlds. Further optimizing message content to maximize student reward improves information encoding, suggesting that an accurate representation in the space of messages requires bi-directional input. This highlights the role of language as a common representation between agents and its implications on generalization capabilities. | 翻訳日:2023-05-05 16:29:03 公開日:2023-05-04 |
# 感情的コンピューティングにおけるバイアスと公平性に関する心理計測とコンピューティングの視点の統合:自動ビデオインタビューの事例研究 Integrating Psychometrics and Computing Perspectives on Bias and Fairness in Affective Computing: A Case Study of Automated Video Interviews ( http://arxiv.org/abs/2305.02629v1 ) ライセンス: Link先を確認 | Brandon M Booth, Louis Hickman, Shree Krishna Subburaj, Louis Tay, Sang Eun Woo, Sidney K. DMello | (参考訳) 我々は、感情コンピューティングのための典型的な機械学習パイプラインに適用される、心理測定に基づくバイアスと公平性の表現を提供する。
我々は対人コミュニケーションの枠組みを拡張し、観察された行動から人間の感情や他の心理的構成を推定する過程で生じる偏見の源を解明する。
公正さと偏見を測定するための様々な方法と指標が、米国の法的文脈における関連する意味とともに議論されている。
本研究は,ビデオインタビューで収集したマルチモーダルデータから,パーソナリティ自動推定と雇用可能性推定を応用したケーススタディにおいて,ある種のバイアスと公平性を測定する方法を示す。
我々は,感情的なコンピュータ研究者や実践者に対して,彼らの研究プロセスや製品にバイアスや公平性をカプセル化し,公平で公正なシステムを促進する上での役割,機関,責任を考えるよう促す。 We provide a psychometric-grounded exposition of bias and fairness as applied to a typical machine learning pipeline for affective computing. We expand on an interpersonal communication framework to elucidate how to identify sources of bias that may arise in the process of inferring human emotions and other psychological constructs from observed behavior. Various methods and metrics for measuring fairness and bias are discussed along with pertinent implications within the United States legal context. We illustrate how to measure some types of bias and fairness in a case study involving automatic personality and hireability inference from multimodal data collected in video interviews for mock job applications. We encourage affective computing researchers and practitioners to encapsulate bias and fairness in their research processes and products and to consider their role, agency, and responsibility in promoting equitable and just systems. | 翻訳日:2023-05-05 16:28:46 公開日:2023-05-04 |
# UrbanBIS: きめ細かい都市建物のインスタンスセグメンテーションのための大規模ベンチマーク UrbanBIS: a Large-scale Benchmark for Fine-grained Urban Building Instance Segmentation ( http://arxiv.org/abs/2305.02627v1 ) ライセンス: Link先を確認 | Guoqing Yang, Fuyou Xue, Qi Zhang, Ke Xie, Chi-Wing Fu, Hui Huang | (参考訳) 本稿では,大規模3次元都市理解のためのurbanbisベンチマークを提案し,都市レベルの意味と建物レベルのインスタンスセグメンテーションを実践的に支援する。
都市BISは6つの実際の都市のシーンで構成され、25億点があり、10.78平方キロメートルの広大な面積と3,370の建物をカバーしている。
特に、UrbanBISは、建物、車両、植生、道路、橋など、豊富な都市オブジェクトに意味レベルのアノテーションを提供するだけでなく、建物のインスタンスレベルのアノテーションも提供する。
さらに、urbanbisは、さまざまな建物タイプの形状を考慮して、きめ細かい建物サブカテゴリを導入した最初の3dデータセットである。
さらに,UrbanBISを確立するためのビルディングインスタンスセグメンテーション手法であるB-Segを提案する。
B-Segは、大規模ポイントクラウドを扱うためのシンプルで効果的な戦略を備えたエンドツーエンドフレームワークを採用している。
主流手法と比較して、B-SegはUrbanBISで高速な推論速度で精度が向上する。
注意深い注意点の雲に加えて、urbanbisは高解像度の空中獲得写真と高品質の大規模3d復元モデルを提供し、マルチビューステレオ、アーバンロッド生成、空中経路計画、自律ナビゲーション、道路ネットワーク抽出など幅広い研究を促進させ、多くのインテリジェントな都市アプリケーションにとって重要なプラットフォームとなっている。 We present the UrbanBIS benchmark for large-scale 3D urban understanding, supporting practical urban-level semantic and building-level instance segmentation. UrbanBIS comprises six real urban scenes, with 2.5 billion points, covering a vast area of 10.78 square kilometers and 3,370 buildings, captured by 113,346 views of aerial photogrammetry. Particularly, UrbanBIS provides not only semantic-level annotations on a rich set of urban objects, including buildings, vehicles, vegetation, roads, and bridges, but also instance-level annotations on the buildings. Further, UrbanBIS is the first 3D dataset that introduces fine-grained building sub-categories, considering a wide variety of shapes for different building types. Besides, we propose B-Seg, a building instance segmentation method to establish UrbanBIS. B-Seg adopts an end-to-end framework with a simple yet effective strategy for handling large-scale point clouds. Compared with mainstream methods, B-Seg achieves better accuracy with faster inference speed on UrbanBIS. In addition to the carefully-annotated point clouds, UrbanBIS provides high-resolution aerial-acquisition photos and high-quality large-scale 3D reconstruction models, which shall facilitate a wide range of studies such as multi-view stereo, urban LOD generation, aerial path planning, autonomous navigation, road network extraction, and so on, thus serving as an important platform for many intelligent city applications. | 翻訳日:2023-05-05 16:28:31 公開日:2023-05-04 |
# 構成行動認識のための時空間相互作用のモデル化 Modelling Spatio-Temporal Interactions for Compositional Action Recognition ( http://arxiv.org/abs/2305.02673v1 ) ライセンス: Link先を確認 | Ramanathan Rajendiran, Debaditya Roy, Basura Fernando | (参考訳) 人間は、アクションやバックグラウンドに関わるオブジェクトが変更されても、アクションを認識する能力を持っている。
人間は、アクションの構成性と呼ばれるオブジェクトとそのコンテキストの出現から、アクションを抽象化することができる。
構成的行動認識は、人間のような構成的一般化能力を行動認識モデルに付与する。
この観点から、人間と物体の相互作用を抽出することは、構成的理解の基礎となる。
これらの相互作用は、オブジェクトやコンテキストの外観バイアスに影響されない。
しかし、コンテキストは物と物の間の相互作用に関する追加の手がかりを提供する。
したがって、構成的行動認識のための人間と物体の相互作用にコンテキストを注入する必要がある。
この目的のために、まず、人間と物体の相互作用をキャプチャする時空間相互作用エンコーダを設計する。
エンコーダは、背景コンテキストから切り離された時空間相互作用トークンを学習する。
インタラクショントークンは、ビデオトークンからのコンテキスト情報と融合して、物と物の間のインタラクションをモデル化します。
最終的な文脈注入時空間相互作用トークンは、合成行動認識に使用される。
我々は,最近の重要な対象中心法よりも83.8%の精度で,新たな最先端結果が得られるような,Somes-Elseデータセットに対するインタラクション中心のアプローチの有効性を示す。
人・物・物間の相互作用を明示的にモデル化する手法は,Something-V2 や Epic-Kitchens-100 のような標準的な行動認識データセットにおいても有効である。 Humans have the natural ability to recognize actions even if the objects involved in the action or the background are changed. Humans can abstract away the action from the appearance of the objects and their context which is referred to as compositionality of actions. Compositional action recognition deals with imparting human-like compositional generalization abilities to action-recognition models. In this regard, extracting the interactions between humans and objects forms the basis of compositional understanding. These interactions are not affected by the appearance biases of the objects or the context. But the context provides additional cues about the interactions between things and stuff. Hence we need to infuse context into the human-object interactions for compositional action recognition. To this end, we first design a spatial-temporal interaction encoder that captures the human-object (things) interactions. The encoder learns the spatio-temporal interaction tokens disentangled from the background context. The interaction tokens are then infused with contextual information from the video tokens to model the interactions between things and stuff. The final context-infused spatio-temporal interaction tokens are used for compositional action recognition. We show the effectiveness of our interaction-centric approach on the compositional Something-Else dataset where we obtain a new state-of-the-art result of 83.8% top-1 accuracy outperforming recent important object-centric methods by a significant margin. Our approach of explicit human-object-stuff interaction modeling is effective even for standard action recognition datasets such as Something-Something-V2 and Epic-Kitchens-100 where we obtain comparable or better performance than state-of-the-art. | 翻訳日:2023-05-05 16:22:01 公開日:2023-05-04 |
# 量子重力状態における多成分絡み合いからの曲率 Curvature from multipartite entanglement in quantum gravity states ( http://arxiv.org/abs/2305.02670v1 ) ライセンス: Link先を確認 | Simone Cepollaro, Goffredo Chirco, Gianluca Cuffaro, Vittorio D'Esposito | (参考訳) ループ量子重力の枠組みにおいて、非自明なsu(2)ホロノミムを持つグラフ上で定義されるスピンネットワークを用いて、境界を持つ一様曲面量子3次元空間領域の多元的絡み合いについて検討する。
領域内における内在的曲率の存在は、グラフの頂点に付随するタグスピンに付随する閉包(位相的)欠陥に符号化される。
そのような状態に対しては、バルクから境界への写像を拡張境界空間にタグの空間を含めるように一般化する:バルク情報は、総称的に絡み合う境界面と本質的に曲率の自由度の間で共有される。
我々は2つの(補的な)境界部分領域とバルクタグの集合からなる三部構造系の量子領域をモデル化する。
レプリカ技術により、開量子系として記述される縮小境界の対数ネガティビティの典型的な値を大きなスピンレジームで計算することができる。
3つの絡み合い条件は、タグの数(曲率)と境界における双対面の面積の比に依存する。
これらは三分割ランダム状態の一般化されたページ曲線によってよく説明される。
特に,小曲率の場合におけるネガティリティの領域スケーリング挙動を見いだすとともに,大曲率の場合ネガティリティは消失し,境界の有効熱化が示唆される。
驚くべきことに、混合境界状態のppt特性は、ネットワークの有効なトポロジーの変化に対応し、2つの境界部分領域が切断される。 We investigate the multipartite entanglement of a uniformly curved quantum 3D space region with boundary, realised in terms of spin networks defined on a graph with non trivial SU(2) holonomies, in the framework of loop quantum gravity. The presence of intrinsic curvature in the region is encoded in closure (topological) defects associated with tag-spins attached to the vertices of the graph. For such states, we generalise the bulk-to-boundary mapping as to include the space of tags in an extended boundary space: bulk information is shared among generically entangled boundary surfaces and intrinsic curvature degrees of freedom. We model the quantum region on a tripartite system composed by two (complementary) boundary subregions and the set of bulk tags. Via replica techniques, we can compute the typical value of the logarithmic negativity of the reduced boundary, described as an open quantum system, in a large spin regime. We find three entanglement regimes, depending on the ratio between the number of tags (curvature) and the area of the dual surface at the boundary. These are well described by the generalised Page curve of a tripartite random state. In particular, we find area scaling behaviour for negativity in case of small curvature, while for large curvature the negativity vanishes, suggesting an effective thermalization of the boundary. Remarkably, the PPT character of the mixed boundary state corresponds to a change in the effective topology of the network, with the two boundary subregions becoming disconnected. | 翻訳日:2023-05-05 16:21:39 公開日:2023-05-04 |
# zx計算を用いた量子回路シミュレーションの高速化 Speeding up quantum circuits simulation using ZX-Calculus ( http://arxiv.org/abs/2305.02669v1 ) ライセンス: Link先を確認 | Tristan Cam, Simon Martiel | (参考訳) 量子回路をシミュレートするテンソルネットワークの縮約コストを削減するための簡易かつ効率的な方法を提案する。
まず、回路をZXダイアグラムとして解釈する。
次に、単純化と局所補完ルールを使ってそれをスパース化する。
グラフライクなZX-ダイアグラムの最適化により,アート収縮コストの既存状態を桁違いに改善できることが判明した。
特に,深度20のSycamore回路では平均収縮コストが1180倍,ピーク性能では最大4200倍であることを示す。 We present a simple and efficient way to reduce the contraction cost of a tensor network to simulate a quantum circuit. We start by interpreting the circuit as a ZX-diagram. We then use simplification and local complementation rules to sparsify it. We find that optimizing graph-like ZX-diagrams improves existing state of the art contraction cost by several order of magnitude. In particular, we demonstrate an average contraction cost 1180 times better for Sycamore circuits of depth 20, and up to 4200 times better at peak performance. | 翻訳日:2023-05-05 16:21:14 公開日:2023-05-04 |
# LatentAugment: データ拡張の動的最適化潜在確率 LatentAugment: Dynamically Optimized Latent Probabilities of Data Augmentation ( http://arxiv.org/abs/2305.02668v1 ) ライセンス: Link先を確認 | Koichi Kuriyama | (参考訳) データ拡張は画像分類タスクの性能を向上させるための強力な手法であるが、最良の拡張ポリシーを特定することは困難である。
潜在変数である最適拡張ポリシーを直接観測することはできない。
この問題に対処するために,本研究では,最適拡張の潜在確率を推定する$\textit{latentaugment}$を提案する。
提案手法は,学習イテレーションにおける各入力およびモデルパラメータの強化戦略を動的に最適化できる点にアピールする。
理論的解析により、LatentAugmentは、他の拡張メソッドを特別なケースとして含む一般的なモデルであり、既存の拡張メソッドと比較して単純かつ計算的に効率的であることが示されている。
実験結果から,提案手法はCIFAR-10, CIFAR-100, SVHN, ImageNetデータセットにおいて, 従来手法よりも精度が高いことがわかった。 Although data augmentation is a powerful technique for improving the performance of image classification tasks, it is difficult to identify the best augmentation policy. The optimal augmentation policy, which is the latent variable, cannot be directly observed. To address this problem, this study proposes $\textit{LatentAugment}$, which estimates the latent probability of optimal augmentation. The proposed method is appealing in that it can dynamically optimize the augmentation strategies for each input and model parameter in learning iterations. Theoretical analysis shows that LatentAugment is a general model that includes other augmentation methods as special cases, and it is simple and computationally efficient in comparison with existing augmentation methods. Experimental results show that the proposed LatentAugment has higher test accuracy than previous augmentation methods on the CIFAR-10, CIFAR-100, SVHN, and ImageNet datasets. | 翻訳日:2023-05-05 16:21:05 公開日:2023-05-04 |
# 多言語機械翻訳のための学習言語特化層 Learning Language-Specific Layers for Multilingual Machine Translation ( http://arxiv.org/abs/2305.02665v1 ) ライセンス: Link先を確認 | Telmo Pessoa Pires, Robin M. Schmidt, Yi-Hsiu Liao, Stephan Peitz | (参考訳) 多言語機械翻訳は、非英語言語間の翻訳品質を改善することを約束する。
これは、レイテンシの低下(2回翻訳する必要がなくなる)、エラーカスケードの低減(英語を翻訳する際に性別や形式情報を失うことの回避など)など、いくつかの理由により有利である。
欠点として、言語を増やすことで言語単位のモデル容量が削減されるため、モデル全体のサイズを増加させることで、トレーニングが難しくなり、推論が遅くなる。
本研究では,Language-Specific Transformer Layers (LSLs)を導入し,計算量と前方通過定数のパラメータ数を維持しながら,モデルのキャパシティを向上させる。
重要なアイデアは、エンコーダのいくつかのレイヤをソースまたはターゲット言語固有のものにし、残りのレイヤを共有させることである。
これらの層をニューラルネットワークにインスパイアされたアプローチで配置する最善の方法を検討し,個別のデコーダアーキテクチャではlslを使用しない1.3chrf (1.5 spbleu) ポイント,共有デコーダでは1.9chrf (2.2 spbleu) の改善を実現した。 Multilingual Machine Translation promises to improve translation quality between non-English languages. This is advantageous for several reasons, namely lower latency (no need to translate twice), and reduced error cascades (e.g., avoiding losing gender and formality information when translating through English). On the downside, adding more languages reduces model capacity per language, which is usually countered by increasing the overall model size, making training harder and inference slower. In this work, we introduce Language-Specific Transformer Layers (LSLs), which allow us to increase model capacity, while keeping the amount of computation and the number of parameters used in the forward pass constant. The key idea is to have some layers of the encoder be source or target language-specific, while keeping the remaining layers shared. We study the best way to place these layers using a neural architecture search inspired approach, and achieve an improvement of 1.3 chrF (1.5 spBLEU) points over not using LSLs on a separate decoder architecture, and 1.9 chrF (2.2 spBLEU) on a shared decoder one. | 翻訳日:2023-05-05 16:20:49 公開日:2023-05-04 |
# 数値離散化精度のパラメータ再構成とモデルパラメータ分布への影響 Impact Study of Numerical Discretization Accuracy on Parameter Reconstructions and Model Parameter Distributions ( http://arxiv.org/abs/2305.02663v1 ) ライセンス: Link先を確認 | Matthias Plock, Martin Hammerschmidt, Sven Burger, Philipp-Immanuel Schneider, Christof Sch\"utte | (参考訳) 数値モデルは光ナノメトロジーの分野におけるパラメータ再構成に広く用いられている。
ナノ構造線格子の幾何学的パラメータを得るために,ベイズ対象ベクトル最適化法を用いて有限要素数値モデルを実験データセットに適合させる。
ガウス過程シュロゲートモデルは再建中に訓練される。
その後,サロゲートモデル上でマルコフ連鎖モンテカルロ・サンプラーを用いて,再構成されたモデルパラメータのフルモデルパラメータ分布を決定する。
有限要素アンザッツ関数の多項式次数のような数値離散化パラメータの選択は、前方モデルの数値離散化誤差に影響を与える。
本研究では,前方問題における数値離散化パラメータがモデルパラメータ分布と再構成パラメータに与える影響について検討する。
このような収束研究により, 効率良く正確な復元結果が得られる数値パラメータが決定できることを示す。 Numerical models are used widely for parameter reconstructions in the field of optical nano metrology. To obtain geometrical parameters of a nano structured line grating, we fit a finite element numerical model to an experimental data set by using the Bayesian target vector optimization method. Gaussian process surrogate models are trained during the reconstruction. Afterwards, we employ a Markov chain Monte Carlo sampler on the surrogate models to determine the full model parameter distribution for the reconstructed model parameters. The choice of numerical discretization parameters, like the polynomial order of the finite element ansatz functions, impacts the numerical discretization error of the forward model. In this study we investigate the impact of numerical discretization parameters of the forward problem on the reconstructed parameters as well as on the model parameter distributions. We show that such a convergence study allows to determine numerical parameters which allow for efficient and accurate reconstruction results. | 翻訳日:2023-05-05 16:20:25 公開日:2023-05-04 |
# ブラインドビデオ超解像のための合成実世界の劣化拡大 Expanding Synthetic Real-World Degradations for Blind Video Super Resolution ( http://arxiv.org/abs/2305.02660v1 ) ライセンス: Link先を確認 | Mehran Jeelani, Sadbhawna, Noshaba Cheema, Klaus Illgner-Fehns, Philipp Slusallek, and Sunil Jaiswal | (参考訳) ビデオ超解像(VSR)技術、特にディープラーニングベースのアルゴリズムは、ここ数年で大幅に改善され、合成データに顕著なパフォーマンスを示している。
しかし、実世界のビデオデータにおけるそれらのパフォーマンスは、実世界の劣化と不一致のビデオフレームの複雑さに悩まされている。
本稿では,低分解能(LR)フレームと高分解能(HR)フレームからなる合成データセットの取得が実世界のLRとHR画像の取得よりも容易であるため,合成トレーニングデータセットを用いた実世界の劣化の合成を提案する。
提案した合成実世界の劣化(SRWD)には、ぼかし、ノイズ、ダウンサンプリング、ピクセルバイニング、画像およびビデオ圧縮アーティファクトの組み合わせが含まれる。
次に、ランダムシャッフルに基づく戦略を用いて、トレーニングデータセット上のこれらの劣化をシミュレートし、提案される現実的な合成トレーニングデータのより大きなバリエーションに基づいて、単一のエンドツーエンドのディープニューラルネットワーク(DNN)をトレーニングする。
定量的および定性的な比較分析により,様々な現実的劣化を用いたトレーニング戦略は,RealBasicVSRと比較してNRQMの7.1 %,VideoLQデータセットではBSRGANの3.34 %向上した。
また,ベンチマーキングの共通基盤となる高精細な実世界の映像を含むデータセットも紹介する。 Video super-resolution (VSR) techniques, especially deep-learning-based algorithms, have drastically improved over the last few years and shown impressive performance on synthetic data. However, their performance on real-world video data suffers because of the complexity of real-world degradations and misaligned video frames. Since obtaining a synthetic dataset consisting of low-resolution (LR) and high-resolution (HR) frames are easier than obtaining real-world LR and HR images, in this paper, we propose synthesizing real-world degradations on synthetic training datasets. The proposed synthetic real-world degradations (SRWD) include a combination of the blur, noise, downsampling, pixel binning, and image and video compression artifacts. We then propose using a random shuffling-based strategy to simulate these degradations on the training datasets and train a single end-to-end deep neural network (DNN) on the proposed larger variation of realistic synthesized training data. Our quantitative and qualitative comparative analysis shows that the proposed training strategy using diverse realistic degradations improves the performance by 7.1 % in terms of NRQM compared to RealBasicVSR and by 3.34 % compared to BSRGAN on the VideoLQ dataset. We also introduce a new dataset that contains high-resolution real-world videos that can serve as a common ground for bench-marking. | 翻訳日:2023-05-05 16:20:14 公開日:2023-05-04 |
# パターンQUBO:3SAT-to-QUBO変換のアルゴリズム構築 Pattern QUBOs: Algorithmic construction of 3SAT-to-QUBO transformations ( http://arxiv.org/abs/2305.02659v1 ) ライセンス: Link先を確認 | Sebastian Zielinski, Jonas N\"u{\ss}lein, Jonas Stein, Thomas Gabor, Claudia Linnhoff-Popien, Sebastian Feld | (参考訳) 3SATインスタンスは、量子アニール上で解決される準非拘束バイナリ最適化(QUBO)のインスタンスに変換する必要がある。
3SAT-to-QUBO変換の選択は量子アニールの解の質に大きな影響を与えることが示されているが、現在知られている3SAT-to-QUBO変換はわずかである。
さらに、既知の3SAT-to-QUBO変換はすべて、推論を使用する専門家によって手作業で(手続き的にではなく)作成されました。
本稿では,これまで3SAT-to-QUBO変換の構成において暗黙的に使用されてきた概念として,Pattern QUBOという名称を導入する。
本稿では,パターンQUBOの考え方を詳細に説明するとともに,パターンQUBOを用いて3SAT-to-QUBO変換を自動生成するアルゴリズムを提案する。
パターンQUBOと提案手法のさらなる応用として,近似3SAT-to-QUBO変換を導入する。
これらの変換は最適性を犠牲にするが、非近似3SAT-to-QUBO変換よりも変数(量子ハードウェア上の物理量子ビット)が著しく少ない。
近似 3sat-to-qubo 変換は、いくつかの場合において非常に効果的であることを示す。 3SAT instances need to be transformed into instances of Quadratic Unconstrained Binary Optimization (QUBO) to be solved on a quantum annealer. Although it has been shown that the choice of the 3SAT-to-QUBO transformation can impact the solution quality of quantum annealing significantly, currently only a few 3SAT-to-QUBO transformations are known. Additionally, all of the known 3SAT-to-QUBO transformations were created manually (and not procedurally) by an expert using reasoning, which is a rather slow and limiting process. In this paper, we will introduce the name Pattern QUBO for a concept that has been used implicitly in the construction of 3SAT-to-QUBO transformations before. We will provide an in-depth explanation for the idea behind Pattern QUBOs and show its importance by proposing an algorithmic method that uses Pattern QUBOs to create new 3SAT-to-QUBO transformations automatically. As an additional application of Pattern QUBOs and our proposed algorithmic method, we introduce approximate 3SAT-to-QUBO transformations. These transformations sacrifice optimality but use significantly fewer variables (and thus physical qubits on quantum hardware) than non-approximate 3SAT-to-QUBO transformations. We will show that approximate 3SAT-to-QUBO transformations can nevertheless be very effective in some cases. | 翻訳日:2023-05-05 16:19:47 公開日:2023-05-04 |
# 深部ニューラルネットワークの統計的最適性 Statistical Optimality of Deep Wide Neural Networks ( http://arxiv.org/abs/2305.02657v1 ) ライセンス: Link先を確認 | Yicheng Li, Zixiong Yu, Guhan Chen, Qian Lin | (参考訳) 本稿では、有界領域 $\mathcal X \subset \mathbb R^{d}$ 上で定義された深いフィードフォワード ReLU ニューラルネットワークの一般化能力を考察する。
まず、ニューラルネットワークの一般化能力は、対応するディープ・ニューラル・タンジェント・カーネル(NTK)の回帰によって完全に特徴づけられることを示した。
次に、深部NTKのスペクトル特性を調査し、深部NTKが$\mathcal{X}$で正定値であり、その固有値減衰率は$(d+1)/d$であることを示す。
カーネル回帰の確立された理論により、対応するNTKに付随する再生カーネルヒルベルト空間(RKHS)に回帰関数が存在することを仮定して、勾配降下により訓練された多層ワイドニューラルネットワークが最小最大値を達成することを結論付ける。
最後に、オーバーフィットした多層ニューラルネットワークは$\mathbb S^{d}$ではうまく一般化できないことを示す。 In this paper, we consider the generalization ability of deep wide feedforward ReLU neural networks defined on a bounded domain $\mathcal X \subset \mathbb R^{d}$. We first demonstrate that the generalization ability of the neural network can be fully characterized by that of the corresponding deep neural tangent kernel (NTK) regression. We then investigate on the spectral properties of the deep NTK and show that the deep NTK is positive definite on $\mathcal{X}$ and its eigenvalue decay rate is $(d+1)/d$. Thanks to the well established theories in kernel regression, we then conclude that multilayer wide neural networks trained by gradient descent with proper early stopping achieve the minimax rate, provided that the regression function lies in the reproducing kernel Hilbert space (RKHS) associated with the corresponding NTK. Finally, we illustrate that the overfitted multilayer wide neural networks can not generalize well on $\mathbb S^{d}$. | 翻訳日:2023-05-05 16:19:26 公開日:2023-05-04 |
# 量子インターネット:効率的な安定化状態分散方式 The Quantum Internet: an Efficient Stabilizer states Distribution Scheme ( http://arxiv.org/abs/2305.02656v1 ) ライセンス: Link先を確認 | Seid Koudia | (参考訳) 量子ネットワークは量子技術の主要な部分を占める。
量子チップのスケーラブルなモジュラーアーキテクチャを提供することや、測定ベースの量子コンピューティングのインフラストラクチャを確立することで、分散量子コンピューティングを大幅に強化する。
さらに、将来の量子インターネットのバックボーンを提供し、高いマージンのセキュリティを可能にします。
興味深いことに、量子ネットワークが通信のために提供する利点は絡み合い分布に依存しており、ベル対分布と二部絡み合いスワップに基づくプロトコルのレイテンシが高い。
さらに,マルチパーティ・エンタングルメント・ルーティングの設計アルゴリズムは,多項式時間で解けないような難易度問題に悩まされている。
本稿では,局所量子符号化 (LQC) アイソメトリとマルチパーティント状態移動に依存する量子ネットワークにおけるグラフ状態分布の新しいアプローチについて検討する。
さらに、安定化状態分布のための単発境界が提供される。
ネットワーク符号化とは対照的に、リレーノードにおける適切なイソメトリー/安定化器符号が選択された場合、これらの境界は達成可能であることが示される。
実のところ、ネットワークのさまざまな特性に対するプロトコルの利点が提供される。 Quantum networks constitute a major part of quantum technologies. They will boost distributed quantum computing drastically by providing a scalable modular architecture of quantum chips, or by establishing an infrastructure for measurement based quantum computing. Moreover, they will provide the backbone of the future quantum internet, allowing for high margins of security. Interestingly, the advantages that the quantum networks would provide for communications, rely on entanglement distribution, which suffers from high latency in protocols based on Bell pair distribution and bipartite entanglement swapping. Moreover, the designed algorithms for multipartite entanglement routing suffer from intractability issues making them unsolvable exactly in polynomial time. In this paper, we investigate a new approach for graph states distribution in quantum networks relying inherently on local quantum coding -- LQC -- isometries and on multipartite states transfer. Additionally, single-shot bounds for stabilizer states distribution are provided. Analogously to network coding, these bounds are shown to be achievable if appropriate isometries/stabilizer codes in relay nodes are chosen, which induces a lower latency entanglement distribution. As a matter of fact, the advantages of the protocol for different figures of merit of the network are provided. | 翻訳日:2023-05-05 16:19:07 公開日:2023-05-04 |
# 物理境界あるいは界面条件を持つ偏微分方程式の量子シミュレーション Quantum Simulation for Partial Differential Equations with Physical Boundary or Interface Conditions ( http://arxiv.org/abs/2305.02710v1 ) ライセンス: Link先を確認 | Shi Jin and Xiantao Li and Nana Liu and Yue Yu | (参考訳) 本稿では,物理境界条件や界面条件を考慮した偏微分方程式(PDE)の量子シミュレーションの実現可能性について検討する。
このような問題の半離散化は必ずしもハミルトン力学をもたらすとは限らないし、境界条件と界面条件を含む場合のハミルトン構造も変化する。
この難解な問題は、最近導入された Schr\"odingerisation 法 (Jin et al. 2022) を用いて解決することができる -- 非エルミート力学を持つ任意の線形 PDE と ODE を、方程式を1つの高次元にマッピングするワープ位相変換(英語版)と呼ばれるシステムに変換する。
本手法は,流入境界条件を持つ線形対流方程式やディリクレとノイマン境界条件を持つ熱方程式など,いくつかの典型的な問題に対して実装する。
界面問題に対して、(パラボリック)ステファン問題、線形対流、および不連続かつ測度値の係数を持つ線形リウヴィル方程式について検討する。
本手法の有効性を示すための数値実験を行い,古典的および量子力学における量子アルゴリズムと計算モデルとのギャップを境界条件と界面条件で埋めるのに役立つ。 This paper explores the feasibility of quantum simulation for partial differential equations (PDEs) with physical boundary or interface conditions. Semi-discretisation of such problems does not necessarily yield Hamiltonian dynamics and even alters the Hamiltonian structure of the dynamics when boundary and interface conditions are included. This seemingly intractable issue can be resolved by using a recently introduced Schr\"odingerisation method (Jin et al. 2022) -- it converts any linear PDEs and ODEs with non-Hermitian dynamics to a system of Schr\"odinger equations, via the so-called warped phase transformation that maps the equation into one higher dimension. We implement this method for several typical problems, including the linear convection equation with inflow boundary conditions and the heat equation with Dirichlet and Neumann boundary conditions. For interface problems, we study the (parabolic) Stefan problem, linear convection, and linear Liouville equations with discontinuous and even measure-valued coefficients. We perform numerical experiments to demonstrate the validity of this approach, which helps to bridge the gap between available quantum algorithms and computational models for classical and quantum dynamics with boundary and interface conditions. | 翻訳日:2023-05-05 16:12:44 公開日:2023-05-04 |
# 環境・農業データモデリングのための解釈可能なブースティングアルゴリズム Using interpretable boosting algorithms for modeling environmental and agricultural data ( http://arxiv.org/abs/2305.02699v1 ) ライセンス: Link先を確認 | Fabian Obster, Christian Heumann, Heidi Bohle, Paul Pechan | (参考訳) 本稿では,リッジ正規化一般化線形モデルに基づく解釈可能なブースティングアルゴリズムを用いた高次元環境データの解析について述べる。
環境・社会的・人的・生物物理学的データを用いて、チリやチュニジアの農家の気候災害に対する経済的脆弱性を予測する。
提案手法は, 群構造をどう考えるか, 相互作用が高次元データセットでどのように見られるかを示す。
提案手法の利点と有効性について考察した。
その結果、相互作用効果の存在は2段階の促進に含まれる場合のみ予測力を改善することが示唆された。
すべてのタイプの脆弱性を予測する上で最も重要な変数は自然資産である。
その他の重要な変数は灌水の種類、経済資産、近辺の農場の作物被害の存在である。 We describe how interpretable boosting algorithms based on ridge-regularized generalized linear models can be used to analyze high-dimensional environmental data. We illustrate this by using environmental, social, human and biophysical data to predict the financial vulnerability of farmers in Chile and Tunisia against climate hazards. We show how group structures can be considered and how interactions can be found in high-dimensional datasets using a novel 2-step boosting approach. The advantages and efficacy of the proposed method are shown and discussed. Results indicate that the presence of interaction effects only improves predictive power when included in two-step boosting. The most important variable in predicting all types of vulnerabilities are natural assets. Other important variables are the type of irrigation, economic assets and the presence of crop damage of near farms. | 翻訳日:2023-05-05 16:12:20 公開日:2023-05-04 |
# DECICE: デバイスエッジクラウドのインテリジェントコラボレーションフレームワーク DECICE: Device-Edge-Cloud Intelligent Collaboration Framework ( http://arxiv.org/abs/2305.02697v1 ) ライセンス: Link先を確認 | Julian Kunkel, Christian Boehme, Jonathan Decker, Fabrizio Magugliani, Dirk Pleiter, Bastian Koller, Karthee Sivalingam, Sabri Pllana, Alexander Nikolov, Mujdat Soyturk, Christian Racca, Andrea Bartolini, Adrian Tate, Berkay Yaman | (参考訳) deciceは,エッジ上のiotセンサから大規模クラウド/hpcコンピューティングインフラストラクチャに至るまで,アプリケーションの最適化とデプロイを自動化するai対応のオープンかつポータブルな管理フレームワークを開発する,horizon europeのプロジェクトだ。
本稿では,deciceフレームワークとアーキテクチャについて述べる。
さらに、インテリジェント交通交差点、磁気共鳴イメージング、緊急応答といったフレームワーク評価のユースケースを強調した。 DECICE is a Horizon Europe project that is developing an AI-enabled open and portable management framework for automatic and adaptive optimization and deployment of applications in computing continuum encompassing from IoT sensors on the Edge to large-scale Cloud / HPC computing infrastructures. In this paper, we describe the DECICE framework and architecture. Furthermore, we highlight use-cases for framework evaluation: intelligent traffic intersection, magnetic resonance imaging, and emergency response. | 翻訳日:2023-05-05 16:12:08 公開日:2023-05-04 |
# グラフニューラルネットワークを用いた添加物製造におけるその場異常検出 In-situ Anomaly Detection in Additive Manufacturing with Graph Neural Networks ( http://arxiv.org/abs/2305.02695v1 ) ライセンス: Link先を確認 | Sebastian Larsen and Paul A. Hooper | (参考訳) 高品質な製品にデザインを変換することは、金属添加物の製造において、欠陥を生じさせる稀な出来事による課題である。
しかし、これらの事象をその場で検出することは、検査コストを削減し、是正措置を可能にし、調整された材料特性の将来に向けた第一歩となる。
本研究では, レーザー入力情報を用いて, レーザー融解条件の予測を行う。
そして、予測値と新たな観測値の差を利用して異常スコアを算出する。
このモデルは、既知の欠陥のあるデータセット上で評価され、F1スコアは0.821である。
本研究は,ロバストな欠陥検出法を開発する上で,異常検出法が重要なツールであることを示す。 Transforming a design into a high-quality product is a challenge in metal additive manufacturing due to rare events which can cause defects to form. Detecting these events in-situ could, however, reduce inspection costs, enable corrective action, and is the first step towards a future of tailored material properties. In this study a model is trained on laser input information to predict nominal laser melting conditions. An anomaly score is then calculated by taking the difference between the predictions and new observations. The model is evaluated on a dataset with known defects achieving an F1 score of 0.821. This study shows that anomaly detection methods are an important tool in developing robust defect detection methods. | 翻訳日:2023-05-05 16:12:00 公開日:2023-05-04 |
# プロトタイプベース多段階学習による半教師付きドメイン適応 Semi-supervised Domain Adaptation via Prototype-based Multi-level Learning ( http://arxiv.org/abs/2305.02693v1 ) ライセンス: Link先を確認 | Xinyang Huang, Chuang Zhu and Wenkai Chen | (参考訳) 半教師付きドメイン適応(ssda)では、各クラスのラベル付きターゲットサンプルが、モデルが完全なラベル付きソースドメインからターゲットドメインへの知識表現の転送を支援する。
既存の多くのメソッドは、ラベル付きターゲットサンプルをマルチレベルから完全に利用する利点を無視している。
この追加データをよりよく活用するために,ラベル付き対象サンプルの可能性をうまく活用するためのプロトタイプベース多段階学習(ProML)フレームワークを提案する。
ドメイン内適応を実現するために,まず,ドメイン内最適移動に基づく擬似ラベルアグリゲーションを導入し,ラベルなしのターゲットサンプルとプロトタイプの特徴分布をモデル化する。
ドメイン間レベルでは、モデルがドメイン間知識転送のターゲットプロトタイプを使用するのを助けるために、クロスドメインアライメントロスを提案する。
さらに,プロトタイプ類似性と線形分類器に基づく2重一貫性を提案し,バッチレベルでのコンパクトな特徴表現の識別学習を促進する。
DomainNet, VisDA2017, Office-Homeの3つのデータセットに対する大規模な実験により,提案手法がSSDAの最先端性能を実現することを示す。 In semi-supervised domain adaptation (SSDA), a few labeled target samples of each class help the model to transfer knowledge representation from the fully labeled source domain to the target domain. Many existing methods ignore the benefits of making full use of the labeled target samples from multi-level. To make better use of this additional data, we propose a novel Prototype-based Multi-level Learning (ProML) framework to better tap the potential of labeled target samples. To achieve intra-domain adaptation, we first introduce a pseudo-label aggregation based on the intra-domain optimal transport to help the model align the feature distribution of unlabeled target samples and the prototype. At the inter-domain level, we propose a cross-domain alignment loss to help the model use the target prototype for cross-domain knowledge transfer. We further propose a dual consistency based on prototype similarity and linear classifier to promote discriminative learning of compact target feature representation at the batch level. Extensive experiments on three datasets, including DomainNet, VisDA2017, and Office-Home demonstrate that our proposed method achieves state-of-the-art performance in SSDA. | 翻訳日:2023-05-05 16:11:48 公開日:2023-05-04 |
# pgb:異種ネットワーク表現学習のためのpubmed graphベンチマーク PGB: A PubMed Graph Benchmark for Heterogeneous Network Representation Learning ( http://arxiv.org/abs/2305.02691v1 ) ライセンス: Link先を確認 | Eric W Lee, Joyce C Ho | (参考訳) 生物医学文献の急激な発展が見られたが、これらの論文の書誌情報の異質性は比較的調査されていない。
ヘテロジニアスなグラフニューラルネットワークによるグラフマイニングの研究が中心的だが、これらのアプローチが3300万以上の記事を含む巨大なデジタルリポジトリであるpubmedデータベースの多様性を捉えているかどうかは不明だ。
バイオメディカル文献のための異種グラフ埋め込みを評価するためのベンチマークデータセットであるPubMed Graph Benchmark (PGB)を紹介する。
PGBは、これまでで最大の異種ネットワークの1つで、3000万の英語記事で構成されている。
ベンチマークには、抽象、著者、引用、MeSH用語、MeSH階層、その他の情報を含む豊富なメタデータが含まれている。
ベンチマークには、3つの異なるデータセットから21のシステマティックレビュートピックの評価タスクが含まれている。
PGBでは、PubMedのバイオメディカル記事に関連するメタデータを統一したソースに集約し、将来の作業でベンチマークを公開します。 There has been a rapid growth in biomedical literature, yet capturing the heterogeneity of the bibliographic information of these articles remains relatively understudied. Although graph mining research via heterogeneous graph neural networks has taken center stage, it remains unclear whether these approaches capture the heterogeneity of the PubMed database, a vast digital repository containing over 33 million articles. We introduce PubMed Graph Benchmark (PGB), a new benchmark dataset for evaluating heterogeneous graph embeddings for biomedical literature. PGB is one of the largest heterogeneous networks to date and consists of 30 million English articles. The benchmark contains rich metadata including abstract, authors, citations, MeSH terms, MeSH hierarchy, and some other information. The benchmark contains an evaluation task of 21 systematic reviews topics from 3 different datasets. In PGB, we aggregate the metadata associated with the biomedical articles from PubMed into a unified source and make the benchmark publicly available for any future works. | 翻訳日:2023-05-05 16:11:27 公開日:2023-05-04 |
# ビッグデータと膨大な数です
Zipfの法則の解釈 Big Data and Large Numbers. Interpreting Zipf's Law ( http://arxiv.org/abs/2305.02687v1 ) ライセンス: Link先を確認 | Horia-Nicolai L. Teodorescu | (参考訳) ビッグデータのいくつかの実証的な事実は、大量の性質の影響であることがわかった。
Zipfの法則ノイズはそのような人工物の一例である。
我々は、人口が有限で、人口の要素のランクとカウントが自然数であるときに生じる、パワーロー分布と類似した分布のいくつかの性質を暴露する。
Zipfの法則の解釈における結果について議論する。 It turns out that some empirical facts in Big Data are the effects of properties of large numbers. Zipf's law noise is an example of such an artefact. We expose several properties of the power law distributions and of similar distribution that occur when the population is finite and the rank and counts of elements in the population are natural numbers. Consequences in the interpretation of Zipf's law are discussed. | 翻訳日:2023-05-05 16:11:10 公開日:2023-05-04 |
# 散逸的量子ホップフィールドネットワーク:数値解析 Dissipative Quantum Hopfield Network: A numerical analysis ( http://arxiv.org/abs/2305.02681v1 ) ライセンス: Link先を確認 | Joaqu\'in J. Torres and Daniel Manzano | (参考訳) 我々は、最近報告されたホップフィールドニューラルネットワークの量子バージョンを広範囲にシミュレーションし、その創発的な振る舞いを探索する。
このシステムは、与えられた$\omega$周波数で振動するn$ qubitsのネットワークで構成されており、それらは、与えられたストアドパターンに依存するローカルフィールドに依存するlindbladジャンプ演算子によって結合される。
これまでの結果と一致して,シミュレーションでは,s_x^i$ qubit 演算子によって駆動される量子効果によるメタスタビリティが原因で報告された平均場記述に類似した記憶されたパターンとの重なり合いのパターンアンチパターン振動を示す。
シミュレーションでは、そのような振動は量子項によって引き起こされるパターンアトラクタの固有メタステイブル性によって確率的であり、多くの量子軌道の平均値が有限系で消えることを観測する。
さらに,シミュレーションで到達可能な最小温度($t=0.005$)に対して,記憶されたパターン数が大きくなるとシステムの挙動を報告する。
本研究は,ハミルトニアンの量子項が記憶容量に負の影響を及ぼし,$\omega$ の値と格納されたパターンの数の増加に対するスタートメモリパターンとの重なりを減少させることを示した。
しかし、初期パターンは量子振動によって不安定になるが、他のパターンは回収でき、多くの記憶パターンに対して安定であり、リコールプロセスと記憶パターンの数の間の量子依存的非線形関係を示唆する。 We present extensive simulations of the recently reported quantum version of the well-known Hopfield Neural Network to explore its emergent behavior. The system is constituted of a network of $N$ qubits oscillating at a given $\Omega$ frequency and which are coupled via Lindblad jump operators that depend on local fields $h_i$ depending on some given stored patterns. In agreement with previous results, our simulations show pattern-antipattern oscillations of the overlaps with the stored patterns similar to those reported within a mean-field description of such a system, and which are due to metastability originated by the quantum effect driven by the $s_x^i$ qubit operators. In simulations, we observe that such oscillations are stochastic due to the inherent metastability of the pattern attractors induced by the quantum term and disappear in finite systems when one averages over many quantum trajectories. In addition, we report the system behavior when the number of stored patterns enlarges, for the minimum temperature we can reach in simulations (namely $T=0.005$). Our study reveals that the quantum term of the Hamiltonian has a negative effect on storage capacity, decreasing the overlap with the starting memory pattern for increased values of $\Omega$ and the number of stored patterns. However, although the initial pattern destabilizes due to quantum oscillations, other patterns can be retrieved and remain stable for a large number of stored patterns, implying a quantum-dependent nonlinear relationship between the recall process and the number of stored patterns. | 翻訳日:2023-05-05 16:11:04 公開日:2023-05-04 |
# 隣の言葉がサリエンシ説明の人間解釈に及ぼす影響 Neighboring Words Affect Human Interpretation of Saliency Explanations ( http://arxiv.org/abs/2305.02679v1 ) ライセンス: Link先を確認 | Alon Jacovi, Hendrik Schuff, Heike Adel, Ngoc Thang Vu, Yoav Goldberg | (参考訳) 単語レベルの敬礼説明("heat map over words")は、テキストベースのモデルで特徴属性を伝えるためにしばしば用いられる。
近年の研究では、単語の長さなどの表層的要因が、コミュニケーションされた塩分スコアの人間の解釈を歪めることが示されている。
本研究では,接頭辞のマーキングが,その単語の重要性に対する説明者の認識にどのような影響を及ぼすかを検討するために,ユーザ調査を行う。
隣接する単語が単語の重要度に重大な影響を与えていることが分かる。
具体的には,隣接方向 (左対右) とa-priori言語的・計算的指標 (非関連隣接語) に基づいて影響が変化することを示す。
本研究の結果は,テキストによる相性説明を単語レベルで継続するべきかどうかを問うとともに,代替相性説明法に関する今後の研究について報告する。 Word-level saliency explanations ("heat maps over words") are often used to communicate feature-attribution in text-based models. Recent studies found that superficial factors such as word length can distort human interpretation of the communicated saliency scores. We conduct a user study to investigate how the marking of a word's neighboring words affect the explainee's perception of the word's importance in the context of a saliency explanation. We find that neighboring words have significant effects on the word's importance rating. Concretely, we identify that the influence changes based on neighboring direction (left vs. right) and a-priori linguistic and computational measures of phrases and collocations (vs. unrelated neighboring words). Our results question whether text-based saliency explanations should be continued to be communicated at word level, and inform future research on alternative saliency explanation methods. | 翻訳日:2023-05-05 16:10:37 公開日:2023-05-04 |
# 多様なマルチモーダル制御を備えたインタラクティブな画像記述 Caption Anything: Interactive Image Description with Diverse Multimodal Controls ( http://arxiv.org/abs/2305.02677v1 ) ライセンス: Link先を確認 | Teng Wang, Jinrui Zhang, Junjie Fei, Yixiao Ge, Hao Zheng, Yunlong Tang, Zhe Li, Mingqi Gao, Shanshan Zhao, Ying Shan, Feng Zheng | (参考訳) 制御可能な画像キャプション(英: Controllable image Casting)は、人間の目的に従って自然言語で画像を記述することを目的とした、新たなマルチモーダルトピックである。
最先端の手法は、アノテーション付き入力制御と出力キャプションで訓練される。
しかし、このような注釈付きマルチモーダルデータの不足は、対話型AIシステムのユーザビリティとスケーラビリティを大幅に制限する。
ユニモーダル命令追跡基盤モデルを活用することは、幅広いデータソースの恩恵を受ける有望な代替手段である。
本稿では,幅広いマルチモデル制御をサポートする基盤モデル拡張画像キャプションフレームワークであるCaption AnyThing(CAT)について述べる。
1) 点,箱,軌跡を含む視覚制御
2)感情,長さ,言語,事実性などの言語制御。
Segment Anything Model(SAM)とChatGPTによって、視覚と言語プロンプトをモジュール化されたフレームワークに統合し、異なるコントロール間の柔軟な組み合わせを可能にします。
広範なケーススタディは,視覚言語アプリケーションにおける効果的なユーザインタラクションモデリングに光を当てながら,このフレームワークのユーザ意図アライメント機能を実証する。
私たちのコードはhttps://github.com/ttengwang/Caption-Anything.comで公開されています。 Controllable image captioning is an emerging multimodal topic that aims to describe the image with natural language following human purpose, $\textit{e.g.}$, looking at the specified regions or telling in a particular text style. State-of-the-art methods are trained on annotated pairs of input controls and output captions. However, the scarcity of such well-annotated multimodal data largely limits their usability and scalability for interactive AI systems. Leveraging unimodal instruction-following foundation models is a promising alternative that benefits from broader sources of data. In this paper, we present Caption AnyThing (CAT), a foundation model augmented image captioning framework supporting a wide range of multimodel controls: 1) visual controls, including points, boxes, and trajectories; 2) language controls, such as sentiment, length, language, and factuality. Powered by Segment Anything Model (SAM) and ChatGPT, we unify the visual and language prompts into a modularized framework, enabling the flexible combination between different controls. Extensive case studies demonstrate the user intention alignment capabilities of our framework, shedding light on effective user interaction modeling in vision-language applications. Our code is publicly available at https://github.com/ttengwang/Caption-Anything. | 翻訳日:2023-05-05 16:10:22 公開日:2023-05-04 |
# マルチエージェントシステムにおける人的価値 Human Values in Multiagent Systems ( http://arxiv.org/abs/2305.02739v1 ) ライセンス: Link先を確認 | Nardine Osman and Mark d'Inverno | (参考訳) 今日の倫理的AIで直面する大きな課題の1つは、推論と行動が人間の価値観と確実に一致している計算システムを開発することである。
しかし、人間の価値観は曖昧で矛盾し、変化し続けることで悪名高い。
このギャップを埋め、私たちが正式にAIに価値を実装することを理にかなっている状況に近づくために、この論文は社会科学に根ざした価値の形式的な表現を提示する。
この形式的表現を用いて,マルチエージェントシステム(MAS)における価値整合性を実現する上での重要な課題と,それに対応するための研究ロードマップを述べる。 One of the major challenges we face with ethical AI today is developing computational systems whose reasoning and behaviour are provably aligned with human values. Human values, however, are notorious for being ambiguous, contradictory and ever-changing. In order to bridge this gap, and get us closer to the situation where we can formally reason about implementing values into AI, this paper presents a formal representation of values, grounded in the social sciences. We use this formal representation to articulate the key challenges for achieving value-aligned behaviour in multiagent systems (MAS) and a research roadmap for addressing them. | 翻訳日:2023-05-05 16:03:37 公開日:2023-05-04 |
# 多レベル一貫性に基づく弱制御マイクロ・マクロ圧縮スポッティング Weakly-supervised Micro- and Macro-expression Spotting Based on Multi-level Consistency ( http://arxiv.org/abs/2305.02734v1 ) ライセンス: Link先を確認 | Wang-Wang Yu, Kai-Fu Yang, Hong-Mei Yan, Yong-Jie Li | (参考訳) 非トリミングビデオにおけるマイクロおよびマクロ表現スポッティング手法の多くは、ビデオ単位での収集とフレーム毎のアノテーションの負担に苦しむ。
ビデオレベルラベルに基づくwes(weed-supervised expression spotting)は,きめ細かいフレームレベルスポッティングを実現しながら,フレームレベルのアノテーションの複雑さを軽減する可能性がある。
しかし、既存の弱教師付き手法は、モーダリティ、サンプル間、タスク間ギャップを含む多重インスタンス学習(MIL)に基づいていると論じる。
サンプル間ギャップは主にサンプル分布と持続時間に由来する。
そこで本研究では,ビデオレベルのラベルのみを用いたフレームレベルのスポッティングを実現するために,モーダルレベルのサリエンシ,ビデオレベルの分散,ラベルレベルの持続時間,セグメントレベルの特徴一貫性戦略などを含むマルチコンシスタンスな協調機構を用いた,新しいwesフレームワークであるmc-wesを提案する。
モーダルレベルのサリエンシ整合性戦略は、生画像と光流のキー相関を捉えることに焦点を当てている。
映像レベルの分布整合性戦略は時間分布のスパーシティの差を利用する。
ラベルレベルの持続時間一貫性戦略は、顔の筋肉の持続時間の違いを利用する。
セグメントレベルの機能一貫性戦略は、同じラベル下の機能は類似性を維持することを強調する。
CAS(ME)$^2$とSAMM-LVという2つの挑戦的なデータセットの実験結果は、MC-WESが最先端の完全教師付き手法に匹敵することを示した。 Most micro- and macro-expression spotting methods in untrimmed videos suffer from the burden of video-wise collection and frame-wise annotation. Weakly-supervised expression spotting (WES) based on video-level labels can potentially mitigate the complexity of frame-level annotation while achieving fine-grained frame-level spotting. However, we argue that existing weakly-supervised methods are based on multiple instance learning (MIL) involving inter-modality, inter-sample, and inter-task gaps. The inter-sample gap is primarily from the sample distribution and duration. Therefore, we propose a novel and simple WES framework, MC-WES, using multi-consistency collaborative mechanisms that include modal-level saliency, video-level distribution, label-level duration and segment-level feature consistency strategies to implement fine frame-level spotting with only video-level labels to alleviate the above gaps and merge prior knowledge. The modal-level saliency consistency strategy focuses on capturing key correlations between raw images and optical flow. The video-level distribution consistency strategy utilizes the difference of sparsity in temporal distribution. The label-level duration consistency strategy exploits the difference in the duration of facial muscles. The segment-level feature consistency strategy emphasizes that features under the same labels maintain similarity. Experimental results on two challenging datasets -- CAS(ME)$^2$ and SAMM-LV -- demonstrate that MC-WES is comparable to state-of-the-art fully-supervised methods. | 翻訳日:2023-05-05 16:03:25 公開日:2023-05-04 |
# ECG信号分類のための局所探索によるクラスタベース対位差分進化アルゴリズム A Cluster-Based Opposition Differential Evolution Algorithm Boosted by a Local Search for ECG Signal Classification ( http://arxiv.org/abs/2305.02731v1 ) ライセンス: Link先を確認 | Mehran Pourvahab, Seyed Jalaleddin Mousavirad, Virginie Felizardo, Nuno Pombo, Henriques Zacarias, Hamzeh Mohammadigheymasi, Sebasti\~ao Pais, Seyed Nooreddin Jafari, Nuno M.Garcia | (参考訳) 心電図 (ECG) 信号は心臓の電気活動の記録であり、様々な心臓の状態を診断し、心臓機能を監視するために医療分野で広く用いられている。
心電図信号の正確な分類は、心疾患の早期発見と治療に不可欠である。
本稿では、ECG信号分類のための改良された微分進化(DE)アルゴリズムに基づく新しいアプローチを提案する。
この目的のために、前処理のステップの後、BPM、BI、SDNNといったいくつかの機能を抽出しました。
そして、その特徴を多層パーセプトロン(MLP)に供給する。
mlpは依然としてecg信号の分類に広く使われているが、最も広く使われているアルゴリズムである勾配に基づく訓練法を用いると、局所的最適に定着する可能性など、大きな欠点がある。
人口ベースメタヒューリスティック技術は、この問題に効果的に対処するために使われてきた。
本稿では,最も効果的な人口ベースアルゴリズムの1つとして,拡張微分進化(DE)アルゴリズムを用いる。
この目的のために,クラスタリングに基づく戦略,対向学習,局所探索に基づくdeの改善を行った。
クラスタリングベースの戦略はクロスオーバー演算子として機能し、反対演算子の目標はDEアルゴリズムの探索を改善することである。
改良されたDEアルゴリズムの重みとバイアスは6つの勾配に基づく局所探索アルゴリズムに入力される。
言い換えると、de によって発見された重みは初期化点として用いられる。
そこで,本研究では,学習過程の異なる6つのアルゴリズム(局所探索アルゴリズム)を紹介した。
実験の結果,提案アルゴリズムは従来の学習アルゴリズムよりも優れた結果が得られることがわかった。 Electrocardiogram (ECG) signals are recordings of the heart's electrical activity and are widely used in the medical field to diagnose various cardiac conditions and monitor heart function. The accurate classification of ECG signals is crucial for the early detection and treatment of heart-related diseases. This paper proposes a novel approach based on an improved differential evolution (DE) algorithm for ECG signal classification. To this end, after the preprocessing step, we extracted several features such as BPM, IBI, and SDNN. Then, the features are fed into a multi-layer perceptron (MLP). While MLPs are still widely used for ECG signal classification, using gradient-based training methods, the most widely used algorithm for the training process, has significant disadvantages, such as the possibility of being stuck in local optimums. Population-based metaheuristic techniques have been effectively used to address this. This paper employs an enhanced differential evolution (DE) algorithm for the training process as one of the most effective population-based algorithms. To this end, we improved DE based on a clustering-based strategy, opposition-based learning, and a local search. Clustering-based strategies can act as crossover operators, while the goal of the opposition operator is to improve the exploration of the DE algorithm. The weights and biases found by the improved DE algorithm are then fed into six gradient-based local search algorithms. In other words, the weights found by the DE are employed as an initialization point. Therefore, we introduced six different algorithms for the training process (in terms of different local search algorithms). In an extensive set of experiments, we showed that our proposed training algorithm could provide better results than the conventional training algorithms. | 翻訳日:2023-05-05 16:02:57 公開日:2023-05-04 |
# b meson flavour tagging用量子ビット・連続可変量子サポートベクトルマシンの高速化 Boosted Ensembles of Qubit and Continuous Variable Quantum Support Vector Machines for B Meson Flavour Tagging ( http://arxiv.org/abs/2305.02729v1 ) ライセンス: Link先を確認 | Maxwell T. West, Martin Sevior and Muhammad Usman | (参考訳) 最近、数十から数百のノイズ量子ビットを持つ量子コンピュータの物理的実現は、そのユニークな能力の有用な応用を強く探究するきっかけとなった。
特に注目されている分野は、量子コンピュータ上でネイティブに実行される機械学習アルゴリズムの研究であるquantum machine learning(qml)である。
このようなアルゴリズムは、量子コンピュータのパターン認識能力の向上が期待される粒子物理学におけるデータ集約的な問題に応用され始めている。
本研究では,宇宙で観測される物質-反物質非対称性をよりよく理解するために,重クォーク混合とcp違反を探索する粒子物理学実験の重要な要素であるb meson flavour tagging法を開発,応用する。
量子サポートベクトルマシン(qsvm)を従来の量子ビットベースのアーキテクチャと連続変数アーキテクチャの両方に基づいて拡張したアンサンブルをシミュレートし,従来の機械学習アルゴリズムを用いた30.0%の結果に匹敵する28.0%と29.2%の効果的なタグ付け効率を実現する。
分類器のアンサンブルの性質は特に重要であり、単一のQSVMの効果的なタグ付け効率を2倍にしている。
これらの結果は、古典的にシミュレート可能なQSVMアーキテクチャを扱うという強い制約にもかかわらず得られ、古典的にシミュレート可能なシミュレートを超えた連続変数QSVMが、十分に強力な量子ハードウェアを開発すれば、報告された古典的な結果を超え、さらに高いパフォーマンスを実現することができることを示す。 The recent physical realisation of quantum computers with dozens to hundreds of noisy qubits has given birth to an intense search for useful applications of their unique capabilities. One area that has received particular attention is quantum machine learning (QML), the study of machine learning algorithms running natively on quantum computers. Such algorithms have begun to be applied to data intensive problems in particle physics, driven by the expected increased capacity for pattern recognition of quantum computers. In this work we develop and apply QML methods to B meson flavour tagging, an important component of experiments in particle physics which probe heavy quark mixing and CP violation in order to obtain a better understanding of the matter-antimatter asymmetry observed in the universe. We simulate boosted ensembles of quantum support vector machines (QSVMs) based on both conventional qubit-based and continuous variable architectures, attaining effective tagging efficiencies of 28.0% and 29.2% respectively, comparable with the leading published result of 30.0% using classical machine learning algorithms. The ensemble nature of our classifier is of particular importance, doubling the effective tagging efficiency of a single QSVM, which we find to be highly prone to overfitting. These results are obtained despite the strong constraint of working with QSVM architectures that are classically simulable, and we find evidence that continuous variable QSVMs beyond the classically simulable regime may be able to realise even higher performance, surpassing the reported classical results, when sufficiently powerful quantum hardware is developed to execute them. | 翻訳日:2023-05-05 16:02:33 公開日:2023-05-04 |
# 公正なフェデレーション学習はパーソナライゼーションの必要性を減らすことができるか? Can Fair Federated Learning reduce the need for Personalisation? ( http://arxiv.org/abs/2305.02728v1 ) ライセンス: Link先を確認 | Alex Iacob, Pedro P. B. Gusm\~ao, Nicholas D. Lane | (参考訳) federated learning(fl)は、データを共有することなく、エッジクライアントでmlモデルをトレーニング可能にする。
しかしながら、フェデレーションモデルのローカルデータに対するパフォーマンスは様々であり、flからほとんど利益を得られないクライアントの参加のインセンティブが低下する。
Fair FLは、モデルを局所的に微調整する一方で、損失の多いクライアントに焦点を合わせることにより、精度の格差を低減する。
パーソナライゼーションは、FLモデルが局所的に訓練されたものに比べてパフォーマンスが低い場合に、参加インセンティブを提供する。
フェデレーションモデルが、クライアントが完全にローカルに訓練したモデルよりも低い精度を提供する状況において、パーソナライゼーションは、トレーニング済みのフェデレーション重量の精度を、ローカルクライアントモデルと類似またはそれ以上に改善する。
本稿では2つのFFLアルゴリズムをパーソナライゼーションの出発点として評価する。
以上の結果から,FFLは言語タスクの相対的性能に何の利益も与えず,画像タスクにおける性能の低いクライアントの数が2倍になる可能性が示唆された。
代わりに、トレーニング中に個人化損失を事前に利用するパラダイムとしてパーソナライズ対応フェデレーションラーニング(PaFL)を提案する。
提案手法は,言語タスクにおける性能の低いクライアントの数を50%削減し,画像タスクにおける性能の低いクライアントの数を2倍に抑える。
したがって、この証拠は幅広いデバイスがFLから恩恵を受けることができ、将来の実験と理論解析の道のりを示す可能性があることを示している。 Federated Learning (FL) enables training ML models on edge clients without sharing data. However, the federated model's performance on local data varies, disincentivising the participation of clients who benefit little from FL. Fair FL reduces accuracy disparity by focusing on clients with higher losses while personalisation locally fine-tunes the model. Personalisation provides a participation incentive when an FL model underperforms relative to one trained locally. For situations where the federated model provides a lower accuracy than a model trained entirely locally by a client, personalisation improves the accuracy of the pre-trained federated weights to be similar to or exceed those of the local client model. This paper evaluates two Fair FL (FFL) algorithms as starting points for personalisation. Our results show that FFL provides no benefit to relative performance in a language task and may double the number of underperforming clients for an image task. Instead, we propose Personalisation-aware Federated Learning (PaFL) as a paradigm that pre-emptively uses personalisation losses during training. Our technique shows a 50% reduction in the number of underperforming clients for the language task while lowering the number of underperforming clients in the image task instead of doubling it. Thus, evidence indicates that it may allow a broader set of devices to benefit from FL and represents a promising avenue for future experimentation and theoretical analysis. | 翻訳日:2023-05-05 16:02:03 公開日:2023-05-04 |
# 自由電子ラムゼー型干渉計による近接場の振幅・位相イメージング Free-Electron Ramsey-Type Interferometry for Enhanced Amplitude and Phase imaging of Nearfields ( http://arxiv.org/abs/2305.02727v1 ) ライセンス: Link先を確認 | Tomer Bucher, Ron Ruimy, Shai Tsesses, Raphael Dahan, Guy Bartal, Giovanni Maria Vanacore, and Ido Kaminer | (参考訳) 電子と電磁場の間の複雑な相互作用は、無数の科学的・技術的進歩をもたらした。
主な例として、光子誘起近接電界顕微鏡(PINEM)があり、前例のない空間分解能で照射されたナノ構造中の閉じ込められた電場を検出することができる。
しかし、パネムは強磁場に依存しており、感度の高いサンプルには適さないし、複雑なファサー情報を解決できない。
そこで本研究では,PINEMの非線形・過制約特性を活用して,アルゴリズムによる顕微鏡手法を提案する。
我々のアルゴリズムは、自由電子ラムゼイ型干渉計を用いて感度および曖昧性免疫性近距離場位相再構成のオーダー・オブ・マグニチュードの改善を導出する。
以上の結果から, 電子顕微鏡におけるアルゴリズムアプローチと新しいモードを組み合わせる可能性を示し, 感度の高い生体試料のイメージングから閉じ込められた光のフルフィールドトモグラフィーまで, 様々な応用が期待できる。 The complex range of interactions between electrons and electromagnetic fields gave rise to countless scientific and technological advances. A prime example is photon-induced nearfield electron microscopy (PINEM), enabling the detection of confined electric fields in illuminated nanostructures with unprecedented spatial resolution. However, PINEM is limited by its dependence on strong fields, making it unsuitable for sensitive samples, and its inability to resolve complex phasor information. Here, we leverage the nonlinear, over-constrained nature of PINEM to present an algorithmic microscopy approach, achieving far superior nearfield imaging capabilities. Our algorithm relies on free-electron Ramsey-type interferometry to produce orders-of-magnitude improvement in sensitivity and ambiguity-immune nearfield phase reconstruction, both of which are optimal when the electron exhibits a fully quantum behavior. Our results demonstrate the potential of combining algorithmic approaches with novel modalities in electron microscopy, and may lead to various applications from imaging sensitive biological samples to performing full-field tomography of confined light. | 翻訳日:2023-05-05 16:01:38 公開日:2023-05-04 |
# アバターの知識蒸留:不確かさを自称する教師パラダイム Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with Uncertainty ( http://arxiv.org/abs/2305.02722v1 ) ライセンス: Link先を確認 | Yuan Zhang, Weihua Chen, Yichen Lu, Tao Huang, Xiuyu Sun, Jian Cao | (参考訳) 知識蒸留はpocket-sizeモデルのパフォーマンスを高める効果的なパラダイムであり、特に複数の教師モデルが利用可能であれば、生徒は再び上限を破る。
しかし、使い捨て蒸留のために多様な教師モデルを訓練するのは経済的ではない。
本稿では,教師から導かれた推論アンサンブルモデルである蒸留用アバターという新しい概念を提案する。
具体的には,(1)蒸留訓練の各イテレーションにおいて,摂動変換によって様々なアバターが生成される。
我々は,教師モデルから多様で受容的な知識の視点を学習する学生モデルを支援するために,アバターが作業能力と教育能力の上限が高いことを検証した。
2) 蒸留において, バニラ教師とアバターの統計的差異のばらつきから, アバターの知識伝達に対する貢献を適応的に調整する不確実性認識因子を提案する。
Avatar Knowledge Distillation AKDは、既存の方法や洗練と根本的に異なる。
包括的実験により,高濃度予測のための最先端蒸留法を,計算コストを増すことなく洗練するアバター機構の有効性が実証された。
AKDはCOCO 2017では0.7AP、セマンティックセグメンテーションでは1.83mIoU、セマンティックセグメンテーションでは1.83mIoUとなっている。 Knowledge distillation is an effective paradigm for boosting the performance of pocket-size model, especially when multiple teacher models are available, the student would break the upper limit again. However, it is not economical to train diverse teacher models for the disposable distillation. In this paper, we introduce a new concept dubbed Avatars for distillation, which are the inference ensemble models derived from the teacher. Concretely, (1) For each iteration of distillation training, various Avatars are generated by a perturbation transformation. We validate that Avatars own higher upper limit of working capacity and teaching ability, aiding the student model in learning diverse and receptive knowledge perspectives from the teacher model. (2) During the distillation, we propose an uncertainty-aware factor from the variance of statistical differences between the vanilla teacher and Avatars, to adjust Avatars' contribution on knowledge transfer adaptively. Avatar Knowledge Distillation AKD is fundamentally different from existing methods and refines with the innovative view of unequal training. Comprehensive experiments demonstrate the effectiveness of our Avatars mechanism, which polishes up the state-of-the-art distillation methods for dense prediction without more extra computational cost. The AKD brings at most 0.7 AP gains on COCO 2017 for Object Detection and 1.83 mIoU gains on Cityscapes for Semantic Segmentation, respectively. | 翻訳日:2023-05-05 16:01:19 公開日:2023-05-04 |
# 心内膜超音波による肺腫瘍分類のための自己監督学習を用いた時空間デュアルストリームネットワーク Using Spatio-Temporal Dual-Stream Network with Self-Supervised Learning for Lung Tumor Classification on Radial Probe Endobronchial Ultrasound Video ( http://arxiv.org/abs/2305.02719v1 ) ライセンス: Link先を確認 | Ching-Kai Lin, Chin-Wen Chen, Yun-Chien Cheng | (参考訳) 本研究の目的は,良性肺病変と悪性肺病変を分類するコンピュータ支援診断システムの開発と,ラジアルプローブ内気管支超音波(ebus)映像のリアルタイム解析を支援することである。
肺癌の生検の過程において、医師は超音波画像を用いて検体に適した部位を見つける。
しかし、これらの画像の多くは分類が難しく、ノイズが多く含まれている。
これまでの研究では、良性肺病変と悪性肺病変を効果的に区別するために2次元畳み込みニューラルネットワークを使用してきたが、医師は高品質な画像を手作業で選択する必要があるため、追加の労働コストが発生する可能性がある。
また, 2次元ニューラルネットワークは, 超音波映像の時間情報を取り込むことができないため, 連続画像の特徴の関係を得ることは困難である。
本研究では,3次元ニューラルネットワークに基づく自動診断システムを設計し,SlowFastアーキテクチャを背骨として時間的特徴と空間的特徴を融合させ,SwaV法によるコントラスト学習を用いてモデルのノイズロバスト性を高める。
本手法は,(1)臨床用超音波フィルムをモデル入力として使用することにより,医師による高品質な画像選択の必要性を低減し,(2)良性および悪性の肺病変の高精度分類が臨床診断における医師の助けとなり,手術の時間とリスクを低減し,(3)有意な画像ノイズの存在下でも適切に分類できるという利点を含む。
検証セットにおける提案手法のauc,精度,リコール,特異度はそれぞれ0.87,83.87%,86.96%,90.91%,66.67%であった。
その結果,時間情報を取り込むことの重要性と,特徴抽出におけるコントラスト学習法の有効性が検証された。 The purpose of this study is to develop a computer-aided diagnosis system for classifying benign and malignant lung lesions, and to assist physicians in real-time analysis of radial probe endobronchial ultrasound (EBUS) videos. During the biopsy process of lung cancer, physicians use real-time ultrasound images to find suitable lesion locations for sampling. However, most of these images are difficult to classify and contain a lot of noise. Previous studies have employed 2D convolutional neural networks to effectively differentiate between benign and malignant lung lesions, but doctors still need to manually select good-quality images, which can result in additional labor costs. In addition, the 2D neural network has no ability to capture the temporal information of the ultrasound video, so it is difficult to obtain the relationship between the features of the continuous images. This study designs an automatic diagnosis system based on a 3D neural network, uses the SlowFast architecture as the backbone to fuse temporal and spatial features, and uses the SwAV method of contrastive learning to enhance the noise robustness of the model. The method we propose includes the following advantages, such as (1) using clinical ultrasound films as model input, thereby reducing the need for high-quality image selection by physicians, (2) high-accuracy classification of benign and malignant lung lesions can assist doctors in clinical diagnosis and reduce the time and risk of surgery, and (3) the capability to classify well even in the presence of significant image noise. The AUC, accuracy, precision, recall and specificity of our proposed method on the validation set reached 0.87, 83.87%, 86.96%, 90.91% and 66.67%, respectively. The results have verified the importance of incorporating temporal information and the effectiveness of using the method of contrastive learning on feature extraction. | 翻訳日:2023-05-05 16:00:51 公開日:2023-05-04 |
# タスク指向対話システムのための非同期更新強化学習フレームワーク An Asynchronous Updating Reinforcement Learning Framework for Task-oriented Dialog System ( http://arxiv.org/abs/2305.02718v1 ) ライセンス: Link先を確認 | Sai Zhang, Yuwei Hu, Xiaojie Wang and Caixia Yuan | (参考訳) 多くの作業でダイアログシステムをトレーニングするために強化学習が適用されている。
従来のアプローチでは、ダイアログシステムをDST(dialog state tracking)やDP(dialog policy)など複数のモジュールに分割し、これらのモジュールを同時にトレーニングする。
しかし、異なるモジュールはトレーニング中に互いに影響を与えます。
DSTからのエラーはダイアログポリシーを誤認する可能性があり、システムアクションはDSTモジュールに余計な困難をもたらす。
この問題を軽減するために,協調的にDSTモジュールとDPモジュールを非同期に更新する非同期更新強化学習フレームワーク(AURL)を提案する。
さらに、強化学習サンプリング中の不均衡データ分布問題に対処するためにカリキュラム学習を実施し、対話の多様性を高めるために複数のユーザモデルを導入する。
また,ssd-phoneデータセットの結果から,ダイアログ成功率を31.37%向上させた結果が得られた。
コードはhttps://github.com/shunjiu/AURLで公開されている。 Reinforcement learning has been applied to train the dialog systems in many works. Previous approaches divide the dialog system into multiple modules including DST (dialog state tracking) and DP (dialog policy), and train these modules simultaneously. However, different modules influence each other during training. The errors from DST might misguide the dialog policy, and the system action brings extra difficulties for the DST module. To alleviate this problem, we propose Asynchronous Updating Reinforcement Learning framework (AURL) that updates the DST module and the DP module asynchronously under a cooperative setting. Furthermore, curriculum learning is implemented to address the problem of unbalanced data distribution during reinforcement learning sampling, and multiple user models are introduced to increase the dialog diversity. Results on the public SSD-PHONE dataset show that our method achieves a compelling result with a 31.37% improvement on the dialog success rate. The code is publicly available via https://github.com/shunjiu/AURL. | 翻訳日:2023-05-05 16:00:16 公開日:2023-05-04 |
# 空洞分子動力学からの液体水中の振動強い結合 Vibrational strong coupling in liquid water from cavity molecular dynamics ( http://arxiv.org/abs/2305.02711v1 ) ライセンス: Link先を確認 | Annina Z. Lieberherr, Seth T. E. Furniss, Joseph E. Lawrence and David E. Manolopoulos | (参考訳) 振動偏光子スペクトルの計算のための空洞分子動力学法を, 液体水を具体例として評価した。
我々は、原子核の量子効果がポラリトンバンドの拡大に繋がるかもしれないという最近の提案を述べることから始め、その代わりにポラリトン周波数の非調和的な赤方偏移をもたらすことを発見した。
実験結果から, 共振器自由スペクトルと共振器形状を入力として用いる高調波モデルを用いて, 模擬キャビティスペクトルをグラフィカルな精度で再現可能であることを示す。
最後に、この高調波モデルと実験空洞自由スペクトルを組み合わせることで、光学的空洞測定とよく一致する結果が得られることを示す。
本研究の高調波モデルへの入力は応用光学の伝達行列法への入力と等価であるため, 共振器分子動力学は, 共振器の振動強度が吸収スペクトルに与える影響について, 実験者が既に広く利用しているこの伝達行列法よりも, それ以上の知見を与えることができない。 We assess the cavity molecular dynamics method for the calculation of vibrational polariton spectra, using liquid water as a specific example. We begin by disputing a recent suggestion that nuclear quantum effects may lead to a broadening of polariton bands, finding instead that they merely result in anharmonic red shifts in the polariton frequencies. We go on to show that our simulated cavity spectra can be reproduced to graphical accuracy with a harmonic model that uses just the cavity-free spectrum and the geometry of the cavity as input. We end by showing that this harmonic model can be combined with the experimental cavity-free spectrum to give results in good agreement with optical cavity measurements. Since the input to our harmonic model is equivalent to the input to the transfer matrix method of applied optics, we conclude that cavity molecular dynamics cannot provide any more insight into the effect of vibrational strong coupling on the absorption spectrum than this transfer matrix method, which is already widely used by experimentalists to corroborate their cavity results. | 翻訳日:2023-05-05 15:59:58 公開日:2023-05-04 |
# 異方性コントラストコラボレーティブフィルタ Disentangled Contrastive Collaborative Filtering ( http://arxiv.org/abs/2305.02759v1 ) ライセンス: Link先を確認 | Xubin Ren, Lianghao Xia, Jiashu Zhao, Dawei Yin and Chao Huang | (参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)が協調フィルタリング(CF)の高次関係のモデル化に有効であることが示されている。
この研究ラインに向けて,グラフコントラスト学習(GCL)は,拡張ユーザとアイテム表現を学習することで,監督ラベル不足問題に対処する上で,強力な性能を示した。
多くは有効性を示しているが、2つの重要な疑問はまだ未解決のままである。
i) 既存のgclベースのcfモデルは,ユーザとコンテンツの相互作用行動が多種多様な潜在意図要因(例えば,家族に対する買い物,好みの色,商品のブランドなど)によって引き起こされるという事実を無視して,いまだに制限されている。
二 導入した非適応増強技術は、ノイズ情報に弱いため、モデルの堅牢性及び誤った自己管理信号の導入リスクへの懸念を生じさせる。
これらの制約を考慮して,自己監督型拡張による意図的絡み合いを実現するためのDCCF(Disentangled Contrasative Collaborative Filtering framework)を提案する。
学習された異角形表現と大域的文脈により,dccfは,絡み合った自己スーパービジョン信号からきめ細かな潜伏因子を抽出できるだけでなく,拡張によるノイズを軽減することができる。
最後に、パラメータ化された相互作用マスク生成器による適応的な拡張を実現するために、クロスビューコントラスト学習タスクを導入した。
各種公開データセットを用いた実験により,提案手法が既存ソリューションよりも優れていることを示す。
私たちのモデル実装はリンクhttps://github.com/hkuds/dccfでリリースしています。 Recent studies show that graph neural networks (GNNs) are prevalent to model high-order relationships for collaborative filtering (CF). Towards this research line, graph contrastive learning (GCL) has exhibited powerful performance in addressing the supervision label shortage issue by learning augmented user and item representations. While many of them show their effectiveness, two key questions still remain unexplored: i) Most existing GCL-based CF models are still limited by ignoring the fact that user-item interaction behaviors are often driven by diverse latent intent factors (e.g., shopping for family party, preferred color or brand of products); ii) Their introduced non-adaptive augmentation techniques are vulnerable to noisy information, which raises concerns about the model's robustness and the risk of incorporating misleading self-supervised signals. In light of these limitations, we propose a Disentangled Contrastive Collaborative Filtering framework (DCCF) to realize intent disentanglement with self-supervised augmentation in an adaptive fashion. With the learned disentangled representations with global context, our DCCF is able to not only distill finer-grained latent factors from the entangled self-supervision signals but also alleviate the augmentation-induced noise. Finally, the cross-view contrastive learning task is introduced to enable adaptive augmentation with our parameterized interaction mask generator. Experiments on various public datasets demonstrate the superiority of our method compared to existing solutions. Our model implementation is released at the link https://github.com/HKUDS/DCCF. | 翻訳日:2023-05-05 15:53:46 公開日:2023-05-04 |
# アノテーション不足による多領域学習 Multi-Domain Learning From Insufficient Annotations ( http://arxiv.org/abs/2305.02757v1 ) ライセンス: Link先を確認 | Rui He, Shengcai Liu, Jiahao Wu, Shan He, Ke Tang | (参考訳) マルチドメイン学習(MDL)とは、異なるドメインから収集されたデータセット上にモデルまたはモデルのセットを同時に構築することである。
従来のアプローチでは、共有プライベートフレームワーク(spモデル)に従って、ドメイン共有情報抽出とドメインプライベート情報保存を重視する。
しかし、各領域における注釈付きデータの限られた利用は、実世界のアプリケーションにおける従来の教師付きMDLアプローチの有効性を著しく妨げている。
本稿では,ラベル付きデータとラベル付きデータの両方から意味的情報と構造的情報の両方をキャプチャすることで,アノテーションの不足の影響を軽減するマルチドメインコントラスト学習(mdcl)と呼ばれる新しい手法を提案する。
前者は共有隠し空間内の異なるドメインから同じ意味カテゴリーの注釈付きインスタンスを整合させることを目的としており、後者は各ドメインのプライベートな隠れ空間でラベル付きインスタンスのクラスタ構造を学ぶことに焦点を当てている。
MDCLは多くのSPモデルと容易に互換性があり、追加のモデルパラメータを必要としない。
5つのテキストと画像のマルチドメインデータセットによる実験結果から、MDCLは様々なSPモデルに対して顕著な改善をもたらすことが示された。 Multi-domain learning (MDL) refers to simultaneously constructing a model or a set of models on datasets collected from different domains. Conventional approaches emphasize domain-shared information extraction and domain-private information preservation, following the shared-private framework (SP models), which offers significant advantages over single-domain learning. However, the limited availability of annotated data in each domain considerably hinders the effectiveness of conventional supervised MDL approaches in real-world applications. In this paper, we introduce a novel method called multi-domain contrastive learning (MDCL) to alleviate the impact of insufficient annotations by capturing both semantic and structural information from both labeled and unlabeled data.Specifically, MDCL comprises two modules: inter-domain semantic alignment and intra-domain contrast. The former aims to align annotated instances of the same semantic category from distinct domains within a shared hidden space, while the latter focuses on learning a cluster structure of unlabeled instances in a private hidden space for each domain. MDCL is readily compatible with many SP models, requiring no additional model parameters and allowing for end-to-end training. Experimental results across five textual and image multi-domain datasets demonstrate that MDCL brings noticeable improvement over various SP models.Furthermore, MDCL can further be employed in multi-domain active learning (MDAL) to achieve a superior initialization, eventually leading to better overall performance. | 翻訳日:2023-05-05 15:53:17 公開日:2023-05-04 |
# 無バイアス近カメラ訓練のための放射場勾配スケーリング Radiance Field Gradient Scaling for Unbiased Near-Camera Training ( http://arxiv.org/abs/2305.02756v1 ) ライセンス: Link先を確認 | Julien Philip and Valentin Deschaintre | (参考訳) nerf取得は通常、異なるカメラの近接面を慎重に選択するか、背景の崩壊に悩まされ、撮影シーンの端に浮かぶアーティファクトを生成する必要がある。
この研究の鍵となる洞察は、背景の崩壊は、カメラ近傍の領域で試料の密度が高いことに起因する。
このサンプリングバイアスの結果、カメラ近傍のボリュームの勾配は著しく増大し、密度の上昇が不正確な結果となる。
そこで我々は,このバイアスを相殺するための勾配スケーリング手法を提案し,背景崩壊を防止しつつ,近接平面の必要性を解消した。
我々の手法は数行で実装でき、大きなオーバーヘッドを生じさせることなく、ほとんどのNeRF実装と互換性がある。 NeRF acquisition typically requires careful choice of near planes for the different cameras or suffers from background collapse, creating floating artifacts on the edges of the captured scene. The key insight of this work is that background collapse is caused by a higher density of samples in regions near cameras. As a result of this sampling bias, near-camera volumes receive significantly more gradients, leading to incorrect density buildup. We propose a gradient scaling approach to counter-balance this bias, removing the need for near planes, while preventing background collapse. Our method can be implemented in a few lines, does not induce any significant overhead, and is compatible with most NeRF implementations. | 翻訳日:2023-05-05 15:52:51 公開日:2023-05-04 |
# プロアクティブ対話システムに関する調査研究 : 問題, 方法, 展望 A Survey on Proactive Dialogue Systems: Problems, Methods, and Prospects ( http://arxiv.org/abs/2305.02750v1 ) ライセンス: Link先を確認 | Yang Deng, Wenqiang Lei, Wai Lam, Tat-Seng Chua | (参考訳) プロアクティブな対話システムは、幅広い現実世界の会話アプリケーションに関連するもので、会話エージェントに、予め定義された目標を達成するための会話方向を導く能力や、システム側から特定の目標を達成する能力を持たせる。
戦略的およびモチベーション的相互作用を必要とするより複雑なタスクに進むための高度な技術によって権限が与えられる。
本調査では,対話エージェントの多種多様な対話における能動性に関する顕著な問題と高度な設計について概説する。
さらに,現実世界のアプリケーションのニーズに応えつつ,将来研究の焦点を絞る課題についても論じる。
このプロアクティブな対話システムに関する最初の調査は、コミュニティにこの実践的な問題への迅速なアクセスと全体像を提供し、会話型AIのさらなる進歩を次のレベルへと刺激することを期待している。 Proactive dialogue systems, related to a wide range of real-world conversational applications, equip the conversational agent with the capability of leading the conversation direction towards achieving pre-defined targets or fulfilling certain goals from the system side. It is empowered by advanced techniques to progress to more complicated tasks that require strategical and motivational interactions. In this survey, we provide a comprehensive overview of the prominent problems and advanced designs for conversational agent's proactivity in different types of dialogues. Furthermore, we discuss challenges that meet the real-world application needs but require a greater research focus in the future. We hope that this first survey of proactive dialogue systems can provide the community with a quick access and an overall picture to this practical problem, and stimulate more progresses on conversational AI to the next level. | 翻訳日:2023-05-05 15:52:39 公開日:2023-05-04 |
# 因果世界モデルによる説明可能な強化学習 Explainable Reinforcement Learning via a Causal World Model ( http://arxiv.org/abs/2305.02749v1 ) ライセンス: Link先を確認 | Zhongwei Yu, Jingqing Ruan, Dengpeng Xing | (参考訳) 強化学習(RL)のための説明を生成することは、行動が未来に長期的な影響をもたらす可能性があるため困難である。
本稿では,環境の因果構造を事前に知ることなく,因果世界モデルを学習し,説明可能なRLのための新しい枠組みを開発する。
このモデルは行動の影響を捉え、因果連鎖による行動の長期的な影響を解釈し、行動が環境変数にどのように影響し、最終的に報酬につながるかを示す。
精度の低いほとんどの説明モデルとは異なり、説明可能性を改善しながら精度を保ち、モデルベース学習に適用できる。
その結果,我々の因果モデルが説明可能性と学習の橋渡しとなることを示した。 Generating explanations for reinforcement learning (RL) is challenging as actions may produce long-term effects on the future. In this paper, we develop a novel framework for explainable RL by learning a causal world model without prior knowledge of the causal structure of the environment. The model captures the influence of actions, allowing us to interpret the long-term effects of actions through causal chains, which present how actions influence environmental variables and finally lead to rewards. Different from most explanatory models which suffer from low accuracy, our model remains accurate while improving explainability, making it applicable in model-based learning. As a result, we demonstrate that our causal model can serve as the bridge between explainability and learning. | 翻訳日:2023-05-05 15:52:23 公開日:2023-05-04 |
# 倫理的AIのための人的価値の計算フレームワーク A computational framework of human values for ethical AI ( http://arxiv.org/abs/2305.02748v1 ) ライセンス: Link先を確認 | Nardine Osman and Mark d'Inverno | (参考訳) 心理学、哲学、社会科学から人間的価値の性質を研究する様々な研究において、価値が行動を導くという明確なコンセンサスが存在する。
最近では、価値が倫理的AIを工学する手段を提供するという認識が生まれている。
実際、スチュアート・ラッセルはAIの焦点を単に「インテリジェンス」から「人間の価値と確実に一致した」インテリジェンスにシフトすることを提案した。
この課題 -- 価値アライメントの問題 -- は、AIによる人間の価値の学習、グループへの個々の価値の集約、価値を推論するために計算メカニズムを設計することなど -- によって、持続的な研究努力が活発化している。
それにもかかわらず、値の正式な計算的定義はまだ提案されていない。
我々はこれを、社会科学に根ざした形式的な概念的枠組みを通じて解決し、人間の価値が倫理的AIの設計を支援する方法に関する体系的、統合的、学際的な調査の基礎を提供する。 In the diverse array of work investigating the nature of human values from psychology, philosophy and social sciences, there is a clear consensus that values guide behaviour. More recently, a recognition that values provide a means to engineer ethical AI has emerged. Indeed, Stuart Russell proposed shifting AI's focus away from simply ``intelligence'' towards intelligence ``provably aligned with human values''. This challenge -- the value alignment problem -- with others including an AI's learning of human values, aggregating individual values to groups, and designing computational mechanisms to reason over values, has energised a sustained research effort. Despite this, no formal, computational definition of values has yet been proposed. We address this through a formal conceptual framework rooted in the social sciences, that provides a foundation for the systematic, integrated and interdisciplinary investigation into how human values can support designing ethical AI. | 翻訳日:2023-05-05 15:52:10 公開日:2023-05-04 |
# Topic-Aware Utterance Representation を用いた教師なし対話トピックセグメンテーション Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance Representation ( http://arxiv.org/abs/2305.02747v1 ) ライセンス: Link先を確認 | Haoyu Gao, Rui Wang, Ting-En Lin, Yuchuan Wu, Min Yang, Fei Huang, Yongbin Li | (参考訳) 対話トピックセグメンテーション(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
従来のDTS手法では、意味的類似性や対話コヒーレンスに着目して、教師なし対話セグメンテーションのトピック類似性を評価する。
しかし、トピックの類似性は意味的類似性や対話コヒーレンスによって完全に識別することはできない。
また、発話関係の有用な手がかりを含むラベルなし対話データも未公開のままである。
本稿では,近隣の発話マッチングと疑似セグメンテーションを通じて,ラベルなし対話データから話題認識発話表現を学習する,教師なしDSSフレームワークを提案する。
2つのベンチマークデータセット(例えば、DialSeg711とDoc2Dial)に対する大規模な実験は、我々の手法が強いベースライン法よりも大幅に優れていることを示した。
再現性のために、コードとデータをhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/dial-startで提供します。 Dialogue Topic Segmentation (DTS) plays an essential role in a variety of dialogue modeling tasks. Previous DTS methods either focus on semantic similarity or dialogue coherence to assess topic similarity for unsupervised dialogue segmentation. However, the topic similarity cannot be fully identified via semantic similarity or dialogue coherence. In addition, the unlabeled dialogue data, which contains useful clues of utterance relationships, remains underexploited. In this paper, we propose a novel unsupervised DTS framework, which learns topic-aware utterance representations from unlabeled dialogue data through neighboring utterance matching and pseudo-segmentation. Extensive experiments on two benchmark datasets (i.e., DialSeg711 and Doc2Dial) demonstrate that our method significantly outperforms the strong baseline methods. For reproducibility, we provide our code and data at:https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/dial-start. | 翻訳日:2023-05-05 15:51:55 公開日:2023-05-04 |
# フライングキュービットにおけるリザーバフリーデコヒーレンス Reservoir-free decoherence in flying qubits ( http://arxiv.org/abs/2305.02746v1 ) ライセンス: Link先を確認 | Nicol\`o Piccione, L\'ea Bresque, Andrew N. Jordan, Robert S. Whitney, Alexia Auff\`eves | (参考訳) 効果的な時間依存ハミルトニアンは、量子システムを不均一ポテンシャルを通り抜け、例えば、内部自由度上の量子ゲートを実現することで実現することができる。
しかし、飛行系は空間的な広がりを持ち、内部および空間的な自由度は総じて絡み合っており、外部の貯水池が存在しない場合でも内部状態のダイナミクスのデコヒーレンスを引き起こす。
我々は、小さな空間展開に対するエントロピーのダイナミクス、忠実度、変化に対して常に有効な公式を提供し、$\Delta x$ で定量化する。
このデコヒーレンスは非マルコフ的であり、その効果は弾道的量子ビット($\delta x^2$)に対して有意であるが、移動ポテンシャル井戸によって運ばれる量子ビット($\delta x^6$)には影響しない。
また、後に測定された弾道量子ビットに対して、このデコヒーレンスを完全に抑制する方法についても論じる。 An effective time-dependent Hamiltonian can be implemented by making a quantum system fly through an inhomogeneous potential, realizing, for example, a quantum gate on its internal degrees of freedom. However, flying systems have a spatial spread that will generically entangle the internal and spatial degrees of freedom, leading to decoherence in the internal state dynamics, even in the absence of any external reservoir. We provide formulas valid at all times for the dynamics, fidelity, and change of entropy for small spatial spreads, quantified by $\Delta x$. This decoherence is non-Markovian and its effect can be significant for ballistic qubits (scaling as $\Delta x^2$) but not for qubits carried by a moving potential well (scaling as $\Delta x^6$). We also discuss a method to completely counteract this decoherence for a ballistic qubit later measured. | 翻訳日:2023-05-05 15:51:39 公開日:2023-05-04 |
# Wasserstein 距離を用いた年齢不変顔埋め込み Age-Invariant Face Embedding using the Wasserstein Distance ( http://arxiv.org/abs/2305.02745v1 ) ライセンス: Link先を確認 | Eran Dahan and Yosi Keller | (参考訳) 本研究では,同一人物の画像が有意な年齢差を示すデータセットにおける顔認証について検討する。
これは現在の顔認識と検証技術にとって大きな課題となる。
この問題に対処するために,マルチタスク学習とワッサースタイン距離判別器を用いて顔画像の年齢とアイデンティティの埋め込みを解消する手法を提案する。
本手法では,ジェンセン-シャノンの発散を最小化することにより,年齢とアイデンティティ埋め込みの相互情報を最小化するワッサーシュタイン距離判別器を用いたマルチタスク学習を用いる。
これにより、顔画像における年齢や身元情報のエンコーディングが向上し、年齢変動データセットにおける顔認証の性能が向上する。
複数の年齢変化顔データセットを用いてアプローチの有効性を評価し、顔認証精度の観点から最先端手法よりも優れていることを示す。 In this work, we study face verification in datasets where images of the same individuals exhibit significant age differences. This poses a major challenge for current face recognition and verification techniques. To address this issue, we propose a novel approach that utilizes multitask learning and a Wasserstein distance discriminator to disentangle age and identity embeddings of facial images. Our approach employs multitask learning with a Wasserstein distance discriminator that minimizes the mutual information between the age and identity embeddings by minimizing the Jensen-Shannon divergence. This improves the encoding of age and identity information in face images and enhances the performance of face verification in age-variant datasets. We evaluate the effectiveness of our approach using multiple age-variant face datasets and demonstrate its superiority over state-of-the-art methods in terms of face verification accuracy. | 翻訳日:2023-05-05 15:51:19 公開日:2023-05-04 |
# RGBシーケンスからのインクリメンタル3次元セマンティックシーングラフ予測 Incremental 3D Semantic Scene Graph Prediction from RGB Sequences ( http://arxiv.org/abs/2305.02743v1 ) ライセンス: Link先を確認 | Shun-Cheng Wu, Keisuke Tateno, Nassir Navab, Federico Tombari | (参考訳) d 意味的シーングラフは、個々のオブジェクトを記述し、それらの関係を描写する強力な総合表現である。
これらは、シーン推論を必要とする多くのタスクを可能にするコンパクトなハイレベルグラフである。
実世界の環境では、既存の3d推定手法は、主に高密度入力に依存する堅牢な予測を生成する。
本研究では,RGB画像シーケンスが与えられたシーンの連続した3Dセマンティックシーングラフを段階的に構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するパイプラインはスパースポイントマップを同時に再構成し、入力画像からエンティティ推定を融合する。
提案ネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復メッセージパッシングを伴う3次元意味的シーングラフを推定する。
3RScanデータセットの大規模な実験により,本課題における提案手法の有効性が示された。 D semantic scene graphs are a powerful holistic representation as they describe the individual objects and depict the relation between them. They are compact high-level graphs that enable many tasks requiring scene reasoning. In real-world settings, existing 3D estimation methods produce robust predictions that mostly rely on dense inputs. In this work, we propose a real-time framework that incrementally builds a consistent 3D semantic scene graph of a scene given an RGB image sequence. Our method consists of a novel incremental entity estimation pipeline and a scene graph prediction network. The proposed pipeline simultaneously reconstructs a sparse point map and fuses entity estimation from the input images. The proposed network estimates 3D semantic scene graphs with iterative message passing using multi-view and geometric features extracted from the scene entities. Extensive experiments on the 3RScan dataset show the effectiveness of the proposed method in this challenging task, outperforming state-of-the-art approaches. | 翻訳日:2023-05-05 15:51:04 公開日:2023-05-04 |
# 動的ネットワーク表現のためのテンソルモデルのモーメント化非負因数分解 A Momentum-Incorporated Non-Negative Latent Factorization of Tensors Model for Dynamic Network Representation ( http://arxiv.org/abs/2305.02782v1 ) ライセンス: Link先を確認 | Aoling Zeng | (参考訳) 大規模動的ネットワーク (LDN) は、多数のエンティティと大規模動的相互作用のため、多くのビッグデータ関連アプリケーションのデータソースである。
これらは、時間パターンに関する豊富な知識を含む高次元不完全テンソル(HDI)としてモデル化することができる。
テンソル (LFT) モデルの潜在因子化は, 確率勾配降下 (SGD) 解法を用いてこの時間パターンを効率的に抽出する。
しかし、SGDに基づくLFTモデルはトレーニングスキームによって制限されることが多く、尾の収束性が低い。
そこで本研究では,HDIテンソルから非負の潜伏因子を抽出し,収束精度と速度を向上しつつ,トレーニングを非制約にし,一般的なトレーニングスキームと互換性を持たせる新しい非線形LFTモデル(MNNL)を提案する。
2つのLDNデータセットに関する実証的研究は、既存のモデルと比較して、MNNLモデルは予測精度と収束速度が高いことを示している。 A large-scale dynamic network (LDN) is a source of data in many big data-related applications due to their large number of entities and large-scale dynamic interactions. They can be modeled as a high-dimensional incomplete (HDI) tensor that contains a wealth of knowledge about time patterns. A Latent factorization of tensors (LFT) model efficiently extracts this time pattern, which can be established using stochastic gradient descent (SGD) solvers. However, LFT models based on SGD are often limited by training schemes and have poor tail convergence. To solve this problem, this paper proposes a novel nonlinear LFT model (MNNL) based on momentum-incorporated SGD, which extracts non-negative latent factors from HDI tensors to make training unconstrained and compatible with general training schemes, while improving convergence accuracy and speed. Empirical studies on two LDN datasets show that compared to existing models, the MNNL model has higher prediction accuracy and convergence speed. | 翻訳日:2023-05-05 15:43:55 公開日:2023-05-04 |
# 解釈可能な地域記述子:Hyperboxベースのローカル説明 Interpretable Regional Descriptors: Hyperbox-Based Local Explanations ( http://arxiv.org/abs/2305.02780v1 ) ライセンス: Link先を確認 | Susanne Dandl, Giuseppe Casalicchio, Bernd Bischl, Ludwig Bothmann | (参考訳) この研究は、局所的、モデルに依存しない解釈のために解釈可能な地域記述子(IRD)を導入する。
IRDは、その予測に影響を与えることなく、観察の特徴値をどのように変更できるかを記述するハイパーボックスである。
それらは「たとえ」の議論(半事実的説明)のセットを提供することで予測を正当化し、どの特徴が予測に影響するかを示し、ポイントワイズバイアスまたは不正確性が存在するかを示す。
具体的なユースケースでは、これは機械学習モデラーと意思決定対象の人の両方にとって価値があることを示している。
本稿では,irdの探索を最適化問題として定式化し,デシデラタ,初期化技術,ポストプロセッシング法をカバーするirdの統一フレームワークを提案する。
既存のハイパーボックスメソッドがこの統一フレームワークにどのように適合するかを示す。
ベンチマーク研究では、いくつかの品質指標に基づいて手法を比較し、IRDを改善するための2つの戦略を特定する。 This work introduces interpretable regional descriptors, or IRDs, for local, model-agnostic interpretations. IRDs are hyperboxes that describe how an observation's feature values can be changed without affecting its prediction. They justify a prediction by providing a set of "even if" arguments (semi-factual explanations), and they indicate which features affect a prediction and whether pointwise biases or implausibilities exist. A concrete use case shows that this is valuable for both machine learning modelers and persons subject to a decision. We formalize the search for IRDs as an optimization problem and introduce a unifying framework for computing IRDs that covers desiderata, initialization techniques, and a post-processing method. We show how existing hyperbox methods can be adapted to fit into this unified framework. A benchmark study compares the methods based on several quality measures and identifies two strategies to improve IRDs. | 翻訳日:2023-05-05 15:43:35 公開日:2023-05-04 |
# 各種ニューラルマシン翻訳のための統一モデル学習 Unified Model Learning for Various Neural Machine Translation ( http://arxiv.org/abs/2305.02777v1 ) ライセンス: Link先を確認 | Yunlong Liang, Fandong Meng, Jinan Xu, Jiaan Wang, Yufeng Chen and Jie Zhou | (参考訳) 既存のニューラルマシン翻訳(nmt)の研究は主に、異なるタスク(例えば、文書翻訳とチャット翻訳)のデータに基づくデータセット固有のモデルの開発に焦点を当てている。
データセット固有のモデルは素晴らしいパフォーマンスを達成したが、各データセットが設計、トレーニング、保存されるモデルを必要とするため、面倒である。
本研究の目的は,これらの翻訳タスクをより一般的な設定に統一することである。
具体的には,異なるタスクからのデータを扱うnmt (umlnmt) の統一モデル学習モデルである ‘versatile' モデルを提案する。
統一的な学習を通じてUMLNMTは、インテリジェントなオンデマンド翻訳を実装し、複数のタスクを共同でトレーニングすることができる。
文翻訳、文書翻訳、チャット翻訳を含む7つの広く使われている翻訳タスクにおいて、UMLNMTはデータセット固有のモデルよりも大幅に改善され、モデル展開コストが大幅に削減された。
さらにUMLNMTは、最先端のデータセット固有のメソッドよりも、競争力や性能が向上する。
人的評価と詳細な分析は,多様かつ高品質な翻訳生成へのアプローチの優位性を示すものである。
さらに,中国語と英語の文対が186kの有名なアフォリスムに関する新しいジャンル翻訳データセットを提供する。 Existing neural machine translation (NMT) studies mainly focus on developing dataset-specific models based on data from different tasks (e.g., document translation and chat translation). Although the dataset-specific models have achieved impressive performance, it is cumbersome as each dataset demands a model to be designed, trained, and stored. In this work, we aim to unify these translation tasks into a more general setting. Specifically, we propose a ``versatile'' model, i.e., the Unified Model Learning for NMT (UMLNMT) that works with data from different tasks, and can translate well in multiple settings simultaneously, and theoretically it can be as many as possible. Through unified learning, UMLNMT is able to jointly train across multiple tasks, implementing intelligent on-demand translation. On seven widely-used translation tasks, including sentence translation, document translation, and chat translation, our UMLNMT results in substantial improvements over dataset-specific models with significantly reduced model deployment costs. Furthermore, UMLNMT can achieve competitive or better performance than state-of-the-art dataset-specific methods. Human evaluation and in-depth analysis also demonstrate the superiority of our approach on generating diverse and high-quality translations. Additionally, we provide a new genre translation dataset about famous aphorisms with 186k Chinese->English sentence pairs. | 翻訳日:2023-05-05 15:43:19 公開日:2023-05-04 |
# スパースモデル適応による効果的な個人化フェデレーション学習 Efficient Personalized Federated Learning via Sparse Model-Adaptation ( http://arxiv.org/abs/2305.02776v1 ) ライセンス: Link先を確認 | Daoyuan Chen, Liuyi Yao, Dawei Gao, Bolin Ding, Yaliang Li | (参考訳) Federated Learning (FL)は、複数のクライアントで独自のプライベートデータを共有せずに機械学習モデルをトレーニングすることを目的としている。
クライアントのローカルデータ分布の不均一性のため、最近の研究では、補助的グローバルモデルを用いて異なるローカルモデルを学習し、デプロイするパーソナライズされたFLを探索している。
しかし、クライアントは、ローカルなデータ分散だけでなく、計算や通信リソースについても異質である。
パーソナライズされたモデルのキャパシティと効率は、最低リソースのクライアントによって制限され、サブ最適性能とパーソナライズされたFLの実用性が制限される。
これらの課題を克服するために,スパースローカルモデルを適応的かつ効率的に学習することにより,効率的なパーソナライズFLのためのpFedGateという新しいアプローチを提案する。
軽量なトレーニング可能なゲーティング層により、pfedgateは、異種データ分散とリソース制約の両方を考慮に入れて異なるスパースモデルを生成することで、クライアントがモデルキャパシティの完全な潜在能力を実現できる。
一方、モデルスパーシリティとクライアントのリソース間の適合性により、計算と通信効率はともに改善される。
さらに,提案した pFedGate は収束と一般化誤差が保証されるほど複雑であることを示す。
大規模な実験により,pFedGateは最先端の手法よりも優れた大域的精度,個人的精度,効率性が得られた。
pFedGateは、新規クライアント参加や部分クライアント参加のシナリオにおいて競合相手よりも優れた性能を示し、異なるデータ分散に適応した意味の少ないローカルモデルを学ぶことができる。 Federated Learning (FL) aims to train machine learning models for multiple clients without sharing their own private data. Due to the heterogeneity of clients' local data distribution, recent studies explore the personalized FL that learns and deploys distinct local models with the help of auxiliary global models. However, the clients can be heterogeneous in terms of not only local data distribution, but also their computation and communication resources. The capacity and efficiency of personalized models are restricted by the lowest-resource clients, leading to sub-optimal performance and limited practicality of personalized FL. To overcome these challenges, we propose a novel approach named pFedGate for efficient personalized FL by adaptively and efficiently learning sparse local models. With a lightweight trainable gating layer, pFedGate enables clients to reach their full potential in model capacity by generating different sparse models accounting for both the heterogeneous data distributions and resource constraints. Meanwhile, the computation and communication efficiency are both improved thanks to the adaptability between the model sparsity and clients' resources. Further, we theoretically show that the proposed pFedGate has superior complexity with guaranteed convergence and generalization error. Extensive experiments show that pFedGate achieves superior global accuracy, individual accuracy and efficiency simultaneously over state-of-the-art methods. We also demonstrate that pFedGate performs better than competitors in the novel clients participation and partial clients participation scenarios, and can learn meaningful sparse local models adapted to different data distributions. | 翻訳日:2023-05-05 15:42:59 公開日:2023-05-04 |
# 高速クロスモーダルMRI画像再構成のための空間的・モーダル的移動法 Spatial and Modal Optimal Transport for Fast Cross-Modal MRI Reconstruction ( http://arxiv.org/abs/2305.02774v1 ) ライセンス: Link先を確認 | Qi Wang, Zhijie Wen, Jun Shi, Qian Wang, Dinggang Shen, and Shihui Ying | (参考訳) マルチモーダル磁気共鳴画像(mri)は臨床医学において重要な役割を担っている。
しかし、T2重み付きモダリティのようないくつかのモダリティの獲得には長い時間が必要であり、常に運動アーティファクトが伴う。
一方、T1強調画像(T1WI)は同じ基盤情報をT2強調画像(T2WI)と共有しており、スキャン時間は短い。
そこで本稿では,補助モダリティ(T1WI)を導入することにより,T2WIの獲得を加速する。
具体的には、まず低サンプリングT2WIを用いて高品質なT2WIを再構成する。
ここでは,k空間におけるサンプリングレートを低減し,高速なT2WI再構成を実現する。
第2に、より優れたT2WI再構成を導くための合成T2WIを生成するためのクロスモーダル合成タスクを確立する。
本稿では、T1画像多様体上の空間アライメントマッピングと、整列したT1WIからT2WIへのクロスモーダル合成マッピングという、2つのOTプロセスにクロスモーダル生成マッピング全体を分解して合成T2WIを得る。
空間的不整合による負の移動を克服する。
そして,復元作業と合成作業が相補的であることを証明した。
最後に,提案手法の有効性を検証するために,オープンデータセットFastMRIと社内データセットの最先端手法との比較を行った。 Multi-modal Magnetic Resonance Imaging (MRI) plays an important role in clinical medicine. However, the acquisitions of some modalities, such as the T2-weighted modality, need a long time and they are always accompanied by motion artifacts. On the other hand, the T1-weighted image (T1WI) shares the same underlying information with T2-weighted image (T2WI), which needs a shorter scanning time. Therefore, in this paper we accelerate the acquisition of the T2WI by introducing the auxiliary modality (T1WI). Concretely, we first reconstruct high-quality T2WIs with under-sampled T2WIs. Here, we realize fast T2WI reconstruction by reducing the sampling rate in the k-space. Second, we establish a cross-modal synthesis task to generate the synthetic T2WIs for guiding better T2WI reconstruction. Here, we obtain the synthetic T2WIs by decomposing the whole cross-modal generation mapping into two OT processes, the spatial alignment mapping on the T1 image manifold and the cross-modal synthesis mapping from aligned T1WIs to T2WIs. It overcomes the negative transfer caused by the spatial misalignment. Then, we prove the reconstruction and the synthesis tasks are well complementary. Finally, we compare it with state-of-the-art approaches on an open dataset FastMRI and an in-house dataset to testify the validity of the proposed method. | 翻訳日:2023-05-05 15:42:30 公開日:2023-05-04 |
# 言語選択の政治--ロシア・ウクライナ戦争がウクライナ語のtwitter利用にどう影響するか The Politics of Language Choice: How the Russian-Ukrainian War Influences Ukrainians' Language Use on Twitter ( http://arxiv.org/abs/2305.02770v1 ) ライセンス: Link先を確認 | Daniel Racek, Brittany I. Davidson, Paul W. Thurner, and G\"oran Kauermann | (参考訳) 言語の使用は本質的に政治的であり、しばしば文化的アイデンティティの手段であり、国家建設の基礎である。
ここでは,2020年1月から2022年10月までのロシア・ウクライナ戦争前後の62,000人以上から400万以上の地理的タグ付きツイートに基づいて,ウクライナ市民の言語選択とツイート活動について検討した。
統計的モデルを用いて,twitter上でのユーザの流入と流出から生じるサンプル効果を,ユーザの行動変化から生じる行動的影響から分離する。
我々は、戦争前に既にロシア語からウクライナ語への安定した変化を観察しており、その発生によって劇的に加速している。
これらの変化の大部分は、ユーザの行動の変化によるものです。
注目すべきは、多くのロシアのツイートユーザーが、戦争の結果ウクライナに苦戦していることだ。 The use of language is innately political and often a vehicle of cultural identity as well as the basis for nation building. Here, we examine language choice and tweeting activity of Ukrainian citizens based on more than 4 million geo-tagged tweets from over 62,000 users before and during the Russian-Ukrainian War, from January 2020 to October 2022. Using statistical models, we disentangle sample effects, arising from the in- and outflux of users on Twitter, from behavioural effects, arising from behavioural changes of the users. We observe a steady shift from the Russian language towards the Ukrainian language already before the war, which drastically speeds up with its outbreak. We attribute these shifts in large part to users' behavioural changes. Notably, we find that many Russian-tweeting users perform a hard-switch to Ukrainian as a result of the war. | 翻訳日:2023-05-05 15:42:07 公開日:2023-05-04 |
# 変形可能な変圧器を用いた端端端端の半監督テーブル検出に向けて Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer ( http://arxiv.org/abs/2305.02769v1 ) ライセンス: Link先を確認 | Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Marcus Liwicki and Muhammad Zeshan Afzal | (参考訳) テーブル検出は、ドキュメントイメージ内のテーブルオブジェクトを分類し、ローカライズするタスクである。
近年の深層学習手法の発展に伴い,テーブル検出の著しい成功が観察されている。
しかし、これらのモデルを効果的に訓練するには、かなりの量のラベル付きデータが必要である。
多くの半教師付きアプローチが、大量のラベルデータの必要性を軽減するために導入されている。
これらのアプローチでは、アンカー提案やNMSのような後処理段階に依存するCNNベースの検出器を使用する。
そこで本稿では, テーブルオブジェクトの検出に変形可能な変換器を用いた, エンドツーエンドの半教師付きテーブル検出手法を提案する。
我々はPubLayNet,DocBank,ICADR-19,TableBankの半教師付き手法を評価し,従来の手法と比較して優れた性能を実現する。
これは、TableBank-bothデータセットの10\%ラベルで+3.4ポイント、PubLayNetデータセットの10\%ラベルで+1.8ポイントで、完全に教師された方法(Deformable transformer)よりも優れている。
この研究が、半教師なしおよび教師なしのテーブル検出方法への新たな可能性を開くことを願っている。 Table detection is the task of classifying and localizing table objects within document images. With the recent development in deep learning methods, we observe remarkable success in table detection. However, a significant amount of labeled data is required to train these models effectively. Many semi-supervised approaches are introduced to mitigate the need for a substantial amount of label data. These approaches use CNN-based detectors that rely on anchor proposals and post-processing stages such as NMS. To tackle these limitations, this paper presents a novel end-to-end semi-supervised table detection method that employs the deformable transformer for detecting table objects. We evaluate our semi-supervised method on PubLayNet, DocBank, ICADR-19 and TableBank datasets, and it achieves superior performance compared to previous methods. It outperforms the fully supervised method (Deformable transformer) by +3.4 points on 10\% labels of TableBank-both dataset and the previous CNN-based semi-supervised approach (Soft Teacher) by +1.8 points on 10\% labels of PubLayNet dataset. We hope this work opens new possibilities towards semi-supervised and unsupervised table detection methods. | 翻訳日:2023-05-05 15:41:51 公開日:2023-05-04 |
# vendorlink: ダークネット市場におけるベンダー移民と潜在的なエイリアスを識別・リンクするnlpアプローチ VendorLink: An NLP approach for Identifying & Linking Vendor Migrants & Potential Aliases on Darknet Markets ( http://arxiv.org/abs/2305.02763v1 ) ライセンス: Link先を確認 | Vageesh Saxena, Nils Rethmeier, Gijs Van Dijck, Gerasimos Spanakis | (参考訳) ダークネット上の匿名性により、ベンダーは複数のベンダーのエイリアスを使用したり、市場間で頻繁に移行することで、未発見のままでいられる。
その結果、違法な市場とそのつながりはダークネットを明らかにするのに困難である。
違法な市場とそのベンダー間の関係を識別するために,7つのパブリックダークネットマーケット上のテキスト広告(ads)にまたがるユニークなベンダーアカウントの検証,識別,リンクを行うnlpベースのアプローチであるbenederlinkを提案する。
既存の文献とは対照的に、VendorLinkは教師付き事前トレーニングの強みを利用して、クローズドセットベンダー検証、オープンセットベンダー識別、低リソース市場適応タスクを実行する。
VendorLinkで明らかになった
(i)alphabay-dreams-silkデータセットにおける15の移民と71の潜在的なエイリアス
(II)Valhalla-Berlusconiデータセットにおける17人の移民と3人の潜在的エイリアス
(3)Traderoute-Agoraデータセットの75人の移民と10人の潜在的エイリアス。
また、当社のアプローチは、既存および低リソース(LR)新興ダークネット市場において、移行ベンダーとその潜在的なエイリアスを検証、特定することで、法執行機関(LEA)がより情報的な決定を下すのに役立ちます。 The anonymity on the Darknet allows vendors to stay undetected by using multiple vendor aliases or frequently migrating between markets. Consequently, illegal markets and their connections are challenging to uncover on the Darknet. To identify relationships between illegal markets and their vendors, we propose VendorLink, an NLP-based approach that examines writing patterns to verify, identify, and link unique vendor accounts across text advertisements (ads) on seven public Darknet markets. In contrast to existing literature, VendorLink utilizes the strength of supervised pre-training to perform closed-set vendor verification, open-set vendor identification, and low-resource market adaption tasks. Through VendorLink, we uncover (i) 15 migrants and 71 potential aliases in the Alphabay-Dreams-Silk dataset, (ii) 17 migrants and 3 potential aliases in the Valhalla-Berlusconi dataset, and (iii) 75 migrants and 10 potential aliases in the Traderoute-Agora dataset. Altogether, our approach can help Law Enforcement Agencies (LEA) make more informed decisions by verifying and identifying migrating vendors and their potential aliases on existing and Low-Resource (LR) emerging Darknet markets. | 翻訳日:2023-05-05 15:41:30 公開日:2023-05-04 |
# jpegアーティファクト削減のためのマルチモダリティディープネットワーク Multi-Modality Deep Network for JPEG Artifacts Reduction ( http://arxiv.org/abs/2305.02760v1 ) ライセンス: Link先を確認 | Xuhao Jiang, Weimin Tan, Qing Lin, Chenxi Ma, Bo Yan, Liquan Shen | (参考訳) 近年、JPEGアーティファクトの削減のために多くの畳み込みニューラルネットワークベースのモデルが設計され、顕著な進歩を遂げている。
しかし、極端に低ビット画像圧縮アーティファクトの削減に適した方法はほとんどない。
主な課題は、高度に圧縮された画像が過剰な情報を失い、高品質な画像の再構成が困難になることである。
そこで本研究では,高圧縮画像の潜在的な事前情報を提供するだけでなく,画像のデブロッキングを支援する補助情報としても機能する,テキスト誘導JPEGアーティファクト削減のためのマルチモーダル融合学習手法を提案する。
画像特徴とテキスト意味特徴をそれぞれグローバル視点とローカル視点から融合させ,コントラスト学習に基づくコントラスト損失をデザインし,視覚的に満足できる結果を得る。
ユーザスタディを含む広範な実験により,本手法は最先端手法と比較してより優れたデブロッキング結果が得られることを証明した。 In recent years, many convolutional neural network-based models are designed for JPEG artifacts reduction, and have achieved notable progress. However, few methods are suitable for extreme low-bitrate image compression artifacts reduction. The main challenge is that the highly compressed image loses too much information, resulting in reconstructing high-quality image difficultly. To address this issue, we propose a multimodal fusion learning method for text-guided JPEG artifacts reduction, in which the corresponding text description not only provides the potential prior information of the highly compressed image, but also serves as supplementary information to assist in image deblocking. We fuse image features and text semantic features from the global and local perspectives respectively, and design a contrastive loss built upon contrastive learning to produce visually pleasing results. Extensive experiments, including a user study, prove that our method can obtain better deblocking results compared to the state-of-the-art methods. | 翻訳日:2023-05-05 15:41:05 公開日:2023-05-04 |
# 感情認識のための耐雑音マルチモーダルトランス Noise-Resistant Multimodal Transformer for Emotion Recognition ( http://arxiv.org/abs/2305.02814v1 ) ライセンス: Link先を確認 | Yuanyuan Liu, Haoyu Zhang, Yibing Zhan, Zijing Chen, Guanghao Yin, Lin Wei and Zhe Chen | (参考訳) マルチモーダル感情認識は、ビデオ、テキスト、オーディオなどの様々なデータモダリティから人間の感情を認識する。
しかし,有用な意味論を含まないノイズ情報によって,このタスクは容易に影響を受けることが分かった。
この目的のために,パイプライン内のノイズ耐性特徴を抽出し,マルチモーダル感情理解の堅牢性を効果的に向上する雑音認識学習手法を提案する。
ノイズ耐性マルチモーダルトランスフォーマタ(norm-tr)と呼ばれる新しいパイプラインでは,主にノイズ耐性ジェネリック特徴抽出器とマルチモーダル感情認識タスク用トランスフォーマを導入する。
特に、NRGF抽出器は、一貫性と意味的な意味論が得られるように、汎用的で乱れのない表現を学習させる。
さらに、NRGFとの関係に基づき、マルチモーダル入力のマルチモーダル特徴(MF)を変換器に適用する。
したがって、NRGFの非感受性であるが有用な情報は、詳細を含むMFによって補完される可能性がある。
NORM-TRを適切に訓練するために,提案手法は雑音に対する学習を強化することで,通常の感情認識損失を補完する。
学習方式は,多モード入力シーケンスのランダムな位置において,すべてのモダリティまたは特定のモダリティに雑音を明示的に付加する。
そこで我々は、NRGF抽出器が付加ノイズに不変なNRGFを抽出することを学習し、NORM-TRによりより好ましいマルチモーダル感情認識性能を実現するために、2つの敵対的損失を導入する。
実際には、いくつかの一般的なマルチモーダルデータセットにおいて、NORM-TRは最先端のパフォーマンスを達成し、既存の手法を大きなマージンで上回り、ノイズに抵抗する能力が効果的な感情認識に重要であることを示す。 Multimodal emotion recognition identifies human emotions from various data modalities like video, text, and audio. However, we found that this task can be easily affected by noisy information that does not contain useful semantics. To this end, we present a novel paradigm that attempts to extract noise-resistant features in its pipeline and introduces a noise-aware learning scheme to effectively improve the robustness of multimodal emotion understanding. Our new pipeline, namely Noise-Resistant Multimodal Transformer (NORM-TR), mainly introduces a Noise-Resistant Generic Feature (NRGF) extractor and a Transformer for the multimodal emotion recognition task. In particular, we make the NRGF extractor learn a generic and disturbance-insensitive representation so that consistent and meaningful semantics can be obtained. Furthermore, we apply a Transformer to incorporate Multimodal Features (MFs) of multimodal inputs based on their relations to the NRGF. Therefore, the possible insensitive but useful information of NRGF could be complemented by MFs that contain more details. To train the NORM-TR properly, our proposed noise-aware learning scheme complements normal emotion recognition losses by enhancing the learning against noises. Our learning scheme explicitly adds noises to either all the modalities or a specific modality at random locations of a multimodal input sequence. We correspondingly introduce two adversarial losses to encourage the NRGF extractor to learn to extract the NRGFs invariant to the added noises, thus facilitating the NORM-TR to achieve more favorable multimodal emotion recognition performance. In practice, on several popular multimodal datasets, our NORM-TR achieves state-of-the-art performance and outperforms existing methods by a large margin, which demonstrates that the ability to resist noisy information is important for effective emotion recognition. | 翻訳日:2023-05-05 15:35:55 公開日:2023-05-04 |
# mtlsegformer: 精密農業における意味セグメンテーションのためのトランスフォーマによるマルチタスク学習 MTLSegFormer: Multi-task Learning with Transformers for Semantic Segmentation in Precision Agriculture ( http://arxiv.org/abs/2305.02813v1 ) ライセンス: Link先を確認 | Diogo Nunes Goncalves, Jose Marcato Junior, Pedro Zamboni, Hemerson Pistori, Jonathan Li, Keiller Nogueira, Wesley Nunes Goncalves | (参考訳) マルチタスク学習は相関タスクの性能向上に有効であることが証明されている。
既存の手法のほとんどは、各タスクの独立ブランチで初期特徴を抽出するためにバックボーンを使用しており、ブランチ間の情報の交換は通常、ブランチの機能マップの連結や和を通じて行われる。
しかし、この種の情報交換は、画像の局所的特徴やタスク間の重要度や相関度を直接考慮していない。
本稿では,マルチタスク学習と注意機構を組み合わせた意味セグメンテーション手法であるmtlsegformerを提案する。
バックボーン機能抽出後、各タスクで2つのフィーチャーマップが学習される。
第1のマップはタスクに関連する特徴を学習するために提案され、第2のマップは学習した視覚的注意を他のタスクの特徴マップを局所的に再検討することで得られる。
このように、重みは特定のタスクにおいてより重要となる他のタスクのイメージの局所領域に割り当てられる。
最後に、2つのマップが組み合わされ、タスクの解決に使用されます。
相関タスクを伴う2つの課題において,その性能を検証し,他への依存度が高い課題を中心に,精度の大幅な向上を確認した。 Multi-task learning has proven to be effective in improving the performance of correlated tasks. Most of the existing methods use a backbone to extract initial features with independent branches for each task, and the exchange of information between the branches usually occurs through the concatenation or sum of the feature maps of the branches. However, this type of information exchange does not directly consider the local characteristics of the image nor the level of importance or correlation between the tasks. In this paper, we propose a semantic segmentation method, MTLSegFormer, which combines multi-task learning and attention mechanisms. After the backbone feature extraction, two feature maps are learned for each task. The first map is proposed to learn features related to its task, while the second map is obtained by applying learned visual attention to locally re-weigh the feature maps of the other tasks. In this way, weights are assigned to local regions of the image of other tasks that have greater importance for the specific task. Finally, the two maps are combined and used to solve a task. We tested the performance in two challenging problems with correlated tasks and observed a significant improvement in accuracy, mainly in tasks with high dependence on the others. | 翻訳日:2023-05-05 15:35:26 公開日:2023-05-04 |
# 変分オートエンコーダによる解釈可能な文表現と注意 Interpretable Sentence Representation with Variational Autoencoders and Attention ( http://arxiv.org/abs/2305.02810v1 ) ライセンス: Link先を確認 | Ghazi Felhi | (参考訳) 本稿では,近年の自然言語処理(nlp)における表現学習手法の解釈性を向上させる手法を開発し,注釈付きデータの有効性について考察する。
変動オートエンコーダ (VAEs) は, 遅延生成因子に関連する観測効率と, データ効率の学習および解釈可能な表現学習における有効性から選択する。
最初の貢献として、半教師付きvaesの機能スキームにおいて不要なコンポーネントを特定し、取り除き、それらをより速く、より小さく、設計しやすくする。
第2と第2のコントリビューションは、VAEとTransformerを使用して、インダクティブバイアスを持つ2つのモデルを構築し、潜在表現の情報を注釈付きデータなしで理解可能な概念に分離することです。
最初のモデルであるADVAE(Attention-Driven VAE)は、文中の構文的役割に関する情報を個別に表現し、制御することができる。
第2のモデルであるqkvaeは、切り離された潜在変数を使用して、トランスフォーマーデコーダのキーと値を形成し、そのニューラルネットワーク表現で構文と意味情報を分離することができる。
転送実験において、qkvaeは50kの注釈付きサンプルを用いた教師付きモデルと同等の性能を持つ。
さらに、QKVAEはADVAEに比べて構文的役割の切り離し能力が改善された。
テキストデータが豊富だがアノテーションが乏しい状況下では,言語モデリングにおける最先端のディープラーニングアーキテクチャの解釈可能性を高めることが可能であることを示す。 In this thesis, we develop methods to enhance the interpretability of recent representation learning techniques in natural language processing (NLP) while accounting for the unavailability of annotated data. We choose to leverage Variational Autoencoders (VAEs) due to their efficiency in relating observations to latent generative factors and their effectiveness in data-efficient learning and interpretable representation learning. As a first contribution, we identify and remove unnecessary components in the functioning scheme of semi-supervised VAEs making them faster, smaller and easier to design. Our second and main contribution is to use VAEs and Transformers to build two models with inductive bias to separate information in latent representations into understandable concepts without annotated data. The first model, Attention-Driven VAE (ADVAE), is able to separately represent and control information about syntactic roles in sentences. The second model, QKVAE, uses separate latent variables to form keys and values for its Transformer decoder and is able to separate syntactic and semantic information in its neural representations. In transfer experiments, QKVAE has competitive performance compared to supervised models and equivalent performance to a supervised model using 50K annotated samples. Additionally, QKVAE displays improved syntactic role disentanglement capabilities compared to ADVAE. Overall, we demonstrate that it is possible to enhance the interpretability of state-of-the-art deep learning architectures for language modeling with unannotated data in situations where text data is abundant but annotations are scarce. | 翻訳日:2023-05-05 15:35:00 公開日:2023-05-04 |
# 室内のエレファント:自然言語処理研究におけるビッグデータの存在分析 The Elephant in the Room: Analyzing the Presence of Big Tech in Natural Language Processing Research ( http://arxiv.org/abs/2305.02797v1 ) ライセンス: Link先を確認 | Mohamed Abdalla and Jan Philip Wahle and Terry Ruas and Aur\'elie N\'ev\'eol and Fanny Ducel and Saif M. Mohammad and Kar\"en Fort | (参考訳) 自然言語処理(NLP)の深層学習手法の最近の進歩は、新たなビジネス機会を生み出し、NLP研究を産業発展に欠かせないものにしている。
NLPの分野では、政府や大学とともに大きなプレーヤーの1つとして、産業が研究に与える影響を追跡することが重要である。
本研究では,NLPコミュニティにおける産業の存在を時間とともに定量化し,特徴付けることを目的とする。
78,187冊のNLP出版物と701冊のNLP出版物の包括的なメタデータを持つコーパスを用いて,90年代初め以降の分野における業界の存在を探求する。
NLP作家の業界の存在は、過去5年間で急激な増加(2017年から2022年までの180%)を前に着実に推移している。
いくつかの企業は出版物の大半を占め、助成金やインターンシップを通じて学術研究者に資金を提供している。
本研究は,自然言語処理研究における産業の存在と影響が重要かつ急速に成長していることを示している。
この研究は、この分野における産業の影響の透明性を高めることを求めている。 Recent advances in deep learning methods for natural language processing (NLP) have created new business opportunities and made NLP research critical for industry development. As one of the big players in the field of NLP, together with governments and universities, it is important to track the influence of industry on research. In this study, we seek to quantify and characterize industry presence in the NLP community over time. Using a corpus with comprehensive metadata of 78,187 NLP publications and 701 resumes of NLP publication authors, we explore the industry presence in the field since the early 90s. We find that industry presence among NLP authors has been steady before a steep increase over the past five years (180% growth from 2017 to 2022). A few companies account for most of the publications and provide funding to academic researchers through grants and internships. Our study shows that the presence and impact of the industry on natural language processing research are significant and fast-growing. This work calls for increased transparency of industry influence in the field. | 翻訳日:2023-05-05 15:33:32 公開日:2023-05-04 |
# 半教師付きマルチラベル学習のためのクラス分散アウェア擬似ラベリング Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label Learning ( http://arxiv.org/abs/2305.02795v1 ) ライセンス: Link先を確認 | Ming-Kun Xie, Jia-Hao Xiao, Gang Niu, Masashi Sugiyama, Sheng-Jun Huang | (参考訳) 擬似ラベリングは、ラベルなしデータの情報を活用するための一般的で効果的な方法である。
従来のインスタンスアウェアの擬似ラベリングメソッドでは、予測された確率に基づいて、ラベルなしのインスタンスに擬似ラベルを割り当てることが多い。
しかし、真のラベルが不明なため、偽陽性ラベルの導入や真陽性ラベルの無視のリスクに悩まされるため、これらの手法は半教師付きマルチラベル学習(SSMLL)のシナリオにうまく適用できない。
本稿では,擬似ラベルのクラス分布を真に近似させるCAP(Class-distriion-Aware Pseudo labeling)を行うことにより,SSMLLの問題を解決することを提案する。
具体的には,クラス認識しきい値からなる正規化学習フレームワークを設計し,クラス毎の擬似ラベル数を制御する。
ラベル付きおよびラベルなしの例が同じ分布に従ってサンプリングされていることを考慮し、実数に対する厳密な近似として扱うことができる経験的クラス分布を利用してしきい値を決定する。
理論的には,提案手法の一般化性能は擬似ラベリング誤差に依存しており,CAP戦略により大幅に低減可能であることを示す。
複数のベンチマークデータセットの大規模な実験結果から、CAPがSSMLL問題を効果的に解決できることが確認された。 Pseudo labeling is a popular and effective method to leverage the information of unlabeled data. Conventional instance-aware pseudo labeling methods often assign each unlabeled instance with a pseudo label based on its predicted probabilities. However, due to the unknown number of true labels, these methods cannot generalize well to semi-supervised multi-label learning (SSMLL) scenarios, since they would suffer from the risk of either introducing false positive labels or neglecting true positive ones. In this paper, we propose to solve the SSMLL problems by performing Class-distribution-Aware Pseudo labeling (CAP), which encourages the class distribution of pseudo labels to approximate the true one. Specifically, we design a regularized learning framework consisting of the class-aware thresholds to control the number of pseudo labels for each class. Given that the labeled and unlabeled examples are sampled according to the same distribution, we determine the thresholds by exploiting the empirical class distribution, which can be treated as a tight approximation to the true one. Theoretically, we show that the generalization performance of the proposed method is dependent on the pseudo labeling error, which can be significantly reduced by the CAP strategy. Extensive experimental results on multiple benchmark datasets validate that CAP can effectively solve the SSMLL problems. | 翻訳日:2023-05-05 15:33:13 公開日:2023-05-04 |
# 一様ランダムグラフにおけるベルの不等式違反 Violation of Bell's inequalities in uniform random graphs ( http://arxiv.org/abs/2305.02791v1 ) ライセンス: Link先を確認 | Ioannis Kleftogiannis, Ilias Amanatidis | (参考訳) 我々は、ランダムモデルが自然界において量子力学的であるという前提を仮定することなく、ランダムな離散モデルの統計的相関から量子相関が生まれることを実証した。
エルドス・レーニー一様ランダムグラフにおける頂点対の近傍数(次数)の相関について検討した。
我々は,各ベルの不等式を計算するために,ペア内の頂点間の次数の出現にジョイント確率を用いる。
この不等式は、頂点上の辺の比率が r<2$ のスパース乱数グラフに対して破られ、これらの乱数構造に対する量子相関の出現を意味する。
量子相関は、グラフサイズや相関頂点間の測地距離とは独立に持続する。
r>2$の場合、頂点の間により多くの辺を追加することでグラフがより密になるので、ベルの不等式は満たされ、量子相関は消滅する。
また, 時空の出現とその一様ランダムグラフからの幾何学的性質に関する先行研究との関係についても概説する。 We demonstrate that quantum correlations can emerge from the statistical correlations of random discrete models, without an a priori assumption that the random models are quantum mechanical in nature, that is without considering superpositions of the random structures. We investigate the correlations between the number of neighbors(degree) for pairs of vertices in Erdos-Renyi uniform random graphs. We use the joint probabilities for the appearance of degree numbers between the vertices in the pairs, in order to calculate the respective Bell's inequalities. We find that the inequalities are violated for sparse random graphs with ratio of edges over vertices $R<2$, signifying the emergence of quantum correlations for these random structures. The quantum correlations persist independently of the graph size or the geodesic distance between the correlated vertices. For $R>2$, as the graph becomes denser by adding more edges between its vertices, the Bell's inequalities are satisfied and the quantum correlations disappear. Relations to our previous works concerning the emergence of spacetime and its geometrical properties from uniform random graphs, are also briefly discussed. | 翻訳日:2023-05-05 15:32:52 公開日:2023-05-04 |
# BranchNorm: 非常に深いトランスをロバストにスケーリングする BranchNorm: Robustly Scaling Extremely Deep Transformers ( http://arxiv.org/abs/2305.02790v1 ) ライセンス: Link先を確認 | Yijin Liu, Xianfeng Zeng, Fandong Meng and Jie Zhou | (参考訳) 近年、DeepNormはトランスフォーマーを非常に深く(すなわち1000層)スケールし、ディープスケーリングの可能性を明らかにしている。
深層モデルのトレーニングを安定させるために、DeepNorm (Wang et al., 2022) はモデルの更新を一定値に制限しようとする。
このような制約を適用することは、モデルトレーニングの初期段階に利益をもたらすが、トレーニング手順全体において、未訓練のモデルにつながる可能性がある。
本稿では,変圧器の非正則分岐をトレーニング期間に応じて動的に再スケールする分岐ノルムを提案する。
BranchNormは、初期の段階においてスムーズな勾配ノルムでトレーニングを理論的に安定化させるだけでなく、その後のトレーニング段階ではより良い収束を促す。
複数の翻訳タスクの実験結果から、BranchNormはトレーニングの安定性と収束性能のトレードオフを向上することが示された。 Recently, DeepNorm scales Transformers into extremely deep (i.e., 1000 layers) and reveals the promising potential of deep scaling. To stabilize the training of deep models, DeepNorm (Wang et al., 2022) attempts to constrain the model update to a constant value. Although applying such a constraint can benefit the early stage of model training, it may lead to undertrained models during the whole training procedure. In this paper, we propose BranchNorm, which dynamically rescales the non-residual branch of Transformer in accordance with the training period. BranchNorm not only theoretically stabilizes the training with smooth gradient norms at the early stage, but also encourages better convergence in the subsequent training stage. Experiment results on multiple translation tasks demonstrate that BranchNorm achieves a better trade-off between training stability and converge performance. | 翻訳日:2023-05-05 15:32:33 公開日:2023-05-04 |
# CAR代数上のフェルミオン励起状態の相対エントロピー Relative Entropy of Fermion Excitation States on the CAR Algebra ( http://arxiv.org/abs/2305.02788v1 ) ライセンス: Link先を確認 | Stefano Galanda, Albert Much, Rainer Verch | (参考訳) 正準反可換関係(CAR)の代数に関するある状態の相対エントロピーが本研究で研究されている。
CAR代数は、量子力学と量子場理論におけるフェルミオン自由度を記述するために用いられる。
相対エントロピーが研究される状態は、CAR代数の一粒子ヒルベルト空間上のユニタリ力学群によって誘導される時間進化に関して定義されるKMS状態に関する多励起状態(多粒子状態と類似)である。
KMS状態が準自由ならば、多励起状態の相対エントロピーは、CAR代数を定義する一粒子ヒルベルト空間と一粒子ヒルベルト空間上の力学群のハミルトン作用素によって完全に定義される2点函数の項で明示的に計算することができる。
これはまた、1粒子のヒルベルト空間ハミルトン作用素が連続スペクトルを持つので、多重励起状態の相対エントロピーはフォン・ノイマンエントロピーの項で定義できない場合にも適用される。
ここで得られたCAR代数上の多励起状態の相対エントロピーに対する結果は、最近現れた正準可換関係(CCR)の代数上のコヒーレント状態の相対エントロピーに対する結果の相反するものと見なすことができる。
これはアラキが導入した自己双対 CAR 代数の設定を利用するのに役立つ。 The relative entropy of certain states on the algebra of canonical anticommutation relations (CAR) is studied in the present work. The CAR algebra is used to describe fermionic degrees of freedom in quantum mechanics and quantum field theory. The states for which the relative entropy is investigated are multi-excitation states (similar to multi-particle states) with respect to KMS states defined with respect to a time-evolution induced by a unitary dynamical group on the one-particle Hilbert space of the CAR algebra. If the KMS state is quasifree, the relative entropy of multi-excitation states can be explicitly calculated in terms of 2-point functions, which are defined entirely by the one-particle Hilbert space defining the CAR algebra and the Hamilton operator of the dynamical group on the one-particle Hilbert space. This applies also in the case that the one-particle Hilbert space Hamilton operator has a continuous spectrum so that the relative entropy of multi-excitation states cannot be defined in terms of von Neumann entropies. The results obtained here for the relative entropy of multi-excitation states on the CAR algebra can be viewed as counterparts of results for the relative entropy of coherent states on the algebra of canonical commutation relations (CCR) which have appeared recently. It turns out to be useful to employ the setting of a self-dual CAR algebra introduced by Araki. | 翻訳日:2023-05-05 15:32:16 公開日:2023-05-04 |
# 2つの機械振動子間の量子同期の十分条件としての絡み合い Entanglement as a sufficient condition for quantum synchronization between two mechanical oscillators ( http://arxiv.org/abs/2305.02862v1 ) ライセンス: Link先を確認 | Manju, Shubhrangshu Dasgupta and Asoka Biswas | (参考訳) 本稿では,2つの機械振動子の量子同期において,絡み合いが十分であることを示すためのオプティメカルモデルを提案する。
これらの実体は、EPRのような共役二次体の集合の分散によって特徴づけられるので、両者の同時存在の特定の条件に繋がるかどうかを考察する。
我々のモデルでは、振動子のうちの1つが空洞を作り、もう1つは空洞内に吊り下げられ、この2つの間の常時結合は同じ空洞モードによって媒介される。
発振器と同じ周波数の振幅変調が存在する場合、発振器はほぼ完全に量子同期化され、定常状態で同時に絡み合っていることを示す。
また、エンタングルメントは常に量子同期を伴うが、逆は必ずしも真ではないことを示す。
したがって、絡み合いは量子同期の十分条件となる。
この振る舞いは、幅広いシステムパラメータに対して観測することができる。 We present an optomechanical model to show that entanglement can be a sufficient condition for quantum synchronization of two mechanical oscillators. As both these entities can be characterized in terms of variances of a set of EPR-like conjugate quadratures, we investigate whether this leads to a specific condition for simultaneous existence of the both. In our model, one of the oscillators makes the cavity, while the other is kept suspended inside the cavity, and the always-on coupling between the two is mediated via the same cavity mode. We show that in presence of amplitude modulation with the same frequency as that of the oscillators, these oscillators get nearly complete quantum synchronized and entangled simultaneously in the steady state. We also show that entanglement always becomes accompanied by quantum synchronization, though the reverse is not necessarily true. Thus, entanglement becomes a sufficient condition for the quantum synchronization. This behaviour can be observed for a large range of system parameters. | 翻訳日:2023-05-05 15:25:15 公開日:2023-05-04 |
# ReMask: ドメイン対実生成のためのロバストな情報マスキングアプローチ ReMask: A Robust Information-Masking Approach for Domain Counterfactual Generation ( http://arxiv.org/abs/2305.02858v1 ) ライセンス: Link先を確認 | Pengfei Hong, Rishabh Bhardwaj, Navonil Majumdar, Somak Aditya, Soujanya Poria | (参考訳) ドメインシフトはnlpの大きな課題であり、多くのアプローチは推論フェーズのドメインシフトを緩和するためにドメイン不変機能を学ぶことに依存している。
しかし、そのような方法は、手元のタスクに関連するドメイン固有のニュアンスを活用できない。
このような欠点を避けるため、ドメインの偽生成は、テキストをソースドメインから所定のターゲットドメインに変換することを目的としている。
しかし、データの可用性が限られているため、そのような周波数ベースの手法は、しばしば有効でスプリアスなドメイン・トケンの関連を見逃し、引き起こす。
したがって、周波数と注意規範に基づくマスキング、ドメイン固有のヒントをマスキングし、ドメインジェネリックコンテキストをアンマスキングする3段階のドメイン難読化アプローチを用いる。
我々の実験では、マスキングされたテキストから抽出された偽のサンプルは、12のドメイン感情分類設定のうち10のドメイン転送を改善し、教師なしドメイン適応(uda)の最先端よりも平均2%精度が向上することを示した。
さらに,対戦領域適応(ADA)設定における平均精度を1.4%向上させることで,最先端のモデルよりも優れることを示す。
さらに,本モデルでは,最新の結果が得られる大規模多ドメインインテント分類データセットに対して,そのドメイン適応性を示す。
コードを公開するのは \url{https://github.com/declare-lab/remask} です。 Domain shift is a big challenge in NLP, thus, many approaches resort to learning domain-invariant features to mitigate the inference phase domain shift. Such methods, however, fail to leverage the domain-specific nuances relevant to the task at hand. To avoid such drawbacks, domain counterfactual generation aims to transform a text from the source domain to a given target domain. However, due to the limited availability of data, such frequency-based methods often miss and lead to some valid and spurious domain-token associations. Hence, we employ a three-step domain obfuscation approach that involves frequency and attention norm-based masking, to mask domain-specific cues, and unmasking to regain the domain generic context. Our experiments empirically show that the counterfactual samples sourced from our masked text lead to improved domain transfer on 10 out of 12 domain sentiment classification settings, with an average of 2% accuracy improvement over the state-of-the-art for unsupervised domain adaptation (UDA). Further, our model outperforms the state-of-the-art by achieving 1.4% average accuracy improvement in the adversarial domain adaptation (ADA) setting. Moreover, our model also shows its domain adaptation efficacy on a large multi-domain intent classification dataset where it attains state-of-the-art results. We release the codes publicly at \url{https://github.com/declare-lab/remask}. | 翻訳日:2023-05-05 15:24:59 公開日:2023-05-04 |
# 最大因果エントロピー逆制約強化学習 Maximum Causal Entropy Inverse Constrained Reinforcement Learning ( http://arxiv.org/abs/2305.02857v1 ) ライセンス: Link先を確認 | Mattijs Baert, Pietro Mazzaglia, Sam Leroux, Pieter Simoens | (参考訳) 人間と相互作用する現実世界の環境に人工エージェントを配置する場合、それらの行動は、その環境の価値観、社会的規範、その他の要件と一致していることが重要である。
しかし、多くの環境には暗黙の制約があり、学習エージェントに指定や転送が困難である。
この課題に対処するために,制約を学習するための最大因果エントロピーの原理と,制約に従属するエージェントのデモンストレーションを用いて,制約に従属する最適なポリシーを利用する手法を提案する。
表の設定における収束を証明し、複雑な環境にスケールする近似を与える。
我々は,受給した報酬と制約違反の数を評価することで,学習方針の有効性を評価し,学習コスト関数を他のエージェントへの転送性に基づいて評価する。
提案手法は,様々なタスクや環境にまたがる最先端のアプローチよりも優れており,確率的ダイナミクスと連続的な状態動作空間で問題に対処することができる。 When deploying artificial agents in real-world environments where they interact with humans, it is crucial that their behavior is aligned with the values, social norms or other requirements of that environment. However, many environments have implicit constraints that are difficult to specify and transfer to a learning agent. To address this challenge, we propose a novel method that utilizes the principle of maximum causal entropy to learn constraints and an optimal policy that adheres to these constraints, using demonstrations of agents that abide by the constraints. We prove convergence in a tabular setting and provide an approximation which scales to complex environments. We evaluate the effectiveness of the learned policy by assessing the reward received and the number of constraint violations, and we evaluate the learned cost function based on its transferability to other agents. Our method has been shown to outperform state-of-the-art approaches across a variety of tasks and environments, and it is able to handle problems with stochastic dynamics and a continuous state-action space. | 翻訳日:2023-05-05 15:24:33 公開日:2023-05-04 |
# 説明可能なクラスタリングにおける深さ低減の可能性 Impossibility of Depth Reduction in Explainable Clustering ( http://arxiv.org/abs/2305.02850v1 ) ライセンス: Link先を確認 | Chengyuan Deng, Surya Teja Gavva, Karthik C. S., Parth Patel, and Adarsh Srinivasan | (参考訳) ここ数年間、Explainable Clusteringは多くの注目を集めてきた。
Dasguptaなど。
ICML'20は、各ノードの空間を軸平行超平面を用いて分割する閾値決定木により説明可能なk平均およびk中間クラスタリング問題の研究を開始した。
最近ではlaberらも参加している。
[パターン認識’23]は、決定木の深さを追加の複雑度尺度として検討した。
本研究では,入力点がユークリッド平面にある場合でも,説明の深さの減少がk平均およびk中間コストの非有界損失を引き起こすことを証明した。
形式的には、ユークリッド平面にデータセット x が存在し、k-means/k-medianコストが x の最適クラスタリングコストに一致する深さ k-1 の決定木が存在するが、深さが k-1 未満のすべての決定木は無界コスト w.r.t を持つ。
我々は、より弱い保証とともに、結果をk中心の目的にも拡張する。 Over the last few years Explainable Clustering has gathered a lot of attention. Dasgupta et al. [ICML'20] initiated the study of explainable k-means and k-median clustering problems where the explanation is captured by a threshold decision tree which partitions the space at each node using axis parallel hyperplanes. Recently, Laber et al. [Pattern Recognition'23] made a case to consider the depth of the decision tree as an additional complexity measure of interest. In this work, we prove that even when the input points are in the Euclidean plane, then any depth reduction in the explanation incurs unbounded loss in the k-means and k-median cost. Formally, we show that there exists a data set X in the Euclidean plane, for which there is a decision tree of depth k-1 whose k-means/k-median cost matches the optimal clustering cost of X, but every decision tree of depth less than k-1 has unbounded cost w.r.t. the optimal cost of clustering. We extend our results to the k-center objective as well, albeit with weaker guarantees. | 翻訳日:2023-05-05 15:24:17 公開日:2023-05-04 |
# MEDIC:カウンセリングにおけるマルチモーダル共感データセット MEDIC: A Multimodal Empathy Dataset in Counseling ( http://arxiv.org/abs/2305.02842v1 ) ライセンス: Link先を確認 | Zhou'an_Zhu, Xin Li, Jicai Pan, Yufei Xiao, Yanan Chang, Feiyi Zheng, Shangfei Wang | (参考訳) カウンセラーとクライアントの共感的相互作用は、心理療法のプロセスの成功に不可欠であるが、共感を理解するための計算的アプローチを支援するデータセットは、今のところほとんどない。
本稿では,対面心理カウンセリングセッションから収集したマルチモーダル共感データセットを構築する。
データセットは771のビデオクリップで構成されている。
また,カウンセラーとクライアント間の共感の程度を記述するために,3つのラベル(体験表現,感情反応,認知反応)を提案する。
経験表現は、クライアントが共感を誘発する経験を表現したかどうかを記述し、感情的および認知的反応はカウンセラーの共感的反応を示す。
構築したマルチモーダル共感データセットのユーザビリティに関する基礎的評価として,ビデオクリップに対する注釈者の主観評価を,クラス内相関係数とfleiss' kappaを用いてインテラタ信頼性解析する。
結果は、データアノテーションが信頼できることを証明します。
さらに,テンソル融合ネットワーク,感情的単語認識融合ネットワーク,単純な結合モデルなど,3つの典型的な手法を用いて共感予測を行う。
実験の結果,共感はデータセット上でよく予測できることがわかった。
私たちのデータセットは研究目的で利用可能です。 Although empathic interaction between counselor and client is fundamental to success in the psychotherapeutic process, there are currently few datasets to aid a computational approach to empathy understanding. In this paper, we construct a multimodal empathy dataset collected from face-to-face psychological counseling sessions. The dataset consists of 771 video clips. We also propose three labels (i.e., expression of experience, emotional reaction, and cognitive reaction) to describe the degree of empathy between counselors and their clients. Expression of experience describes whether the client has expressed experiences that can trigger empathy, and emotional and cognitive reactions indicate the counselor's empathic reactions. As an elementary assessment of the usability of the constructed multimodal empathy dataset, an interrater reliability analysis of annotators' subjective evaluations for video clips is conducted using the intraclass correlation coefficient and Fleiss' Kappa. Results prove that our data annotation is reliable. Furthermore, we conduct empathy prediction using three typical methods, including the tensor fusion network, the sentimental words aware fusion network, and a simple concatenation model. The experimental results show that empathy can be well predicted on our dataset. Our dataset is available for research purposes. | 翻訳日:2023-05-05 15:23:55 公開日:2023-05-04 |
# 機械学習のセンスを作る:AIの概念、創造的、批判的理解を統合する Making Sense of Machine Learning: Integrating Youth's Conceptual, Creative, and Critical Understandings of AI ( http://arxiv.org/abs/2305.02840v1 ) ライセンス: Link先を確認 | Luis Morales-Navarro, Yasmin B. Kafai, Francisco Castro, William Payne, Kayla DesPortes, Daniella DiPaola, Randi Williams, Safinah Ali, Cynthia Breazeal, Clifford Lee, Elisabeth Soep, Duri Long, Brian Magerko, Jaemarie Solyst, Amy Ogan, Cansu Tatar, Shiyan Jiang, Jie Chao, Carolyn P. Ros\'e, Sepehr Vakil | (参考訳) 若者が機械学習をどのように理解するかを理解し、機械学習を学校内外でどのように学べるかを理解することは、若者が毎日機械学習駆動のアプリケーションと対話するにつれて、これまで以上に重要になる。
本シンポジウムでは,学習者が日常生活で機械学習をどのように理解するか,アプリケーションの構築を通じて学校内外における機械学習のセンスメイキングをどのように支援できるか,若者が機械学習駆動システムをどのように批判的に評価するか,について異なる視点を提示する。
機械学習応用のセンスメイキングが、世界への若者の参加を準備する上でますます重要になっている概念的、創造的、批判的な理解の発達と統合にどのように関与するかを論じる。 Understanding how youth make sense of machine learning and how learning about machine learning can be supported in and out of school is more relevant than ever before as young people interact with machine learning powered applications everyday; while connecting with friends, listening to music, playing games, or attending school. In this symposium, we present different perspectives on understanding how learners make sense of machine learning in their everyday lives, how sensemaking of machine learning can be supported in and out of school through the construction of applications, and how youth critically evaluate machine learning powered systems. We discuss how sensemaking of machine learning applications involves the development and integration of conceptual, creative, and critical understandings that are increasingly important to prepare youth to participate in the world. | 翻訳日:2023-05-05 15:23:36 公開日:2023-05-04 |
# バグの設計と別のプロジェクト--中学生のコンピュータサイエンスにおける自己信頼への影響 Designing Bugs or Doing Another Project: Effects on Secondary Students' Self-Beliefs in Computer Science ( http://arxiv.org/abs/2305.02835v1 ) ライセンス: Link先を確認 | Luis Morales-Navarro, Deborah A. Fields, Michael Giang and Yasmin B Kafai | (参考訳) コードのバグのデバッグ、発見、修正は、初心者の学習者の自尊心とコンピューティングのモチベーションを形作る異種プロセスである。
当社のデバッギング・バイ・デザイン・インベンション(dbd)は,導入型コンピューティングコースにおける電子織物ユニットにおける創造的なバギープロジェクトの設計に協力させることで,学生にバグのコントロールを挑発する。
DbDを8教室で実践し, 歴史的に人口が疎外された公立学校では, 準実験設計を用いて実践した。
この研究のデータには、検証された調査機器(n=144)による活動後の結果も含まれていた。
全ての学生にとって、プロジェクトの完了はコンピュータサイエンスの創造的表現の増大と自己効力のある電子テクスチャのコーディングと相関した。
比較クラスでは、プロジェクトの完了はプログラミング不安の低減、問題解決能力の信念、プログラミング自己概念と相関した。
DbDクラスでは、プロジェクトの完成は、設計とプログラミングの成長の考え方への関心の高まりと一意に相関している。
議論では、DbDと他のオープンエンドプロジェクトの相対的な利点について考察する。 Debugging, finding and fixing bugs in code, is a heterogeneous process that shapes novice learners' self-beliefs and motivation in computing. Our Debugging by Design intervention (DbD) provocatively puts students in control over bugs by having them collaborate on designing creative buggy projects during an electronic textiles unit in an introductory computing course. We implemented DbD virtually in eight classrooms with two teachers in public schools with historically marginalized populations, using a quasi-experimental design. Data from this study included post-activity results from a validated survey instrument (N=144). For all students, project completion correlated with increased computer science creative expression and e-textiles coding self-efficacy. In the comparison classes, project completion correlated with reduced programming anxiety, problem-solving competency beliefs, and programming self-concept. In DbD classes, project completion is uniquely correlated with increased fascination with design and programming growth mindset. In the discussion, we consider the relative benefits of DbD versus other open-ended projects. | 翻訳日:2023-05-05 15:23:22 公開日:2023-05-04 |
# 中間AMD分類のためのOCTによる異なる網膜領域の比較 Comparison of different retinal regions-of-interest imaged by OCT for the classification of intermediate AMD ( http://arxiv.org/abs/2305.02832v1 ) ライセンス: Link先を確認 | Danilo A. Jesus, Eric F. Thee, Tim Doekemeijer, Daniel Luttikhuizen, Caroline Klaver, Stefan Klein, Theo van Walsum, Hans Vingerling, Luisa Sanchez | (参考訳) 部分光コヒーレンストモグラフィー(OCT)データ、すなわち入力されたBスキャンを特定の関心領域(ROIs)に制限することにより、中間年齢関連黄斑変性(AMD)と健康的な制御とを区別できるかどうかを検討する。
269名の中間amd患者と115名の健常者から15744名のb-scanを用いた(80%の列車で被験者レベル、10%のバリデーション、10%の試験)。
各OCTBスキャンから網膜,網膜色素上皮(RPE)とBruch膜(BM)の複合体,脈絡膜(CHO)の3つのROIを抽出した。
これらのROIはマスキングと収穫の2つの異なる方法を用いて得られた。
6つのROIに加えて,ORTBスキャン全体とRAP-BM複合体のセグメンテーションに対応する2次マスクが用いられた。
各サブセットについて、畳み込みニューラルネットワーク(VGG16アーキテクチャに基づいて、ImageNetで事前トレーニングされた)をトレーニングし、テストした。
モデルの性能は, 受信動作特性(AUROC), 精度, 感度, 特異性に基づいて評価した。
訓練された全てのモデルは、それぞれ0.884、0.816、0.685、0.644以上の精度、感度、特異性を示した。
OCT Bスキャン全体で訓練されたモデルは最高の性能を示した(AUROC = 0.983, 精度 = 0.927, 感度 = 0.862, 特異性 = 0.913)。
クロッピング法で得られたroisを用いたモデルでは、クロッピングとクロッピングの間に統計的に有意な差がみられなかった網膜組織を除き、マスキングで得られたモデルよりも有意に高い結果が得られた(p = 0.47)。
本研究は, 完全OCT Bスキャンを用いて中間AMDの分類において高い精度が得られたが, RPE-BM複合体やコロイドなどの特定のROIで訓練したモデルでは高い性能が得られることを示した。 To study whether it is possible to differentiate intermediate age-related macular degeneration (AMD) from healthy controls using partial optical coherence tomography (OCT) data, that is, restricting the input B-scans to certain pre-defined regions of interest (ROIs). A total of 15744 B-scans from 269 intermediate AMD patients and 115 normal subjects were used in this study (split on subject level in 80% train, 10% validation and 10% test). From each OCT B-scan, three ROIs were extracted: retina, complex between retinal pigment epithelium (RPE) and Bruch membrane (BM), and choroid (CHO). These ROIs were obtained using two different methods: masking and cropping. In addition to the six ROIs, the whole OCT B-scan and the binary mask corresponding to the segmentation of the RPE-BM complex were used. For each subset, a convolutional neural network (based on VGG16 architecture and pre-trained on ImageNet) was trained and tested. The performance of the models was evaluated using the area under the receiver operating characteristic (AUROC), accuracy, sensitivity, and specificity. All trained models presented an AUROC, accuracy, sensitivity, and specificity equal to or higher than 0.884, 0.816, 0.685, and 0.644, respectively. The model trained on the whole OCT B-scan presented the best performance (AUROC = 0.983, accuracy = 0.927, sensitivity = 0.862, specificity = 0.913). The models trained on the ROIs obtained with the cropping method led to significantly higher outcomes than those obtained with masking, with the exception of the retinal tissue, where no statistically significant difference was observed between cropping and masking (p = 0.47). This study demonstrated that while using the complete OCT B-scan provided the highest accuracy in classifying intermediate AMD, models trained on specific ROIs such as the RPE-BM complex or the choroid can still achieve high performance. | 翻訳日:2023-05-05 15:23:02 公開日:2023-05-04 |
# 多属性制御可能な対話生成のための意味空間接地重み付き復号 Semantic Space Grounded Weighted Decoding for Multi-Attribute Controllable Dialogue Generation ( http://arxiv.org/abs/2305.02820v1 ) ライセンス: Link先を確認 | Zhiling Zhang and Mengyue Wu and Kenny Q. Zhu | (参考訳) パーソナリティー、感情、対話行為など、複数の属性によるチャットボット発話生成の制御は、実質的には有用だが未熟な問題である。
本稿では,属性セマンティクス空間におけるグルーディングによる生成品質の向上を図りつつ,重み付きデコードパラダイムによる強い制御性を有する新しい制御可能生成フレームワークdascを提案する。
複数属性の生成は、複数の属性の埋め込みを補間することで直感的に実装される。
実験により,DASCは3視点制御可能な生成タスクにおいて最先端の制御精度を達成でき,また,アウト・オブ・ディストリビューション・ロバストネステストにおいても,興味深く合理的な応答を得られることが示された。
属性意味空間で学んだ意味表現の可視化もその有効性を支持している。 Controlling chatbot utterance generation with multiple attributes such as personalities, emotions and dialogue acts is a practically useful but under-studied problem. We propose a novel controllable generation framework called DASC that possesses strong controllability with weighted decoding paradigm, while improving generation quality with the grounding in an attribute semantics space. Generation with multiple attributes is then intuitively implemented with an interpolation of multiple attribute embeddings. Experiments show that DASC can achieve state-of-the-art control accuracy in 3-aspect controllable generation tasks while also producing interesting and reasonably sensible responses, even if in an out-of-distribution robustness test. Visualization of the meaningful representations learned in the attribute semantic space also supports its effectiveness. | 翻訳日:2023-05-05 15:22:24 公開日:2023-05-04 |
# リンドブラッドダイナミクスのシミュレーションのための変分量子アルゴリズム Variational Quantum Algorithms for Simulation of Lindblad Dynamics ( http://arxiv.org/abs/2305.02815v1 ) ライセンス: Link先を確認 | Tasneem Watad and Netanel H. Lindner | (参考訳) 時間発展型マルコフ開量子系と量子可観測器に対するリンドブラッドマスター方程式とその共役をシミュレートする変分型古典量子アルゴリズムを提案する。
本手法は、密度行列と量子観測可能な量子超状態の直接表現に基づいている。
我々は、解のユニタリおよび非ユニタリダイナミクスを効率的に捉える低深さ変分量子回路を設計し最適化する。
我々は,このアルゴリズムを異なるシステムサイズでベンチマークし,テストし,近未来のハードウェアで実用性を示す。 We introduce a variational hybrid classical-quantum algorithm to simulate the Lindblad master equation and its adjoint for time-evolving Markovian open quantum systems and quantum observables. Our method is based on a direct representation of density matrices and quantum observables as quantum superstates. We design and optimize low-depth variational quantum circuits that efficiently capture the unitary and non-unitary dynamics of the solutions. We benchmark and test the algorithm on different system sizes, showing its potential for utility with near-future hardware. | 翻訳日:2023-05-05 15:22:09 公開日:2023-05-04 |
# APR: 集約されたポイントクラウド再構築によるオンライン遠隔地クラウド登録 APR: Online Distant Point Cloud Registration Through Aggregated Point Cloud Reconstruction ( http://arxiv.org/abs/2305.02893v1 ) ライセンス: Link先を確認 | Quan Liu, Yunsong Zhou, Hongzi Zhu, Shan Chang, Minyi Guo | (参考訳) 多くの運転安全アプリケーションにとって、遠く離れた移動車両で発生するLiDAR点雲を正確に登録することが非常に重要である。
しかし、そのような点雲は同じ対象に対して非常に異なる点密度とセンサーの視点を持ち、そのような点雲の登録は非常に困難である。
本稿では,オンライン遠隔地クラウド登録のための新しい特徴抽出フレームワークであるAPRを提案する。
具体的には、オートエンコーダの設計を活用し、オートエンコーダは元の単一入力点クラウドの代わりに複数のフレームでより密集した点雲を再構成する。
我々の設計では、エンコーダは1つの入力ポイントクラウドに基づいて、リッチな局所幾何学情報を持つ特徴を抽出せざるを得ない。
このような機能は、オンライン遠隔地クラウド登録に使用される。
我々は、KITTIおよびnuScenesデータセット上で、最先端(SOTA)特徴抽出器に対して広範な実験を行う。
その結果、APRは全ての抽出機を大きなマージンで上回り、SOTA抽出機の平均登録リコールはLoKITTIで7.1%、LoNuScenesで4.6%増加した。 For many driving safety applications, it is of great importance to accurately register LiDAR point clouds generated on distant moving vehicles. However, such point clouds have extremely different point density and sensor perspective on the same object, making registration on such point clouds very hard. In this paper, we propose a novel feature extraction framework, called APR, for online distant point cloud registration. Specifically, APR leverages an autoencoder design, where the autoencoder reconstructs a denser aggregated point cloud with several frames instead of the original single input point cloud. Our design forces the encoder to extract features with rich local geometry information based on one single input point cloud. Such features are then used for online distant point cloud registration. We conduct extensive experiments against state-of-the-art (SOTA) feature extractors on KITTI and nuScenes datasets. Results show that APR outperforms all other extractors by a large margin, increasing average registration recall of SOTA extractors by 7.1% on LoKITTI and 4.6% on LoNuScenes. | 翻訳日:2023-05-05 15:16:49 公開日:2023-05-04 |
# ドライバの眠気におけるあくび検出のためのニューロモルフィックセンシング Neuromorphic Sensing for Yawn Detection in Driver Drowsiness ( http://arxiv.org/abs/2305.02888v1 ) ライセンス: Link先を確認 | Paul Kielty, Mehdi Sefidgar Dilmaghani, Cian Ryan, Joe Lemley, Peter Corcoran | (参考訳) 運転監視システム(DMS)は車体安全の重要な要素であり、半自律運転から完全自律運転への移行に不可欠である。
DMSの重要な課題は、ドライバーの認知状態を確認し、その疲労レベルを決定することである。
ニューロモルフィックな視覚システムは、イベントカメラ技術に基づいて、特に運転者の目の動きを高度な顔特性のセンシングを提供する。
本研究は, 顔面領域全体を解析し, 疲れの相補的な指標となるあくび行動を検出するために, ニューロモルフィックセンシング技術の拡張の可能性を検討する。
ニューロモルフィックなデータセットは、rgbカラーカメラで撮影された952のビデオクリップ(481個のあくび、471個のnot-yawn)と、37人の被験者からなる。
映像変換器を用いて、この映像データから合計95200個のニューロモルフィック画像フレームを生成する。
これらのデータから,学習データセットを提供するために21名の被験者が選択され,検証データに8名の被験者が用いられ,残りの8名の被験者は「見当たらない」テストデータセットに予約された。
他のメソッドをテストするために、パブリックデータセットのイベントシミュレーションからさらに12300フレームが生成された。
自己注意と反復ヘッドを備えたCNNを設計、訓練し、これらのデータでテストした。
それぞれ95.9%と94.7%の正確さとリコールスコアがテストセットで達成され、89.9%と99%がシミュレートされた公開テストセットで達成され、ニューロモルフィックdmsのセンシングコンポーネントとしてあくび検出を加えることが可能であった。 Driver monitoring systems (DMS) are a key component of vehicular safety and essential for the transition from semiautonomous to fully autonomous driving. A key task for DMS is to ascertain the cognitive state of a driver and to determine their level of tiredness. Neuromorphic vision systems, based on event camera technology, provide advanced sensing of facial characteristics, in particular the behavior of a driver's eyes. This research explores the potential to extend neuromorphic sensing techniques to analyze the entire facial region, detecting yawning behaviors that give a complimentary indicator of tiredness. A neuromorphic dataset is constructed from 952 video clips (481 yawns, 471 not-yawns) captured with an RGB color camera, with 37 subjects. A total of 95200 neuromorphic image frames are generated from this video data using a video-to-event converter. From these data 21 subjects were selected to provide a training dataset, 8 subjects were used for validation data, and the remaining 8 subjects were reserved for an "unseen" test dataset. An additional 12300 frames were generated from event simulations of a public dataset to test against other methods. A CNN with self-attention and a recurrent head was designed, trained, and tested with these data. Respective precision and recall scores of 95.9 percent and 94.7 percent were achieved on our test set, and 89.9 percent and 91 percent on the simulated public test set, demonstrating the feasibility to add yawn detection as a sensing component of a neuromorphic DMS. | 翻訳日:2023-05-05 15:16:31 公開日:2023-05-04 |
# 一般化純度、エントロピー、対数否定性の古典的類似 Classical analogs of generalized purities, entropies, and logarithmic negativity ( http://arxiv.org/abs/2305.02887v1 ) ライセンス: Link先を確認 | Bogar D\'iaz and Diego Gonz\'alez and Marcos J. Hern\'andez and J. David Vergara | (参考訳) 最近、対応する量子系がガウス状態にあるとき、古典可積分系に対する純粋性、線型量子エントロピー、フォン・ノイマンエントロピーの古典的なアナログが提案されている。
これらの結果を古典可積分系に対して一般化純度、バスティアアン=ツァリスエントロピー、r\'enyiエントロピー、対数ネガティクスの古典的類似物を提供することで一般化した。
これらの古典的アナログは古典的共分散行列によって完全に特徴づけられる。
我々はこれらの古典的アナログを、線形結合調和振動子、一般化調和振動子鎖、振動子の1次元円格子の場合に正確に計算する。
これらの全ての系において、古典的なアナログは、システムがガウス状態にあるときに量子対の結果を再現する。
この文脈では,ガウス状態の量子情報は古典的情報によって再現できることを示す。 It has recently been proposed classical analogs of the purity, linear quantum entropy, and von Neumann entropy for classical integrable systems, when the corresponding quantum system is in a Gaussian state. We generalized these results by providing classical analogs of the generalized purities, Bastiaans-Tsallis entropies, R\'enyi entropies, and logarithmic negativity for classical integrable systems. These classical analogs are entirely characterized by the classical covariance matrix. We compute these classical analogs exactly in the cases of linearly coupled harmonic oscillators, a generalized harmonic oscillator chain, and a one-dimensional circular lattice of oscillators. In all of these systems, the classical analogs reproduce the results of their quantum counterparts whenever the system is in a Gaussian state. In this context, our results show that quantum information of Gaussian states can be reproduced by classical information. | 翻訳日:2023-05-05 15:16:00 公開日:2023-05-04 |
# Bit-Plane符号化による入力層バイナリ化 Input Layer Binarization with Bit-Plane Encoding ( http://arxiv.org/abs/2305.02885v1 ) ライセンス: Link先を確認 | Lorenzo Vorabbi and Davide Maltoni and Stefano Santi | (参考訳) バイナリニューラルネットワーク(bnns)は、1ビットの重みとアクティベーションを使用して、エッジデバイス上でディープ畳み込みニューラルネットワークを効率的に実行する。
それでも、第1層の双対化は従来は除外され、結果として精度が大幅に低下する。
データ表現を強化するために入力チャネルの数を増やすのが一般的であり、そのようなデータ拡張は必要な操作量を増やし、十分な計算資源を持つシステムでのみ実現可能である。
本稿では,入力データの8ビット表現を直接使用して,第1層を2値化する新しい手法を提案する。
得られたモデルは完全にバイナライズされ、第1層バイナライズアプローチはモデル独立です。
この概念は、異なるモデルアーキテクチャ(vggおよびresnet)のための3つの分類データセット(cifar10、svhn、cifar100)で評価され、提案手法は精度とbmacs低減の両方においてアートメソッドの状態を上回る。 Binary Neural Networks (BNNs) use 1-bit weights and activations to efficiently execute deep convolutional neural networks on edge devices. Nevertheless, the binarization of the first layer is conventionally excluded, as it leads to a large accuracy loss. The few works addressing the first layer binarization, typically increase the number of input channels to enhance data representation; such data expansion raises the amount of operations needed and it is feasible only on systems with enough computational resources. In this work, we present a new method to binarize the first layer using directly the 8-bit representation of input data; we exploit the standard bit-planes encoding to extract features bit-wise (using depth-wise convolutions); after a re-weighting stage, features are fused again. The resulting model is fully binarized and our first layer binarization approach is model independent. The concept is evaluated on three classification datasets (CIFAR10, SVHN and CIFAR100) for different model architectures (VGG and ResNet) and, the proposed technique outperforms state of the art methods both in accuracy and BMACs reduction. | 翻訳日:2023-05-05 15:15:43 公開日:2023-05-04 |
# 強化学習のための簡易騒音環境強化 Simple Noisy Environment Augmentation for Reinforcement Learning ( http://arxiv.org/abs/2305.02882v1 ) ライセンス: Link先を確認 | Raad Khraishi and Ramin Okhrati | (参考訳) データ拡張は、機械学習、特にコンピュータビジョンや自然言語処理におけるモデルパフォーマンスを改善するために広く使われている技術である。
近年,画像に基づく強化に着目した強化学習(rl)問題への拡張技術の適用への関心が高まっている。
本稿では,rl環境をノイズで強化し,エージェント探索を奨励し,幅広いrlアルゴリズムと環境に適用可能なトレーニングデータの多様性を向上させるための汎用ラッパーのセットについて検討する。
具体的には, 状態, 報酬, 遷移ダイナミクスに関する増補に集中し, 2つの新しい増補技術を導入する。
さらに,ノイズインジェクションの周波数を制御するためのノイズレートハイパーパラメータを提案する。
5つのMuJoCo環境における3つのRLアルゴリズム、Soft Actor-Critic(SAC)、Twin Delayed DDPG(TD3)、PPO(Proximal Policy Optimization)を用いて、これらのラッパーの戻り値への影響について実験を行った。
また,実際に拡張手法の選択を支援するために,これらの手法が環境にまたがる性能を探索する分析を行う。
最後に、ジム環境での使用のために、noisyenvリポジトリにラッパーを公開します。 Data augmentation is a widely used technique for improving model performance in machine learning, particularly in computer vision and natural language processing. Recently, there has been increasing interest in applying augmentation techniques to reinforcement learning (RL) problems, with a focus on image-based augmentation. In this paper, we explore a set of generic wrappers designed to augment RL environments with noise and encourage agent exploration and improve training data diversity which are applicable to a broad spectrum of RL algorithms and environments. Specifically, we concentrate on augmentations concerning states, rewards, and transition dynamics and introduce two novel augmentation techniques. In addition, we introduce a noise rate hyperparameter for control over the frequency of noise injection. We present experimental results on the impact of these wrappers on return using three popular RL algorithms, Soft Actor-Critic (SAC), Twin Delayed DDPG (TD3), and Proximal Policy Optimization (PPO), across five MuJoCo environments. To support the choice of augmentation technique in practice, we also present analysis that explores the performance these techniques across environments. Lastly, we publish the wrappers in our noisyenv repository for use with gym environments. | 翻訳日:2023-05-05 15:15:22 公開日:2023-05-04 |
# 量子生成モデリングにおけるトレーサビリティ障壁と機会 Trainability barriers and opportunities in quantum generative modeling ( http://arxiv.org/abs/2305.02881v1 ) ライセンス: Link先を確認 | Manuel S. Rudolph, Sacha Lerch, Supanut Thanasilp, Oriel Kiss, Sofia Vallecorsa, Michele Grossi, Zo\"e Holmes | (参考訳) 量子生成モデル 本質的に効率的なサンプリング戦略を提供する中で、量子ハードウェアにおける短期的優位性を達成することが期待できる。
それでも、スケーラビリティに関する重要な疑問は残る。
本研究では,不規則高原と指数的損失集中によって生じる量子生成モデルのトレーサビリティに対する障壁について検討する。
明示的なモデルと暗黙的なモデルと損失の相互作用を考察し、暗黙的な生成モデル(量子回路に基づくモデルなど)と明示的な損失(klの分岐など)を用いることで、バレン高原の新しい風味がもたらされることを示した。
対照的に、暗黙の損失の一般的な例である最大平均離散性(MMD)は、低ボディーで訓練可能で、カーネルの選択によってグローバルで訓練不能な観測可能物の期待値とみなすことができる。
しかし、並行して、訓練能力に必要な低次元の損失は一般に高次相関を区別できず、指数集中とスプリアスミニマの出現の間に根本的な緊張が生じることを強調する。
さらに、量子回路を利用して符号化された分布の質を推定することにより、忠実かつトレーニング可能性を保証する新しい局所量子忠実度型損失を提案する。
最後に,高エネルギー物理学領域からの実世界のデータをモデル化するための損失関数の性能を比較し,理論結果から予測される傾向を確認した。 Quantum generative models, in providing inherently efficient sampling strategies, show promise for achieving a near-term advantage on quantum hardware. Nonetheless, important questions remain regarding their scalability. In this work, we investigate the barriers to the trainability of quantum generative models posed by barren plateaus and exponential loss concentration. We explore the interplay between explicit and implicit models and losses, and show that using implicit generative models (such as quantum circuit-based models) with explicit losses (such as the KL divergence) leads to a new flavour of barren plateau. In contrast, the Maximum Mean Discrepancy (MMD), which is a popular example of an implicit loss, can be viewed as the expectation value of an observable that is either low-bodied and trainable, or global and untrainable depending on the choice of kernel. However, in parallel, we highlight that the low-bodied losses required for trainability cannot in general distinguish high-order correlations, leading to a fundamental tension between exponential concentration and the emergence of spurious minima. We further propose a new local quantum fidelity-type loss which, by leveraging quantum circuits to estimate the quality of the encoded distribution, is both faithful and enjoys trainability guarantees. Finally, we compare the performance of different loss functions for modelling real-world data from the High-Energy-Physics domain and confirm the trends predicted by our theoretical results. | 翻訳日:2023-05-05 15:14:59 公開日:2023-05-04 |
# AI生成のギャップ:Gen Xやミレニアル世代の教師よりも、ChatGPTのような生成AIの採用に関心があるか? The AI generation gap: Are Gen Z students more interested in adopting generative AI such as ChatGPT in teaching and learning than their Gen X and Millennial Generation teachers? ( http://arxiv.org/abs/2305.02878v1 ) ライセンス: Link先を確認 | Cecilia Ka Yuk Chan, Katherine K. W. Lee | (参考訳) 本研究は,ジェネレーションAI(GenAI)の高等教育における活用について,Gen X と Gen Y の教師によるGen Z の学生の経験,認識,知識,関心,意図を探求することを目的とした。
学生と教師のサンプルを募集し,オープン質問とクローズド質問の両方からなる調査を行った。
その結果、GenAIの参加者は、生産性の向上、効率性、パーソナライズドラーニングなど、GenAIの潜在的なメリットについて概して楽観的であり、さまざまな教育目的にGenAIを使用することを意図していた。
Gen X と Gen Y の教師は GenAI の潜在的なメリットを認めつつも,その信頼性,倫理的,教育的な影響に対する懸念を高め,技術利用の責任を負うための適切なガイドラインや政策の必要性を強調した。
この研究は、より効果的な学習体験を提供するために、技術と従来の教育方法を組み合わせることの重要性を強調した。
本研究の意義は、GenAI統合のためのエビデンスベースのガイドラインとポリシーの開発、学生間の批判的思考とデジタルリテラシースキルの育成、高等教育におけるGenAI技術の責任ある活用の促進などである。 This study aimed to explore the experiences, perceptions, knowledge, concerns, and intentions of Gen Z students with Gen X and Gen Y teachers regarding the use of generative AI (GenAI) in higher education. A sample of students and teachers were recruited to investigate the above using a survey consisting of both open and closed questions. The findings showed that Gen Z participants were generally optimistic about the potential benefits of GenAI, including enhanced productivity, efficiency, and personalized learning, and expressed intentions to use GenAI for various educational purposes. Gen X and Gen Y teachers acknowledged the potential benefits of GenAI but expressed heightened concerns about overreliance, ethical and pedagogical implications, emphasizing the need for proper guidelines and policies to ensure responsible use of the technology. The study highlighted the importance of combining technology with traditional teaching methods to provide a more effective learning experience. Implications of the findings include the need to develop evidence-based guidelines and policies for GenAI integration, foster critical thinking and digital literacy skills among students, and promote responsible use of GenAI technologies in higher education. | 翻訳日:2023-05-05 15:14:35 公開日:2023-05-04 |
# マスク構造成長による2倍高速言語モデル事前学習 2x Faster Language Model Pre-training via Masked Structural Growth ( http://arxiv.org/abs/2305.02869v1 ) ライセンス: Link先を確認 | Yiqun Yao, Zheng Zhang, Jing Li, and Yequan Wang | (参考訳) 大規模言語モデルの事前学習の加速は、現在のNLP研究において重要な問題である。
本稿では,小さなトランスフォーマー構造から大規模構造へと徐々に成長し,事前学習の高速化に着目する。
プログレッシブ成長に関連する主な研究課題は、成長スケジュールと成長オペレーターの2つである。
成長スケジュールのために、既存の研究は深さ層とフィードフォワード層の多段階拡張を探求している。
しかし、各次元がスケジュールの効率に与える影響はまだ未解決の問題である。
成長操作者にとって、既存の作業は知識を継承するために新しい重み付けを初期化し、非制限的な関数保存のみを達成し、トレーニングダイナミクスのさらなる最適化を制限している。
これらの問題に対処するため,我々は,すべての可能な次元を含む成長スケジュールや,新たな重み付けの初期化に依存しない厳密な機能保存型成長演算子を含むマスキング構造成長 (msg) を提案する。
実験の結果,MSGはBert-baseで80%,Bert-largeプレトレーニングで120%の高速化を実現した。
さらに、MSGは微調整性能を同時に向上させることができる。 Acceleration of large language model pre-training is a critical issue in present NLP research. In this paper, we focus on speeding up pre-training by progressively growing from a small Transformer structure to a large one. There are two main research problems related to progressive growth: growth schedule and growth operator. For growth schedule, existing work has explored multi-stage expansion of depth and feedforward layers. However, the impact of each dimension on the schedule's efficiency is still an open question. For growth operator, existing work relies on the initialization of new weights to inherit knowledge, and achieve only non-strict function preservation, limiting further optimization of training dynamics. To address these issues, we propose Masked Structural Growth (MSG), including growth schedules involving all possible dimensions and strictly function-preserving growth operators that is independent of the initialization of new weights. Experiments show that MSG is significantly faster than related work: we achieve a speed-up of 80% for Bert-base and 120% for Bert-large pre-training. Moreover, MSG is able to improve fine-tuning performances at the same time. | 翻訳日:2023-05-05 15:14:07 公開日:2023-05-04 |
# スケーラブルグラフ学習のための階層変換器 Hierarchical Transformer for Scalable Graph Learning ( http://arxiv.org/abs/2305.02866v1 ) ライセンス: Link先を確認 | Wenhao Zhu, Tianyu Wen, Guojie Song, Xiaojun Ma, Liang Wang | (参考訳) グラフトランスフォーマーは機械学習の分野で注目を集めており、グラフ表現学習のベンチマークで最先端のパフォーマンスを示している。
しかし、グラフ変換器の現在の実装は、主に小規模グラフの学習表現に焦点を当てているため、グローバルな自己認識機構の二次的な複雑さは、より大きなグラフに適用した場合に、フルバッチトレーニングの課題となる。
さらに、従来のサンプリングベースの手法では、必要な高レベルのコンテキスト情報をキャプチャできないため、性能が著しく低下する。
本稿では,これらの課題に対する解決策として階層型スケーラブルグラフトランスフォーマ(hsgt)を提案する。
HSGTはTransformerアーキテクチャを大規模グラフ上でノード表現学習タスクに拡張し、高い性能を維持する。
粗大化技術によって構築されたグラフ階層を利用することで、HSGTはノード埋め込みにおけるマルチスケール情報を効率よく更新し、保存する。
サンプリングベースのトレーニング手法とともに、HSGTはTransformerブロックのみを使用して階層グラフ上のマルチレベル情報を効果的にキャプチャし集約する。
実験的な評価では、HSGTは数百万のノードを高い効率で含むグラフを持つ大規模ベンチマークで最先端のパフォーマンスを達成する。 Graph Transformer is gaining increasing attention in the field of machine learning and has demonstrated state-of-the-art performance on benchmarks for graph representation learning. However, as current implementations of Graph Transformer primarily focus on learning representations of small-scale graphs, the quadratic complexity of the global self-attention mechanism presents a challenge for full-batch training when applied to larger graphs. Additionally, conventional sampling-based methods fail to capture necessary high-level contextual information, resulting in a significant loss of performance. In this paper, we introduce the Hierarchical Scalable Graph Transformer (HSGT) as a solution to these challenges. HSGT successfully scales the Transformer architecture to node representation learning tasks on large-scale graphs, while maintaining high performance. By utilizing graph hierarchies constructed through coarsening techniques, HSGT efficiently updates and stores multi-scale information in node embeddings at different levels. Together with sampling-based training methods, HSGT effectively captures and aggregates multi-level information on the hierarchical graph using only Transformer blocks. Empirical evaluations demonstrate that HSGT achieves state-of-the-art performance on large-scale benchmarks with graphs containing millions of nodes with high efficiency. | 翻訳日:2023-05-05 15:13:49 公開日:2023-05-04 |
# CausalAPM: NLUデバイアスのための一般化可能なリテラルディスタングル CausalAPM: Generalizable Literal Disentanglement for NLU Debiasing ( http://arxiv.org/abs/2305.02865v1 ) ライセンス: Link先を確認 | Songyang Gao, Shihan Dou, Junjie Shan, Qi Zhang, Xuanjing Huang | (参考訳) データセットバイアス、すなわちデータセット固有のリテラルヒューリスティックスへの過度な依存は、NLUモデルの一般化能力に対する有害な影響で注目されている。
既存の作業では、トレーニングプロセスにおいて問題のあるデータを低重み付けすることで、データセットバイアスの排除に重点を置いている。
本研究では、因果推論の観点からデータセットバイアスの原因を分析し、特徴粒度からバイアス問題を改善するための一般化可能なリテラル・ディエンタングリングフレームワークであるCausalAPMを提案する。
提案手法ではリテラル情報とセマンティクス情報を独立した機能部分空間に計画し,リテラル情報の関与を制約する。
3つのNLPベンチマーク(MNLI, FEVER, QQP)の大規模な実験により,提案するフレームワークは,ID性能を維持しながらOOD一般化性能を大幅に向上することを示した。 Dataset bias, i.e., the over-reliance on dataset-specific literal heuristics, is getting increasing attention for its detrimental effect on the generalization ability of NLU models. Existing works focus on eliminating dataset bias by down-weighting problematic data in the training process, which induce the omission of valid feature information while mitigating bias. In this work, We analyze the causes of dataset bias from the perspective of causal inference and propose CausalAPM, a generalizable literal disentangling framework to ameliorate the bias problem from feature granularity. The proposed approach projects literal and semantic information into independent feature subspaces, and constrains the involvement of literal information in subsequent predictions. Extensive experiments on three NLP benchmarks (MNLI, FEVER, and QQP) demonstrate that our proposed framework significantly improves the OOD generalization performance while maintaining ID performance. | 翻訳日:2023-05-05 15:13:29 公開日:2023-05-04 |
# 2次元分光法によるエナンチオ検出--方法論を一般実験条件に拡張する Enantiodetection via the 2D spectroscopy: extending the methodology to general experimental conditions ( http://arxiv.org/abs/2305.02916v1 ) ライセンス: Link先を確認 | Mao-Rui Cai, Chong Ye, Yong Li, and Hui Dong | (参考訳) キラル混合物のエナンチオマー過剰を測定する効果的な方法の開発はキラル分子研究の主要なトピックの1つであるが、依然として課題である。
キラル分子の環状3レベル系(CTLS)を含む4レベルモデルに基づく2次元(2D)分光によるエナンチオディテククション法が最近提案され, 狭帯域プローブパルス仮定における1光子共鳴の厳密な条件(3つの駆動場がそれぞれ3つの電気双極子遷移に共鳴的に結合されている)で実証された。
ここでは3光子共鳴(3つの駆動場のうち2つの小さな周波数の和が3つに等しい)とブロードバンドプローブパルスを用いて2次元分光法をより一般的な実験条件に拡張する。
キラル分子の実系に存在する他の冗長なレベルの影響を排除するために用いられるchop検出法などの実験的手法を用いて,エナンチオ検出に有効な手法である。
これらのより一般的な条件下では、キラル混合物のエナンチオマー過剰は、容易に利用可能な標準試料(通常ラセミ混合物)を基準として推定される。 Developing effective methods to measure the enantiomeric excess of the chiral mixture is one of the major topics in chiral molecular researches, yet remains challenging. Enantiodetection method via two-dimensional (2D) spectroscopy based on a four level model, containing a cyclic three-level system (CTLS), of chiral molecules was recently proposed and demonstrated, yet with a strict condition of the one-photon resonance (where three driving fields are exactly resonantly coupled to the three electric-dipole transitions, respectively) in the CTLS and narrowband probe pulse assumption. Here, we extend the 2D spectroscopy method to more general experimental conditions, with three-photon resonance (where the sum of the two smaller frequencies among the three driving fields equals to the third one) and broadband probe pulse. Our method remains effective on enantiodetection with the help of experimental techniques, such as the chop detection method, which is used to eliminate the influence of the other redundant levels existing in the real system of chiral molecules. Under these more general conditions, the enantiomeric excess of the chiral mixture is estimated by taking an easily available standard sample (usually the racemic mixture) as the reference. | 翻訳日:2023-05-05 15:07:32 公開日:2023-05-04 |
# 階層化への偏りのない学習の基礎と応用の最近の進歩 Recent Advances in the Foundations and Applications of Unbiased Learning to Rank ( http://arxiv.org/abs/2305.02914v1 ) ライセンス: Link先を確認 | Shashank Gupta, Philipp Hager, Jin Huang, Ali Vardasbi, and Harrie Oosterhuis | (参考訳) 創設以来、unbiased learning to rank (ultr) の分野は非常に活発であり、近年はいくつかの大きな進歩が見られる。
このチュートリアルでは、フィールドの中核概念の紹介と、その手法のいくつかの応用とともに、その基礎における最近の進歩の概要を提供する。
チュートリアルは4つの部分に分けられる: まず、ULTRメソッドで対処できる様々な形式のバイアスについて概観する。
次に、ULTR分野における最新の推定手法について包括的な議論を行う。
第3に,実世界のアプリケーションにおけるULTRの結果について調査した。
第4に、ランキングにおけるULTRと公正性との関係について論じる。
我々は、ULTR研究の将来とその応用について簡単に考察する。
このチュートリアルは、新しいULTRソリューションの開発に興味がある研究者と業界の実践者の両方に利益をもたらすことを意図している。 Since its inception, the field of unbiased learning to rank (ULTR) has remained very active and has seen several impactful advancements in recent years. This tutorial provides both an introduction to the core concepts of the field and an overview of recent advancements in its foundations along with several applications of its methods. The tutorial is divided into four parts: Firstly, we give an overview of the different forms of bias that can be addressed with ULTR methods. Secondly, we present a comprehensive discussion of the latest estimation techniques in the ULTR field. Thirdly, we survey published results of ULTR in real-world applications. Fourthly, we discuss the connection between ULTR and fairness in ranking. We end by briefly reflecting on the future of ULTR research and its applications. This tutorial is intended to benefit both researchers and industry practitioners who are interested in developing new ULTR solutions or utilizing them in real-world applications. | 翻訳日:2023-05-05 15:07:07 公開日:2023-05-04 |
# UPDExplainer:ストリートビュー画像を用いた都市身体障害検出のための解釈可能なトランスフォーマーベースフレームワーク UPDExplainer: an Interpretable Transformer-based Framework for Urban Physical Disorder Detection Using Street View Imagery ( http://arxiv.org/abs/2305.02911v1 ) ライセンス: Link先を確認 | Chuanbo Hu, Shan Jia, Fan Zhang, Changjiang Xiao, Mindi Ruan, Jacob Thrasher, Xin Li | (参考訳) 古い建物や放棄された建物、壊れた歩道、ゴミ、落書きなどの都市身体障害(upd)は、住民の生活の質に悪影響を及ぼす。
また、犯罪率を高め、社会障害を引き起こし、公衆衛生上のリスクを引き起こすこともある。
現在、updの検出と理解のための効率的で信頼性の高い方法が欠けている。
このギャップを埋めるために、UPD検出のための解釈可能なトランスフォーマーベースのフレームワークであるUDDExplainerを提案する。
まず,簡易なストリートビュー画像を用いて識別表現を学習するswain transformerアーキテクチャに基づくupd検出モデルを開発した。
明確で分かりやすいエビデンスと分析を提供するため,視覚説明地図とセマンティックセグメンテーションマップを組み合わせたUDD因子識別とランキングモジュールを導入する。
この新たな統合アプローチにより、身体障害の原因となるストリートビュー画像内の正確なオブジェクトを特定し、根本原因の洞察を得ることができる。
再アノテートされたPlace Pulse 2.0データセットの実験結果から,提案手法の有望な検出性能が79.9%の精度で示された。
本手法の総合評価では,平均精度 (mAP), R精度 (RPrec), 正規化カウント累積ゲイン (NDCG), 成功率 (75.51%), 80.61%, 82.58%) について報告する。
また,カリフォルニア州ロサンゼルス中心街の南部地域における身体障害の検出とランキングを事例として,本フレームワークの実用性と有効性を示す。 Urban Physical Disorder (UPD), such as old or abandoned buildings, broken sidewalks, litter, and graffiti, has a negative impact on residents' quality of life. They can also increase crime rates, cause social disorder, and pose a public health risk. Currently, there is a lack of efficient and reliable methods for detecting and understanding UPD. To bridge this gap, we propose UPDExplainer, an interpretable transformer-based framework for UPD detection. We first develop a UPD detection model based on the Swin Transformer architecture, which leverages readily accessible street view images to learn discriminative representations. In order to provide clear and comprehensible evidence and analysis, we subsequently introduce a UPD factor identification and ranking module that combines visual explanation maps with semantic segmentation maps. This novel integrated approach enables us to identify the exact objects within street view images that are responsible for physical disorders and gain insights into the underlying causes. Experimental results on the re-annotated Place Pulse 2.0 dataset demonstrate promising detection performance of the proposed method, with an accuracy of 79.9%. For a comprehensive evaluation of the method's ranking performance, we report the mean Average Precision (mAP), R-Precision (RPrec), and Normalized Discounted Cumulative Gain (NDCG), with success rates of 75.51%, 80.61%, and 82.58%, respectively. We also present a case study of detecting and ranking physical disorders in the southern region of downtown Los Angeles, California, to demonstrate the practicality and effectiveness of our framework. | 翻訳日:2023-05-05 15:06:54 公開日:2023-05-04 |
# シーンフローを用いた点雲列の鳥眼ビュー表示の調整 Aligning Bird-Eye View Representation of Point Cloud Sequences using Scene Flow ( http://arxiv.org/abs/2305.02909v1 ) ライセンス: Link先を確認 | Minh-Quan Dao, Vincent Fr\'emont, Elwan H\'ery | (参考訳) 低解像度のポイントクラウドは、そのスパーシティのため、オブジェクト検出手法では困難である。
現在のポイントクラウドをその前身と結合することで否定することは、この課題に対する一般的な解決策である。
このような結合は、そのオドメトリを用いた自走車運動の除去によって可能となる。
この方法は Ego Motion Compensation (EMC) と呼ばれる。
追加ポイントにより、EMCはシングルフレーム検出器の性能を大幅に改善する。
しかし、その軌道に沿って散乱する動的物体の点に現れる影効果に悩まされる。
この効果により、機能マップとオブジェクトの位置の誤認が生じ、静止および遅い移動オブジェクトのみの性能改善が制限される。
シーンフローは3次元空間における点雲の整列を可能にし、特徴空間における不一致を自然に解消する。
シーンフロー計算が3dオブジェクト検出パイプラインと複数のコンポーネントを共有していることを観察し,単一フレーム検出器がシーンフローを計算して鳥眼映像表現を補正できるプラグインモジュールを開発した。
nuscenesデータセットの実験では、我々のモジュールは、大型車両の平均精度が大幅に向上し(最大16%)、最も深刻なシャドー効果を示すことが示されています。
コードはhttps://github.com/quan-dao/pc-correctorで公開されている。 Low-resolution point clouds are challenging for object detection methods due to their sparsity. Densifying the present point cloud by concatenating it with its predecessors is a popular solution to this challenge. Such concatenation is possible thanks to the removal of ego vehicle motion using its odometry. This method is called Ego Motion Compensation (EMC). Thanks to the added points, EMC significantly improves the performance of single-frame detectors. However, it suffers from the shadow effect that manifests in dynamic objects' points scattering along their trajectories. This effect results in a misalignment between feature maps and objects' locations, thus limiting performance improvement to stationary and slow-moving objects only. Scene flow allows aligning point clouds in 3D space, thus naturally resolving the misalignment in feature spaces. By observing that scene flow computation shares several components with 3D object detection pipelines, we develop a plug-in module that enables single-frame detectors to compute scene flow to rectify their Bird-Eye View representation. Experiments on the NuScenes dataset show that our module leads to a significant increase (up to 16%) in the Average Precision of large vehicles, which interestingly demonstrates the most severe shadow effect. The code is published at https://github.com/quan-dao/pc-corrector. | 翻訳日:2023-05-05 15:06:26 公開日:2023-05-04 |
# 2つの静的非結合トランスモン量子ビット間の垂直パラメトリックカップリング Versatile parametric coupling between two statically decoupled transmon qubits ( http://arxiv.org/abs/2305.02907v1 ) ライセンス: Link先を確認 | X. Y. Jin, K. Cicak, Z. Parrott, S. Kotler, F. Lecocq, J. Teufel, J. Aumentado, E. Kapit and R. W. Simmonds | (参考訳) パラメトリックカップリングはマイクロ波トーンのみを用いて超伝導回路間の可変相互作用を生成する強力な技術である。
本稿では,残余の$zz$結合の除去や,駆動スワップやスワップフリー制御-$z$ (c$z$) ゲートの実装など,複数の用途に使用可能な2つのトランスモンキュービットを用いて,高度に柔軟なパラメトリック結合スキームを提案する。
我々の完全統合型カプラ設計は、弱い磁束調整のみ可能であり、量子ビット間の静的線形結合をキャンセルし、内部カプラダイナミクスや励起を回避し、rfパルスで動作する。
パラメトリックな分散トーンで残余の$ZZ$結合を5.5kHzの実験的不確実性まで低減できることを示す。
さらにランダム化ベンチマークでは、パラメトリックスワップc$z$ゲートが60 nsのゲート持続時間で99.4%、分散パラメトリックスワップフリーc$z$ゲートがわずか30 nsで99.5%の忠実性を達成することが示されている。
これは、オンチップパラメトリック結合でこれまで達成された、最速で最高の忠実度ゲートであると考えています。
さらに,p-スワップおよびp-スワップフリーc$Z$ゲートのゲート長に対するゲート忠実度依存性について検討し,これらのゲートの誤差源について考察する。
全体として,従来のパラメトリックアプローチでは見られない汎用性,精度,速度,高性能を示す。
最後に、我々の設計は超伝導量子ビットのより大きなモジュラーシステムを作る新しい可能性を開く。 Parametric coupling is a powerful technique for generating tunable interactions between superconducting circuits using only microwave tones. Here, we present a highly flexible parametric coupling scheme demonstrated with two transmon qubits, which can be employed for multiple purposes, including the removal of residual $ZZ$ coupling and the implementation of driven swap or swap-free controlled-$Z$ (c$Z$) gates. Our fully integrated coupler design is only weakly flux tunable, cancels static linear coupling between the qubits, avoids internal coupler dynamics or excitations, and operates with rf-pulses. We show that residual $ZZ$ coupling can be reduced with a parametric dispersive tone down to an experimental uncertainty of 5.5 kHz. Additionally, randomized benchmarking reveals that the parametric swap c$Z$ gate achieves a fidelity of 99.4% in a gate duration of 60 ns, while the dispersive parametric swap-free c$Z$ gate attains a fidelity of 99.5% in only 30 ns. We believe this is the fastest and highest fidelity gate achieved with on-chip parametric coupling to date. We further explore the dependence of gate fidelity on gate duration for both p-swap and p-swap-free c$Z$ gates, providing insights into the possible error sources for these gates. Overall, our findings demonstrate a versatility, precision, speed, and high performance not seen in previous parametric approaches. Finally, our design opens up new possibilities for creating larger, modular systems of superconducting qubits. | 翻訳日:2023-05-05 15:06:06 公開日:2023-05-04 |
# 磁気円二色性の量子増強プローブ Quantum Enhanced Probes of Magnetic Circular Dichroism ( http://arxiv.org/abs/2305.02904v1 ) ライセンス: Link先を確認 | Chengyun Hua, Claire E. Marvinney, Seongjin Hong, Matthew Feldman, Yun-Yi Pai, Michael Chilcote, Joshua Rabinowitz, Raphael C. Pooser, Alberto Marino, and Benjamin J. Lawrie | (参考訳) 磁気的円二色性に関する光学的測定を含む磁気光学顕微鏡は、スピン軌道結合、電荷キャリアg因子、キラル励起を物質中で探究するための普遍的なツールになりつつあるが、古典的磁気円二色性測定における最小検出信号は、光学的読み出し場のショットノイズ限界によって基本的に制限されている。
ここでは, テルビウムガリウムガーネットのような比較的損失の少ない試料であっても, 3dBの磁気円二色率測定で検出可能な最小信号を改善するために2モードの光源を用いる。
また、量子エンハンシングされた磁気光学マイクロスコピエの改良のための追加の機会を見出し、これらのアプローチが環境に敏感な材料や、光パワーの増加が許容できない熱摂動をもたらす低温測定に重要であることを実証する。 Magneto-optical microscopies, including optical measurements of magnetic circular dichroism, are increasingly ubiquitous tools for probing spin-orbit coupling, charge-carrier g-factors, and chiral excitations in matter, but the minimum detectable signal in classical magnetic circular dichroism measurements is fundamentally limited by the shot-noise limit of the optical readout field. Here, we use a two-mode squeezed light source to improve the minimum detectable signal in magnetic circular dichroism measurements by 3 dB compared with state-of-the-art classical measurements, even with relatively lossy samples like terbium gallium garnet. We also identify additional opportunities for improvement in quantum-enhanced magneto-optical microscopies, and we demonstrate the importance of these approaches for environmentally sensitive materials and for low temperature measurements where increased optical power can introduce unacceptable thermal perturbations. | 翻訳日:2023-05-05 15:05:35 公開日:2023-05-04 |
# 強化学習によるグラフニューラルネットワークに対する単一ノードインジェクションラベル特異性攻撃 Single Node Injection Label Specificity Attack on Graph Neural Networks via Reinforcement Learning ( http://arxiv.org/abs/2305.02901v1 ) ライセンス: Link先を確認 | Dayuan Chen, Jian Zhang, Yuqian Lv, Jinhuan Wang, Hongjie Ni, Shanqing Yu, Zhen Wang, and Qi Xuan | (参考訳) グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで顕著な成功を収めている。
しかし、近年の研究は、悪意のある摂動に対するGNNの脆弱性を強調している。
従来の敵は主にグラフ修正や既存のグラフへのノードインジェクションに注目し、有望な結果をもたらすが、注目すべき制限がある。
グラフ修正アタック~(GMA)は元のグラフの操作を必要とするが、グラフインジェクションアタック~(GIA)はブラックボックス設定で代理モデルをトレーニングする必要がある。
さらに、ほとんどの手法は単一の攻撃目標に集中しており、多様な目標に対して異なる攻撃戦略を開発するための汎用的な敵戦略を欠いている。
これらの問題に対処するために,ブラックボックス回避設定における対象ノードの分類結果を操作するために,単一の悪意のあるノードを注入する勾配フリーの一般化可能な敵システムを提案する。
本稿では,G$^2$-SNIA(G$^2$-SNIA)という,近似ポリシー最適化を用いた強化学習フレームワークを提案する。
被害者モデルを直接問い合わせることで、G$^2$-SNIAは探索からパターンを学び、極めて限られた攻撃予算で多様な攻撃目標を達成する。
3つの評価されたベンチマークデータセットと4つの著名なGNNに関する総合的な実験を通じて、提案したG$^2$-SNIAの既存の最先端ベースラインよりも優れた性能を示す。
さらに、G$^2$-SNIAを複数のホワイトボックス回避ベースラインと比較することにより、最も優れた敵に匹敵する解を生成する能力を確認する。 Graph neural networks (GNNs) have achieved remarkable success in various real-world applications. However, recent studies highlight the vulnerability of GNNs to malicious perturbations. Previous adversaries primarily focus on graph modifications or node injections to existing graphs, yielding promising results but with notable limitations. Graph modification attack~(GMA) requires manipulation of the original graph, which is often impractical, while graph injection attack~(GIA) necessitates training a surrogate model in the black-box setting, leading to significant performance degradation due to divergence between the surrogate architecture and the actual victim model. Furthermore, most methods concentrate on a single attack goal and lack a generalizable adversary to develop distinct attack strategies for diverse goals, thus limiting precise control over victim model behavior in real-world scenarios. To address these issues, we present a gradient-free generalizable adversary that injects a single malicious node to manipulate the classification result of a target node in the black-box evasion setting. We propose Gradient-free Generalizable Single Node Injection Attack, namely G$^2$-SNIA, a reinforcement learning framework employing Proximal Policy Optimization. By directly querying the victim model, G$^2$-SNIA learns patterns from exploration to achieve diverse attack goals with extremely limited attack budgets. Through comprehensive experiments over three acknowledged benchmark datasets and four prominent GNNs in the most challenging and realistic scenario, we demonstrate the superior performance of our proposed G$^2$-SNIA over the existing state-of-the-art baselines. Moreover, by comparing G$^2$-SNIA with multiple white-box evasion baselines, we confirm its capacity to generate solutions comparable to those of the best adversaries. | 翻訳日:2023-05-05 15:05:15 公開日:2023-05-04 |
# 分枝GANを用いた付加クラス識別マップ Additive Class Distinction Maps using Branched-GANs ( http://arxiv.org/abs/2305.02899v1 ) ライセンス: Link先を確認 | Elnatan Kadar, Jonathan Brokman, Guy Gilboa | (参考訳) 2種類の画像の区別の正確なマップを作成するために,新しいモデル,訓練手順,アーキテクチャを提案する。
その目的は、ピクセル単位で、クラスのユニークな特性を理解することである。
これらのマップは、説明可能なAI(XAI)の新しい機能に加えて、自己教師付きセグメンテーションとオブジェクト検出を促進することができる。
提案アーキテクチャは,複数の生成ネットワーク(分岐GAN)の総和を出力とする画像分解に基づいている。
クラス間の区別は専用のブランチで分離される。
このアプローチは、各クラスのユニークな特性を明確に、正確に、解釈可能な可視化を可能にする。
我々は,MRI脳腫瘍抽出,航空写真における車分離,女性および男性顔の特徴の取得など,様々なタスクにおいて汎用的な手法が利用できることを示す。
これは私たちの最初の発見と結果の予備報告です。 We present a new model, training procedure and architecture to create precise maps of distinction between two classes of images. The objective is to comprehend, in pixel-wise resolution, the unique characteristics of a class. These maps can facilitate self-supervised segmentation and objectdetection in addition to new capabilities in explainable AI (XAI). Our proposed architecture is based on image decomposition, where the output is the sum of multiple generative networks (branched-GANs). The distinction between classes is isolated in a dedicated branch. This approach allows clear, precise and interpretable visualization of the unique characteristics of each class. We show how our generic method can be used in several modalities for various tasks, such as MRI brain tumor extraction, isolating cars in aerial photography and obtaining feminine and masculine face features. This is a preliminary report of our initial findings and results. | 翻訳日:2023-05-05 15:04:43 公開日:2023-05-04 |
# 自動的に発見された連鎖的思考プロンプトは、新しいモデルとデータセットに一般化する An automatically discovered chain-of-thought prompt generalizes to novel models and datasets ( http://arxiv.org/abs/2305.02897v1 ) ライセンス: Link先を確認 | Konstantin Hebenstreit, Robert Praas, Louis P Kiesewetter, Matthias Samwald | (参考訳) emergent chain-of-thought (cot) 推論能力は、大規模言語モデル(llm)のパフォーマンスと説明可能性を改善することを約束する。
しかし、以前のモデル世代で定式化された戦略がどのように新しいモデル世代と異なるデータセットに一般化するかについては不確実性が残っている。
本研究では,最近リリースされた6つのLCM(davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl, Cohere command-xlarge)を,科学的領域と医学領域のデータセットを含む6つの問合せデータセットで比較した。
また, 自動急速検出により検出されたCoTプロンプトは, 実験条件間で頑健な性能を示し, 最先端モデル GPT-4 に適用した場合の最良の結果が得られた。 Emergent chain-of-thought (CoT) reasoning capabilities promise to improve performance and explainability of large language models (LLMs). However, uncertainties remain about how prompting strategies formulated for previous model generations generalize to new model generations and different datasets. In this small-scale study we compare the performance of a range of zero-shot prompts for inducing CoT reasoning across six recently released LLMs (davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere command-xlarge) on a mixture of six question-answering datasets, including datasets from scientific and medical domains. We find that a CoT prompt that was previously discovered through automated prompt discovery shows robust performance across experimental conditions and produces best results when applied to the state-of-the-art model GPT-4. | 翻訳日:2023-05-05 15:04:31 公開日:2023-05-04 |
# FedCBO: 集合的フェデレーション学習におけるグループ合意の合意に基づく最適化 FedCBO: Reaching Group Consensus in Clustered Federated Learning through Consensus-based Optimization ( http://arxiv.org/abs/2305.02894v1 ) ライセンス: Link先を確認 | Jose A. Carrillo, Nicolas Garcia Trillos, Sixu Li, Yuhua Zhu | (参考訳) フェデレーション学習(federated learning)は、データプライバシや通信損失の制約に敏感な方法で、複数のユーザ、各ユーザが独自のローカルデータセットを持つ学習モデルのトレーニングを統合することを目的とした、現代のマシンラーニングにおいて重要なフレームワークである。
クラスタ化された連合学習では、ユーザ間で未知のグループ構造を仮定し、目的は、単にすべてのユーザに対して単一のグローバルモデルをトレーニングするのではなく、各グループに有用なモデルをトレーニングすることだ。
本稿では,コンセンサスに基づく最適化(CBO)のアイデアにインスパイアされた,クラスタ型フェデレーション学習の課題に対する新しい解決策を提案する。
我々の新しいCBO方式は、グループメンバーシップに不利な相互作用粒子のシステムに基づいている。
我々のモデルは厳密な数学的推論によって動機付けられており、粒子系の多数の粒子限界を記述する平均場解析や、平均場状態における一般の非凸目的関数(各ユーザのクラスタの損失関数に対応する)の同時大域的最適化の収束保証を含む。
実験の結果,feedcboアルゴリズムは他の最先端手法と比較して有効性を示し,方法論的・理論的研究の検証に寄与した。 Federated learning is an important framework in modern machine learning that seeks to integrate the training of learning models from multiple users, each user having their own local data set, in a way that is sensitive to data privacy and to communication loss constraints. In clustered federated learning, one assumes an additional unknown group structure among users, and the goal is to train models that are useful for each group, rather than simply training a single global model for all users. In this paper, we propose a novel solution to the problem of clustered federated learning that is inspired by ideas in consensus-based optimization (CBO). Our new CBO-type method is based on a system of interacting particles that is oblivious to group memberships. Our model is motivated by rigorous mathematical reasoning, including a mean field analysis describing the large number of particles limit of our particle system, as well as convergence guarantees for the simultaneous global optimization of general non-convex objective functions (corresponding to the loss functions of each cluster of users) in the mean-field regime. Experimental results demonstrate the efficacy of our FedCBO algorithm compared to other state-of-the-art methods and help validate our methodological and theoretical work. | 翻訳日:2023-05-05 15:04:07 公開日:2023-05-04 |
# 人口支援型オフポリシー強化学習の再考 Rethinking Population-assisted Off-policy Reinforcement Learning ( http://arxiv.org/abs/2305.02949v1 ) ライセンス: Link先を確認 | Bowen Zheng, Ran Cheng | (参考訳) オフ政治強化学習(RL)アルゴリズムは、勾配に基づく更新とリプレイバッファのデータ再利用のためにサンプリング効率が良いが、探索が限られているため、局所最適への収束に苦慮している。
一方、人口ベースのアルゴリズムは自然探査戦略を提供するが、ヒューリスティックなブラックボックス演算子は非効率である。
最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
しかし, 集団最適化による多種多様なデータの利用が, オフポリシーrlアルゴリズムに与える影響については, 十分に検討されていない。
本稿では,まず,オフ・ポリティカル・rlアルゴリズムと人口ベースのアルゴリズムを組み合わせることで,人口データの利用が過度に見過ごされた誤りと有害な性能をもたらすことを示す。
これをテストするため,OpenAI体育館のロボット移動タスクにおいて,一様でスケーラブルなトレーニング設計と,我々の調整したフレームワークを用いた実験を行った。
以上の結果から, 都市外RLにおける人口データの利用は, トレーニング中に不安定になり, 性能が低下する可能性が示唆された。
この問題を改善するため,我々はさらに,より多くのオンポリシーデータを提供し,実験によりその効果を示すダブルリプレイバッファ設計を提案する。
本研究は,これらのハイブリッド手法を訓練するための実践的洞察を提供する。 While off-policy reinforcement learning (RL) algorithms are sample efficient due to gradient-based updates and data reuse in the replay buffer, they struggle with convergence to local optima due to limited exploration. On the other hand, population-based algorithms offer a natural exploration strategy, but their heuristic black-box operators are inefficient. Recent algorithms have integrated these two methods, connecting them through a shared replay buffer. However, the effect of using diverse data from population optimization iterations on off-policy RL algorithms has not been thoroughly investigated. In this paper, we first analyze the use of off-policy RL algorithms in combination with population-based algorithms, showing that the use of population data could introduce an overlooked error and harm performance. To test this, we propose a uniform and scalable training design and conduct experiments on our tailored framework in robot locomotion tasks from the OpenAI gym. Our results substantiate that using population data in off-policy RL can cause instability during training and even degrade performance. To remedy this issue, we further propose a double replay buffer design that provides more on-policy data and show its effectiveness through experiments. Our results offer practical insights for training these hybrid methods. | 翻訳日:2023-05-05 14:58:26 公開日:2023-05-04 |
# 動的量子相転移のタッチストーンとしてのトータル相関 Total correlation as a touchstone of dynamical quantum phase transition ( http://arxiv.org/abs/2305.02945v1 ) ライセンス: Link先を確認 | Leela Ganesh Chandra Lakkaraju, Srijon Ghosh, Debasis Sadhukhan, Aditi Sen De | (参考訳) 量子多体系は、局所パラメータと大域パラメータの異なる異なる種の相転移を行う。
本稿では,グローバルな(粗い)基準,あるいはローカルなシステムパラメータ(きめ細かい)のクエンチによって,動的量の挙動を変化させることができるフレームワークを提案する。
本手法は,スピンレスフェルミオンにマッピング可能な横磁場の存在下での長距離拡張イジングモデルを用いることにより,大きな系サイズで研究できることを示す。
本報告では, スケーリング法則に従えば, 量子的相関と古典的相関の両方を定常状態に構成することにより, 速度関数や絡み合い長さなどの既知の指標が失敗する遷移点を同定することができる。
具体的には、細かなシナリオでは、トータル相関は、横磁場に沿った臨界点のクエンチングと同一のスケーリング則に従うか、異なる法則に従うかのいずれかで、相互作用の範囲の遷移が確立される。 A quantum many-body system undergoes phase transitions of distinct species with variations of local and global parameters. We propose a framework in which a dynamical quantity can change its behavior with the quenching of either global (coarse-grained criteria) or local system parameters (fine-grained criteria), revealing the transition points present in global ones. We illustrate our technique by employing a long-range extended Ising model in the presence of a transverse magnetic field which can be mapped to spinless fermions and hence can be investigated for large system size. We report that the scaling law followed by the total correlation, the composition of both quantum and classical correlations in the steady state, can identify the transition points at which the known indicators like rate function or entanglement length fail. Specifically, in a fine-grained scenario, total correlation either follows the same scaling law with the quenching at and across the critical points along the transverse magnetic field, or obeys the different laws, thereby establishing a transition in the range of interactions. | 翻訳日:2023-05-05 14:58:03 公開日:2023-05-04 |
# 微分プライベートトレーニングにおけるデータ選択と評価のための勾配由来メトリクスの活用 Leveraging gradient-derived metrics for data selection and valuation in differentially private training ( http://arxiv.org/abs/2305.02942v1 ) ライセンス: Link先を確認 | Dmitrii Usynin, Daniel Rueckert, Giorgios Kaissis | (参考訳) 機械学習モデルの協調トレーニングのための高品質なデータを得ることは、a)規制上の懸念とb)参加意欲の欠如のために難しい課題である。
プライバシ強化技術(pet: privacy enhancement technologies)は、最も頻繁に使用されるもののひとつで、差分プライベート(diffially private、dp)トレーニングである。
2つ目の課題は、モデルトレーニングにどのデータポイントが有用かを特定し、データ共有にデータ所有者に報奨を与えることである。
しかし、深層学習におけるdpは典型的には非定型的(しばしば有益な)データサンプルに悪影響を及ぼすため、個々の貢献の有用性を評価することは困難である。
本研究では,個人の学習環境に関心のあるトレーニングサンプルを特定するために,勾配情報を活用する方法について検討する。
最も厳格なプライバシー設定でも、クライアントに原則的なデータ選択ツールを提供することのできる技術があることを実証する。 Obtaining high-quality data for collaborative training of machine learning models can be a challenging task due to A) the regulatory concerns and B) lack of incentive to participate. The first issue can be addressed through the use of privacy enhancing technologies (PET), one of the most frequently used one being differentially private (DP) training. The second challenge can be addressed by identifying which data points can be beneficial for model training and rewarding data owners for sharing this data. However, DP in deep learning typically adversely affects atypical (often informative) data samples, making it difficult to assess the usefulness of individual contributions. In this work we investigate how to leverage gradient information to identify training samples of interest in private training settings. We show that there exist techniques which are able to provide the clients with the tools for principled data selection even in strictest privacy settings. | 翻訳日:2023-05-05 14:57:45 公開日:2023-05-04 |
# 置換認識合成によるQubit写像問題の解法 Tackling the Qubit Mapping Problem with Permutation-Aware Synthesis ( http://arxiv.org/abs/2305.02939v1 ) ライセンス: Link先を確認 | Ji Liu, Ed Younis, Mathias Weiden, Paul Hovland, John Kubiatowicz, Costin Iancu | (参考訳) 本稿では,新しい階層型量子ビットマッピングとルーティングアルゴリズムを提案する。
まず、回路は同一数のキュービットにまたがるブロックに分解される。
第2段階の置換認識合成(PAS)では、各ブロックを最適化し、分離して合成する。
第3段階では、置換対応マッピング(PAM)アルゴリズムが第2段階の情報に基づいてブロックをターゲットデバイスにマッピングする。
1)回路をブロックに分割することは、キュービットマッピングやルーティングに有用であり、(2)PASでは、任意の入出力キュービットマッピングを実装でき、(3) PAMでは、隣接する2つのブロックに対して、ブロック境界で必要な通信量とともに、各ブロックを最適化する入出力置換を選択することができる。
既存のマッピングアルゴリズムが元の回路構造を保持し、SWAPやブリッジゲートを挿入して「最小」通信を導入するのに対して、PAS+PAMアプローチは回路構造を変更でき、ハードウェア接続性を完全に活用できる。
実験の結果,既存のマッピングアルゴリズムや商用コンパイラ (Qiskit, TKET, BQSKit) よりも高品質な回路を最適化設定で作成できることが判明した。
ベンチマークの組み合わせでは、Qiskitよりも68%(平均で18%)、TKETより36%(平均で9%)、BQSKitより67%(平均で21%)短いゲートが生成される。
さらに、アプローチはスケールし、任意の量子回路コンパイラや最適化インフラストラクチャにシームレスに統合することができる。 We propose a novel hierarchical qubit mapping and routing algorithm. First, a circuit is decomposed into blocks that span an identical number of qubits. In the second stage permutation-aware synthesis (PAS), each block is optimized and synthesized in isolation. In the third stage a permutation-aware mapping (PAM) algorithm maps the blocks to the target device based on the information from the second stage. Our approach is based on the following insights: (1) partitioning the circuit into blocks is beneficial for qubit mapping and routing; (2) with PAS, any block can implement an arbitrary input-output qubit mapping that reduces the gate count; and (3) with PAM, for two adjacent blocks we can select input-output permutations that optimize each block together with the amount of communication required at the block boundary. Whereas existing mapping algorithms preserve the original circuit structure and only introduce "minimal" communication via inserting SWAP or bridge gates, the PAS+PAM approach can additionally change the circuit structure and take full advantage of hardware-connectivity. Our experiments show that we can produce better-quality circuits than existing mapping algorithms or commercial compilers (Qiskit, TKET, BQSKit) with maximum optimization settings. For a combination of benchmarks we produce circuits shorter by up to 68% (18% on average) fewer gates than Qiskit, up to 36% (9% on average) fewer gates than TKET, and up to 67% (21% on average) fewer gates than BQSKit. Furthermore, the approach scales, and it can be seamlessly integrated into any quantum circuit compiler or optimization infrastructure. | 翻訳日:2023-05-05 14:57:28 公開日:2023-05-04 |
# 共同CTC損失と自己教師付き事前学習音響エンコーダを用いたエンドツーエンド音声言語理解 End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders ( http://arxiv.org/abs/2305.02937v1 ) ライセンス: Link先を確認 | Jixuan Wang, Martin Radfar, Kai Wei, Clement Chung | (参考訳) 音声言語理解(SLU)における音声信号から直接意味を抽出することは,テキスト情報の欠如により困難である。
一般的なエンドツーエンド(E2E)SLUモデルは、シーケンス・ツー・シーケンスの自動音声認識(ASR)モデルを使用して、セマンティクスを推論するための入力としてテキスト埋め込みを抽出する。
本研究では,コネクショニスト時間分類(CTC)で微調整された自己教師型音響エンコーダを活用し,テキスト埋め込みを抽出し,発話レベルSLUタスクに共同CTCとSLU損失を用いる。
実験により,dstc2データセット上の最先端対話行動分類モデルよりも4%,slurpデータセットのsoma sluモデルに対して1.3%の絶対改善が得られた。 It is challenging to extract semantic meanings directly from audio signals in spoken language understanding (SLU), due to the lack of textual information. Popular end-to-end (E2E) SLU models utilize sequence-to-sequence automatic speech recognition (ASR) models to extract textual embeddings as input to infer semantics, which, however, require computationally expensive auto-regressive decoding. In this work, we leverage self-supervised acoustic encoders fine-tuned with Connectionist Temporal Classification (CTC) to extract textual embeddings and use joint CTC and SLU losses for utterance-level SLU tasks. Experiments show that our model achieves 4% absolute improvement over the the state-of-the-art (SOTA) dialogue act classification model on the DSTC2 dataset and 1.3% absolute improvement over the SOTA SLU model on the SLURP dataset. | 翻訳日:2023-05-05 14:57:01 公開日:2023-05-04 |
# イオンと単一光子を閉じ込めた検証可能なブラインド量子コンピューティング Verifiable blind quantum computing with trapped ions and single photons ( http://arxiv.org/abs/2305.02936v1 ) ライセンス: Link先を確認 | P. Drmota, D. P. Nadlinger, D. Main, B. C. Nichol, E. M. Ainley, D. Leichtle, A. Mantri, E. Kashefi, R. Srinivas, G. Araneda, C. J. Ballance, D. M. Lucas | (参考訳) 検証可能なブラインド量子コンピューティングの最初のハイブリッド物質-光子実装を提案する。
我々は、捕捉イオン量子サーバと光ファイバー量子ネットワークリンクで接続されたクライアント側フォトニック検出システムを用いる。
メモリ量子ビットと決定論的量子論理が利用可能になると、ポスト選択なしにインタラクティブなプロトコルが可能になる。
本装置は,1量子ビット当たり0.001ビットのプライバシー保証をサポートし,クラウド上での完全検証量子コンピューティングへの明確な道筋を示す。 We present the first hybrid matter-photon implementation of verifiable blind quantum computing. We use a trapped-ion quantum server and a client-side photonic detection system connected by a fibre-optic quantum network link. The availability of memory qubits and deterministic quantum logic enables interactive protocols without post-selection - a requirement for any scalable blind quantum cloud server which previous realisations could not provide. Our apparatus supports guaranteed privacy with <0.001 leaked bits per qubit and shows a clear path to fully verified quantum computing in the cloud. | 翻訳日:2023-05-05 14:56:30 公開日:2023-05-04 |
# 画像キャプチャーは、見る画像より多くを語ることがある Image Captioners Sometimes Tell More Than Images They See ( http://arxiv.org/abs/2305.02932v1 ) ライセンス: Link先を確認 | Honori Udo and Takafumi Koshinaka | (参考訳) 画像キャプションは、与えられた画像から記述テキストを生成する「画像からテキスト」であり、ディープラーニングの時代を通じて急速に発展してきた。
画像キャプタによって生成された記述テキストに保存された原画像の情報は、どの程度まで保持されているか。
そこで我々は,画像を参照することなく,説明文のみからの画像の分類を含む実験を行い,その結果を標準画像ベース分類器と比較した。
本研究では,災害画像分類タスクである crisisnlp に関して,複数の画像キャプションモデルを評価し,記述的テキスト分類器が標準画像に基づく分類器よりも高い精度を達成できることを示す。
さらに,画像ベース分類器と記述テキスト分類器を融合させることで精度が向上することを示す。 Image captioning, a.k.a. "image-to-text," which generates descriptive text from given images, has been rapidly developing throughout the era of deep learning. To what extent is the information in the original image preserved in the descriptive text generated by an image captioner? To answer that question, we have performed experiments involving the classification of images from descriptive text alone, without referring to the images at all, and compared results with those from standard image-based classifiers. We have evaluate several image captioning models with respect to a disaster image classification task, CrisisNLP, and show that descriptive text classifiers can sometimes achieve higher accuracy than standard image-based classifiers. Further, we show that fusing an image-based classifier with a descriptive text classifier can provide improvement in accuracy. | 翻訳日:2023-05-05 14:56:23 公開日:2023-05-04 |
# ピースワイド正規化フロー Piecewise Normalizing Flows ( http://arxiv.org/abs/2305.02930v1 ) ライセンス: Link先を確認 | Harry Bevins, Will Handley | (参考訳) 正規化フローは、基底分布からの可逆変換を通じて複素確率密度をモデル化するための確立されたアプローチである。
しかし, 正規化流によってターゲット分布を捕捉できる精度は, ベース分布のトポロジーの影響を強く受けている。
ターゲットのトポロジとベースとのミスマッチは、マルチモーダル問題の場合と同様に、パフォーマンスが低下する可能性がある。
ガウス混合モデル(Izmailov et al., 2020, Ardizzone et al., 2020, Hagemann and Neumayer, 2021)や学習されたアクセプション/リジェクションサンプリング(Stimper et al., 2022)を用いて、ターゲットに合うようにベース分布のトポロジを変更しようと試みている。
対象の分布をクラスタに分割する分節正規化フローを導入し、標準の正規分布によく適合するトポロジーを導入し、複雑なマルチモーダルターゲットをモデル化するために一連のフローを訓練する。
フローの断片的な性質を利用して並列化によるトレーニングの計算コストを大幅に削減することができる。
標準ベンチマークを用いて, 片方向流れの性能を実証し, マルチモーダル分布をモデル化するためのStimper, al., 2022の手法との比較を行った。 Normalizing flows are an established approach for modelling complex probability densities through invertible transformations from a base distribution. However, the accuracy with which the target distribution can be captured by the normalizing flow is strongly influenced by the topology of the base distribution. A mismatch between the topology of the target and the base can result in a poor performance, as is the case for multi-modal problems. A number of different works have attempted to modify the topology of the base distribution to better match the target, either through the use of Gaussian Mixture Models [Izmailov et al., 2020, Ardizzone et al., 2020, Hagemann and Neumayer, 2021] or learned accept/reject sampling [Stimper et al., 2022]. We introduce piecewise normalizing flows which divide the target distribution into clusters, with topologies that better match the standard normal base distribution, and train a series of flows to model complex multi-modal targets. The piecewise nature of the flows can be exploited to significantly reduce the computational cost of training through parallelization. We demonstrate the performance of the piecewise flows using standard benchmarks and compare the accuracy of the flows to the approach taken in Stimper et al., 2022 for modelling multi-modal distributions. | 翻訳日:2023-05-05 14:56:09 公開日:2023-05-04 |
# フォワード・コントラスト学習 Forward-Forward Contrastive Learning ( http://arxiv.org/abs/2305.02927v1 ) ライセンス: Link先を確認 | Md. Atik Ahamed, Jin Chen, Abdullah-Al-Zubaer Imran | (参考訳) 医用画像分類はコンピュータ支援診断における最も重要な課題の1つである。
深層学習モデル、特に畳み込みニューラルネットワークは、自動特徴学習によって促進される医療画像からの疾患分類に成功している。
しかしながら、多様なイメージングモードと臨床病理は、一般化されたロバストな分類の構築を困難にしている。
モデル性能の向上に向けて, 局所的およびグローバル的に, コントラスト学習の枠組みにおいてフォワードフォワードアルゴリズムを活用する, フォワードフォワードコントラスト学習 (ffcl) という新しい事前学習手法を提案する。
胸部X線データを用いた実験結果から,提案したFFCLは,肺炎分類タスクにおける既存の事前訓練モデルよりも,ImageNet Pretrained ResNet-18よりも3.69%の精度で優れた性能を示した。
さらに、広範囲なアブレーション実験はffclの特定の局所的および大域的コントラスト前訓練設計をサポートする。 Medical image classification is one of the most important tasks for computer-aided diagnosis. Deep learning models, particularly convolutional neural networks, have been successfully used for disease classification from medical images, facilitated by automated feature learning. However, the diverse imaging modalities and clinical pathology make it challenging to construct generalized and robust classifications. Towards improving the model performance, we propose a novel pretraining approach, namely Forward Forward Contrastive Learning (FFCL), which leverages the Forward-Forward Algorithm in a contrastive learning framework--both locally and globally. Our experimental results on the chest X-ray dataset indicate that the proposed FFCL achieves superior performance (3.69% accuracy over ImageNet pretrained ResNet-18) over existing pretraining models in the pneumonia classification task. Moreover, extensive ablation experiments support the particular local and global contrastive pretraining design in FFCL. | 翻訳日:2023-05-05 14:55:41 公開日:2023-05-04 |
# $^{171}$Yb原子における核スピン量子ビットの繰り返し読み出しとリアルタイム制御 Repetitive readout and real-time control of nuclear spin qubits in $^{171}$Yb atoms ( http://arxiv.org/abs/2305.02926v1 ) ライセンス: Link先を確認 | William Huie, Lintao Li, Neville Chen, Xiye Hu, Zhubing Jia, Won Kyu Calvin Sun, Jacob P. Covey | (参考訳) 我々は、中性イッテルビウム-171(^{171}$Yb)原子配列における核スピン量子ビットの高忠実度反復射影測定を実証する。
その結果, 1つのトワイザーに対して0.993(6)の確率で測定結果に対応する状態と配列上で平均される0.981(4)の条件下で, 量子ビット状態は0.995(4)の忠実度で測定できることがわかった。
これは、光励起状態の核スピン量子状態のうちの1つがb=58$gの磁場下でほぼ完全な周期性を持つことで達成され、蛍光読み出し時に明るく暗いコントラストが約10^5$となる。
パフォーマンスは$\sim1/b^2$でさらに向上する。
平均値0.98(1)の読み出しサバイバルは、暗黒状態への非共鳴散乱によって制限され、回路の端の原子番号を計測したり、両キュービット状態の測定を行うことで、選択後の処理によって対処することができる。
投影的測定と交流磁場による核スピン量子ビットの高忠実な回転を組み合わせることで、直交基底における測定の非可換性や「フリーズ」コヒーレント進化の量子ゼノン機構など、いくつかのパラダイムシナリオを探求する。
最後に、実時間フィードフォワードを用いて、直交的に初期化し、$z$-basisで射影測定を行った後、$+z$または$-z$方向のキュービットを繰り返し決定的に準備する。
これらの能力は、測定に基づく量子計算、高速多体状態形成、ホログラフィックダイナミクスシミュレーション、量子誤差補正など、原子配列を持つ適応量子回路への重要なステップを構成する。 We demonstrate high fidelity repetitive projective measurements of nuclear spin qubits in an array of neutral ytterbium-171 ($^{171}$Yb) atoms. We show that the qubit state can be measured with a fidelity of 0.995(4) under a condition that leaves it in the state corresponding to the measurement outcome with a probability of 0.993(6) for a single tweezer and 0.981(4) averaged over the array. This is accomplished by near-perfect cyclicity of one of the nuclear spin qubit states with an optically excited state under a magnetic field of $B=58$ G, resulting in a bright/dark contrast of $\approx10^5$ during fluorescence readout. The performance improves further as $\sim1/B^2$. The state-averaged readout survival of 0.98(1) is limited by off-resonant scattering to dark states and can be addressed via post-selection by measuring the atom number at the end of the circuit, or during the circuit by performing a measurement of both qubit states. We combine projective measurements with high-fidelity rotations of the nuclear spin qubit via an AC magnetic field to explore several paradigmatic scenarios, including the non-commutivity of measurements in orthogonal bases, and the quantum Zeno mechanism in which measurements "freeze" coherent evolution. Finally, we employ real-time feedforward to repetitively deterministically prepare the qubit in the $+z$ or $-z$ direction after initializing it in an orthogonal basis and performing a projective measurement in the $z$-basis. These capabilities constitute an important step towards adaptive quantum circuits with atom arrays, such as in measurement-based quantum computation, fast many-body state preparation, holographic dynamics simulations, and quantum error correction. | 翻訳日:2023-05-05 14:55:28 公開日:2023-05-04 |
# 対訳 ポートレート・マッティング Adversarially-Guided Portrait Matting ( http://arxiv.org/abs/2305.02981v1 ) ライセンス: Link先を確認 | Sergej Chicherin, Karen Efremyan | (参考訳) 限られたデータソースを用いてアルファ行列を生成する方法を提案する。
ポートレートデータセット上に新しいトランスフォーマーモデル(StyleMatte)を事前訓練する。
このモデルを用いて、StyleMatteGAN(StyleMatteGAN)ベースのネットワークに対して、画像マスクペアを提供する。
このネットワークは教師なしでトレーニングされ、以前は目に見えないイメージマスクトレーニングペアを生成し、StyleMatteに返される。
このサイクルにおいて,行列引き網の性能が向上し,使用済みデータセットの上位結果が得られることを示す。
さらにstylematteganは、アルファマットで高解像度でプライバシーを保ったポートレートを提供し、様々な画像合成タスクに適している。
私たちのコードはhttps://github.com/chroneus/stylematteで利用可能です。 We present a method for generating alpha mattes using a limited data source. We pretrain a novel transformerbased model (StyleMatte) on portrait datasets. We utilize this model to provide image-mask pairs for the StyleGAN3- based network (StyleMatteGAN). This network is trained unsupervisedly and generates previously unseen imagemask training pairs that are fed back to StyleMatte. We demonstrate that the performance of the matte pulling network improves during this cycle and obtains top results on the used datasets. Furthermore, StyleMatteGAN provides high-resolution, privacy-preserving portraits with alpha mattes, making it suitable for various image composition tasks. Our code is available at https://github.com/chroneus/stylematte | 翻訳日:2023-05-05 14:48:03 公開日:2023-05-04 |
# 回転弱リンクを有するトロイダル双極子超固体 Toroidal Dipolar Supersolid with a Rotating Weak Link ( http://arxiv.org/abs/2305.02972v1 ) ライセンス: Link先を確認 | Mikael Nilsson Tengstrand, Philipp St\"urmer, Johan Ribbing, Stephanie M. Reimann | (参考訳) リンクが弱いリング型超流動は、永続電流と動的かき混ぜプロトコルを研究するのに最適な環境を提供する。
ここでは, 双極子超固体に対する弱結合系の効果について検討する。
固定角モータにおける基底状態エネルギーを計算することで、準安定な持続電流が超流動遷移点付近の超固相に存在することが分かる。
弱いリンクを十分に素早くかき混ぜると、渦が超固体に入ることが示される。
これらの渦は相転移を引き起こし、超固体の結晶構造に干渉するソリトン励起を放出し、液滴の連続的な融解と再結晶をもたらす。
最後に, ボルテックス担持超固体のトラップからの放出について検討し, 放出された密度が密度変調に伴う離散構造と渦コアから生じる中心孔とを観察した。 Ring-shaped superfluids with weak links provide a perfect environment for studying persistent currents and dynamic stirring protocols. Here, we investigate the effects of a weak-link system on dipolar supersolids. By calculating the ground state energy at fixed angular momenta, we find that metastable persistent currents may exist in the supersolid phase near the superfluid transition point. When stirring the weak link rapidly enough, we show that vortices can enter the supersolid. These vortex entries cause phase slips, emitting solitonic excitations that interfere with the crystalline structure of the supersolid, leading to a continuous melting and recrystallization of the droplets. Finally, we examine the release of vortex-carrying supersolids from the trap, observing that the released density exhibits a discrete structure associated with the density modulation and a central hole resulting from the vortex core. | 翻訳日:2023-05-05 14:47:54 公開日:2023-05-04 |
# 分散量子コンピューティングのためのモジュール量子コンパイルフレームワーク A Modular Quantum Compilation Framework for Distributed Quantum Computing ( http://arxiv.org/abs/2305.02969v1 ) ライセンス: Link先を確認 | Davide Ferrari, Stefano Carretta, Michele Amoretti | (参考訳) ほとんどの実用的なアプリケーションでは、量子アルゴリズムは量子ビット数という観点で、現在のNISQプロセッサで利用可能なものよりもはるかに大きなリソースを必要とする。
量子インターネットが提供するネットワークと通信機能により、分散量子コンピューティング(DQC)は、計算タスクに利用可能な量子ビットの数を増やすためのスケーラブルなアプローチであると考えられている。
DQCを効率的かつ効率的にするためには、量子コンパイラは量子アルゴリズムの最良のパーティショニングを見つけ、EPRペアの消費を最適化するためにスマートリモート操作スケジューリングを実行する必要がある。
同時に、量子コンパイラはパーティション毎に最適なローカル変換を見つける必要がある。
本稿では,ネットワークとデバイスの制約と特性の両方を考慮したdqcのためのモジュール型量子コンパイルフレームワークを提案する。
我々は,VQE や QFT などの興味ある回路を用いて,重六角形結合写像を特徴とする量子プロセッサを用いて,異なるネットワークトポロジを考慮した量子コンパイラの実装とテストを行った。
また,TeleGateとTeleDataの両方の操作を活用可能な遠隔スケジューリング戦略を考案し,TeleGateとTeleDataの両方の使用の影響を検証した。
評価結果は,TeleData操作が消費するEPRペア数にプラスの影響を及ぼす可能性を示し,ネットワークトポロジの選択により,遠隔操作専用のレイヤ数を削減できることを示した。 For most practical applications, quantum algorithms require large resources in terms of qubit number, much larger than those available with current NISQ processors. With the network and communication functionalities provided by the Quantum Internet, Distributed Quantum Computing (DQC) is considered as a scalable approach for increasing the number of available qubits for computational tasks. For DQC to be effective and efficient, a quantum compiler must find the best partitioning for the quantum algorithm and then perform smart remote operation scheduling to optimize EPR pair consumption. At the same time, the quantum compiler should also find the best local transformation for each partition. In this paper we present a modular quantum compilation framework for DQC that takes into account both network and device constraints and characteristics. We implemented and tested a quantum compiler based on the proposed framework with some circuits of interest, such as the VQE and QFT ones, considering different network topologies, with quantum processors characterized by heavy hexagon coupling maps. We also devised a strategy for remote scheduling that can exploit both TeleGate and TeleData operations and tested the impact of using either only TeleGates or both. The evaluation results show that TeleData operations may have a positive impact on the number of consumed EPR pairs, while choosing a more connected network topology helps reduce the number of layers dedicated to remote operations. | 翻訳日:2023-05-05 14:47:41 公開日:2023-05-04 |
# 予測・表現・制御のためのマスキング軌道モデル Masked Trajectory Models for Prediction, Representation, and Control ( http://arxiv.org/abs/2305.02968v1 ) ライセンス: Link先を確認 | Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran | (参考訳) シーケンシャルな意思決定のための汎用的な抽象化として,Masked Trajectory Models (MTM)を導入した。
MTMは状態-作用配列のような軌道をとり、同じ軌道のランダムな部分集合に条件付けられた軌道を再構成することを目的としている。
高度にランダム化されたマスキングパターンでトレーニングすることで、MTMは、推論時に適切なマスキングを選択するだけで、異なる役割や能力を担える汎用ネットワークを学習する。
例えば、同じMTMネットワークをフォワードダイナミクスモデル、逆ダイナミクスモデル、オフラインのRLエージェントとして使用することができる。
複数の連続制御タスクにおける広範囲な実験を通じて、同じmtmネットワーク(すなわち同じ重み)が、前述の能力のために訓練された専門ネットワークと一致し、より優れることを示した。
さらに,mtmが学習した状態表現は,従来のrlアルゴリズムの学習速度を著しく向上させる。
最後に、オフラインRLベンチマークにおいて、MTMは明示的なRL成分を持たない汎用的な自己教師付き学習法であるにもかかわらず、特殊なオフラインRLアルゴリズムと競合することがわかった。
コードはhttps://github.com/facebookresearch/mtmで入手できる。 We introduce Masked Trajectory Models (MTM) as a generic abstraction for sequential decision making. MTM takes a trajectory, such as a state-action sequence, and aims to reconstruct the trajectory conditioned on random subsets of the same trajectory. By training with a highly randomized masking pattern, MTM learns versatile networks that can take on different roles or capabilities, by simply choosing appropriate masks at inference time. For example, the same MTM network can be used as a forward dynamics model, inverse dynamics model, or even an offline RL agent. Through extensive experiments in several continuous control tasks, we show that the same MTM network -- i.e. same weights -- can match or outperform specialized networks trained for the aforementioned capabilities. Additionally, we find that state representations learned by MTM can significantly accelerate the learning speed of traditional RL algorithms. Finally, in offline RL benchmarks, we find that MTM is competitive with specialized offline RL algorithms, despite MTM being a generic self-supervised learning method without any explicit RL components. Code is available at https://github.com/facebookresearch/mtm | 翻訳日:2023-05-05 14:47:17 公開日:2023-05-04 |
# exekglib: ナレッジグラフによる機械学習分析 ExeKGLib: Knowledge Graphs-Empowered Machine Learning Analytics ( http://arxiv.org/abs/2305.02966v1 ) ライセンス: Link先を確認 | Antonis Klironomos, Baifan Zhou, Zhipeng Tan, Zhuoxun Zheng, Gad-Elrab Mohamed, Heiko Paulheim, Evgeny Kharlamov | (参考訳) 多くの機械学習(ML)ライブラリは、ML実践者にオンラインでアクセス可能である。
典型的なMLパイプラインは複雑で、一連のステップで構成され、それぞれが複数のMLライブラリを呼び出す。
本稿では,コーディングスキルと最小限のML知識を持つユーザがMLパイプラインを構築することができるPythonライブラリであるExeKGLibを紹介する。
ExeKGLibは知識グラフに依存して、構築されたMLワークフローの透明性と再利用性を改善し、それらが実行可能であることを保証する。
ExeKGLibの使用例を示し、その利点を示すために従来のMLコードと比較する。 Many machine learning (ML) libraries are accessible online for ML practitioners. Typical ML pipelines are complex and consist of a series of steps, each of them invoking several ML libraries. In this demo paper, we present ExeKGLib, a Python library that allows users with coding skills and minimal ML knowledge to build ML pipelines. ExeKGLib relies on knowledge graphs to improve the transparency and reusability of the built ML workflows, and to ensure that they are executable. We demonstrate the usage of ExeKGLib and compare it with conventional ML code to show its benefits. | 翻訳日:2023-05-05 14:46:57 公開日:2023-05-04 |
# 10km光ファイバー上の古典的通信とスクイーズ光共存 Squeezed Light Coexistence with Classical Communication over 10 km Optical Fiber ( http://arxiv.org/abs/2305.02965v1 ) ライセンス: Link先を確認 | Adnan A.E. Hajomer, Huy Q. Nguyen, Melis Pahal{\i}, Ulrik L. Andersen, Tobias Gehring | (参考訳) 局所的に発生する局所発振器を用いてスキーズを計測しながら,10kmのファイバーチャネル上に1310nmの古典的通信路を有する光の1550nm単モード圧縮状態の最初の共存実験を行った。
これは実時間光ヘテロダイン位相ロックにより実現され、2.2°の位相雑音で最大0.5dBのスクイーズを計測できる。 We report the first coexistence experiment of 1550 nm single-mode squeezed states of light with a 1310 nm classical telecom channel over a 10 km fiber channel while measuring squeezing using a locally generated local oscillator. This is achieved using real-time optical heterodyne phase locking, allowing us to measure up to 0.5 dB of squeezing with a phase noise of 2.2 degrees. | 翻訳日:2023-05-05 14:46:47 公開日:2023-05-04 |
# FUSegNet:足の潰瘍分離のための深部畳み込みニューラルネットワーク FUSegNet: A Deep Convolutional Neural Network for Foot Ulcer Segmentation ( http://arxiv.org/abs/2305.02961v1 ) ライセンス: Link先を確認 | Mrinal Kanti Dhar, Taiyu Zhang, Yash Patel, and Zeyun Yu | (参考訳) 本稿では,糖尿病患者の足部潰瘍分節の新しいモデルであるFUSegNetについて述べる。
並列scSE(英語版)またはP-scSE(英語版)と呼ばれる空間的およびチャネル的圧縮・励起(scSE)モジュールが加法と最大出力scSEを組み合わせて提案されている。
モジュールをデコーダステージの中央にフレッシュすることで、新しいアレンジが導入された。
上位デコーダのステージは限られた数の特徴写像を持ち、最大出力の scSE をバイパスして P-scSE を短くする。
ネットワークにデータを供給する前に、幾何学的、形態的、強度に基づく拡張を含む一連の拡張を施す。
提案手法は, 報告されたアプローチの中で最も高い92.70%のダイススコアを達成し, 一般に公開されている慢性創傷データセットで評価した。
このモデルは、他のScSEベースのUNetモデルよりも多くのカテゴリにおいてプラットの有益度(PFOM)のスコアで優れており、エッジローカライゼーションの精度を評価する。
このモデルはMICCAI 2021 FUSegチャレンジでテストされ、x-FUSegNetと呼ばれるFUSegNetのバリエーションが提出される。
x-FUSegNetモデルは、FUSegNetが5倍のクロスバリデーションを用いて得た出力の平均値を取り、89.23%のダイススコアを達成し、FUSeg Challengeのリーダーボードの上位に位置する。
このモデルのソースコードはhttps://github.com/mrinal054/FUSegNetで入手できる。 This paper presents FUSegNet, a new model for foot ulcer segmentation in diabetes patients, which uses the pre-trained EfficientNet-b7 as a backbone to address the issue of limited training samples. A modified spatial and channel squeeze-and-excitation (scSE) module called parallel scSE or P-scSE is proposed that combines additive and max-out scSE. A new arrangement is introduced for the module by fusing it in the middle of each decoder stage. As the top decoder stage carries a limited number of feature maps, max-out scSE is bypassed there to form a shorted P-scSE. A set of augmentations, comprising geometric, morphological, and intensity-based augmentations, is applied before feeding the data into the network. The proposed model is first evaluated on a publicly available chronic wound dataset where it achieves a data-based dice score of 92.70%, which is the highest score among the reported approaches. The model outperforms other scSE-based UNet models in terms of Pratt's figure of merits (PFOM) scores in most categories, which evaluates the accuracy of edge localization. The model is then tested in the MICCAI 2021 FUSeg challenge, where a variation of FUSegNet called x-FUSegNet is submitted. The x-FUSegNet model, which takes the average of outputs obtained by FUSegNet using 5-fold cross-validation, achieves a dice score of 89.23%, placing it at the top of the FUSeg Challenge leaderboard. The source code for the model is available on https://github.com/mrinal054/FUSegNet. | 翻訳日:2023-05-05 14:46:39 公開日:2023-05-04 |
# 措置・規程・情報のメジャー化 Majorizing Measures, Codes, and Information ( http://arxiv.org/abs/2305.02960v1 ) ライセンス: Link先を確認 | Yifeng Chu and Maxim Raginsky | (参考訳) フェルニクとタラグランのメジャー化測度定理はランダム過程の理論の基本的な結果である。
これは、計量空間の要素によってインデックス付けされたランダムプロセスの有界性と、パッキングや被覆木などのある種の多スケール組合せ構造から生じる複雑さの測度を関連付ける。
本稿では,まずアンドレアス・マウラー(andreas maurer)の微妙な前版で概説し,確率過程の有界性が指数化距離空間の要素に対する効率的な可変長符号の存在という観点で表現される主観的測度定理に関する情報理論的な視点を提示した。 The majorizing measure theorem of Fernique and Talagrand is a fundamental result in the theory of random processes. It relates the boundedness of random processes indexed by elements of a metric space to complexity measures arising from certain multiscale combinatorial structures, such as packing and covering trees. This paper builds on the ideas first outlined in a little-noticed preprint of Andreas Maurer to present an information-theoretic perspective on the majorizing measure theorem, according to which the boundedness of random processes is phrased in terms of the existence of efficient variable-length codes for the elements of the indexing metric space. | 翻訳日:2023-05-05 14:46:09 公開日:2023-05-04 |
# 小型超伝導量子シミュレータにおけるデータ再アップロードによるハイブリッド量子学習 Hybrid quantum learning with data re-uploading on a small-scale superconducting quantum simulator ( http://arxiv.org/abs/2305.02956v1 ) ライセンス: Link先を確認 | Aleksei Tolstobrov, Gleb Fedorov, Shtefan Sanduleanu, Shamil Kadyrmetov, Andrei Vasenin, Aleksey Bolgar, Daria Kalacheva, Viktor Lubsanov, Aleksandr Dorogov, Julia Zotova, Peter Shlykov, Aleksei Dmitriev, Konstantin Tikhonov, Oleg V. Astafiev | (参考訳) スーパーバイザード量子学習(Supervised quantum learning)は、変分量子アルゴリズムと古典的機械学習の中間領域である。
本稿では, 量子シミュレータにより加速されるハイブリッド分類器モデルを実験的に検討し, マルチラベル分類と画像認識の問題を解くために訓練された4つの超伝導トランスモン人工原子の線形配列について検討した。
簡単なバイナリとマルチラベルのタスクで量子回路をトレーニングし、95%の分類精度を達成し、手書き十進数認識時に90%の精度でデータを再アップロードするハイブリッドモデルを構築した。
最後に, 実験条件下での推論時間を解析し, 量子モデルの性能を既知の古典解と比較する。 Supervised quantum learning is an emergent multidisciplinary domain bridging between variational quantum algorithms and classical machine learning. Here, we study experimentally a hybrid classifier model accelerated by a quantum simulator - a linear array of four superconducting transmon artificial atoms - trained to solve multilabel classification and image recognition problems. We train a quantum circuit on simple binary and multi-label tasks, achieving classification accuracy around 95%, and a hybrid model with data re-uploading with accuracy around 90% when recognizing handwritten decimal digits. Finally, we analyze the inference time in experimental conditions and compare the performance of the studied quantum model with known classical solutions. | 翻訳日:2023-05-05 14:45:54 公開日:2023-05-04 |
# 重み付きタイリングバンディット:繰り返し露光最適度による難易度克服 Weighted Tallying Bandits: Overcoming Intractability via Repeated Exposure Optimality ( http://arxiv.org/abs/2305.02955v1 ) ライセンス: Link先を確認 | Dhruv Malik, Conor Igoe, Yuanzhi Li, Aarti Singh | (参考訳) オンライン学習の推薦システムやクラウドソーシングアプリケーションでは、人間の好みや能力はアルゴリズムの最近の行動の関数であることが多い。
このモチベーションにより、アクションの損失が前回の$m$のタイムステップで最近行われたアクションの回数の関数であるような、大きな作業ラインがフォーマルに設定され、$m$は人間の記憶容量の制限に対応する。
時間とともに人間の記憶の崩壊をより忠実に捉えるために、重み付き集計バンディット(wtb)を導入する。これは、アクションの損失が、最後の$m$の時間ステップでarmがプレイされた回数の関数である \emph{weighted} の関数であることを要求して、この設定を一般化する。
このWTB設定は、さらなる仮定なしに難解である。
そこで、人間生理学の文献に動機づけられた状態であるreo(reo)を用いて実験を行い、反復的に演奏すると、最終的に他のどの一連の行動よりも損失が小さくなる作用が存在することを要求した。
本稿では,REO 下の WTB において,後悔の最も強い概念である完全政策後悔 (CPR) の最小化について検討する。
一般的に$m$は未知であるため、$m$上の上限$M$にしかアクセスできないと仮定する。
我々は、$K$アクションと水平線$T$の問題に対して、逐次除去アルゴリズムの簡単な修正が$O \left( \sqrt{KT} + (m+M)K \right)$CPRであることを示す。
興味深いことに、$(m+M)K$ の加法 (mutliplicative) 因子に代えて) を考えると、これは伝統的な後悔を伴うより単純な確率的多重武装バンディットに対する古典的な保証を回復する。
さらに、我々の設定では、任意のアルゴリズムが$\Omega \left(mK + M \right)$の加法的CPRを被り、結果がほぼ最適であることを示す。
本アルゴリズムは計算効率が高く,自然ベースラインよりも実用性と優越性を実験的に実証する。 In recommender system or crowdsourcing applications of online learning, a human's preferences or abilities are often a function of the algorithm's recent actions. Motivated by this, a significant line of work has formalized settings where an action's loss is a function of the number of times that action was recently played in the prior $m$ timesteps, where $m$ corresponds to a bound on human memory capacity. To more faithfully capture decay of human memory with time, we introduce the Weighted Tallying Bandit (WTB), which generalizes this setting by requiring that an action's loss is a function of a \emph{weighted} summation of the number of times that arm was played in the last $m$ timesteps. This WTB setting is intractable without further assumption. So we study it under Repeated Exposure Optimality (REO), a condition motivated by the literature on human physiology, which requires the existence of an action that when repetitively played will eventually yield smaller loss than any other sequence of actions. We study the minimization of the complete policy regret (CPR), which is the strongest notion of regret, in WTB under REO. Since $m$ is typically unknown, we assume we only have access to an upper bound $M$ on $m$. We show that for problems with $K$ actions and horizon $T$, a simple modification of the successive elimination algorithm has $O \left( \sqrt{KT} + (m+M)K \right)$ CPR. Interestingly, upto an additive (in lieu of mutliplicative) factor in $(m+M)K$, this recovers the classical guarantee for the simpler stochastic multi-armed bandit with traditional regret. We additionally show that in our setting, any algorithm will suffer additive CPR of $\Omega \left( mK + M \right)$, demonstrating our result is nearly optimal. Our algorithm is computationally efficient, and we experimentally demonstrate its practicality and superiority over natural baselines. | 翻訳日:2023-05-05 14:45:43 公開日:2023-05-04 |
# 文埋め込みは、想像以上に多くの情報を漏らす: 文全体を回復するための生成的インバージョン攻撃 Sentence Embedding Leaks More Information than You Expect: Generative Embedding Inversion Attack to Recover the Whole Sentence ( http://arxiv.org/abs/2305.03010v1 ) ライセンス: Link先を確認 | Haoran Li, Mingshi Xu, Yangqiu Song | (参考訳) 文レベルの表現は様々な自然言語処理タスクに有用である。
ベクトル表現は豊かな言語特性を捉えることができると信じられている。
現在、大言語モデル(LM)は文の埋め込みにおける最先端のパフォーマンスを実現している。
しかし、最近の研究で lms からのベクトル表現が情報漏洩を引き起こす可能性が示唆されている。
本研究では,情報漏洩問題をさらに調査し,文埋め込みのみに基づいて入力シーケンスを再構築することを目的としたgeia(generative embedded inversion attack)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
我々は,我々の生成的逆転攻撃が,分類指標における過去の埋め込み逆転攻撃よりも優れており,元の入力として一貫性と文脈的に類似した文を生成することを実証するための広範な実験を行った。 Sentence-level representations are beneficial for various natural language processing tasks. It is commonly believed that vector representations can capture rich linguistic properties. Currently, large language models (LMs) achieve state-of-the-art performance on sentence embedding. However, some recent works suggest that vector representations from LMs can cause information leakage. In this work, we further investigate the information leakage issue and propose a generative embedding inversion attack (GEIA) that aims to reconstruct input sequences based only on their sentence embeddings. Given the black-box access to a language model, we treat sentence embeddings as initial tokens' representations and train or fine-tune a powerful decoder model to decode the whole sequences directly. We conduct extensive experiments to demonstrate that our generative inversion attack outperforms previous embedding inversion attacks in classification metrics and generates coherent and contextually similar sentences as the original inputs. | 翻訳日:2023-05-05 14:39:31 公開日:2023-05-04 |
# NatCS: 自然な顧客サポートダイアログ NatCS: Eliciting Natural Customer Support Dialogues ( http://arxiv.org/abs/2305.03007v1 ) ライセンス: Link先を確認 | James Gung, Emily Moeng, Wesley Rose, Arshit Gupta, Yi Zhang, Saab Mansour | (参考訳) 自然な顧客サポートの会話に基づくアプリケーションへの関心が高まっているが、これらの設定における会話の期待される特性を反映した公開データセットは極めて少ない。
既存のタスク指向対話データセットは、主にヒューマン・ツー・ボット設定の対話システムをベンチマークするために収集され、実際のカスタマーサポートの会話を表現せず、自然データに適用されたシステムの現実的なベンチマークを提供していない。
このギャップに対処するために、音声顧客サービス会話のマルチドメインコレクションであるNatCSを紹介する。
本稿では,実際の会話に見られる自然言語現象に基づいて,顧客とエージェントの合成会話を収集するプロセスについて述べる。
従来の対話データセットと比較して、我々のアプローチで収集した会話は、複数の指標に沿って実際の人間と人間の会話を表現している。
最後に、対話行為分類や会話からの意図誘導を潜在的応用として含むNAtCSの潜在的な利用を実証し、NAtCSの対話行為アノテーションが既存の合成テキストデータセットと比較して、実際の会話をモデル化するための効果的なトレーニングデータを提供することを示した。
自然対話システムの研究を容易にするnatcsを 公開しています Despite growing interest in applications based on natural customer support conversations, there exist remarkably few publicly available datasets that reflect the expected characteristics of conversations in these settings. Existing task-oriented dialogue datasets, which were collected to benchmark dialogue systems mainly in written human-to-bot settings, are not representative of real customer support conversations and do not provide realistic benchmarks for systems that are applied to natural data. To address this gap, we introduce NatCS, a multi-domain collection of spoken customer service conversations. We describe our process for collecting synthetic conversations between customers and agents based on natural language phenomena observed in real conversations. Compared to previous dialogue datasets, the conversations collected with our approach are more representative of real human-to-human conversations along multiple metrics. Finally, we demonstrate potential uses of NatCS, including dialogue act classification and intent induction from conversations as potential applications, showing that dialogue act annotations in NatCS provide more effective training data for modeling real conversations compared to existing synthetic written datasets. We publicly release NatCS to facilitate research in natural dialog systems | 翻訳日:2023-05-05 14:39:16 公開日:2023-05-04 |
# 単一実験におけるシンドローム測定の校正 Calibration of Syndrome Measurements in a Single Experiment ( http://arxiv.org/abs/2305.03004v1 ) ライセンス: Link先を確認 | Christian Wimmer, Jochen Szangolies, Michael Epping | (参考訳) 量子誤差補正の手法は、現在の量子コンピューティングハードウェアにおいて有益になりつつある。
通常は、システムで発生したエラーに関する情報を提供する測定を行う必要がある。
しかし、これらの症候群の測定自体がシステムにノイズをもたらす。
測定の完全な特徴付けは非常にコストがかかる。
本稿では,追加ノイズを考慮したキャリブレーション手法を提案する。
合理的な仮定では、1つの追加実験しか必要としない。
この手法を雑音推定や誤差補正に適用する方法の例を示す。
最後に,IBM量子コンピュータを用いた実験結果について述べる。 Methods of quantum error correction are starting to be beneficial on current quantum computing hardware. Typically this requires to perform measurements which yield information about the occurred errors on the system. However, these syndrome measurements themselves introduce noise to the system. A full characterization of the measurements is very costly. Here we present a calibration method which allows to take the additional noise into account. Under reasonable assumptions we require only a single additional experiment. We give examples of how to apply this method to noise estimation and error correction. Finally we discuss the results of experiments carried out on an IBM quantum computer. | 翻訳日:2023-05-05 14:38:56 公開日:2023-05-04 |
# 内在的解釈性を用いたポストホック解釈性の評価 Evaluating Post-hoc Interpretability with Intrinsic Interpretability ( http://arxiv.org/abs/2305.03002v1 ) ライセンス: Link先を確認 | Jos\'e Pereira Amorim and Pedro Henriques Abreu and Jo\~ao Santos and Henning M\"uller | (参考訳) 畳み込みニューラルネットワークは、いくつかの医療タスクで人間レベルのパフォーマンスに達しているが、その臨床使用は、解釈可能性の欠如によって妨げられている。
この問題に対処するための2つの主要な解釈可能性戦略が提案されている。
DLモデルを解釈するポストホック法はいくつかあるが,各手法による説明には有意な違いがあり,地絡みの欠如による検証が困難である。
この課題に対処するために, 組織病理イメージングに内在的解釈可能なプロトプネットを応用し, その帰属地図とポストホック法による塩分マップを比較した。
塩分マップ法と帰属地図の類似性を評価するために, 塩分モデル文献から得られた10の塩分指標を適用し, 乳がん転移検出データセットpatchcamelyonを用いて, センチネルリンパ節切片の病理像を327,680パッチで解析し, 提案手法を検証した。
全体として、SmoothGradとOcclusionはProtoPNetと統計的に重なることが判明し、DeconvolutionとLimeは最小であることがわかった。 Despite Convolutional Neural Networks having reached human-level performance in some medical tasks, their clinical use has been hindered by their lack of interpretability. Two major interpretability strategies have been proposed to tackle this problem: post-hoc methods and intrinsic methods. Although there are several post-hoc methods to interpret DL models, there is significant variation between the explanations provided by each method, and it a difficult to validate them due to the lack of ground-truth. To address this challenge, we adapted the intrinsical interpretable ProtoPNet for the context of histopathology imaging and compared the attribution maps produced by it and the saliency maps made by post-hoc methods. To evaluate the similarity between saliency map methods and attribution maps we adapted 10 saliency metrics from the saliency model literature, and used the breast cancer metastases detection dataset PatchCamelyon with 327,680 patches of histopathological images of sentinel lymph node sections to validate the proposed approach. Overall, SmoothGrad and Occlusion were found to have a statistically bigger overlap with ProtoPNet while Deconvolution and Lime have been found to have the least. | 翻訳日:2023-05-05 14:38:49 公開日:2023-05-04 |
# OSDaR23:Rail 2023用のオープンセンサーデータ OSDaR23: Open Sensor Data for Rail 2023 ( http://arxiv.org/abs/2305.03001v1 ) ライセンス: Link先を確認 | Rustam Tagiew, Martin K\"oppel, Karsten Schwalbe, Patrick Denzler, Philipp Neumaier, Tobias Klockau, Martin Boekhoff, Pavel Klasek, Roman Tilly | (参考訳) 本線での無人列車の運行には、いくつかのタスクを技術システムによって実装する必要がある。
最も困難な作業の1つは、長いブレーキ距離のため、列車の車道とその周囲の障害物を監視することである。
機械学習アルゴリズムは、赤外線(ir)や視覚(rgb)カメラ、ライダー、レーダーなどの視覚センサーからのデータを分析して物体を検出するために使用できる。
このようなアルゴリズムは、訓練データとして、潜在的な障害となる可能性のあるレール環境の物体や、軌道やカテナリーポールなどのレール固有の物体から、大量の注釈付きデータを要求する。
しかし、公開されているデータセットはごくわずかであり、これらのデータセットは通常、限られた数のセンサーのみを含む。
自動車などの他のドメインからのデータセットとトレーニングされたモデルは有用だが、鉄道コンテキストにおけるオブジェクト検出には不十分である。
そこで本稿では2021年9月にドイツのハンブルクで撮影された21のシーケンスからなるマルチセンサーデータセットosdar23を提案する。
センサーのセットアップは、複数の校正および同期IR/RGBカメラ、ライダー、レーダー、および鉄道車両に搭載された位置と加速度センサーで構成されていた。
データセットは生データに加えて、20の異なるオブジェクトクラスに対して204091のポリライン、多角形、矩形、立方体アノテーションを含んでいる。
このデータセットは、この論文にリストされている衝突予測を超えたタスクにも使用することができる。 For driverless train operation on mainline railways, several tasks need to be implemented by technical systems. One of the most challenging tasks is to monitor the train's driveway and its surroundings for potential obstacles due to long braking distances. Machine learning algorithms can be used to analyze data from vision sensors such as infrared (IR) and visual (RGB) cameras, lidars, and radars to detect objects. Such algorithms require large amounts of annotated data from objects in the rail environment that may pose potential obstacles, as well as rail-specific objects such as tracks or catenary poles, as training data. However, only very few datasets are publicly available and these available datasets typically involve only a limited number of sensors. Datasets and trained models from other domains, such as automotive, are useful but insufficient for object detection in the railway context. Therefore, this publication presents OSDaR23, a multi-sensor dataset of 21 sequences captured in Hamburg, Germany, in September 2021. The sensor setup consisted of multiple calibrated and synchronized IR/RGB cameras, lidars, a radar, and position and acceleration sensors front-mounted on a railway vehicle. In addition to raw data, the dataset contains 204091 polyline, polygonal, rectangle and cuboid annotations for 20 different object classes. This dataset can also be used for tasks going beyond collision prediction, which are listed in this paper. | 翻訳日:2023-05-05 14:38:27 公開日:2023-05-04 |
# 量子状態の任意の集合をマスキングするには絡み合いが不可欠である Entanglement is indispensable for masking arbitrary set of quantum states ( http://arxiv.org/abs/2305.02999v1 ) ライセンス: Link先を確認 | Debarupa Saha, Priya Ghosh, Ujjwal Sen | (参考訳) 混合量子状態の集合に含まれる量子情報のマスキングにおける絡み合いの役割を疑問視する。
まず, 2つの単一量子ビット純状態をマスクできるマスカが,これら2つの純粋量子状態の古典的混合状態からなる混合状態全体のマスクが可能であることを示す。
次に、2つの異なる集合をマスキングする際の絡み合いによって生じる部分を見つけようとする: 1つは、2つの単一キュービット純可換状態の古典的混合によって形成される混合状態の集合、もう1つは、2つの単一キュービット純非可換状態の混合によって得られる混合状態の集合である。
いずれの場合も、入力状態が2つの純粋な状態の等しい混合でない限り、マスク状態は絡み合ったままであることを示す。
このことは、絡み合いは、混合性や相互可換性に関わらず、2つの単一キュービット状態の任意の集合を隠蔽するのに必要であるだけでなく十分であることを示している。 We question the role of entanglement in masking quantum information contained in a set of mixed quantum states. We first show that a masker that can mask any two single-qubit pure states, can mask the entire set of mixed states comprising of the classical mixtures of those two pure qubit states as well. We then try to find the part played by entanglement in masking two different sets: One, a set of mixed states formed by the classical mixtures of two single-qubit pure commuting states, and another, a set of mixed states obtained by mixing two single-qubit pure non-commuting states. For both cases, we show that the masked states remain entangled unless the input state is an equal mixture of the two pure states. This in turn reveals that entanglement is necessary as well as sufficient for masking an arbitrary set of two single qubit states, regardless of their mixednesses and mutual commutativity. | 翻訳日:2023-05-05 14:38:06 公開日:2023-05-04 |
# ニューラルネットワークはタブラルデータ上で高木を向上するのか? When Do Neural Nets Outperform Boosted Trees on Tabular Data? ( http://arxiv.org/abs/2305.02997v1 ) ライセンス: Link先を確認 | Duncan McElfresh, Sujay Khandagale, Jonathan Valverde, Vishak Prasad C, Ganesh Ramakrishnan, Micah Goldblum, Colin White | (参考訳) タブラルデータ(英: Tabular data)は、機械学習において最も一般的に使用されるデータの1つである。
表データに対するニューラルネット(NN)の最近の進歩にもかかわらず、NNが表データ上で一般的に勾配付き決定木(GBDT)を上回っているかどうかについては、活発な議論が続いている。
この作品では一歩下がって「問題あるのか?」と尋ねます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視可能であるか、GBDTの軽量ハイパーパラメータチューニングの方が、最高のアルゴリズムを選択するよりも重要である。
次に、935のメタ機能を分析し、nnやgbdtsがうまく機能するようにデータセットの特性を決定する。
例えば、GBDTは、歪んだ特徴分布、重み付き特徴分布、その他の種類のデータセットの不規則を扱う場合、NNよりもはるかに優れている。
私たちの洞察は、データセットで最高パフォーマンスに達するためにニューラルネットワークを実行する必要があるかどうかを、実践者が判断するためのガイドとして機能します。
私たちのコードベースと生の結果は、https://github.com/naszilla/tabzillaで閲覧できます。 Tabular data is one of the most commonly used types of data in machine learning. Despite recent advances in neural nets (NNs) for tabular data, there is still an active discussion on whether or not NNs generally outperform gradient-boosted decision trees (GBDTs) on tabular data, with several recent works arguing either that GBDTs consistently outperform NNs on tabular data, or vice versa. In this work, we take a step back and ask, 'does it matter?' We conduct the largest tabular data analysis to date, by comparing 19 algorithms across 176 datasets, and we find that the 'NN vs. GBDT' debate is overemphasized: for a surprisingly high number of datasets, either the performance difference between GBDTs and NNs is negligible, or light hyperparameter tuning on a GBDT is more important than selecting the best algorithm. Next, we analyze 965 metafeatures to determine what properties of a dataset make NNs or GBDTs better-suited to perform well. For example, we find that GBDTs are much better than NNs at handling skewed feature distributions, heavy-tailed feature distributions, and other forms of dataset irregularities. Our insights act as a guide for practitioners to decide whether or not they need to run a neural net to reach top performance on their dataset. Our codebase and all raw results are available at https://github.com/naszilla/tabzilla. | 翻訳日:2023-05-05 14:37:47 公開日:2023-05-04 |
# クロスエンコーダを用いたCURに基づくk-NN探索におけるアンカー項目の適応選択 Adaptive Selection of Anchor Items for CUR-based k-NN search with Cross-Encoders ( http://arxiv.org/abs/2305.02996v1 ) ライセンス: Link先を確認 | Nishant Yadav, Nicholas Monath, Manzil Zaheer, Andrew McCallum | (参考訳) クロスエンコーダモデルは、クエリとitemのペアを共同でエンコードしスコア付けするが、一般的にはk-nearestの隣の探索には高価である。
その結果、k-NNサーチはクロスエンコーダではなく、ヒューリスティックレトリバー(BM25やデュアルエンコーダなど)と再ランクアプローチで実行される。
近年,二重エンコーダを必要とせずにクロスエンコーダを直接近似する効率的なベクトル探索のための埋め込み空間を生成するために,cur行列分解を用いたanncur (yadav et al., 2022) を提案する。
ANNCURは、ランダムにサンプリングされたアンカーアイテムに対してテストクエリをスコアリングすることで、この共有クエリ-イム埋め込み空間を定義する。
これはすべてのアイテムの平均近似誤差を最小化するが、トップkアイテムの平均近似誤差は不適切であり、トップkアイテム(特にトップ1)のリコールが貧弱になる。
アンカーアイテムの数を増やすことは近似誤差を改善するための簡単な方法であり、そのためANNCURをk-NNでリコールするが、推論遅延を増加させるコストがかかる。
本稿では,計算オーバーヘッドが最小のクエリに対して,実際に重要なtop-k近傍の近似誤差を最小化するアンカー項目を適応的に選択する手法を提案する。
提案手法では,前ラウンドから選択したアンカーを使用して,複数のラウンドに対して所定のテストクエリを行うための適切なアンカー項目を段階的に選択する。
提案手法は、ANNCURと広範に使われているデュアルエンコーダベースのレシーバ・アンド・レランダ方式と比較して、k-NNリコールを一貫して改善する。 Cross-encoder models, which jointly encode and score a query-item pair, are typically prohibitively expensive for k-nearest neighbor search. Consequently, k-NN search is performed not with a cross-encoder, but with a heuristic retrieve (e.g., using BM25 or dual-encoder) and re-rank approach. Recent work proposes ANNCUR (Yadav et al., 2022) which uses CUR matrix factorization to produce an embedding space for efficient vector-based search that directly approximates the cross-encoder without the need for dual-encoders. ANNCUR defines this shared query-item embedding space by scoring the test query against anchor items which are sampled uniformly at random. While this minimizes average approximation error over all items, unsuitably high approximation error on top-k items remains and leads to poor recall of top-k (and especially top-1) items. Increasing the number of anchor items is a straightforward way of improving the approximation error and hence k-NN recall of ANNCUR but at the cost of increased inference latency. In this paper, we propose a new method for adaptively choosing anchor items that minimizes the approximation error for the practically important top-k neighbors for a query with minimal computational overhead. Our proposed method incrementally selects a suitable set of anchor items for a given test query over several rounds, using anchors chosen in previous rounds to inform selection of more anchor items. Empirically, our method consistently improves k-NN recall as compared to both ANNCUR and the widely-used dual-encoder-based retrieve-and-rerank approach. | 翻訳日:2023-05-05 14:37:23 公開日:2023-05-04 |
# データサブポピュレーション間のML性能の非線形相関について On the nonlinear correlation of ML performance between data subpopulations ( http://arxiv.org/abs/2305.02995v1 ) ライセンス: Link先を確認 | Weixin Liang, Yining Mao, Yongchan Kwon, Xinyu Yang, James Zou | (参考訳) 多様なデータ分布にわたる機械学習(ML)モデルの性能を理解することは、信頼性の高いアプリケーションにとって極めて重要である。
近年の研究では, 分布内(ID)と分布外(OOD)の相関がほぼ完全であるにもかかわらず, この相関がサブポピュレーションシフトの下でよりニュアンス化されていることが実証されている。
我々は,様々なデータセット,モデル,訓練エポシックの厳密な実験と分析を通じて,OOD性能がサブポピュレーションシフトにおけるID性能と非線形な相関を持つことを実証した。
分布シフト中のモデル性能の線形相関を仮定した先行研究とは対照的に,多数個体群におけるテスト性能と少数個体群における「ムーン形状」相関(放物型上昇曲線)を明らかにした。
この非自明な非線形相関は、モデルアーキテクチャ、ハイパーパラメータ、トレーニング期間、サブポピュレーション間の不均衡にまたがる。
さらに,この「ムーン形状」の非線形性は,トレーニングデータにおけるスプリアス相関の程度に因果的に影響されることがわかった。
制御実験により,トレーニングデータにおけるより強いスプリアス相関が,より非線形な性能相関をもたらすことが示された。
本稿では,この現象の相補的実験および理論的解析を行い,MLの信頼性と公平性について考察する。
本研究は,モデル改善の非線形効果が異なる部分集団のパフォーマンスに与える影響を理解することの重要性を強調し,より公平で責任のある機械学習モデルの開発を知らせる可能性を示す。 Understanding the performance of machine learning (ML) models across diverse data distributions is critically important for reliable applications. Despite recent empirical studies positing a near-perfect linear correlation between in-distribution (ID) and out-of-distribution (OOD) accuracies, we empirically demonstrate that this correlation is more nuanced under subpopulation shifts. Through rigorous experimentation and analysis across a variety of datasets, models, and training epochs, we demonstrate that OOD performance often has a nonlinear correlation with ID performance in subpopulation shifts. Our findings, which contrast previous studies that have posited a linear correlation in model performance during distribution shifts, reveal a "moon shape" correlation (parabolic uptrend curve) between the test performance on the majority subpopulation and the minority subpopulation. This non-trivial nonlinear correlation holds across model architectures, hyperparameters, training durations, and the imbalance between subpopulations. Furthermore, we found that the nonlinearity of this "moon shape" is causally influenced by the degree of spurious correlations in the training data. Our controlled experiments show that stronger spurious correlation in the training data creates more nonlinear performance correlation. We provide complementary experimental and theoretical analyses for this phenomenon, and discuss its implications for ML reliability and fairness. Our work highlights the importance of understanding the nonlinear effects of model improvement on performance in different subpopulations, and has the potential to inform the development of more equitable and responsible machine learning models. | 翻訳日:2023-05-05 14:36:50 公開日:2023-05-04 |
# semeval-2023タスク7: 臨床試験データのための多次元自然言語推論 SemEval-2023 Task 7: Multi-Evidence Natural Language Inference for Clinical Trial Data ( http://arxiv.org/abs/2305.02993v1 ) ライセンス: Link先を確認 | Ma\"el Jullien, Marco Valentino, Hannah Frost, Paul O'Regan, Donal Landers, Andr\'e Freitas | (参考訳) 本稿では,SemEval 2023 task 7 -- Multi-Evidence Natural Language Inference for Clinical Trial Data (NLI4CT) -- の2つのタスク,自然言語推論(NLI)タスク,臨床治験データに対するエビデンス選択タスクについて述べる。
提案する課題は、医療証拠の大規模解釈と検索が可能なシステムの開発において重要な役割を担っているマルチホップな生体医学的・数値的推論を必要とする。
第1タスクは40人の参加者から643人の応募を受け、第2タスクは証拠選択タスクは23人の参加者から364人の応募を受けた。
課題は課題であり,提出されたシステムの大部分は,提案タスクにおける多数クラスベースラインを著しく上回っており,提案タスクよりもエビデンス選択タスクにおけるパフォーマンスが著しく向上している。
モデルパラメータ数の増加は、バイオメディカル事前トレーニングの効果よりもはるかに重要な、パフォーマンスの直接的な向上につながる。
将来の研究は、一般化と数値推論のための大きなモデルの限界を探求し、より厳密なテストを可能にし、微調整を容易にするために臨床データセットを拡張する方法を探るかもしれない。
我々は, この課題のデータセット, モデル, 結果が, バイオメディカルNLIとエビデンス検索コミュニティに有用であることを示唆する。
データセット、競合リーダーボード、ウェブサイトが公開されている。 This paper describes the results of SemEval 2023 task 7 -- Multi-Evidence Natural Language Inference for Clinical Trial Data (NLI4CT) -- consisting of 2 tasks, a Natural Language Inference (NLI) task, and an evidence selection task on clinical trial data. The proposed challenges require multi-hop biomedical and numerical reasoning, which are of significant importance to the development of systems capable of large-scale interpretation and retrieval of medical evidence, to provide personalized evidence-based care. Task 1, the entailment task, received 643 submissions from 40 participants, and Task 2, the evidence selection task, received 364 submissions from 23 participants. The tasks are challenging, with the majority of submitted systems failing to significantly outperform the majority class baseline on the entailment task, and we observe significantly better performance on the evidence selection task than on the entailment task. Increasing the number of model parameters leads to a direct increase in performance, far more significant than the effect of biomedical pre-training. Future works could explore the limitations of large models for generalization and numerical inference, and investigate methods to augment clinical datasets to allow for more rigorous testing and to facilitate fine-tuning. We envisage that the dataset, models, and results of this task will be useful to the biomedical NLI and evidence retrieval communities. The dataset, competition leaderboard, and website are publicly available. | 翻訳日:2023-05-05 14:36:20 公開日:2023-05-04 |
# TUVF: 汎用テクスチャUV放射場を学習する TUVF: Learning Generalizable Texture UV Radiance Fields ( http://arxiv.org/abs/2305.03040v1 ) ライセンス: Link先を確認 | An-Chieh Cheng, Xueting Li, Sifei Liu, Xiaolong Wang | (参考訳) テクスチャは視覚的に魅力的でリアルな3Dモデルを作る上で重要な要素だ。
本稿では, 汎用的な3次元形状モデリングと比較して, 比較的研究が進んでいない3次元アセットの高忠実度テクスチャ生成問題について検討する。
我々のゴールは、制御可能なテクスチャ生成プロセスの促進であり、一つのテクスチャコードがカテゴリの入力形状に依存しない特定の外観スタイルに対応できるようにすることである。
3d形状ではなく,学習可能なuv球面空間でテクスチャを生成するテクスチャuv放射場(tuvf)を導入する。
これにより、テクスチャは下層の形状から切り離され、同じUV空間、すなわち同じカテゴリから同じUV空間を共有する他の形状に転送できる。
我々は、紫外線球面空間を放射場と統合し、従来のテクスチャマップよりも効率的で正確なテクスチャ表現を提供する。
実世界のオブジェクトデータセットで実験を行い、現実的な合成だけでなく、テクスチャ制御と編集に関する最先端技術よりも大幅に改善した。
プロジェクトページ: https://www.anjiecheng.me/TUVF Textures are a vital aspect of creating visually appealing and realistic 3D models. In this paper, we study the problem of generating high-fidelity texture given shapes of 3D assets, which has been relatively less explored compared with generic 3D shape modeling. Our goal is to facilitate a controllable texture generation process, such that one texture code can correspond to a particular appearance style independent of any input shapes from a category. We introduce Texture UV Radiance Fields (TUVF) that generate textures in a learnable UV sphere space rather than directly on the 3D shape. This allows the texture to be disentangled from the underlying shape and transferable to other shapes that share the same UV space, i.e., from the same category. We integrate the UV sphere space with the radiance field, which provides a more efficient and accurate representation of textures than traditional texture maps. We perform our experiments on real-world object datasets where we achieve not only realistic synthesis but also substantial improvements over state-of-the-arts on texture controlling and editing. Project Page: https://www.anjiecheng.me/TUVF | 翻訳日:2023-05-05 14:28:42 公開日:2023-05-04 |
# SuperNOVA:計算ノートにおけるインタラクティブな可視化のための設計戦略と機会 SuperNOVA: Design Strategies and Opportunities for Interactive Visualization in Computational Notebooks ( http://arxiv.org/abs/2305.03039v1 ) ライセンス: Link先を確認 | Zijie J. Wang, David Munechika, Seongmin Lee, Duen Horng Chau | (参考訳) jupyter notebookのような計算ノートブックは、データサイエンティストのデファクトプログラミング環境となっている。
多くの可視化研究者や実践者がノートブックをサポートするインタラクティブな可視化ツールを開発した。
しかし、ノートブックにおけるビジュアル分析(VA)ツールの適切な設計についてはほとんど知られていない。
この重要な研究ギャップを埋めるために,159個のノートVAツールとそのユーザのフィードバックを分析し,この分野の設計戦略を検討する。
私たちの分析では、学術論文から62のシステムと、GitHub上の860万のノートブックをスクラップすることで得られるインタラクティブな視覚化を含む55kノートのプールから得られた103のシステムを含む。
また、379のGitHubイシューにおける15のユーザ調査とユーザフィードバックの結果についても調査した。
本研究により,ノートブックにおけるマルチモーダルデータの操作や可視化・ノートブック統合の度合いのバランスなど,将来のノートブックvaツールのユニークな設計機会と考察を明らかにする。
最後に、研究者が既存のノートブックVAツールを探索し、関連する作業を探すのに役立つオープンソースのインタラクティブツールであるSuperNOVAを開発した。 Computational notebooks such as Jupyter Notebook have become data scientists' de facto programming environments. Many visualization researchers and practitioners have developed interactive visualization tools that support notebooks. However, little is known about the appropriate design of visual analytics (VA) tools in notebooks. To bridge this critical research gap, we investigate the design strategies in this space by analyzing 159 notebook VA tools and their users' feedback. Our analysis encompasses 62 systems from academic papers and 103 systems sourced from a pool of 55k notebooks containing interactive visualizations that we obtain via scraping 8.6 million notebooks on GitHub. We also examine findings from 15 user studies and user feedback in 379 GitHub issues. Through this work, we identify unique design opportunities and considerations for future notebook VA tools, such as using and manipulating multimodal data in notebooks as well as balancing the degree of visualization-notebook integration. Finally, we develop SuperNOVA, an open-source interactive tool to help researchers explore existing notebook VA tools and search for related work. | 翻訳日:2023-05-05 14:28:23 公開日:2023-05-04 |
# 野生映像からのハンドヘルド物体復元の学習 Learning Hand-Held Object Reconstruction from In-The-Wild Videos ( http://arxiv.org/abs/2305.03036v1 ) ライセンス: Link先を確認 | Aditya Prakash, Matthew Chang, Matthew Jin, Saurabh Gupta | (参考訳) 1枚の画像から手持ちの物体を復元するための先行研究は、現実世界で大規模に収集することが難しい直接3d形状の監督に依存している。
したがって、これらのアプローチは、イン・ザ・ワイルドの設定で新しいオブジェクトが提示されるとうまく一般化しない。
3d監督は大きなボトルネックであるが、手とオブジェクトの相互作用を示す生の動画データが豊富にある。
本稿では,このような生ビデオデータから(マルチビュー2Dによる)3D監視を自動的に抽出し,ハンドヘルドオブジェクト再構築のためのモデルの学習を拡大する。
これは、未知のカメラポーズとオクルージョンという、2つの重要な課題に取り組む必要がある。
前者に対しては、オブジェクトポーズのプロキシとしてハンドポーズ(FrankMocapなど、既存のテクニックから予測される)を使用します。
後者では,ObManデータセットから合成オブジェクトを用いて,データ駆動型3D形状の事前学習を行う。
rgb画像から物体の3d形状を予測する、占有ネットワークのトレーニングに、これらの間接的3d手がかりを用いています。
このMOWおよびHO3Dデータセットを用いた実験により,実世界の3Dを直接監督することなく実世界のハンドヘルドオブジェクトの3次元形状を予測できることを示す。 Prior works for reconstructing hand-held objects from a single image rely on direct 3D shape supervision which is challenging to gather in real world at scale. Consequently, these approaches do not generalize well when presented with novel objects in in-the-wild settings. While 3D supervision is a major bottleneck, there is an abundance of in-the-wild raw video data showing hand-object interactions. In this paper, we automatically extract 3D supervision (via multiview 2D supervision) from such raw video data to scale up the learning of models for hand-held object reconstruction. This requires tackling two key challenges: unknown camera pose and occlusion. For the former, we use hand pose (predicted from existing techniques, e.g. FrankMocap) as a proxy for object pose. For the latter, we learn data-driven 3D shape priors using synthetic objects from the ObMan dataset. We use these indirect 3D cues to train occupancy networks that predict the 3D shape of objects from a single RGB image. Our experiments on the MOW and HO3D datasets show the effectiveness of these supervisory signals at predicting the 3D shape for real-world hand-held objects without any direct real-world 3D supervision. | 翻訳日:2023-05-05 14:28:05 公開日:2023-05-04 |
# ドメイン適応物体検出のためのコントラスト平均教師 Contrastive Mean Teacher for Domain Adaptive Object Detectors ( http://arxiv.org/abs/2305.03034v1 ) ライセンス: Link先を確認 | Shengcao Cao, Dhiraj Joshi, Liang-Yan Gui, Yu-Xiong Wang | (参考訳) オブジェクト検出器は、しばしばトレーニング(ソースドメイン)と現実世界のアプリケーション(ターゲットドメイン)の間のドメイン間ギャップに苦しむ。
平均教師の自己学習は、オブジェクト検出のための教師なしドメイン適応の強力なパラダイムであるが、低品質の擬似ラベルに苦しむ。
本研究では,平均教師の自己学習とコントラスト学習の相互作用と相乗効果を考察する。
そこで我々は,2つのパラダイムが自然に統合され,有益な学習信号の最大化に寄与する,統一的汎用フレームワークであるContrastive Mean Teacher (CMT)を提案する。
最終予測のみに擬似ラベルを使用する代わりに,擬似ラベルを用いてオブジェクトレベルの特徴を抽出し,対象領域のラベルを必要とせずにコントラスト学習により最適化する。
最近の平均教師の自己訓練手法と組み合わせると、CMTは新たな最先端の目標ドメインのパフォーマンスを導く: 51.9% mAP on Foggy Cityscapes で、これまでで最高の2.1% mAPを上回った。
特にCMTは、擬似ラベルノイズの増加に伴い、性能を安定させ、より顕著な利得を得ることができる。 Object detectors often suffer from the domain gap between training (source domain) and real-world applications (target domain). Mean-teacher self-training is a powerful paradigm in unsupervised domain adaptation for object detection, but it struggles with low-quality pseudo-labels. In this work, we identify the intriguing alignment and synergy between mean-teacher self-training and contrastive learning. Motivated by this, we propose Contrastive Mean Teacher (CMT) -- a unified, general-purpose framework with the two paradigms naturally integrated to maximize beneficial learning signals. Instead of using pseudo-labels solely for final predictions, our strategy extracts object-level features using pseudo-labels and optimizes them via contrastive learning, without requiring labels in the target domain. When combined with recent mean-teacher self-training methods, CMT leads to new state-of-the-art target-domain performance: 51.9% mAP on Foggy Cityscapes, outperforming the previously best by 2.1% mAP. Notably, CMT can stabilize performance and provide more significant gains as pseudo-label noise increases. | 翻訳日:2023-05-05 14:27:46 公開日:2023-05-04 |
# ランダムにBPEマージ操作を選択すると、どうなるか?
あまりない What changes when you randomly choose BPE merge operations? Not much ( http://arxiv.org/abs/2305.03029v1 ) ライセンス: Link先を確認 | Jonne S\"alev\"a and Constantine Lignos | (参考訳) 本稿では,bpe(byte pair encoding)の3つの単純な変種を紹介し,マージ操作の選択が下流機械翻訳タスクに実質的に影響を及ぼすかどうかを検討する。
形態学的に豊かな言語への翻訳に焦点をあて、このタスクはサブワードの選択方法に敏感であるかもしれないと仮定する。
ベイズ線形モデルを用いて解析したところ、2つの変種は標準のBPEと比較してほぼ区別できない性能を示し、他方の変種は予想以上に性能を低下させる。
標準BPEは広く使われているが、調査する価値のある潜在的なバリエーションの興味深い宇宙が存在すると結論付けている。
私たちのコードは、https://github.com/bltlab/random-bpeで利用可能です。 We introduce three simple randomized variants of byte pair encoding (BPE) and explore whether randomizing the selection of merge operations substantially affects a downstream machine translation task. We focus on translation into morphologically rich languages, hypothesizing that this task may show sensitivity to the method of choosing subwords. Analysis using a Bayesian linear model indicates that two of the variants perform nearly indistinguishably compared to standard BPE while the other degrades performance less than we anticipated. We conclude that although standard BPE is widely used, there exists an interesting universe of potential variations on it worth investigating. Our code is available at: https://github.com/bltlab/random-bpe. | 翻訳日:2023-05-05 14:27:25 公開日:2023-05-04 |
# NeRSemble: 頭部の多視点放射場再構成 NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads ( http://arxiv.org/abs/2305.03027v1 ) ライセンス: Link先を確認 | Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nie{\ss}ner | (参考訳) 我々は,人間の頭部の高忠実な放射界の再構築,時間とともにアニメーションを捉え,任意の時間ステップで新たな視点から再レンダリングを合成することに集中する。
そこで本研究では,時間同期画像を7.1MP解像度,73フレーム/秒で記録する16個の校正マシンビジョンカメラからなる,新しいマルチビューキャプチャ装置を提案する。
我々は220以上の人間の頭部の4700以上の高解像度・高フレームシーケンスからなる新しいデータセットを収集し,新しいヒト頭蓋再建ベンチマークを提案する。
記録されたシーケンスは、頭部の動き、自然な表情、感情、話し言葉など、幅広い顔の動きをカバーしている。
高忠実度人間の頭部を再構成するために,ハッシュアンサンブル(NeRSembles)を用いた動的ニューラルラジアンス場を提案する。
変形場と3次元多重解像度ハッシュ符号化のアンサンブルを組み合わせることでシーンダイナミクスを表現する。
変形場は単純なシーンの動きを正確にモデル化できるが、ハッシュエンコーディングのアンサンブルは複雑なダイナミクスを表現するのに役立つ。
その結果、時間とともに動きを捉え、任意の視点の再レンダリングを容易にする人間の頭部の放射場表現が得られる。
一連の実験で,提案手法の設計選択を探究し,そのアプローチが最先端の動的放射能場アプローチを著しく上回っていることを示す。 We focus on reconstructing high-fidelity radiance fields of human heads, capturing their animations over time, and synthesizing re-renderings from novel viewpoints at arbitrary time steps. To this end, we propose a new multi-view capture setup composed of 16 calibrated machine vision cameras that record time-synchronized images at 7.1 MP resolution and 73 frames per second. With our setup, we collect a new dataset of over 4700 high-resolution, high-framerate sequences of more than 220 human heads, from which we introduce a new human head reconstruction benchmark. The recorded sequences cover a wide range of facial dynamics, including head motions, natural expressions, emotions, and spoken language. In order to reconstruct high-fidelity human heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles (NeRSemble). We represent scene dynamics by combining a deformation field and an ensemble of 3D multi-resolution hash encodings. The deformation field allows for precise modeling of simple scene movements, while the ensemble of hash encodings helps to represent complex dynamics. As a result, we obtain radiance field representations of human heads that capture motion over time and facilitate re-rendering of arbitrary novel viewpoints. In a series of experiments, we explore the design choices of our method and demonstrate that our approach outperforms state-of-the-art dynamic radiance field approaches by a significant margin. | 翻訳日:2023-05-05 14:27:14 公開日:2023-05-04 |
# 月は誰も見えなければそこにあるのか?ベルの不平等と物理的な現実」に関するさらなるコメントがある。 Further comments on "Is the moon there if nobody looks? Bell inequalities and physical reality" ( http://arxiv.org/abs/2305.03026v1 ) ライセンス: Link先を確認 | Richard D. Gill | (参考訳) Kupczynski (2023) は、Gill and Lambare (2022a, 2022b) が出版した論文のいくつかを誤解していると主張している。
本稿では,ベル実験における「デフォルトのコンテキスト性」モデルの最新版では,ベル実験における観測結果の統計値に制約はないことを示す。
これにより、遠距離測定結果に対する局所測定設定の任意の非局所性、すなわち直接因果効果を効果的に許す。 Kupczynski (2023) claims that Gill and Lambare (2022a, 2022b) misrepresent several of his published papers. This paper shows that the latest version of his "contextuality by default" model of a Bell experiment places no constraints whatsoever on the statistics of observed results in Bell type experiments. It thereby effectively allows arbitrary non-locality, ie direct causal effects of local measurement settings on distant measurement outcomes. | 翻訳日:2023-05-05 14:26:51 公開日:2023-05-04 |
# Panda LLM: オープンソース中国語教育モデルの学習データと評価 Panda LLM: Training Data and Evaluation for Open-Sourced Chinese Instruction-Following Large Language Models ( http://arxiv.org/abs/2305.03025v1 ) ライセンス: Link先を確認 | Fangkai Jiao, Bosheng Ding, Tianze Luo, Zhanfeng Mo | (参考訳) 本研究は,インストラクションチューニングによるオープンソースの大規模言語モデルの強化と,その性能の総合評価に焦点をあてる。
英語と中国語の両方で公開アクセス可能な高品質な授業データセット上でトレーニングされた命令調整モデルの性能に,数量,品質,言語分布といったさまざまなトレーニングデータ要素が与える影響について検討する。
私たちの目標は、定量的分析で評価を補完し、オープンソースチャットモデルの継続的な進歩に有用な洞察を提供することです。
私たちのモデル、データ、コードは、他の人が使用して構築するために公開されています。 This project focuses on enhancing open-source large language models through instruction-tuning and providing comprehensive evaluations of their performance. We explore how various training data factors, such as quantity, quality, and linguistic distribution, influence the performance of instruction-tuned models trained on publicly accessible high-quality instruction datasets for both English and Chinese languages. Our goal is to supplement evaluation with quantitative analyses, providing valuable insights for the continued advancement of open-source chat models. Our model, data, and code are publicly available for others to use and build upon. | 翻訳日:2023-05-05 14:26:42 公開日:2023-05-04 |
# BERT と Query-Aware LSH を用いたインフォームドキュメンテーションにおけるコード例推薦の改善 : 比較検討 Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study ( http://arxiv.org/abs/2305.03017v1 ) ライセンス: Link先を確認 | Sajjad Rahmani, AmirHossein Naghshzan, Latifa Guerrouj | (参考訳) コード例レコメンデーションの研究は、開発者がソフトウェア開発タスクを補助するために、過去および最近広範囲にわたって行われてきた。
なぜなら、開発者はしばしば、オープンソースプロジェクトや非公式のドキュメントを利用して、インターネット上の関連するコード例を探すのにかなりの時間を費やしているからです。
有用なコード例を見つけるには,Stack Overflowの議論やフォーラムなど,非公式なドキュメントが有用だ。
stack overflowはソフトウェア開発者の間でさまざまなトピックについて議論するための一般的なリソースです。
推奨コード例の品質を高めるため、Javaプログラミング言語の最良のコード例を収集し、推奨しました。
提案手法では,テキストデータから意味情報を効果的に抽出できるLarge Language Model (LLM) を用いてテキスト表現を行った。
最初のステップはBERTを使ってコード例を数値ベクトルに変換することです。
その後,LSHを用いてANN (Approximate Nearest Neighbors) を同定した。
本研究は,Random HyperplaneベースのLSHとQuery-Aware LSHという,このアプローチの2つの変種を実装した。
本研究は,HitRate,Mean Reciprocal Rank (MRR),Average Execution Time,Relevanceの4つのパラメータを用いた2つのアルゴリズムを比較した。
解析の結果,Query-Aware (QA) アプローチはRandom Hyperplane-based (RH) アプローチよりもHitRate の方が優れていた。
特に、qaアプローチは、rhアプローチと比較してクエリペアの20%から35%のヒット率向上を達成した。
QAアプローチを使用したハッシュテーブルの作成とデータサンプルのバケットへの割り当ては、RHアプローチの少なくとも4倍高速である。
QAアプローチはミリ秒以内にコード例を返すが、コード例を推奨するにはRHアプローチに数秒(秒)かかる。 The study of code example recommendation has been conducted extensively in the past and recently in order to assist developers in their software development tasks. This is because developers often spend significant time searching for relevant code examples on the internet, utilizing open-source projects and informal documentation. For finding useful code examples, informal documentation, such as Stack Overflow discussions and forums, can be invaluable. We have focused our research on Stack Overflow, which is a popular resource for discussing different topics among software developers. For increasing the quality of the recommended code examples, we have collected and recommended the best code examples in the Java programming language. We have utilized BERT in our approach, which is a Large Language Model (LLM) for text representation that can effectively extract semantic information from textual data. Our first step involved using BERT to convert code examples into numerical vectors. Subsequently, we applied LSH to identify Approximate Nearest Neighbors (ANN). Our research involved the implementation of two variants of this approach, namely the Random Hyperplane-based LSH and the Query-Aware LSH. Our study compared two algorithms using four parameters: HitRate, Mean Reciprocal Rank (MRR), Average Execution Time, and Relevance. The results of our analysis revealed that the Query- Aware (QA) approach outperformed the Random Hyperplane-based (RH) approach in terms of HitRate. Specifically, the QA approach achieved a HitRate improvement of 20% to 35% for query pairs compared to the RH approach. Creating hashing tables and assigning data samples to buckets using the QA approach is at least four times faster than the RH approach. The QA approach returns code examples within milliseconds, while it takes several seconds (sec) for the RH approach to recommend code examples. | 翻訳日:2023-05-05 14:26:17 公開日:2023-05-04 |
# ジピット!
異なるタスクからトレーニングなしでモデルをマージする ZipIt! Merging Models from Different Tasks without Training ( http://arxiv.org/abs/2305.03053v1 ) ライセンス: Link先を確認 | George Stoica, Daniel Bolya, Jakob Bjorner, Taylor Hearn, Judy Hoffman | (参考訳) 一般的なディープビジュアル認識モデルは、訓練されたタスクを実行することができる。
本稿では,異なる初期化モデルと全く異なる初期化モデルを組み合わせて,個別のタスクを個別に解き,追加のトレーニングをすることなく1つのマルチタスクモデルに組み込むという,極めて難しい問題に取り組む。
モデルマージにおける以前の作業は、一方のモデルを他方の空間に置換し、それらを追加します。
これは同じタスクでトレーニングされたモデルに当てはまるが、非結合タスクでトレーニングされたモデルの違いを考慮するのに失敗する。
そこで我々は,2つの簡単な戦略を組み込んだ,同じアーキテクチャの2つの任意のモデルを統合する一般的な手法であるZipIt!を紹介する。
まず、モデル間で共有されていない機能を説明するために、一般的な「zip」操作を定義して各モデル内の機能をマージできるように、モデルマージ問題を拡張します。
第二に、我々はモデルを特定の層まで部分的にジップし、自然にマルチヘッドモデルを作成するサポートを追加します。
これら2つの変更が組み合わさることで,前回の作業に対する20~60%の大幅な改善が図られ,非協力的なタスクでトレーニングされたモデルの統合が実現可能であることが分かりました。 Typical deep visual recognition models are capable of performing the one task they were trained on. In this paper, we tackle the extremely difficult problem of combining completely distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training. Prior work in model merging permutes one model to the space of the other then adds them together. While this works for models trained on the same task, we find that this fails to account for the differences in models trained on disjoint tasks. Thus, we introduce "ZipIt!", a general method for merging two arbitrary models of the same architecture that incorporates two simple strategies. First, in order to account for features that aren't shared between models, we expand the model merging problem to additionally allow for merging features within each model by defining a general "zip" operation. Second, we add support for partially zipping the models up until a specified layer, naturally creating a multi-head model. We find that these two changes combined account for a staggering 20-60% improvement over prior work, making the merging of models trained on disjoint tasks feasible. | 翻訳日:2023-05-05 14:21:16 公開日:2023-05-04 |
# 野生における容器・咬合器の追跡 Tracking through Containers and Occluders in the Wild ( http://arxiv.org/abs/2305.03052v1 ) ライセンス: Link先を確認 | Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick | (参考訳) 乱雑でダイナミックな環境でオブジェクトを追跡することは、コンピュータビジョンシステムにとって難しい課題である。
本稿では,重閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$\textbf{TCOW}$を紹介する。
我々は,映像シーケンスを前提として,対象物の投影範囲と周囲のコンテナやオクルーダの両方を分割するタスクを設定した。
この課題を研究するために,教師付き学習とモデル性能の構造化評価の両方をサポートするために,合成データセットと注釈付き実データセットの混合を作成した。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得する前には,かなりの性能差が残っていることを発見した。 Tracking objects with persistence in cluttered and dynamic environments remains a difficult challenge for computer vision systems. In this paper, we introduce $\textbf{TCOW}$, a new benchmark and model for visual tracking through heavy occlusion and containment. We set up a task where the goal is to, given a video sequence, segment both the projected extent of the target object, as well as the surrounding container or occluder whenever one exists. To study this task, we create a mixture of synthetic and annotated real datasets to support both supervised learning and structured evaluation of model performance under various forms of task variation, such as moving or nested containment. We evaluate two recent transformer-based video models and find that while they can be surprisingly capable of tracking targets under certain settings of task variation, there remains a considerable performance gap before we can claim a tracking model to have acquired a true notion of object permanence. | 翻訳日:2023-05-05 14:20:43 公開日:2023-05-04 |
# 制御可能な視覚触覚合成 Controllable Visual-Tactile Synthesis ( http://arxiv.org/abs/2305.03051v1 ) ライセンス: Link先を確認 | Ruihan Gao, Wenzhen Yuan, Jun-Yan Zhu | (参考訳) 深層生成モデルには、グラフィックデザイン、eコマース、仮想トライオンなど、さまざまなコンテンツ作成アプリケーションがある。
しかしながら、現在の研究は主に現実的な視覚出力の合成に重点を置いており、ユーザとの物理的相互作用を制限するタッチのような他の感覚的モダリティを無視していることが多い。
本研究では,触覚面上で指を滑らせる際に,合成物体に触れたり見たりできるマルチセンサー体験を実現するために,深層生成モデルを活用する。
主な課題は、視覚とタッチセンシングの大規模な相違と、タッチセンシングデータから触覚レンダリングデバイスへの明示的なマッピングの欠如にある。
このギャップを埋めるために、私たちはGelSightセンサーで高解像度の触覚データを収集し、新しいビゾタクティル衣料データセットを作成します。
次に,1つのスケッチから視覚と触覚の出力を合成する条件付き生成モデルを開発した。
画像品質と触覚レンダリングの精度について評価した。
最後に,没入型体験のための電気粘着式触覚装置に高品質な視覚・触覚出力を描画するパイプラインを導入し,課題材料やスケッチ入力の編集を可能にした。 Deep generative models have various content creation applications such as graphic design, e-commerce, and virtual Try-on. However, current works mainly focus on synthesizing realistic visual outputs, often ignoring other sensory modalities, such as touch, which limits physical interaction with users. In this work, we leverage deep generative models to create a multi-sensory experience where users can touch and see the synthesized object when sliding their fingers on a haptic surface. The main challenges lie in the significant scale discrepancy between vision and touch sensing and the lack of explicit mapping from touch sensing data to a haptic rendering device. To bridge this gap, we collect high-resolution tactile data with a GelSight sensor and create a new visuotactile clothing dataset. We then develop a conditional generative model that synthesizes both visual and tactile outputs from a single sketch. We evaluate our method regarding image quality and tactile rendering accuracy. Finally, we introduce a pipeline to render high-quality visual and tactile outputs on an electroadhesion-based haptic device for an immersive experience, allowing for challenging materials and editable sketch inputs. | 翻訳日:2023-05-05 14:20:17 公開日:2023-05-04 |
# NeuralEditor: 点雲を操作するニューラルネットワークフィールドの編集 NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds ( http://arxiv.org/abs/2305.03049v1 ) ライセンス: Link先を確認 | Jun-Kun Chen, Jipeng Lyu, Yu-Xiong Wang | (参考訳) 本稿では,一般的な形状編集タスクに対して,ニューラルレイディアンスフィールド(NeRF)をネイティブに編集できるニューラルエディタを提案する。
ノベルビュー合成に関する印象的な結果にもかかわらず、NeRFがシーンの形状を編集することは依然として根本的な課題である。
我々の重要な洞察は、NeRFの直感的な解釈にインスパイアされ、2次元画像平面に関連付けられた3Dポイントクラウドを投影または「プロット」するプロセスとして、NeRFを構築するための基盤構造として、明示的なポイントクラウド表現を活用することである。
この目的のために、NeuralEditorはK-D木誘導密度適応ボクセル内の決定論的統合に基づく新しいレンダリング方式を導入し、最適化により高品質なレンダリング結果と正確な点雲を生成する。
NeuralEditorは、関連するポイントをポイントクラウド間でマッピングすることで、形状編集を行う。
広範囲な評価の結果,NeuralEditorは形状変形とシーン変形の両タスクにおいて最先端の性能を発揮することがわかった。
特に、NeuralEditorはゼロショット推論と、編集シーンのさらなる微調整の両方をサポートしている。
私たちのコード、ベンチマーク、デモビデオはhttps://immortalco.github.io/neuraleditor.com/で閲覧できます。 This paper proposes NeuralEditor that enables neural radiance fields (NeRFs) natively editable for general shape editing tasks. Despite their impressive results on novel-view synthesis, it remains a fundamental challenge for NeRFs to edit the shape of the scene. Our key insight is to exploit the explicit point cloud representation as the underlying structure to construct NeRFs, inspired by the intuitive interpretation of NeRF rendering as a process that projects or "plots" the associated 3D point cloud to a 2D image plane. To this end, NeuralEditor introduces a novel rendering scheme based on deterministic integration within K-D tree-guided density-adaptive voxels, which produces both high-quality rendering results and precise point clouds through optimization. NeuralEditor then performs shape editing via mapping associated points between point clouds. Extensive evaluation shows that NeuralEditor achieves state-of-the-art performance in both shape deformation and scene morphing tasks. Notably, NeuralEditor supports both zero-shot inference and further fine-tuning over the edited scene. Our code, benchmark, and demo video are available at https://immortalco.github.io/NeuralEditor. | 翻訳日:2023-05-05 14:19:57 公開日:2023-05-04 |
# 1ショットでモデルをパーソナライズする Personalize Segment Anything Model with One Shot ( http://arxiv.org/abs/2305.03048v1 ) ライセンス: Link先を確認 | Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li | (参考訳) 大規模データの事前トレーニングによって、セグメント化モデル(sam)は強力で迅速なフレームワークとして実証され、セグメンテーションモデルに革命をもたらした。
一般性にもかかわらず、人力プロンプトなしで特定の視覚概念のためにSAMをカスタマイズすることは、例えば、あなたのペット犬を異なる画像に自動的に分割するなど、検討されている。
本稿では, PerSAM と呼ばれる SAM の学習自由なパーソナライズ手法を提案する。
参照マスクのある1枚の画像だけを与えられると、persamはまず、ターゲットのコンセプトを以前の位置でローカライズし、それを他の画像やビデオに3つの技術(ターゲットガイドによる注意、ターゲット・セマンティクス・プロンプト、カスケード後の再定義)で分割する。
このように、SAMをトレーニングなしでプライベートな用途に効果的に適用する。
さらにマスクのあいまいさを軽減するため、効率の良いワンショット微調整変種PerSAM-Fを提案する。
SAM全体を凍結し、マルチスケールマスクに2つの学習可能な重みを導入し、性能向上のために10秒以内に2つのパラメータをトレーニングするのみである。
本手法の有効性を示すために,パーソナライズ評価のための新しいセグメンテーションデータセットpersegを構築し,競合する性能でビデオオブジェクトセグメンテーションの手法をテストする。
さらに,本手法は,テキストから画像への拡散を安定的にパーソナライズするためにdreamboothも強化する。
コードはhttps://github.com/zrrskywalker/personalize-samでリリース Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM | 翻訳日:2023-05-05 14:19:36 公開日:2023-05-04 |
# 最小限の人間の監督によるスクラッチからの言語モデルの原則駆動型自己調整 Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision ( http://arxiv.org/abs/2305.03047v1 ) ライセンス: Link先を確認 | Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan | (参考訳) ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションによる教師付き微調整(SFT)と人間のフィードバックからの強化学習(RLHF)を主に頼りにしており、大きな言語モデル(LLM)の出力と人間の意図を一致させ、それらが有益で倫理的で信頼性の高いものであることを保証している。
しかし、この依存は、人間の監督を得るための高いコストと、品質、信頼性、多様性、自己矛盾、望ましくないバイアスに関する関連する問題のために、aiアシスタントエージェントの真のポテンシャルを著しく制限することができる。
これらの課題に対処するため,本研究では,AIエージェントの自己調整のための原則駆動推論とLLMの生成能力を組み合わせた,SELF-ALIGNという新しいアプローチを提案する。
Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses.
また,SELF-ALIGNをLLaMA-65bベース言語モデルに適用し,DromedaryというAIアシスタントを開発した。
300行未満の人間のアノテーション(200行以上のシードプロンプト、16のジェネリック原則、インコンテキスト学習のための5つの例を含む)を持つ。
Dromedaryは、さまざまな設定のベンチマークデータセット上で、Text-Davinci-003やAlpacaなど、最先端のAIシステムのパフォーマンスを大幅に上回る。 Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised fine-tuning (SFT) with human annotations and reinforcement learning from human feedback (RLHF) to align the output of large language models (LLMs) with human intentions, ensuring they are helpful, ethical, and reliable. However, this dependence can significantly constrain the true potential of AI-assistant agents due to the high cost of obtaining human supervision and the related issues on quality, reliability, diversity, self-consistency, and undesirable biases. To address these challenges, we propose a novel approach called SELF-ALIGN, which combines principle-driven reasoning and the generative power of LLMs for the self-alignment of AI agents with minimal human supervision. Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. Applying SELF-ALIGN to the LLaMA-65b base language model, we develop an AI assistant named Dromedary. With fewer than 300 lines of human annotations (including < 200 seed prompts, 16 generic principles, and 5 exemplars for in-context learning). Dromedary significantly surpasses the performance of several state-of-the-art AI systems, including Text-Davinci-003 and Alpaca, on benchmark datasets with various settings. | 翻訳日:2023-05-05 14:19:06 公開日:2023-05-04 |
# OctFormer: 3Dポイントクラウド用のOctreeベースのトランスフォーマー OctFormer: Octree-based Transformers for 3D Point Clouds ( http://arxiv.org/abs/2305.03045v1 ) ライセンス: Link先を確認 | Peng-Shuai Wang | (参考訳) OctFormerは3Dポイントクラウドセグメンテーションとオブジェクト検出のための汎用的で効果的なバックボーンとして機能するだけでなく、線形複雑性を持ち、大規模ポイントクラウドにもスケーラブルである。
ポイントクラウドにトランスフォーマーを適用する上で重要な課題は、注意の2次的、すなわち圧倒的な計算複雑性を減らすことである。
この問題に対処するため、いくつかの作業は点雲を重複しないウィンドウに分割し、各ローカルウィンドウで注意を拘束する。
しかし、各ウィンドウのポイント番号は大きく異なり、GPU上での効率的な実行を妨げる。
局所窓の形状に対して注意が頑健であることを確認するため,オクツリーのシャッフルキーをソートして,一定数の点を含む局所窓に分割し,窓の形状を自由に変化させることができる新しいオクツリーアテンションを提案する。
また,拡大したオクツリーの注意も導入し,受容野をさらに拡大する。
octreeの注目度は,オープンソースライブラリを使用した10行のコードで実装可能で,ポイント数が200kを越えると,他のポイントクラウドの注意度よりも17倍高速になります。
octreeの注意力に基づいて構築されたocformerは、簡単にスケールアップでき、一連の3dセグメンテーションと検出ベンチマークで最先端のパフォーマンスを達成でき、効率と効果の両面で従来のスパース・ボクセルベースのcnnとポイント・クラウドトランスフォーマーを上回っている。
特に、挑戦的なScanNet200データセットでは、OcctFormerは、mIoUでスパースボクセルベースのCNNを7.3上回っている。
私たちのコードとトレーニングされたモデルは、https://wang-ps.github.io/octformerで利用可能です。 OctFormer can not only serve as a general and effective backbone for 3D point cloud segmentation and object detection but also have linear complexity and is scalable for large-scale point clouds. The key challenge in applying transformers to point clouds is reducing the quadratic, thus overwhelming, computation complexity of attentions. To combat this issue, several works divide point clouds into non-overlapping windows and constrain attentions in each local window. However, the point number in each window varies greatly, impeding the efficient execution on GPU. Observing that attentions are robust to the shapes of local windows, we propose a novel octree attention, which leverages sorted shuffled keys of octrees to partition point clouds into local windows containing a fixed number of points while permitting shapes of windows to change freely. And we also introduce dilated octree attention to expand the receptive field further. Our octree attention can be implemented in 10 lines of code with open-sourced libraries and runs 17 times faster than other point cloud attentions when the point number exceeds 200k. Built upon the octree attention, OctFormer can be easily scaled up and achieves state-of-the-art performances on a series of 3D segmentation and detection benchmarks, surpassing previous sparse-voxel-based CNNs and point cloud transformers in terms of both efficiency and effectiveness. Notably, on the challenging ScanNet200 dataset, OctFormer outperforms sparse-voxel-based CNNs by 7.3 in mIoU. Our code and trained models are available at https://wang-ps.github.io/octformer. | 翻訳日:2023-05-05 14:18:31 公開日:2023-05-04 |
# 可変型量子固有解器からの電子励起状態 Electronic Excited States from a Variance-Based Contracted Quantum Eigensolver ( http://arxiv.org/abs/2305.03044v1 ) ライセンス: Link先を確認 | Yuchen Wang and David A. Mazziotti | (参考訳) 分子の電子励起状態は多くの物理および化学過程の中心であるが、通常は基底状態よりも計算が難しい。
本稿では,量子コンピュータの利点を活かし,励起状態の高精度計算のためのアルゴリズムを開発した。
縮約したschr\"odinger方程式(cse) -- 2つの電子の空間へのschr\"odinger方程式の縮約(射影) -- を解き、その解はschr\"odinger方程式の基底状態と励起状態と一致する。
最近のcse(contracted quantum eigensolvers, cqe)の量子アルゴリズムは基底状態に着目しているが, 基底状態や励起状態に対して高速に最適化するように設計された分散に基づくcqeを開発した。
我々は,H$_{4}$およびBHの基底および励起状態の計算に,ノイズのない古典的シミュレーションにアルゴリズムを適用した。 Electronic excited states of molecules are central to many physical and chemical processes, and yet they are typically more difficult to compute than ground states. In this paper we leverage the advantages of quantum computers to develop an algorithm for the highly accurate calculation of excited states. We solve a contracted Schr\"odinger equation (CSE) -- a contraction (projection) of the Schr\"odinger equation onto the space of two electrons -- whose solutions correspond identically to the ground and excited states of the Schr\"odinger equation. While recent quantum algorithms for solving the CSE, known as contracted quantum eigensolvers (CQE), have focused on ground states, we develop a CQE based on the variance that is designed to optimize rapidly to a ground or excited state. We apply the algorithm in a classical simulation without noise to computing the ground and excited states of H$_{4}$ and BH. | 翻訳日:2023-05-05 14:18:01 公開日:2023-05-04 |
# 連続的テクスチャパラメーターを用いたシングルショットインプリシタブル顔 Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization ( http://arxiv.org/abs/2305.03043v1 ) ライセンス: Link先を確認 | Connor Z. Lin, Koki Nagano, Jan Kautz, Eric R. Chan, Umar Iqbal, Leonidas Guibas, Gordon Wetzstein, Sameh Khamis | (参考訳) アニマブルでカスタマイズ可能な高品質な3Dアバターの製作に対する需要が高まっている。
3d morphable modelは、編集とアニメーションの直感的な制御と、単視点顔再構成のロバスト性を提供するが、幾何学的および外観的詳細を容易に捉えることはできない。
符号付き距離関数(SDF)やニューラルラディアンスフィールドなどの暗黙的表現に基づく手法は、フォトリアリズムにアプローチするが、アニメーション化が困難であり、目に見えないデータにうまく一般化しない。
この問題に対処するために,一般化可能かつ直感的に編集できる暗黙的な3次元顔モデルを構築する手法を提案する。
高品質な3Dスキャンから学習した顔モデルは、幾何学、表現、テクスチャ潜在符号によってパラメータ化され、学習されたSDFと明示的なUVテクスチャパラメータ化を行う。
トレーニングを済ませば,学習前のアバターをモデル内の潜伏空間に投影することで,単一の内蔵画像からアバターを再構築することができる。
私たちの暗黙のモーファブルな顔モデルは、新しいビューからのアバターのレンダリング、表情コードの変更による表情のアニメーション、学習したuvテキストマップに直接絵を描くことによってテクスチャの編集に使用できます。
本手法は,光リアリズム,幾何学,表現精度を最先端手法と比較して定量的,定性的に改善することを示す。 There is a growing demand for the accessible creation of high-quality 3D avatars that are animatable and customizable. Although 3D morphable models provide intuitive control for editing and animation, and robustness for single-view face reconstruction, they cannot easily capture geometric and appearance details. Methods based on neural implicit representations, such as signed distance functions (SDF) or neural radiance fields, approach photo-realism, but are difficult to animate and do not generalize well to unseen data. To tackle this problem, we propose a novel method for constructing implicit 3D morphable face models that are both generalizable and intuitive for editing. Trained from a collection of high-quality 3D scans, our face model is parameterized by geometry, expression, and texture latent codes with a learned SDF and explicit UV texture parameterization. Once trained, we can reconstruct an avatar from a single in-the-wild image by leveraging the learned prior to project the image into the latent space of our model. Our implicit morphable face models can be used to render an avatar from novel views, animate facial expressions by modifying expression codes, and edit textures by directly painting on the learned UV-texture maps. We demonstrate quantitatively and qualitatively that our method improves upon photo-realism, geometry, and expression accuracy compared to state-of-the-art methods. | 翻訳日:2023-05-05 14:17:40 公開日:2023-05-04 |
# VAEは分子グラフの再構築に不向きか? Are VAEs Bad at Reconstructing Molecular Graphs? ( http://arxiv.org/abs/2305.03041v1 ) ライセンス: Link先を確認 | Hagen Muenkler, Hubert Misztela, Michal Pikusa, Marwin Segler, Nadine Schneider, Krzysztof Maziarz | (参考訳) 分子の現代の生成モデルは、分子グラフの変分オートエンコーダである。
トレーニング損失の1つの期間は、入力の再構築に関連するが、最先端モデルの再構築能力は、大規模で化学的に多様なデータセットで完全に比較されていない。
本研究は,複数の最先端生成モデルが同一条件下で評価された場合,その復元精度は従来報告されていたより驚くほど低く,より難しいデータセットで報告されていたものより劣っていることを示す。
しかし,リコンストラクションの改善は,直接サンプリングや最適化性能の向上につながるものではない。
MoLeRモデルからの欠損した再構成は通常、入力と似ており、同じモチーフを異なる方法で組み立て、溶解度などの類似した化学的性質を有する。
最後に, 入力分子とその欠損した再構成が, 異なるエンコーダによって, 統計的に識別可能な後方分布にマッピングされていることを示し, 後方崩壊がvaesが分子グラフの再構成に悪影響を与える理由を完全に説明できないことを示唆する。 Many contemporary generative models of molecules are variational auto-encoders of molecular graphs. One term in their training loss pertains to reconstructing the input, yet reconstruction capabilities of state-of-the-art models have not yet been thoroughly compared on a large and chemically diverse dataset. In this work, we show that when several state-of-the-art generative models are evaluated under the same conditions, their reconstruction accuracy is surprisingly low, worse than what was previously reported on seemingly harder datasets. However, we show that improving reconstruction does not directly lead to better sampling or optimization performance. Failed reconstructions from the MoLeR model are usually similar to the inputs, assembling the same motifs in a different way, and possess similar chemical properties such as solubility. Finally, we show that the input molecule and its failed reconstruction are usually mapped by the different encoders to statistically distinguishable posterior distributions, hinting that posterior collapse may not fully explain why VAEs are bad at reconstructing molecular graphs. | 翻訳日:2023-05-05 14:17:13 公開日:2023-05-04 |
# オプションフレームワークに基づくマルチモード探索による自律的非モノリシックエージェント An Autonomous Non-monolithic Agent with Multi-mode Exploration based on Options Framework ( http://arxiv.org/abs/2305.01322v2 ) ライセンス: Link先を確認 | JaeYoon Kim, Junyu Xuan, Christy Liang, Farookh Hussain | (参考訳) 強化学習(RL)に関するほとんどの調査研究は、「探索の方法」である「探索の方法」に注意を払っている。
その他の探査研究である'when to exploration'は、rl探査研究の主要な焦点とはなっていない。
通常のRL探査行動におけるモノリシックな探査の「いつ」の問題は、エージェントの搾取行動に探索的行動に結びついている。
近年、人間や動物のモード切り替えによる探索行動を調べる非石器探査研究が出現している。
私たちの研究の究極の目標は、エージェントがいつ自律的に探索するか、あるいは活用するかを判断できるようにすることです。
オプションフレームワークにおける非モノリシックな振る舞いの自律的マルチモード探索の初期研究について述べる。
本手法は, 既往の非モノリシック探査法に対して, 比較実験により高い性能を示す。 Most exploration research on reinforcement learning (RL) has paid attention to `the way of exploration', which is `how to explore'. The other exploration research, `when to explore', has not been the main focus of RL exploration research. The issue of `when' of a monolithic exploration in the usual RL exploration behaviour binds an exploratory action to an exploitational action of an agent. Recently, a non-monolithic exploration research has emerged to examine the mode-switching exploration behaviour of humans and animals. The ultimate purpose of our research is to enable an agent to decide when to explore or exploit autonomously. We describe the initial research of an autonomous multi-mode exploration of non-monolithic behaviour in an options framework. The higher performance of our method is shown against the existing non-monolithic exploration method through comparative experimental results. | 翻訳日:2023-05-05 11:57:59 公開日:2023-05-04 |
# 集合的意思決定における知識限界を解き明かす専門木 Expertise Trees Resolve Knowledge Limitations in Collective Decision-Making ( http://arxiv.org/abs/2305.01063v2 ) ライセンス: Link先を確認 | Axel Abels, Tom Lenaerts, Vito Trianni, Ann Now\'e | (参考訳) 意思決定者を助言する専門家は、問題インスタンスの機能として異なる専門知識を表示する可能性が高い。
実際には、これは少数例に対する準最適または差別的な決定につながる可能性がある。
本研究では,問題空間を専門知識の異なる領域に分割する手法として,知識の深さと幅の変化をモデル化する。
ここでは,問題インスタンスと専門家の知識の関係を明示的に考慮し,適応する新たなアルゴリズムを提案する。
まず,最近傍クエリに基づくナイーブなアプローチの欠点を提案し,その問題点を強調する。
これらの欠点に対処するために、学習者が適切なモデルを選択することができる決定木を構成する新しいアルゴリズム、専門木を導入する。
我々は理論的な洞察を提供し、既存の手法が不十分であることが判明した様々な問題に対して、新しいアプローチの性能向上を実証的に検証する。 Experts advising decision-makers are likely to display expertise which varies as a function of the problem instance. In practice, this may lead to sub-optimal or discriminatory decisions against minority cases. In this work we model such changes in depth and breadth of knowledge as a partitioning of the problem space into regions of differing expertise. We provide here new algorithms that explicitly consider and adapt to the relationship between problem instances and experts' knowledge. We first propose and highlight the drawbacks of a naive approach based on nearest neighbor queries. To address these drawbacks we then introduce a novel algorithm - expertise trees - that constructs decision trees enabling the learner to select appropriate models. We provide theoretical insights and empirically validate the improved performance of our novel approach on a range of problems for which existing methods proved to be inadequate. | 翻訳日:2023-05-05 11:57:47 公開日:2023-05-04 |
# 医用samアダプタ : 医用画像分割のためのsegment anythingモデルの適用 Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation ( http://arxiv.org/abs/2304.12620v4 ) ライセンス: Link先を確認 | Junde Wu and Yu Zhang and Rao Fu and Huihui Fang and Yuanpei Liu and Zhaowei Wang and Yueming Jin and Yanwu Xu | (参考訳) Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。
全面的なセグメンテーションタスクとプロンプトベースのインターフェースの素晴らしい機能のおかげで、SAMはコミュニティ内で激しい議論を巻き起こした。
イメージセグメンテーションのタスクはSAMによって「完了」されたと多くの名高い専門家から言われている。
しかし, イメージセグメンテーションは, イメージセグメンテーションファミリーの重要な分枝であるが, セグメンテーション"Anything"の範囲には含まれていないようである。
多くの個人実験や最近の研究では、SAMは医療画像のセグメンテーションのサブパールを担っていることが示されている。
自然な疑問は、SAMの強力なセグメンテーション能力を医療画像セグメンテーションに拡張するために、パズルの欠片を見つける方法である。
本稿では,SAMモデルを微調整する代わりに,医療特化領域の知識をセグメンテーションモデルに統合するMed SAM Adapterを提案する。
この単純な実装は、医療画像のセグメンテーションにおいて驚くほど優れた性能を示しており、一般的なNLP技術であるAdapterをコンピュータビジョンのケースに転送する試みの1つだ。
医用SAMアダプタ (MSA) は, CT, MRI, 超音波画像, 眼底画像, 皮膚内視鏡画像など, 様々な画像モダリティを有する19の医用画像セグメンテーションタスクにおいて, 優れた性能を示した。
MSAは、nnUNet、TransUNet、UNetr、MedSegDiffのような幅広い最先端(SOTA)の医療画像セグメンテーション手法より優れており、また、完全に細返されたMedSAMよりもかなりパフォーマンスの差がある。
コードは、https://github.com/WuJunde/Medical-SAM-Adapter.comでリリースされる。 The Segment Anything Model (SAM) has recently gained popularity in the field of image segmentation. Thanks to its impressive capabilities in all-round segmentation tasks and its prompt-based interface, SAM has sparked intensive discussion within the community. It is even said by many prestigious experts that image segmentation task has been "finished" by SAM. However, medical image segmentation, although an important branch of the image segmentation family, seems not to be included in the scope of Segmenting "Anything". Many individual experiments and recent studies have shown that SAM performs subpar in medical image segmentation. A natural question is how to find the missing piece of the puzzle to extend the strong segmentation capability of SAM to medical image segmentation. In this paper, instead of fine-tuning the SAM model, we propose Med SAM Adapter, which integrates the medical specific domain knowledge to the segmentation model, by a simple yet effective adaptation technique. Although this work is still one of a few to transfer the popular NLP technique Adapter to computer vision cases, this simple implementation shows surprisingly good performance on medical image segmentation. A medical image adapted SAM, which we have dubbed Medical SAM Adapter (MSA), shows superior performance on 19 medical image segmentation tasks with various image modalities including CT, MRI, ultrasound image, fundus image, and dermoscopic images. MSA outperforms a wide range of state-of-the-art (SOTA) medical image segmentation methods, such as nnUNet, TransUNet, UNetr, MedSegDiff, and also outperforms the fully fine-turned MedSAM with a considerable performance gap. Code will be released at: https://github.com/WuJunde/Medical-SAM-Adapter. | 翻訳日:2023-05-05 11:57:11 公開日:2023-05-04 |
# DiffFit: 簡単なパラメータ効率の良い微調整による大拡散モデルの解錠性 DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2304.06648v5 ) ライセンス: Link先を確認 | Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li | (参考訳) 拡散モデルは高品質な画像の生成に非常に有効であることが証明されている。
しかし、大規模な事前学習拡散モデルを新しい領域に適用することは、現実世界のアプリケーションにとって重要な課題である。
本稿では,新しい領域への高速適応を可能にする大規模事前学習拡散モデルを微調整するパラメータ効率の高い手法であるdifffitを提案する。
DiffFitは、特定のレイヤでバイアス項と新たに追加されたスケーリング要素のみを微調整するが、トレーニングのスピードアップとモデルストレージコストの削減をもたらす、恥ずかしいほど単純である。
完全な微調整と比較すると、DiffFitは2$\times$トレーニングスピードアップを実現しており、全体のモデルパラメータの約0.12\%を格納する必要がある。
高速適応におけるスケーリング因子の有効性を正当化する直観的理論解析が提案されている。
下流の8つのデータセットでは、DiffFitはより効率的でありながら、完全な微調整よりも優れた、あるいは競争的なパフォーマンスを達成する。
注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。
拡散ベースの手法の中で、DiffFitはImageNet 512$\times$512ベンチマークで3.02の最先端FIDを新たに設定し、公開前のImageNet 256$\times$256チェックポイントから25エポックだけを微調整した。 Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor. | 翻訳日:2023-05-05 11:56:35 公開日:2023-05-04 |
# SeqDiffuSeq: Encoder-Decoder変換器によるテキスト拡散 SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers ( http://arxiv.org/abs/2212.10325v3 ) ライセンス: Link先を確認 | Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang | (参考訳) 新しい生成モデルパラダイムである拡散モデルは、画像、オーディオ、ビデオ生成において大きな成功を収めている。
しかし、テキストの離散的分類学的性質を考えると、連続拡散モデルを自然言語に拡張することは自明ではなく、テキスト拡散モデルはあまり研究されていない。
シーケンスからシーケンスへのテキスト生成は、自然言語処理の重要なトピックの1つです。
本研究では,逐次テキスト生成に拡散モデルを適用し,拡散モデルの優越性生成性能が自然言語領域に転移できるかどうかを検討する。
シーケンス列生成のためのテキスト拡散モデルであるseqdiffuseqを提案する。
SeqDiffuSeqはEncoder-decoder Transformersアーキテクチャを使ってデノナイジング関数をモデル化している。
生成品質を向上させるため、seqdiffuseqは、自己調整技術と新しく提案された適応型ノイズスケジュール技術を組み合わせた。
適応ノイズスケジュールは、時間ステップにまたがって均等に分散する難しさがあり、異なる位置順でトークンの排他的ノイズスケジュールを考える。
実験結果は,テキスト品質と推論時間の観点から,シーケンス列生成における優れた性能を示す。 Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time. | 翻訳日:2023-05-05 11:56:07 公開日:2023-05-04 |
# 金融応用による連続時間確率過程の量子符号化と解析 Quantum Encoding and Analysis on Continuous Time Stochastic Process with Financial Applications ( http://arxiv.org/abs/2208.02364v4 ) ライセンス: Link先を確認 | Xi-Ning Zhuang, Zhao-Yun Chen, Cheng Xue, Yu-Chun Wu, Guo-Ping Guo | (参考訳) 連続時間確率過程 (continuous time stochastic process) は、金融、統計、物理学、時系列分析を含む幅広い応用でランダム世界をモデル化する主流の数学的手法であり、連続時間確率過程のシミュレーションと解析は古典的コンピュータにとって難しい問題である。
本研究では,量子コンピュータにおける連続時間確率過程の経路を効率的に作成するための一般的な枠組みを構築した。
クビット数と回路深さの両方を圧縮状態準備法により最適化するため、保持時間のキーパラメータに対して記憶資源と演算資源を指数関数的に削減する。
財務問題に不可欠な経路依存情報及び履歴依存情報を含む所望情報は、圧縮されたサンプリングパスから効率的に抽出でき、さらに二次的なスピードアップが認められる。
さらに、この抽出方法は、極端な市場イベントを捉える不連続なジャンプに対してより敏感である。
メルトンジャンプ拡散モデルにおけるオプション価格の2つの応用と集団リスクモデルにおける破壊確率計算について述べる。 The continuous time stochastic process is a mainstream mathematical instrument modeling the random world with a wide range of applications involving finance, statistics, physics, and time series analysis, while the simulation and analysis of the continuous time stochastic process is a challenging problem for classical computers. In this work, a general framework is established to prepare the path of a continuous time stochastic process in a quantum computer efficiently. The storage and computation resource is exponentially reduced on the key parameter of holding time, as the qubit number and the circuit depth are both optimized via our compressed state preparation method. The desired information, including the path-dependent and history-sensitive information that is essential for financial problems, can be extracted efficiently from the compressed sampling path, and admits a further quadratic speed-up. Moreover, this extraction method is more sensitive to those discontinuous jumps capturing extreme market events. Two applications of option pricing in Merton jump diffusion model and ruin probability computing in the collective risk model are given. | 翻訳日:2023-05-05 11:55:50 公開日:2023-05-04 |
# 属性除去サブネットによるモジュール・オンデマンドバイアス低減 Modular and On-demand Bias Mitigation with Attribute-Removal Subnetworks ( http://arxiv.org/abs/2205.15171v4 ) ライセンス: Link先を確認 | Lukas Hauzenberger, Shahed Masoudian, Deepak Kumar, Markus Schedl, Navid Rekabsaz | (参考訳) 社会バイアスは、大きな事前学習された言語モデルと下流タスクの微調整されたバージョンに反映される。
逆行訓練や相互情報除去といった一般的なプロセス内バイアス軽減手法は、さらなる最適化基準を導入し、新しいバイアス状態に到達するためにモデルを更新する。
しかし、実際には、エンドユーザと実践者は元のモデルに切り替えるか、保護された属性の特定のサブセットのみにデバイアスを適用することを好みます。
そこで本研究では,各デバイアスモジュールをオンデマンドでコアモデルに統合可能な,スタンドアローンの高度疎脱バイアスサブネットワークからなる,新しいモジュラーバイアス緩和手法を提案する。
提案手法は,<emph{diff> pruningの概念から導き出され,様々な表現不等角化最適化に適応可能な新しいトレーニングレジームを提案する。
我々は、性別、人種、年齢の3つの分類タスクを保護属性として実験する。
その結果、タスク性能を維持しながら、我々のモジュラーアプローチは、ベースラインファインタニングと比較してバイアス軽減の効果を向上(少なくともそれと同等に)することを示した。
特に2属性のデータセットでは、個別に学習したデバイアスサブネットを用いたアプローチは、選択バイアス軽減のためのサブネットの有効利用を示す。 Societal biases are reflected in large pre-trained language models and their fine-tuned versions on downstream tasks. Common in-processing bias mitigation approaches, such as adversarial training and mutual information removal, introduce additional optimization criteria, and update the model to reach a new debiased state. However, in practice, end-users and practitioners might prefer to switch back to the original model, or apply debiasing only on a specific subset of protected attributes. To enable this, we propose a novel modular bias mitigation approach, consisting of stand-alone highly sparse debiasing subnetworks, where each debiasing module can be integrated into the core model on-demand at inference time. Our approach draws from the concept of \emph{diff} pruning, and proposes a novel training regime adaptable to various representation disentanglement optimizations. We conduct experiments on three classification tasks with gender, race, and age as protected attributes. The results show that our modular approach, while maintaining task performance, improves (or at least remains on-par with) the effectiveness of bias mitigation in comparison with baseline finetuning. Particularly on a two-attribute dataset, our approach with separately learned debiasing subnetworks shows effective utilization of either or both the subnetworks for selective bias mitigation. | 翻訳日:2023-05-05 11:55:33 公開日:2023-05-04 |
# 視覚シーングラフから画像キャプションへの変換 Transforming Visual Scene Graphs to Image Captions ( http://arxiv.org/abs/2305.02177v2 ) ライセンス: Link先を確認 | Xu Yang, Jiawei Peng, Zihua Wang, Haiyang Xu, Qinghao Ye, Chenliang Li, Ming Yan, Fei Huang, Zhangzikang Li and Yu Zhang | (参考訳) 我々は,Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。
tsgでは,シーングラフ埋め込みのためのグラフニューラルネットワーク(gnn)の設計にマルチヘッドアテンション(mha)を適用する。
埋め込み後、異なるグラフ埋め込みは、異なるパーシャル・オブ・スパイチを持つ単語を生成するための様々な特定の知識を含んでいる。
そこで我々は,mha上で各専門家が構築するmixed-of-expert(moe)ベースのデコーダを設計し,グラフ埋め込みを識別することで,異なる種類の単語を生成する。
エンコーダとデコーダはどちらもMHAに基づいて構築されているため、通常はFully-Connected-based GNNとLSTM-based Decoderを応用した異種エンコーダと異なり、同種エンコーダデコーダを構築する。
均質なアーキテクチャによって、ヘテロジニアスパイプラインのようにさまざまなサブネットワークのトレーニング戦略を指定せずに、モデル全体のトレーニング構成を統一することが可能になります。
TSGの有効性をMS-COCOキャプションベンチマークで検証した。
コードは:https://anonymous.4open.science/r/ACL23_TSG。 We propose to Transform Scene Graphs (TSG) into more descriptive captions. In TSG, we apply multi-head attention (MHA) to design the Graph Neural Network (GNN) for embedding scene graphs. After embedding, different graph embeddings contain diverse specific knowledge for generating the words with different part-of-speech, e.g., object/attribute embedding is good for generating nouns/adjectives. Motivated by this, we design a Mixture-of-Expert (MOE)-based decoder, where each expert is built on MHA, for discriminating the graph embeddings to generate different kinds of words. Since both the encoder and decoder are built based on the MHA, as a result, we construct a homogeneous encoder-decoder unlike the previous heterogeneous ones which usually apply Fully-Connected-based GNN and LSTM-based decoder. The homogeneous architecture enables us to unify the training configuration of the whole model instead of specifying different training strategies for diverse sub-networks as in the heterogeneous pipeline, which releases the training difficulty. Extensive experiments on the MS-COCO captioning benchmark validate the effectiveness of our TSG. The code is in: https://anonymous.4open.science/r/ACL23_TSG. | 翻訳日:2023-05-05 11:49:19 公開日:2023-05-04 |
# 構成員へのテキスト分割の統計的探究--創世記と出世記の典拠を事例として A Statistical Exploration of Text Partition Into Constituents: The Case of the Priestly Source in the Books of Genesis and Exodus ( http://arxiv.org/abs/2305.02170v2 ) ライセンス: Link先を確認 | Gideon Yoffe and Axel B\"uhler and Nachum Dershowitz and Israel Finkelstein and Eli Piasetzky and Thomas R\"omer and Barak Sober | (参考訳) 本稿では,統計的テキスト探索のためのパイプラインを提案する。スタイロメトリーに基づく説明と,テキストの仮説的な分割の統計的検証を提供する。
Given a parameterization of the text, our pipeline: (1) detects literary features yielding the optimal overlap between the hypothesized and unsupervised partitions, (2) performs a hypothesis-testing analysis to quantify the statistical significance of the optimal overlap, while conserving implicit correlations between units of text that are more likely to be grouped, and (3) extracts and quantifies the importance of features most responsible for the classification, estimates their statistical stability and cluster-wise abundance.
聖書の最初の2冊の本にパイプラインを適用し、聖書学者の目には1つの様式的な要素、すなわち神聖な要素が際立っている。
我々は、プリーストリー成分と非プリーストリー成分の統計的に重要な構造的差異を特定し、調査する。 We present a pipeline for a statistical textual exploration, offering a stylometry-based explanation and statistical validation of a hypothesized partition of a text. Given a parameterization of the text, our pipeline: (1) detects literary features yielding the optimal overlap between the hypothesized and unsupervised partitions, (2) performs a hypothesis-testing analysis to quantify the statistical significance of the optimal overlap, while conserving implicit correlations between units of text that are more likely to be grouped, and (3) extracts and quantifies the importance of features most responsible for the classification, estimates their statistical stability and cluster-wise abundance. We apply our pipeline to the first two books in the Bible, where one stylistic component stands out in the eyes of biblical scholars, namely, the Priestly component. We identify and explore statistically significant stylistic differences between the Priestly and non-Priestly components. | 翻訳日:2023-05-05 11:48:46 公開日:2023-05-04 |
# Doc2SoarGraph: セマンティック指向階層グラフによるビジュアルリッチテーブルテキストドキュメントの離散推論 Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs ( http://arxiv.org/abs/2305.01938v2 ) ライセンス: Link先を確認 | Fengbin Zhu, Chao Wang, Fuli Feng, Zifeng Ren, Moxin Li, Tat-Seng Chua | (参考訳) テーブルテキスト文書(例えば財務報告)に対する離散的推論は、近年2年間で注目を集めている。
既存の作業は、ドキュメントページを構造化テーブルや段落に手動で選択・変換することで、この課題を単純化する。
本研究では,より現実的なTAT-DQA形式,すなわち視覚的にリッチなテーブルテキスト文書の解答について検討する。
具体的には,与えられた質問と文書の異なる要素(量,日付など)間の差異と相関を意味的指向の階層的グラフ構造で活用し,離散的推論能力を高めた新しいdoc2soargraphフレームワークを提案する。
tat-dqaデータセットに関する広範な実験を行い,提案フレームワークが,テストセット上で17.73%,16.91%の精度マッチング(em)とf1スコアで,最高のベースラインモデルを上回って,新たな最先端を実現したことを示す。 Discrete reasoning over table-text documents (e.g., financial reports) gains increasing attention in recent two years. Existing works mostly simplify this challenge by manually selecting and transforming document pages to structured tables and paragraphs, hindering their practical application. In this work, we explore a more realistic problem setting in the form of TAT-DQA, i.e. to answer the question over a visually-rich table-text document. Specifically, we propose a novel Doc2SoarGraph framework with enhanced discrete reasoning capability by harnessing the differences and correlations among different elements (e.g., quantities, dates) of the given question and document with Semantic-oriented hierarchical Graph structures. We conduct extensive experiments on TAT-DQA dataset, and the results show that our proposed framework outperforms the best baseline model by 17.73% and 16.91% in terms of Exact Match (EM) and F1 score respectively on the test set, achieving the new state-of-the-art. | 翻訳日:2023-05-05 11:48:32 公開日:2023-05-04 |
# DiffFacto: クロス拡散による制御可能なパーツベース3Dポイントクラウド生成 DiffFacto: Controllable Part-Based 3D Point Cloud Generation with Cross Diffusion ( http://arxiv.org/abs/2305.01921v2 ) ライセンス: Link先を確認 | Kiyohiro Nakayama, Mikaela Angelina Uy, Jiahui Huang, Shi-Min Hu, Ke Li, Leonidas J Guibas | (参考訳) 3dポイントクラウド生成のコミュニティは近年大きな成長を遂げているものの、生成プロセスにおいて直感的なユーザ制御を可能にする効果的な方法が不足しているため、そのような方法の汎用性が制限されている。
形状を直感的に分解する方法はその部分を通して行われるので,制御可能な部分ベースの点雲生成の課題に取り組むことを提案する。
DiffFactoは,部品レベルの制御で形状の分布を学習する新しい確率的生成モデルである。
本稿では,独立な部分分布と部分構成の分布をモデル化した因子化を提案し,提案する因子化の下で整合性および可塑性形状を生成できる新しい相互拡散ネットワークを提案する。
実験により,複数軸の制御により新たな形状を生成できることが確認された。
最先端の部品レベルの生成品質を実現し、形状補間、混合、変換編集といった様々な下流編集アプリケーションを可能にしながら、妥当でコヒーレントな形状を生成する。
プロジェクトwebサイト: https://difffacto.github.io/ While the community of 3D point cloud generation has witnessed a big growth in recent years, there still lacks an effective way to enable intuitive user control in the generation process, hence limiting the general utility of such methods. Since an intuitive way of decomposing a shape is through its parts, we propose to tackle the task of controllable part-based point cloud generation. We introduce DiffFacto, a novel probabilistic generative model that learns the distribution of shapes with part-level control. We propose a factorization that models independent part style and part configuration distributions and presents a novel cross-diffusion network that enables us to generate coherent and plausible shapes under our proposed factorization. Experiments show that our method is able to generate novel shapes with multiple axes of control. It achieves state-of-the-art part-level generation quality and generates plausible and coherent shapes while enabling various downstream editing applications such as shape interpolation, mixing, and transformation editing. Project website: https://difffacto.github.io/ | 翻訳日:2023-05-05 11:48:11 公開日:2023-05-04 |
# AIフィードバックによる文埋め込みのコントラスト学習の改善 Improving Contrastive Learning of Sentence Embeddings from AI Feedback ( http://arxiv.org/abs/2305.01918v2 ) ライセンス: Link先を確認 | Qinyuan Cheng, Xiaogui Yang, Tianxiang Sun, Linyang Li, Xipeng Qiu | (参考訳) コントラスト学習は自然言語処理、特に文埋め込みの学習において一般的なアプローチとなっている。
しかし、自然言語の離散的な性質は、データ拡張法による正と負のサンプルペアの品質を保証するのを困難にしている。
教師付きコントラスト学習は、人間のフィードバックラベルとより正確なサンプルペアを生成することができるが、きめ細かいトレーニング信号が不足している。
本稿では,<textbf{AI} \textbf{F}eedback \textbf{(CLAIF)} からの文埋め込みの<textbf{C}ontrastive \textbf{L}earning を改善することを提案する。
提案手法は,大規模な事前学習言語モデル(LLM)からのAIフィードバックを利用して,微細なサンプル類似度スコアを持つサンプルペアを構築し,コントラスト学習を改善する。
さらに、人間のフィードバックとAIフィードバックを組み合わせて、文埋め込みの教師付きコントラスト学習のためのより良い監視信号を提供する。
実験の結果,複数の意味的テキスト類似性 (sts) と伝達学習タスクにおいて,教師なし,教師なしの他のコントラスト学習法と比較して,最先端のパフォーマンスが得られることがわかった。 Contrastive learning has become a popular approach in natural language processing, particularly for the learning of sentence embeddings. However, the discrete nature of natural language makes it difficult to ensure the quality of positive and negative sample pairs generated through data augmentation methods. Although supervised contrastive learning can produce more accurate sample pairs with human feedback labels, it still lacks fine-grained training signals. In this paper, we propose to improve \textbf{C}ontrastive \textbf{L}earning of sentence embeddings from \textbf{AI} \textbf{F}eedback \textbf{(CLAIF)}. Our method utilizes AI feedback from large pre-trained language models (LLMs) to construct sample pairs with fine-grained sample similarity scores to improve contrastive learning. Besides, we combine human feedback and AI feedback to provide better supervision signals for supervised contrastive learning of sentence embeddings. Experimental results show that our method achieves state-of-the-art performance on several semantic textual similarity (STS) and transfer learning tasks compared to other unsupervised and supervised contrastive learning methods. | 翻訳日:2023-05-05 11:47:53 公開日:2023-05-04 |
# 知識誘導型プロンプティングに基づく因果認識概念抽出 Causality-aware Concept Extraction based on Knowledge-guided Prompting ( http://arxiv.org/abs/2305.01876v2 ) ライセンス: Link先を確認 | Siyu Yuan, Deqing Yang, Jinxi Liu, Shuyu Tian, Jiaqing Liang, Yanghua Xiao, Rui Xie | (参考訳) 概念は自然言語理解に役立つが、既存の知識グラフ(kgs)では完璧ではない。
近年,テキストベース概念抽出(CE)において,事前学習言語モデル (PLM) が広く用いられている。
しかし、plmはトークン間の本当の因果効果ではなく、事前学習された知識として大量のコーパスから共起関係を掘り出す傾向がある。
その結果、事前学習された知識はPLMを組み合わさり、素早い共起相関に基づく偏りのある概念を抽出し、必然的に低い精度をもたらす。
本稿では, 構造因果モデル (SCM) のレンズを用いて, 概念バイアスを軽減するため, 知識誘導型プロンプトを用いたPLM抽出器を提案する。
このプロンプトは、与えられた実体のトピックを既存のKGの知識から採用し、実体と偏見のある概念の間の急激な共起相関を緩和する。
代表的多言語KGデータセットに関する広範な実験により,提案するプロンプトが概念バイアスを効果的に緩和し,PLMベースのCEモデルの性能を向上させることが確認された。 Concepts benefit natural language understanding but are far from complete in existing knowledge graphs (KGs). Recently, pre-trained language models (PLMs) have been widely used in text-based concept extraction (CE). However, PLMs tend to mine the co-occurrence associations from massive corpus as pre-trained knowledge rather than the real causal effect between tokens. As a result, the pre-trained knowledge confounds PLMs to extract biased concepts based on spurious co-occurrence correlations, inevitably resulting in low precision. In this paper, through the lens of a Structural Causal Model (SCM), we propose equipping the PLM-based extractor with a knowledge-guided prompt as an intervention to alleviate concept bias. The prompt adopts the topic of the given entity from the existing knowledge in KGs to mitigate the spurious co-occurrence correlations between entities and biased concepts. Our extensive experiments on representative multilingual KG datasets justify that our proposed prompt can effectively alleviate concept bias and improve the performance of PLM-based CE models.The code has been released on https://github.com/siyuyuan/KPCE. | 翻訳日:2023-05-05 11:47:30 公開日:2023-05-04 |
# マニフォールドフラット化と再構成による表現学習 Representation Learning via Manifold Flattening and Reconstruction ( http://arxiv.org/abs/2305.01777v2 ) ライセンス: Link先を確認 | Michael Psenka, Druv Pai, Vishal Raman, Shankar Sastry, Yi Ma | (参考訳) 本研究は,この多様体の有限サンプルから埋め込み部分多様体を線形化し再構成する一対のニューラルネットワークを明示的に構築するアルゴリズムを提案する。
このような生成されたニューラルネットワークは、フラットテンシングネットワーク(FlatNet)と呼ばれ、理論的に解釈可能であり、大規模に計算可能であり、データをテストするためにうまく一般化されている。
合成高次元多様体データと2次元画像データにおける実験結果と他のモデルとの比較を行った。
私たちのコードは公開されています。 This work proposes an algorithm for explicitly constructing a pair of neural networks that linearize and reconstruct an embedded submanifold, from finite samples of this manifold. Our such-generated neural networks, called flattening networks (FlatNet), are theoretically interpretable, computationally feasible at scale, and generalize well to test data, a balance not typically found in manifold-based learning methods. We present empirical results and comparisons to other models on synthetic high-dimensional manifold data and 2D image data. Our code is publicly available. | 翻訳日:2023-05-05 11:47:11 公開日:2023-05-04 |
# 知識ベース質問応答のためのインコンテキスト学習 Few-shot In-context Learning for Knowledge Base Question Answering ( http://arxiv.org/abs/2305.01750v2 ) ライセンス: Link先を確認 | Tianle Li, Xueguang Ma, Alex Zhuang, Yu Gu, Yu Su and Wenhu Chen | (参考訳) 知識ベースに対する質問応答は、多種多様な自然言語質問に一般化することの難しさから、難しい問題であると考えられている。
さらに、異なる知識ベース間の知識ベーススキーマ項目の不均一性は、異なる知識ベース質問回答(KBQA)データセットのための特別なトレーニングを必要とすることが多い。
多様なKBQAデータセットに対する問合せを,一貫したトレーニングフリーフレームワークで処理するために,KB-BINDERを提案する。
まず、KB-BINDERはCodexのような大きな言語モデルを利用して、いくつかのデモを模倣して特定の質問のドラフトとして論理形式を生成する。
次にKB-BINDERは知識ベースに基づいて生成したドラフトをBM25スコアマッチングを備えた実行可能なドラフトにバインドする。
4つの公開ヘテロジニアスKBQAデータセットの実験結果から,KB-BINDERはコンテクスト内デモを数回しか行わず,高い性能が得られることが示された。
特にGraphQAと3-hop MetaQAでは、KB-BINDERは最先端のトレーニングモデルよりも優れています。
GrailQAとWebQSPでは、私たちのモデルは、他の完全にトレーニングされたモデルと同等です。
我々はKB-BINDERが今後の研究の重要なベースラインになると考えている。
私たちのコードはhttps://github.com/ltl3A87/KB-BINDERで利用可能です。 Question answering over knowledge bases is considered a difficult problem due to the challenge of generalizing to a wide variety of possible natural language questions. Additionally, the heterogeneity of knowledge base schema items between different knowledge bases often necessitates specialized training for different knowledge base question-answering (KBQA) datasets. To handle questions over diverse KBQA datasets with a unified training-free framework, we propose KB-BINDER, which for the first time enables few-shot in-context learning over KBQA tasks. Firstly, KB-BINDER leverages large language models like Codex to generate logical forms as the draft for a specific question by imitating a few demonstrations. Secondly, KB-BINDER grounds on the knowledge base to bind the generated draft to an executable one with BM25 score matching. The experimental results on four public heterogeneous KBQA datasets show that KB-BINDER can achieve a strong performance with only a few in-context demonstrations. Especially on GraphQA and 3-hop MetaQA, KB-BINDER can even outperform the state-of-the-art trained models. On GrailQA and WebQSP, our model is also on par with other fully-trained models. We believe KB-BINDER can serve as an important baseline for future research. Our code is available at https://github.com/ltl3A87/KB-BINDER. | 翻訳日:2023-05-05 11:47:01 公開日:2023-05-04 |
# BrainNPT:脳ネットワーク分類のためのトランスフォーマーネットワークの事前学習 BrainNPT: Pre-training of Transformer networks for brain network classification ( http://arxiv.org/abs/2305.01666v2 ) ライセンス: Link先を確認 | Jinlong Hu, Yangmin Huang, Nan Wang, Shoubin Dong | (参考訳) 深層学習法はここ数年、脳画像解析において急速に進歩してきたが、通常は限られたラベル付きデータによって制限されている。
ラベルなしデータの事前学習モデルでは、自然言語処理やコンピュータビジョンなど、多くの領域で機能学習の改善が期待できる。
しかし、この手法は脳ネットワーク解析において未検討である。
本稿では,トランスフォーマーネットワークを用いた事前学習手法に着目し,既存のラベルなしデータを脳機能ネットワーク分類に活用する。
まず,脳機能的ネットワーク分類のために,brainnptと呼ばれるトランスフォーマーベースのニューラルネットワークを提案した。
提案手法はトランスフォーマーモデルの分類埋め込みベクトルとして<cls>トークンを利用して,脳ネットワークの表現を効果的に捉える。
第2に,脳ネットワークデータを利用して脳ネットワークの構造情報を学ぶために,脳NPTモデルのための2つの事前学習戦略を用いた事前学習アーキテクチャを提案する。
分類実験の結果,前訓練のないbrainnptモデルが最先端モデルで最高の性能を達成し,前訓練のbrainnptモデルが最先端モデルを大きく上回った。
トレーニング前のBrainNPTモデルは、トレーニング前のモデルと比較して精度が8.75%向上した。
さらに,事前学習戦略を比較検討し,モデルのパラメータの影響を分析し,微調整モデルの解釈を行った。 Deep learning methods have advanced quickly in brain imaging analysis over the past few years, but they are usually restricted by the limited labeled data. Pre-trained model on unlabeled data has presented promising improvement in feature learning in many domains, including natural language processing and computer vision. However, this technique is under-explored in brain network analysis. In this paper, we focused on pre-training methods with Transformer networks to leverage existing unlabeled data for brain functional network classification. First, we proposed a Transformer-based neural network, named as BrainNPT, for brain functional network classification. The proposed method leveraged <cls> token as a classification embedding vector for the Transformer model to effectively capture the representation of brain network. Second, We proposed a pre-training architecture with two pre-training strategies for BrainNPT model to leverage unlabeled brain network data to learn the structure information of brain networks. The results of classification experiments demonstrated the BrainNPT model without pre-training achieved the best performance with the state-of-the-art models, and the BrainNPT model with pre-training strongly outperformed the state-of-the-art models. The pre-training BrainNPT model improved 8.75% of accuracy compared with the model without pre-training. We further compared the pre-training strategies, analyzed the influence of the parameters of the model, and interpreted the fine-tuned model. | 翻訳日:2023-05-05 11:46:39 公開日:2023-05-04 |