このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230127となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 協調のコストは、複雑なタスクの実行における協調の利益を上回ることができる The cost of coordination can exceed the benefit of collaboration in performing complex tasks ( http://arxiv.org/abs/2009.11038v3 ) ライセンス: Link先を確認 | Vince J. Straub and Milena Tsvetkova and Taha Yasseri | (参考訳) 人間や他の知的エージェントは、集団が個人を上回る直感に基づく集団的な意思決定に依存することが多い。
しかし、現時点では、群がいつより良く機能するかの完全な理論的理解が欠けている。
本稿では,課題関連学習の違いを操作した個人が協調する現実の市民科学タスク環境における集団意思決定のパフォーマンスについて検討する。
見つけました
1) dyadsは,性能は徐々に向上するが,ほとんどの状況において個人に比べて集団的利益を享受しない。
2 個別に訓練した後のダイアド・コンテクストに切り替える際の効率とスピードの調整コストは、その業務に熟練した訓練を受けたとしても、パートナーを持つレバレッジよりも一貫して大きい。
3) 十分に訓練されたdyadのエキスパートが加わる最も複雑なタスクでは、精度が向上する。
これらの結果は、個人が受けるトレーニングの程度、目の前のタスクの複雑さ、そして望ましいパフォーマンス指標が、集合的意思決定の利点を評価する際に考慮すべき重要な要素であることを示している。 Humans and other intelligent agents often rely on collective decision making based on an intuition that groups outperform individuals. However, at present, we lack a complete theoretical understanding of when groups perform better. Here we examine performance in collective decision-making in the context of a real-world citizen science task environment in which individuals with manipulated differences in task-relevant training collaborated. We find 1) dyads gradually improve in performance but do not experience a collective benefit compared to individuals in most situations; 2) the cost of coordination to efficiency and speed that results when switching to a dyadic context after training individually is consistently larger than the leverage of having a partner, even if they are expertly trained in that task; and 3) on the most complex tasks having an additional expert in the dyad who is adequately trained improves accuracy. These findings highlight that the extent of training received by an individual, the complexity of the task at hand, and the desired performance indicator are all critical factors that need to be accounted for when weighing up the benefits of collective decision-making. | 翻訳日:2023-05-01 04:54:57 公開日:2023-01-27 |
# メモリ付き局所雑音下でのグローバー量子探索における成功確率の不変性 Invariance of success probability in Grover's quantum search under local noise with memory ( http://arxiv.org/abs/2112.02640v4 ) ライセンス: Link先を確認 | Sheikh Parvez Mandal, Ahana Ghoshal, Chirag Srivastava, Ujjwal Sen | (参考訳) 量子レジスタによって実行されるグローバーの量子探索アルゴリズムのロバスト性について,量子ビット上で局所的に作用する時間相関雑音下で解析する。
我々は雑音を、任意のが固定されたユニタリ進化である$U$から派生した雑音としてモデル化する。
ノイズは、連続する1対のノイズレスグローバー進化の間の間隔である程度の確率で発生する。
アルゴリズムの各実行はユニタリなプロセスであるが、ノイズモデルは全ての実行が考慮されるときにデコヒーレンスをもたらす。
我々は、任意の時点におけるアルゴリズムの成功確率が、レジスタ内のノイズ量子ビットの非自明な総数(m$)を変化させることで変化し続ける「良いノイズ」と呼ばれる一元的な「u$」の集合を導出する。
その結果は、ノイズの時間的相関の有無に関係なく成り立つ。
U$ が Pauli 行列の $\sigma_x$ と $\sigma_z$ のどちらかであれば(時間相関のない場合、それぞれ $m$-qubit ビットフリップと位相減衰チャネルが生じる)、アルゴリズムの成功確率は $m$ の増加または減少するときに変化しない。
対照的に、$U$ が Pauli 行列 $\sigma_y$ (時間相関のない場合、$m$-qubit ビット位相のフリップチャネルを上昇させる) であるとき、すべての時間における成功確率は、総数 $m$ のパリティ(偶数または奇数)が同じである限り変化しない。
このポーリ作用素間の非対称性は、グローバー回路内に存在する固有の対称性破壊に由来する。
さらに,パウリノイズの場合,雑音場の位置は無関係であることを示す。
その結果, 時間相関および時間相関なしノイズの事例で示される。
前者のケースではノイズの多いアルゴリズムの性能が向上することがわかった。
また、選択したノイズモデルが関連性のある物理シナリオについても論じる。 We analyze the robustness of Grover's quantum search algorithm performed by a quantum register under a possibly time-correlated noise acting locally on the qubits. We model the noise as originating from an arbitrary but fixed unitary evolution, $U$, of some noisy qubits. The noise can occur with some probability in the interval between any pair of consecutive noiseless Grover evolutions. Although each run of the algorithm is a unitary process, the noise model leads to decoherence when all possible runs are considered. We derive a set of unitary $U$'s, called the 'good noises,' for which the success probability of the algorithm at any given time remains unchanged with varying the non-trivial total number ($m$) of noisy qubits in the register. The result holds irrespective of the presence of any time-correlations in the noise. We show that only when $U$ is either of the Pauli matrices $\sigma_x$ and $\sigma_z$ (which give rise to $m$-qubit bit-flip and phase-damping channels respectively in the time-correlation-less case), the algorithm's success probability stays unchanged when increasing or decreasing $m$. In contrast, when $U$ is the Pauli matrix $\sigma_y$ (giving rise to $m$-qubit bit-phase flip channel in the time-correlation-less case), the success probability at all times stays unaltered as long as the parity (even or odd) of the total number $m$ remains the same. This asymmetry between the Pauli operators stems from the inherent symmetry-breaking existing within the Grover circuit. We further show that the positions of the noisy sites are irrelevant in case of any of the Pauli noises. The results are illustrated in the cases of time-correlated and time-correlation-less noise. We find that the former case leads to a better performance of the noisy algorithm. We also discuss physical scenarios where our chosen noise model is of relevance. | 翻訳日:2023-03-05 12:10:32 公開日:2023-01-27 |
# 視覚・言語問題の正確なモデリングのための外部知識の探索 Exploring External Knowledge for Accurate modeling of Visual and Language Problems ( http://arxiv.org/abs/2302.08901v1 ) ライセンス: Link先を確認 | Xuewen Yang | (参考訳) 人工知能(AI)とその応用への関心は、ここ数年で前例のない成長を遂げた。
この成功の一部は、コンピュータビジョン(CV)や自然言語処理(NLP)といったAIのサブフィールドで作られたディープニューラルネットワークの進歩によるものである。
この論文に焦点をあてる有望な研究分野は、視覚的および言語的理解であり、分類、検出、セグメンテーション、機械翻訳、キャプションなど、多くの困難なタスクを含む。
これらの問題を解決するための最先端の手法は通常、ソースデータとターゲットラベルの2つの部分しか含まない。
一方、多くの外部ツールやソースは、これらの手法の性能向上に役立つ追加の有用な情報(外部知識)を提供することができる。
例えば、画像キャプションモデルの最先端のresnetよりも優れたオブジェクト機能を提供するために、検出モデルが適用されている。
この観察から着想を得て,まず外部知識を抽出し,元のモデルと統合する手法を開発した。
外部知識はデータセットから抽出するか、例えば文法規則やシーングラフといった外部知識から直接得る必要がある。
この手法を機械翻訳や画像キャプションなどさまざまなAIタスクに適用し,従来の最先端モデルを大幅に改善する。 The interest in Artificial Intelligence (AI) and its applications has seen unprecedented growth in the last few years. The success can be partly attributed to the advancements of deep neural networks made in the sub-fields of AI such as Computer Vision (CV) and Natural Language Processing (NLP). The promising research area that this dissertation focuses on is visual and language understanding which involves many challenging tasks, i.e., classification, detection, segmentation, machine translation and captioning, etc. The state-of-the-art methods for solving these problems usually involves only two parts: source data and target labels, which is rather insufficient especially when the dataset is small. Meanwhile, many external tools or sources can provide extra useful information (external knowledge) that can help improve the performance of these methods. For example, a detection model has been applied to provide better object features than state-of-the-art ResNet for image captioning models. Inspired by this observation, we developed a methodology that we can first extract external knowledge and then integrate it with the original models. The external knowledge has to be extracted from the dataset, or can directly come from external, e.g., grammar rules or scene graphs. We apply this methodology to different AI tasks, including machine translation and image captioning and improve the original state-of-the-art models by a large margin. | 翻訳日:2023-02-26 14:53:04 公開日:2023-01-27 |
# PrecTime: 工業生産における精密時系列分割のためのディープラーニングアーキテクチャ PrecTime: A Deep Learning Architecture for Precise Time Series Segmentation in Industrial Manufacturing Operations ( http://arxiv.org/abs/2302.10182v1 ) ライセンス: Link先を確認 | Stefan Gaugel, Manfred Reichert | (参考訳) 第4次産業革命は、工場でユビキタスセンサーデータを生成する。
これらのデータから最大値を生成するには、時間的ニューラルネットワークのような信頼性が高く正確な時系列ベースの機械学習手法が必要である。
本稿では,スライディングウインドウと高密度ラベリング手法の概念と利点を組み合わせた,時系列セグメンテーションのための新しいシーケンス・ツー・シーケンスディープラーニングアーキテクチャであるprectimeを提案する。
汎用アーキテクチャは油圧ポンプのエンドオブライン試験センサデータを含む実世界の産業データセットで評価される。
PrecTimeは、複数のメトリクスに基づいて実装された5つの最先端のベースラインネットワークより優れています。
セグメンテーションの精度は約96%で、テストサイクル内の運用状態セグメンテーションにおいて、PrecTimeが人間のインテリジェンスに近い結果を達成できることを示している。 The fourth industrial revolution creates ubiquitous sensor data in production plants. To generate maximum value out of these data, reliable and precise time series-based machine learning methods like temporal neural networks are needed. This paper proposes a novel sequence-to-sequence deep learning architecture for time series segmentation called PrecTime which tries to combine the concepts and advantages of sliding window and dense labeling approaches. The general-purpose architecture is evaluated on a real-world industry dataset containing the End-of-Line testing sensor data of hydraulic pumps. We are able to show that PrecTime outperforms five implemented state-of-the-art baseline networks based on multiple metrics. The achieved segmentation accuracy of around 96% shows that PrecTime can achieve results close to human intelligence in operational state segmentation within a testing cycle. | 翻訳日:2023-02-26 14:46:14 公開日:2023-01-27 |
# シャープネス認識最小化における多段上昇の効果の探索 Exploring the Effect of Multi-step Ascent in Sharpness-Aware Minimization ( http://arxiv.org/abs/2302.10181v1 ) ライセンス: Link先を確認 | Hoki Kim, Jinseong Park, Yujin Choi, Woojin Lee, Jaewook Lee | (参考訳) 近年, Sharpness-Aware Minimization (SAM) は, 平らなミニマを求めることで最先端の性能を示した。
パラメータ空間内の近傍における最大損失を最小化するために、SAMは、所定の半径で勾配上昇の方向に沿って重みを摂動させる上昇ステップを使用する。
単段または多段は昇華過程において行うことができるが、従来の研究では、多段の昇華SAMが一般化性能を改善することはめったにない。
しかし, この現象が特に興味深いのは, 多段上昇により, 最大近傍損失の近似性が向上することが期待できるからである。
そこで本研究では,昇降段数の影響を解析し,単段昇降段SAMと多段昇降段SAMの差について検討する。
SAM最適化における昇降回数の影響を同定し、単段昇降SAMと多段昇降SAMが異なる損失景観を示すことを示した。
これらの観測に基づいて,多段階SAMの非効率性を緩和する簡単な修正を提案する。 Recently, Sharpness-Aware Minimization (SAM) has shown state-of-the-art performance by seeking flat minima. To minimize the maximum loss within a neighborhood in the parameter space, SAM uses an ascent step, which perturbs the weights along the direction of gradient ascent with a given radius. While single-step or multi-step can be taken during ascent steps, previous studies have shown that multi-step ascent SAM rarely improves generalization performance. However, this phenomenon is particularly interesting because the multi-step ascent is expected to provide a better approximation of the maximum neighborhood loss. Therefore, in this paper, we analyze the effect of the number of ascent steps and investigate the difference between both single-step ascent SAM and multi-step ascent SAM. We identify the effect of the number of ascent on SAM optimization and reveal that single-step ascent SAM and multi-step ascent SAM exhibit distinct loss landscapes. Based on these observations, we finally suggest a simple modification that can mitigate the inefficiency of multi-step ascent SAM. | 翻訳日:2023-02-26 14:46:01 公開日:2023-01-27 |
# CNNとSVMを用いたハイブリッドデータセットのディープフェイク検出 Deepfake Detection Analyzing Hybrid Dataset Utilizing CNN and SVM ( http://arxiv.org/abs/2302.10280v1 ) ライセンス: Link先を確認 | Jacob mallet, Laura Pryor, Rushit Dave, Mounika Vanamala | (参考訳) ソーシャルメディアは現在、多くの個人が主要な情報ソースとして利用している。
しかし、オンラインで共有されているすべての情報が真実であるとは限らない。
ディープフェイクは近年、技術の進歩とともに上昇し、悪名高いオンラインユーザーが、政治的、文化的な重要な人物を含む誰の顔にもコンピューターで置き換えることを可能にした。
Deepfakesは、大量の誤情報を拡散するためのツールだ。
ディープフェイクを検知し、実際の画像やビデオのように拡散しないようにするためのモデルを作成する必要がある。
本稿では,2つの機械学習アルゴリズムを用いた新しいディープフェイク検出方式を提案する。 Social media is currently being used by many individuals online as a major source of information. However, not all information shared online is true, even photos and videos can be doctored. Deepfakes have recently risen with the rise of technological advancement and have allowed nefarious online users to replace one face with a computer generated face of anyone they would like, including important political and cultural figures. Deepfakes are now a tool to be able to spread mass misinformation. There is now an immense need to create models that are able to detect deepfakes and keep them from being spread as seemingly real images or videos. In this paper, we propose a new deepfake detection schema using two popular machine learning algorithms. | 翻訳日:2023-02-26 14:26:48 公開日:2023-01-27 |
# 圧縮センシングMRIのための階層型知覚対立学習フレームワーク Hierarchical Perception Adversarial Learning Framework for Compressed Sensing MRI ( http://arxiv.org/abs/2302.10309v1 ) ライセンス: Link先を確認 | Zhifan Gao, Yifeng Guo, Jiajing Zhang, Tieyong Zeng, Guang Yang | (参考訳) 長い取得時間は、患者の不快感や運動アーチファクトにつながるため、mriのアクセシビリティを制限している。
取得時間を短縮するためにいくつかのMRI技術が提案されているが、磁気共鳴イメージング(CS-MRI)における圧縮センシングは、SNRや分解能を損なうことなく高速な取得を可能にする。
しかし,既存のCS-MRI法はアーティファクトのエイリアスに悩まされている。
この課題は、ノイズのようなテクスチャと詳細を欠いた結果、不満足な再建性能をもたらす。
この課題に取り組むために,階層的知覚敵学習フレームワーク(hp-alf)を提案する。
HP-ALFは階層的なメカニズムでイメージ情報を知覚することができる。
前者は、画像全体の視覚知覚差を低減し、エイリアス化アーティファクト除去を実現することができる。
後者は、画像の領域におけるこの差を減少させ、詳細を回復することができる。
具体的には、HP-ALFは多レベル視点識別を利用して階層的なメカニズムを実現する。
この差別は、敵対的学習のための2つの視点(全体と地域)からの情報を提供することができる。
また、global and local coherent discriminatorを使用して、トレーニング中にジェネレータに構造情報を提供する。
さらに、HP-ALFは、個々の画像間のスライス情報を効果的に活用し、再構築性能を向上するコンテキスト認識学習ブロックを含んでいる。
3つのデータセットで検証された実験は、hp-alfの有効性と比較方法の優位性を示している。 The long acquisition time has limited the accessibility of magnetic resonance imaging (MRI) because it leads to patient discomfort and motion artifacts. Although several MRI techniques have been proposed to reduce the acquisition time, compressed sensing in magnetic resonance imaging (CS-MRI) enables fast acquisition without compromising SNR and resolution. However, existing CS-MRI methods suffer from the challenge of aliasing artifacts. This challenge results in the noise-like textures and missing the fine details, thus leading to unsatisfactory reconstruction performance. To tackle this challenge, we propose a hierarchical perception adversarial learning framework (HP-ALF). HP-ALF can perceive the image information in the hierarchical mechanism: image-level perception and patch-level perception. The former can reduce the visual perception difference in the entire image, and thus achieve aliasing artifact removal. The latter can reduce this difference in the regions of the image, and thus recover fine details. Specifically, HP-ALF achieves the hierarchical mechanism by utilizing multilevel perspective discrimination. This discrimination can provide the information from two perspectives (overall and regional) for adversarial learning. It also utilizes a global and local coherent discriminator to provide structure information to the generator during training. In addition, HP-ALF contains a context-aware learning block to effectively exploit the slice information between individual images for better reconstruction performance. The experiments validated on three datasets demonstrate the effectiveness of HP-ALF and its superiority to the comparative methods. | 翻訳日:2023-02-26 14:18:47 公開日:2023-01-27 |
# バイアスドマッハ・ゼーダー干渉計における量子コヒーレンスと干渉視認性 Quantum coherence versus interferometric visibility in a biased Mach-Zehnder interferometer ( http://arxiv.org/abs/2203.17062v3 ) ライセンス: Link先を確認 | Diego S. S. Chrysosthemos, Marcos L. W. Basso and Jonas Maziero | (参考訳) 二重スリット干渉計(double-slit interferometer)とmach-zehnder干渉計(mzi)は、量子波と粒子の双対性を調べるための原型的設定である。
これらのセットアップは、単一量子系(WAQ)の波面と干渉視界(IVI)の定量的な関連を誘導した。
近年,量子コヒーレンス(QC)は相補関係におけるWAQの定量化にIVIよりも適していることがわかった。
本稿では、入力と出力の両方においてバイアスビームスプリッタを持つMZIを調査し、IVIが2次元クローズド量子システムであっても、量子コヒーレンス(英語版)の挙動を反映しないため、WAQを定量化するには不十分であることを示す。
IBMの量子コンピュータを用いて、偏光ビームスプリッタを用いた光学MZIの完全な量子シミュレーションを行い、理論的な結果を検証する。 The double-slit interferometer and the Mach-Zehnder interferometer (MZI) with balanced beam splitters are prototypical setups for investigating the quantum wave-particle duality. These setups induced a quantitative association of interferometric visibility (IVI) with the wave aspect of a single quantum system (WAQ). Recently, it was realized that quantum coherence (QC) can be better suited than IVI for quantifying the WAQ in complementarity relations. In this article, we investigate a MZI with biased beam splitters both in the input and the output, and we show that in some cases the IVI is not adequate to quantify the WAQ since it does not reflect the behavior of the quantum coherence, even for a bi-dimensional closed quantum system. Using IBM quantum computers, we experimentally verify our theoretical findings by doing a full quantum simulation of the optical MZI with biased beam splitters. | 翻訳日:2023-02-20 05:01:43 公開日:2023-01-27 |
# 歩行液滴とグラニュラーイントルーダ実験における深層学習に基づく物体追跡 Deep Learning Based Object Tracking in Walking Droplet and Granular Intruder Experiments ( http://arxiv.org/abs/2302.05425v1 ) ライセンス: Link先を確認 | Erdi Kara, George Zhang, Joseph J. Williams, Gonzalo Ferrandez-Quinto, Leviticus J. Rhoden, Maximilian Kim, J. Nathan Kutz, Aminur Rahman | (参考訳) 歩行液滴および粒状侵入実験に関心のあるディープラーニングに基づく追跡対象を提案する。
典型的な歩行液滴実験では、 \textit{walker} として知られる液体液滴が、同じ液体の振動する浴槽の自由表面を横方向に推進する。
この運動は、連続したバウンス後に滴自体によって生じる表面波と液滴の間の相互作用の結果である。
歩行器は、その運動の過程で非常に不規則な軌道を示し、高速加速や、同じ浴槽に存在する他の歩行器との複雑な相互作用を含む。
流体力学実験と類似して、粒状物質実験は、非常に小さな固体粒子の振動浴とより大きな固体の \textit{intruder} からなる。
流体液滴と同様に、侵入者は浴槽の波によってドメインと相互作用し、移動するが、液滴よりもはるかに遅く、より滑らかに動く傾向にある。
複数の侵入者が導入されると、それらは互いに複雑な相互作用を示す。
我々は、最先端の物体検出モデルYOLOとハンガリーアルゴリズムを利用して、歩行者や侵入者の軌道をリアルタイムで正確に抽出する。
提案手法は,幅広い実験環境から取得したデジタル画像において,個々のウォーカーや侵入者を追跡することが可能であり,同一性スイッチの問題に苦しむことはない。
したがって,本研究で開発された深層学習手法は,歩行液滴および粒状流実験における観測対象の効率的かつ迅速かつ正確な抽出を自動化できる。
このような抽出機能は、粗い粒度のダイナミクスのためのデータ駆動動的モデルの構築や、関心のあるオブジェクトのインタラクションなど、下流のタスクに極めて有効です。 We present a deep-learning based tracking objects of interest in walking droplet and granular intruder experiments. In a typical walking droplet experiment, a liquid droplet, known as \textit{walker}, propels itself laterally on the free surface of a vibrating bath of the same liquid. This motion is the result of the interaction between the droplets and the surface waves generated by the droplet itself after each successive bounce. A walker can exhibit a highly irregular trajectory over the course of its motion, including rapid acceleration and complex interactions with the other walkers present in the same bath. In analogy with the hydrodynamic experiments, the granular matter experiments consist of a vibrating bath of very small solid particles and a larger solid \textit{intruder}. Like the fluid droplets, the intruder interacts with and travels the domain due to the waves of the bath but tends to move much slower and much less smoothly than the droplets. When multiple intruders are introduced, they also exhibit complex interactions with each other. We leverage the state-of-art object detection model YOLO and the Hungarian Algorithm to accurately extract the trajectory of a walker or intruder in real-time. Our proposed methodology is capable of tracking individual walker(s) or intruder(s) in digital images acquired from a broad spectrum of experimental settings and does not suffer from any identity-switch issues. Thus, the deep learning approach developed in this work could be used to automatize the efficient, fast and accurate extraction of observables of interests in walking droplet and granular flow experiments. Such extraction capabilities are critically enabling for downstream tasks such as building data-driven dynamical models for the coarse-grained dynamics and interactions of the objects of interest. | 翻訳日:2023-02-19 14:17:42 公開日:2023-01-27 |
# コロナウイルスの「ジェンダー」と「プレスティッジ・バイアス」 Gender and Prestige Bias in Coronavirus News Reporting ( http://arxiv.org/abs/2301.11994v1 ) ライセンス: Link先を確認 | Rebecca Dorn, Yiwen Ma, Fred Morstatter, Kristina Lerman | (参考訳) ジャーナリストは社会的な重要性の問題を提起する上で重要な役割を担っているが、何を強調し、誰にインタビューするかの選択は社会的な偏見に影響されている。
本研究では,Covid-19パンデミックに関するニュース記事の大規模なコーパスにおいて,これらのバイアスを測定するために自然言語処理ツールを使用する。
具体的には、専門家がいつニュースで引用されるかを特定し、その名前と機関関係を抽出する。
我々は、各専門家の性別、所属する組織の種類、および学術機関のランキングを分類することで、データを豊かにする。
我々の分析は、ニュースにおける専門家の表現の相違を明らかにする。
男性は女性より3倍多く引用される。
ジェンダーギャップはニュースソースの党派によって異なり、保守的なメディアはジェンダーバイアスが大きい。
また、ジャーナリストが高評価の学術機関の専門家よりも高評価の学術機関の専門家に目を向ける学術的名声バイアスも認識している。
リベラルなニュースソースは、保守的なソースよりもやや威信的なバイアスを示している。
全てのグループの声を聴くためには表現の平等が不可欠である。
バイアスを監査することで、私たちの手法はニュースカバレッジの盲点を特定するのに役立ちます。 Journalists play a vital role in surfacing issues of societal importance, but their choices of what to highlight and who to interview are influenced by societal biases. In this work, we use natural language processing tools to measure these biases in a large corpus of news articles about the Covid-19 pandemic. Specifically, we identify when experts are quoted in news and extract their names and institutional affiliations. We enrich the data by classifying each expert's gender, the type of organization they belong to, and for academic institutions, their ranking. Our analysis reveals disparities in the representation of experts in news. We find a substantial gender gap, where men are quoted three times more than women. The gender gap varies by partisanship of the news source, with conservative media exhibiting greater gender bias. We also identify academic prestige bias, where journalists turn to experts from highly-ranked academic institutions more than experts from less prestigious institutions, even if the latter group has more public health expertise. Liberal news sources exhibit slightly more prestige bias than conservative sources. Equality of representation is essential to enable voices from all groups to be heard. By auditing bias, our methods help identify blind spots in news coverage. | 翻訳日:2023-02-19 13:54:47 公開日:2023-01-27 |
# サブ・スタンダードとマル・プラクティス:不規則・偏極・毒性相互作用における誤情報の役割 Sub-Standards and Mal-Practices: Misinformation's Role in Insular, Polarized, and Toxic Interactions ( http://arxiv.org/abs/2301.11486v1 ) ライセンス: Link先を確認 | Hans W. A. Hanley, Zakir Durumeric | (参考訳) 信頼できないソースからのニュースに対して、ユーザやコミュニティはどのように反応するのか?
これらのソースからのニュースはどのようにオンライン会話を変えるのか?
本研究は,ソーシャルメディアプラットフォームReddit上での政治的悪質と毒性を喚起する上での誤情報の役割について考察する。
Google Jigsaw Perspective APIを使用して、毒性、ヘイトスピーチ、その他の形態の悪質を識別すると、誤報記事に対するRedditのコメントは、本物のニュース記事に対するコメントよりも71.4%が有害である可能性が高い。
コメント者の悪行の特定と指数的ランダムグラフモデルの利用により、誤情報に反応すると、Redditユーザーは、他の設定よりも異なる政治的信念を持つユーザーに有害である可能性が高いことを示す。
最後に、ゼロ膨らんだ負の2項回帰を利用して、サブredditの毒性が増すにつれて、ユーザは誤った情報に関連したredditの投稿にコメントする傾向が高まることを突き止めた。 How do users and communities respond to news from unreliable sources? How does news from these sources change online conversations? In this work, we examine the role of misinformation in sparking political incivility and toxicity on the social media platform Reddit. Utilizing the Google Jigsaw Perspective API to identify toxicity, hate speech, and other forms of incivility, we find that Reddit comments posted in response to misinformation articles are 71.4% more likely to be toxic than comments responding to authentic news articles. Identifying specific instances of commenters' incivility and utilizing an exponential random graph model, we then show that when reacting to a misinformation story, Reddit users are more likely to be toxic to users of different political beliefs than in other settings. Finally, utilizing a zero-inflated negative binomial regression, we identify that as the toxicity of subreddits increases, users are more likely to comment on misinformation-related Reddit submissions. | 翻訳日:2023-02-19 13:54:02 公開日:2023-01-27 |
# ユーザーの個人情報保護は罰せられるのか? I Prefer not to Say: Are Users Penalized for Protecting Personal Data? ( http://arxiv.org/abs/2210.13954v3 ) ライセンス: Link先を確認 | Tobias Leemann, Martin Pawelczyk, Christian Thomas Eberle, Gjergji Kasneci | (参考訳) 機械学習モデルとオプション情報を共有することを選択した個人や、同意せずデータを開示しない個人に対して、公正な結果を得るという課題について検討する。
これらの非接触ユーザは提供された情報だけで正当化されるよりも予測結果が著しく低いことが判明した。
この観察は、個人情報を保護しているユーザーが罰せられないようにする方法という、見落とされがちな問題を引き起こす。
統計的公平性の概念は、有利なグループと不利なグループの間の公正な結果に焦点を当てているが、これらの公平性の概念は、不利なユーザーを保護できない。
この問題に対処するため、我々はモデルの保護要件を定式化する。
(i)ユーザーが任意の情報を共有することで利益を得ることができること
(ii)データを非公開にしておけば罰を与えない。
保護要件下での損失最適性を証明したOFF(Optional Feature Fairness)の概念を提案することにより、この問題に対する最初の解決策を提供する。
(i)および
(ii)
オフ準拠モデルを学ぶために、有限サンプル収束保証付きモデル非依存データ拡張戦略を考案する。
最後に、さまざまな課題のある現実世界のタスク、モデル、データセットのOFを、複数のオプション機能で広範囲に分析する。 We examine the problem of obtaining fair outcomes for individuals who choose to share optional information with machine-learned models and those who do not consent and keep their data undisclosed. We find that these non-consenting users receive significantly lower prediction outcomes than justified by their provided information alone. This observation gives rise to the overlooked problem of how to ensure that users, who protect their personal data, are not penalized. While statistical fairness notions focus on fair outcomes between advantaged and disadvantaged groups, these fairness notions fail to protect the non-consenting users. To address this problem, we formalize protection requirements for models which (i) allow users to benefit from sharing optional information and (ii) do not penalize them if they keep their data undisclosed. We offer the first solution to this problem by proposing the notion of Optional Feature Fairness (OFF), which we prove to be loss-optimal under our protection requirements (i) and (ii). To learn OFF-compliant models, we devise a model-agnostic data augmentation strategy with finite sample convergence guarantees. Finally, we extensively analyze OFF on a variety of challenging real-world tasks, models, and data sets with multiple optional features. | 翻訳日:2023-02-19 12:03:51 公開日:2023-01-27 |
# ユーザーがより持続可能な暗号通貨を採用する方法:ナイジェリアの証拠 How to Make Users Adopt More Sustainable Cryptocurrencies: Evidence from Nigeria ( http://arxiv.org/abs/2208.00280v2 ) ライセンス: Link先を確認 | Moritz Platt, Stephen Ojeka, Andreea-Elena Dr\u{a}gnoiu, Oserere Ejemen Ibelegbu, Francesco Pierangeli, Johannes Sedlmeir and Zixin Wang | (参考訳) 最も人気のある分散暗号通貨ネットワークのいくつかは、大量の電力を消費したとして広く批判され、規制当局の関心の対象となっている。
しかし、過去に持続可能性を求めて政策を通じて暗号通貨ネットワーク運用に影響を与えようとする試みは、広く失敗に終わった。
革新を脅かす恐れから放棄されたものもあれば、分散システムの高度にグローバル化された性質のために失敗したものもある。
エネルギー政策対策のより効果的な角度を求めて、この研究はナイジェリアの暗号通貨利用者の、高消費電力の古い暗号通貨であるbitcoinの持続可能性に対する認識({n=158}$)を分析して消費者に焦点をあてたアプローチである。
主な発見は3つあります
1) 自己報告が極めて知識に富んでいるにもかかわらず、ほとんどの参加者はbitcoinのエネルギー需要を著しく過小評価している。
2)Bitcoinのエネルギー需要を正確に評価した者は、そのエネルギー需要を誤算した者よりも、そのエネルギー需要を目標とする措置を支持する傾向にあった。
3 措置を支持する者は、主に私的行為を担った。
これらの知見を踏まえ、暗号通貨サステナビリティの文脈における政策立案者の第一の課題は、消費者教育を改善することであると結論付けている。 Some of the most popular decentralised cryptocurrency networks have drawn widespread criticism for consuming vast amounts of electricity and have thus become targets of regulatory interest. Attempts to influence cryptocurrency network operations via policy in the pursuit of sustainability in the past, however, have been widely unsuccessful. Some were abandoned out of fear of jeopardising innovation while others failed due to the highly globalised nature of decentralised systems. In search of a more effective angle for energy policy measures, this study follows a consumer-focused approach by analysing the sentiments of Nigerian cryptocurrency users (${N=158}$) regarding their perceptions of the sustainability of Bitcoin, an archetypal cryptocurrency with high electricity consumption. Three main findings emerged: 1) Despite self-reporting as highly knowledgeable, most participants significantly underestimated the energy demand of Bitcoin. 2) Those who accurately assessed the energy demand of Bitcoin were more likely to support measures targeting its energy demand than those who misestimated it. 3) Those who supported measures predominantly held private actors responsible. In light of these findings, we conclude that the primary task of policymakers in the context of cryptocurrency sustainability may be to improve consumer education. | 翻訳日:2023-02-19 10:13:54 公開日:2023-01-27 |
# 正当な自己報告は決して遅かれ早かれない--感情体験評価のための「右」時間距離を考える A Valid Self-Report is Never Late, Nor is it Early: On Considering the "Right" Temporal Distance for Assessing Emotional Experience ( http://arxiv.org/abs/2302.02821v1 ) ライセンス: Link先を確認 | Bernd Dudzik and Joost Broekens | (参考訳) 自動影響予測のための計算モデルの開発には、個人の感情的刺激解釈に関する有効な自己報告が必要である。
本稿では,与えられた情報の有効性について,刺激事象とその経験が報告された瞬間との時間的距離が与える影響について述べる。
この影響は、関連する認知プロセスの時間依存と時間要求の性質に由来する。
過去の経験を正確に記述する上で,忘れることが広く認識されている課題である。
このため、できるだけ早く評価を追求する手法が普及している。
最近の刺激に関する記述は、感情的な処理が完全に収束する前に収集されるかもしれません。
これらの概念に基づき、自己報告の妥当性を最大化する刺激の種類ごとに時間的距離の存在を「正しい」時間として支持する。
その結果,(1)データ収集計画時の情緒的自己報告に対する時間的距離の影響を意識的に検討し,(2)コーパスの一部として可能であれば,情緒的自己報告の時間的距離を文書化し,(3)様々な種類の刺激に対する時間的距離の影響を検討することを推奨した。 Developing computational models for automatic affect prediction requires valid self-reports about individuals' emotional interpretations of stimuli. In this article, we highlight the important influence of the temporal distance between a stimulus event and the moment when its experience is reported on the provided information's validity. This influence stems from the time-dependent and time-demanding nature of the involved cognitive processes. As such, reports can be collected too late: forgetting is a widely acknowledged challenge for accurate descriptions of past experience. For this reason, methods striving for assessment as early as possible have become increasingly popular. However, here we argue that collection may also occur too early: descriptions about very recent stimuli might be collected before emotional processing has fully converged. Based on these notions, we champion the existence of a temporal distance for each type of stimulus that maximizes the validity of self-reports -- a "right" time. Consequently, we recommend future research to (1) consciously consider the potential influence of temporal distance on affective self-reports when planning data collection, (2) document the temporal distance of affective self-reports wherever possible as part of corpora for computational modelling, and finally (3) and explore the effect of temporal distance on self-reports across different types of stimuli. | 翻訳日:2023-02-12 13:15:29 公開日:2023-01-27 |
# 建築計画のスケジューリングにおけるChatGPTの利用の検討 Investigating the use of ChatGPT for the scheduling of construction projects ( http://arxiv.org/abs/2302.02805v1 ) ライセンス: Link先を確認 | Samuel A. Prieto, Eyob T. Mengiste, Borja Garc\'ia de Soto | (参考訳) ChatGPTのような大規模言語モデルは、繰り返しや時間を要するタスクを自動化することで、建設業界に革命をもたらす可能性がある。
本稿では,ChatGPTを用いて簡単な建設計画の構築スケジュールを生成する手法を提案する。
chatgptのアウトプットは、全体的なインタラクションエクスペリエンスとアウトプットの品質に関するフィードバックを提供する参加者のプールによって評価された。
その結果、chatgptは、示されたスコープの要件を満たす論理的アプローチに従って、コヒーレントなスケジュールを生成することができる。
参加者は、全体的なポジティブな対話体験を持ち、このようなツールが多くの予備的および時間を要するタスクを自動化する大きな可能性を示した。
しかし、この技術には依然として制限があり、業界に広く採用される前にさらなる開発が必要である。
本研究は,建設業における大規模言語モデルの利用の可能性とさらなる研究の必要性を明らかにするものである。 Large language models such as ChatGPT have the potential to revolutionize the construction industry by automating repetitive and time-consuming tasks. This paper presents a study in which ChatGPT was used to generate a construction schedule for a simple construction project. The output from ChatGPT was evaluated by a pool of participants that provided feedback regarding their overall interaction experience and the quality of the output. The results show that ChatGPT can generate a coherent schedule that follows a logical approach to fulfill the requirements of the scope indicated. The participants had an overall positive interaction experience and indicated the great potential of such a tool to automate many preliminary and time-consuming tasks. However, the technology still has limitations, and further development is needed before it can be widely adopted in the industry. Overall, this study highlights the potential of using large language models in the construction industry and the need for further research. | 翻訳日:2023-02-12 13:14:30 公開日:2023-01-27 |
# TensorCircuit: NISQ時代の量子ソフトウェアフレームワーク TensorCircuit: a Quantum Software Framework for the NISQ Era ( http://arxiv.org/abs/2205.10091v2 ) ライセンス: Link先を確認 | Shi-Xin Zhang, Jonathan Allcock, Zhou-Quan Wan, Shuo Liu, Jiace Sun, Hao Yu, Xing-Han Yang, Jiezhong Qiu, Zhaofeng Ye, Yu-Qin Chen, Chee-Kong Lee, Yi-Cong Zheng, Shao-Kai Jian, Hong Yao, Chang-Yu Hsieh, Shengyu Zhang | (参考訳) tensorcircuitは、テンソルネットワークの収縮に基づくオープンソースの量子回路シミュレータであり、速度、柔軟性、コード効率のために設計された。
Pythonで書かれ、業界標準の機械学習フレームワークの上に構築されたTensorCircuitは、自動微分、ジャストインタイムコンパイル、ベクトル化並列処理、ハードウェアアクセラレーションをサポートする。
これらの特徴により、TensorCircuitは既存のシミュレータよりも大きく複雑な量子回路をシミュレートすることができ、特にパラメータ化量子回路に基づく変分アルゴリズムに適している。
TensorCircuitは、他の一般的な量子ソフトウェアと比較して、様々な量子シミュレーションタスクの桁違いのスピードアップを可能にし、適度な回路深さと低次元接続で最大600量子ビットをシミュレートすることができる。
時間と空間効率、柔軟性と拡張性のあるアーキテクチャ、コンパクトでユーザフレンドリーなAPIにより、TensorCircuitは、Noisy Intermediate-Scale Quantum (NISQ)時代の量子アルゴリズムの設計、シミュレーション、分析を容易にするために開発された。 TensorCircuit is an open source quantum circuit simulator based on tensor network contraction, designed for speed, flexibility and code efficiency. Written purely in Python, and built on top of industry-standard machine learning frameworks, TensorCircuit supports automatic differentiation, just-in-time compilation, vectorized parallelism and hardware acceleration. These features allow TensorCircuit to simulate larger and more complex quantum circuits than existing simulators, and are especially suited to variational algorithms based on parameterized quantum circuits. TensorCircuit enables orders of magnitude speedup for various quantum simulation tasks compared to other common quantum software, and can simulate up to 600 qubits with moderate circuit depth and low-dimensional connectivity. With its time and space efficiency, flexible and extensible architecture and compact, user-friendly API, TensorCircuit has been built to facilitate the design, simulation and analysis of quantum algorithms in the Noisy Intermediate-Scale Quantum (NISQ) era. | 翻訳日:2023-02-12 08:04:54 公開日:2023-01-27 |
# 単一キュービットゲートの最適帯域制限ノイズフィルタリング Optimally Band-Limited Noise Filtering for Single Qubit Gates ( http://arxiv.org/abs/2206.03504v2 ) ライセンス: Link先を確認 | Yasuo Oda, Dennis Lucarelli, Kevin Schultz, B. David Clader, Gregory Quiroz | (参考訳) 単一量子ビット系における時間相関ノイズに対処するために最適化されたスムーズで実験的に実装可能な制御シーケンスを生成する量子制御プロトコルを提案する。
制御アンサッツは、離散プロラト球面列の関数展開であり、時間と周波数に最適に集中することが知られている離散時間基底であり、実験的な制御ハードウェア制約に直面すると非常に魅力的である。
フィルタ関数の定式化を利用して制御問題をフィルタ設計問題に変換し、量子系の周波数応答を慎重に調整することで、ノイズプロセスの最も関連する動的寄与を避けることができることを示す。
勾配上昇を用いて最適化されたフィルタ関数を取得し,フィルタ関数の設計,制御帯域幅,雑音特性の関係について重要な詳細を解明する。
特に,ノイズ抑圧の最適方式を同定し,ノイズパワーが大きい周波数帯域の大きさに直接比例する最適制御帯域幅を同定する。
フィルタ設計の指針を提供することに加えて, 多様な複雑なノイズ環境において, 頑健なノイズフィルタリングと高忠実度単一キュービット論理演算を同時に行う制御の開発を可能にする。 We introduce a quantum control protocol that produces smooth, experimentally implementable control sequences optimized to combat temporally correlated noise for single qubit systems. The control ansatz is specifically chosen to be a functional expansion of discrete prolate spheroidal sequences, a discrete time basis known to be optimally concentrated in time and frequency, and quite attractive when faced with experimental control hardware constraints. We leverage the filter function formalism to transform the control problem into a filter design problem, and show that the frequency response of a quantum system can be carefully tailored to avoid the most relevant dynamical contributions of noise processes. Using gradient ascent, we obtain optimized filter functions and exploit them to elucidate important details about the relationship between filter function design, control bandwidth, and noise characteristics. In particular, we identify regimes of optimal noise suppression and in turn, optimal control bandwidth directly proportional to the size of the frequency bands where the noise power is large. In addition to providing guiding principles for filter design, our approach enables the development of controls that simultaneously yield robust noise filtering and high fidelity single qubit logic operations in a wide variety of complex noise environments. | 翻訳日:2023-02-10 06:36:35 公開日:2023-01-27 |
# プラズマ物理学における量子コンピューティングのリビング・レビュー A Living Review of Quantum Computing for Plasma Physics ( http://arxiv.org/abs/2302.00001v1 ) ライセンス: Link先を確認 | \'Oscar Amaro and Diogo Cruz | (参考訳) 量子コンピューティングは、特にプラズマ物理学において、ある種の問題のシミュレーションを加速することを約束する。
プラズマシステムの研究に量子コンピューティング技術を適用することへの関心が高まっていることから、関連する文献の要約が最も有用であろう。
新たな分野として、新しい成果が一般的であり、研究者が最新の発展を最新に保つことが重要である。
このことを念頭に置いて、この文書の目的は、プラズマ物理学の実験的または理論的研究にこれらの量子コンピューティングアプローチを開発、応用する人々のために、定期的に最新の完全な引用のリストを提供することである。
リビングドキュメントとして、最新の開発を取り込むためにできるだけ頻繁に更新される。
参照は、アイテム化されたフォーマットとタグの使用の両方でトピックによってグループ化される。
私たちは参加方法を指示し、提案を歓迎します。 Quantum Computing promises accelerated simulation of certain classes of problems, in particular in plasma physics. Given the nascent interest in applying quantum computing techniques to study plasma systems, a compendium of the relevant literature would be most useful. As a novel field, new results are common, and it is important for researchers to stay up-to-date on the latest developments. With this in mind, the goal of this document is to provide a regularly up-to-date and thorough list of citations for those developing and applying these quantum computing approaches to experimental or theoretical work in plasma physics. As a living document, it will be updated as often as possible to incorporate the latest developments. References are grouped by topic, both in itemized format and through the use of tags. We provide instructions on how to participate, and suggestions are welcome. | 翻訳日:2023-02-06 00:09:07 公開日:2023-01-27 |
# 対称2PPT拡張性による近似テレポーテーションと量子誤差補正の性能の定量化 Quantifying the performance of approximate teleportation and quantum error correction via symmetric two-PPT-extendibility ( http://arxiv.org/abs/2207.06931v4 ) ライセンス: Link先を確認 | Tharon Holdsworth, Vishal Singh, and Mark M. Wilde | (参考訳) 量子テレポーテーションの理想的実現は、最大エンタングル状態へのアクセスに依存するが、実際にはそのような理想状態は一般に利用できず、その代わりに近似テレポーテーションしか実現できない。
そこで本研究では,任意の資源状態を用いて近似テレポーテーションの性能を定量化する手法を提案する。
より具体的には、一方向局所演算と古典的通信(LOCC)チャネルに対するシミュレーション誤差の最適化として近似テレポーテーションのタスクをフレーミングした後、より大規模な2PPT拡張可能なチャネルを最適化することで、この最適化タスクの半定緩和を確立する。
本論文の主な解析計算は,アイデンティティチャネルのユニタリ共分散対称性を利用して,後者の最適化の計算コストを大幅に削減することである。
次に、近似テレポーテーションと量子エラー補正の既知の接続を利用して、これらの概念を適用し、与えられた量子チャネル上の近似量子エラー補正の性能の限界を確立する。
最後に、リソース状態やチャネルのさまざまな例に対する境界を評価します。 The ideal realization of quantum teleportation relies on having access to a maximally entangled state; however, in practice, such an ideal state is typically not available and one can instead only realize an approximate teleportation. With this in mind, we present a method to quantify the performance of approximate teleportation when using an arbitrary resource state. More specifically, after framing the task of approximate teleportation as an optimization of a simulation error over one-way local operations and classical communication (LOCC) channels, we establish a semi-definite relaxation of this optimization task by instead optimizing over the larger set of two-PPT-extendible channels. The main analytical calculations in our paper consist of exploiting the unitary covariance symmetry of the identity channel to establish a significant reduction of the computational cost of this latter optimization. Next, by exploiting known connections between approximate teleportation and quantum error correction, we also apply these concepts to establish bounds on the performance of approximate quantum error correction over a given quantum channel. Finally, we evaluate our bounds for various examples of resource states and channels. | 翻訳日:2023-02-05 01:19:26 公開日:2023-01-27 |
# 最適制御による機械的冷却とスクイーズ Mechanical cooling and squeezing using optimal control ( http://arxiv.org/abs/2207.07785v4 ) ライセンス: Link先を確認 | Frederik Werner Isaksen and Ulrik Lund Andersen | (参考訳) メカニカルシステムは、その位置の連続的な測定とフィードバックによって最適に制御することができる。
我々は,標準的な回転波近似や断熱近似を起こさずに,そのようなシステムの性能を予測するための完全形式主義を再考する。
このフォーマリズムを用いて、最適制御とフィードバックを用いて機械振動子の条件状態と非条件状態の両方を推定し、機械的冷却と機械的スクイーズを行う。
完全モデルを用いることの重要性を強調する正確な解と近似解との間には大きな違いがある。
また, 条件状態と非条件状態の区別の重要性を強調し, フィードバック強度が無限であっても, 典型的な制御方式では一致しないことを示す。 A mechanical system can be optimally controlled through continuous measurements of its position followed by feedback. We revisit the complete formalism for predicting the performance of such as system without invoking the standard rotating wave approximations and the adiabatic approximation. Using this formalism we deduce both the conditional and unconditional state of a mechanical oscillator using the optimal control and feedback that leads to mechanical cooling and mechanical squeezing. We find large discrepancies between the exact solutions and the approximate solutions stressing the importance of using the complete model. We also highlight the importance of distinguishing between the conditional and unconditional state by demonstrating that these two cannot coincide in a typical control scheme, even with infinite feedback strength. | 翻訳日:2023-02-04 22:43:13 公開日:2023-01-27 |
# 熱・予熱量子状態の生成のための深部強化学習 Deep reinforcement learning for preparation of thermal and prethermal quantum states ( http://arxiv.org/abs/2207.12656v3 ) ライセンス: Link先を確認 | Shotaro Z. Baba, Nobuyuki Yoshioka, Yuto Ashida and Takahiro Sagawa | (参考訳) 熱平衡や前熱平衡において量子多体純状態を効率的に生成する深層強化学習に基づく手法を提案する。
この方法の基本的な物理的直観は、平衡状態の典型性に依拠して、少数の局所観測可能性にのみ焦点をあてることで、平衡状態に関する情報を効率的にエンコード/抽出できることである。
量子状態の忠実度などのグローバルな特徴を取り入れた高価な準備プロトコルに代えて、平衡状態は局所観測値の期待値を学ぶことによってのみ効率的に作成可能であることを示す。
非可積分系におけるギブズアンサンブルと、可積分系における一般化ギブズアンサンブルの2つの例を用意して、本手法を実証する。
局所可観測物からのみ合成された純状態は、平衡状態のマクロな性質をうまくエンコードするように数値的に示される。
さらに,gibbsアンサンブルに対して指数関数的に崩壊し,熱力学的アンサンブル内の有限サイズのゆらぎと一致する一般化gibbsアンサンブルに対しては多項式的に崩壊することを示した。
本手法は,量子ハードウェアにおける量子多体系の熱力学および統計的性質の研究への道を開くものである。 We propose a method based on deep reinforcement learning that efficiently prepares a quantum many-body pure state in thermal or prethermal equilibrium. The main physical intuition underlying the method is that the information on the equilibrium states can be efficiently encoded/extracted by focusing on only a few local observables, relying on the typicality of equilibrium states. Instead of resorting to the expensive preparation protocol that adopts global features such as the quantum state fidelity, we show that the equilibrium states can be efficiently prepared only by learning the expectation values of local observables. We demonstrate our method by preparing two illustrative examples: Gibbs ensembles in non-integrable systems and generalized Gibbs ensembles in integrable systems. Pure states prepared solely from local observables are numerically shown to successfully encode the macroscopic properties of the equilibrium states. Furthermore, we find that the preparation errors, with respect to the system size, decay exponentially for Gibbs ensembles and polynomially for generalized Gibbs ensembles, which are in agreement with the finite-size fluctuation within thermodynamic ensembles. Our method paves a path toward studying the thermodynamic and statistical properties of quantum many-body systems in quantum hardware. | 翻訳日:2023-02-03 17:10:28 公開日:2023-01-27 |
# 自己と相互にエキサイティングな時系列から因果グラフの発見 Causal Graph Discovery from Self and Mutually Exciting Time Series ( http://arxiv.org/abs/2301.11197v2 ) ライセンス: Link先を確認 | Song Wei, Yao Xie, Christopher S. Josef, Rishikesan Kamaleswaran | (参考訳) 時系列から因果指向非巡回グラフ (DAG) を復元するために, 線形因果モデルと新しいデータ適応線形正則化を組み合わせた一般化線形因果モデルを提案する。
最近開発された確率的単調変分不等式(vi)の定式化を利用して,因果発見問題を一般凸最適化として位置づけた。
さらに,幅広い非線形モノトンリンク関数に対する信頼区間を確立するための線形プログラムを解いて,非漸近的回復保証と定量化可能不確実性を開発する。
実験の結果を検証し, 広範な数値実験により, 提案手法の競争力を示す。
最も重要なことは、セプシス関連乱れ (SAD) に対する高度に解釈可能な因果DAGの復元におけるアプローチの有効性を示すと同時に、XGBoost のような強力な `black-box' モデルに匹敵する予測性能を実現することである。
したがって, 今後, 高リスク患者を臨床医が継続的に監視する手法が採用される可能性が高い。 We present a generalized linear structural causal model, coupled with a novel data-adaptive linear regularization, to recover causal directed acyclic graphs (DAGs) from time series. By leveraging a recently developed stochastic monotone Variational Inequality (VI) formulation, we cast the causal discovery problem as a general convex optimization. Furthermore, we develop a non-asymptotic recovery guarantee and quantifiable uncertainty by solving a linear program to establish confidence intervals for a wide range of non-linear monotone link functions. We validate our theoretical results and show the competitive performance of our method via extensive numerical experiments. Most importantly, we demonstrate the effectiveness of our approach in recovering highly interpretable causal DAGs over Sepsis Associated Derangements (SADs) while achieving comparable prediction performance to powerful ``black-box'' models such as XGBoost. Thus, the future adoption of our proposed method to conduct continuous surveillance of high-risk patients by clinicians is much more likely. | 翻訳日:2023-01-31 20:26:58 公開日:2023-01-27 |
# quantum ridgelet transform: 量子計算によるニューラルネットワークの抽選チケット Quantum Ridgelet Transform: Winning Lottery Ticket of Neural Networks with Quantum Computation ( http://arxiv.org/abs/2301.11936v1 ) ライセンス: Link先を確認 | Hayata Yamasaki, Sathyawageeswar Subramanian, Satoshi Hayakawa, Sho Sonoda | (参考訳) リッジレット変換は、ニューラルネットワークの理論研究における基本的な数学的ツールである。
しかし、従来の古典計算による数値的実装では、データ次元$d$が増加するにつれて指数関数型ランタイム$\exp(o(d))$が必要であるため、学習タスクの実行に対するリッジレット変換の実用的な適用性は限られていた。
この問題に対処するために、線形実行時$O(D)$の量子計算において、量子状態のリッジレット変換を実装する量子リッジレット変換(QRT)を開発した。
アプリケーションとして,量子機械学習(qml)の基本サブルーチンとしてqrtを使用することで,大規模ネットワークの最適化を行なわずに,大規模浅層ニューラルネットワークの分散学習可能なサブネットワークを効率的に見つけることができることを示す。
このアプリケーションは、このような疎いトレーニング可能なニューラルネットワークを見つける上で、宝くじの仮説を示すための効率的な方法を発見する。
これらの結果は、よく使われる古典的ニューラルネットワークを用いた学習タスクを加速するためのQMLの道を開く。 Ridgelet transform has been a fundamental mathematical tool in the theoretical studies of neural networks. However, the practical applicability of ridgelet transform to conducting learning tasks was limited since its numerical implementation by conventional classical computation requires an exponential runtime $\exp(O(D))$ as data dimension $D$ increases. To address this problem, we develop a quantum ridgelet transform (QRT), which implements the ridgelet transform of a quantum state within a linear runtime $O(D)$ of quantum computation. As an application, we also show that one can use QRT as a fundamental subroutine for quantum machine learning (QML) to efficiently find a sparse trainable subnetwork of large shallow wide neural networks without conducting large-scale optimization of the original network. This application discovers an efficient way in this regime to demonstrate the lottery ticket hypothesis on finding such a sparse trainable neural network. These results open an avenue of QML for accelerating learning tasks with commonly used classical neural networks. | 翻訳日:2023-01-31 20:10:11 公開日:2023-01-27 |
# MQT QMAP: 効率的な量子回路マッピング MQT QMAP: Efficient Quantum Circuit Mapping ( http://arxiv.org/abs/2301.11935v1 ) ライセンス: Link先を確認 | Robert Wille and Lukas Burgholzer | (参考訳) 量子コンピューティングは、暗号、機械学習、最適化、量子シミュレーションといった分野に革命をもたらす可能性のある新興技術である。
しかし、実際のマシン上で量子アルゴリズムを実現する上での大きな課題は、量子回路(すなわち対応する演算)のゲートがターゲットアーキテクチャのトポロジーと一致し、回路の実行が可能であると同時に、結果として生じるコスト(例えば、追加的に導入されたゲートの数、忠実度など)を低く保つことを保証することである。
これは量子回路マッピング問題として知られている。
本稿では,ミュンヘン量子ツールキット(MQT)の一部であるオープンソースツールであるQMAPの概要を紹介する。
この目的のために、論文はまず問題を簡潔にレビューする。
その後、QMAPを用いて量子回路をユーザと開発者の両方の観点から量子コンピューティングアーキテクチャに効率的にマッピングする方法を示す。
QMAPはhttps://github.com/cda-tum/qmap.comでオープンソースとして公開されている。 Quantum computing is an emerging technology that has the potential to revolutionize fields such as cryptography, machine learning, optimization, and quantum simulation. However, a major challenge in the realization of quantum algorithms on actual machines is ensuring that the gates in a quantum circuit (i.e., corresponding operations) match the topology of a targeted architecture so that the circuit can be executed while, at the same time, the resulting costs (e.g., in terms of the number of additionally introduced gates, fidelity, etc.) are kept low. This is known as the quantum circuit mapping problem. This summary paper provides an overview of QMAP, an open-source tool that is part of the Munich Quantum Toolkit (MQT) and offers efficient, automated, and accessible methods for tackling this problem. To this end, the paper first briefly reviews the problem. Afterwards, it shows how QMAP can be used to efficiently map quantum circuits to quantum computing architectures from both a user's and a developer's perspective. QMAP is publicly available as open-source at https://github.com/cda-tum/qmap. | 翻訳日:2023-01-31 20:09:51 公開日:2023-01-27 |
# 深い量子誤差補正 Deep Quantum Error Correction ( http://arxiv.org/abs/2301.11930v1 ) ライセンス: Link先を確認 | Yoni Choukroun, Lior Wolf | (参考訳) 量子誤り訂正符号(QECC)は、量子コンピューティングのポテンシャルを実現するための鍵となる要素である。
QECCは、従来のECC(英語版)と同様に、冗長な物理量子ビットに量子論理情報を分散することにより、エラーを検出し修正することで、エラー率の低減を可能にする。
本研究では,新しい深部量子誤りデコーダを効率的に学習する。
システムノイズの最初の推定値を予測するために、シンドローム復号を増強することで量子計測の崩壊を解消し、深層ニューラルネットワークによって反復的に洗練する。
有限フィールド上で計算された論理エラー率は、微分可能な目的によって直接最適化され、コードによって課される制約の下で効率的な復号化を可能にする。
最後に,本アーキテクチャは障害症候群測定をサポートするよう拡張され,反復型シンドロームサンプリングよりも効率的な復号化が可能となった。
提案手法は,QECC におけるニューラルデコーダのパワーを,従来のニューラルデコーダや古典デコーダなど多種多様なトポロジカルコードに対して,最先端の精度,性能を達成することによって実証する。 Quantum error correction codes (QECC) are a key component for realizing the potential of quantum computing. QECC, as its classical counterpart (ECC), enables the reduction of error rates, by distributing quantum logical information across redundant physical qubits, such that errors can be detected and corrected. In this work, we efficiently train novel deep quantum error decoders. We resolve the quantum measurement collapse by augmenting syndrome decoding to predict an initial estimate of the system noise, which is then refined iteratively through a deep neural network. The logical error rates calculated over finite fields are directly optimized via a differentiable objective, enabling efficient decoding under the constraints imposed by the code. Finally, our architecture is extended to support faulty syndrome measurement, to allow efficient decoding over repeated syndrome sampling. The proposed method demonstrates the power of neural decoders for QECC by achieving state-of-the-art accuracy, outperforming, for a broad range of topological codes, the existing neural and classical decoders, which are often computationally prohibitive. | 翻訳日:2023-01-31 20:09:02 公開日:2023-01-27 |
# 補助集積経路による完全スパイクニューラルネットワークの訓練 Training Full Spike Neural Networks via Auxiliary Accumulation Pathway ( http://arxiv.org/abs/2301.11929v1 ) ライセンス: Link先を確認 | Guangyao Chen, Peixi Peng, Guoqi Li, Yonghong Tian | (参考訳) 従来の高出力乗算蓄積(MAC)を低消費電力蓄積(AC)に変換するバイナリスパイク信号により、脳にインスパイアされたスパイキングニューラルネットワーク(SNN)がますます注目を集めている。
しかし、時間ステップが制限されたフルスパイクニューラルネットワーク(FSNN)のバイナリスパイク伝播は、重大な情報損失を引き起こす。
性能を改善するために、スクラッチから訓練されたいくつかの最先端SNNモデルは、必然的に多くの非スパイク操作をもたらす。
非スパイク操作は計算量の増加を引き起こし、スパイク操作のみを許可する神経形態のハードウェアにはデプロイされない。
本稿では,大規模fsnnを高性能に訓練するために,完全スパイク残差ネットワークに脱着可能な補助集積経路(aap)を付加する新しいデュアルストリーム訓練(dst)法を提案する。
AAPの蓄積は、全スパイク伝播の前後における情報損失を補うことができ、FSNNの訓練を容易にすることができる。
テスト段階ではAAPは取り外され、FSNNのみが残った。
これはエネルギー消費を抑えるだけでなく、我々のモデルを展開しやすくする。
さらに、非スパイク操作が利用可能であるケースでは、APPをテスト推論に保持し、少し非スパイク消費を導入することで特徴識別を改善することもできる。
ImageNet、DVS Gesture、CIFAR10-DVSデータセットに関する大規模な実験は、DSTの有効性を示している。 Due to the binary spike signals making converting the traditional high-power multiply-accumulation (MAC) into a low-power accumulation (AC) available, the brain-inspired Spiking Neural Networks (SNNs) are gaining more and more attention. However, the binary spike propagation of the Full-Spike Neural Networks (FSNN) with limited time steps is prone to significant information loss. To improve performance, several state-of-the-art SNN models trained from scratch inevitably bring many non-spike operations. The non-spike operations cause additional computational consumption and may not be deployed on some neuromorphic hardware where only spike operation is allowed. To train a large-scale FSNN with high performance, this paper proposes a novel Dual-Stream Training (DST) method which adds a detachable Auxiliary Accumulation Pathway (AAP) to the full spiking residual networks. The accumulation in AAP could compensate for the information loss during the forward and backward of full spike propagation, and facilitate the training of the FSNN. In the test phase, the AAP could be removed and only the FSNN remained. This not only keeps the lower energy consumption but also makes our model easy to deploy. Moreover, for some cases where the non-spike operations are available, the APP could also be retained in test inference and improve feature discrimination by introducing a little non-spike consumption. Extensive experiments on ImageNet, DVS Gesture, and CIFAR10-DVS datasets demonstrate the effectiveness of DST. | 翻訳日:2023-01-31 20:08:42 公開日:2023-01-27 |
# シンボリック音楽のためのバイトペア符号化 Byte Pair Encoding for Symbolic Music ( http://arxiv.org/abs/2301.11975v1 ) ライセンス: Link先を確認 | Nathan Fradet, Jean-Pierre Briot, Fabien Chhel, Amal El Fallah Seghrouchni, Nicolas Gutowski | (参考訳) シンボリック音楽のモダリティは、現在では主に離散的に表現され、ディープラーニングタスクのためにトランスフォーマーなどのシーケンシャルモデルで使用される。
近年の研究では、トークン化、すなわちそのようなモデルに理解可能な整数列へのデータの変換に努力している。
これは、音楽が複数の属性を持つ同時音符の同時トラックで構成できるため、様々な方法で達成できる。
これまで提案されていたトークン化は、note属性とタイムイベントを記述した小さな語彙に基づいており、結果としてかなり長いトークンシーケンスになる。
本稿では,Byte Pair Encoding(BPE)がディープラーニングモデルの結果を向上し,性能を向上する方法について述べる。
音楽生成と作曲家の分類を実験し,BPEがモデルがどのように埋め込みを学習するかについて検討し,その等方性,すなわち空間における位置のばらつきの均一性を高めることに役立つことを示す。 The symbolic music modality is nowadays mostly represented as discrete and used with sequential models such as Transformers, for deep learning tasks. Recent research put efforts on the tokenization, i.e. the conversion of data into sequences of integers intelligible to such models. This can be achieved by many ways as music can be composed of simultaneous tracks, of simultaneous notes with several attributes. Until now, the proposed tokenizations are based on small vocabularies describing the note attributes and time events, resulting in fairly long token sequences. In this paper, we show how Byte Pair Encoding (BPE) can improve the results of deep learning models while improving its performances. We experiment on music generation and composer classification, and study the impact of BPE on how models learn the embeddings, and show that it can help to increase their isotropy, i.e., the uniformity of the variance of their positions in the space. | 翻訳日:2023-01-31 20:01:39 公開日:2023-01-27 |
# 量子エントロピー源としてのゲインスイッチングvcsel--量子ノイズと古典ノイズの問題 Gain-switched vcsel as a quantum entropy source: the problem of quantum and classical noise ( http://arxiv.org/abs/2301.11973v1 ) ライセンス: Link先を確認 | Roman Shakhovoy, Elizaveta Maksimova | (参考訳) 利得切替vcselにおける分極スワップからの量子ノイズ抽出の問題を考える。
量子乱数生成器の動作原理は、2つの直交偏光状態の1つを持つレーザーパルスの生成と、コンパレータによる偏光分解パルスのデジタル化に基づいている。
コンパレータのしきい値に近いレーザーパルスの強度値において、光検出器の古典的なノイズの寄与は、論理零点または1の選択を決定する上で重要な役割を果たす。
古典的雑音の寄与度の評価方法と後処理に必要な量子化係数の計算方法を示す。 We consider the problem of quantum noise extraction from polarization swapping in a gain-switched VCSEL. The principle of operation of a quantum random number generator is based on the generation of laser pulses with one of two orthogonal polarization states, followed by digitization of polarization-resolved pulses with a comparator. At intensity values of laser pulses close to the threshold value of the comparator, the contribution of the classical noise of the photodetector will have a crucial role in making a decision on the choice of a logical zero or one. We show how to evaluate the contribution of classical noise and how to calculate the quantum reduction factor required for post-processing. | 翻訳日:2023-01-31 20:01:22 公開日:2023-01-27 |
# 仮に説明であっても,セミファクチュアルXAIの事前作業, Desiderata & Benchmarks Even if Explanations: Prior Work, Desiderata & Benchmarks for Semi-Factual XAI ( http://arxiv.org/abs/2301.11970v1 ) ライセンス: Link先を確認 | Saugat Aryal and Mark T Keane | (参考訳) 最近、eXplainable AI (XAI)研究は、AIシステム決定に対するポストホックな正当化として、反ファクト的な説明に焦点を当てている(例えば、顧客がローンを拒否した場合、短い期間でローンを請求した場合、承認された)。
カウンターファクトリーは、AIシステムの入力機能の変更が出力決定をどう変えるかを説明する。
しかし、AIにはあまり注目されていない反事実的半事実のサブタイプが存在する(認知科学はそれらを広く研究している)。
本稿は、これらの文献を調査し、この地域の歴史的・最近のブレークスルーを要約する。
半実のXAIのためのキーデシダータを定義し、将来的なアルゴリズム開発のための確固たる基盤を提供するために、(新奇な方法とともに)履歴アルゴリズムのベンチマークテストを行う。 Recently, eXplainable AI (XAI) research has focused on counterfactual explanations as post-hoc justifications for AI-system decisions (e.g. a customer refused a loan might be told: If you asked for a loan with a shorter term, it would have been approved). Counterfactuals explain what changes to the input-features of an AI system change the output-decision. However, there is a sub-type of counterfactual, semi-factuals, that have received less attention in AI (though the Cognitive Sciences have studied them extensively). This paper surveys these literatures to summarise historical and recent breakthroughs in this area. It defines key desiderata for semi-factual XAI and reports benchmark tests of historical algorithms (along with a novel, naieve method) to provide a solid basis for future algorithmic developments. | 翻訳日:2023-01-31 20:01:11 公開日:2023-01-27 |
# 2つの同一粒子の絡み合う状態に対する一般化不確かさ原理 Generalized Uncertainty Principle for Entangled States of Two Identical Particles ( http://arxiv.org/abs/2301.11966v1 ) ライセンス: Link先を確認 | K. C. Lemos Filho, B. B. Dilem, J. C. Fabris and J. A. Nogueira | (参考訳) 本研究では、一般化不確実性原理(GUP)を考慮すると、2つの同一粒子系の量子絡み合いの結果を決定する。
GUPは通常、最小長の存在と関連している。
我々はgupの主な定式化に注目し,修正gupによって引き起こされる位置の不確かさを最小化する。
その結果,gupとは無関係に最小の不確実性が通常の値の半分減少することが判明した。
これは、最小長も半減することを意味する。
一方、最小長は物理系に依存してはならないと一般に期待されている。
このパラドックスを克服するために、絡み合った系は2つの粒子で構成されており、最小長に関する有効パラメータを使わなければならない。 In this work we determine the consequences of the quantum entanglement of a system of two identical particles when the generalized uncertainty principle (GUP) is considered. GUP is usually associated with the existence of a minimal length. We focus on the main formulations of the GUP and then we determine the minimal uncertainties in position induced by those modified GUP's. Our results point out that the minimal uncertainty is reduced by half of its usual value independently of the GUP employed. This implies that the minimal length is also reduced by half. On the other hand, it is generally expected that the minimal length must not depend on physical system. We overcome this apparent paradox by realizing that the entangled system is composed by two particles so that an effective parameter related to the minimal length must be employed. | 翻訳日:2023-01-31 20:00:54 公開日:2023-01-27 |
# ファイル分類のためのadversarial networkと機械学習 Adversarial Networks and Machine Learning for File Classification ( http://arxiv.org/abs/2301.11964v1 ) ライセンス: Link先を確認 | Ken St. Germain, Josh Angichiodo | (参考訳) 検査中のファイルの種類を正確に特定することは、法医学調査の重要な部分である。
ファイルタイプだけでも、画像、ビデオ、原稿、スプレッドシートなどの埋め込みコンテンツが提案されている。
システム所有者がファイルのアクセス不能やファイルタイプを隠蔽したい場合,拡張やファイルヘッダが難読化されても,逆向きにトレーニングされた機械学習ニューラルネットワークを用いてファイルの真の型を決定することを提案する。
半教師付き生成敵ネットワーク(SGAN)は,11種類のファイルの分類において97.6%の精度を達成した。
また、ネットワークを従来のスタンドアロンニューラルネットワークと、他の3つの機械学習アルゴリズムと比較しました。
adversarially-trained networkは、特に教師ありサンプルが少ないシナリオにおいて、最も正確なファイル分類器であることが判明した。
SGANを使用したファイル分類器の実装はGitHub(https://ksaintg.github.io/SGAN-File-Classier)で実施しています。 Correctly identifying the type of file under examination is a critical part of a forensic investigation. The file type alone suggests the embedded content, such as a picture, video, manuscript, spreadsheet, etc. In cases where a system owner might desire to keep their files inaccessible or file type concealed, we propose using an adversarially-trained machine learning neural network to determine a file's true type even if the extension or file header is obfuscated to complicate its discovery. Our semi-supervised generative adversarial network (SGAN) achieved 97.6% accuracy in classifying files across 11 different types. We also compared our network against a traditional standalone neural network and three other machine learning algorithms. The adversarially-trained network proved to be the most precise file classifier especially in scenarios with few supervised samples available. Our implementation of a file classifier using an SGAN is implemented on GitHub (https://ksaintg.github.io/SGAN-File-Classier). | 翻訳日:2023-01-31 20:00:39 公開日:2023-01-27 |
# 疾患のポイント・オブ・ケア同定における機械学習強化磁気共鳴の可能性について On the Feasibility of Machine Learning Augmented Magnetic Resonance for Point-of-Care Identification of Disease ( http://arxiv.org/abs/2301.11962v1 ) ライセンス: Link先を確認 | Raghav Singhal, Mukund Sudarshan, Anish Mahishi, Sri Kaushik, Luke Ginocchio, Angela Tong, Hersh Chandarana, Daniel K. Sodickson, Rajesh Ranganath, and Sumit Chopra | (参考訳) 多くの生命を脅かす病気(前立腺や乳がんなど)の早期発見は、リスクの高い集団において臨床結果を改善し、治療費を削減できる。
ポイント・オブ・ケア(POC: Point-of-Care)に近い多くの疾患特異的なスクリーニングテストがこのタスクに使用されているが、それらの低特異性は不必要な生検をもたらし、予防可能な患者外傷と無駄な医療費をもたらす。
一方, 疾患診断におけるMR画像の精度は高いが, アクセシビリティが低いため, POC 病識別ツールとして使用されていない。
mrのアクセシビリティの低さの根本原因は、高品質なk空間測定を大量に得るための長く複雑なプロセスを必要とするため、高忠実度画像の再構築の必要性にある。
本研究では,画像再構成過程を横取りする疾患を直接推測するML拡張MRパイプラインの実現可能性について検討する。
我々は,k空間データの非常に小さな部分集合を用いて,画像再構成に比べて病気分類課題を解決できると仮定した。
そこで我々は,2つのタスクを実行する手法を提案する。
1)疾患の特定精度を最大化するk空間のサブセットを特定し、
2)特定したk空間サブセットを直接使用して画像再構成ステップをバイパスして疾患を推測する。
提案システムの性能を複数の疾患や解剖にまたがって測定し,仮説を検証する。
フルk空間データで再構成した画像に基づいて訓練した画像ベース分類器に匹敵する性能は,前立腺・脳スキャンにおける複数の異常を検出できるデータの8%,膝の異常を検出できるデータの5%で達成できることを示す。
提案するアプローチをより深く理解し,今後の研究を推し進めるために,広範な分析とリリースコードを提供する。 Early detection of many life-threatening diseases (e.g., prostate and breast cancer) within at-risk population can improve clinical outcomes and reduce cost of care. While numerous disease-specific "screening" tests that are closer to Point-of-Care (POC) are in use for this task, their low specificity results in unnecessary biopsies, leading to avoidable patient trauma and wasteful healthcare spending. On the other hand, despite the high accuracy of Magnetic Resonance (MR) imaging in disease diagnosis, it is not used as a POC disease identification tool because of poor accessibility. The root cause of poor accessibility of MR stems from the requirement to reconstruct high-fidelity images, as it necessitates a lengthy and complex process of acquiring large quantities of high-quality k-space measurements. In this study we explore the feasibility of an ML-augmented MR pipeline that directly infers the disease sidestepping the image reconstruction process. We hypothesise that the disease classification task can be solved using a very small tailored subset of k-space data, compared to image reconstruction. Towards that end, we propose a method that performs two tasks: 1) identifies a subset of the k-space that maximizes disease identification accuracy, and 2) infers the disease directly using the identified k-space subset, bypassing the image reconstruction step. We validate our hypothesis by measuring the performance of the proposed system across multiple diseases and anatomies. We show that comparable performance to image-based classifiers, trained on images reconstructed with full k-space data, can be achieved using small quantities of data: 8% of the data for detecting multiple abnormalities in prostate and brain scans, and 5% of the data for knee abnormalities. To better understand the proposed approach and instigate future research, we provide an extensive analysis and release code. | 翻訳日:2023-01-31 20:00:23 公開日:2023-01-27 |
# 自己微分可能アンサンブルカルマンフィルタの低次化 Reduced-Order Autodifferentiable Ensemble Kalman Filters ( http://arxiv.org/abs/2301.11961v1 ) ライセンス: Link先を確認 | Yuming Chen, Daniel Sanz-Alonso, Rebecca Willett | (参考訳) 本稿では,未知あるいは高価なシミュレーションシステムに従って進化する部分観測状態の再構成と予測を行う計算フレームワークを提案する。
我々の低次自己微分可能アンサンブルカルマンフィルタ(ROAD-EnKFs)は、ダイナミックスのための潜在低次元サロゲートモデルと、潜時空間から状態空間へのデコーダを学習する。
学習されたダイナミクスとデコーダは、状態の再構築と予測のためにアンサンブルカルマンフィルタ内で使用される。
数値実験により、状態ダイナミクスが隠れた低次元構造を示す場合、既存の方法よりも低い計算コストで高い精度が得られることが示された。
このような構造が潜在状態力学で表現されない場合、ROAD-EnKFは低コストで同様の精度を達成し、状態再構成と予測のための有望なアプローチとなる。 This paper introduces a computational framework to reconstruct and forecast a partially observed state that evolves according to an unknown or expensive-to-simulate dynamical system. Our reduced-order autodifferentiable ensemble Kalman filters (ROAD-EnKFs) learn a latent low-dimensional surrogate model for the dynamics and a decoder that maps from the latent space to the state space. The learned dynamics and decoder are then used within an ensemble Kalman filter to reconstruct and forecast the state. Numerical experiments show that if the state dynamics exhibit a hidden low-dimensional structure, ROAD-EnKFs achieve higher accuracy at lower computational cost compared to existing methods. If such structure is not expressed in the latent state dynamics, ROAD-EnKFs achieve similar accuracy at lower cost, making them a promising approach for surrogate state reconstruction and forecasting. | 翻訳日:2023-01-31 19:59:51 公開日:2023-01-27 |
# MPNNとグラフ変換器の接続について On the Connection Between MPNN and Graph Transformer ( http://arxiv.org/abs/2301.11956v1 ) ライセンス: Link先を確認 | Chen Cai, Truong Son Hy, Rose Yu, Yusu Wang | (参考訳) グラフトランスフォーマー(GT)は最近、グラフ学習アルゴリズムの新しいパラダイムとして登場し、これまで人気があったMPNN(Message Passing Neural Network)を、複数のベンチマークで上回っている。
以前の研究 (Kim et al., 2022) は、適切な位置埋め込みで、GTがMPNNを任意に近似できることを示し、GTが少なくともMPNNと同じくらい強力であることを示唆している。
本稿では, 逆接続について検討し, 理論的な理解がほとんどない一般のヒューリスティックである仮想ノード (vn) を持つ mpnn が gt の自己結合層を任意に近似できるほど強力であることを示す。
特に,1種類の線形変換器,いわゆるPerformer/Linear Transformer(Choromanski et al., 2020; Katharopoulos et al., 2020)を考えると,O(1)深さとO(1)幅しか持たないMPNN+VNはPerformer/Linear Transformerの自己保持層を近似することができる。
次に、MPNN + VN と DeepSets の接続を通して、MPNN + VN を O(n^d) 幅で証明し、O(1) 深さは d が入力特徴次元であるような自己認識層を任意に近似することができる。
最後に、いくつかの仮定の下で、GT における自己保持層を任意に近似する O(1) 幅と O(n) 深さの MPNN + VN の明示的な構成を提供する。
実証的な側面では、
1) MPNN + VNは驚くほど強力なベースラインであり、最近提案されたLong Range Graph Benchmark(LRGB)データセットでGTを上回っている。
2)MPNN+VNは、幅広いOGBデータセットの早期実装よりも改善されている。
3)MPNN+VNはLinear TransformerとMPNNより気候モデリングに優れる。 Graph Transformer (GT) recently has emerged as a new paradigm of graph learning algorithms, outperforming the previously popular Message Passing Neural Network (MPNN) on multiple benchmarks. Previous work (Kim et al., 2022) shows that with proper position embedding, GT can approximate MPNN arbitrarily well, implying that GT is at least as powerful as MPNN. In this paper, we study the inverse connection and show that MPNN with virtual node (VN), a commonly used heuristic with little theoretical understanding, is powerful enough to arbitrarily approximate the self-attention layer of GT. In particular, we first show that if we consider one type of linear transformer, the so-called Performer/Linear Transformer (Choromanski et al., 2020; Katharopoulos et al., 2020), then MPNN + VN with only O(1) depth and O(1) width can approximate a self-attention layer in Performer/Linear Transformer. Next, via a connection between MPNN + VN and DeepSets, we prove the MPNN + VN with O(n^d) width and O(1) depth can approximate the self-attention layer arbitrarily well, where d is the input feature dimension. Lastly, under some assumptions, we provide an explicit construction of MPNN + VN with O(1) width and O(n) depth approximating the self-attention layer in GT arbitrarily well. On the empirical side, we demonstrate that 1) MPNN + VN is a surprisingly strong baseline, outperforming GT on the recently proposed Long Range Graph Benchmark (LRGB) dataset, 2) our MPNN + VN improves over early implementation on a wide range of OGB datasets and 3) MPNN + VN outperforms Linear Transformer and MPNN on the climate modeling task. | 翻訳日:2023-01-31 19:59:34 公開日:2023-01-27 |
# 利得変調ニューロンによる神経集団の統計的白化 Statistical whitening of neural populations with gain-modulating interneurons ( http://arxiv.org/abs/2301.11955v1 ) ライセンス: Link先を確認 | Lyndon R. Duong, David Lipshutz, David J. Heeger, Dmitri B. Chklovskii, Eero P. Simoncelli | (参考訳) 統計的な白化変換は多くの計算システムにおいて基本的な役割を担い、生物学的感覚システムにおいても重要な役割を果たす。
個々のニューロンは迅速かつ可逆的に入力出力のゲインを変化させ、反応のばらつきをほぼ正規化する。
神経細胞の個体群は関節反応を調節し、神経活動の相関を減少させる。
ホワイトニングをこれらの行動を導く目的と見なすのは自然なことであるが、これらのジョイント変化のメカニズムは不明であり、シナプス相互作用の直接的調整は遅すぎるか、逆に可逆的であるように思われる。
高速利得変調に関する広範囲な神経科学文献に動機づけられ,回路内の利得の変調により結合的な白化を実現するリカレントネットワークアーキテクチャを提案する。
具体的には,多次元入力の2次連成統計量を制御するオンライン統計白化アルゴリズムを考案し,超完全集合の相互射影の差分を調整した。
これらのニューロンの利得は、局所的な信号のみを使用して個別に調整され、一次ニューロンにフィードバックされる。
ネットワークは一次ニューロンの応答が白くなる状態に収束する。
我々は,ネットワークの動作が,利得が制約された場合の低条件や雑音に対して頑健であり,視覚系や聴覚系で見られるような畳み込み型集団における局所的な白化を実現するために一般化できることを示す。 Statistical whitening transformations play a fundamental role in many computational systems, and may also play an important role in biological sensory systems. Individual neurons appear to rapidly and reversibly alter their input-output gains, approximately normalizing the variance of their responses. Populations of neurons appear to regulate their joint responses, reducing correlations between neural activities. It is natural to see whitening as the objective that guides these behaviors, but the mechanism for such joint changes is unknown, and direct adjustment of synaptic interactions would seem to be both too slow, and insufficiently reversible. Motivated by the extensive neuroscience literature on rapid gain modulation, we propose a recurrent network architecture in which joint whitening is achieved through modulation of gains within the circuit. Specifically, we derive an online statistical whitening algorithm that regulates the joint second-order statistics of a multi-dimensional input by adjusting the marginal variances of an overcomplete set of interneuron projections. The gains of these interneurons are adjusted individually, using only local signals, and feed back onto the primary neurons. The network converges to a state in which the responses of the primary neurons are whitened. We demonstrate through simulations that the behavior of the network is robust to poor conditioning or noise when the gains are sign-constrained, and can be generalized to achieve a form of local whitening in convolutional populations, such as those found throughout the visual or auditory system. | 翻訳日:2023-01-31 19:58:55 公開日:2023-01-27 |
# 真空揺らぎによる電子の運動について On the motion of an electron through vacuum fluctuations ( http://arxiv.org/abs/2301.11946v1 ) ライセンス: Link先を確認 | Anirudh Gundhi and Angelo Bassi | (参考訳) 非相対論的電子の動きに対する電磁真空の効果について検討する。
この目的のために真空は環境として扱われ、電子は開放量子系の枠組み内の系として扱われる。
環境自由度を追及した後、電子の還元密度行列を位置ベースで時間発展させる。
主方程式を用いて、この記事の第1部では、位置演算子の期待値の運動方程式を導出する。
外部ポテンシャルの存在下では、方程式は古典的ポテンシャルであるエイブラハム・ローレンツ方程式と同じであることが判明した。
しかし、その欠如により、ダイナミクスは暴走ソリューションから解放される。
本論文の第2部では真空揺らぎによるデコヒーレンスについて検討した。
減少密度行列のレベルに現れるデコヒーレンスは、実際の非可逆的コヒーレンス損失とは一致しないことを示す。 We study the effects of the electromagnetic vacuum on the motion of a non-relativistic electron. To this end, the vacuum is treated as the environment and the electron as the system within the framework of open quantum systems. After tracing over the environmental degrees of freedom, we obtain the time evolution of the reduced density matrix of the electron in the position basis. Using the master equation, in the first part of the article we derive the equation of motion for the expectation value of the position operator. In the presence of an external potential, the equation turns out to be the same as its classical counterpart: the Abraham-Lorentz equation. However, in its absence, the dynamics is free of the runaway solution. In the second part of the article we study decoherence induced by vacuum fluctuations. We show that decoherence that appears at the level of the reduced density matrix does not correspond to actual irreversible loss of coherence. | 翻訳日:2023-01-31 19:58:32 公開日:2023-01-27 |
# ReLUディープニューラルネットワークの検証のための頂点ベースリーチビリティ解析 Vertex-based reachability analysis for verifying ReLU deep neural networks ( http://arxiv.org/abs/2301.12001v1 ) ライセンス: Link先を確認 | Jo\~ao Zago, Eduardo Camponogara and Eric Antonelo | (参考訳) ニューラルネットワークは、画像識別、音声認識、その他のアプリケーションなど、さまざまなタスクに対して高いパフォーマンスを実現した。
その成功にもかかわらず、これらのモデルは、いわゆる敵対的な例を作るのに使用できる小さな摂動に関してまだ脆弱である。
モデルがいくつかの特性を満たすことを検証するために、到達性、最適化、探索手順を含む様々な手法を用いる形式的検証システムを含む、その脆弱性を回避するための様々なアプローチが提案されている。
本稿では,ReLUアクティベーションを用いたディープニューラルネットワーク検証のための3つの新しい到達性アルゴリズムを提案する。
第1および第3のアルゴリズムは到達可能集合に対する過剰近似を計算するが、第2のアルゴリズムは到達可能集合を正確に計算する。
前述したアプローチと異なり、アルゴリズムはvポリトープを入力とする。
ACAS Xu 問題に対する実験により,本研究で提案した Exact Polytope Network Mapping (EPNM) の到達性アルゴリズムは,文献,特に他の到達性手法と比較して,最先端の成果を上回ることがわかった。 Neural networks achieved high performance over different tasks, i.e. image identification, voice recognition and other applications. Despite their success, these models are still vulnerable regarding small perturbations, which can be used to craft the so-called adversarial examples. Different approaches have been proposed to circumvent their vulnerability, including formal verification systems, which employ a variety of techniques, including reachability, optimization and search procedures, to verify that the model satisfies some property. In this paper we propose three novel reachability algorithms for verifying deep neural networks with ReLU activations. The first and third algorithms compute an over-approximation for the reachable set, whereas the second one computes the exact reachable set. Differently from previously proposed approaches, our algorithms take as input a V-polytope. Our experiments on the ACAS Xu problem show that the Exact Polytope Network Mapping (EPNM) reachability algorithm proposed in this work surpass the state-of-the-art results from the literature, specially in relation to other reachability methods. | 翻訳日:2023-01-31 19:51:54 公開日:2023-01-27 |
# 非可換幾何位相の粒子数閾値 Particle-Number Threshold for Non-Abelian Geometric Phases ( http://arxiv.org/abs/2301.11999v1 ) ライセンス: Link先を確認 | Julien Pinske, Vincent Burgtorf, and Stefan Scheel | (参考訳) 量子状態がゲージポテンシャルの影響を受けながら経路を横切るとき、それは単にスカラー量以上の幾何位相を得る。
この形の平行輸送によって実現できるユニタリ変換の多様性は、進化に関わる粒子の数に大きく依存する。
ここでは、量子状態の純粋に幾何学的な操作を行うシステムの能力を評価する粒子数しきい値(PNT)を導入する。
この閾値は、非アベリア幾何学的位相を生成するシステムのポテンシャルを完全に活用するために必要な最小の粒子数を与える。
したがって、PNTはホロノミック量子コンピュータのリソース要求を評価するのに有用かもしれない。
我々は、線形および非線形量子光学に関連するボソニック系に関する知見をベンチマークする。 When a quantum state traverses a path, while being under the influence of a gauge potential, it acquires a geometric phase that is often more than just a scalar quantity. The variety of unitary transformations that can be realised by this form of parallel transport depends crucially on the number of particles involved in the evolution. Here, we introduce a particle-number threshold (PNT) that assesses a system's capabilities to perform purely geometric manipulations of quantum states. This threshold gives the minimal number of particles necessary to fully exploit a system's potential to generate non-Abelian geometric phases. Therefore, the PNT might be useful for evaluating the resource demands of a holonomic quantum computer. We benchmark our findings on bosonic systems relevant to linear and nonlinear quantum optics. | 翻訳日:2023-01-31 19:51:23 公開日:2023-01-27 |
# テキストスタイル転送のためのプロンプトベース編集 Prompt-Based Editing for Text Style Transfer ( http://arxiv.org/abs/2301.11997v1 ) ライセンス: Link先を確認 | Guoqing Luo, Yu Tong Han, Lili Mou, Mauajama Firdaus | (参考訳) テキストプロンプト(textual prompt)は、事前学習された言語モデルにクエリし、スタイル変換されたテキストを単語毎に自己回帰的に生成するために使用される。
しかし、このような生成プロセスは制御しにくく、早期予測エラーは将来の単語予測に影響を及ぼす可能性がある。
本稿では,テキストスタイル転送のためのプロンプトベースの編集手法を提案する。
具体的には,事前学習した言語モデルを用いてスタイル分類を行い,分類確率を用いてスタイルスコアを計算する。
次に,単語レベルの編集による離散探索を行い,スタイル変換タスクの総合的スコアリング関数を最大化する。
このように、プロンプトに基づく生成問題を、学習フリーなプロセスであり、文の自己回帰生成よりも制御しやすい分類問題に変換する。
私たちの実験では、3つのスタイル転送ベンチマークデータセットで自動評価とヒューマン評価の両方を行い、このアプローチが20倍のパラメータを持つ最先端システムを大きく上回っていることを示した。
さらなる実証分析は、我々のアプローチの有効性をさらに示します。 Prompting approaches have been recently explored in text style transfer, where a textual prompt is used to query a pretrained language model to generate style-transferred texts word by word in an autoregressive manner. However, such a generation process is less controllable and early prediction errors may affect future word predictions. In this paper, we present a prompt-based editing approach for text style transfer. Specifically, we prompt a pretrained language model for style classification and use the classification probability to compute a style score. Then, we perform discrete search with word-level editing to maximize a comprehensive scoring function for the style-transfer task. In this way, we transform a prompt-based generation problem into a classification one, which is a training-free process and more controllable than the autoregressive generation of sentences. In our experiments, we performed both automatic and human evaluation on three style-transfer benchmark datasets, and show that our approach largely outperforms the state-of-the-art systems that have 20 times more parameters. Additional empirical analyses further demonstrate the effectiveness of our approach. | 翻訳日:2023-01-31 19:51:12 公開日:2023-01-27 |
# 2つの位相共役電磁波の量子ランゲヴィン理論 Quantum Langevin theory for two coupled phase-conjugated electromagnetic waves ( http://arxiv.org/abs/2301.11993v1 ) ライセンス: Link先を確認 | Yue Jiang, Yefeng Mei, Shengwang Du | (参考訳) 損失ゲイン誘起ランゲヴィンノイズは量子光学において集中的に研究されているが、2つの位相共役光場のノイズに対する複素数値非線形結合係数の影響はこれまでにも疑問視されていない。
ここでは、線形損失(gain)と複素非線形結合係数を持つ2つの結合相共役場に対する量子ランジュバン方程式の一般マクロ表現論式を提供する。
本発明のマクロスコピック現象学式は,光-物質相互作用の微視的詳細や内部原子構造を知る必要のない,場の交換関係と相関を維持するために結合行列から得られる。
この現象学式を検証するために, 2-$\Lambda$4レベル原子系の自発的な4波混合を例に挙げ,我々のマクロな現象学的結果は,顕微鏡的ハイゼンベルク・ランゲヴィン理論から得られたものと一致していることを数値的に確認する。
最後に、量子ランゲヴィン方程式を適用し、線形利得と損失、複雑な位相ミスマッチ、および絡み合った光子対(双光子)生成における複素非線形結合係数の影響、特に時間量子相関について研究する。 While loss-gain-induced Langevin noises have been intensively studied in quantum optics, the effect of a complex-valued nonlinear coupling coefficient on the noises of two coupled phase-conjugated optical fields has never been questioned before. Here, we provide a general macroscopic phenomenological formula of quantum Langevin equations for two coupled phase-conjugated fields with linear loss (gain) and complex nonlinear coupling coefficient. The macroscopic phenomenological formula is obtained from the coupling matrix to preserve the field commutation relations and correlations, which does not require knowing the microscopic details of light-matter interaction and internal atomic structures. To validate this phenomenological formula, we take spontaneous four-wave mixing in a double-$\Lambda$ four-level atomic system as an example to numerically confirm that our macroscopic phenomenological result is consistent with that obtained from the microscopic Heisenberg-Langevin theory. Finally, we apply the quantum Langevin equations to study the effects of linear gain and loss, complex phase mismatching, as well as complex nonlinear coupling coefficient in entangled photon pair (biphoton) generation, particularly to their temporal quantum correlations. | 翻訳日:2023-01-31 19:50:56 公開日:2023-01-27 |
# ジェット生成の実時間非摂動力学:量子エンタングルメントと真空修正 Real-time non-perturbative dynamics of jet production: quantum entanglement and vacuum modification ( http://arxiv.org/abs/2301.11991v1 ) ライセンス: Link先を確認 | Adrien Florio, David Frenklakh, Kazuki Ikeda, Dmitri Kharzeev, Vladimir Korepin, Shuzhe Shi, Kwangmin Yu | (参考訳) ジェットの生産は、高運動量色の電荷の伝播を阻害するqcd真空のリアルタイム応答をテストすることができる。
この問題に理論的に対処するには、リアルタイムで非摂動的な方法が必要である。
このようなアプローチを開発するためのステップとして、ここでは、e^+e^-$消滅で生成されたクォークと古クォークジェットを表す外部ソースに結合した巨大なシュウィンガーモデルの完全な量子シミュレーションについて報告する。
シュウィンガーモデル [QED in $(1+1)$ dimensions] は、閉じ込め、カイラル対称性の破れ、真空フェルミオン凝縮の存在を含む多くの共通性質をQCDと共有していることはよく知られている。
これにより、初めて、伝播噴流による真空キラル凝縮物の修正と、分裂噴流の間の量子の絡み合いを研究することができる。
以上の結果から, 2つの噴流の分裂生成物は, 実験で研究できる速さ分離値$\delta \eta \leq 2$ において強い絡み合いを示した。 The production of jets should allow to test the real-time response of the QCD vacuum disturbed by the propagation of high-momentum color charges. Addressing this problem theoretically requires a real-time, non-perturbative method. As a step in developing such an approach, we report here on fully quantum simulations of a massive Schwinger model coupled to external sources representing quark and antiquark jets as produced in $e^+e^-$ annihilation. It is well known that the Schwinger model [QED in $(1+1)$ dimensions] shares many common properties with QCD, including confinement, chiral symmetry breaking and the existence of vacuum fermion condensate. This allows us to study, for the first time, the modification of the vacuum chiral condensate by the propagating jets, and the quantum entanglement between the fragmenting jets. Our results indicate strong entanglement between the fragmentation products of the two jets at rapidity separations $\Delta \eta \leq 2$ that can potentially be studied in experiment. | 翻訳日:2023-01-31 19:50:33 公開日:2023-01-27 |
# 人間表現へのアライメントはロバストな少数ショット学習を支援する Alignment with human representations supports robust few-shot learning ( http://arxiv.org/abs/2301.11990v1 ) ライセンス: Link先を確認 | Ilia Sucholutsky, Thomas L. Griffiths | (参考訳) AIシステムは、人間のものと似た世界の表現を持っているかどうかを気にすべきだろうか?
我々は,人間との表現的アライメントの程度と,少数の学習タスクにおけるパフォーマンスとの間には,u型関係があることを示唆する情報論的分析を行う。
この予測を実証的に確認し,491台のコンピュータビジョンモデルの性能解析において,このような関係を見出した。
また、高整合モデルは敵攻撃とドメインシフトの両方に対してより堅牢であることを示す。
以上の結果から,モデルが限られたデータを有効に利用し,堅牢で,一般化するのには,人間関係は十分であるが必要ではない場合が多いことが示唆された。 Should we care whether AI systems have representations of the world that are similar to those of humans? We provide an information-theoretic analysis that suggests that there should be a U-shaped relationship between the degree of representational alignment with humans and performance on few-shot learning tasks. We confirm this prediction empirically, finding such a relationship in an analysis of the performance of 491 computer vision models. We also show that highly-aligned models are more robust to both adversarial attacks and domain shifts. Our results suggest that human-alignment is often a sufficient, but not necessary, condition for models to make effective use of limited data, be robust, and generalize well. | 翻訳日:2023-01-31 19:50:18 公開日:2023-01-27 |
# サブサンプリングによる実用的微分プライベートハイパーパラメータチューニング Practical Differentially Private Hyperparameter Tuning with Subsampling ( http://arxiv.org/abs/2301.11989v1 ) ライセンス: Link先を確認 | Antti Koskela and Tejas Kulkarni | (参考訳) 差分プライベート(DP)機械学習(ML)アルゴリズムのすべてのハイパーパラメータをチューニングするには、敏感なデータを使う必要があり、これはハイパーパラメータ値を介してプライベート情報をリークする可能性がある。
最近、papernot と steinke (2022) は、ランダムな探索サンプルの数がランダム化されるdpハイパーパラメータチューニングアルゴリズムのクラスを提案した。
一般的に、これらのアルゴリズムはdpプライバシパラメータである$\varepsilon$を非チューニングのdp mlモデルトレーニングよりも大幅に増加させており、ハイパーパラメータ候補の評価には新たなトレーニング実行が必要になるため、計算量的に重い。
本稿では,これらの手法のDPバウンダリと計算複雑性の両面を,高パラメータチューニングのための機密データのランダムなサブセットのみを用いて下げることと,小さなデータセットからより大きなデータセットへの最適な値を外挿することに焦点を当てる。
提案手法のr\'enyi微分プライバシー解析を行い,papernot と steinke (2022) によるベースライン法よりも,プライバシ利用のトレードオフが良好であることを実験的に示す。 Tuning all the hyperparameters of differentially private (DP) machine learning (ML) algorithms often requires use of sensitive data and this may leak private information via hyperparameter values. Recently, Papernot and Steinke (2022) proposed a certain class of DP hyperparameter tuning algorithms, where the number of random search samples is randomized itself. Commonly, these algorithms still considerably increase the DP privacy parameter $\varepsilon$ over non-tuned DP ML model training and can be computationally heavy as evaluating each hyperparameter candidate requires a new training run. We focus on lowering both the DP bounds and the computational complexity of these methods by using only a random subset of the sensitive data for the hyperparameter tuning and by extrapolating the optimal values from the small dataset to a larger dataset. We provide a R\'enyi differential privacy analysis for the proposed method and experimentally show that it consistently leads to better privacy-utility trade-off than the baseline method by Papernot and Steinke (2022). | 翻訳日:2023-01-31 19:50:05 公開日:2023-01-27 |
# FRA:顔認識のための新しい顔表現拡張アルゴリズム FRA: A novel Face Representation Augmentation algorithm for face recognition ( http://arxiv.org/abs/2301.11986v1 ) ライセンス: Link先を確認 | Soroush Hashemifar, Abdolreza Marefat, Javad Hassannataj Joloudari and Hamid Hassanpour | (参考訳) 多くの最先端のディープラーニングベース顔認識(FR)システムのトレーニングデータが少ないと、その性能が著しく低下する。
入力空間変換やGAN(Generative Adversarial Networks)を特徴空間拡張に用いながら、新たなデータ拡張手法を考案することで、この問題にかなり多くの研究が取り組んできたが、これらの技術はまだ期待を満たさない。
本稿では,顔データセットを補完する新しい手法であるface representation augmentation (fra) 法を提案する。
我々の知る限り、FRAは、同じアイデンティティと顔の感情を表す新しい埋め込みを生成するために、あらゆる顔表現学習アルゴリズムによって生成された顔埋め込みを操作することに焦点を移す最初の方法である。
本研究で実施した広範囲な実験は,この手法の有効性を説得し,あらゆるFRアルゴリズムの訓練手順を改善するために,ノイズのない全く新しい顔表現を提供する。
したがって、FRAはFRシステムのトレーニングにより多くのデータを提供することで、最近の最先端FR手法を支援することができる。
提案手法は,Karolinska Directed Emotional Faces (KDEF)データセットを用いて,MagFace,ArcFace,CosFaceのベースモデルと比較して,識別分類精度を9.52 %,10.04 %,16.60 %改善する。 A low amount of training data for many state-of-the-art deep learning-based Face Recognition (FR) systems causes a marked deterioration in their performance. Although a considerable amount of research has addressed this issue by inventing new data augmentation techniques, using either input space transformations or Generative Adversarial Networks (GAN) for feature space augmentations, these techniques have yet to satisfy expectations. In this paper, we propose a novel method, named the Face Representation Augmentation (FRA) algorithm, for augmenting face datasets. To the best of our knowledge, FRA is the first method that shifts its focus towards manipulating the face embeddings generated by any face representation learning algorithm in order to generate new embeddings representing the same identity and facial emotion but with an altered posture. Extensive experiments conducted in this study convince the efficacy of our methodology and its power to provide noiseless, completely new facial representations to improve the training procedure of any FR algorithm. Therefore, FRA is able to help the recent state-of-the-art FR methods by providing more data for training FR systems. The proposed method, using experiments conducted on the Karolinska Directed Emotional Faces (KDEF) dataset, improves the identity classification accuracies by 9.52 %, 10.04 %, and 16.60 %, in comparison with the base models of MagFace, ArcFace, and CosFace, respectively. | 翻訳日:2023-01-31 19:49:43 公開日:2023-01-27 |
# 火星への未知のInSight:限られたデータによる教師なしのソース分離 Unearthing InSights into Mars: unsupervised source separation with limited data ( http://arxiv.org/abs/2301.11981v1 ) ライセンス: Link先を確認 | Ali Siahkoohi, Rudy Morel, Maarten V. de Hoop, Erwan Allys, Gr\'egory Sainton, Taichi Kawamura | (参考訳) ソース分離は、ミキシング演算子を通して観測されたソース信号の集合を検索する不適切な問題を含む。
この問題を解決するには、ソース信号に規則性条件を課すことや、既存のデータから教師なしまたは教師なしの手法で暗黙的に学習することで一般的に取り入れられる事前知識が必要である。
データ駆動方式は、ソース分離において大きな可能性を秘めているが、惑星の宇宙ミッションでは滅多に存在しない大量のデータに依存することが多い。
この課題を考慮し、ウェーブレット散乱表現空間$\unicode{x2014}$an解釈可能な定常過程の低次元表現における最適化問題を解くことを含む、限られたデータアクセスを持つ領域に対する教師なしソース分離方式を提案する。
我々は、nasaの火星探査ミッションで観測された地震計によって記録されたデータから、過渡的に引き起こされたマイクロチルトを除去した実データ例を示す。
確率過程の非ガウス的性質を捉えるウェーブレット散乱共分散の能力により、数個のグリッチフリーデータスニペットを用いてグリッチを分離することができる。 Source separation entails the ill-posed problem of retrieving a set of source signals observed through a mixing operator. Solving this problem requires prior knowledge, which is commonly incorporated by imposing regularity conditions on the source signals or implicitly learned in supervised or unsupervised methods from existing data. While data-driven methods have shown great promise in source separation, they are often dependent on large amounts of data, which rarely exists in planetary space missions. Considering this challenge, we propose an unsupervised source separation scheme for domains with limited data access that involves solving an optimization problem in the wavelet scattering representation space$\unicode{x2014}$an interpretable low-dimensional representation of stationary processes. We present a real-data example in which we remove transient thermally induced microtilts, known as glitches, from data recorded by a seismometer during NASA's InSight mission on Mars. Owing to the wavelet scattering covariances' ability to capture non-Gaussian properties of stochastic processes, we are able to separate glitches using only a few glitch-free data snippets. | 翻訳日:2023-01-31 19:49:17 公開日:2023-01-27 |
# スネークゲーム自律エージェントのためのメモリ効率の良い深層強化学習手法 A Memory Efficient Deep Reinforcement Learning Approach For Snake Game Autonomous Agents ( http://arxiv.org/abs/2301.11977v1 ) ライセンス: Link先を確認 | Md. Rafat Rahman Tushar and Shahnewaz Siddique | (参考訳) Deep Reinforcement Learning (DRL) 法はメモリ資源と計算時間を必要とする。
また、これらのシステムは良い報奨を得るために追加の環境情報を必要とすることもある。
しかし、多くのアプリケーションやデバイスが最大報酬を達成するよりも、メモリ使用量や計算時間を減らすことが重要である。
本稿では、追加の環境情報を必要とすることなく、圧縮された画像データに合理的に適合する修正DRL法を提案する。
我々は,前処理された画像データを入力として効率的に取り出し,メモリ使用量を減らすqネットワークの変種を備えた軽量畳み込みニューラルネットワーク(cnn)を設計した。
さらに,最小限の必要な情報のみを提供するため,簡単な報奨機構と少ない経験リプレイメモリを用いる。
修正DRL法により,従来の制御ゲームであるSnakeを自律的にプレイできる。
その結果,本モデルでは他のDRL法と同様の性能が得られた。 To perform well, Deep Reinforcement Learning (DRL) methods require significant memory resources and computational time. Also, sometimes these systems need additional environment information to achieve a good reward. However, it is more important for many applications and devices to reduce memory usage and computational times than to achieve the maximum reward. This paper presents a modified DRL method that performs reasonably well with compressed imagery data without requiring additional environment information and also uses less memory and time. We have designed a lightweight Convolutional Neural Network (CNN) with a variant of the Q-network that efficiently takes preprocessed image data as input and uses less memory. Furthermore, we use a simple reward mechanism and small experience replay memory so as to provide only the minimum necessary information. Our modified DRL method enables our autonomous agent to play Snake, a classical control game. The results show our model can achieve similar performance as other DRL methods. | 翻訳日:2023-01-31 19:48:57 公開日:2023-01-27 |
# マルチタスク高適応lasso Multi-task Highly Adaptive Lasso ( http://arxiv.org/abs/2301.12029v1 ) ライセンス: Link先を確認 | Ivana Malenica, Rachael V. Phillips, Daniel Lazzareschi, Jeremy R. Coyle, Romain Pirracchio, Mark J. van der Laan | (参考訳) 本稿では,マルチタスク学習のための新しい非パラメトリックアプローチであるマルチタスク高適応ラッソ(MT-HAL)を提案する。
MT-HALは、共通モデルにとって重要な特徴、サンプル、タスク関連を同時に学習し、類似したタスク間で共有スパース構造を付与する。
複数のタスクが与えられた場合、このアプローチは自動的にスパース共有構造を見つける。
提案したMTLアルゴリズムは、$o_p(n^{-1/4})$以上の強力な次元自由収束率を得る。
MT-HALは, 非線形および線形関係の設定, 疎度とタスク相関の変動レベル, 共変量とサンプルサイズなど, 幅広いシミュレーション研究において, スパシティベースのMTL競合よりも優れていることを示す。 We propose a novel, fully nonparametric approach for the multi-task learning, the Multi-task Highly Adaptive Lasso (MT-HAL). MT-HAL simultaneously learns features, samples and task associations important for the common model, while imposing a shared sparse structure among similar tasks. Given multiple tasks, our approach automatically finds a sparse sharing structure. The proposed MTL algorithm attains a powerful dimension-free convergence rate of $o_p(n^{-1/4})$ or better. We show that MT-HAL outperforms sparsity-based MTL competitors across a wide range of simulation studies, including settings with nonlinear and linear relationships, varying levels of sparsity and task correlations, and different numbers of covariates and sample size. | 翻訳日:2023-01-31 19:42:47 公開日:2023-01-27 |
# アーキテクチャ横断型ポジティブペアは自己監督型学習の有効性を改善する Cross-Architectural Positive Pairs improve the effectiveness of Self-Supervised Learning ( http://arxiv.org/abs/2301.12025v1 ) ライセンス: Link先を確認 | Pranav Singh and Jacopo Cirrone | (参考訳) 既存の自己教師技術は極端な計算要件を持ち、バッチサイズや事前学習期間の短縮によって性能が大幅に低下する。
本稿では,TransformerとCNNを同時に活用する自己教師型学習手法であるCross Architectural - Self Supervision (CASS)を提案する。
既存の最先端の自己教師付き学習手法と比較して,4つの多様なデータセットにまたがるcass訓練されたcnnとトランスフォーマーが平均3.8%,1%のラベル付きデータ,5.9%の10%のラベル付きデータ,10.13%の100%ラベル付きデータ,そして69%の時間を要することがわかった。
また、CASSは、既存の最先端の自己教師型学習アプローチよりも、バッチサイズやトレーニングエポックの変化に対して、はるかに堅牢であることを示す。
コードをhttps://github.com/pranavsinghps1/CASSでオープンソース化しました。 Existing self-supervised techniques have extreme computational requirements and suffer a substantial drop in performance with a reduction in batch size or pretraining epochs. This paper presents Cross Architectural - Self Supervision (CASS), a novel self-supervised learning approach that leverages Transformer and CNN simultaneously. Compared to the existing state-of-the-art self-supervised learning approaches, we empirically show that CASS-trained CNNs and Transformers across four diverse datasets gained an average of 3.8% with 1% labeled data, 5.9% with 10% labeled data, and 10.13% with 100% labeled data while taking 69% less time. We also show that CASS is much more robust to changes in batch size and training epochs than existing state-of-the-art self-supervised learning approaches. We have open-sourced our code at https://github.com/pranavsinghps1/CASS. | 翻訳日:2023-01-31 19:42:34 公開日:2023-01-27 |
# メタ時相点過程 Meta Temporal Point Processes ( http://arxiv.org/abs/2301.12023v1 ) ライセンス: Link先を確認 | Wonho Bae, Mohamed Osama Ahmed, Frederick Tung, Gabriel L. Oliveira | (参考訳) 時間的点過程 (temporal point process, tpp) は、その実現が時間内の離散事象の列である確率的過程である。
TPPの最近の研究は、トレーニングセットがすべてのシーケンスの集合である教師付き学習フレームワークにおいて、ニューラルネットワークを使用してプロセスをモデル化している。
本研究では,TPPをニューラルプロセス(NP)として新しいフレーミングを通じて,各シーケンスを別のタスクとして扱うメタラーニングフレームワークでトレーニングすることを提案する。
NPのインスタンス化として、TPPをモデル化するためのコンテキストセットを導入する。
注意的NPによって動機づけられた局所的履歴マッチングも導入し,より情報的特徴の学習に役立てる。
本稿では,提案手法の有望な公開ベンチマークデータセットとタスクに対する可能性を示し,最先端のTPP手法と比較する。 A temporal point process (TPP) is a stochastic process where its realization is a sequence of discrete events in time. Recent work in TPPs model the process using a neural network in a supervised learning framework, where a training set is a collection of all the sequences. In this work, we propose to train TPPs in a meta learning framework, where each sequence is treated as a different task, via a novel framing of TPPs as neural processes (NPs). We introduce context sets to model TPPs as an instantiation of NPs. Motivated by attentive NP, we also introduce local history matching to help learn more informative features. We demonstrate the potential of the proposed method on popular public benchmark datasets and tasks, and compare with state-of-the-art TPP methods. | 翻訳日:2023-01-31 19:42:16 公開日:2023-01-27 |
# 因果量のEpsilon-Identifiability Epsilon-Identifiability of Causal Quantities ( http://arxiv.org/abs/2301.12022v1 ) ライセンス: Link先を確認 | Ang Li, Scott Mueller, Judea Pearl | (参考訳) 原因や原因を特定することは、事実上全ての科学分野において不可欠である。
しかし多くの場合、必要な確率は利用可能なデータソースから完全に識別できない。
本稿では,いくつかの因果関係の確率に対して,部分的同一性が依然として可能であることを示す。
このエプシロン識別性(英語版)を表現し、特定のサブポピュレーションの挙動が狭い範囲内で制限される場合にその有用性を示す。
特に,不特定因果効果や反事実確率が,そのような手当が作られる場合に狭義に限定できることを示す。
多くの場合、これらの手当は容易に測定され、合理的に推定される。
最後に、単位選択問題にepsilon-identifiabilityを適用する。 Identifying the effects of causes and causes of effects is vital in virtually every scientific field. Often, however, the needed probabilities may not be fully identifiable from the data sources available. This paper shows how partial identifiability is still possible for several probabilities of causation. We term this epsilon-identifiability and demonstrate its usefulness in cases where the behavior of certain subpopulations can be restricted to within some narrow bounds. In particular, we show how unidentifiable causal effects and counterfactual probabilities can be narrowly bounded when such allowances are made. Often those allowances are easily measured and reasonably assumed. Finally, epsilon-identifiability is applied to the unit selection problem. | 翻訳日:2023-01-31 19:42:03 公開日:2023-01-27 |
# int4量子化のトランスフォーマモデルへの応用 : レイテンシ高速化,コンポーザビリティ,障害ケース Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases ( http://arxiv.org/abs/2301.12017v1 ) ライセンス: Link先を確認 | Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He | (参考訳) 高い計算コストとメモリコストを考えると、トランスフォーマーベースの言語モデルのデプロイ効率の向上は困難である。
INT8量子化は、モデル精度を維持しながらメモリコストとレイテンシの両方を削減するのに有効であることが最近示されているが、INT4(ハードウェアスループットのピークを2倍にする)を活用してさらなるレイテンシ改善を実現することができるかどうかは不明だ。
本研究では,言語モデルにおけるINT4量子化の実現可能性について検討し,Encoder-onlyおよびEncoder-decoderモデルに対してINT4を用いた場合の精度劣化は無視できないが,decoder-onlyモデルの精度低下は顕著であることを示す。
INT4を用いた性能向上を実現するために,異なる量子化戦略をサポートする高最適化エンドツーエンドINT4エンコーダ推論パイプラインを開発した。
私たちのINT4パイプラインは、レイテンシ指向のシナリオでは8.5\times$、スループット指向のシナリオでは最大$3\times$でFP16の推論よりも高速です。
また、デコーダのみのモデルにINT4を適用する際の障害事例についても洞察を提供し、プルーニングやレイヤリダクションといった他の圧縮技術とINT4量子化の互換性について検討する。 Improving the deployment efficiency of transformer-based language models has been challenging given their high computation and memory cost. While INT8 quantization has recently been shown to be effective in reducing both the memory cost and latency while preserving model accuracy, it remains unclear whether we can leverage INT4 (which doubles peak hardware throughput) to achieve further latency improvement. In this work, we fully investigate the feasibility of using INT4 quantization for language models, and show that using INT4 introduces no or negligible accuracy degradation for encoder-only and encoder-decoder models, but causes a significant accuracy drop for decoder-only models. To materialize the performance gain using INT4, we develop a highly-optimized end-to-end INT4 encoder inference pipeline supporting different quantization strategies. Our INT4 pipeline is $8.5\times$ faster for latency-oriented scenarios and up to $3\times$ for throughput-oriented scenarios compared to the inference of FP16, and improves the SOTA BERT INT8 performance from FasterTransformer by up to $1.7\times$. We also provide insights into the failure cases when applying INT4 to decoder-only models, and further explore the compatibility of INT4 quantization with other compression techniques, like pruning and layer reduction. | 翻訳日:2023-01-31 19:41:52 公開日:2023-01-27 |
# In-Distribution Barrier関数:out-of-Distribution状態を回避するセルフスーパービジョンポリシフィルタ In-Distribution Barrier Functions: Self-Supervised Policy Filters that Avoid Out-of-Distribution States ( http://arxiv.org/abs/2301.12012v1 ) ライセンス: Link先を確認 | Fernando Casta\~neda, Haruki Nishimura, Rowan McAllister, Koushil Sreenath, Adrien Gaidon | (参考訳) 学習に基づく制御アプローチは、実際のロボットシステムのための高次元知覚データから直接複雑なタスクを実行することに非常に有望である。
それでも、学習したコントローラは、システムの軌道がトレーニングデータ分布から外れて安全を損なう可能性がある場合、予期せず振る舞うことができる。
そこで本研究では,任意の参照ポリシーを包み込み,オフラインに集結した安全なデモンストレーションに対して,システムの配布継続を効果的に促す制御フィルタを提案する。
本手法は,最小侵襲的安全なポリシフィルタを構築するための非線形制御文献からモデルベースツールである制御障壁関数(cbfs)に着想を得たものである。
cbfに基づく既存の手法は既知の低次元状態表現を必要とするが、提案手法は潜在状態空間で学習することで高次元の視覚観察のみに依存するシステムに適用できる。
本手法は,トップダウンとエゴセントリックの両方のビュー設定を含む,シミュレーション環境における2つの異なる visuomotor 制御タスクに有効であることを実証する。 Learning-based control approaches have shown great promise in performing complex tasks directly from high-dimensional perception data for real robotic systems. Nonetheless, the learned controllers can behave unexpectedly if the trajectories of the system divert from the training data distribution, which can compromise safety. In this work, we propose a control filter that wraps any reference policy and effectively encourages the system to stay in-distribution with respect to offline-collected safe demonstrations. Our methodology is inspired by Control Barrier Functions (CBFs), which are model-based tools from the nonlinear control literature that can be used to construct minimally invasive safe policy filters. While existing methods based on CBFs require a known low-dimensional state representation, our proposed approach is directly applicable to systems that rely solely on high-dimensional visual observations by learning in a latent state-space. We demonstrate that our method is effective for two different visuomotor control tasks in simulation environments, including both top-down and egocentric view settings. | 翻訳日:2023-01-31 19:41:23 公開日:2023-01-27 |
# ニューラルネットワークにおける後方通過知識を利用した知識蒸留の改良 Improved knowledge distillation by utilizing backward pass knowledge in neural networks ( http://arxiv.org/abs/2301.12006v1 ) ライセンス: Link先を確認 | Aref Jafari, Mehdi Rezagholizadeh, Ali Ghodsi | (参考訳) 知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
この方法では、大きなネットワーク(教師)の知識は、通常、はるかに少ないパラメータを持つモデル(学生)に蒸留される。
KDは,教師ネットワークのフォワードパスから抽出した知識に基づいて,生徒モデルの出力を教師モデルの出力により良いマッチングを試みる。
従来のKDは、与えられたデータポイント上の2つのネットワークのマッチングに有効であるが、これらのモデルが十分なトレーニングサンプルを持っていない他の領域に適合する保証はない。
そこで本研究では,生徒が教師と大きく異なる領域において,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成し,この問題に対処する。
我々は,教師と生徒の差を計算し,分散度を最大化する新しいデータサンプルを生成する。
これは、生徒と教師の差の勾配の方向にデータサンプルを摂動させることによって行われる。
この補助を付加したトレーニングセットの強化により、kdのパフォーマンスが大幅に向上し、生徒と教師の密接な一致につながる。
このアプローチを用いることで、自然言語処理(NLP)や言語理解といった、独立したドメインからデータサンプルを抽出するのは簡単ではない。
しかし,このような用途において,この手法が効果的に利用できることを示す。
コンピュータビジョンやNLP領域における様々なタスクにおける手法の性能評価を行い,有望な結果を得た。 Knowledge distillation (KD) is one of the prominent techniques for model compression. In this method, the knowledge of a large network (teacher) is distilled into a model (student) with usually significantly fewer parameters. KD tries to better-match the output of the student model to that of the teacher model based on the knowledge extracts from the forward pass of the teacher network. Although conventional KD is effective for matching the two networks over the given data points, there is no guarantee that these models would match in other areas for which we do not have enough training samples. In this work, we address that problem by generating new auxiliary training samples based on extracting knowledge from the backward pass of the teacher in the areas where the student diverges greatly from the teacher. We compute the difference between the teacher and the student and generate new data samples that maximize the divergence. This is done by perturbing data samples in the direction of the gradient of the difference between the student and the teacher. Augmenting the training set by adding this auxiliary improves the performance of KD significantly and leads to a closer match between the student and the teacher. Using this approach, when data samples come from a discrete domain, such as applications of natural language processing (NLP) and language understanding, is not trivial. However, we show how this technique can be used successfully in such applications. We evaluated the performance of our method on various tasks in computer vision and NLP domains and got promising results. | 翻訳日:2023-01-31 19:41:05 公開日:2023-01-27 |
# embeddeddistill:情報検索のための幾何学的知識蒸留 EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval ( http://arxiv.org/abs/2301.12005v1 ) ライセンス: Link先を確認 | Seungyeon Kim, Ankit Singh Rawat, Manzil Zaheer, Sadeep Jayasumana, Veeranjaneyulu Sadhanala, Wittawat Jitkrittum, Aditya Krishna Menon, Rob Fergus, Sanjiv Kumar | (参考訳) 大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)の最先端のパフォーマンスを達成する。
本稿では,このようなモデルを実際に展開するための道を開く蒸留法を改善することを目的としている。
提案手法は, 検索段階と再評価段階の両方をサポートし, 大規模教師モデルで学習したクエリと文書間の相対幾何学を重要活用する。
これは、単に教師のスカラースコアをトレーニングデータ上で頼りにするir文学における既存の蒸留方法を超えている: 埋め込みマッチングによって局所幾何学に関するより強いシグナルを提供し、クエリ生成を通じて世界規模でデータ多様体をよりよくカバーする。
埋め込みマッチングは、教師と生徒モデルの表現を調整するためのより強いシグナルを提供する。
同時に、クエリ生成は、データ多様体を探索し、トレーニングデータがスパースしている生徒と教師の間の不一致を低減する。
我々の蒸留アプローチは理論的に正当化され、デュアルエンコーダ(de)モデルとクロスエンコーダ(ce)モデルの両方に適用できる。
さらに, 埋め込みマッチングによりCEモデルをDモデルに蒸留するために, 特にD学生モデルにおいて, 蒸留フレンドリーな埋め込み幾何学を容易にするCEモデルのための新しい二重プーリングベースのスコアラを提案する。 Large neural models (such as Transformers) achieve state-of-the-art performance for information retrieval (IR). In this paper, we aim to improve distillation methods that pave the way for the deployment of such models in practice. The proposed distillation approach supports both retrieval and re-ranking stages and crucially leverages the relative geometry among queries and documents learned by the large teacher model. It goes beyond existing distillation methods in the IR literature, which simply rely on the teacher's scalar scores over the training data, on two fronts: providing stronger signals about local geometry via embedding matching and attaining better coverage of data manifold globally via query generation. Embedding matching provides a stronger signal to align the representations of the teacher and student models. At the same time, query generation explores the data manifold to reduce the discrepancies between the student and teacher where training data is sparse. Our distillation approach is theoretically justified and applies to both dual encoder (DE) and cross-encoder (CE) models. Furthermore, for distilling a CE model to a DE model via embedding matching, we propose a novel dual pooling-based scorer for the CE model that facilitates a distillation-friendly embedding geometry, especially for DE student models. | 翻訳日:2023-01-31 19:40:45 公開日:2023-01-27 |
# 対話評価における超大規模言語モデルの有効性の理解 Understanding the Effectiveness of Very Large Language Models on Dialog Evaluation ( http://arxiv.org/abs/2301.12004v1 ) ライセンス: Link先を確認 | Jessica Huynh, Cathy Jiao, Prakhar Gupta, Shikib Mehri, Payal Bajaj, Vishrav Chaudhary, Maxine Eskenazi | (参考訳) 過去数年間、言語モデルのサイズは着実に増加している。
質問応答や要約など,さまざまな自然言語処理(NLP)タスクにおいて高いレベルのパフォーマンスを実現する。
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
このため、ダイアログの領域には他のダウンストリームタスクがあり、LLMの言語理解機能を利用することができる。
本稿では,ダイアログ評価について検討する。
LLM(BLOOM, OPT, GPT-3, Flan-T5, InstructDial, TNLGv2)のプロンプトに集中している。
この論文は、モデルトレーニングに使用されるデータセットの選択が、タスクにおけるパフォーマンスと、プロンプトの構造化方法に寄与していることを示している。
具体的には、モデルがトレーニングするデータセット群がより多様で関連性が高いほど、より優れたダイアログ評価が実行されます。
本稿では,プロンプトのサンプル数と使用したサンプル選択のタイプがモデルの性能に与える影響についても検討する。 Language models have steadily increased in size over the past few years. They achieve a high level of performance on various natural language processing (NLP) tasks such as question answering and summarization. Large language models (LLMs) have been used for generation and can now output human-like text. Due to this, there are other downstream tasks in the realm of dialog that can now harness the LLMs' language understanding capabilities. Dialog evaluation is one task that this paper will explore. It concentrates on prompting with LLMs: BLOOM, OPT, GPT-3, Flan-T5, InstructDial and TNLGv2. The paper shows that the choice of datasets used for training a model contributes to how well it performs on a task as well as on how the prompt should be structured. Specifically, the more diverse and relevant the group of datasets that a model is trained on, the better dialog evaluation performs. This paper also investigates how the number of examples in the prompt and the type of example selection used affect the model's performance. | 翻訳日:2023-01-31 19:40:23 公開日:2023-01-27 |
# ODEに基づく生成モデルの軌道曲率最小化 Minimizing Trajectory Curvature of ODE-based Generative Models ( http://arxiv.org/abs/2301.12003v1 ) ライセンス: Link先を確認 | Sangyun Lee, Beomsu Kim, Jong Chul Ye | (参考訳) 拡散モデルやフローマッチングのような最近のODE/SDEベースの生成モデルは、生成過程を固定前進過程の時間反転として定義する。
これらのモデルは大規模なデータセットで顕著な性能を示すが、数値シミュレーションにはニューラルネットワークの評価が複数必要であり、サンプリング速度が遅くなる。
その理由は, 数値解法器の停止誤差と直接関係しているため, 学習した生成軌跡の曲率が高いことに帰着する。
本稿では,前処理と曲率の関係に基づき,ODE/SDEシミュレーションを使わずに生成軌道の曲率を最小化するために,前処理を効率的に訓練する方法を提案する。
実験の結果,本手法は従来のモデルよりも低い曲率を達成し,競争性能を維持しつつサンプリングコストを低減できることがわかった。
コードはhttps://github.com/sangyun884/fast-odeで入手できる。 Recent ODE/SDE-based generative models, such as diffusion models and flow matching, define a generative process as a time reversal of a fixed forward process. Even though these models show impressive performance on large-scale datasets, numerical simulation requires multiple evaluations of a neural network, leading to a slow sampling speed. We attribute the reason to the high curvature of the learned generative trajectories, as it is directly related to the truncation error of a numerical solver. Based on the relationship between the forward process and the curvature, here we present an efficient method of training the forward process to minimize the curvature of generative trajectories without any ODE/SDE simulation. Experiments show that our method achieves a lower curvature than previous models and, therefore, decreased sampling costs while maintaining competitive performance. Code is available at https://github.com/sangyun884/fast-ode. | 翻訳日:2023-01-31 19:40:07 公開日:2023-01-27 |
# 文脈問題:理科教育のための事前学習言語モデルへの戦略 Context Matters: A Strategy to Pre-train Language Model for Science Education ( http://arxiv.org/abs/2301.12031v1 ) ライセンス: Link先を確認 | Zhengliang Liu, Xinyu He, Lei Liu, Tianming Liu, Xiaoming Zhai | (参考訳) 本研究は,理科教育における学生のスコアリング能力の向上を目的とする。
BERTベースの言語モデルは、様々な言語関連タスクにおいて、従来のNLPモデルよりも大きな優位性を示している。
しかし、議論や説明を含む学生の科学的な記述はドメイン固有である。
さらに、学生が使用する言語は、bertのトレーニングソースであるジャーナリズムやwikipediaの言語とは異なる。
これらのことから,理科教育データを用いて事前学習したドメイン固有モデルにより,モデルの性能が向上する可能性が示唆された。
しかし、事前学習した言語モデルを文脈化し、学生の回答を自動的に収集する際の性能を改善する理想的なデータ形式は、まだ不明である。
そこで本研究では,BERTモデルとSciBERTモデルの両方を文脈化するために異なるデータを用いて,科学的議論のための評価タスクの自動スコアリングにおける性能を比較した。
モデルの事前トレーニングには3つのデータセットを使用します。
1)科学教育における論文
2)学生の書面による回答の大規模なデータセット(サンプルサイズ5万以上)、及び
3)科学的な議論課題に対する学生の回答の少ないデータセット。
実験の結果,理科質問と応答から構築したドメイン内トレーニングコーパスは,様々な下流タスクにおいて言語モデルの性能を向上させる。
本研究は,教育領域におけるドメイン固有データに対する継続的な事前学習の有効性を確認し,高い精度で理科教育タスクを自動化するための汎用的戦略を示す。
我々は、公共利用とコミュニティエンゲージメントのためのデータとSciEdBERTモデルをリリースする予定です。 This study aims at improving the performance of scoring student responses in science education automatically. BERT-based language models have shown significant superiority over traditional NLP models in various language-related tasks. However, science writing of students, including argumentation and explanation, is domain-specific. In addition, the language used by students is different from the language in journals and Wikipedia, which are training sources of BERT and its existing variants. All these suggest that a domain-specific model pre-trained using science education data may improve model performance. However, the ideal type of data to contextualize pre-trained language model and improve the performance in automatically scoring student written responses remains unclear. Therefore, we employ different data in this study to contextualize both BERT and SciBERT models and compare their performance on automatic scoring of assessment tasks for scientific argumentation. We use three datasets to pre-train the model: 1) journal articles in science education, 2) a large dataset of students' written responses (sample size over 50,000), and 3) a small dataset of students' written responses of scientific argumentation tasks. Our experimental results show that in-domain training corpora constructed from science questions and responses improve language model performance on a wide variety of downstream tasks. Our study confirms the effectiveness of continual pre-training on domain-specific data in the education domain and demonstrates a generalizable strategy for automating science education tasks with high accuracy. We plan to release our data and SciEdBERT models for public use and community engagement. | 翻訳日:2023-01-31 19:30:51 公開日:2023-01-27 |
# 自動プロセス発見のためのラベルなしイベントログの重要な属性の特定 Identifying the Key Attributes in an Unlabeled Event Log for Automated Process Discovery ( http://arxiv.org/abs/2301.12829v1 ) ライセンス: Link先を確認 | Kentaroh Toyoda, Rachel Gan Kai Ying, Allan NengSheng Zhang, Tan Puay Siew | (参考訳) プロセスマイニングは、履歴イベントログからプロセスモデルを発見し、分析する。
先行技術手法では、イベントログに隠されたcase-id、activity、timetampの属性をプロセスモデルの発見の手がかりとして使用する。
しかし、ユーザはそれらを手動で指定する必要がある。
本稿では,このような手作業による調査を避けるために,二段階鍵属性同定手法を提案する。
難しいタスクの1つは、組合せ爆発による徹底的な計算を避ける方法である。
このため,第1段階では教師付き機械学習を用いて各キー属性の候補を絞り込み,第2段階では最適な組み合わせを識別する。
計算の複雑さは$\mathcal{o}(n^3)$ から $\mathcal{o}(k^3)$ に減らされ、ここで $n$ と $k$ は最初の段階で保持する列と候補の数であり、通常 $k$ は $n$ よりはるかに小さい。
提案手法を14個のオープンデータセットで評価し,多くのデータセットに対して約20秒間$k = 2$でもキー属性を識別可能であることを示した。 Process mining discovers and analyzes a process model from historical event logs. The prior art methods use the attributes of case-id, activity, and timestamp hidden in an event log as clues to discover a process model. However, a user needs to manually specify them, and this can be an exhaustive task. In this paper, we propose a two-stage key attribute identification method to avoid such a manual investigation, and thus this is toward fully automated process discovery. One of the challenging tasks is how to avoid exhaustive computation due to combinatorial explosion. For this, we narrow down candidates for each key attribute by using supervised machine learning in the first stage and identify the best combination of the in the second stage. Our computational complexity can be reduced from $\mathcal{O}(N^3)$ to $\mathcal{O}(k^3)$ where $N$ and $k$ are the numbers of columns and candidates we keep in the first stage, and usually $k$ is much smaller than $N$. We evaluated our method with 14 open datasets and showed that our method could identify the key attributes even with $k = 2$ for about 20 seconds for many datasets. | 翻訳日:2023-01-31 15:00:32 公開日:2023-01-27 |
# SplitGNN: 異種注意によるノード分類のための分割GNN SplitGNN: Splitting GNN for Node Classification with Heterogeneous Attention ( http://arxiv.org/abs/2301.12885v1 ) ライセンス: Link先を確認 | Xiaolong Xu and Lingjuan Lyu and Yihong Dong and Yicheng Lu and Weiqiang Wang and Hong Jin | (参考訳) プライバシー漏洩が頻発し、さまざまな国でプライバシー法が施行される中、データ所有者は、生のデータとラベルを直接他の誰とも共有することを拒否している。
実際には、これらの生データの多くは、特に金融のために、グラフデータベースに格納されています。
グラフニューラルネットワーク(gnns)を共同構築する場合、プライバシと効率性が主な関心事である垂直分割設定では、フェデレーション学習(fl)が理想的ではない可能性がある。
さらに、既存のほとんどの連合GNNは、主に同種グラフのために設計されており、様々な種類の関係を単純化し、その結果、その性能が大幅に制限される。
ローカルgnnモデルは、ローカルノード埋め込みを生成するために、すべてのプライベートデータに関連する計算を含むが、グローバルモデルは、すべての参加者のローカル埋め込みを集約することで、グローバル埋め込みを計算する。
我々のSplitGNNは、孤立した異種地区を協調的に利用できるようにする。
表現をよりよく捉えるために,ノードベースとパスベースのアテンション機構を併用して,マルチホップ関係の特徴を持つノードやエッジのさまざまなタイプを学習する,新しいヘテロジニアスアテンション(HAT)アルゴリズムを提案する。
2つの標準公開データセットと実世界のデータセットのノード分類タスクにおけるSplitGNNの有効性を示す。
実験の結果,提案したSplitGNNは最先端のSOTA法よりも優れていた。 With the frequent happening of privacy leakage and the enactment of privacy laws across different countries, data owners are reluctant to directly share their raw data and labels with any other party. In reality, a lot of these raw data are stored in the graph database, especially for finance. For collaboratively building graph neural networks(GNNs), federated learning(FL) may not be an ideal choice for the vertically partitioned setting where privacy and efficiency are the main concerns. Moreover, almost all the existing federated GNNs are mainly designed for homogeneous graphs, which simplify various types of relations as the same type, thus largely limits their performance. We bridge this gap by proposing a split learning-based GNN(SplitGNN), where this model is divided into two sub-models: the local GNN model includes all the private data related computation to generate local node embeddings, whereas the global model calculates global embeddings by aggregating all the participants' local embeddings. Our SplitGNN allows the isolated heterogeneous neighborhood to be collaboratively utilized. To better capture representations, we propose a novel Heterogeneous Attention(HAT) algorithm and use both node-based and path-based attention mechanisms to learn various types of nodes and edges with multi-hop relation features. We demonstrate the effectiveness of our SplitGNN on node classification tasks for two standard public datasets and the real-world dataset. Extensive experimental results validate that our proposed SplitGNN significantly outperforms the state-of-the-art(SOTA) methods. | 翻訳日:2023-01-31 14:42:43 公開日:2023-01-27 |
# アルゴリズム的リコースを提供するインセンティブ Incentives to Offer Algorithmic Recourse ( http://arxiv.org/abs/2301.12884v1 ) ライセンス: Link先を確認 | Matthew Olckers, Toby Walsh | (参考訳) ローンの承認、雇用、犯罪救済など、さまざまな高度な意思決定における人工知能(AI)の重要性から、Explainable AI(XAI)の研究者たちは、ユーザに好ましくない結果を提供するアルゴリズムを開発した。
意思決定者が応募者に対してリアクションを行うためのインセンティブを分析する。
意思決定者は、拒絶されたすべての応募者にリアクションを提供するインセンティブを持っていますか?
意思決定者は,リコースプロセスが操作できない場合など,極端な場合において,すべての出願者にのみリコースを提供する。
一部の応募者は、意思決定者がリコースを提示できる場合、さらに悪化する可能性がある。 Due to the importance of artificial intelligence (AI) in a variety of high-stakes decisions, such as loan approval, job hiring, and criminal bail, researchers in Explainable AI (XAI) have developed algorithms to provide users with recourse for an unfavorable outcome. We analyze the incentives for a decision-maker to offer recourse to a set of applicants. Does the decision-maker have the incentive to offer recourse to all rejected applicants? We show that the decision-maker only offers recourse to all applicants in extreme cases, such as when the recourse process is impossible to manipulate. Some applicants may be worse off when the decision-maker can offer recourse. | 翻訳日:2023-01-31 14:42:19 公開日:2023-01-27 |
# 機械学習のアプローチと極値理論による関係確率時系列とツリーリングデータへの応用 Machine Learning Approach and Extreme Value Theory to Correlated Stochastic Time Series with Application to Tree Ring Data ( http://arxiv.org/abs/2301.11488v1 ) ライセンス: Link先を確認 | Omar Alzeley, Sadiah Aljeddani | (参考訳) 機械学習(ML)の主目的は、未来を推測するために環境が提供するデータで訓練できる数学的モデルの研究と改善であり、すべての要素について必ずしも完全な知識を持っていない。
本研究では,気候モデル研究においてMLが強力なツールとなる方法について述べる。
樹木の環の成長は、建物や環境の歴史を研究するなど、様々な側面における実装として使われた。
成長と時間を通じて、樹皮の下の樹皮の下に新しい木の層が形成される。
成長の数年後、時系列は一連のツリーリング幅を通して適用できる。
本研究の目的は,ノッティンガムシャーで栽培されている9本の樹木の樹輪幅データを解析するために,MLアルゴリズムとエクストリーム値理論を用いることである。
最初は、さまざまな記述的な統計的アプローチを通してデータを探索することから始めます。
この段階ではデータ変換が重要であり、モデリングアルゴリズムのあらゆる問題を見つける。
k-nearest neighbors (knn) アルゴリズムを改善するためにアルゴリズムチューニングとアンサンブル法を用いる。
本研究で開発した手法と他の手法との比較を行った。
また、データセットの極端な値はより調査される。
解析の結果,ランダムフォレスト法におけるMLアルゴリズムは,ノッティンガムシャーで生育する9本の樹木の樹輪幅データを,ルート平均角誤差値が最も低い値で解析した結果が得られた。
また, 推定ARMAモデルパラメータが増加するにつれて, 真のモデルを選択する確率も増加することがわかった。
極値理論の観点では、ワイブル分布は木環データをモデル化するのによい選択である。 The main goal of machine learning (ML) is to study and improve mathematical models which can be trained with data provided by the environment to infer the future and to make decisions without necessarily having complete knowledge of all influencing elements. In this work, we describe how ML can be a powerful tool in studying climate modeling. Tree ring growth was used as an implementation in different aspects, for example, studying the history of buildings and environment. By growing and via the time, a new layer of wood to beneath its bark by the tree. After years of growing, time series can be applied via a sequence of tree ring widths. The purpose of this paper is to use ML algorithms and Extreme Value Theory in order to analyse a set of tree ring widths data from nine trees growing in Nottinghamshire. Initially, we start by exploring the data through a variety of descriptive statistical approaches. Transforming data is important at this stage to find out any problem in modelling algorithm. We then use algorithm tuning and ensemble methods to improve the k-nearest neighbors (KNN) algorithm. A comparison between the developed method in this study ad other methods are applied. Also, extreme value of the dataset will be more investigated. The results of the analysis study show that the ML algorithms in the Random Forest method would give accurate results in the analysis of tree ring widths data from nine trees growing in Nottinghamshire with the lowest Root Mean Square Error value. Also, we notice that as the assumed ARMA model parameters increased, the probability of selecting the true model also increased. In terms of the Extreme Value Theory, the Weibull distribution would be a good choice to model tree ring data. | 翻訳日:2023-01-30 16:50:12 公開日:2023-01-27 |
# Projected Subnetworks Scale Adaptation Projected Subnetworks Scale Adaptation ( http://arxiv.org/abs/2301.11487v1 ) ライセンス: Link先を確認 | Siddhartha Datta, Nigel Shadbolt | (参考訳) 大型モデルは、優れたゼロショットと少数ショット機能をサポートする。
しかし、新しいタスクでこれらのモデルを更新すると、以前のタスクとゼロ/フェーショットの未発見タスクのパフォーマンスが損なわれる可能性がある。
本研究は,ゼロ/フェーショット学習者の更新方法を探究し,従来のタスクの目に見えるタスクと新しいタスクのパフォーマンスを維持できるようにした。
勾配型メタ学習器のパラメータ更新を投影タスク固有のサブネットワークとして操作することにより,オンライン環境での視認性とゼロ/フルショットのタスクパフォーマンスを維持するための大規模モデルの改善を示す。 Large models support great zero-shot and few-shot capabilities. However, updating these models on new tasks can break performance on previous seen tasks and their zero/few-shot unseen tasks. Our work explores how to update zero/few-shot learners such that they can maintain performance on seen/unseen tasks of previous tasks as well as new tasks. By manipulating the parameter updates of a gradient-based meta learner as the projected task-specific subnetworks, we show improvements for large models to retain seen and zero/few shot task performance in online settings. | 翻訳日:2023-01-30 16:49:47 公開日:2023-01-27 |
# 低線量CTモデルにおける拡散デノジング Diffusion Denoising for Low-Dose-CT Model ( http://arxiv.org/abs/2301.11482v1 ) ライセンス: Link先を確認 | Runyi Li, Jian Zhang | (参考訳) 低線量CT(LDCT)再建は画像解析において重要な課題である。
近年,深層学習に基づく手法が数多く登場し,その効果が証明されている。
しかし、これらの手法は主に、フル線量と4分の1線量のCT画像を必要とする教師付きアーキテクチャに従っており、解は特定の測定に大きく依存している。
本研究では, DDLMと呼ばれるDNOising Diffusion LDCTモデルを導入し, 条件付きサンプリングによる無ノイズCT画像を生成する。
DDLMは事前訓練モデルを用いており、トレーニングやチューニングは必要としないため、提案手法は教師なしである。
LDCT画像を用いた実験では、DDLMの予測時間が少なく、他の最先端の手法を上回り、正確かつ効率的であることが示されている。
実装コードはまもなく公開されます。 Low-dose Computed Tomography (LDCT) reconstruction is an important task in medical image analysis. Recent years have seen many deep learning based methods, proved to be effective in this area. However, these methods mostly follow a supervised architecture, which needs paired CT image of full dose and quarter dose, and the solution is highly dependent on specific measurements. In this work, we introduce Denoising Diffusion LDCT Model, dubbed as DDLM, generating noise-free CT image using conditioned sampling. DDLM uses pretrained model, and need no training nor tuning process, thus our proposal is in unsupervised manner. Experiments on LDCT images have shown comparable performance of DDLM using less inference time, surpassing other state-of-the-art methods, proving both accurate and efficient. Implementation code will be set to public soon. | 翻訳日:2023-01-30 16:49:35 公開日:2023-01-27 |
# 等変平衡近似器は有益か? Are Equivariant Equilibrium Approximators Beneficial? ( http://arxiv.org/abs/2301.11481v1 ) ライセンス: Link先を確認 | Zhijian Duan, Yunxuan Ma, Xiaotie Deng | (参考訳) 近年,ニューラルネットワークを用いてゲーム表現から平衡を予測する関数近似を通じて,ナッシュ平衡(NE),相関平衡(CE),粗相関平衡(CCE)を近似することで,顕著な進展が見られた。
さらに、同変アーキテクチャは正規形式ゲームにおけるそのような平衡近似器の設計に広く採用されている。
本稿では,同変平衡近似器の利点と限界を理論的に特徴づける。
この利点のために、一般的なものよりもより優れた一般化性を示し、ペイオフ分布が置換不変である場合により良い近似を達成できることを示す。
限界については、均衡選択と社会福祉の観点からそれらの欠点について議論する。
この結果は平衡近似器における等分散の役割を理解するのに役立つ。 Recently, remarkable progress has been made by approximating Nash equilibrium (NE), correlated equilibrium (CE), and coarse correlated equilibrium (CCE) through function approximation that trains a neural network to predict equilibria from game representations. Furthermore, equivariant architectures are widely adopted in designing such equilibrium approximators in normal-form games. In this paper, we theoretically characterize benefits and limitations of equivariant equilibrium approximators. For the benefits, we show that they enjoy better generalizability than general ones and can achieve better approximations when the payoff distribution is permutation-invariant. For the limitations, we discuss their drawbacks in terms of equilibrium selection and social welfare. Together, our results help to understand the role of equivariance in equilibrium approximators. | 翻訳日:2023-01-30 16:49:21 公開日:2023-01-27 |
# エイリアンのコーディング Alien Coding ( http://arxiv.org/abs/2301.11479v1 ) ライセンス: Link先を確認 | Thibault Gauthier, Miroslav Ol\v{s}\'ak and Josef Urban | (参考訳) OEISシーケンスのプログラムを合成するための自己学習アルゴリズムを提案する。
アルゴリズムはスクラッチから始まり、最初ランダムにプログラムを生成する。
そして、インターリーブする自己学習ループの多くのイテレーションを実行する。
一 これまでに発見されたシーケンスとプログラムの対応を学習するための神経機械翻訳の訓練
(II) 訓練されたニューラルマシントランスレータを用いて, 各OEIS配列に新しいプログラムを多数提案する。
このアルゴリズムは、78000以上のOEISシーケンスに対して独自のプログラムを発見し、時には異常なプログラミング手法を開発する。
その動作とプログラムの発明をいくつかの実験で分析した。 We introduce a self-learning algorithm for synthesizing programs for OEIS sequences. The algorithm starts from scratch initially generating programs at random. Then it runs many iterations of a self-learning loop that interleaves (i) training neural machine translation to learn the correspondence between sequences and the programs discovered so far, and (ii) proposing many new programs for each OEIS sequence by the trained neural machine translator. The algorithm discovers on its own programs for more than 78000 OEIS sequences, sometimes developing unusual programming methods. We analyze its behavior and the invented programs in several experiments. | 翻訳日:2023-01-30 16:49:10 公開日:2023-01-27 |
# Tsallis KL分枝を用いた一般化Munchausen強化学習 Generalized Munchausen Reinforcement Learning using Tsallis KL Divergence ( http://arxiv.org/abs/2301.11476v1 ) ライセンス: Link先を確認 | Lingwei Zhu, Zheng Chen, Takamitsu Matsubara, Martha White | (参考訳) 強化学習における多くの政策最適化アプローチでは、kl(kullback-leilbler)が以前の方針に分岐し、政策の変化が早すぎることを防ぐ。
このアイデアは、TRPOやMunchausen Value Iteration (MVI)といったアルゴリズムによって与えられる近似を用いて、保守政策イテレーションに関するセミナー論文で最初に提案された。
我々は、定義に$q$-logarithmを使用する一般化KL発散(英語版)(Tsallis KL divergence)と呼ばれる、一般化KL発散の研究を継続する。
このアプローチは厳密な一般化であり、$q = 1$ は標準 KL の発散に対応する;$q > 1$ は様々な新しい選択肢を提供する。
我々はTsallis KLで学んだポリシーのタイプを特徴付け、$q > 1$が有益である場合に動機付ける。
Tsallis KL正規化を組み込む実用的なアルゴリズムを得るために、我々はKL正規化を組み込む最も単純なアプローチの一つであるMVIを拡張する。
この一般化されたMVI($q$)は、35のアタリゲームにおいて標準MVI($q = 1$)よりも大幅に改善されていることを示す。 Many policy optimization approaches in reinforcement learning incorporate a Kullback-Leilbler (KL) divergence to the previous policy, to prevent the policy from changing too quickly. This idea was initially proposed in a seminal paper on Conservative Policy Iteration, with approximations given by algorithms like TRPO and Munchausen Value Iteration (MVI). We continue this line of work by investigating a generalized KL divergence -- called the Tsallis KL divergence -- which use the $q$-logarithm in the definition. The approach is a strict generalization, as $q = 1$ corresponds to the standard KL divergence; $q > 1$ provides a range of new options. We characterize the types of policies learned under the Tsallis KL, and motivate when $q >1$ could be beneficial. To obtain a practical algorithm that incorporates Tsallis KL regularization, we extend MVI, which is one of the simplest approaches to incorporate KL regularization. We show that this generalized MVI($q$) obtains significant improvements over the standard MVI($q = 1$) across 35 Atari games. | 翻訳日:2023-01-30 16:49:03 公開日:2023-01-27 |
# 垂直分布データを用いた腫瘍分類のためのマルチリンブスプリット学習 Multi-limb Split Learning for Tumor Classification on Vertically Distributed Data ( http://arxiv.org/abs/2301.11468v1 ) ライセンス: Link先を確認 | Omar S. Ads, Mayar M. Alfares, Mohammed A.-M. Salem | (参考訳) 脳腫瘍は、生命を脅かすがんの1つです。
これまでの研究は、ディープニューラルネットワークを用いて脳腫瘍を分類してきた。
本稿では,協調的な深層学習技術,具体的には分割学習を用いて,後者の課題を実行する。
分割学習は、ニューラルネットワークによる協調学習を、クライアント側ネットワークとサーバ側ネットワークの2つ(あるいはそれ以上)に分割する。
クライアント側はカット層と呼ばれる特定のレイヤにトレーニングされる。
その後、残りのトレーニングはサーバ側ネットワークで再開される。
組織間でデータを分配する方法である垂直分布は、複数の病院が同一患者の異なる属性の情報を保有する形で実施された。
本論文は,脳腫瘍分類のための分割学習と垂直分布の両方を実装した最初の論文となる。
いずれの手法でも, 列車と試験の精度はそれぞれ 90 % 以上, 70 % 以上であった。 Brain tumors are one of the life-threatening forms of cancer. Previous studies have classified brain tumors using deep neural networks. In this paper, we perform the later task using a collaborative deep learning technique, more specifically split learning. Split learning allows collaborative learning via neural networks splitting into two (or more) parts, a client-side network and a server-side network. The client-side is trained to a certain layer called the cut layer. Then, the rest of the training is resumed on the server-side network. Vertical distribution, a method for distributing data among organizations, was implemented where several hospitals hold different attributes of information for the same set of patients. To the best of our knowledge this paper will be the first paper to implement both split learning and vertical distribution for brain tumor classification. Using both techniques, we were able to achieve train and test accuracy greater than 90\% and 70\%, respectively. | 翻訳日:2023-01-30 16:48:41 公開日:2023-01-27 |
# オピオイド回復に関するソーシャルメディアからのテーマ駆動型キーフレーズ抽出 Theme-driven Keyphrase Extraction from Social Media on Opioid Recovery ( http://arxiv.org/abs/2301.11508v1 ) ライセンス: Link先を確認 | William Romano, Omar Sharif, Madhusudan Basak, Joseph Gatto, and Sarah Preum | (参考訳) ソーシャルメディアプラットフォームにおける新たなトレンドは、ピアサポートのための安全なスペースとしての利用だ。
特に医療の分野では、多くの医療条件が厳しい便秘を含んでいるため、ソーシャルメディアは、症状、治療、および個人的な経験に関する対話を行うためのスティグマのない方法となっている。
既存の多くの研究では、NLPアルゴリズムを用いて健康動向の定量的分析を行っている。
既存の研究に特に欠けているのは、社会衛生に関するキーフレーズ抽出(ke)モデルである。
本稿では,新規なテーマ駆動型KEデータセットSuboxoPhraseと,臨床関連キーフレーズの抽出を目標とした定性的アノテーションスキームを提案する。
我々の知る限りでは、ソーシャルメディアの医療テキストのためのKEスキーマを設計する最初の研究である。
このアプローチの価値を示すために、オピオイド使用障害の薬物に関するredditの投稿を分析した。
さらに、新しいデータセット上で10の既製のKEモデルをベンチマークし、ユーザ生成の健康テキストをモデル化する際のユニークな抽出課題を実証した。
提案されているテーマ駆動型keアプローチは、ソーシャルヘルステキストの効率的かつ大規模分析に関する今後の研究の基礎となり、研究者が有用な公衆衛生の傾向、パターン、知識のギャップを明らかにすることができる。 An emerging trend on social media platforms is their use as safe spaces for peer support. Particularly in healthcare, where many medical conditions contain harsh stigmas, social media has become a stigma-free way to engage in dialogues regarding symptoms, treatments, and personal experiences. Many existing works have employed NLP algorithms to facilitate quantitative analysis of health trends. Notably absent from existing works are keyphrase extraction (KE) models for social health posts-a task crucial to discovering emerging public health trends. This paper presents a novel, theme-driven KE dataset, SuboxoPhrase, and a qualitative annotation scheme with an overarching goal of extracting targeted clinically-relevant keyphrases. To the best of our knowledge, this is the first study to design a KE schema for social media healthcare texts. To demonstrate the value of this approach, this study analyzes Reddit posts regarding medications for opioid use disorder, a paramount health concern worldwide. Additionally, we benchmark ten off-the-shelf KE models on our new dataset, demonstrating the unique extraction challenges in modeling user-generated health texts. The proposed theme-driven KE approach lays the foundation of future work on efficient, large-scale analysis of social health texts, allowing researchers to surface useful public health trends, patterns, and knowledge gaps. | 翻訳日:2023-01-30 16:42:12 公開日:2023-01-27 |
# 半パラメトリックビデオグラウンドテキスト生成 Semi-Parametric Video-Grounded Text Generation ( http://arxiv.org/abs/2301.11507v1 ) ライセンス: Link先を確認 | Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo | (参考訳) 効率的なビデオ言語モデリングは、大きな、時には難解なビデオフレーム数のために計算コストを考慮すべきである。
注意機構のようなパラメトリックアプローチは、ビデオの長さが増加するにつれて計算コストが2次的に増加するので理想的ではないかもしれない。
むしろ、従来の研究はオフラインの機能抽出やフレームサンプリングに依存しており、短いビデオクリップのクロスモーダルモデリングに焦点を当てている。
本稿では,長大なビデオに対するスケーラブルなビデオ言語モデリングの新たな視点として,半パラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
映像を外部データストアとして扱うsevitは、所定のクエリのためにデータストアからいくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーと、遅延フュージョンメソッドを介してクエリで効率的にフレームを集約するパラメトリックジェネレータを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
さらに,本モデルでは,4つのビデオ言語データセット,iVQA(+4.8),Next-QA(+6.9),Activitynet-QA(+4.8),MSRVTT-Caption(+3.6)を精度良く実現している。 Efficient video-language modeling should consider the computational cost because of a large, sometimes intractable, number of video frames. Parametric approaches such as the attention mechanism may not be ideal since its computational cost quadratically increases as the video length increases. Rather, previous studies have relied on offline feature extraction or frame sampling to represent the video efficiently, focusing on cross-modal modeling in short video clips. In this paper, we propose a semi-parametric video-grounded text generation model, SeViT, a novel perspective on scalable video-language modeling toward long untrimmed videos. Treating a video as an external data store, SeViT includes a non-parametric frame retriever to select a few query-relevant frames from the data store for a given query and a parametric generator to effectively aggregate the frames with the query via late fusion methods. Experimental results demonstrate our method has a significant advantage in longer videos and causal video understanding. Moreover, our model achieves the new state of the art on four video-language datasets, iVQA (+4.8), Next-QA (+6.9), and Activitynet-QA (+4.8) in accuracy, and MSRVTT-Caption (+3.6) in CIDEr. | 翻訳日:2023-01-30 16:41:50 公開日:2023-01-27 |
# candidate soups: fusing candidate resultsは非自己回帰翻訳の翻訳品質を改善する Candidate Soups: Fusing Candidate Results Improves Translation Quality for Non-Autoregressive Translation ( http://arxiv.org/abs/2301.11503v1 ) ライセンス: Link先を確認 | Huanran Zheng, Wei Zhu, Pengfei Wang and Xiaoling Wang | (参考訳) non-autoregressive translation(nat)モデルは、推論中にすべてのトークンを同時に予測できるため、autoregressive translation(at)モデルよりもはるかに高速な推論速度を達成している。
しかし、翻訳品質はatに比べて低下している。
既存のNATメソッドはNATモデルの性能改善にのみフォーカスするが、完全には利用しない。
本論文では,NATモデルの推論速度を維持しつつ,高品質な翻訳を行うことのできる,シンプルで効果的な手法であるCandidate Soupsを提案する。
個々の結果を選択し、残りを破棄する以前のアプローチとは異なり、Candidate Soups (CDS) はモデルの不確実性を通じて、異なる候補翻訳における貴重な情報を十分に利用できる。
2つのベンチマーク(WMT'14 EN-DEとWMT'16 EN-RO)の大規模な実験により,提案手法の有効性と汎用性を実証した。
さらに注目すべきは、ATモデルが3つの翻訳タスクで7.6倍のスピードアップを達成していることです。 Non-autoregressive translation (NAT) model achieves a much faster inference speed than the autoregressive translation (AT) model because it can simultaneously predict all tokens during inference. However, its translation quality suffers from degradation compared to AT. And existing NAT methods only focus on improving the NAT model's performance but do not fully utilize it. In this paper, we propose a simple but effective method called "Candidate Soups," which can obtain high-quality translations while maintaining the inference speed of NAT models. Unlike previous approaches that pick the individual result and discard the remainders, Candidate Soups (CDS) can fully use the valuable information in the different candidate translations through model uncertainty. Extensive experiments on two benchmarks (WMT'14 EN-DE and WMT'16 EN-RO) demonstrate the effectiveness and generality of our proposed method, which can significantly improve the translation quality of various base models. More notably, our best variant outperforms the AT model on three translation tasks with 7.6 times speedup. | 翻訳日:2023-01-30 16:41:24 公開日:2023-01-27 |
# 勾配降下のインクリメンタル学習を理解する:マトリックスセンシングの細粒度解析 Understanding Incremental Learning of Gradient Descent: A Fine-grained Analysis of Matrix Sensing ( http://arxiv.org/abs/2301.11500v1 ) ライセンス: Link先を確認 | Jikai Jin and Zhiyuan Li and Kaifeng Lyu and Simon S. Du and Jason D. Lee | (参考訳) 勾配降下(gd)は機械学習モデルのトレーニングにおいて、優れた一般化に向けて暗黙のバイアスを引き起こすと考えられている。
本稿では,準等方性線形測定から低位接地面行列を回収することを目的とした,行列センシング問題に対するgdのダイナミクスのきめ細かな解析を行う。
初期化が小さいgdは欲望の低い低ランク学習ヒューリスティックス(li et al., 2020)と同様に振る舞うことが示され、漸進学習手順(gissin et al., 2019)に従う。
rank-1ソリューションの最初の学習フェーズのみを分析する既存の作品と比較して,本研究は学習プロセス全体の特徴付けを提供する。
さらに,多くの先行研究が注目する過度なパラメータ化体制に加えて,段階的な学習手順の分析も過度パラメータ化体制に適用した。
最後に,理論的な結果を確認する数値実験を行った。 It is believed that Gradient Descent (GD) induces an implicit bias towards good generalization in training machine learning models. This paper provides a fine-grained analysis of the dynamics of GD for the matrix sensing problem, whose goal is to recover a low-rank ground-truth matrix from near-isotropic linear measurements. It is shown that GD with small initialization behaves similarly to the greedy low-rank learning heuristics (Li et al., 2020) and follows an incremental learning procedure (Gissin et al., 2019): GD sequentially learns solutions with increasing ranks until it recovers the ground truth matrix. Compared to existing works which only analyze the first learning phase for rank-1 solutions, our result provides characterizations for the whole learning process. Moreover, besides the over-parameterized regime that many prior works focused on, our analysis of the incremental learning procedure also applies to the under-parameterized regime. Finally, we conduct numerical experiments to confirm our theoretical findings. | 翻訳日:2023-01-30 16:41:07 公開日:2023-01-27 |
# ディファレンシャル・コントラスト画像における非安定なLive Adherent Cellのためのデュアルビュー選択型インスタンスセグメンテーションネットワーク Dual-View Selective Instance Segmentation Network for Unstained Live Adherent Cells in Differential Interference Contrast Images ( http://arxiv.org/abs/2301.11499v1 ) ライセンス: Link先を確認 | Fei Pan, Yutong Wu, Kangning Cui, Shuxun Chen, Yanfang Li, Yaofang Liu, Adnan Shakoor, Han Zhao, Beijia Lu, Shaohua Zhi, Raymond Chan, and Dong Sun | (参考訳) データ独立型およびディープラーニングアルゴリズムの最近の進歩にもかかわらず、未完のライブアテンデントセルインスタンスのセグメンテーションは、セル画像処理における長年の課題である。
低コントラスト構造、フェーディングエッジ、不規則な形態といった接着細胞固有の視覚特性は、計算手法を使わずに、人間の専門家によってさえ、互いに区別することが困難になっている。
本研究では,ディファレンシャル干渉コントラスト(dic)画像中の未持続接着細胞をセグメンテーションするためのdvsisnと呼ばれる新しいディープラーニングアルゴリズムを開発した。
まず,各セルインスタンスのバウンディングボックスとそのマスクを予測するために,オリジナル画像と回転画像のペアを用いたデュアルビューセグメンテーション(dvs)手法を用いた。
第二に、DVSが予測するセルインスタンスをフィルタするためにマスク選択法(MS)を用いて、基底真実に最も近いマスクを保持する。
開発したアルゴリズムは, 520画像と12198セルを含むデータセット上で学習し, 検証した。
実験の結果,提案アルゴリズムはベンチマークを23.6%上回る0.555のAP_segmを達成した。
この研究の成功は、細胞画像のより良い予測のための入力として回転画像を使用する新たな可能性を開く。 Despite recent advances in data-independent and deep-learning algorithms, unstained live adherent cell instance segmentation remains a long-standing challenge in cell image processing. Adherent cells' inherent visual characteristics, such as low contrast structures, fading edges, and irregular morphology, have made it difficult to distinguish from one another, even by human experts, let alone computational methods. In this study, we developed a novel deep-learning algorithm called dual-view selective instance segmentation network (DVSISN) for segmenting unstained adherent cells in differential interference contrast (DIC) images. First, we used a dual-view segmentation (DVS) method with pairs of original and rotated images to predict the bounding box and its corresponding mask for each cell instance. Second, we used a mask selection (MS) method to filter the cell instances predicted by the DVS to keep masks closest to the ground truth only. The developed algorithm was trained and validated on our dataset containing 520 images and 12198 cells. Experimental results demonstrate that our algorithm achieves an AP_segm of 0.555, which remarkably overtakes a benchmark by a margin of 23.6%. This study's success opens up a new possibility of using rotated images as input for better prediction in cell images. | 翻訳日:2023-01-30 16:40:46 公開日:2023-01-27 |
# dualcsg:一般およびコンパクトcadモデリングのためのデュアルcsgツリーの学習 DualCSG: Learning Dual CSG Trees for General and Compact CAD Modeling ( http://arxiv.org/abs/2301.11497v1 ) ライセンス: Link先を確認 | Fenggen Yu, Qimin Chen, Maham Tanveer, Ali Mahdavi Amiri, Hao Zhang | (参考訳) 本稿では,3次元CAD形状の立体形状(CSG)表現の教師なし学習のための2つの枝と2つの枝からなる新しいニューラルネットワークDualCSGを提案する。
ネットワークは,2つの枝に沿ったCSG操作により,二次曲面プリミティブのコンパクトな組立により,与えられた3次元CAD形状を再構築する訓練を行う。
従来のニューラルcsgモデルとの主な違いは、dualcsgは、全体的なカバー形状から減算される可能性のある複雑、補体、または残差形状を組み立てるための専用分岐、残差分岐を持っていることです。
カバー形状は、他のブランチ、カバーブランチによってモデル化される。
どちらの分岐も原始交叉の和を構成するが、唯一の違いは剰余分岐は補空間で操作しながら原始逆も学習する点である。
形状を補うことで、我々のネットワークは証明可能なほど一般的です。
我々のネットワークはCSG再構成を, より優れた品質, より自然な木, および既存の代替品, 特に複雑なCAD形状よりも優れた品質・品質のトレードオフで生み出すことを示す。 We present DualCSG, a novel neural network composed of two dual and complementary branches for unsupervised learning of constructive solid geometry (CSG) representations of 3D CAD shapes. Our network is trained to reconstruct a given 3D CAD shape through a compact assembly of quadric surface primitives via fixed-order CSG operations along two branches. The key difference between our method and all previous neural CSG models is that DualCSG has a dedicated branch, the residual branch, to assemble the potentially complex, complement or residual shape that is to be subtracted from an overall cover shape. The cover shape is modeled by the other branch, the cover branch. Both branches construct a union of primitive intersections, where the only difference is that the residual branch also learns primitive inverses while operating in the complement space. With the shape complements, our network is provably general. We demonstrate both quantitatively and qualitatively that our network produces CSG reconstructions with superior quality, more natural trees, and better quality-compactness tradeoff than all existing alternatives, especially over complex and high-genus CAD shapes. | 翻訳日:2023-01-30 16:40:19 公開日:2023-01-27 |
# 2ストリーム空間-時間ネットワークの対比によるスケルトンに基づく行動認識 Skeleton-based Action Recognition through Contrasting Two-Stream Spatial-Temporal Networks ( http://arxiv.org/abs/2301.11495v1 ) ライセンス: Link先を確認 | Chen Pang, Xuequan Lu, Lei Lyu | (参考訳) 正確なスケルトンに基づく行動認識を追求するために、ほとんどの先行手法はグラフ畳み込みネットワーク(gcns)と注意に基づく手法を連続的に組み合わせる戦略を用いる。
しかし、彼らは人間の骨格を完全なグラフとみなし、結果として異なる行動(例えば、肘と頭部の'clap hands''')の間の差異が少なくなった。
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network (ConGT)を提案する。
ConGTはSpatial-Temporal Graph Convolution Stream (STG)とSpatial-Temporal Transformer Stream (STT)の2つの並列ストリームを含む。
STGはヒト骨格の自然なトポロジー構造を維持するために設計された。
STTは、関節間のグローバルな関係を含む行動表現を取得するために考案された。
これら2つのストリームから生成されたアクション表現は,それぞれ異なる特徴を持ち,それぞれが互いにほとんど情報を知らないため,自己監督的な方法で同一サンプルの出力表現を可能な限り近いものにガイドするコントラスト学習パラダイムを導入する。
コントラスト学習により,2種類の行動表現間の相互情報を最大化することにより,互いに情報を学習し,行動特徴を豊かにすることができる。
行動認識の精度をさらに向上するため,早期訓練期における自信あるトレーニングサンプルに焦点をあてるCFL(Cyical Focal Loss)を導入し,中期期におけるハードサンプルに焦点をあてる。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。 For pursuing accurate skeleton-based action recognition, most prior methods use the strategy of combining Graph Convolution Networks (GCNs) with attention-based methods in a serial way. However, they regard the human skeleton as a complete graph, resulting in less variations between different actions (e.g., the connection between the elbow and head in action ``clapping hands''). For this, we propose a novel Contrastive GCN-Transformer Network (ConGT) which fuses the spatial and temporal modules in a parallel way. The ConGT involves two parallel streams: Spatial-Temporal Graph Convolution stream (STG) and Spatial-Temporal Transformer stream (STT). The STG is designed to obtain action representations maintaining the natural topology structure of the human skeleton. The STT is devised to acquire action representations containing the global relationships among joints. Since the action representations produced from these two streams contain different characteristics, and each of them knows little information of the other, we introduce the contrastive learning paradigm to guide their output representations of the same sample to be as close as possible in a self-supervised manner. Through the contrastive learning, they can learn information from each other to enrich the action features by maximizing the mutual information between the two types of action representations. To further improve action recognition accuracy, we introduce the Cyclical Focal Loss (CFL) which can focus on confident training samples in early training epochs, with an increasing focus on hard samples during the middle epochs. We conduct experiments on three benchmark datasets, which demonstrate that our model achieves state-of-the-art performance in action recognition. | 翻訳日:2023-01-30 16:40:01 公開日:2023-01-27 |
# 流体推論と予測のための学習渦ダイナミクス Learning Vortex Dynamics for Fluid Inference and Prediction ( http://arxiv.org/abs/2301.11494v1 ) ライセンス: Link先を確認 | Yitong Deng, Hong-Xing Yu, Jiajun Wu, Bo Zhu | (参考訳) 本研究では, 微分可能な渦粒子に基づく新しい機械学習法を提案し, 単一ビデオから流体力学を推定し, 予測する。
このシステムの鍵となる設計は、観測可能なオイラー流現象の基盤となる隠れラグランジュの渦進化をカプセル化する粒子ベースの潜在空間である。
そこで我々は,学習可能な渦対速度のダイナミクスマッピングと組み合わせて,新しい微分可能な渦粒子系を考案し,空間の複雑な流れの特徴を効果的に捉え,表現する。
さらに,データからシミュレータを直接学習し,合成するためのエンドツーエンドのトレーニングパイプラインの設計を行い,限られた観察に基づいて,将来のビデオロールアウトを確実に提供できるようにした。
提案手法の価値は2つある: まず, 学習したシミュレータにより, 視覚観察からのみ得られる隠れた物理量(速度場など)を推定し, 運動解析に活用することができる。
本手法の有効性を,合成ビデオと実世界のビデオの両方において定量的・定性的に比較し,データ対応性,視認性,身体的整合性を向上させた。 We propose a novel machine learning method based on differentiable vortex particles to infer and predict fluid dynamics from a single video. The key design of our system is a particle-based latent space to encapsulate the hidden, Lagrangian vortical evolution underpinning the observable, Eulerian flow phenomena. We devise a novel differentiable vortex particle system in conjunction with their learnable, vortex-to-velocity dynamics mapping to effectively capture and represent the complex flow features in a reduced space. We further design an end-to-end training pipeline to directly learn and synthesize simulators from data, that can reliably deliver future video rollouts based on limited observation. The value of our method is twofold: first, our learned simulator enables the inference of hidden physics quantities (e.g. velocity field) purely from visual observation, to be used for motion analysis; secondly, it also supports future prediction, constructing the input video's sequel along with its future dynamics evolution. We demonstrate our method's efficacy by comparing quantitatively and qualitatively with a range of existing methods on both synthetic and real-world videos, displaying improved data correspondence, visual plausibility, and physical integrity. | 翻訳日:2023-01-30 16:39:32 公開日:2023-01-27 |
# 状態抽象化によるニューラルエピソード制御 Neural Episodic Control with State Abstraction ( http://arxiv.org/abs/2301.11490v1 ) ライセンス: Link先を確認 | Zhuo Li, Derui Zhu, Yujing Hu, Xiaofei Xie, Lei Ma, Yan Zheng, Yan Song, Yingfeng Chen, Jianjun Zhao | (参考訳) 既存の深層強化学習(drl)アルゴリズムはサンプル非効率に苦しむ。
一般に、エピソード制御に基づくアプローチは、DRLアルゴリズムのサンプル効率を改善するために、高度に回帰した過去の経験を活用するソリューションである。
しかし、従来のエピソード制御に基づくアプローチでは、過去の行動(状態遷移、トポロジカル類似性など)の潜伏情報を利用することができず、DRLトレーニング中にスケーラビリティが欠如している。
本研究では、より包括的なエピソードメモリ、新しい状態評価、多段階状態解析を含む、シンプルだが効果的な状態抽象化に基づくエピソード制御であるNeural Episodic Control with State Abstraction(NECSA)を紹介する。
オープンAI体育ドメインにおける MuJoCo タスクと Atari タスクに対するアプローチを評価した。
実験の結果,necsaは最先端のエピソディクス制御系アプローチよりも高いサンプル効率を達成していることがわかった。
私たちのデータとコードは、プロジェクトwebサイト\footnote{\url{https://sites.google.com/view/drl-necsa}}で利用可能です。 Existing Deep Reinforcement Learning (DRL) algorithms suffer from sample inefficiency. Generally, episodic control-based approaches are solutions that leverage highly-rewarded past experiences to improve sample efficiency of DRL algorithms. However, previous episodic control-based approaches fail to utilize the latent information from the historical behaviors (e.g., state transitions, topological similarities, etc.) and lack scalability during DRL training. This work introduces Neural Episodic Control with State Abstraction (NECSA), a simple but effective state abstraction-based episodic control containing a more comprehensive episodic memory, a novel state evaluation, and a multi-step state analysis. We evaluate our approach to the MuJoCo and Atari tasks in OpenAI gym domains. The experimental results indicate that NECSA achieves higher sample efficiency than the state-of-the-art episodic control-based approaches. Our data and code are available at the project website\footnote{\url{https://sites.google.com/view/drl-necsa}}. | 翻訳日:2023-01-30 16:39:09 公開日:2023-01-27 |
# ランダムウォークと言語モデルを用いた会話音楽推薦のための合成データ生成 Generating Synthetic Data for Conversational Music Recommendation Using Random Walks and Language Models ( http://arxiv.org/abs/2301.11489v1 ) ライセンス: Link先を確認 | Megan Leszczynski, Ravi Ganti, Shu Zhang, Krisztian Balog, Filip Radlinski, Fernando Pereira, Arun Tejasvi Chaganty | (参考訳) 会話レコメンデーションシステム(CRS)は、ユーザーが自然言語フィードバックを使ってレコメンデーションを制御することができ、従来のレコメンデーションシステムの課題の多くを克服する。
しかし、ユーザ発話とレコメンデーションを組み合わせたリッチで多様な会話訓練データがないため、CRSの実践的採用は依然として限られている。
この問題に対処するために,プレイリストや映画視聴リストなどのキュレーションされたアイテムコレクションを項目閲覧会話に変換することで,合成学習データを生成する新しい手法を提案する。
まず、偏りのあるランダムウォークを用いて一連のスレートや項目のレコメンデーションを生成し、次に、言語モデルを用いて対応するユーザの発話を生成する。
我々は,100万以上の会話を伴う対話型音楽レコメンデーションデータセットを作成し,クラウドソースによる評価により,関連するレコメンデーションと一致していることを示す。
CRSをトレーニングするために合成データを用いることで、オフラインおよびオンライン評価において標準検索基準よりも大幅に優れる。 Conversational recommendation systems (CRSs) enable users to use natural language feedback to control their recommendations, overcoming many of the challenges of traditional recommendation systems. However, the practical adoption of CRSs remains limited due to a lack of rich and diverse conversational training data that pairs user utterances with recommendations. To address this problem, we introduce a new method to generate synthetic training data by transforming curated item collections, such as playlists or movie watch lists, into item-seeking conversations. First, we use a biased random walk to generate a sequence of slates, or sets of item recommendations; then, we use a language model to generate corresponding user utterances. We demonstrate our approach by generating a conversational music recommendation dataset with over one million conversations, which were found to be consistent with relevant recommendations by a crowdsourced evaluation. Using the synthetic data to train a CRS, we significantly outperform standard retrieval baselines in offline and online evaluations. | 翻訳日:2023-01-30 16:38:49 公開日:2023-01-27 |
# リプシッツ境界深部ネットワークの直接パラメータ化 Direct Parameterization of Lipschitz-Bounded Deep Networks ( http://arxiv.org/abs/2301.11526v1 ) ライセンス: Link先を確認 | Ruigang Wang, Ian R. Manchester | (参考訳) 本稿では、リプシッツ境界が保証される深層ニューラルネットワーク(完全接続と畳み込みの両方)の新しいパラメータ化、すなわち摂動に対する感度の制限を導入する。
リプシッツ保証は半定値プログラム(SDP)による認証に基づく最も厳密な既知の境界と等価であり、大きなモデルにスケールしない。
sdp のアプローチとは対照的に ``direct'' パラメータ化、すなわち$\mathbb r^n$ からリプシッツ境界ネットワークの重み集合への滑らかな写像を提供する。
これにより、計算集約的なプロジェクションや障壁項を使わずに、標準的な勾配法によるトレーニングが可能になる。
新しいパラメータ化は、新しい層タイプ( \textit{sandwich layer} )や、近隣層間のパラメータ共有を伴う標準フィードフォワードネットワークの新しいパラメータ化のいずれかと考えることができる。
本手法を画像分類(MNIST, CIFAR-10)に適用した。 This paper introduces a new parameterization of deep neural networks (both fully-connected and convolutional) with guaranteed Lipschitz bounds, i.e. limited sensitivity to perturbations. The Lipschitz guarantees are equivalent to the tightest-known bounds based on certification via a semidefinite program (SDP), which does not scale to large models. In contrast to the SDP approach, we provide a ``direct'' parameterization, i.e. a smooth mapping from $\mathbb R^N$ onto the set of weights of Lipschitz-bounded networks. This enables training via standard gradient methods, without any computationally intensive projections or barrier terms. The new parameterization can equivalently be thought of as either a new layer type (the \textit{sandwich layer}), or a novel parameterization of standard feedforward networks with parameter sharing between neighbouring layers. We illustrate the method with some applications in image classification (MNIST and CIFAR-10). | 翻訳日:2023-01-30 16:33:23 公開日:2023-01-27 |
# ハイパースペクトル画像デノージングのための混合注意ネットワーク Mixed Attention Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2301.11525v1 ) ライセンス: Link先を確認 | Zeqiang Lai, Ying Fu | (参考訳) ハイパースペクトル画像の認知は、適切に考慮すべき非常に類似した相関スペクトル情報に特有である。
しかし、既存の手法は、異なるバンド間のスペクトル相関と各バンド内の特徴相互作用を探索する際の限界を示す。
また、低レベルかつ高レベルな特徴は通常異なる空間スペクトル領域において異なる重要性を示すが、現在のアルゴリズムでは十分に研究されていない。
本稿では,スペクトル間相関と低レベル・高レベル空間スペクトル有意義な特徴の相互作用を同時に考慮した混合注意ネットワーク(man)を提案する。
具体的には,すべてのスペクトル帯域にまたがるスペクトル間特徴を効率的に統合するマルチヘッドリカレントスペクトルアテンションを導入する。
これらの特徴は、スペクトル内関係を探索することによって、プログレッシブスペクトルチャネルの注意によりさらに強化される。
さらに,エンコーダとデコーダから低レベルおよび高レベルな空間スペクトル特性の比率を適応的に制御し,それらの特徴の集約性を高めるための注意的スキップ接続を提案する。
大規模な実験により、MANは、パラメータの低コストと実行時間を維持しながら、シミュレートされた実雑音設定における既存の最先端手法よりも優れた性能を示した。 Hyperspectral image denoising is unique for the highly similar and correlated spectral information that should be properly considered. However, existing methods show limitations in exploring the spectral correlations across different bands and feature interactions within each band. Besides, the low- and high-level features usually exhibit different importance for different spatial-spectral regions, which is not fully explored for current algorithms as well. In this paper, we present a Mixed Attention Network (MAN) that simultaneously considers the inter- and intra-spectral correlations as well as the interactions between low- and high-level spatial-spectral meaningful features. Specifically, we introduce a multi-head recurrent spectral attention that efficiently integrates the inter-spectral features across all the spectral bands. These features are further enhanced with a progressive spectral channel attention by exploring the intra-spectral relationships. Moreover, we propose an attentive skip-connection that adaptively controls the proportion of the low- and high-level spatial-spectral features from the encoder and decoder to better enhance the aggregated features. Extensive experiments show that our MAN outperforms existing state-of-the-art methods on simulated and real noise settings while maintaining a low cost of parameters and running time. | 翻訳日:2023-01-30 16:33:06 公開日:2023-01-27 |
# 3次元再構成のためのtiny-nerfと空間表現の比較 A Comparison of Tiny-nerf versus Spatial Representations for 3d Reconstruction ( http://arxiv.org/abs/2301.11522v1 ) ライセンス: Link先を確認 | Saulo Abraham Gante, Juan Irving Vasquez, Marco Antonio Valencia, Mauricio Olgu\'in Carbajal | (参考訳) ニューラルレンダリングはイメージを合成するための強力なパラダイムとして登場し、ニューラルネットワークを使用して表面を再構築し、形状を表現し、オブジェクトやシーンの新たなビューを合成することで、古典的なレンダリングよりも多くのメリットを提供している。
このニューラルネットワークレンダリングでは、環境がニューラルネットワークに符号化される。
これらの新しい表現は,移動ロボットのシーンの体系化に利用できると考えている。
そこで本研究では,tiny-nerfと呼ばれるニューラルレンダリングと,ボクセルマップやポイントクラウド,三角メッシュなどロボット工学におけるマップとして一般的に使用される他のボリューム表現の比較を行う。
目的は、ロボット工学における神経表現の利点と欠点を知ることである。
この比較は、モデルを得るための空間的複雑さと処理時間の観点から行われる。
実験により、小さなNeRFは他の表現の3倍のメモリスペースを必要とすることが示された。
処理時間の面では、小さなNeRFはモデルを計算するのに約6倍の時間を要する。 Neural rendering has emerged as a powerful paradigm for synthesizing images, offering many benefits over classical rendering by using neural networks to reconstruct surfaces, represent shapes, and synthesize novel views, either for objects or scenes. In this neural rendering, the environment is encoded into a neural network. We believe that these new representations can be used to codify the scene for a mobile robot. Therefore, in this work, we perform a comparison between a trending neural rendering, called tiny-NeRF, and other volume representations that are commonly used as maps in robotics, such as voxel maps, point clouds, and triangular meshes. The target is to know the advantages and disadvantages of neural representations in the robotics context. The comparison is made in terms of spatial complexity and processing time to obtain a model. Experiments show that tiny-NeRF requires three times less memory space compared to other representations. In terms of processing time, tiny-NeRF takes about six times more to compute the model. | 翻訳日:2023-01-30 16:32:37 公開日:2023-01-27 |
# SNeRL:強化学習のための意味認識型ニューラルネットワーク SNeRL: Semantic-aware Neural Radiance Fields for Reinforcement Learning ( http://arxiv.org/abs/2301.11520v1 ) ライセンス: Link先を確認 | Dongseok Shim, Seungjae Lee, H. Jin Kim | (参考訳) 従来の強化学習の表現は、3D環境に対する人間の直感的な理解を効果的に組み込むことができないため、それらは通常、準最適性能に悩まされる。
本稿では,意味認識型ニューラルラディアンスフィールド(NeRF)と畳み込みエンコーダを併用して,多視点画像から3次元認識型ニューラルラディアンスフィールドを学習するセマンティック認識型ニューラルラディアンスフィールド(SNeRL)を提案する。
我々は,NeRFにおけるRGB放射場と平行な3次元意味と蒸留特徴場を導入し,強化学習のための意味と対象中心表現を学習する。
SNeRLは、以前のピクセルベース表現だけでなく、モデルフリーとモデルベース強化学習の両方において、最近の3D対応表現よりも優れている。 As previous representations for reinforcement learning cannot effectively incorporate a human-intuitive understanding of the 3D environment, they usually suffer from sub-optimal performances. In this paper, we present Semantic-aware Neural Radiance Fields for Reinforcement Learning (SNeRL), which jointly optimizes semantic-aware neural radiance fields (NeRF) with a convolutional encoder to learn 3D-aware neural implicit representation from multi-view images. We introduce 3D semantic and distilled feature fields in parallel to the RGB radiance fields in NeRF to learn semantic and object-centric representation for reinforcement learning. SNeRL outperforms not only previous pixel-based representations but also recent 3D-aware representations both in model-free and model-based reinforcement learning. | 翻訳日:2023-01-30 16:32:22 公開日:2023-01-27 |
# Omniscient FollowerによるStackelbergゲームにおけるオンライン学習 Online Learning in Stackelberg Games with an Omniscient Follower ( http://arxiv.org/abs/2301.11518v1 ) ライセンス: Link先を確認 | Geng Zhao, Banghua Zhu, Jiantao Jiao, Michael I. Jordan | (参考訳) オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドにおいて、リーダーはまず行動を起こし、続いてリーダーの動きを観察した後に行動を起こす従者が続く。
リーダーの目標は、対話の歴史に基づいて累積的な後悔を最小限に抑えることを学ぶことです。
繰り返し行われるスタックルバーグのゲームの伝統的な定式化から逸脱し、従者は全能であり、真の報酬を十分に知っており、常にリーダーの行動に最もよく対応していると仮定する。
この反復スタッケルバーグゲームにおける後悔の最小化のサンプル複雑性を分析した。
報酬構造により,全科学的従者の存在は,線形協調スタッケルバーグゲームにおいても,サンプル複雑性を定数から指数関数へと劇的に変化させる可能性がある。
これはリーダーの学習プロセスとその後の後悔の分析に特有の課題をもたらす。 We study the problem of online learning in a two-player decentralized cooperative Stackelberg game. In each round, the leader first takes an action, followed by the follower who takes their action after observing the leader's move. The goal of the leader is to learn to minimize the cumulative regret based on the history of interactions. Differing from the traditional formulation of repeated Stackelberg games, we assume the follower is omniscient, with full knowledge of the true reward, and that they always best-respond to the leader's actions. We analyze the sample complexity of regret minimization in this repeated Stackelberg game. We show that depending on the reward structure, the existence of the omniscient follower may change the sample complexity drastically, from constant to exponential, even for linear cooperative Stackelberg games. This poses unique challenges for the learning process of the leader and the subsequent regret analysis. | 翻訳日:2023-01-30 16:32:05 公開日:2023-01-27 |
# タスク非依存型グラフニューラルネットワークの評価 Task-Agnostic Graph Neural Network Evaluation via Adversarial Collaboration ( http://arxiv.org/abs/2301.11517v1 ) ライセンス: Link先を確認 | Xiangyu Zhao, Hannes St\"ark, Dominique Beaini, Pietro Li\`o, Yiren Zhao | (参考訳) 急速に拡大するGNN研究の進捗を定量化するために、信頼性の高いグラフニューラルネットワーク(GNN)評価手法の開発がますます求められている。
既存のGNNベンチマーク手法は、特定のデータセットにおけるノード/グラフ分類/回帰タスクの性能の比較に重点を置いている。
2つのGNNを直接比較する、原則的でタスクに依存しない方法がない。
さらに、既存のグラフ自己教師学習(SSL)の作業の多くは、グラフに手作りの強化を取り入れている。
上記の問題に対処するため,グラフ適応協調(GraphAC, Graph Adversarial Collaboration)を提案する。
GraphACは様々な面で異なる表現性を持つGNNの識別に成功し、安定なSSLのための手作り拡張の必要性を排除し、原則的で信頼性の高いGNN評価手法であることが証明されている。 It has been increasingly demanding to develop reliable Graph Neural Network (GNN) evaluation methods to quantify the progress of the rapidly expanding GNN research. Existing GNN benchmarking methods focus on comparing the GNNs with respect to their performances on some node/graph classification/regression tasks in certain datasets. There lacks a principled, task-agnostic method to directly compare two GNNs. Moreover, most of the existing graph self-supervised learning (SSL) works incorporate handcrafted augmentations to the graph, which has several severe difficulties due to the unique characteristics of graph-structured data. To address the aforementioned issues, we propose GraphAC (Graph Adversarial Collaboration) -- a conceptually novel, principled, task-agnostic, and stable framework for evaluating GNNs through contrastive self-supervision. GraphAC succeeds in distinguishing GNNs of different expressiveness across various aspects, and has been proven to be a principled and reliable GNN evaluation method, eliminating the need for handcrafted augmentations for stable SSL. | 翻訳日:2023-01-30 16:31:51 公開日:2023-01-27 |
# 工業生産における深部視覚異常検出:調査 Deep Visual Anomaly Detection in Industrial Manufacturing: A Survey ( http://arxiv.org/abs/2301.11514v1 ) ライセンス: Link先を確認 | Jiaqi Liu, Guoyang Xie, Jingbao Wang, Shangnian Li, Chengjie Wang, Feng Zheng, Yaochu Jin | (参考訳) 近年のディープラーニングの急速な発展は、視覚異常検出(VAD)のマイルストーンとなった。
本稿では,ニューラルネットワークアーキテクチャ,監視レベル,損失関数,メトリクス,データセットの観点から,ディープラーニングに基づく視覚異常検出手法の包括的なレビューを行う。
また, 工業生産から新たな環境を抽出し, 我々の提案した新たな環境下での現在のVADアプローチを概観する。
さらに,視覚異常検出のオープニング課題をいくつか挙げる。
各種監視下の代表的ネットワークアーキテクチャのメリットと欠点について論じる。
最後に,研究成果を要約し,今後の研究方向性を指摘する。
さらなるリソースはhttps://github.com/M-3LAB/awesome-industrial-anomaly-detectionにある。 The recent rapid development of deep learning has laid a milestone in visual anomaly detection (VAD). In this paper, we provide a comprehensive review of deep learning-based visual anomaly detection techniques, from the perspectives of neural network architectures, levels of supervision, loss functions, metrics and datasets. In addition, we extract the new setting from industrial manufacturing and review the current VAD approaches under our proposed our new setting. Moreover, we highlight several opening challenges for visual anomaly detection. The merits and downsides of representative network architectures under varying supervision are discussed. Finally, we summarize the research findings and point out future research directions. More resources are available at https://github.com/M-3LAB/awesome-industrial-anomaly-detection | 翻訳日:2023-01-30 16:31:35 公開日:2023-01-27 |
# cellmix:病理画像解析のためのデータ拡張のための汎用インスタンス関係ベース手法 CellMix: A General Instance Relationship based Method for Data Augmentation Towards Pathology Image Analysis ( http://arxiv.org/abs/2301.11513v1 ) ライセンス: Link先を確認 | Tianyi Zhang, Zhiling Yan, Chunhui Li, Nan Ying, Yanli Lei, Yunlu Feng, Yu Zhao, Guanglei Zhang | (参考訳) 病理画像解析は、注釈付き病理サンプルの可用性と品質に極めて依存しており、収集は非常に困難であり、多くの人的努力を必要としている。
この問題に対処するためには、従来の前処理データ拡張方法以外にも、混合ベースのアプローチは効果的で実践的です。
しかし,従来のミキシングに基づくデータ拡張法は,局所特異性,グローバル分布,内部・外部インスタンス関係など,病理画像の本質的特徴を十分に検討していない。
病的特徴をより深く理解し,有効な擬似サンプルを作成するために,新しい分布型インプレースシャッフル戦略を持つCellMixフレームワークを提案する。
画像は病理インスタンスの粒度に関してパッチに分割し,シャッフル処理を同じバッチで行う。
このように、病理学インスタンスの絶対的な関係を保ちながら、新しいサンプルを生成します。
さらに,ゆらぎや分布に基づくノイズに対処するために,学習中にカリキュラム学習に触発されたロスドライブ戦略を考案し,モデルを拡張データに適応的に適合させる。
病理画像分野におけるデータ拡張技術の探求は,私たちが最初に行ったことです。
実験では、7つの異なるデータセットでSOTA結果を示す。
この新たなインスタンス関係に基づく戦略は,病理画像解析のための一般データ拡張に光を当てることができる。
コードはhttps://github.com/sagizty/cellmixで入手できる。 Pathology image analysis crucially relies on the availability and quality of annotated pathological samples, which are very difficult to collect and need lots of human effort. To address this issue, beyond traditional preprocess data augmentation methods, mixing-based approaches are effective and practical. However, previous mixing-based data augmentation methods do not thoroughly explore the essential characteristics of pathology images, including the local specificity, global distribution, and inner/outer-sample instance relationship. To further understand the pathology characteristics and make up effective pseudo samples, we propose the CellMix framework with a novel distribution-based in-place shuffle strategy. We split the images into patches with respect to the granularity of pathology instances and do the shuffle process across the same batch. In this way, we generate new samples while keeping the absolute relationship of pathology instances intact. Furthermore, to deal with the perturbations and distribution-based noise, we devise a loss-drive strategy inspired by curriculum learning during the training process, making the model fit the augmented data adaptively. It is worth mentioning that we are the first to explore data augmentation techniques in the pathology image field. Experiments show SOTA results on 7 different datasets. We conclude that this novel instance relationship-based strategy can shed light on general data augmentation for pathology image analysis. The code is available at https://github.com/sagizty/CellMix. | 翻訳日:2023-01-30 16:31:25 公開日:2023-01-27 |
# スマートビル制御のための深層強化学習の探索 Exploring Deep Reinforcement Learning for Holistic Smart Building Control ( http://arxiv.org/abs/2301.11510v1 ) ライセンス: Link先を確認 | Xianzhong Ding, Alberto Cerpa and Wan Du | (参考訳) 本稿では,商業ビルにおけるエネルギー利用と快適性とのトレードオフに対処するために,総合的なアプローチをとる。
我々は,HVAC,照明,ブラインド,ウィンドウシステムを含むすべての建物のサブシステムの最適制御シーケンスを見つけるために,データ駆動型アプローチを用いた新しい深層強化学習(DRL)フレームワークを用いたOCTOPUSというシステムを開発した。
DRLアーキテクチャは、エネルギー使用とユーザの快適性の間のトレードオフを探索すると同時に、4つの異なる建物サブシステムの相互作用による高次元制御問題の解決を可能にする新しい報酬関数を含む。
OCTOPUSのデータトレーニング要件に対処するために、ターゲットの運用ポイントにマッチするキャリブレーションされたシミュレーションは、ターゲットのビルの制御ソリューションを見つけるためにDRLフレームワークをトレーニングできる十分なデータを生成するための車両である、と我々は主張する。
本研究では,10年間の気象データを用いてOCTOPUSを訓練し,実際の建物からのデータを用いて校正したEnergyPlusビルディングシミュレータに実装したビルモデルを構築した。
広範囲のシミュレーションにより,leedゴールド認定建物における最先端のルールベース手法と,文献で利用可能な最新のdrlベース手法と比較して,オクトパスが14.26%と8.1%の省エネを達成可能であることを実証した。 In this paper, we take a holistic approach to deal with the tradeoffs between energy use and comfort in commercial buildings. We developed a system called OCTOPUS, which employs a novel deep reinforcement learning (DRL) framework that uses a data-driven approach to find the optimal control sequences of all building's subsystems, including HVAC, lighting, blind and window systems. The DRL architecture includes a novel reward function that allows the framework to explore the tradeoffs between energy use and users' comfort, while at the same time enabling the solution of the high-dimensional control problem due to the interactions of four different building subsystems. In order to cope with OCTOPUS's data training requirements, we argue that calibrated simulations that match the target building operational points are the vehicle to generate enough data to be able to train our DRL framework to find the control solution for the target building. In our work, we trained OCTOPUS with 10-year weather data and a building model that is implemented in the EnergyPlus building simulator, which was calibrated using data from a real production building. Through extensive simulations, we demonstrate that OCTOPUS can achieve 14.26% and 8.1% energy savings compared with the state-of-the-art rule-based method in a LEED Gold Certified building and the latest DRL-based method available in the literature respectively, while maintaining human comfort within a desired range. | 翻訳日:2023-01-30 16:31:01 公開日:2023-01-27 |
# 訓練と一般化のための微調整型ニューラルネットワークアーキテクチャ Fine-tuning Neural-Operator architectures for training and generalization ( http://arxiv.org/abs/2301.11509v1 ) ライセンス: Link先を確認 | Jose Antonio Lara Benitez, Takashi Furuya, Florian Faucher, Xavier Tricoche, Maarten V. de Hoop | (参考訳) 本稿では,ニューラル演算子(nos)と派生アーキテクチャの一般化に関する解析を行う。
そこで我々は、NOsのレイアウトをTransformerに似たアーキテクチャへ変更し、主にNOsのIntegtal Operator部分でAttentionモジュールを置換するネットワークのファミリー({\textit{s}}{\text{NO}}+\varepsilon$)を提案しました。
結果として得られるネットワークは普遍性を保ち、見つからないデータや、NOと同じような数のパラメータを一般化する。
一方,NOsを次々に${\textit{s}}{\text{NO}}+\varepsilon$に変換し,周波数の異なる時間高調波データセットを考慮したテスト損失の低減を検証することにより,一般化を数値的に検討する。
nosでは以下の変更を行います。
(a)Integral Operator(非ローカル)と(ローカル)フィードフォワードネットワーク(MLP)を異なるレイヤに分割し、シーケンシャルなNeural Operator({\textit{s}}{\text{NO}}$)と呼ばれる構造を生成する。
b) ${\textit{s}}{\text{NO}}$, and で、スキップ接続とレイヤ正規化を追加します。
(c) 深いネットワークを生成するためのドロップアウトと確率的な深さを組み込む。
いずれの場合も, 様々な初期化におけるテスト損失の減少が観察され, その変化がNOを上回っていることが示唆された。
一方、無限次元統計学、特にダドリー定理に基づいて、NOs と ${\textit{s}}{\text{NO}}$ のラデマッハ複雑性の境界を提供し、以下の関係を求める: ${\textit{s}}{\text{NO}}$ のラデマッハ複雑性の上界は NO の下界であり、従って ${\textit{s}}{\text{NO}}$ の一般化誤差は NO よりも小さい。 In this work, we present an analysis of the generalization of Neural Operators (NOs) and derived architectures. We proposed a family of networks, which we name (${\textit{s}}{\text{NO}}+\varepsilon$), where we modify the layout of NOs towards an architecture resembling a Transformer; mainly, we substitute the Attention module with the Integral Operator part of NOs. The resulting network preserves universality, has a better generalization to unseen data, and similar number of parameters as NOs. On the one hand, we study numerically the generalization by gradually transforming NOs into ${\textit{s}}{\text{NO}}+\varepsilon$ and verifying a reduction of the test loss considering a time-harmonic wave dataset with different frequencies. We perform the following changes in NOs: (a) we split the Integral Operator (non-local) and the (local) feed-forward network (MLP) into different layers, generating a {\it sequential} structure which we call sequential Neural Operator (${\textit{s}}{\text{NO}}$), (b) we add the skip connection, and layer normalization in ${\textit{s}}{\text{NO}}$, and (c) we incorporate dropout and stochastic depth that allows us to generate deep networks. In each case, we observe a decrease in the test loss in a wide variety of initialization, indicating that our changes outperform the NO. On the other hand, building on infinite-dimensional Statistics, and in particular the Dudley Theorem, we provide bounds of the Rademacher complexity of NOs and ${\textit{s}}{\text{NO}}$, and we find the following relationship: the upper bound of the Rademacher complexity of the ${\textit{s}}{\text{NO}}$ is a lower-bound of the NOs, thereby, the generalization error bound of ${\textit{s}}{\text{NO}}$ is smaller than NO, which further strengthens our numerical results. | 翻訳日:2023-01-30 16:30:14 公開日:2023-01-27 |
# 局所誘導バイアスをもつロバスト変圧器と特徴正規化 Robust Transformer with Locality Inductive Bias and Feature Normalization ( http://arxiv.org/abs/2301.11553v1 ) ライセンス: Link先を確認 | Omid Nejati Manzari, Hossein Kashiani, Hojat Asgarian Dehkordi, Shahriar Baradaran Shokouhi | (参考訳) 視覚トランスフォーマーは、注意に基づくネットワークを用いて様々なコンピュータビジョンタスクに最先端の結果をもたらすことが実証されている。
しかし、変圧器の研究は、多くの場合、堅牢性や精度のトレードオフを調査せず、敵の摂動を扱うのに苦戦している。
本稿では,対向摂動に対する視覚トランスフォーマーのロバスト性について検討し,ホワイトボックス攻撃におけるロバスト性と精度のトレードオフの強化を試みる。
そこで我々はLocality iN Locality (LNL) Transformerモデルを提案する。
LNLの局所性導入は,線やエッジ,形状,さらにはオブジェクトなどの局所情報を集約するので,ロバスト性向上に寄与することを示す。
さらに,ロバスト性向上のために,モーメント(平均偏差,標準偏差)と正規化特徴から学習信号を抽出することを推奨した。
我々は,ドイツ交通信号認識ベンチマーク (GTSRB) とカナダ先進研究所 (CIFAR-10) の精度とロバスト性指標を用いて,最先端の成果を達成し,LNLの有効性と一般性を検証する。
より具体的には、交通標識分類において、提案されたLNLは、最先端の研究と比較して、クリーンでロバストな精度で1.1%、~35%の利得が得られる。 Vision transformers have been demonstrated to yield state-of-the-art results on a variety of computer vision tasks using attention-based networks. However, research works in transformers mostly do not investigate robustness/accuracy trade-off, and they still struggle to handle adversarial perturbations. In this paper, we explore the robustness of vision transformers against adversarial perturbations and try to enhance their robustness/accuracy trade-off in white box attack settings. To this end, we propose Locality iN Locality (LNL) transformer model. We prove that the locality introduction to LNL contributes to the robustness performance since it aggregates local information such as lines, edges, shapes, and even objects. In addition, to further improve the robustness performance, we encourage LNL to extract training signal from the moments (a.k.a., mean and standard deviation) and the normalized features. We validate the effectiveness and generality of LNL by achieving state-of-the-art results in terms of accuracy and robustness metrics on German Traffic Sign Recognition Benchmark (GTSRB) and Canadian Institute for Advanced Research (CIFAR-10). More specifically, for traffic sign classification, the proposed LNL yields gains of 1.1% and ~35% in terms of clean and robustness accuracy compared to the state-of-the-art studies. | 翻訳日:2023-01-30 16:24:00 公開日:2023-01-27 |
# 調和フロー:正規化フローに基づく教師なしMR調和 Harmonizing Flows: Unsupervised MR harmonization based on normalizing flows ( http://arxiv.org/abs/2301.11551v1 ) ライセンス: Link先を確認 | Farzad Beizaee, Christian Desrosiers, Gregory A. Lodygensky, Jose Dolz | (参考訳) 本稿では,MR画像を調和させてソース領域の分布を模倣する正規化フローに基づく教師なしフレームワークを提案する。
提案するフレームワークは3つのステップで構成されている。
まず、shresh harmonizer networkを訓練して、拡張バージョンからソースドメインのイメージを復元する。
その後、正規化フローネットワークを訓練して、ソースドメインの分布を学ぶ。
最後に、テスト時に、出力画像が正規化フローモデルによって学習されたソース領域の分布と一致するように、ハーモナイザネットワークを変更する。
4つの異なる部位からのデータを用いて,脳領域間MRIのセグメント化について,教師なし,ソースフリー,タスク非依存のアプローチを評価した。
その結果,既存の手法に比べて優れた性能を示した。 In this paper, we propose an unsupervised framework based on normalizing flows that harmonizes MR images to mimic the distribution of the source domain. The proposed framework consists of three steps. First, a shallow harmonizer network is trained to recover images of the source domain from their augmented versions. A normalizing flow network is then trained to learn the distribution of the source domain. Finally, at test time, a harmonizer network is modified so that the output images match the source domain's distribution learned by the normalizing flow model. Our unsupervised, source-free and task-independent approach is evaluated on cross-domain brain MRI segmentation using data from four different sites. Results demonstrate its superior performance compared to existing methods. | 翻訳日:2023-01-30 16:23:37 公開日:2023-01-27 |
# 量子力学の非線形拡張における符号なし No-signaling in Nonlinear Extensions of Quantum Mechanics ( http://arxiv.org/abs/2301.11548v1 ) ライセンス: Link先を確認 | Rohit Kishan Ray, Gian Paolo Beretta | (参考訳) 量子力学の非線形拡張の展開は、超音速通信(シグナリング)のような非物理的特徴を除外する必要があるため、簡単ではない。
このレターでは、最も急激なエントロピー上昇形式は、部分系の局所的進化が必ずしもその減少状態にのみ依存するとは限らないような、より広範な非有意な非線形進化方程式に属する、有理な非有理的拡張であることを示す。 Devising a nonlinear extension of quantum mechanics is nontrivial because unphysical features such as supraluminal communication (signaling) are to be excluded. In this Letter, we show that the steepest entropy ascent formalism is a viable no-signaling extension belonging to a broader class of no-signaling nonlinear evolution equations for which the local evolution of a subsystem is not necessarily bound to depend only on its reduced state. | 翻訳日:2023-01-30 16:23:26 公開日:2023-01-27 |
# 拘束型MDPの安全な後方サンプリング Safe Posterior Sampling for Constrained MDPs with Bounded Constraint Violation ( http://arxiv.org/abs/2301.11547v1 ) ライセンス: Link先を確認 | Krishna C Kalagarla, Rahul Jain, Pierluigi Nuzzo | (参考訳) 制約付きマルコフ決定プロセス(CMDP)は、多くのアプリケーションにおいてますます重要になっている複数の目的を持つシーケンシャルな意思決定のシナリオをモデル化する。
しかし、モデルはしばしば不明であり、制約が満たされているか、少なくとも違反は時間に縛られていることを保証しながら、オンラインで学ぶ必要がある。
いくつかの最近の論文では、この非常に困難な問題を進展させているが、安全な政策の知識のような不満足な仮定を必要とするか、あるいは累積的後悔が高いかのどちらかである。
本稿では,このような仮定を必要とせず,理論的後悔境界や経験的にも非常によく機能するSafe PSRL(posterior sample-based RL)アルゴリズムを提案する。
このアルゴリズムは、後方サンプリング原理を用いて探索と搾取の効率的なトレードオフを実現し、悲観主義の考え方を活用し、限定的な制約違反のみに対処できる。
我々のアプローチは原始的アプローチに基づいている。
サブリニア $\tilde{\mathcal{O}}\left(H^{2.5} \sqrt{|\mathcal{S}|^2 |\mathcal{A}| K} \right)$上限はベイズ報酬目的後悔、すなわち$\tilde{\mathcal{O}}\left(1\right)$制約違反は$K$で$|\mathcal{S}|$-state,$|\mathcal{A}|$-state, $|\mathcal{A}|$-action and horizon $H$CMDPである。 Constrained Markov decision processes (CMDPs) model scenarios of sequential decision making with multiple objectives that are increasingly important in many applications. However, the model is often unknown and must be learned online while still ensuring the constraint is met, or at least the violation is bounded with time. Some recent papers have made progress on this very challenging problem but either need unsatisfactory assumptions such as knowledge of a safe policy, or have high cumulative regret. We propose the Safe PSRL (posterior sampling-based RL) algorithm that does not need such assumptions and yet performs very well, both in terms of theoretical regret bounds as well as empirically. The algorithm achieves an efficient tradeoff between exploration and exploitation by use of the posterior sampling principle, and provably suffers only bounded constraint violation by leveraging the idea of pessimism. Our approach is based on a primal-dual approach. We establish a sub-linear $\tilde{\mathcal{ O}}\left(H^{2.5} \sqrt{|\mathcal{S}|^2 |\mathcal{A}| K} \right)$ upper bound on the Bayesian reward objective regret along with a bounded, i.e., $\tilde{\mathcal{O}}\left(1\right)$ constraint violation regret over $K$ episodes for an $|\mathcal{S}|$-state, $|\mathcal{A}|$-action and horizon $H$ CMDP. | 翻訳日:2023-01-30 16:23:16 公開日:2023-01-27 |
# ステップサイズ適応 : 逆攻撃に対する勾配に基づく手法の分析と改善のための統一的視点 Adapting Step-size: A Unified Perspective to Analyze and Improve Gradient-based Methods for Adversarial Attacks ( http://arxiv.org/abs/2301.11546v1 ) ライセンス: Link先を確認 | Wei Tao, Lei Bao, Long Sheng, Gaowei Wu, Qing Tao | (参考訳) 学習逆例は、ボックス制約で損失関数を最大化する最適化問題として定式化することができる。
しかし、この誘導最適化問題を解決するために、FGSM、I-FGSM、MI-FGSMといった最先端の勾配に基づく手法は、特に方向の更新において、元の手法とは異なるように見える。
本稿では,ステップサイズ適応の観点から,これらの勾配に基づく逆学習手法の統一的な理論的解釈を提案する。
これらのアルゴリズムのそれぞれが,現在の勾配情報のみを含むステップサイズルールを用いて,元の勾配法の具体的再構成であることを示す。
このような分析により、正規勾配法に基づく適応勾配に基づくアルゴリズムの幅広いクラスを示し、蓄積した勾配の情報を利用したステップサイズ戦略を統合する。
このような適応的なステップサイズ戦略は、経験的な操作を使うのではなく、勾配のスケールを直接正規化する。
重要な利点は、反復アルゴリズムの収束が保証され、最適化プロセス全体が安定化できることである。
実験の結果、我々のAdaI-FGMは一貫してI-FGSMより優れており、AdaMI-FGMはブラックボックス攻撃のMI-FGSMと競合していることがわかった。 Learning adversarial examples can be formulated as an optimization problem of maximizing the loss function with some box-constraints. However, for solving this induced optimization problem, the state-of-the-art gradient-based methods such as FGSM, I-FGSM and MI-FGSM look different from their original methods especially in updating the direction, which makes it difficult to understand them and then leaves some theoretical issues to be addressed in viewpoint of optimization. In this paper, from the perspective of adapting step-size, we provide a unified theoretical interpretation of these gradient-based adversarial learning methods. We show that each of these algorithms is in fact a specific reformulation of their original gradient methods but using the step-size rules with only current gradient information. Motivated by such analysis, we present a broad class of adaptive gradient-based algorithms based on the regular gradient methods, in which the step-size strategy utilizing information of the accumulated gradients is integrated. Such adaptive step-size strategies directly normalize the scale of the gradients rather than use some empirical operations. The important benefit is that convergence for the iterative algorithms is guaranteed and then the whole optimization process can be stabilized. The experiments demonstrate that our AdaI-FGM consistently outperforms I-FGSM and AdaMI-FGM remains competitive with MI-FGSM for black-box attacks. | 翻訳日:2023-01-30 16:22:34 公開日:2023-01-27 |
# 時系列予測のターゲット攻撃 Targeted Attacks on Timeseries Forecasting ( http://arxiv.org/abs/2301.11544v1 ) ライセンス: Link先を確認 | Yuvaraj Govindarajulu, Avinash Amballa, Pavan Kulkarni, and Manojkumar Parmar | (参考訳) Time Series Forecasting用に開発された現実世界のディープラーニングモデルは、医療機器からセキュリティドメインまで、いくつかの重要なアプリケーションで使用されている。
これまでの多くの研究は、ディープラーニングモデルが敵の攻撃にどう影響するかを示し、その脆弱性を調査した。
しかし、逆入力による予測のための時系列モデルの脆弱性は広く調査されていない。
予測モデルに対する攻撃は、モデルの性能を低下させようとするかもしれないが、もし攻撃がモデルの出力に特定の影響に焦点を当てているなら、より効果的である。
本稿では,時系列予測モデルにおける指向性,増幅性,時間的標的攻撃の新たな定式化を提案する。
これらの攻撃は、出力予測の振幅と方向に特定の影響を与える。
我々は、コンピュータビジョンドメインの既存の敵攻撃技術を使用し、それらを時系列に適応させる。
さらに,ターゲット攻撃に対するAuto Projected Gradient Descent攻撃の修正版を提案する。
提案する標的攻撃と非標的攻撃の効果について検討する。
我々はKS-Testsを用いて攻撃の影響を統計的に示す。
実験により,時系列モデルに対する標的攻撃が有効であり,統計的類似性の観点からもより強力であることを示す。
したがって統計的手法では検出が困難である。
この作業は、時系列予測ドメインにおける新たなパラダイムを開放し、より優れた防御を開発する上で重要な考慮事項であると考えています。 Real-world deep learning models developed for Time Series Forecasting are used in several critical applications ranging from medical devices to the security domain. Many previous works have shown how deep learning models are prone to adversarial attacks and studied their vulnerabilities. However, the vulnerabilities of time series models for forecasting due to adversarial inputs are not extensively explored. While the attack on a forecasting model might aim to deteriorate the performance of the model, it is more effective, if the attack is focused on a specific impact on the model's output. In this paper, we propose a novel formulation of Directional, Amplitudinal, and Temporal targeted adversarial attacks on time series forecasting models. These targeted attacks create a specific impact on the amplitude and direction of the output prediction. We use the existing adversarial attack techniques from the computer vision domain and adapt them for time series. Additionally, we propose a modified version of the Auto Projected Gradient Descent attack for targeted attacks. We examine the impact of the proposed targeted attacks versus untargeted attacks. We use KS-Tests to statistically demonstrate the impact of the attack. Our experimental results show how targeted attacks on time series models are viable and are more powerful in terms of statistical similarity. It is, hence difficult to detect through statistical methods. We believe that this work opens a new paradigm in the time series forecasting domain and represents an important consideration for developing better defenses. | 翻訳日:2023-01-30 16:22:07 公開日:2023-01-27 |
# 伝達学習の可能性と伝達可能性--数学的枠組み Feasibility and Transferability of Transfer Learning: A Mathematical Framework ( http://arxiv.org/abs/2301.11542v1 ) ライセンス: Link先を確認 | Haoyang Cao, Haotian Gu, Xin Guo, Mathieu Rosenbaum | (参考訳) トランスファーラーニング(Transfer Learning)は、従来の学習タスクから既存の知識を活用して、新しい学習のパフォーマンスを向上させるための、新しくて一般的なパラダイムである。
その経験的成功にもかかわらず、伝達学習の理論解析は限られている。
本稿では, 転校学習の一般的な手順のための数学的枠組みである知識を最大限に活用するために, 初めて構築する。
最適化問題としてのトランスファー学習の独特な再構成は,その実現可能性の解析を初めて可能にする。
さらに,トランスファー学習のトランスファー可能性を評価するために,トランスファーリスクという新しい概念を提案する。
Office-31データセットを用いた数値実験により,伝達リスクを考慮した伝達学習性能評価の可能性とメリットが示された。 Transfer learning is an emerging and popular paradigm for utilizing existing knowledge from previous learning tasks to improve the performance of new ones. Despite its numerous empirical successes, theoretical analysis for transfer learning is limited. In this paper we build for the first time, to the best of our knowledge, a mathematical framework for the general procedure of transfer learning. Our unique reformulation of transfer learning as an optimization problem allows for the first time, analysis of its feasibility. Additionally, we propose a novel concept of transfer risk to evaluate transferability of transfer learning. Our numerical studies using the Office-31 dataset demonstrate the potential and benefits of incorporating transfer risk in the evaluation of transfer learning performance. | 翻訳日:2023-01-30 16:21:50 公開日:2023-01-27 |
# フェアネスを考慮した多変量時系列予測のための情報表現の学習 Learning Informative Representation for Fairness-aware Multivariate Time-series Forecasting: A Group-based Perspective ( http://arxiv.org/abs/2301.11535v1 ) ライセンス: Link先を確認 | Hui He, Qi Zhang, Shoujin Wang, Kun Yi, Zhendong Niu, Longbing Cao | (参考訳) 多変量時系列(MTS)予測は我々の日常生活に浸透し利益をもたらした。
しかし、MTSの不公平な予測は、その実用的利益を損なうだけでなく、深刻なリスクをもたらす。
このような不公平なMSS予測は、利点と不利益をもたらす変数の相違に起因する可能性がある。
この問題は既存のMSS予測モデルではほとんど研究されていない。
この大きなギャップに対処するため、MTSフェアネスモデリング問題を、有利変数と不利変数の両方に対応する学習情報表現として定式化する。
そこで,フェアネスを考慮したMTS予測のためのフレームワークFairForを提案する。
FairForは、下流予測のためのグループ非関連表現と関連表現の両方を生成するための逆学習に基づいている。
fairfor はまず再帰グラフ畳み込みを採用し、k-means の目的のスペクトル緩和を利用して時空間変数相関を捉える。
そして、新しいフィルタリング・融合モジュールを用いて、グループ関連情報をフィルタリングし、直交正規化によりグループ関連表現を生成する。
グループ非関連で関連性の高い表現は、有利な変数から不利な変数への知識の共有を促進し、公平性を保証する。
4つのパブリックデータセットに関する広範囲な実験は、公正な予測と大幅なパフォーマンス向上にフェアフォの有効性を示している。 Multivariate time series (MTS) forecasting has penetrated and benefited our daily life. However, the unfair forecasting of MTSs not only degrades their practical benefit but even brings about serious potential risk. Such unfair MTS forecasting may be attributed to variable disparity leading to advantaged and disadvantaged variables. This issue has rarely been studied in the existing MTS forecasting models. To address this significant gap, we formulate the MTS fairness modeling problem as learning informative representations attending to both advantaged and disadvantaged variables. Accordingly, we propose a novel framework, named FairFor, for fairness-aware MTS forecasting. FairFor is based on adversarial learning to generate both group-irrelevant and -relevant representations for the downstream forecasting. FairFor first adopts the recurrent graph convolution to capture spatio-temporal variable correlations and to group variables by leveraging a spectral relaxation of the K-means objective. Then, it utilizes a novel filtering & fusion module to filter the group-relevant information and generate group-irrelevant representations by orthogonality regularization. The group-irrelevant and -relevant representations form highly informative representations, facilitating to share the knowledge from advantaged variables to disadvantaged variables and guarantee fairness. Extensive experiments on four public datasets demonstrate the FairFor effectiveness for fair forecasting and significant performance improvement. | 翻訳日:2023-01-30 16:21:38 公開日:2023-01-27 |
# 雑音ボソンサンプリングのための古典的シミュレーションアルゴリズムについて On classical simulation algorithms for noisy Boson Sampling ( http://arxiv.org/abs/2301.11532v1 ) ライセンス: Link先を確認 | Changhun Oh, Liang Jiang, Bill Fefferman | (参考訳) ボソンサンプリング実験の出力分布から, およそのサンプルを抽出する古典的アルゴリズムを提案する。
このアルゴリズムは、Aharonov, Gao, Landau, Liu, Vazirani の最近の結果にインスパイアされたもので、もともとはKalai と Kindler による、ガウス雑音モデルを用いたボソンサンプリング実験の出力確率は、疎低次多項式によって近似できるという観測結果を利用している。
この観測だけでは古典的サンプリングには十分ではない、なぜならその限界確率は疎弱な低次多項式で近似できないし、さらに近似された確率は負であるかもしれないからである。
そこで本研究では,最初の量子化表現を用いて,実験の限界確率を計算するアルゴリズムを提案する。
一般のノイズレートが一定であれば,入力光子数$N$と精度で準多項式の時間内をアルゴリズムが実行することを証明する。
全体のノイズレートが定数$x_1$と$\gamma=\Omega(\log N)$で1-x_1^\gamma$となると、実行時間は多項式になる。
さらに,偏微分性や光子損失などのノイズモデルを用いて,雑音のボソンサンプリングを行う。
この手法がこれらの設定に即時適用されないことを示し、特定のパラメータ構造におけるノイズモデルに対するノイズ量子優位性のスケーラブルな実証の可能性を開放する。 We present a classical algorithm that approximately samples from the output distribution of certain noisy Boson Sampling experiments. This algorithm is inspired by a recent result of Aharonov, Gao, Landau, Liu and Vazirani and makes use of an observation originally due to Kalai and Kindler that the output probability of Boson Sampling experiments with a Gaussian noise model can be approximated by sparse low-degree polynomials. This observation alone does not suffice for classical sampling, because its marginal probabilities might not be approximated by sparse low-degree polynomials, and furthermore, the approximated probabilities might be negative. We solve this problem by employing the first quantization representation to give an algorithm for computing the marginal probabilities of these experiments. We prove that when the overall noise rate is constant, the algorithm runs in time quasi-polynomial in the number of input photons $N$ and accuracy. When the overall noise rate scales as $1-x_1^\gamma$ for constant $x_1$ and $\gamma=\Omega(\log N)$, the running time becomes polynomial. Furthermore, we study noisy Boson Sampling with practically relevant noise models such as partial distinguishability and photon loss. We show that the same technique does not immediately apply in these settings, leaving open the possibility of a scalable demonstration of noisy quantum advantage for these noise models in certain parameter regimes. | 翻訳日:2023-01-30 16:21:16 公開日:2023-01-27 |
# PLay:潜時拡散を用いたパラメトリック条件付きレイアウト生成 PLay: Parametrically Conditioned Layout Generation using Latent Diffusion ( http://arxiv.org/abs/2301.11529v1 ) ライセンス: Link先を確認 | Chin-Yi Cheng, Forrest Huang, Gang Li, Yang Li | (参考訳) レイアウト設計は、ユーザインターフェース、ドキュメント、グラフィックデザインなど、さまざまなデザイン分野において重要なタスクである。
このタスクはデザイナーの面倒な手作業を必要とするため、事前の作業は生成モデルを使ってこのプロセスを自動化しようとしたが、直感的なユーザーコントロールの提供や設計目標の達成には至らなかった。
本稿では,条件付き潜在拡散モデルであるplayを構築し,ユーザが指定したガイドラインからベクトル図形空間におけるパラメトリックコンディショニングレイアウトを生成する。
提案手法は,FIDやFD-VGを含む3つのデータセット,およびユーザテストにおいて,従来よりも優れている。
さらに、プロのレイアウト設計プロセスに新しくてインタラクティブなエクスペリエンスをもたらします。 Layout design is an important task in various design fields, including user interfaces, document, and graphic design. As this task requires tedious manual effort by designers, prior works have attempted to automate this process using generative models, but commonly fell short of providing intuitive user controls and achieving design objectives. In this paper, we build a conditional latent diffusion model, PLay, that generates parametrically conditioned layouts in vector graphic space from user-specified guidelines, which are commonly used by designers for representing their design intents in current practices. Our method outperforms prior works across three datasets on metrics including FID and FD-VG, and in user test. Moreover, it brings a novel and interactive experience to professional layout design processes. | 翻訳日:2023-01-30 16:20:49 公開日:2023-01-27 |
# オンライン過激主義、急進化、政治的ヘイトスピーチを検知するRabbit Hole Down the Rabbit Hole: Detecting Online Extremism, Radicalisation, and Politicised Hate Speech ( http://arxiv.org/abs/2301.11579v1 ) ライセンス: Link先を確認 | Jarod Govers, Philip Feldman, Aaron Dant, Panos Patros | (参考訳) ソーシャルメディアは、新しいアイデアを投影し、コミュニティを動員する現代の人のデジタル音声である。
過激主義、過激化、ヘイトスピーチ(erh)検出のための不必要なコンテンツモデレーションアルゴリズムの社会的リスクを考えると、責任のあるソフトウェアエンジニアリングは、ユーザの安全と表現の自由を守るために、who、what、when、where、そしてなぜそのようなモデルが必要なのかを理解する必要がある。
そこで本研究では, ERHコンテキストマイニングのユニークな研究領域を提案し, 考察する。
具体的には、社会技術的定義構築とデータセット収集戦略から、技術的アルゴリズムの設計と性能までの設計プロセスの評価を行う。
2015-2021 51-study Systematic Literature Review (SLR) は、過激派アフィリエイト、ヘイトフルコンテンツ、グループやムーブメントに対する過激化を検出するためのテキスト、ネットワーク、視覚的アプローチを初めて横断的に分析する。
我々は合意駆動erhの定義を特定し,既存のイデオロギーや地理的バイアスに対する解決策を提案する。
自然言語処理, コミュニティ検出, および視覚テキストモデルに関するハイブリッド研究は, テキストトランスフォーマーに基づくアルゴリズムの優位性を示す。
erhコンテキストマイニング研究者にとって重要な推奨事項をまとめ,より安全なサイバースペースを実現するための研究者,産業,政府のためのガイドラインを提示する。 Social media is a modern person's digital voice to project and engage with new ideas and mobilise communities $\unicode{x2013}$ a power shared with extremists. Given the societal risks of unvetted content-moderating algorithms for Extremism, Radicalisation, and Hate speech (ERH) detection, responsible software engineering must understand the who, what, when, where, and why such models are necessary to protect user safety and free expression. Hence, we propose and examine the unique research field of ERH context mining to unify disjoint studies. Specifically, we evaluate the start-to-finish design process from socio-technical definition-building and dataset collection strategies to technical algorithm design and performance. Our 2015-2021 51-study Systematic Literature Review (SLR) provides the first cross-examination of textual, network, and visual approaches to detecting extremist affiliation, hateful content, and radicalisation towards groups and movements. We identify consensus-driven ERH definitions and propose solutions to existing ideological and geographic biases, particularly due to the lack of research in Oceania/Australasia. Our hybridised investigation on Natural Language Processing, Community Detection, and visual-text models demonstrates the dominating performance of textual transformer-based algorithms. We conclude with vital recommendations for ERH context mining researchers and propose an uptake roadmap with guidelines for researchers, industries, and governments to enable a safer cyberspace. | 翻訳日:2023-01-30 16:14:53 公開日:2023-01-27 |
# unlearnへの学習: 事前学習された分類器のインスタンス別アンラーニング Learning to Unlearn: Instance-wise Unlearning for Pre-trained Classifiers ( http://arxiv.org/abs/2301.11578v1 ) ライセンス: Link先を確認 | Sungmin Cha, Sungjun Cho, Dasol Hwang, Honglak Lee, Taesup Moon, and Moontae Lee | (参考訳) 最近のデータ保護規則(一般データ保護規則など)の出現以来、事前訓練されたモデルの機密データから学んだ情報をゼロから再訓練することなく削除する需要が高まっている。
敵の攻撃や不公平に対するニューラルネットワークの固有の脆弱性は、残りのデータに対する予測性能を維持しながら、インスタンス単位で情報を削除または修正する堅牢な方法も要求している。
この目的のために、各インスタンスを元の予測から誤分類するか、インスタンスを別のラベルに置き換えることによって、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標とする、インスタンスに関するアンラーニングを定義する。
また、残りのデータの忘れを少なくする2つの方法を提案する。
1)敵の例を利用して表現レベルでの忘れを克服し、
2)不必要な情報を伝達した罪を犯したネットワークパラメータのピンポイントに重み付けの指標を活用する。
どちらの方法も、事前トレーニングされたモデルとデータインスタンスだけを忘れることが必要であり、トレーニングセット全体が利用できない実生活設定への苦痛のないアプリケーションを可能にする。
様々な画像分類ベンチマークを広範囲に実験した結果,本手法は単一タスクと連続的学習シナリオの両方において,与えられたインスタンスを学習しながら,残りのデータに関する知識を効果的に保持することを示す。 Since the recent advent of regulations for data protection (e.g., the General Data Protection Regulation), there has been increasing demand in deleting information learned from sensitive data in pre-trained models without retraining from scratch. The inherent vulnerability of neural networks towards adversarial attacks and unfairness also calls for a robust method to remove or correct information in an instance-wise fashion, while retaining the predictive performance across remaining data. To this end, we define instance-wise unlearning, of which the goal is to delete information on a set of instances from a pre-trained model, by either misclassifying each instance away from its original prediction or relabeling the instance to a different label. We also propose two methods that reduce forgetting on the remaining data: 1) utilizing adversarial examples to overcome forgetting at the representation-level and 2) leveraging weight importance metrics to pinpoint network parameters guilty of propagating unwanted information. Both methods only require the pre-trained model and data instances to forget, allowing painless application to real-life settings where the entire training set is unavailable. Through extensive experimentation on various image classification benchmarks, we show that our approach effectively preserves knowledge of remaining data while unlearning given instances in both single-task and continual unlearning scenarios. | 翻訳日:2023-01-30 16:14:23 公開日:2023-01-27 |
# AdaBoostは学習者にとって最適な弱さではない AdaBoost is not an Optimal Weak to Strong Learner ( http://arxiv.org/abs/2301.11571v1 ) ライセンス: Link先を確認 | Mikael M{\o}ller H{\o}gsgaard, Kasper Green Larsen, Martin Ritzert | (参考訳) AdaBoostは、弱い学習者によって生成される複数の不正確な分類器を組み合わせるための古典的なブースティングアルゴリズムである。
強い学習者の与えられた精度を得るために必要な最適なサンプル数を決定することは、基本的な学習理論の問題である。
Larsen and Ritzert (NeurIPS'22)は、最近、証明可能な最適な弱い学習者を発表した。
しかし、アルゴリズムはやや複雑であり、AdaBoostがトレーニングサンプルを最適に利用しているかどうかという興味深い疑問が残る。
この研究では、この疑問に否定的に答える。
具体的には,強い学習者の所望の正確さにおいて,adaboostのサンプル複雑性とその古典的変種が少なくとも1つの対数係数で最適であることを示す。 AdaBoost is a classic boosting algorithm for combining multiple inaccurate classifiers produced by a weak learner, to produce a strong learner with arbitrarily high accuracy when given enough training data. Determining the optimal number of samples necessary to obtain a given accuracy of the strong learner, is a basic learning theoretic question. Larsen and Ritzert (NeurIPS'22) recently presented the first provably optimal weak-to-strong learner. However, their algorithm is somewhat complicated and it remains an intriguing question whether the prototypical boosting algorithm AdaBoost also makes optimal use of training samples. In this work, we answer this question in the negative. Concretely, we show that the sample complexity of AdaBoost, and other classic variations thereof, are sub-optimal by at least one logarithmic factor in the desired accuracy of the strong learner. | 翻訳日:2023-01-30 16:14:02 公開日:2023-01-27 |
# パートアフォーマンスグラウンドを用いた6-DoFきめ細かい粒度検出の学習 Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding ( http://arxiv.org/abs/2301.11564v1 ) ライセンス: Link先を確認 | Yaoxian Song, Penglei Sun, Yi Ren, Yu Zheng, Yue Zhang | (参考訳) ロボットの把持は、ロボットが環境と相互作用する基本的な能力である。
現状の手法は, 物体に安定かつ信頼性のある把握ポーズを得る方法に焦点が当てられているが, きめ細かな把握とロボットの余裕に関連する部分(形状)の把握についてはほとんど研究されていない。
部品は、リッチなセマンティック知識と余裕との強い相関を含むオブジェクトを構成する原子的要素と見なすことができる。
しかし、大きな部分的な3Dロボットデータセットがないため、部分表現学習と下流アプリケーションの開発が制限される。
本稿では,Lang-SHAPE(Lang-SHAPE)と呼ばれる,言語誘導型SHape grAsPingデータを用いた3次元分量学習手法を提案する。
本研究では,新しい3次元部分言語接地モデルとパートアウェア把持ポーズ検出モデルを含む,新しい2段階ロボット把持ネットワーク(パイオニア)を設計した。
この効果を評価するために,多レベル難易度部言語接地実験を行い,提案モデルを実ロボットに展開する。
その結果, 参照同定, 補償推定, 3次元部品認識による把握において, 良好な性能と効率が得られた。
私たちのデータセットとコードは、私たちのプロジェクトwebサイトhttps://sites.google.com/view/lang-shapeで利用可能です。 Robotic grasping is a fundamental ability for a robot to interact with the environment. Current methods focus on how to obtain a stable and reliable grasping pose in object wise, while little work has been studied on part (shape)-wise grasping which is related to fine-grained grasping and robotic affordance. Parts can be seen as atomic elements to compose an object, which contains rich semantic knowledge and a strong correlation with affordance. However, lacking a large part-wise 3D robotic dataset limits the development of part representation learning and downstream application. In this paper, we propose a new large Language-guided SHape grAsPing datasEt (named Lang-SHAPE) to learn 3D part-wise affordance and grasping ability. We design a novel two-stage fine-grained robotic grasping network (named PIONEER), including a novel 3D part language grounding model, and a part-aware grasp pose detection model. To evaluate the effectiveness, we perform multi-level difficulty part language grounding grasping experiments and deploy our proposed model on a real robot. Results show our method achieves satisfactory performance and efficiency in reference identification, affordance inference, and 3D part-aware grasping. Our dataset and code are available on our project website https://sites.google.com/view/lang-shape | 翻訳日:2023-01-30 16:13:48 公開日:2023-01-27 |
# 重み付きU統計における指数テール境界と大偏差原理 Exponential tail bounds and Large Deviation Principle for Heavy-Tailed U-Statistics ( http://arxiv.org/abs/2301.11563v1 ) ライセンス: Link先を確認 | Milad Bakhshizadeh | (参考訳) サンプルが重み付き分布を持つ場合のU統計の偏差について検討し、U統計の核が任意の正の点で指数モーメントを有さないようにする。
我々は、U-統計学の尾の指数的上界を求め、これは2つの尾崩壊の領域を明確に示し、1つはガウス崩壊、2つは核の尾のように振る舞う。
いくつかの一般的なU統計学において、上界は、U統計学の LDP を開発するために用いられる粗対数制限を得ることにより、適切な崩壊率と鋭い定数を持つことを示す。
文献における通常の LDP 結果にもかかわらず、本研究で検討するプロセスは、サンプルサイズ $n$ よりも LDP の速度が遅い。 We study deviation of U-statistics when samples have heavy-tailed distribution so the kernel of the U-statistic does not have bounded exponential moments at any positive point. We obtain an exponential upper bound for the tail of the U-statistics which clearly denotes two regions of tail decay, the first is a Gaussian decay and the second behaves like the tail of the kernel. For several common U-statistics, we also show the upper bound has the right rate of decay as well as sharp constants by obtaining rough logarithmic limits which in turn can be used to develop LDP for U-statistics. In spite of usual LDP results in the literature, processes we consider in this work have LDP speed slower than their sample size $n$. | 翻訳日:2023-01-30 16:13:23 公開日:2023-01-27 |
# 公平分類における可変性, 自己整合性, 任意性 Variance, Self-Consistency, and Arbitrariness in Fair Classification ( http://arxiv.org/abs/2301.11562v1 ) ライセンス: Link先を確認 | A. Feder Cooper, Solon Barocas, Christopher De Sa, Siddhartha Sen | (参考訳) 公平な分類では、モデルを訓練し、異なる部分群固有のエラー率を比較し、修正することが一般的である。
しかし、たとえモデルの分類決定が公平度基準を満たすとしても、これらの決定が等しく自信を持つとは限らない。
トレーニングデータのサブセットを除く学習プロセスのすべてを修正し、複数のモデルをトレーニングし、各テスト例の予測における(dis)偏差を測定し、その分類決定に関して学習プロセスがより不安定であることを意味するように不一致を解釈する。
経験的に、いくつかの決定は実際には不安定であり、事実上任意である。
この任意性を抑えるため,学習過程の自己整合性の概念を定式化し,自己整合性を良好に向上するアンサンブルアルゴリズムを開発し,その有効性を実証的に実証し,公平性と精度をよく向上させる。
さらに,本評価では, 共通フェア分類ベンチマークを適用すれば, 共通前処理, 内処理, 後処理のフェアネス介入を使わずに, サブグループ誤差率の相違を著しく低減できることを示す。
この結果から,特に小データセットにおける分散は,公正性に関する結論の信頼性を損なう可能性が示唆された。
ひとつの解決策は、より大きなベンチマークタスクを開発することです。
この目的のために、我々はHome Mortgage Disclosure Actデータセットを将来の研究に容易に利用できるようにするツールキットをリリースする。 In fair classification, it is common to train a model, and to compare and correct subgroup-specific error rates for disparities. However, even if a model's classification decisions satisfy a fairness metric, it is not necessarily the case that these decisions are equally confident. This becomes clear if we measure variance: We can fix everything in the learning process except the subset of training data, train multiple models, measure (dis)agreement in predictions for each test example, and interpret disagreement to mean that the learning process is more unstable with respect to its classification decision. Empirically, some decisions can in fact be so unstable that they are effectively arbitrary. To reduce this arbitrariness, we formalize a notion of self-consistency of a learning process, develop an ensembling algorithm that provably increases self-consistency, and empirically demonstrate its utility to often improve both fairness and accuracy. Further, our evaluation reveals a startling observation: Applying ensembling to common fair classification benchmarks can significantly reduce subgroup error rate disparities, without employing common pre-, in-, or post-processing fairness interventions. Taken together, our results indicate that variance, particularly on small datasets, can muddle the reliability of conclusions about fairness. One solution is to develop larger benchmark tasks. To this end, we release a toolkit that makes the Home Mortgage Disclosure Act datasets easily usable for future research. | 翻訳日:2023-01-30 16:13:09 公開日:2023-01-27 |
# 最寄りタスクからの投票:下流タスクのための事前訓練されたモデルのメタホートプルーニング Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for Downstream Tasks ( http://arxiv.org/abs/2301.11560v1 ) ライセンス: Link先を確認 | Haiyan Zhao, Tianyi Zhou, Guodong Long, Jing Jiang, Chengqi Zhang | (参考訳) いくつかの大規模事前訓練モデルが様々なアプリケーションの主要な選択肢となり、例えば、ダウンストリームタスク毎に同じモデルをスクラッチから切り離すのを避けるために、モデルプルーニングに新たな課題が生じるのか?
新しいタスクのプルーニングを加速するために、以前のタスクのプルーニング結果を再利用する方法?
これらの課題に対処するために、我々は同様のタスクのプランニングされたモデルから新しいタスクのための小さなモデルを作成します。
このモデルの微調整ステップは、新しいタスクに有望なprunedモデルを生成するのに十分であることを示します。
予備学習モデルである畳み込みニューラルネットワーク(convolutional neural network:cnn)と視覚トランスフォーマ(vision transformer:vit)の2つの主要クラスにおける最寄りのタスクから,この'メタ刈り込み'を限られた予算で検討した。
本研究は,類似したタスクに対するプルーニングモデルの重なりと,異なるレイヤやブロックの重なりがどう変化するかを調べることから開始する。
これらの発見に触発されて,最寄りのタスクのプルーニングモデルからサブネットワークを初期化することにより,新たなタスクのプルーニングイテレーションを大幅に削減する,単純かつ効果的な'メタボレートプルーニング(mvp)'手法を開発した。
実験では, MVPの精度, 効率, 一般化における利点を, 広範囲にわたる実証研究と, 一般的な刈り取り法との比較によって実証した。 As a few large-scale pre-trained models become the major choices of various applications, new challenges arise for model pruning, e.g., can we avoid pruning the same model from scratch for every downstream task? How to reuse the pruning results of previous tasks to accelerate the pruning for a new task? To address these challenges, we create a small model for a new task from the pruned models of similar tasks. We show that a few fine-tuning steps on this model suffice to produce a promising pruned-model for the new task. We study this ''meta-pruning'' from nearest tasks on two major classes of pre-trained models, convolutional neural network (CNN) and vision transformer (ViT), under a limited budget of pruning iterations. Our study begins by investigating the overlap of pruned models for similar tasks and how the overlap changes over different layers and blocks. Inspired by these discoveries, we develop a simple but effective ''Meta-Vote Pruning (MVP)'' method that significantly reduces the pruning iterations for a new task by initializing a sub-network from the pruned models of its nearest tasks. In experiments, we demonstrate MVP's advantages in accuracy, efficiency, and generalization through extensive empirical studies and comparisons with popular pruning methods over several datasets. | 翻訳日:2023-01-30 16:12:43 公開日:2023-01-27 |
# 不均一量子古典計画モデルにおけるマルチスレッドの実現 Enabling Multi-threading in Heterogeneous Quantum-Classical Programming Models ( http://arxiv.org/abs/2301.11559v1 ) ライセンス: Link先を確認 | Akihiro Hayashi, Austin Adams, Jeffrey Young, Alexander McCaskey, Eugene Dumitrescu, Vivek Sarkar, Thomas M. Conte | (参考訳) 本稿では,量子古典的ヘテロジニアスプラットフォームのための汎用的ヘテロジニアス並列プログラミングモデルを実現するための鍵となる制約について述べる。
我々は、qcorでユーザレベルのマルチスレッドを可能にすることの経験と、将来の量子古典システムプログラミングのために対処すべき課題について論じる。
具体的には、C++ベースの並列構造を導入して実現するための設計と実装について論じる。
1) std::thread を用いた量子カーネルの並列実行
2) std::asyncによる非同期実行。
そのために、QCORプログラミングモデルとランタイムの現在の実装の概要を説明し、どのように追加するかを議論する。
1)一部のユーザ対応apiルーチンに対するスレッドセーフ性,および
2)QCORの並列性を高めるために,マルチスレッドを阻害するデータ競合を除去し,利用可能な計算資源をより活用する。
また、128GBのRAMを持つ12の物理コア(24のハードウェアスレッド)を持つシングルノードのRyzen9 3900Xマシン上でQuantum++バックエンドの予備的なパフォーマンス結果を示す。
その結果、ベルカーネルを2つ実行し、カーネルごとに12スレッドずつ並列に実行し、24スレッド(1.63倍の改善)でカーネルを1つずつ実行した。
さらに、2つのshorのalgorthmカーネルを並列に実行する(カーネルの実行を次々に実行するよりも1.22倍速い)場合も同様の傾向を観測する。
スレッドの代わりに物理コアのみを使用する場合でも、トレンドは変わらない点に注意が必要だ。
私たちは、設計、実装、そして結果が、単に目的だけでなく機会を開くと信じています。
1) 量子回路シミュレータ上での並列・非同期性を考慮した量子古典アルゴリズムの高速プロトタイピングの実現
2) 量子古典的ヘテロジニアスプラットフォームのための汎用的ヘテロジニアス・並列プログラミングモデルの実現。 In this paper, we address some of the key limitations to realizing a generic heterogeneous parallel programming model for quantum-classical heterogeneous platforms. We discuss our experience in enabling user-level multi-threading in QCOR as well as challenges that need to be addressed for programming future quantum-classical systems. Specifically, we discuss our design and implementation of introducing C++-based parallel constructs to enable 1) parallel execution of a quantum kernel with std::thread and 2) asynchronous execution with std::async. To do so, we provide a detailed overview of the current implementation of the QCOR programming model and runtime, and discuss how we add 1) thread-safety to some of its user-facing API routines, and 2) increase parallelism in QCOR by removing data races that inhibit multi-threading so as to better utilize available computing resources. We also present preliminary performance results with the Quantum++ back end on a single-node Ryzen9 3900X machine that has 12 physical cores (24 hardware threads) with 128GB of RAM. The results show that running two Bell kernels with 12 threads per kernel in parallel outperforms running the kernels one after the other each with 24 threads (1.63x improvement). In addition, we observe the same trend when running two Shor's algorthm kernels in parallel (1.22x faster than executing the kernels one after the other). It is worth noting that the trends remain the same even when we only use physical cores instead of threads. We believe that our design, implementation, and results will open up an opportunity not only for 1) enabling quicker prototyping of parallel/asynchrony-aware quantum-classical algorithms on quantum circuit simulators in the short-term, but also for 2) realizing a generic heterogeneous parallel programming model for quantum-classical heterogeneous platforms in the long-term. | 翻訳日:2023-01-30 16:12:15 公開日:2023-01-27 |
# 分割数値手法による誘導拡散サンプリングの高速化 Accelerating Guided Diffusion Sampling with Splitting Numerical Methods ( http://arxiv.org/abs/2301.11558v1 ) ライセンス: Link先を確認 | Suttisak Wizadwongsa, Supasorn Suwajanakorn | (参考訳) 誘導拡散は、特定のタスク毎にネットワークを再トレーニングすることなく、サンプリング時に拡散モデルの出力を条件付ける手法である。
しかし拡散モデルの欠点は、その遅いサンプリングプロセスである。
最近の手法では, 微分方程式として見なす場合, 高次数値手法をサンプリングプロセスに適用することにより, 非誘導サンプリングを高速化できる。
それとは対照的に,同じ手法が誘導サンプリングに役立たず,その加速についてはほとんど研究されていない。
本稿では,この問題の原因を考察し,古典高階数値法が条件関数に不適当であることを示す鍵となる,演算子分割法に基づく解を提供する。
提案手法では,画像Net256のサンプリング時間を32~58%削減して,250ステップのDDIMベースラインと同程度の画質で画像を生成することができる。
また,テキスト・ツー・イメージ生成,カラー化,インペインティング,超解像化など,さまざまな条件生成タスクの利用例を示す。 Guided diffusion is a technique for conditioning the output of a diffusion model at sampling time without retraining the network for each specific task. One drawback of diffusion models, however, is their slow sampling process. Recent techniques can accelerate unguided sampling by applying high-order numerical methods to the sampling process when viewed as differential equations. On the contrary, we discover that the same techniques do not work for guided sampling, and little has been explored about its acceleration. This paper explores the culprit of this problem and provides a solution based on operator splitting methods, motivated by our key finding that classical high-order numerical methods are unsuitable for the conditional function. Our proposed method can re-utilize the high-order methods for guided sampling and can generate images with the same quality as a 250-step DDIM baseline using 32-58% less sampling time on ImageNet256. We also demonstrate usage on a wide variety of conditional generation tasks, such as text-to-image generation, colorization, inpainting, and super-resolution. | 翻訳日:2023-01-30 16:11:47 公開日:2023-01-27 |
# コンフォーマル推論は(ほとんど)早期停止で訓練されたニューラルネットワークに対して自由である Conformal inference is (almost) free for neural networks trained with early stopping ( http://arxiv.org/abs/2301.11556v1 ) ライセンス: Link先を確認 | Ziyi Liang, Yanfei Zhou and Matteo Sesia | (参考訳) ホールドアウトデータに基づく早期停止は、ニューラルネットワークのオーバーフィットを緩和し、予測精度を高めるために設計された一般的な正規化技術である。
早期停止で訓練されたモデルは、しばしば比較的正確な予測を提供するが、独立したホールトアウトデータを使ってさらに校正されない限り、一般的には正確な統計的保証を欠いている。
本稿では,同じホールドアウトデータを効率的に再利用しながら,早期停止とコンフォメーショナルキャリブレーションを組み合わせた新しい手法を提案する。
これは正確であり、複数のデータ分割や過度に保守的な調整なしに正確な予測推論を提供できるモデルにつながる。
実践的な実装は、外れ値検出、多クラス分類、回帰といった異なる学習タスクのために開発され、その競合性能が実データ上で実証される。 Early stopping based on hold-out data is a popular regularization technique designed to mitigate overfitting and increase the predictive accuracy of neural networks. Models trained with early stopping often provide relatively accurate predictions, but they generally still lack precise statistical guarantees unless they are further calibrated using independent hold-out data. This paper addresses the above limitation with conformalized early stopping: a novel method that combines early stopping with conformal calibration while efficiently recycling the same hold-out data. This leads to models that are both accurate and able to provide exact predictive inferences without multiple data splits nor overly conservative adjustments. Practical implementations are developed for different learning tasks -- outlier detection, multi-class classification, regression -- and their competitive performance is demonstrated on real data. | 翻訳日:2023-01-30 16:11:29 公開日:2023-01-27 |
# グラフニューラルネットワークを用いた臨床コードとテキスト埋め込みのための多視点共同学習フレームワーク A Multi-View Joint Learning Framework for Embedding Clinical Codes and Text Using Graph Neural Networks ( http://arxiv.org/abs/2301.11608v1 ) ライセンス: Link先を確認 | Lecheng Kong, Christopher King, Bradley Fritz, Yixin Chen | (参考訳) フリーテキストを表現することの学習は、多くの臨床機械学習(ML)アプリケーションにおいて中核的なタスクである。
最先端の手法は膨大な計算資源とトレーニングデータで開発された大規模言語モデルを用いるが、臨床用フリーテキストの構文や語彙が多種多様であるため、これらのモデルの適用は困難である。
国際疾病分類(icd)コードのような構造化情報は、しばしば臨床的遭遇の最も重要な事実を簡潔に抽象化し、良好なパフォーマンスをもたらすが、現実のシナリオでは臨床テキストほど利用できないことが多い。
本稿では,テキストの可利用性と前方に見える性質とicd符号の性能向上を組み合わせるために,コードとテキストから共同で学習する \textbf{multi-view learning framework} を提案する。
学習されたテキスト埋め込みは、推論中にICDコードに依存しない予測アルゴリズムの入力として使用できる。
我々のアプローチでは、ICDコードを処理するグラフニューラルネットワーク(GNN)と、テキストを処理するBi-LSTMを用いています。
本研究は,Deep Canonical correlation Analysis (DCCA) を用いて2つの視点を強制し,各患者の類似した表現を学習する。
計画された手術用テキストを用いた実験では,BERTモデルを臨床データに微調整し,MIMIC-IIIにおける多彩なテキストを用いた実験では,計算作業のごく一部で細調整されたBERTと競合する。 Learning to represent free text is a core task in many clinical machine learning (ML) applications, as clinical text contains observations and plans not otherwise available for inference. State-of-the-art methods use large language models developed with immense computational resources and training data; however, applying these models is challenging because of the highly varying syntax and vocabulary in clinical free text. Structured information such as International Classification of Disease (ICD) codes often succinctly abstracts the most important facts of a clinical encounter and yields good performance, but is often not as available as clinical text in real-world scenarios. We propose a \textbf{multi-view learning framework} that jointly learns from codes and text to combine the availability and forward-looking nature of text and better performance of ICD codes. The learned text embeddings can be used as inputs to predictive algorithms independent of the ICD codes during inference. Our approach uses a Graph Neural Network (GNN) to process ICD codes, and Bi-LSTM to process text. We apply Deep Canonical Correlation Analysis (DCCA) to enforce the two views to learn a similar representation of each patient. In experiments using planned surgical procedure text, our model outperforms BERT models fine-tuned to clinical data, and in experiments using diverse text in MIMIC-III, our model is competitive to a fine-tuned BERT at a tiny fraction of its computational effort. | 翻訳日:2023-01-30 16:05:32 公開日:2023-01-27 |
# 三段圧縮エンジンの最大出力における作業フラックスと効率 Work flux and efficiency at maximum power of a triply squeezed engine ( http://arxiv.org/abs/2301.11607v1 ) ライセンス: Link先を確認 | Manash Jyoti Sarmah and Himangshu Prabal Goswami | (参考訳) スクイーズが圧縮キャビティに結合した圧縮貯水池を有するコヒーレント熱機関の非平衡熱力学に及ぼす影響について検討する。
量子コヒーレンスに関する古典的限界を超えるフラックス最適化の標準的な既知の現象は、スクイーズの存在下で破壊される。
極端な非平衡条件下では、フラックスはスクイーズに依存しない。
キャビティのスクイーズパラメータを最適化して得られる最大電力(EMP)の効率は、貯水池スクイーズがない場合でもカーゾンとオールボーンが予測したものよりも大きい。
貯水池のスクイーズパラメータのどちらかに関して、EMPは驚くほど等しく直線的であり、$\eta_C$ は広く受け入れられている斜面 1/2 に等しくない斜面である。
傾斜角はキャビティモードへの散逸に比例し、インターセプトはエンジンの効率の特定の数値に等しい。 We explore the effects of quantum mechanical squeezing on the nonequilibrium thermodynamics of a coherent heat engine with squeezed reservoirs coupled to a squeezed cavity. We observe that the standard known phenomenon of flux-optimization beyond the classical limit with respect to quantum coherence is destroyed in presence of squeezing. Under extreme nonequilibrium conditions, the flux is rendered independent of squeezing. The efficiency at maximum power (EMP) obtained by optimizing the cavity's squeezing parameter is greater than what was predicted by Curzon and Ahlborn even in the absence of reservoir squeezing. The EMP with respect to the either of reservoirs' squeezing parameters is surprisingly equal and linear in $\eta_C$ with a slope unequal to the universally accepted slope, 1/2. The slope is found to be proportional to the dissipation into the cavity mode and an intercept equal to a specific numerical value of the engine's efficiency. | 翻訳日:2023-01-30 16:05:06 公開日:2023-01-27 |
# 動的システムモデリングのためのディープニューラルネットワークの批判的考察 A critical look at deep neural network for dynamic system modeling ( http://arxiv.org/abs/2301.11604v1 ) ライセンス: Link先を確認 | Jinming Zhou and Yucai Zhu | (参考訳) ニューラルネットワークモデルは、コントロールコミュニティにおける動的モデリングツールとしてますます普及しています。
非線形構造を含む多くの魅力的な特徴を持ち、任意の関数を近似することができる。
ほとんどの研究者はそのようなモデルに対して楽観的な態度を取るが、入力出力データを用いた動的システムのモデリングにおける(深い)ニューラルネットワークの能力に疑問を投げかける。
線形時間不変(LTI)力学系の同定には、Long Short-Term Memory(LSTM)とCascade Foward Neural Network(CFNN)の2つの代表的なニューラルネットワークモデルが、システム同定の標準的な予測誤差法(PEM)と比較される。
比較において,システム同定の4つの本質的側面を考察し,ニューラルネットワークに基づくモデリングの問題点と問題点を指摘した。
ltiシステムでは、lstmとcfnnの両方がノイズのないケースでも一貫したモデルを提供できず、ノイズの多いケースではpemよりも悪い結果をもたらす。 Neural network models become increasingly popular as dynamic modeling tools in the control community. They have many appealing features including nonlinear structures, being able to approximate any functions. While most researchers hold optimistic attitudes towards such models, this paper questions the capability of (deep) neural networks for the modeling of dynamic systems using input-output data. For the identification of linear time-invariant (LTI) dynamic systems, two representative neural network models, Long Short-Term Memory (LSTM) and Cascade Foward Neural Network (CFNN) are compared to the standard Prediction Error Method (PEM) of system identification. In the comparison, four essential aspects of system identification are considered, then several possible defects and neglected issues of neural network based modeling are pointed out. Detailed simulation studies are performed to verify these defects: for the LTI system, both LSTM and CFNN fail to deliver consistent models even in noise-free cases; and they give worse results than PEM in noisy cases. | 翻訳日:2023-01-30 16:04:54 公開日:2023-01-27 |
# ラウンドリデュースSimeck32/64の神経機能改善 Improved Differential-neural Cryptanalysis for Round-reduced Simeck32/64 ( http://arxiv.org/abs/2301.11601v1 ) ライセンス: Link先を確認 | Liu Zhang, Jinyu Lu, Zilong Wang, Chao Li | (参考訳) crypto 2019でgohr氏は、差分識別器をニューラルネットワークで構築し、speck32/64の11回、12回キーリカバリ攻撃を実現することで、差分ニューラル暗号解析を発表した。
この枠組みに触発されて,simeckのラウンド関数と互換性のあるインセプションニューラルネットワークを開発し,その精度を改善し,simeck32/64の(9-12)ラウンドニューラル識別器の精度を向上させる。
1つの特定の入力差によって引き起こされる13ラウンドsimeck32/64までの差の完全な分布を計算する。
さらに、複数の暗号文対におけるDDTに基づく区別器の性能を評価する。
DDTベースの区別器と比較して、9ラウンドと10ラウンドの神経識別器の方が精度が良い。
また、間違ったキー応答プロファイルを詳細に分析した結果、サブキーの12ビットと13ビットはニューラルディカライザーのスコアにはほとんど影響を与えず、キーリカバリ攻撃を加速させることがわかった。
最後に、Simeck32/64では、拡張された15ラウンドと最初の16ラウンドと17ラウンドの攻撃が実施され、15ラウンドと16ラウンドの攻撃の成功率は、ほぼ100%である。 In CRYPTO 2019, Gohr presented differential-neural cryptanalysis by building the differential distinguisher with a neural network, achieving practical 11-, and 12-round key recovery attack for Speck32/64. Inspired by this framework, we develop the Inception neural network that is compatible with the round function of Simeck to improve the accuracy of the neural distinguishers, thus improving the accuracy of (9-12)-round neural distinguishers for Simeck32/64. To provide solid baselines for neural distinguishers, we compute the full distribution of differences induced by one specific input difference up to 13-round Simeck32/64. Moreover, the performance of the DDT-based distinguishers in multiple ciphertext pairs is evaluated. Compared with the DDT-based distinguishers, the 9-, and 10-round neural distinguishers achieve better accuracy. Also, an in-depth analysis of the wrong key response profile revealed that the 12-th and 13-th bits of the subkey have little effect on the score of the neural distinguisher, thereby accelerating key recovery attacks. Finally, an enhanced 15-round and the first practical 16-, and 17-round attacks are implemented for Simeck32/64, and the success rate of both the 15-, and 16-round attacks is almost 100%. | 翻訳日:2023-01-30 16:04:38 公開日:2023-01-27 |
# ThoughtSource: 大規模言語モデル推論のための中心的なハブ ThoughtSource: A central hub for large language model reasoning data ( http://arxiv.org/abs/2301.11596v1 ) ライセンス: Link先を確認 | Simon Ott, Konstantin Hebenstreit, Valentin Li\'evin, Christoffer Egeberg Hother, Milad Moradi, Maximilian Mayrhauser, Robert Praas, Ole Winther, Matthias Samwald | (参考訳) GPT-3やChatGPTのような大規模言語モデル(LLM)は、最近、幅広いタスクで印象的な結果を示している。
LLMは依然として制限されているが、複雑な推論でしばしば失敗し、推論プロセスは不透明であり、事実を「幻覚させる」傾向があるため、その根底にあるバイアスには懸念がある。
モデルが推論ステップを自然言語として言語化する手法は、近年、これらの問題に対処する方法として提案されている。
ここでは、思考の連鎖(CoT)推論のためのメタデータおよびソフトウェアライブラリであるThoughtSourceの最初のリリースを紹介する。
ThoughtSourceの目標は、CoTの質的理解を促進し、経験的評価を可能にし、トレーニングデータを提供することによって、将来の人工知能システムを改善することである。
ThoughtSourceの最初のリリースでは、6つの科学的/医学的、3つの一般ドメイン、5つの数学語質問応答データセットを統合している。 Large language models (LLMs) such as GPT-3 and ChatGPT have recently demonstrated impressive results across a wide range of tasks. LLMs are still limited, however, in that they frequently fail at complex reasoning, their reasoning processes are opaque, they are prone to 'hallucinate' facts, and there are concerns about their underlying biases. Letting models verbalize reasoning steps as natural language, a technique known as chain-of-thought prompting, has recently been proposed as a way to address some of these issues. Here we present the first release of ThoughtSource, a meta-dataset and software library for chain-of-thought (CoT) reasoning. The goal of ThoughtSource is to improve future artificial intelligence systems by facilitating qualitative understanding of CoTs, enabling empirical evaluations, and providing training data. This first release of ThoughtSource integrates six scientific/medical, three general-domain and five math word question answering datasets. | 翻訳日:2023-01-30 16:04:15 公開日:2023-01-27 |
# 強化状態と逆罰による制約付き強化学習の解法 Solving Constrained Reinforcement Learning through Augmented State and Reward Penalties ( http://arxiv.org/abs/2301.11592v1 ) ライセンス: Link先を確認 | Hao Jiang and Tien Mai and Pradeep Varakantham | (参考訳) 制約付き強化学習は、期待されるコスト制約を利用することで、ポリシーに安全性の制約を課すために採用されている。
重要な課題は、単一のステップではなく、ポリシーを使って累積される期待されるコストに対処することだ。
既存の手法は、ポリシー全体に対するこのコスト制約を(各ステップで)局所的な決定に関する制約に変換する革新的な方法を開発した。
このようなアプローチは客観的な解決策を提供してきたが、コストに関して過度に攻撃的あるいは保守的である可能性がある。
これは、局所的なコスト制約の「将来の」コストや「後方」コストの見積もりを使用するためである。
そのために、拡張状態空間と報酬ペナルティを持つ制約付きRLに等価な制約のない定式化を提供する。
この直感的な定式化は一般であり、興味深い理論的性質を持つ。
さらに重要なのは、制約付きRL問題を効果的に解くための新しいパラダイムを提供することだ。
実験結果に示すように、文献から複数のベンチマーク問題に対する先行的アプローチを上回ることができる。 Constrained Reinforcement Learning has been employed to enforce safety constraints on policy through the use of expected cost constraints. The key challenge is in handling expected cost accumulated using the policy and not just in a single step. Existing methods have developed innovative ways of converting this cost constraint over entire policy to constraints over local decisions (at each time step). While such approaches have provided good solutions with regards to objective, they can either be overly aggressive or conservative with respect to costs. This is owing to use of estimates for "future" or "backward" costs in local cost constraints. To that end, we provide an equivalent unconstrained formulation to constrained RL that has an augmented state space and reward penalties. This intuitive formulation is general and has interesting theoretical properties. More importantly, this provides a new paradigm for solving constrained RL problems effectively. As we show in our experimental results, we are able to outperform leading approaches on multiple benchmark problems from literature. | 翻訳日:2023-01-30 16:04:00 公開日:2023-01-27 |
# 暗黙的意味認識コミュニケーションのための逆学習 Adversarial Learning for Implicit Semantic-Aware Communications ( http://arxiv.org/abs/2301.11589v1 ) ライセンス: Link先を確認 | Zhimin Lu, Yong Xiao, Zijian Sun, Yingyu Li, Guangming Shi, Xianfu Chen, Mehdi Bennis, H. Vincent Poor | (参考訳) セマンティックコミュニケーション(Semantic Communication)は,メッセージの意味を認識し,提供することに焦点を当てた,新たなコミュニケーションパラダイムである。
この分野の既存の作業のほとんどは、ソース信号から直接識別できる明示的なセマンティクス、ラベル、信号機能の提供に重点を置いている。
本稿では,ソース信号から認識できない隠れた関係と密接な関連を持つ意味用語を目的地ユーザにも配信する必要がある暗黙的な意味コミュニケーション問題を考える。
我々は,チャネルに送信される情報の総量を最大化する代わりに,限られた手がかり情報に基づいて暗黙のセマンティックスを自動的に生成する推論規則を受信者が学習するのを支援する,新しい逆学習ベースの暗黙のセマンティック・アウェア・コミュニケーション(iSAC)アーキテクチャを開発する。
我々は,iSACを適用することで,送信元メッセージの真の推論規則と一致する推論規則を常に学習できることを証明する。
実験の結果,提案したiSACは,宛先ユーザのシンボル誤り率の観点から,既存の非参照型通信ソリューションよりも最大19.69dB向上できることがわかった。 Semantic communication is a novel communication paradigm that focuses on recognizing and delivering the desired meaning of messages to the destination users. Most existing works in this area focus on delivering explicit semantics, labels or signal features that can be directly identified from the source signals. In this paper, we consider the implicit semantic communication problem in which hidden relations and closely related semantic terms that cannot be recognized from the source signals need to also be delivered to the destination user. We develop a novel adversarial learning-based implicit semantic-aware communication (iSAC) architecture in which the source user, instead of maximizing the total amount of information transmitted to the channel, aims to help the recipient learn an inference rule that can automatically generate implicit semantics based on limited clue information. We prove that by applying iSAC, the destination user can always learn an inference rule that matches the true inference rule of the source messages. Experimental results show that the proposed iSAC can offer up to a 19.69 dB improvement over existing non-inferential communication solutions, in terms of symbol error rate at the destination user. | 翻訳日:2023-01-30 16:03:47 公開日:2023-01-27 |
# 不確実環境下における分布ロバスト多目的ベイズ最適化 Distributionally Robust Multi-objective Bayesian Optimization under Uncertain Environments ( http://arxiv.org/abs/2301.11588v1 ) ライセンス: Link先を確認 | Yu Inatsu, Ichiro Takeuchi | (参考訳) 本研究では,不確実環境下でのマルチ出力ブラックボックス関数の最適化問題に対処する。
この問題を、設計変数と環境変数の2種類の変数を持つ多出力ベイズ代理モデルの不確実なパレートフロンティア(PF)の推定として定式化する。
本研究では, 設計変数が制御可能であり, 環境変数がランダムで制御不能であるような, 不確実な環境下でのベイズ最適化(BO)の文脈において, この問題を考察する。
この問題の課題は、環境変数の分布が未知のとき、つまり、最悪の分布から環境変数が生成されるとき、PFを確実に推定することである。
本稿では,環境変数の不確かさとその確率分布を適切に組み込んだBO問題の解法を提案する。
提案手法は,有限個の繰り返しにおいて高い確率で任意の精度のPFを求めることができることを示す。
また,提案手法の性能を数値実験により評価した。 In this study, we address the problem of optimizing multi-output black-box functions under uncertain environments. We formulate this problem as the estimation of the uncertain Pareto-frontier (PF) of a multi-output Bayesian surrogate model with two types of variables: design variables and environmental variables. We consider this problem within the context of Bayesian optimization (BO) under uncertain environments, where the design variables are controllable, whereas the environmental variables are assumed to be random and not controllable. The challenge of this problem is to robustly estimate the PF when the distribution of the environmental variables is unknown, that is, to estimate the PF when the environmental variables are generated from the worst possible distribution. We propose a method for solving the BO problem by appropriately incorporating the uncertainties of the environmental variables and their probability distribution. We demonstrate that the proposed method can find an arbitrarily accurate PF with high probability in a finite number of iterations. We also evaluate the performance of the proposed method through numerical experiments. | 翻訳日:2023-01-30 16:03:26 公開日:2023-01-27 |
# 同時スケーリングによるロバスト分散正規化リスク最小化 Robust variance-regularized risk minimization with concomitant scaling ( http://arxiv.org/abs/2301.11584v1 ) ライセンス: Link先を確認 | Matthew J. Holland | (参考訳) 重みを負う可能性のある損失の下では、損失平均と標準偏差の和を最小化し、分散を正確に推定することを考える。
分散のないロバスト平均推定手法を改良して問題設定に適合させることにより、従来の機械学習ワークフローで使用する標準勾配に基づく解法と簡単に組み合わせられる簡単な学習手順を導出する。
実験により,提案手法の単純さにもかかわらず,CVaR や DRO などの代替基準から導出される最高の性能の候補であっても,その性能は良好であることを確認した。 Under losses which are potentially heavy-tailed, we consider the task of minimizing sums of the loss mean and standard deviation, without trying to accurately estimate the variance. By modifying a technique for variance-free robust mean estimation to fit our problem setting, we derive a simple learning procedure which can be easily combined with standard gradient-based solvers to be used in traditional machine learning workflows. Empirically, we verify that our proposed approach, despite its simplicity, performs as well or better than even the best-performing candidates derived from alternative criteria such as CVaR or DRO risks on a variety of datasets. | 翻訳日:2023-01-30 16:03:10 公開日:2023-01-27 |
# a.i.のためのグリーン(er)ワールド A Green(er) World for A.I ( http://arxiv.org/abs/2301.11581v1 ) ライセンス: Link先を確認 | Dan Zhao, Nathan C. Frey, Joseph McDonald, Matthew Hubbell, David Bestor, Michael Jones, Andrew Prout, Vijay Gadepally, Siddharth Samsi | (参考訳) 人工知能(A.I.)の研究と実践が飛躍的に成長するにつれて、その活動の維持と支援に必要な資源も増加する。
A.I.のイノベーションや応用は、応用からビジョンや自然言語、医療画像や材料工学などの分野の改善まで大きな進歩をもたらしたが、そのコストは無視されるべきではない。
データの量が増え続ける世界や、aiアプリケーションの研究や開発が進むにつれて、これらの計算予算やデータストレージのニーズなどを維持するためのエネルギーの足跡がますます高まることは確実です。
しかし、これは持続可能であり、さらに重要なことは、研究と実践の両方において、そのような持続可能なAIを育むのに最適な設定なのか?
本稿では, グリーンA.I.の今後の動向について概説する。グリーンA.I.は, 研究, コンピューティング, 実践者コミュニティにまたがって, より持続可能な, エネルギー効率, エネルギーに配慮したエコシステムであり, 到達に必要なステップである。
我々は,AIによるデータセンタ/HPCの運用およびハードウェア最適化のフロアから,AI研究や実践の世界における現在のインセンティブ構造に至るまで,潜在的な変化と改善のためのさまざまな領域の鳥眼図を提示する。
これらの点が、これらの問題とその潜在的な解決策について、さらなる議論と行動を引き起こすことを期待しています。 As research and practice in artificial intelligence (A.I.) grow in leaps and bounds, the resources necessary to sustain and support their operations also grow at an increasing pace. While innovations and applications from A.I. have brought significant advances, from applications to vision and natural language to improvements to fields like medical imaging and materials engineering, their costs should not be neglected. As we embrace a world with ever-increasing amounts of data as well as research and development of A.I. applications, we are sure to face an ever-mounting energy footprint to sustain these computational budgets, data storage needs, and more. But, is this sustainable and, more importantly, what kind of setting is best positioned to nurture such sustainable A.I. in both research and practice? In this paper, we outline our outlook for Green A.I. -- a more sustainable, energy-efficient and energy-aware ecosystem for developing A.I. across the research, computing, and practitioner communities alike -- and the steps required to arrive there. We present a bird's eye view of various areas for potential changes and improvements from the ground floor of AI's operational and hardware optimizations for datacenters/HPCs to the current incentive structures in the world of A.I. research and practice, and more. We hope these points will spur further discussion, and action, on some of these issues and their potential solutions. | 翻訳日:2023-01-30 16:02:58 公開日:2023-01-27 |
# 半教師付き機械学習:ホモロジー的アプローチ Semi-Supervised Machine Learning: a Homological Approach ( http://arxiv.org/abs/2301.11658v1 ) ライセンス: Link先を確認 | Adri\'an In\'es, C\'esar Dom\'inguez, J\'onathan Heras, Gadea Mata and Julio Rubio | (参考訳) 本稿では,半教師付き機械学習の新しいアプローチの数学的基礎について述べる。
記号計算と計算機代数の手法を用いて, 持続ホモロジーの概念を適用し, 新しい半教師付き学習法を得る。 In this paper we describe the mathematical foundations of a new approach to semi-supervised Machine Learning. Using techniques of Symbolic Computation and Computer Algebra, we apply the concept of persistent homology to obtain a new semi-supervised learning method. | 翻訳日:2023-01-30 15:55:40 公開日:2023-01-27 |
# 集合類似性行列を用いた多層ハイパーグラフクラスタリング Multilayer hypergraph clustering using the aggregate similarity matrix ( http://arxiv.org/abs/2301.11657v1 ) ライセンス: Link先を確認 | Kalle Alaluusua, Konstantin Avrachenkov, B. R. Vinay Kumar, Lasse Leskel\"a | (参考訳) 我々は,ハイパーグラフ確率ブロックモデル (HSBM) の多層版におけるコミュニティ回復問題を考察する。
各層は、N頂点上のd-ユニフォームHSBMの独立実現と関連している。
類似行列を用いて表される各頂点の組に付随する超辺の集合数を考えると、N頂点の非連結群への分割を得ることが目的である。
本研究では,半定値プログラミング (sdp) の手法を調査し,モデルパラメータに関する情報理論的条件を得ることにより,アソートケースとディスソートケースの両方において,厳密なリカバリを保証する。 We consider the community recovery problem on a multilayer variant of the hypergraph stochastic block model (HSBM). Each layer is associated with an independent realization of a d-uniform HSBM on N vertices. Given the aggregated number of hyperedges incident to each pair of vertices, represented using a similarity matrix, the goal is to obtain a partition of the N vertices into disjoint communities. In this work, we investigate a semidefinite programming (SDP) approach and obtain information-theoretic conditions on the model parameters that guarantee exact recovery both in the assortative and the disassortative cases. | 翻訳日:2023-01-30 15:55:36 公開日:2023-01-27 |
# 海上uavの高速利息領域の提案 Fast Region of Interest Proposals on Maritime UAVs ( http://arxiv.org/abs/2301.11650v1 ) ライセンス: Link先を確認 | Benjamin Kiefer, Andreas Zell | (参考訳) 無人航空機は、大規模な捜索エリアを飛行して、物体や人々を自律的に捜索することで、海難救助任務を支援する。
興味のあるオブジェクトを確実に検出するには、組み込みハードウェアに高速モデルを採用する必要がある。
また、地上局までの距離が大きくなると、映像データの一部のみを伝送することができる。
本研究では,組込みGPU上のビデオストリームにおいて,有意義な関心領域を求める問題について考察する。
現在の物体や異常検出器は速度が遅いため、特に限られたハードウェアや大規模な画像解像度では不適当である。
最後に、残骸の破片のような興味のある物体は、しばしば優先事項として知られていない。
そこで本研究では,組込みGPU上でリアルタイムに動作するエンドツーエンドのフレーム予測モデルを提案する。
大規模海洋データセットの性能を解析し、従来の手法や現代的な手法よりも利点を実証する。 Unmanned aerial vehicles assist in maritime search and rescue missions by flying over large search areas to autonomously search for objects or people. Reliably detecting objects of interest requires fast models to employ on embedded hardware. Moreover, with increasing distance to the ground station only part of the video data can be transmitted. In this work, we consider the problem of finding meaningful region of interest proposals in a video stream on an embedded GPU. Current object or anomaly detectors are not suitable due to their slow speed, especially on limited hardware and for large image resolutions. Lastly, objects of interest, such as pieces of wreckage, are often not known a priori. Therefore, we propose an end-to-end future frame prediction model running in real-time on embedded GPUs to generate region proposals. We analyze its performance on large-scale maritime data sets and demonstrate its benefits over traditional and modern methods. | 翻訳日:2023-01-30 15:55:25 公開日:2023-01-27 |
# スパース観測された相互作用系のダイナミクスの学習 Learning the Dynamics of Sparsely Observed Interacting Systems ( http://arxiv.org/abs/2301.11647v1 ) ライセンス: Link先を確認 | Linus Bleistein, Adeline Fermanian, Anne-Sophie Jannot, Agathe Guilloux | (参考訳) ターゲットと特徴時系列をリンクする未知の非パラメトリックシステムのダイナミクスを学習する問題に対処する。
特徴時系列は、ばらばらで不規則なグリッド上で測定されますが、対象の時系列のほんの数ポイントしかアクセスできません。
学んだら、これらのダイナミクスを使って、特徴時系列の以前の値からターゲットの値を予測できます。
このタスクは、制御微分方程式(CDE)の解写像を学習するものである。
符号のリッチ理論を活用することで、この非線形問題を高次元線形回帰として考えることができる。
個人固有のサンプリングスキームへの明示的な依存を示す予測誤差に縛られたオラクルを提供する。
シミュレーションにより,本手法は計算量的に安価でありながら全時系列を復元する既存のアルゴリズムよりも優れていることを示した。
結論として,実世界の疫学データにその可能性を示す。 We address the problem of learning the dynamics of an unknown non-parametric system linking a target and a feature time series. The feature time series is measured on a sparse and irregular grid, while we have access to only a few points of the target time series. Once learned, we can use these dynamics to predict values of the target from the previous values of the feature time series. We frame this task as learning the solution map of a controlled differential equation (CDE). By leveraging the rich theory of signatures, we are able to cast this non-linear problem as a high-dimensional linear regression. We provide an oracle bound on the prediction error which exhibits explicit dependencies on the individual-specific sampling schemes. Our theoretical results are illustrated by simulations which show that our method outperforms existing algorithms for recovering the full time series while being computationally cheap. We conclude by demonstrating its potential on real-world epidemiological data. | 翻訳日:2023-01-30 15:55:11 公開日:2023-01-27 |
# HyperNeRFGAN:3D NeRF GANへのハイパーネットワークアプローチ HyperNeRFGAN: Hypernetwork approach to 3D NeRF GAN ( http://arxiv.org/abs/2301.11631v1 ) ライセンス: Link先を確認 | Adam Kania, Artur Kasymov, Maciej Zi\k{e}ba, Przemys{\l}aw Spurek | (参考訳) 近年、vrや拡張現実アプリケーションで3dオブジェクトの生成モデルが人気を集めている。
voxelsやpoint cloudsといった標準的な3d表現を使ったトレーニングは困難であり、適切なカラーレンダリングには複雑なツールが必要である。
この限界を克服するために、neural radiance fields(nerfs)は、2d画像の小さなサブセットから複雑な3dシーンの新しいビューを合成する最先端の品質を提供する。
本稿では,ハイパーネットワークのパラダイムを用いてNeRFで表現された3次元オブジェクトを生成するHyperNeRFGANという生成モデルを提案する。
我々のGANアーキテクチャはハイパーネットワークのパラダイムを利用してガウスノイズをNeRFモデルの重みに転送する。
モデルはさらに2Dノベルビューのレンダリングに使われ、古典的な2D識別器がGANベースの構造全体のトレーニングに使用される。
アーキテクチャは2D画像を生成するが、3D対応のNeRF表現を用いてモデルに正しい3Dオブジェクトを生成する。
既存のアプローチよりもモデルの利点は、レンダリングコンポーネントのグローバルパラメータを共有することなく、オブジェクト専用のNeRF表現を生成することである。
各種ドメインからの3つの挑戦的データセットに対する基準ベースラインと比較して,本手法の優位性を示す。 Recently, generative models for 3D objects are gaining much popularity in VR and augmented reality applications. Training such models using standard 3D representations, like voxels or point clouds, is challenging and requires complex tools for proper color rendering. In order to overcome this limitation, Neural Radiance Fields (NeRFs) offer a state-of-the-art quality in synthesizing novel views of complex 3D scenes from a small subset of 2D images. In the paper, we propose a generative model called HyperNeRFGAN, which uses hypernetworks paradigm to produce 3D objects represented by NeRF. Our GAN architecture leverages a hypernetwork paradigm to transfer gaussian noise into weights of NeRF model. The model is further used to render 2D novel views, and a classical 2D discriminator is utilized for training the entire GAN-based structure. Our architecture produces 2D images, but we use 3D-aware NeRF representation, which forces the model to produce correct 3D objects. The advantage of the model over existing approaches is that it produces a dedicated NeRF representation for the object without sharing some global parameters of the rendering component. We show the superiority of our approach compared to reference baselines on three challenging datasets from various domains. | 翻訳日:2023-01-30 15:54:56 公開日:2023-01-27 |
# オーバーラップ型周波数選択モデルを用いた点雲の連成形状と属性アップサンプリング Joint Geometry and Attribute Upsampling of Point Clouds Using Frequency-Selective Models with Overlapped Support ( http://arxiv.org/abs/2301.11630v1 ) ライセンス: Link先を確認 | Viktoria Heimann and Andreas Spruck and Andr\'e Kaup | (参考訳) ar/vrアプリケーションのための3次元の環境キャプチャや、自動運転などの需要が高まる中、高解像度ポイントクラウドの重要性は高まっている。
キャプチャプロセスは複雑なタスクであるため、ポイントクラウドのアップサンプリングが望まれることが多い。
本稿では,点雲の幾何情報と属性情報を,重なり合う支持領域と連続的に連続的にサンプリングするアップサンプリング方式である周波数選択型アップサンプリング(fsu)を提案する。
ポイントクラウドは、最初に重複するサポート領域を持つブロックに分割される。
そして、局所的に点雲の表面を推定する連続周波数モデルを生成する。
モデルはアップサンプリングのために新しい位置でサンプリングされる。
その後のステップでは、属性信号をモデル化する別の周波数モデルが作成される。
ここで、幾何アップサンプリングからの知識は、2次元の点の簡易な射影に利用される。
属性モデルは、アップサンプリングされた幾何学的位置に対して評価される。
本研究では,形状と属性アップサンプリングを独立に評価し,共同結果を示す。
その結果, 平面間誤差と平面間角類似性の観点から, 提案するfsuの最適性能を示すことができた。
さらに、FSUは他の色アップサンプリング方式をPSNRで1.9dBで上回る。
さらに、点雲の視覚的外観は、FSUによって明らかに増加する。 With the increasing demand of capturing our environment in three-dimensions for AR/ VR applications and autonomous driving among others, the importance of high-resolution point clouds rises. As the capturing process is a complex task, point cloud upsampling is often desired. We propose Frequency-Selective Upsampling (FSU), an upsampling scheme that upsamples geometry and attribute information of point clouds jointly in a sequential manner with overlapped support areas. The point cloud is partitioned into blocks with overlapping support area first. Then, a continuous frequency model is generated that estimates the point cloud's surface locally. The model is sampled at new positions for upsampling. In a subsequent step, another frequency model is created that models the attribute signal. Here, knowledge from the geometry upsampling is exploited for a simplified projection of the points in two dimensions. The attribute model is evaluated for the upsampled geometry positions. In our extensive evaluation, we evaluate geometry and attribute upsampling independently and show joint results. The geometry results show best performances for our proposed FSU in terms of point-to-plane error and plane-to-plane angular similarity. Moreover, FSU outperforms other color upsampling schemes by 1.9 dB in terms of color PSNR. In addition, the visual appearance of the point clouds clearly increases with FSU. | 翻訳日:2023-01-30 15:54:35 公開日:2023-01-27 |
# 点状欠陥の存在下での重中間子の量子情報エントロピー Quantum information entropy of heavy mesons in the presence of a point-like defect ( http://arxiv.org/abs/2301.11627v1 ) ライセンス: Link先を確認 | C. A. S. Almeida, C. O. Edet, F. C. E. Lima, N. Ali, and M. Asjad | (参考訳) Schr\"{o}dinger's formalism を用いて、重中間子の量子固有状態は点のような欠陥とコーネルポテンシャルによって捕捉される。
これに結合した球面計量プロファイルを考えると、この欠陥をモデルに実装する。
さらに、ニキフォロフ-ウバロフ法を理論に適用し、重い中間子の量子固有状態を研究する。
量子情報エントロピー(QIE)を計算するために、チャーモニウム状態とボトムニウム状態を記述する波動関数を考える。
QIEを探索するために、位置と相互空間で定式化されたよく知られたシャノンのエントロピーを用いる。
QIEの分析により、量子情報がどのように変化し、点のような欠陥が変化するかが分かる。
その結果,Bialynicki-Birula と Mycielski (BBM) の関係を考慮すると,この欠陥がクォーコニウムの位置や運動量不確実性にどのように影響するかを示す。 Using Schr\"{o}dinger's formalism, we investigate the quantum eigenstates of the heavy mesons trapped by a point-like defect and by Cornell's potential. One implements this defect to the model considering a spherical metric profile coupled to it. Furthermore, the Nikiforov-Uvarov method is applied to theory to study the quantum eigenstates of the heavy mesons. To calculate the quantum information entropy (QIE), one considers the wave functions that describe the charmonium and bottomonium states. To explore the QIE, we use the well-known Shannon's entropy formulated at the position and reciprocal space. The analysis of the QIE gives us relevant information about how the quantum information change with the variation of the point-like defect. Consequently, considering the Bialynicki-Birula and Mycielski (BBM) relation, we show how this defect influences the quarkonium position and momentum uncertainty measures. | 翻訳日:2023-01-30 15:54:21 公開日:2023-01-27 |
# Rieszカーネルを用いた最大平均誤差に対するニューラルワッサースタイン勾配流 Neural Wasserstein Gradient Flows for Maximum Mean Discrepancies with Riesz Kernels ( http://arxiv.org/abs/2301.11624v1 ) ライセンス: Link先を確認 | Fabian Altekr\"uger, Johannes Hertrich, Gabriele Steidl | (参考訳) 非スムースリース核を持つ最大平均差(mmd)汎函数のワッサーシュタイン勾配流は、特異測度が絶対連続となることができるのでリッチな構造を示す。
本稿では,このような流れの理解に寄与する。
本稿では、ワーサースタイン勾配流の計算と、ニューラルネットワーク(NN)によるワーサースタイン急降下流のフォワードスキームについて、ヨルダン、キンダーラー、オットーの逆向きスキームを近似することを提案する。
絶対連続的な測度に制限できないため、通常の輸送地図や速度場ではなく、輸送計画や速度計画に対処する必要がある。
実際、我々は、適切な損失関数に関して学習される生成nnによる両方の計画の崩壊を近似する。
両方のニューラルスキームの品質を評価するために、相互作用エネルギーに基づいてそれらをベンチマークする。
ここでは、ディラック測度から始まるwassersteinスキームの解析公式を提供し、時間ステップサイズがゼロになるにつれてそれらの収束を示す。
最後に,神経mmdの流れを数値的な例で示す。 Wasserstein gradient flows of maximum mean discrepancy (MMD) functionals with non-smooth Riesz kernels show a rich structure as singular measures can become absolutely continuous ones and conversely. In this paper we contribute to the understanding of such flows. We propose to approximate the backward scheme of Jordan, Kinderlehrer and Otto for computing such Wasserstein gradient flows as well as a forward scheme for so-called Wasserstein steepest descent flows by neural networks (NNs). Since we cannot restrict ourselves to absolutely continuous measures, we have to deal with transport plans and velocity plans instead of usual transport maps and velocity fields. Indeed, we approximate the disintegration of both plans by generative NNs which are learned with respect to appropriate loss functions. In order to evaluate the quality of both neural schemes, we benchmark them on the interaction energy. Here we provide analytic formulas for Wasserstein schemes starting at a Dirac measure and show their convergence as the time step size tends to zero. Finally, we illustrate our neural MMD flows by numerical examples. | 翻訳日:2023-01-30 15:54:00 公開日:2023-01-27 |
# エネルギー依存ポテンシャルと位置依存質量をもつダンケル・スクリディンガー方程式のdarboux変換 Darboux transformations for Dunkl-Scriedinger equations with energy dependent potential and position dependent mass ( http://arxiv.org/abs/2301.11622v1 ) ライセンス: Link先を確認 | Axel Schulze-Halberg and Pinaki Roy | (参考訳) 我々は、エネルギー依存ポテンシャルとダンケル形式における位置依存質量を持つシュレーディンガー方程式の任意の次darboux変換を構築する。
我々の構成は、標準的なシュローディンガーの場合と方程式を関連付ける点変換に基づいている。
本手法を用いて, 可溶性ダンクルシュレーディンガー方程式を生成する。 We construct arbitrary-order Darboux transformations for Schroedinger equations with energy-dependent potential and position-dependent mass within the Dunkl formalism. Our construction is based on a point transformation that interrelates our equations with the standard Schrodinger case. We apply our method to generate several solvable Dunkl-Schroedinger equations. | 翻訳日:2023-01-30 15:53:41 公開日:2023-01-27 |
# イベント引数相関を用いた事象因果関係抽出 Event Causality Extraction with Event Argument Correlations ( http://arxiv.org/abs/2301.11621v1 ) ライセンス: Link先を確認 | Shiyao Cui, Jiawei Sheng, Xin Cong, QuanGang Li, Tingwen Liu, Jinqiao Shi | (参考訳) 事象因果同定(ECI: Event Causality Identification)は、与えられた2つのテキストイベントの間に因果関係が存在するかどうかを検知することを目的としている。
しかし、ECIタスクは、重要なイベント構造と原因影響因果関係のコンポーネント情報を無視し、下流アプリケーションに苦労する。
本稿では,イベント因果抽出(ECE)と呼ばれる新しい課題について検討し,その原因と原因の因果関係を,平文から構造化されたイベント情報から抽出することを目的とする。
ECEタスクは、各イベントが複数のイベント引数を含むことができるため、より難しい。
そこで本稿では,ECE の時間内および時間内引数相関を捉えるために,デュアルグリッドタギング方式を提案する。
さらに,デュアルグリッドタグ方式を実現するために,イベント型拡張モデルアーキテクチャを提案する。
実験により本手法の有効性を実証し,ECEの今後の方向性を概説した。 Event Causality Identification (ECI), which aims to detect whether a causality relation exists between two given textual events, is an important task for event causality understanding. However, the ECI task ignores crucial event structure and cause-effect causality component information, making it struggle for downstream applications. In this paper, we explore a novel task, namely Event Causality Extraction (ECE), aiming to extract the cause-effect event causality pairs with their structured event information from plain texts. The ECE task is more challenging since each event can contain multiple event arguments, posing fine-grained correlations between events to decide the causeeffect event pair. Hence, we propose a method with a dual grid tagging scheme to capture the intra- and inter-event argument correlations for ECE. Further, we devise a event type-enhanced model architecture to realize the dual grid tagging scheme. Experiments demonstrate the effectiveness of our method, and extensive analyses point out several future directions for ECE. | 翻訳日:2023-01-30 15:53:37 公開日:2023-01-27 |
# 時空間意味理解を用いた大規模トラヒックデータインプテーション Large-Scale Traffic Data Imputation with Spatiotemporal Semantic Understanding ( http://arxiv.org/abs/2301.11691v1 ) ライセンス: Link先を確認 | Kunpeng Zhang, Lan Wu, Liang Zheng, Na Xie, Zhengbing He | (参考訳) 大規模データ不足は、インテリジェントトランスポーテーションシステム(ITS)において難しい問題である。
ネットワークレベルでの時空間相関を考慮し,大規模トラヒックデータを示唆する研究が数多く行われている。
しかし、既存の交通データインプテーションでは、ネットワーク全体の時空間相関を捉える際に、道路網の豊富な意味情報が無視されている。
本研究では,道路網の時空間的意味理解を伴う大規模交通データをインプットするGT-TDI(Graph Transformer for Traffic Data Imputation)モデルを提案する。
具体的には、GT-TDIモデルがネットワークレベルで時空間相関を捉えるのに役立つように、トラフィックデータの空間的および時間的情報からなる意味記述を導入する。
提案モデルは、グラフニューラルネットワーク(GNN)とトランスフォーマーの助けを借りて、不完全データ、センサのソーシャル接続、意味記述を入力として、命令処理を行う。
PeMSフリーウェイデータセットでは,提案したGT-TDIモデルと従来の手法,テンソル分解法,深層学習に基づく手法との比較を行う。
その結果,提案したGT-TDIは,複雑な欠落パターンと多様な欠落率で既存手法よりも優れていた。
GT-TDIモデルのコードはhttps://github.com/KP-Zhang/GT-TDIで入手できる。 Large-scale data missing is a challenging problem in Intelligent Transportation Systems (ITS). Many studies have been carried out to impute large-scale traffic data by considering their spatiotemporal correlations at a network level. In existing traffic data imputations, however, rich semantic information of a road network has been largely ignored when capturing network-wide spatiotemporal correlations. This study proposes a Graph Transformer for Traffic Data Imputation (GT-TDI) model to impute large-scale traffic data with spatiotemporal semantic understanding of a road network. Specifically, the proposed model introduces semantic descriptions consisting of network-wide spatial and temporal information of traffic data to help the GT-TDI model capture spatiotemporal correlations at a network level. The proposed model takes incomplete data, the social connectivity of sensors, and semantic descriptions as input to perform imputation tasks with the help of Graph Neural Networks (GNN) and Transformer. On the PeMS freeway dataset, extensive experiments are conducted to compare the proposed GT-TDI model with conventional methods, tensor factorization methods, and deep learning-based methods. The results show that the proposed GT-TDI outperforms existing methods in complex missing patterns and diverse missing rates. The code of the GT-TDI model will be available at https://github.com/KP-Zhang/GT-TDI. | 翻訳日:2023-01-30 15:47:25 公開日:2023-01-27 |
# BERT NLUの微調整・知識蒸留の精度向上にプローブが有効か? Can We Use Probing to Better Understand Fine-tuning and Knowledge Distillation of the BERT NLU? ( http://arxiv.org/abs/2301.11688v1 ) ライセンス: Link先を確認 | Jakub Ho\'sci{\l}owicz, Marcin Sowa\'nski, Piotr Czubowski, Artur Janicki | (参考訳) 本稿では,BERTをベースとした自然言語理解モデル(NLU)の微調整および知識蒸留時に発生する現象の探索を行う。
我々の最終的な目的は、実用的な生産問題をよりよく理解し、より良いNLUモデルを構築することであった。
我々は、微細チューニングがBERTの言語能力をどのように変化させるか、微調整データセットの最適なサイズと、小さなトランスフォーマーに基づいて蒸留したNLUに含まれる情報の量を測定する実験を設計した。
実験の結果、現在の形式の探索パラダイムはそのような疑問に答えるには適していないことが示された。
構造的、エッジ的、条件的プローブは、調査された情報の復号化がいかに容易かを考慮していない。
その結果,情報デコダラビリティの定量化は探索パラダイムの多くの実用的応用に不可欠であることがわかった。 In this article, we use probing to investigate phenomena that occur during fine-tuning and knowledge distillation of a BERT-based natural language understanding (NLU) model. Our ultimate purpose was to use probing to better understand practical production problems and consequently to build better NLU models. We designed experiments to see how fine-tuning changes the linguistic capabilities of BERT, what the optimal size of the fine-tuning dataset is, and what amount of information is contained in a distilled NLU based on a tiny Transformer. The results of the experiments show that the probing paradigm in its current form is not well suited to answer such questions. Structural, Edge and Conditional probes do not take into account how easy it is to decode probed information. Consequently, we conclude that quantification of information decodability is critical for many practical applications of the probing paradigm. | 翻訳日:2023-01-30 15:47:03 公開日:2023-01-27 |
# 補足データセットを用いたオフライン模倣の理論解析 Theoretical Analysis of Offline Imitation With Supplementary Dataset ( http://arxiv.org/abs/2301.11687v1 ) ライセンス: Link先を確認 | Ziniu Li, Tian Xu, Yang Yu, Zhi-Quan Luo | (参考訳) 行動クローニング(bc)は、豊富な専門家データから良好なポリシーを回復するが、専門家データが不十分な場合には失敗する。
本稿では,少量のエキスパートデータに加えて,副最適化ポリシーから安価に収集可能な補足データセットが利用可能である状況について考察する。
補足的データセットによる模倣学習は、創発的な実践的枠組みであるが、その理論的基礎は未開発のままである。
理解を深めるために、まず、すべての利用可能なデータの結合から学習する NBCU と呼ばれる BC の直接拡張について調べる。
我々の分析によると、NBCUは、最悪の場合、BCよりも大きい模倣のギャップを被っているが、BCより優れているか、等しく優れている特別なケースが存在する。
この発見は、ノイズデータも精巧に利用すれば役に立つことを示唆している。
そこで我々はさらに,WBCU法を提唱し,補助データを再重み付けするための判別器に基づく重要サンプリング手法を提案する。
新たに開発されたランドスケープに基づく解析により,WBCUがBCより穏やかな条件で性能を向上できることが証明された。
実証研究により、WBCUは従来の最先端手法が失敗する2つの課題において、同時に最高の性能を達成していることが示された。 Behavioral cloning (BC) can recover a good policy from abundant expert data, but may fail when expert data is insufficient. This paper considers a situation where, besides the small amount of expert data, a supplementary dataset is available, which can be collected cheaply from sub-optimal policies. Imitation learning with a supplementary dataset is an emergent practical framework, but its theoretical foundation remains under-developed. To advance understanding, we first investigate a direct extension of BC, called NBCU, that learns from the union of all available data. Our analysis shows that, although NBCU suffers an imitation gap that is larger than BC in the worst case, there exist special cases where NBCU performs better than or equally well as BC. This discovery implies that noisy data can also be helpful if utilized elaborately. Therefore, we further introduce a discriminator-based importance sampling technique to re-weight the supplementary data, proposing the WBCU method. With our newly developed landscape-based analysis, we prove that WBCU can outperform BC in mild conditions. Empirical studies show that WBCU simultaneously achieves the best performance on two challenging tasks where prior state-of-the-art methods fail. | 翻訳日:2023-01-30 15:46:47 公開日:2023-01-27 |
# 神経抽象化 Neural Abstractions ( http://arxiv.org/abs/2301.11683v1 ) ライセンス: Link先を確認 | Alessandro Abate, Alec Edwards, Mirco Giacobbe | (参考訳) 本稿では,ニューラルネットワークを用いた非線形力学モデルの安全性検証手法を提案する。
ニューラルネットワークは従来,近似器として広く用いられてきた。この研究では,さらに一歩進めて,初めて抽象化として使用する。
与えられた力学モデルに対して,本手法は,近似誤差に対して任意にタイトかつ正式に認定された境界を保証することによって,そのダイナミクスを近似するニューラルネットワークを合成する。
本研究では,逆例誘導型誘導合成法を用いる。
解析対象の具体的なモデルの形式的抽象化を構成する非決定論的乱れを持つニューラルODEが生成されることを示す。
これは基本的な特性を保証する: 抽象モデルが安全である、すなわち、望ましくない状態に達する初期化軌道から解放された場合、具体的なモデルもまた安全である。
reluアクティベーション関数を持つニューラルodeを抽象化として使用することにより,非線形力学モデルの安全性検証問題をアフィンダイナミクスを用いたハイブリッドオートマトンにキャストし,spaceexを用いて検証した。
提案手法は,既存のベンチマーク非線形モデルにおいて,成熟度の高いFlow*と同等に動作することを示す。
さらに,既存の技術には届かない局所的なリプシッツ連続性を発現しないモデルに対して有効であることを示す。 We present a novel method for the safety verification of nonlinear dynamical models that uses neural networks to represent abstractions of their dynamics. Neural networks have extensively been used before as approximators; in this work, we make a step further and use them for the first time as abstractions. For a given dynamical model, our method synthesises a neural network that overapproximates its dynamics by ensuring an arbitrarily tight, formally certified bound on the approximation error. For this purpose, we employ a counterexample-guided inductive synthesis procedure. We show that this produces a neural ODE with non-deterministic disturbances that constitutes a formal abstraction of the concrete model under analysis. This guarantees a fundamental property: if the abstract model is safe, i.e., free from any initialised trajectory that reaches an undesirable state, then the concrete model is also safe. By using neural ODEs with ReLU activation functions as abstractions, we cast the safety verification problem for nonlinear dynamical models into that of hybrid automata with affine dynamics, which we verify using SpaceEx. We demonstrate that our approach performs comparably to the mature tool Flow* on existing benchmark nonlinear models. We additionally demonstrate and that it is effective on models that do not exhibit local Lipschitz continuity, which are out of reach to the existing technologies. | 翻訳日:2023-01-30 15:46:26 公開日:2023-01-27 |
# 顧客と製品からの履歴レビューを別々にモデル化したパーソナライズされたレビュー要約に向けて Towards Personalized Review Summarization by Modeling Historical Reviews from Customer and Product Separately ( http://arxiv.org/abs/2301.11682v1 ) ライセンス: Link先を確認 | Xin Cheng, Shen Gao, Yuchi Zhang, Yongliang Wang, Xiuying Chen, Mingzhe Li, Dongyan Zhao and Rui Yan | (参考訳) レビュー要約(review summarization)は、製品レビューの主要なアイデアをeコマースウェブサイトで要約することを目的とした、非自明なタスクである。
文書に記載された主な事実にのみ注目する必要がある文書要約とは異なり、レビュー要約は、レビューで言及された主な側面を要約するだけでなく、レビュー著者の個人的なスタイルを反映するべきである。
既存のレビュー要約手法は、顧客と製品の両方の歴史的レビューを取り入れているが、それらは通常、この2つの異種情報を連結的かつ非差別的に長いシーケンスにモデル化する。
さらに、評価情報は顧客の好みを高度に抽象化することも可能であり、ほとんどの方法では使われていない。
本稿では,比較損失のあるグラフ推論モジュールを用いて,2種類の歴史的レビューと評価情報とを別々にモデル化する,異種歴史レビューを意識した要約モデル(hhrrs)を提案する。
レビュー感情分類と要約を共同で行うマルチタスクフレームワークを採用している。
4つのベンチマークデータセットに対する大規模な実験は、両方のタスクにおけるHRRSの優位性を示している。 Review summarization is a non-trivial task that aims to summarize the main idea of the product review in the E-commerce website. Different from the document summary which only needs to focus on the main facts described in the document, review summarization should not only summarize the main aspects mentioned in the review but also reflect the personal style of the review author. Although existing review summarization methods have incorporated the historical reviews of both customer and product, they usually simply concatenate and indiscriminately model this two heterogeneous information into a long sequence. Moreover, the rating information can also provide a high-level abstraction of customer preference, it has not been used by the majority of methods. In this paper, we propose the Heterogeneous Historical Review aware Review Summarization Model (HHRRS) which separately models the two types of historical reviews with the rating information by a graph reasoning module with a contrastive loss. We employ a multi-task framework that conducts the review sentiment classification and summarization jointly. Extensive experiments on four benchmark datasets demonstrate the superiority of HHRRS on both tasks. | 翻訳日:2023-01-30 15:46:06 公開日:2023-01-27 |
# 自由度推定のための最大平均差の最適重み付け推定器 Optimally-Weighted Estimators of the Maximum Mean Discrepancy for Likelihood-Free Inference ( http://arxiv.org/abs/2301.11674v1 ) ライセンス: Link先を確認 | Ayush Bharti, Masha Naslidnyk, Oscar Key, Samuel Kaski, Fran\c{c}ois-Xavier Briol | (参考訳) Likelihood-free推論手法は典型的にはシミュレーションデータと実データの間の距離を利用する。
一般的な例として、最大平均誤差(MMD)があり、これはベイズ近似計算、最小距離推定、一般化ベイズ推論、および非パラメトリック学習フレームワーク内で使われている。
MMDは一般にルート$m$と見積もられており、$m$は模擬サンプルの数である。
これは、正確な推定を得るために大きな$m$を必要とするため、重要な計算上の課題につながる可能性がある。
本稿では,サンプルの複雑さを大幅に改善したMDDの新しい推定器を提案する。
この推定器は、低次元から中次元の入力を持つ計算コストの高い滑らかなシミュレータに特に適している。
この主張は、理論的な結果とベンチマークシミュレータに関する広範なシミュレーション研究の両方を通して支持されている。 Likelihood-free inference methods typically make use of a distance between simulated and real data. A common example is the maximum mean discrepancy (MMD), which has previously been used for approximate Bayesian computation, minimum distance estimation, generalised Bayesian inference, and within the nonparametric learning framework. The MMD is commonly estimated at a root-$m$ rate, where $m$ is the number of simulated samples. This can lead to significant computational challenges since a large $m$ is required to obtain an accurate estimate, which is crucial for parameter estimation. In this paper, we propose a novel estimator for the MMD with significantly improved sample complexity. The estimator is particularly well suited for computationally expensive smooth simulators with low- to mid-dimensional inputs. This claim is supported through both theoretical results and an extensive simulation study on benchmark simulators. | 翻訳日:2023-01-30 15:45:50 公開日:2023-01-27 |
# ベイズ自己教師付きコントラスト学習 Bayesian Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2301.11673v1 ) ライセンス: Link先を確認 | Bin Liu, Bang Wang | (参考訳) 近年、さまざまな領域におけるコントラスト学習の多くの成功例が見られたが、自己管理版は依然として多くのエキサイティングな課題が残っている。
負のサンプルはラベルのないデータセットから抽出されるため、ランダムに選択されたサンプルは実際にはアンカーに偽の陰性であり、誤ったエンコーダのトレーニングをもたらす。
本稿では, ラベル付きデータからのランダムなサンプルを引き続き用いながら, 重み付きバイアスを補正するBCL損失という, 新たな自己監督型コントラスト損失を提案する。
鍵となる考え方は、ベイズフレームワークの下で真の正のサンプルをサンプリングするために望ましいサンプリング分布を設計することである。
顕著な利点は、所望のサンプリング分布がパラメトリック構造であり、それぞれが偽陰性および濃度パラメータを偏り、ハード負をマイニングする位置パラメータである点である。
実験はbcl損失の有効性と優位性を検証する。 Recent years have witnessed many successful applications of contrastive learning in diverse domains, yet its self-supervised version still remains many exciting challenges. As the negative samples are drawn from unlabeled datasets, a randomly selected sample may be actually a false negative to an anchor, leading to incorrect encoder training. This paper proposes a new self-supervised contrastive loss called the BCL loss that still uses random samples from the unlabeled data while correcting the resulting bias with importance weights. The key idea is to design the desired sampling distribution for sampling hard true negative samples under the Bayesian framework. The prominent advantage lies in that the desired sampling distribution is a parametric structure, with a location parameter for debiasing false negative and concentration parameter for mining hard negative, respectively. Experiments validate the effectiveness and superiority of the BCL loss. | 翻訳日:2023-01-30 15:45:38 公開日:2023-01-27 |
# バックプロパゲーションのない深部残差補償畳み込みネットワーク Deep Residual Compensation Convolutional Network without Backpropagation ( http://arxiv.org/abs/2301.11663v1 ) ライセンス: Link先を確認 | Mubarakah Alotaibi, Richard Wilson | (参考訳) PCANetとその変種は、分類タスクの精度の良い結果を提供した。
しかし,分類精度が向上する上でネットワーク深度が重要であるにもかかわらず,これらのネットワークは最大9層で訓練された。
本稿では,何百層にも及ぶpcanetライクなネットワークとして初めて,分類精度を向上させた残差補償畳み込みネットワークを提案する。
提案するネットワークの設計は複数の畳み込み層で構成され、それぞれに処理後のステップと分類器が続く。
分類誤差を補正し,ネットワーク深度を大幅に向上させるため,各層に先行する各層の残余情報から得られたラベルを学習する。
この学習メカニズムは、バックプロパゲーションや勾配計算なしで、ネットワークの層を単一のフォワードパスでトラバースすることで実現される。
MNIST、CIFAR-10、CIFAR-100、TinyImageNetの4つの異なる分類ベンチマーク実験により、我々のディープネットワークは既存のPCANetのようなネットワークよりも優れており、従来の勾配モデルと競合することを示す。 PCANet and its variants provided good accuracy results for classification tasks. However, despite the importance of network depth in achieving good classification accuracy, these networks were trained with a maximum of nine layers. In this paper, we introduce a residual compensation convolutional network, which is the first PCANet-like network trained with hundreds of layers while improving classification accuracy. The design of the proposed network consists of several convolutional layers, each followed by post-processing steps and a classifier. To correct the classification errors and significantly increase the network's depth, we train each layer with new labels derived from the residual information of all its preceding layers. This learning mechanism is accomplished by traversing the network's layers in a single forward pass without backpropagation or gradient computations. Our experiments on four distinct classification benchmarks (MNIST, CIFAR-10, CIFAR-100, and TinyImageNet) show that our deep network outperforms all existing PCANet-like networks and is competitive with several traditional gradient-based models. | 翻訳日:2023-01-30 15:45:21 公開日:2023-01-27 |
# 流体流予測のための意味拡散モデル A denoting diffusion model for fluid flow prediction ( http://arxiv.org/abs/2301.11661v1 ) ライセンス: Link先を確認 | Gefan Yang, Stefan Sommer | (参考訳) 本研究では,FluidDiff という非線形流体場予測モデルを提案する。
拡散過程を実行することで、モデルは高次元力学系の複雑な表現を学習し、次にランゲヴィンサンプリングを使用して、指定された初期条件下での流れ状態の予測を生成する。
モデルは有限個の離散流体シミュレーションデータを用いて訓練される。
本モデルでは,シミュレーショントレーニングデータの分布をモデル化する能力と,テストデータの正確な予測を行う能力を有することを実証する。
基礎となる物理系の事前知識を符号化せずに、新しい計算流体力学法の研究を約束する流体予測のための他の深層学習モデルと競合性能を共有する。 We propose a novel denoising diffusion generative model for predicting nonlinear fluid fields named FluidDiff. By performing a diffusion process, the model is able to learn a complex representation of the high-dimensional dynamic system, and then Langevin sampling is used to generate predictions for the flow state under specified initial conditions. The model is trained with finite, discrete fluid simulation data. We demonstrate that our model has the capacity to model the distribution of simulated training data and that it gives accurate predictions on the test data. Without encoded prior knowledge of the underlying physical system, it shares competitive performance with other deep learning models for fluid prediction, which is promising for investigation on new computational fluid dynamics methods. | 翻訳日:2023-01-30 15:44:58 公開日:2023-01-27 |
# パラメーター効率の高い転送学習法を用いた言語モデルの分布外ロバスト性の検出 Probing Out-of-Distribution Robustness of Language Models with Parameter-Efficient Transfer Learning Methods ( http://arxiv.org/abs/2301.11660v1 ) ライセンス: Link先を確認 | Hyunsoo Cho, Choonghyun Park, Junyeop Kim, Hyuhng Joon Kim, Kang Min Yoo, and Sang-goo Lee | (参考訳) プレトレーニング言語モデル (PLM) のサイズが増加し続けるにつれて, 微調整の膨大なコストを補うために, パラメータ効率の学習手法が多数提案されている。
大規模な事前学習言語モデル (PLM) と各種パラメータ効率変換学習法 (PETL) が日没ベンチマークで達成した印象的な結果にもかかわらず, 分散的にシフトした入力を効果的に処理できるかどうかは不明である。
本研究では,plmの大きさや転送方法が変化するにつれて,od(out-of-distribution)がどう変化するかを体系的に検討する。
具体的には,異なるスケールの様々な言語モデルを用いて,3つの異なる意図分類タスクにおいて,微調整,アダプタ,lora,プレフィックスチューニングを含む様々なpetl手法を評価した。 As the size of the pre-trained language model (PLM) continues to increase, numerous parameter-efficient transfer learning methods have been proposed recently to compensate for the tremendous cost of fine-tuning. Despite the impressive results achieved by large pre-trained language models (PLMs) and various parameter-efficient transfer learning (PETL) methods on sundry benchmarks, it remains unclear if they can handle inputs that have been distributionally shifted effectively. In this study, we systematically explore how the ability to detect out-of-distribution (OOD) changes as the size of the PLM grows or the transfer methods are altered. Specifically, we evaluated various PETL techniques, including fine-tuning, Adapter, LoRA, and prefix-tuning, on three different intention classification tasks, each utilizing various language models with different scales. | 翻訳日:2023-01-30 15:44:47 公開日:2023-01-27 |
# 量子場理論における相転移点における量子エネルギーテレポーテーションの臨界性 Criticality of quantum energy teleportation at phase transition points in quantum field theory ( http://arxiv.org/abs/2301.11712v1 ) ライセンス: Link先を確認 | Kazuki Ikeda | (参考訳) 量子場理論は、量子エネルギーテレポーテーションによる通信の新しい媒体となりうる。
我々は,自己結合フェルミオンの相対論的フェルミオン場理論(massive thirring model)を用いた量子エネルギーテレポーテーションの実証を行った。
その結果, エネルギーのテレポート量と理論の位相図の間には密接な関係があることが判明した。
特に、テレポートされたエネルギーピークは相転移点付近にあることが示されている。
この結果は、量子通信と量子コンピューティングの観点から、場理論の位相図に新たな意味を与える。 Quantum field theory can be a new medium for communication through quantum energy teleportation. We performed a demonstration of quantum energy teleportation with a relativistic fermionic field theory of self-coupled fermions, called the massive Thirring model. Our results reveal that there is a close relation between the amount of energy teleported and the phase diagram of the theory. In particular, it is shown that the teleported energy peaks near the phase transition points. The results provide new implications for phase diagrams of field theory in terms of quantum communication and quantum computing. | 翻訳日:2023-01-30 15:38:04 公開日:2023-01-27 |
# 手話理解のための意味ネットワークモデル Semantic Network Model for Sign Language Comprehension ( http://arxiv.org/abs/2301.11709v1 ) ライセンス: Link先を確認 | Xinchen Kang (1), Dengfeng Yao (1,2), Minghu Jiang (2), Yunlong Huang (2) and Fanshu Li (1) ((1) Beijing Key Lab of Information Service Engineering, Beijing Union University, Beijing, China. (2) Lab of Computational Linguistics, Tsinghua University, Beijing, China.) | (参考訳) 本研究では,人間の言語処理における認知機能に基づいた,手話(SL)知覚と詳細なアルゴリズム記述の理解のための計算認知モデルを提案する。
概念間の意味的関係を表す意味ネットワークモデル(SNM)は、知識表現の一形態として用いられる。
提案手法は手話の理解に応用される。
拡散活性化探索法は、一連のソースノード(例えば、セマンティックネットワークにおける概念)にウェイトまたは「アクティベーション」をラベル付けし、そのアクティベーションをソースノードにリンクされた他のノードに反復的に伝播または「スプレッディング」することで開始される。
提案手法により,snmにおける手話理解の性能が向上することを示す。 In this study, the authors propose a computational cognitive model for sign language (SL) perception and comprehension with detailed algorithmic descriptions based on cognitive functionalities in human language processing. The semantic network model (SNM) that represents semantic relations between concepts, it is used as a form of knowledge representation. The proposed model is applied in the comprehension of sign language for classifier predicates. The spreading activation search method is initiated by labeling a set of source nodes (e.g. concepts in the semantic network) with weights or "activation" and then iteratively propagating or "spreading" that activation out to other nodes linked to the source nodes. The results demonstrate that the proposed search method improves the performance of sign language comprehension in the SNM. | 翻訳日:2023-01-30 15:37:55 公開日:2023-01-27 |
# 事前知識を用いた深層学習降水流の改善 Improving deep learning precipitation nowcasting by using prior knowledge ( http://arxiv.org/abs/2301.11707v1 ) ライセンス: Link先を確認 | Matej Choma and Petr \v{S}im\'anek and Jakub Bartel | (参考訳) 深層学習手法は, 予測誤差の観点で, 短期高分解能降水流を優占する。
しかし、予測の背後にあるダイナミクスを説明するのが難しく、平均誤差損失関数の最適化のために高周波特性が欠落しているため、操作性は限られている。
我々は,PhyDNetモデルに先立って,より正確な物理モデルを導入するために,逆流拡散微分方程式をPhyCellに手動で設計する実験を行った。
その結果、phycellは意図したダイナミクスを学習できるが、phydnetのトレーニングは損失最適化によって駆動され、結果として同じ予測能力を持つモデルとなる。 Deep learning methods dominate short-term high-resolution precipitation nowcasting in terms of prediction error. However, their operational usability is limited by difficulties explaining dynamics behind the predictions, which are smoothed out and missing the high-frequency features due to optimizing for mean error loss functions. We experiment with hand-engineering of the advection-diffusion differential equation into a PhyCell to introduce more accurate physical prior to a PhyDNet model that disentangles physical and residual dynamics. Results indicate that while PhyCell can learn the intended dynamics, training of PhyDNet remains driven by loss optimization, resulting in a model with the same prediction capabilities. | 翻訳日:2023-01-30 15:37:41 公開日:2023-01-27 |
# 入力摂動による拡散モデルにおける露光バイアス低減 Input Perturbation Reduces Exposure Bias in Diffusion Models ( http://arxiv.org/abs/2301.11706v1 ) ライセンス: Link先を確認 | Mang Ning, Enver Sangineto, Angelo Porrello, Simone Calderara, Rita Cucchiara | (参考訳) Denoising Diffusion Probabilistic Modelsは、長いサンプリングチェーンは高い計算コストをもたらすが、優れた生成品質を示している。
本稿では,長いサンプリングチェーンがエラー蓄積現象にもつながり,自己回帰的テキスト生成における \textbf{exposure bias}問題と類似していることを示す。
具体的には、前者は真理サンプルに、後者は前回生成した結果に条件付けされているため、トレーニングとテストの間には相違があることに留意する。
この問題を緩和するために,基底真理サンプルを摂動させて推定時間予測誤差をシミュレートする,非常に単純かつ効果的なトレーニング正規化を提案する。
提案する入力摂動は, 学習時間と推論時間の両方を削減しつつ, サンプル品質の大幅な向上をもたらすことを実証的に示す。
例えば、CelebA 64$\times$64では、トレーニング時間の37.5%を節約しながら、新しい最先端のFIDスコア1.27を達成する。 Denoising Diffusion Probabilistic Models have shown an impressive generation quality, although their long sampling chain leads to high computational costs. In this paper, we observe that a long sampling chain also leads to an error accumulation phenomenon, which is similar to the \textbf{exposure bias} problem in autoregressive text generation. Specifically, we note that there is a discrepancy between training and testing, since the former is conditioned on the ground truth samples, while the latter is conditioned on the previously generated results. To alleviate this problem, we propose a very simple but effective training regularization, consisting in perturbing the ground truth samples to simulate the inference time prediction errors. We empirically show that the proposed input perturbation leads to a significant improvement of the sample quality while reducing both the training and the inference times. For instance, on CelebA 64$\times$64, we achieve a new state-of-the-art FID score of 1.27, while saving 37.5% of the training time. | 翻訳日:2023-01-30 15:37:28 公開日:2023-01-27 |
# fedhp: プライバシ保護によるヘテロジニアスフェデレート学習 FedHP: Heterogeneous Federated Learning with Privacy-preserving ( http://arxiv.org/abs/2301.11705v1 ) ライセンス: Link先を確認 | Kuang Hangdong and Mi Bo | (参考訳) Federated Learningは分散機械学習環境であり、パラメータを交換するだけで、クライアントがプライベートデータを共有せずにコラボレーティブなトレーニングを完了できるようにする。
しかし、データは同じ分布を満足せず、クライアントのコンピューティングリソースが異なるため、関連する研究に課題が生じる。
上記の異種問題を改善するために,我々は新しいフェデレーション学習法を考案した。
ローカルモデルは、トレーニング済みモデルをバックボーンとして、完全に接続されたレイヤをヘッドとして構成する。
バックボーンはヘッドの機能を抽出し、クラスを埋め込んだベクタをクライアント間で共有してヘッドを最適化することで、ローカルモデルのパフォーマンスが向上する。
勾配空間に基づくパラメータではなく、クラスの埋め込みベクトルを共有することによって、クライアントはプライベートデータへの適応性が向上し、サーバとクライアント間の通信がより効率的になる。
プライバシをより保護するために,差分プライバシを満たす前提下での局所モデル性能への影響を低減し,組込みベクトルにノイズを付加するハイブリッド手法を提案する。
非独立な同一分散(Non-IID)に基づく自己構築車種データセット上で、他のフェデレーション学習手法による包括的評価を行う。 Federated Learning is a distributed machine learning environment, which ensures that clients complete collaborative training without sharing private data, only by exchanging parameters. However, the data does not satisfy the same distribution and the computing resources of clients are different, which brings challenges to the related research. To better solve the above heterogeneous problems, we designed a novel federated learning method. The local model consists of the pre-trained model as the backbone and fully connected layers as the head. The backbone can extract features for the head, and the embedding vector of classes is shared between clients to optimize the head so that the local model can perform better. By sharing the embedding vector of classes, instead of parameters based on gradient space, clients can better adapt to private data, and it is more efficient in the communication between the server and clients. To better protect privacy, we proposed a privacy-preserving hybrid method to add noise to the embedding vector of classes, which has less impact on the local model performance under the premise of satisfying differential privacy. We conduct a comprehensive evaluation with other federated learning methods on the self-built vehicle dataset under non-independent identically distributed(Non-IID) | 翻訳日:2023-01-30 15:37:11 公開日:2023-01-27 |
# TransNet:部分微分方程式のための伝達可能なニューラルネットワーク TransNet: Transferable Neural Networks for Partial Differential Equations ( http://arxiv.org/abs/2301.11701v1 ) ライセンス: Link先を確認 | Zezhong Zhang, Feng Bao, Lili Ju, Guannan Zhang | (参考訳) 偏微分方程式(PDE)の伝達学習は、幅広い種類のPDEを解くために使用できる事前学習ニューラルネットワークを開発することである。
既存の転送学習アプローチでは、その定式化や事前学習のためのソリューションのデータなど、ターゲットPDEの多くの情報を必要とする。
本研究では,PDE情報を用いることなく,純粋関数近似の観点から伝達可能なニューラル特徴空間を構築することを提案する。
特徴空間の構築は、隠れたニューロンの再パラメータ化を含み、機能空間を調整するために補助関数を使用する。
理論的解析は、生成した機能空間、すなわち一様分散ニューロンの高品質を示す。
例えば、ドメインや境界条件の異なる様々なPDEに対して、同じ特徴空間を同じ特徴空間で使用することや、より優れた精度、例えば、最先端の平均二乗誤差の桁数が、最先端の手法よりも桁違いに小さいことなどである。 Transfer learning for partial differential equations (PDEs) is to develop a pre-trained neural network that can be used to solve a wide class of PDEs. Existing transfer learning approaches require much information of the target PDEs such as its formulation and/or data of its solution for pre-training. In this work, we propose to construct transferable neural feature spaces from purely function approximation perspectives without using PDE information. The construction of the feature space involves re-parameterization of the hidden neurons and uses auxiliary functions to tune the resulting feature space. Theoretical analysis shows the high quality of the produced feature space, i.e., uniformly distributed neurons. Extensive numerical experiments verify the outstanding performance of our method, including significantly improved transferability, e.g., using the same feature space for various PDEs with different domains and boundary conditions, and the superior accuracy, e.g., several orders of magnitude smaller mean squared error than the state of the art methods. | 翻訳日:2023-01-30 15:36:53 公開日:2023-01-27 |
# 確率微分方程式を用いた画像復元 Image Restoration with Mean-Reverting Stochastic Differential Equations ( http://arxiv.org/abs/2301.11699v1 ) ライセンス: Link先を確認 | Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sj\"olund and Thomas B. Sch\"on | (参考訳) 本稿では,汎用画像復元のための確率微分方程式(SDE)を提案する。
鍵となる構成は、高品質な画像をガウス雑音が固定された平均状態として劣化した状態に変換する平均回帰SDEである。
そして、対応する逆時間SDEをシミュレートすることにより、タスク固有の事前知識に頼ることなく、低品質画像の原点を復元することができる。
重要なことは、提案した平均回帰SDEは閉形式解を持ち、真理時間依存スコアを計算してニューラルネットワークで学習することができる。
さらに, 学習を安定させ, 復元結果を改善するための最適逆行路を学習するための最大帰結目標を提案する。
実験では,提案手法が画像デレーシング,デブローリング,デノージングの定量的比較において高い競合性能を達成し,2つのデレーシングデータセットに新たな最先端を設定することを実証した。
最後に, 画像の超解像, 塗装, 脱湿に関する定性的な結果により, 提案手法の一般適用性をさらに実証した。
コードは \url{https://github.com/algolzw/image-restoration-sde} で入手できる。 This paper presents a stochastic differential equation (SDE) approach for general-purpose image restoration. The key construction consists in a mean-reverting SDE that transforms a high-quality image into a degraded counterpart as a mean state with fixed Gaussian noise. Then, by simulating the corresponding reverse-time SDE, we are able to restore the origin of the low-quality image without relying on any task-specific prior knowledge. Crucially, the proposed mean-reverting SDE has a closed-form solution, allowing us to compute the ground truth time-dependent score and learn it with a neural network. Moreover, we propose a maximum likelihood objective to learn an optimal reverse trajectory which stabilizes the training and improves the restoration results. In the experiments, we show that our proposed method achieves highly competitive performance in quantitative comparisons on image deraining, deblurring, and denoising, setting a new state-of-the-art on two deraining datasets. Finally, the general applicability of our approach is further demonstrated via qualitative results on image super-resolution, inpainting, and dehazing. Code is available at \url{https://github.com/Algolzw/image-restoration-sde}. | 翻訳日:2023-01-30 15:36:37 公開日:2023-01-27 |
# グラフベース条件モーメント法によるビッグポートフォリオ選択 Big portfolio selection by graph-based conditional moments method ( http://arxiv.org/abs/2301.11697v1 ) ライセンス: Link先を確認 | Zhoufan Zhu, Ningning Zhang, Ke Zhu | (参考訳) 大きなポートフォリオの選択方法は非常に重要ですが、研究者と実践者の両方にとって難しいものです。
本稿では,数千株以上の株式に基づいてポートフォリオ選択を行う新しいグラフベースの条件付きモーメント(grace)手法を提案する。
グレース法は、まず、学習手順をドメイン知識からストック・ツー・ストック関係の集合と、資産価格知識からファクタ・ツー・ストック関係の集合とで構築したファクターハイパーグラフを介して導くファクター提示時相グラフ畳み込みネットワークを介して、ストックリターンの条件量と平均を学習する。
次に、GRACE法は、量子化条件モーメント(QCM)法を用いて、学習された条件量子量から、ストックの条件分散、歪、およびカルトーシスを学習する。
QCM法はこれらの条件付き高次モーメントを学習するための教師あり学習法であり、古典的な高次元GARCH方式の計算困難を克服する。
さらに、QCM法は回帰に基づく性質のため、条件量子のモデリングにおける誤特定をある程度許容する。
最後に、グレース法では、学習条件平均、分散、歪、およびクルトシスを用いて、よく知られた10進フレームワークでポートフォリオ選択を進めるために株式を分類するための基準となるいくつかのパフォーマンス指標を構築する。
ナスダックとnyseの株式市場への申請は、グレース法は、特に条件的ばらつき、歪み、およびクルトシスからなるパフォーマンス指標が、競合相手よりもはるかに優れたパフォーマンスを示す。 How to do big portfolio selection is very important but challenging for both researchers and practitioners. In this paper, we propose a new graph-based conditional moments (GRACE) method to do portfolio selection based on thousands of stocks or more. The GRACE method first learns the conditional quantiles and mean of stock returns via a factor-augmented temporal graph convolutional network, which guides the learning procedure through a factor-hypergraph built by the set of stock-to-stock relations from the domain knowledge as well as the set of factor-to-stock relations from the asset pricing knowledge. Next, the GRACE method learns the conditional variance, skewness, and kurtosis of stock returns from the learned conditional quantiles by using the quantiled conditional moment (QCM) method. The QCM method is a supervised learning procedure to learn these conditional higher-order moments, so it largely overcomes the computational difficulty from the classical high-dimensional GARCH-type methods. Moreover, the QCM method allows the mis-specification in modeling conditional quantiles to some extent, due to its regression-based nature. Finally, the GRACE method uses the learned conditional mean, variance, skewness, and kurtosis to construct several performance measures, which are criteria to sort the stocks to proceed the portfolio selection in the well-known 10-decile framework. An application to NASDAQ and NYSE stock markets shows that the GRACE method performs much better than its competitors, particularly when the performance measures are comprised of conditional variance, skewness, and kurtosis. | 翻訳日:2023-01-30 15:36:17 公開日:2023-01-27 |
# SLCNN:テキスト分類のための文レベル畳み込みニューラルネットワーク SLCNN: Sentence-Level Convolutional Neural Network for Text Classification ( http://arxiv.org/abs/2301.11696v1 ) ライセンス: Link先を確認 | Ali Jarrahi, Ramin Mousa and Leila Safari | (参考訳) テキスト分類は自然言語処理(NLP)の基本課題である。
いくつかの最近の研究は、テキスト処理におけるディープラーニングの成功を示している。
一般的なディープラーニングモデルである畳み込みニューラルネットワーク(cnn)は、テキスト分類のタスクにおいて顕著な成功を示している。
本稿では,CNNを用いたテキスト分類のための新しいベースラインモデルについて検討した。
これらのモデルでは、文書は3次元テンソル表現としてネットワークに送られ、文レベル解析を提供する。
このような手法を適用することで,テキスト中の文章の位置情報を活用することができる。
さらに、隣接する文を分析して追加の特徴を抽出することもできる。
提案したモデルは、いくつかのデータセットを用いて最先端のモデルと比較されている。
以上の結果から,提案モデルの性能が向上し,特にドキュメントが長くなることが示唆された。 Text classification is a fundamental task in natural language processing (NLP). Several recent studies show the success of deep learning on text processing. Convolutional neural network (CNN), as a popular deep learning model, has shown remarkable success in the task of text classification. In this paper, new baseline models have been studied for text classification using CNN. In these models, documents are fed to the network as a three-dimensional tensor representation to provide sentence-level analysis. Applying such a method enables the models to take advantage of the positional information of the sentences in the text. Besides, analysing adjacent sentences allows extracting additional features. The proposed models have been compared with the state-of-the-art models using several datasets. The results have shown that the proposed models have better performance, particularly in the longer documents. | 翻訳日:2023-01-30 15:35:47 公開日:2023-01-27 |
# LegendreTron: マルチクラスの損失学習が向上 LegendreTron: Uprising Proper Multiclass Loss Learning ( http://arxiv.org/abs/2301.11695v1 ) ライセンス: Link先を確認 | Kevin Lam, Christian Walder, Spiridon Penev, Richard Nock | (参考訳) 損失関数は教師付き学習の基礎となり、しばしばモデル開発の前に選択される。
損失のアドホックな選択を避けるために、統計的決定理論は、ベイズの法則が最適であると主張する \emph{properness} として知られる損失の望ましい性質を記述する。
近年の研究では、emph{learn loss} とモデルの共同開発が試みられている。
既存の方法では、逆正準リンク関数を単調に$\mathbb{R}$を$[0,1]$にし、二元問題に対する確率を推定する。
本論文では、凸関数の勾配の単調性を用いて、$\mathbb{R}^{C-1}$と予想される確率単純度$\tilde{\Delta}^{C-1}$の間の写像への単調性を拡張する。
本稿では,emph{proper canonical loss} と多クラス問題に対する確率を共同で学習する新規かつ実用的な方法として {\sc LegendreTron を提案する。
最大1000のクラスを持つドメインのベンチマークでテストした結果、我々のメソッドは10以上のクラスを持つすべてのデータセットで99%の価値がある$t$-testで、自然のマルチクラスベースラインを一貫して上回ります。 Loss functions serve as the foundation of supervised learning and are often chosen prior to model development. To avoid potentially ad hoc choices of losses, statistical decision theory describes a desirable property for losses known as \emph{properness}, which asserts that Bayes' rule is optimal. Recent works have sought to \emph{learn losses} and models jointly. Existing methods do this by fitting an inverse canonical link function which monotonically maps $\mathbb{R}$ to $[0,1]$ to estimate probabilities for binary problems. In this paper, we extend monotonicity to maps between $\mathbb{R}^{C-1}$ and the projected probability simplex $\tilde{\Delta}^{C-1}$ by using monotonicity of gradients of convex functions. We present {\sc LegendreTron} as a novel and practical method that jointly learns \emph{proper canonical losses} and probabilities for multiclass problems. Tested on a benchmark of domains with up to 1,000 classes, our experimental results show that our method consistently outperforms the natural multiclass baseline under a $t$-test at 99% significance on all datasets with greater than 10 classes. | 翻訳日:2023-01-30 15:35:38 公開日:2023-01-27 |
# 特別セッション:ノイズ中間量子(NISQ)コンピュータ -どのように動作するか、どのように失敗するか、どのようにテストするか? Special Session: Noisy Intermediate-Scale Quantum (NISQ) Computers -- How They Work, How They Fail, How to Test Them? ( http://arxiv.org/abs/2301.11739v1 ) ライセンス: Link先を確認 | Sebastian Brandhofer, Simon Devitt, Thomas Wellens, Ilia Polian | (参考訳) 量子超越性(quantum supremacy)または「量子優位性(quantum advantage)」は、古典的な機械では不可能だった計算の実行である。
現在の量子コンピュータは、nisqパラダイムに従っており、従来の電子回路よりもはるかに高いエラー率を示し、強力なエラー訂正プロトコルをサポートするために量子リソースが不足している。
これにより、関連する計算がNISQアーキテクチャの範囲内にあるかという疑問が提起される。
例えば、変分オプティマイザは、相対的に短い量子計算と古典計算を相互に絡み合っていて、成功の確率を最大化している。
本稿は, NISQコンピューティングの持つ可能性と課題を批判的に評価する。
私たちは懐疑的で、大規模で完全なエラー訂正アーキテクチャの出現を待つ必要がありますか? First quantum computers very recently have demonstrated "quantum supremacy" or "quantum advantage": Executing a computation that would have been impossible on a classical machine. Today's quantum computers follow the NISQ paradigm: They exhibit error rates that are much higher than in conventional electronics and have insufficient quantum resources to support powerful error correction protocols. This raises questions which relevant computations are within the reach of NISQ architectures. Several "NISQ-era algorithms" are assumed to match the specifics of such computers; for instance, variational optimisers are based on intertwining relatively short quantum and classical computations, thus maximizing the chances of success. This paper will critically assess the promise and challenge of NISQ computing. What has this field achieved so far, what are we likely to achieve soon, where do we have to be skeptical and wait for the advent of larger-scale fully error-corrected architectures? | 翻訳日:2023-01-30 15:29:54 公開日:2023-01-27 |
# 視覚知覚制限による報酬最大化としての道路横断決定のモデル化 Modeling human road crossing decisions as reward maximization with visual perception limitations ( http://arxiv.org/abs/2301.11737v1 ) ライセンス: Link先を確認 | Yueyang Wang, Aravinda Ramakrishnan Srinivasan, Jussi P.P. Jokinen, Antti Oulasvirta, Gustav Markkula | (参考訳) 異なる道路利用者間の相互作用を理解することは、道路安全と自動走行車(AV)にとって重要である。
このトピックに関する既存の数学的モデルは、主に認知または機械学習(ML)アプローチに基づいて提案されている。
しかし、現在の認知モデルでは一般的なシナリオでは道路利用者の軌跡をシミュレートできないため、mlモデルは行動を生成するメカニズムに焦点を合わせず、障害が重要な人間のような行動を捉える可能性があるハイレベルな視点を取る。
本稿では,人間に制約のある行動方針を境界的に学習するために,深層強化学習(rl)を用いたアプローチである計算的合理性に基づく歩行者横断決定のモデルを開発した。
提案するコグニティブ・rlモデルでは,ギャップ受容と交差開始時間の人間様パターンを捉えている。
興味深いことに、我々のモデルの決定は、時間的ギャップだけでなく、接近する車両の速度にも敏感である。
しかし,本研究の結果から,人間の知覚的限界に対する合理的適応が示唆された。
さらに,計算的合理性モデルにおける個人差の計算手法として,人間の制約のパラメータにrlポリシーを条件付ける手法を提案する。
以上の結果から,RLと認知モデルを組み合わせることで,より人間的な道路利用者行動が実現可能であることを示す。 Understanding the interaction between different road users is critical for road safety and automated vehicles (AVs). Existing mathematical models on this topic have been proposed based mostly on either cognitive or machine learning (ML) approaches. However, current cognitive models are incapable of simulating road user trajectories in general scenarios, and ML models lack a focus on the mechanisms generating the behavior and take a high-level perspective which can cause failures to capture important human-like behaviors. Here, we develop a model of human pedestrian crossing decisions based on computational rationality, an approach using deep reinforcement learning (RL) to learn boundedly optimal behavior policies given human constraints, in our case a model of the limited human visual system. We show that the proposed combined cognitive-RL model captures human-like patterns of gap acceptance and crossing initiation time. Interestingly, our model's decisions are sensitive to not only the time gap, but also the speed of the approaching vehicle, something which has been described as a "bias" in human gap acceptance behavior. However, our results suggest that this is instead a rational adaption to human perceptual limitations. Moreover, we demonstrate an approach to accounting for individual differences in computational rationality models, by conditioning the RL policy on the parameters of the human constraints. Our results demonstrate the feasibility of generating more human-like road user behavior by combining RL with cognitive models. | 翻訳日:2023-01-30 15:29:34 公開日:2023-01-27 |
# behavior discriminator:オフラインポリシー学習を改善するための単純なデータフィルタリング方法 Behaviour Discriminator: A Simple Data Filtering Method to Improve Offline Policy Learning ( http://arxiv.org/abs/2301.11734v1 ) ライセンス: Link先を確認 | Qiang Wang, Robert McCarthy, David Cordova Bulens, Kevin McGuinness, Noel E. O'Connor, Francisco Roldan Sanchez, Stephen J. Redmond | (参考訳) 本稿では,環境とのインタラクションを必要とせず,既存のデータセットから純粋に学習する制御ポリシーの学習問題を考察する。
以前の研究は、オフライン学習アルゴリズム(例えば、振る舞いのクローン化やオフラインの強化学習)が、高品質のエキスパートデータを使ったトレーニングで満足のいくポリシーを見つける可能性が高いことを実証した。
しかしながら、実世界/実践的なデータセットの多くは、低スキルエージェントを使用して生成されたサンプルのかなりの割合を含むことができる。
そこで本研究では,半教師付き学習に基づく新しい,かつシンプルなデータフィルタリング手法である行動判別器(BD)の概念を提案する。
私たちのbdアプローチは、real robot challenge (rrc) iii の混合スキルレベルのデータセットを前処理するために使われました。これは、参加者がオフラインの学習方法を使って、いくつかのデクスターなロボット操作タスクを解決することを必要とするオープンコンペティションです。
さらに,新しいBD前処理手法をD4RLベンチマーク問題に適用し,複数の最先端のオフライン強化学習アルゴリズムの性能を向上させることを実証した。 This paper studies the problem of learning a control policy without the need for interactions with the environment; instead, learning purely from an existing dataset. Prior work has demonstrated that offline learning algorithms (e.g., behavioural cloning and offline reinforcement learning) are more likely to discover a satisfactory policy when trained using high-quality expert data. However, many real-world/practical datasets can contain significant proportions of examples generated using low-skilled agents. Therefore, we propose a behaviour discriminator (BD) concept, a novel and simple data filtering approach based on semi-supervised learning, which can accurately discern expert data from a mixed-quality dataset. Our BD approach was used to pre-process the mixed-skill-level datasets from the Real Robot Challenge (RRC) III, an open competition requiring participants to solve several dexterous robotic manipulation tasks using offline learning methods; the new BD method allowed a standard behavioural cloning algorithm to outperform other more sophisticated offline learning algorithms. Moreover, we demonstrate that the new BD pre-processing method can be applied to a number of D4RL benchmark problems, improving the performance of multiple state-of-the-art offline reinforcement learning algorithms. | 翻訳日:2023-01-30 15:29:09 公開日:2023-01-27 |
# 有効かつ効率的な因果推論のための畳み込みニューラルネットワーク Convolutional neural networks for valid and efficient causal inference ( http://arxiv.org/abs/2301.11732v1 ) ライセンス: Link先を確認 | Mohammad Ghasempour, Niloofar Moosavi, Xavier de Luna | (参考訳) 畳み込みニューラルネットワーク(CNN)は機械学習アプリケーションで成功している。
彼らの成功は、空間不変な局所的特徴を考える能力に依存する。
我々は,治療平均因果効果の半パラメトリック推定において,ニュアサンスモデルに適合するcnnの使用を検討する。
この設定では、ニュアサンスモデルは、制御される必要がある前処理共変量の関数である。
早期退職が健康状態に与える影響を推定したいアプリケーションでは,cnnを用いて時間的構造的共変量を制御することを提案する。
これにより、CNNは治療と結果を説明するニュアンスモデルに適合する。
これらの適合は、効率的で一様に有効な推論をもたらす拡張逆確率重み付け推定器に結合される。
理論的には、修正線形単位活性化関数を備えたCNNの収束率を提供し、フィードフォワードニューラルネットワークの既存の結果と比較することで貢献する。
また、その割合が一様に妥当な推論を保証していることも示します。
モンテカルロ研究では,提案手法の性能評価を行い,他の手法との比較を行った。
最後に,スウェーデン全人口を対象としたデータを用いて,早期退職が入院に及ぼす影響について検討した。 Convolutional neural networks (CNN) have been successful in machine learning applications. Their success relies on their ability to consider space invariant local features. We consider the use of CNN to fit nuisance models in semiparametric estimation of the average causal effect of a treatment. In this setting, nuisance models are functions of pre-treatment covariates that need to be controlled for. In an application where we want to estimate the effect of early retirement on a health outcome, we propose to use CNN to control for time-structured covariates. Thus, CNN is used when fitting nuisance models explaining the treatment and the outcome. These fits are then combined into an augmented inverse probability weighting estimator yielding efficient and uniformly valid inference. Theoretically, we contribute by providing rates of convergence for CNN equipped with the rectified linear unit activation function and compare it to an existing result for feedforward neural networks. We also show when those rates guarantee uniformly valid inference. A Monte Carlo study is provided where the performance of the proposed estimator is evaluated and compared with other strategies. Finally, we give results on a study of the effect of early retirement on hospitalization using data covering the whole Swedish population. | 翻訳日:2023-01-30 15:28:49 公開日:2023-01-27 |
# SATベースの量子回路適応 SAT-Based Quantum Circuit Adaptation ( http://arxiv.org/abs/2301.11725v1 ) ライセンス: Link先を確認 | Sebastian Brandhofer, Jinwoong Kim, Siyuan Niu and Nicholas T. Bronn | (参考訳) 量子コンピューティングの分野が発展するにつれて、超伝導電子回路、半導体スピン、閉じ込められたイオン、中性原子などの量子ハードウェアのモダリティが、量子計算の実行に利用されるようになった。
これらの量子ハードウェアモダリティは、様々な特性を示し、例えばいくつかの異なる2量子ビット量子ゲートを含む異なる普遍量子ゲートセットを実装する。
量子回路をハードウェアに依存しない普遍的な量子ゲートセットからターゲットハードウェアの量子ゲートセットに適応させることは、意図された量子計算の忠実性と持続性に決定的な影響を与える。
しかし、現在の量子回路適応技術は特定の分解のみを適用したり、ターゲットの量子回路に局所的な改善を許すだけであり、量子計算は必要以上に忠実度が低いか、よりキュービットのアイドル時間が多くなる可能性がある。
これらの問題は、ハードウェアモダリティにアクセス可能な複数のユニバーサル量子ゲートセットをレンダリングするハードウェアネイティブ量子ゲートの複数のオプションによってさらに悪化する。
本研究では, 量子回路を最適化した量子回路適応モデルを構築し, 許容された置換と分解, 対象ハードウェアのモジュラリティ, 適応すべき量子回路について検討した。
さらに、半導電スピンのハードウェアモダリティの物理を議論し、異なる2量子ビット量子ゲートの可能な実装を示し、半導電スピンのハードウェアモダリティに関する開発モデルを評価する。
ノイズのあるシミュレータ上で開発された量子回路適応法を用いて,Hellingerの忠実度を最大40%向上し,キュービットアイドル時間を代替量子回路適応法と比較して最大87%低減できることを示した。 As the nascent field of quantum computing develops, an increasing number of quantum hardware modalities, such as superconducting electronic circuits, semiconducting spins, trapped ions, and neutral atoms, have become available for performing quantum computations. These quantum hardware modalities exhibit varying characteristics and implement different universal quantum gate sets that may e.g. contain several distinct two-qubit quantum gates. Adapting a quantum circuit from a, possibly hardware-agnostic, universal quantum gate set to the quantum gate set of a target hardware modality has a crucial impact on the fidelity and duration of the intended quantum computation. However, current quantum circuit adaptation techniques only apply a specific decomposition or allow only for local improvements to the target quantum circuit potentially resulting in a quantum computation with less fidelity or more qubit idle time than necessary. These issues are further aggravated by the multiple options of hardware-native quantum gates rendering multiple universal quantum gates sets accessible to a hardware modality. In this work, we developed a satisfiability modulo theories model that determines an optimized quantum circuit adaptation given a set of allowed substitutions and decompositions, a target hardware modality and the quantum circuit to be adapted. We further discuss the physics of the semiconducting spins hardware modality, show possible implementations of distinct two-qubit quantum gates, and evaluate the developed model on the semiconducting spins hardware modality. Using the developed quantum circuit adaptation method on a noisy simulator, we show the Hellinger fidelity could be improved by up to 40% and the qubit idle time could be decreased by up to 87% compared to alternative quantum circuit adaptation techniques. | 翻訳日:2023-01-30 15:28:33 公開日:2023-01-27 |
# メタ学習型ミニバッチリスク関数 Meta-Learning Mini-Batch Risk Functionals ( http://arxiv.org/abs/2301.11724v1 ) ライセンス: Link先を確認 | Jacob Tyo, Zachary C. Lipton | (参考訳) 監視学習は一般的に損失の期待値リスク関数を最適化するが、多くの場合、他のリスク関数を最適化したい。
フルバッチ勾配降下において、これは、極度の損失の定量化を無視したCVaR(Conditional Value at Risk)のような、利害のリスク関数の勾配を取ることによって行われる。
しかし、ディープラーニングは、ほとんど常にミニバッチ勾配勾配を用いる必要があり、様々なリスク関数の偏りのない推定器がないため、正しい最適化手順は不明確である。
本稿では,メタラーニングに基づくモデルトレーニング中に,解釈可能なミニバッチリスク機能を学ぶ手法を1ショットで紹介する。
様々なリスク関数を最適化する場合、学習されたミニバッチリスク関数は、手作業によるミニバッチリスク関数よりも10%のリスク低減につながる。
そして, 適切なリスク関数が未知の前提条件下では, 基準値よりも14%(絶対値=9%)向上する。
我々は、学習したミニバッチリスク関数をトレーニングを通じて異なるポイントで分析し、カリキュラム(ウォームアップ期間を含む)を学習し、最終形が最適化する基盤となるリスク関数と驚くほど異なることを発見した。 Supervised learning typically optimizes the expected value risk functional of the loss, but in many cases, we want to optimize for other risk functionals. In full-batch gradient descent, this is done by taking gradients of a risk functional of interest, such as the Conditional Value at Risk (CVaR) which ignores some quantile of extreme losses. However, deep learning must almost always use mini-batch gradient descent, and lack of unbiased estimators of various risk functionals make the right optimization procedure unclear. In this work, we introduce a meta-learning-based method of learning an interpretable mini-batch risk functional during model training, in a single shot. When optimizing for various risk functionals, the learned mini-batch risk functions lead to risk reduction of up to 10% over hand-engineered mini-batch risk functionals. Then in a setting where the right risk functional is unknown a priori, our method improves over baseline by 14% relative (~9% absolute). We analyze the learned mini-batch risk functionals at different points through training, and find that they learn a curriculum (including warm-up periods), and that their final form can be surprisingly different from the underlying risk functional that they optimize for. | 翻訳日:2023-01-30 15:28:03 公開日:2023-01-27 |
# アーティストとしての拡散モデル:人間と機械のギャップを縮めるのか? Diffusion Models as Artists: Are we Closing the Gap between Humans and Machines? ( http://arxiv.org/abs/2301.11722v1 ) ライセンス: Link先を確認 | Victor Boutin, Thomas Fel, Lakshya Singhal, Rishav Mukherji, Akash Nagaraj, Julien Colin and Thomas Serre | (参考訳) AIの重要なマイルストーンは、人間のものと区別できない描画を生成できるアルゴリズムの開発である。
ここでは、boutin et al, 2022の'diversity vs. recognizability'スコアリングフレームワークを採用し、ワンショット拡散モデルが実際に人間と機械のギャップを縮め始めたことを見出します。
しかし, 個々の試料の原性についてよりきめ細かい測定値を用いて, 拡散モデルによるガイダンスの強化は, 図面の人文性向上に寄与するが, 図面の原性や認識性には及ばないことを示す。
オンライン心理物理学実験を通じて収集されたヒトカテゴリー診断の特徴と拡散モデルから得られた特徴を比較すると、ヒトはより局所的な特徴に頼っていることが分かる。
我々の研究は、拡散モデルが機械が生成した図面の品質を著しく向上させたことを示唆しているが、人間と機械の間のギャップは、部分的には視覚戦略の相違によって説明できる。 An important milestone for AI is the development of algorithms that can produce drawings that are indistinguishable from those of humans. Here, we adapt the 'diversity vs. recognizability' scoring framework from Boutin et al, 2022 and find that one-shot diffusion models have indeed started to close the gap between humans and machines. However, using a finer-grained measure of the originality of individual samples, we show that strengthening the guidance of diffusion models helps improve the humanness of their drawings, but they still fall short of approximating the originality and recognizability of human drawings. Comparing human category diagnostic features, collected through an online psychophysics experiment, against those derived from diffusion models reveals that humans rely on fewer and more localized features. Overall, our study suggests that diffusion models have significantly helped improve the quality of machine-generated drawings; however, a gap between humans and machines remains -- in part explainable by discrepancies in visual strategies. | 翻訳日:2023-01-30 15:27:42 公開日:2023-01-27 |
# 単軌道分布ロバスト強化学習 Single-Trajectory Distributionally Robust Reinforcement Learning ( http://arxiv.org/abs/2301.11721v1 ) ライセンス: Link先を確認 | Zhipeng Liang, Xiaoteng Ma, Jose Blanchet, Jiheng Zhang, Zhengyuan Zhou | (参考訳) 逐次的意思決定の枠組みとして、強化学習(rl)は、人工知能(agi)につながる必須要素とみなされてきた。
しかしながら、RLはテスト環境と同じトレーニング環境を持つことでしばしば批判され、実世界でのRLの適用を妨げている。
この問題を解決するために、未知のテスト環境を含む可能性のある環境の組における最悪の性能を改善するために、分散ロバストRL(DRRL)を提案する。
頑健性目標の非線形性のため、以前の研究のほとんどはモデルに基づくアプローチに頼っており、データから学習した経験的分布と無限にサンプリングできるシミュレータを学習することで、単純な動的環境における応用を制限している。
それとは対照的に、単一の軌道に沿ってトレーニング可能なdrrlアルゴリズム、すなわち、状態からの繰り返しサンプリングを行わない設計を試みる。
標準のq-learningに基づいて,single track (drq) を用いた分布的ロバストなq-learningを提案する。
両設定の漸近収束保証と実験を行い、非破壊環境に対する摂動環境におけるそれらの優位性を実証する。 As a framework for sequential decision-making, Reinforcement Learning (RL) has been regarded as an essential component leading to Artificial General Intelligence (AGI). However, RL is often criticized for having the same training environment as the test one, which also hinders its application in the real world. To mitigate this problem, Distributionally Robust RL (DRRL) is proposed to improve the worst performance in a set of environments that may contain the unknown test environment. Due to the nonlinearity of the robustness goal, most of the previous work resort to the model-based approach, learning with either an empirical distribution learned from the data or a simulator that can be sampled infinitely, which limits their applications in simple dynamics environments. In contrast, we attempt to design a DRRL algorithm that can be trained along a single trajectory, i.e., no repeated sampling from a state. Based on the standard Q-learning, we propose distributionally robust Q-learning with the single trajectory (DRQ) and its average-reward variant named differential DRQ. We provide asymptotic convergence guarantees and experiments for both settings, demonstrating their superiority in the perturbed environments against the non-robust ones. | 翻訳日:2023-01-30 15:27:23 公開日:2023-01-27 |
# 文書要約に知識を組み込む: GPT-2における事前修正の適用 Incorporating Knowledge into Document Summarization: an Application of Prefix-Tuning on GPT-2 ( http://arxiv.org/abs/2301.11719v1 ) ライセンス: Link先を確認 | Chen Chen, Wei Emma Zhang | (参考訳) 近年の文書要約技術の発展にもかかわらず、生成した要約と原文との事実的不一致は時折起こり続けている。
本稿では,学習可能な連続プレフィックスプロンプトと離散的なプロンプトを併用してモデル生成を支援するプレフィックスチューニング手法を提案する。
生成した要約における事実保存の改善は、知識強化文書要約にこのプレフィックスチューニングに基づく手法を適用する効果を示し、他の自然言語処理タスクにも大きな可能性を示す。 Despite the great development of document summarization techniques nowadays, factual inconsistencies between the generated summaries and the original text still occur from time to time. This paper proposes a prefix-tuning-based approach that uses a set of trainable continuous prefix prompt together with discrete prompts to aid model generation, which makes a significant impact on both CNN/Daily Mail and XSum summaries generated using GPT-2. The improvements on fact preservation in the generated summaries indicates the effectiveness of adopting this prefix-tuning-based method in knowledge-enhanced document summarization, and also shows a great potential on other natural language processing tasks. | 翻訳日:2023-01-30 15:27:04 公開日:2023-01-27 |
# 音声翻訳のための事前学習:CTCが最適な交通手段に Pre-training for Speech Translation: CTC Meets Optimal Transport ( http://arxiv.org/abs/2301.11716v1 ) ライセンス: Link先を確認 | Phuong-Hang Le, Hongyu Gong, Changhan Wang, Juan Pino, Benjamin Lecouteux, Didier Schwab | (参考訳) 音声とテキストのモダリティのギャップは、音声からテキストへの翻訳(ST)において大きな課題である。
このギャップを減らすために異なる方法が提案されているが、そのほとんどはstトレーニングのアーキテクチャ変更を必要とする。
本稿では,STモデルの変更を必要とせず,事前学習段階でこの問題を軽減することを提案する。
まず,コネクショニスト時間分類(ctc)の損失は,設計によってモダリティギャップを低減できることを示す。
より一般的なクロスエントロピー損失と定量的に比較し,CTCによる事前学習が常に最終ST精度を向上させることを示す。
それにもかかわらず、CTCは部分解であり、第2の貢献として、CTCと最適輸送を組み合わせた新しい事前学習法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
標準のCoVoST-2およびMuST-Cデータセットに対する大規模な実験により、バニラエンコーダデコーダ変換器に適用した事前学習手法が、外部データ設定下での最先端性能を実現し、最近の強力なマルチタスク学習システムに匹敵する性能を示した。
最後に、この手法はマルチタスクシステム上でも適用可能であり、これらのモデルをさらに改善することができる。 The gap between speech and text modalities is a major challenge in speech-to-text translation (ST). Different methods have been proposed for reducing this gap, but most of them require architectural changes in ST training. In this work, we propose to mitigate this issue at the pre-training stage, requiring no change in the ST model. First, we show that the connectionist temporal classification (CTC) loss can reduce the modality gap by design. We provide a quantitative comparison with the more common cross-entropy loss, showing that pre-training with CTC consistently achieves better final ST accuracy. Nevertheless, CTC is only a partial solution and thus, in our second contribution, we propose a novel pre-training method combining CTC and optimal transport to further reduce this gap. Our method pre-trains a Siamese-like model composed of two encoders, one for acoustic inputs and the other for textual inputs, such that they produce representations that are close to each other in the Wasserstein space. Extensive experiments on the standard CoVoST-2 and MuST-C datasets show that our pre-training method applied to the vanilla encoder-decoder Transformer achieves state-of-the-art performance under the no-external-data setting, and performs on par with recent strong multi-task learning systems trained with external data. Finally, our method can also be applied on top of these multi-task systems, leading to further improvements for these models. | 翻訳日:2023-01-30 15:26:53 公開日:2023-01-27 |
# 遺伝子チームはこの分野にいる:高次元モデリングを用いた遺伝子ネットワークの変異評価 Gene Teams are on the Field: Evaluation of Variants in Gene-Networks Using High Dimensional Modelling ( http://arxiv.org/abs/2301.11763v1 ) ライセンス: Link先を確認 | Suha Tuna, Cagri Gulec, Emrah Yucesan, Ayse Cirakoglu and Yelda Tarkan Arguden | (参考訳) 医学遺伝学では、それぞれの遺伝子変異はその臨床的重要性に関して独立した実体として評価される。
しかし、ほとんどの複雑な疾患では、特定の遺伝子ネットワークにおける変異の組み合わせが、特定の単一の変異体の存在よりも優先される。
複雑な疾患の場合、特定の変種チームの成功レベルを考慮することで、疾患の状態を評価することができる。
本稿では,遺伝子ネットワーク内のすべての変異を解析する高次元モデリング手法を提案する。
本手法を評価するため,mTORとTGF-Betaの2つの遺伝子ネットワークを選択した。
各経路毎に400のコントロールと400の患者グループサンプルを生成した。
mTORとTGF-?
経路は、それぞれ異なる大きさの31と93の遺伝子を含む。
各遺伝子配列に対するカオスゲーム表現画像を作成し,2次元二分パターンを得た。
これらのパターンは順に配列され、各遺伝子ネットワークに対して3次元テンソル構造が達成された。
各データサンプルの特徴は、3次元データに拡張多変量製品表現を利用して取得した。
機能はトレーニングとテストベクターとして分割された。
サポートベクターマシンの分類モデルを訓練するためにトレーニングベクターが採用された。
我々は,mTORとTGF-Betaネットワークの分類精度を,限られたトレーニングサンプルを用いて96%以上,99%以上達成した。 In medical genetics, each genetic variant is evaluated as an independent entity regarding its clinical importance. However, in most complex diseases, variant combinations in specific gene networks, rather than the presence of a particular single variant, predominates. In the case of complex diseases, disease status can be evaluated by considering the success level of a team of specific variants. We propose a high dimensional modelling based method to analyse all the variants in a gene network together. To evaluate our method, we selected two gene networks, mTOR and TGF-Beta. For each pathway, we generated 400 control and 400 patient group samples. mTOR and TGF-? pathways contain 31 and 93 genes of varying sizes, respectively. We produced Chaos Game Representation images for each gene sequence to obtain 2-D binary patterns. These patterns were arranged in succession, and a 3-D tensor structure was achieved for each gene network. Features for each data sample were acquired by exploiting Enhanced Multivariance Products Representation to 3-D data. Features were split as training and testing vectors. Training vectors were employed to train a Support Vector Machines classification model. We achieved more than 96% and 99% classification accuracies for mTOR and TGF-Beta networks, respectively, using a limited amount of training samples. | 翻訳日:2023-01-30 15:20:05 公開日:2023-01-27 |
# アナログ光コンピューティングのルネサンス Renaissance of Analogue Optical Computing ( http://arxiv.org/abs/2301.11760v1 ) ライセンス: Link先を確認 | Nikita Stroev and Natalia G. Berloff | (参考訳) 本稿では,光子および光学関連技術を用いて効率的に計算を行う光コンピューティングの物理と数学について検討する。
我々は、光コンピューティングの歴史と開発、およびニューラルネットワークの実装に焦点を当てた現代のアナログコンピューティングプラットフォームとアーキテクチャについて論じる。
さらに,光光学器の特殊目的オプティミザと数学的記述,およびそれらの応用と相互接続について述べる。
また、光学コンピューティングにおける技術開発の主な方向性と、その効率性の評価についても検討する。
最後に、将来の展望と光量子コンピューティングの領域について論じる。
本稿では,光コンピューティングの現状と応用の可能性について概説する。 This review paper examines the physics and mathematics of optical computing, which utilizes photons and optics-related technologies for effective and efficient computational purposes. We discuss the history and development of optical computing, as well as modern analogue computing platforms and architectures, focusing on neural network implementations. Furthermore, we cover special-purpose optimisers and mathematical descriptions of optical optimisers, as well as their various applications and interconnections. We also explore the main directions of technological development in optical computing and estimates of its efficiency. Finally, we discuss future perspectives and the domain of optical quantum computing. This review provides a comprehensive overview of the current state-of-the-art in optical computing and its potential applications. | 翻訳日:2023-01-30 15:19:48 公開日:2023-01-27 |
# Mo\^usai: 長期遅延拡散によるテキスト・音楽生成 Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion ( http://arxiv.org/abs/2301.11757v1 ) ライセンス: Link先を確認 | Flavio Schneider, Zhijing Jin, Bernhard Sch\"olkopf | (参考訳) 画像生成のための拡散モデルの普及は、メディア合成の他の分野におけるこれらのモデルの可能性に新たな注目を集めている。
まだ十分に検討されていない分野の1つは、音楽生成への拡散モデルの適用である。
音楽生成には、時間次元、長期構造、重なり合う複数の音の層、訓練されたリスナーだけが検出できるニュアンスなど、複数の側面を扱う必要がある。
本研究では,テキスト条件音楽生成における拡散モデルの可能性について検討する。
テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード潜時拡散法を開発した。
各モデルに対して、単一のコンシューマGPU上でリアルタイムにターゲットとする、合理的な推論速度の維持に努めます。
トレーニングされたモデルに加えて、この分野の今後の作業を促進することを期待して、オープンソースライブラリのコレクションを提供します。
https://bit.ly/anonymous-mousai - すべてのモデルのすべての音楽サンプル: https://bit.ly/audio-diffusion - Codes: https://github.com/archinetai/audio-diffusion-pytorch The recent surge in popularity of diffusion models for image generation has brought new attention to the potential of these models in other areas of media synthesis. One area that has yet to be fully explored is the application of diffusion models to music generation. Music generation requires to handle multiple aspects, including the temporal dimension, long-term structure, multiple layers of overlapping sounds, and nuances that only trained listeners can detect. In our work, we investigate the potential of diffusion models for text-conditional music generation. We develop a cascading latent diffusion approach that can generate multiple minutes of high-quality stereo music at 48kHz from textual descriptions. For each model, we make an effort to maintain reasonable inference speed, targeting real-time on a single consumer GPU. In addition to trained models, we provide a collection of open-source libraries with the hope of facilitating future work in the field. We open-source the following: - Music samples for this paper: https://bit.ly/anonymous-mousai - All music samples for all models: https://bit.ly/audio-diffusion - Codes: https://github.com/archinetai/audio-diffusion-pytorch | 翻訳日:2023-01-30 15:19:38 公開日:2023-01-27 |
# 2つの単光子状態を持つ時間周波数メトロロジー:位相空間像とホン・ウー・マンデル干渉計 Time-frequency metrology with two single-photon states: phase space picture and the Hong-Ou-Mandel interferometer ( http://arxiv.org/abs/2301.11755v1 ) ライセンス: Link先を確認 | \'Eloi Descamps, Arne Keller, P\'erola Milman | (参考訳) 我々は時間周波数連続変数を標準フレームワークとして、識別可能な補助モードを占有する個々の光子の部分空間における光の状態を記述する。
我々は、この設定により、二次変数に対して既に広範囲に研究されているmetrological property と phase space picture の間の相互作用に適応する。
また、これまで精度の限界が飽和していたHong-Ou-Mandel干渉計の詳細を議論し、この実験の一般化されたバージョンの偶然確率の一般公式を提供する。
得られた式から,入力光子に適用される任意のユニタリ変換に対して,この測定設定の最適性を体系的に解析する。
具体的な例として、特定の状態の時間-周波数位相空間における変換と回転として表現できる変換について論じる。 We use time-frequency continuous variables as the standard framework to describe states of light in the subspace of individual photons occupying distinguishable auxiliary modes. We adapt to this setting the interplay between metrological properties and the phase space picture already extensively studied for quadrature variables. We also discuss in details the Hong-Ou-Mandel interferometer, which was previously shown to saturate precision limits, and provide a general formula for the coincidence probability of a generalized version of this experiment. From the obtained expression, we systematically analyze the optimality of this measurement setting for arbitrary unitary transformations applied to each one of the input photons. As concrete examples, we discuss transformations which can be represented as translations and rotations in time-frequency phase space for some specific states. | 翻訳日:2023-01-30 15:19:21 公開日:2023-01-27 |
# D'etection d'Objets dans les documents num\'eris\'es par r'seaux de neurones profonds D\'etection d'Objets dans les documents num\'eris\'es par r\'eseaux de neurones profonds ( http://arxiv.org/abs/2301.11753v1 ) ライセンス: Link先を確認 | M\'elodie Boillet | (参考訳) 本論文では,テキスト行の検出,動作分割,書き込みサポートの検出など,文書レイアウト解析に関連する複数のタスクについて検討する。
そこで本研究では,2つの異なるアプローチによる深層神経モデルを提案する。
我々は、利用可能な限られたトレーニングデータを含む文書処理に関する困難を考慮し、オブジェクト検出のためのモデルを提案することを目的としている。
本稿では,画素レベル検出モデルと2番目のオブジェクトレベル検出モデルを提案する。
まず,パラメータが少なく,予測が高速で,トレーニングデータの少ない精度で予測マスクが得られる検出モデルを提案する。
我々は,多くのデータセットの収集・統一戦略を実装し,サンプル外文書への高一般化能力を示す単一行検出モデルの訓練に利用した。
また,変圧器に基づく検出モデルを提案する。
このようなモデルの設計では、文書画像のオブジェクト検出のタスクを再定義し、異なるアプローチを研究する必要があった。
本研究では,長方形を囲む物体の座標を画素分類により逐次予測する物体検出手法を提案する。
この戦略により、パラメータの少ない高速モデルが得られる。
最後に、産業環境では、注釈のない新しいデータがしばしば利用できる。
したがって、この新しいデータにモデルを適用する場合、できるだけ新しいアノテートされたサンプルをシステムに提供することが期待されている。
そのため、手動アノテーションに関するサンプルの選択は、適応を成功させるために重要である。
この目的のために,物体検出のための異なるアプローチによる信頼度推定器を提案する。
これらの推定器は、性能を最適化しながら、注釈付きデータ量を大幅に削減する。 In this thesis, we study multiple tasks related to document layout analysis such as the detection of text lines, the splitting into acts or the detection of the writing support. Thus, we propose two deep neural models following two different approaches. We aim at proposing a model for object detection that considers the difficulties associated with document processing, including the limited amount of training data available. In this respect, we propose a pixel-level detection model and a second object-level detection model. We first propose a detection model with few parameters, fast in prediction, and which can obtain accurate prediction masks from a reduced number of training data. We implemented a strategy of collection and uniformization of many datasets, which are used to train a single line detection model that demonstrates high generalization capabilities to out-of-sample documents. We also propose a Transformer-based detection model. The design of such a model required redefining the task of object detection in document images and to study different approaches. Following this study, we propose an object detection strategy consisting in sequentially predicting the coordinates of the objects enclosing rectangles through a pixel classification. This strategy allows obtaining a fast model with only few parameters. Finally, in an industrial setting, new non-annotated data are often available. Thus, in the case of a model adaptation to this new data, it is expected to provide the system as few new annotated samples as possible. The selection of relevant samples for manual annotation is therefore crucial to enable successful adaptation. For this purpose, we propose confidence estimators from different approaches for object detection. We show that these estimators greatly reduce the amount of annotated data while optimizing the performances. | 翻訳日:2023-01-30 15:19:07 公開日:2023-01-27 |
# 深度差部分空間におけるビュー間深度一貫性試験 Inter-View Depth Consistency Testing in Depth Difference Subspace ( http://arxiv.org/abs/2301.11752v1 ) ライセンス: Link先を確認 | Pravin Kumar Rana and Markus Flierl | (参考訳) マルチビュー深度画像は、自由視点テレビにおいて重要な役割を果たす。
この技術は、視聴者がダイナミックな現実世界のシーンで自由に動けるように、高品質な仮想ビュー合成を必要とする。
異なる視点の深度画像は、任意の数の新しいビューを合成するために使用される。
通常、複数の視点における深度画像はステレオマッチングアルゴリズムによって個別に推定されるため、インタビュー一貫性の欠如が示される。
この矛盾はビュー合成の品質に悪影響を及ぼす。
本論文では,複数の視点にまたがるシーンの深度表現を強化するために,深度差部分空間における深度整合性試験法を提案する。
さらに,得られた一貫性情報を用いて任意の視点における仮想ビューの視覚品質を向上させるビュー合成アルゴリズムを提案する。
本手法は,視間一貫性を効率的にテストできる深度差測定のための線形部分空間の探索に有用である。
これにより,本手法は現実世界のシーンの深度情報を強化することができる。
一貫性適応ビュー合成と組み合わせて、自由視点ユーザの視覚的体験を改善する。
実験の結果,本手法は最大1.4dbの仮想ビューの客観的な品質向上を実現した。
主観的品質の利点も示される。 Multiview depth imagery will play a critical role in free-viewpoint television. This technology requires high quality virtual view synthesis to enable viewers to move freely in a dynamic real world scene. Depth imagery at different viewpoints is used to synthesize an arbitrary number of novel views. Usually, depth images at multiple viewpoints are estimated individually by stereo-matching algorithms, and hence, show lack of interview consistency. This inconsistency affects the quality of view synthesis negatively. This paper proposes a method for depth consistency testing in depth difference subspace to enhance the depth representation of a scene across multiple viewpoints. Furthermore, we propose a view synthesis algorithm that uses the obtained consistency information to improve the visual quality of virtual views at arbitrary viewpoints. Our method helps us to find a linear subspace for our depth difference measurements in which we can test the inter-view consistency efficiently. With this, our approach is able to enhance the depth information for real world scenes. In combination with our consistency-adaptive view synthesis, we improve the visual experience of the free-viewpoint user. The experiments show that our approach enhances the objective quality of virtual views by up to 1.4 dB. The advantage for the subjective quality is also demonstrated. | 翻訳日:2023-01-30 15:18:44 公開日:2023-01-27 |
# ニューラルネットワーク翻訳のためのマルチタスク多段階遷移学習フレームワーク A Multi-task Multi-stage Transitional Training Framework for Neural Chat Translation ( http://arxiv.org/abs/2301.11749v1 ) ライセンス: Link先を確認 | Chulun Zhou, Yunlong Liang, Fandong Meng, Jie Zhou, Jinan Xu, Hongji Wang, Min Zhang and Jinsong Su | (参考訳) neural chat translation (nct)は、異なる言語の話者間の言語間チャットを翻訳することを目的としている。
既存の文脈対応NMTモデルは、以下の固有の問題により満足な性能を達成できない。
1) 注釈付きバイリンガル対話の限られた資源
2) 会話特性のモデル化の無視
3) 異なるステージ間のトレーニングの不一致。
本稿では,多言語間チャット翻訳データセットと追加の単言語対話を用いてnctモデルを訓練するマルチタスク多段階トランザクショナル(mmt)トレーニングフレームワークを提案する。
nctモデルに対話コヒーレンスと話者特性のモデル化を導入するため,発話識別と話者識別という2つの補助タスクを精巧に設計した。
訓練は3つの段階からなる。
1) 大規模並列コーパスにおける文レベルの事前訓練
2 追加の単言語対話を用いた補助作業による中間訓練
3) 段階的遷移を伴う文脈対応微調整。
特に第2段階は、事前訓練と微調整の段階間の訓練の相違を軽減する中間段階として機能する。
さらに,段階遷移をよりスムーズにするために,段階遷移戦略,すなわちモノリンガル対話からバイリンガル対話へ徐々に移行する戦略を用いてNCTモデルを訓練する。
2つの言語ペアに関する広範な実験により,提案するトレーニングフレームワークの有効性と優位性が実証された。 Neural chat translation (NCT) aims to translate a cross-lingual chat between speakers of different languages. Existing context-aware NMT models cannot achieve satisfactory performances due to the following inherent problems: 1) limited resources of annotated bilingual dialogues; 2) the neglect of modelling conversational properties; 3) training discrepancy between different stages. To address these issues, in this paper, we propose a multi-task multi-stage transitional (MMT) training framework, where an NCT model is trained using the bilingual chat translation dataset and additional monolingual dialogues. We elaborately design two auxiliary tasks, namely utterance discrimination and speaker discrimination, to introduce the modelling of dialogue coherence and speaker characteristic into the NCT model. The training process consists of three stages: 1) sentence-level pre-training on large-scale parallel corpus; 2) intermediate training with auxiliary tasks using additional monolingual dialogues; 3) context-aware fine-tuning with gradual transition. Particularly, the second stage serves as an intermediate phase that alleviates the training discrepancy between the pre-training and fine-tuning stages. Moreover, to make the stage transition smoother, we train the NCT model using a gradual transition strategy, i.e., gradually transiting from using monolingual to bilingual dialogues. Extensive experiments on two language pairs demonstrate the effectiveness and superiority of our proposed training framework. | 翻訳日:2023-01-30 15:18:11 公開日:2023-01-27 |
# Side Auth: 認証のための仮想センサの合成 Side Auth: Synthesizing Virtual Sensors for Authentication ( http://arxiv.org/abs/2301.11745v1 ) ライセンス: Link先を確認 | Yan Long, Kevin Fu | (参考訳) 組み込みセキュリティ研究コミュニティはアナログセンサーサイドチャネルを減らすことでシステムを保護することを目標としているが、我々の研究は、センサーサイドチャネルはディフェンダーにとって有益であると主張している。
本研究は,既存の回路から仮想センサを合成し,物理センサの計測値を認証する一般的な問題を紹介する。
本手法の適用方法について検討し,センサ側チャネルの予備分析フレームワークと定義を提案する。
一般的な概念を説明するために,カメラモーション側チャネルから仮想慣性測定ユニットを合成するための概念実証ケーススタディを提案する。
私たちの研究は、このテクニックを、シリコンマスクのスプーフィング攻撃から顔認識を保護するために応用する例も提供しています。
最後に、認証中において、そのサイドチャネルがディフェンダーに利益をもたらすかという下流の問題について議論する。 While the embedded security research community aims to protect systems by reducing analog sensor side channels, our work argues that sensor side channels can be beneficial to defenders. This work introduces the general problem of synthesizing virtual sensors from existing circuits to authenticate physical sensors' measurands. We investigate how to apply this approach and present a preliminary analytical framework and definitions for sensor side channels. To illustrate the general concept, we provide a proof-of-concept case study to synthesize a virtual inertial measurement unit from a camera motion side channel. Our work also provides an example of applying this technique to protect facial recognition against silicon mask spoofing attacks. Finally, we discuss downstream problems of how to ensure that side channels benefit the defender, but not the adversary, during authentication. | 翻訳日:2023-01-30 15:17:43 公開日:2023-01-27 |
# グラフ構造化データのグラフ自由学習:より効率的で正確な時空間学習の視点 Graph-Free Learning in Graph-Structured Data: A More Efficient and Accurate Spatiotemporal Learning Perspective ( http://arxiv.org/abs/2301.11742v1 ) ライセンス: Link先を確認 | Xu Wang, Pengfei Gu, Pengkun Wang, Binwu Wang, Zhengyang Zhou, Lei Bai, Yang Wang | (参考訳) 収集した時空間データから時空間相関を抽出する時空間学習は近年研究のホットスポットとなっている。
また、時空間データに固有のグラフ構造を考えると、近年の研究は、グラフ畳み込みネットワーク(GCN)を用いて、隣接行列のガイダンスで頂点特徴を集約することで空間依存を捉えることに重点を置いている。
本稿では,広範かつ深層的な実験により,既存の時空間グラフ学習モデルを包括的に分析し,グラフ学習の性能向上の鍵と考えられる設計戦略による隣接行列の抽出がほとんど効果がないことを示す。
一方,これらの実験結果から,頂点の集約方法よりも集約自体が重要であることも判明した。
これらの予備的手法により、時空間グラフ学習における空間相関を捉えるための階層正規化に基づく新しいグラフ自由空間学習モジュールが開発された。
提案したGFSモジュールは、すべてのグラフ畳み込みコンポーネントを置き換えるために、既存のモデルに簡単にプラグインできる。
厳密な理論的証明は、gfsの時間複雑性がグラフ畳み込み演算よりも著しく優れていることを示している。
グラフ構造化データ,特に大規模グラフデータの処理において,効率と学習効果の両面からGFSの優位性を検証した。 Spatiotemporal learning, which aims at extracting spatiotemporal correlations from the collected spatiotemporal data, is a research hotspot in recent years. And considering the inherent graph structure of spatiotemporal data, recent works focus on capturing spatial dependencies by utilizing Graph Convolutional Networks (GCNs) to aggregate vertex features with the guidance of adjacency matrices. In this paper, with extensive and deep-going experiments, we comprehensively analyze existing spatiotemporal graph learning models and reveal that extracting adjacency matrices with carefully design strategies, which are viewed as the key of enhancing performance on graph learning, are largely ineffective. Meanwhile, based on these experiments, we also discover that the aggregation itself is more important than the way that how vertices are aggregated. With these preliminary, a novel efficient Graph-Free Spatial (GFS) learning module based on layer normalization for capturing spatial correlations in spatiotemporal graph learning. The proposed GFS module can be easily plugged into existing models for replacing all graph convolution components. Rigorous theoretical proof demonstrates that the time complexity of GFS is significantly better than that of graph convolution operation. Extensive experiments verify the superiority of GFS in both the perspectives of efficiency and learning effect in processing graph-structured data especially extreme large scale graph data. | 翻訳日:2023-01-30 15:17:28 公開日:2023-01-27 |
# 不確実性と時間的距離認識型カリキュラム目標生成による成果指向強化学習 Outcome-directed Reinforcement Learning by Uncertainty & Temporal Distance-Aware Curriculum Goal Generation ( http://arxiv.org/abs/2301.11741v1 ) ライセンス: Link先を確認 | Daesol Cho, Seungjae Lee, H. Jin Kim | (参考訳) 現在の強化学習(rl)は、望ましい結果や高い報酬がほとんど観測されない難解な探索問題を解決するときにしばしば発生する。
一連のサロゲートタスクを提案することで複雑なタスクを解くフレームワークであるカリキュラムRLは妥当な結果を示すが、以前の研究の多くは、事前のドメイン知識を使わずに、望ましい結果状態に調整されたガイダンスを得るメカニズムが存在しないため、カリキュラムを提案するのが困難である。
そこで本研究では,両部マッチング問題を解くことにより,結果指向のRLのための不確実性と時間的距離対応のカリキュラムゴール生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も向上した。
提案アルゴリズムは,これらの手法を,定量的かつ定性的な方法で,様々な困難なナビゲーションタスクやロボット操作タスクで著しく上回っていることを示す。 Current reinforcement learning (RL) often suffers when solving a challenging exploration problem where the desired outcomes or high rewards are rarely observed. Even though curriculum RL, a framework that solves complex tasks by proposing a sequence of surrogate tasks, shows reasonable results, most of the previous works still have difficulty in proposing curriculum due to the absence of a mechanism for obtaining calibrated guidance to the desired outcome state without any prior domain knowledge. To alleviate it, we propose an uncertainty & temporal distance-aware curriculum goal generation method for the outcome-directed RL via solving a bipartite matching problem. It could not only provide precisely calibrated guidance of the curriculum to the desired outcome states but also bring much better sample efficiency and geometry-agnostic curriculum goal proposal capability compared to previous curriculum RL methods. We demonstrate that our algorithm significantly outperforms these prior methods in a variety of challenging navigation tasks and robotic manipulation tasks in a quantitative and qualitative way. | 翻訳日:2023-01-30 15:17:09 公開日:2023-01-27 |
# 混合整数プログラミングによるニューラルネットワークの認証可逆性 Certified Invertibility in Neural Networks via Mixed-Integer Programming ( http://arxiv.org/abs/2301.11783v1 ) ライセンス: Link先を確認 | Tianqi Cui, Thomas Bertalan, George J. Pappas, Manfred Morari, Ioannis G. Kevrekidis and Mahyar Fazlyab | (参考訳) ニューラルネットワークは、ネットワークのアウトプットを劇的に変える小さな不可避な摂動によって、敵の攻撃に弱いことで悪名高い。
逆の方向には、ネットワークの決定を不変にする大きな意味のある摂動が存在するかもしれない(余分な不変性、非可逆性)。
我々は後者の現象を2つの文脈で研究する。
(a)離散時間力学系の識別、及び
(b)あるニューラルネットワークの出力を他のニューラルネットワークの出力(ニューラルネットワークマッチング)に校正すること。
reluネットワークと$l_p$ノルム(p=1,2,\infty$)については、これらの最適化問題を、動的システムの近似ニューラルネットワークに適用する混合整数プログラム(mips)として定式化する。
また、ニューラルネットワーク間の変換(例えば、異なるレベルのプルーニング)における可逆性認証の適用性についても論じる。 Neural networks are notoriously vulnerable to adversarial attacks -- small imperceptible perturbations that can change the network's output drastically. In the reverse direction, there may exist large, meaningful perturbations that leave the network's decision unchanged (excessive invariance, nonivertibility). We study the latter phenomenon in two contexts: (a) discrete-time dynamical system identification, as well as (b) calibration of the output of one neural network to the output of another (neural network matching). For ReLU networks and $L_p$ norms ($p=1,2,\infty$), we formulate these optimization problems as mixed-integer programs (MIPs) that apply to neural network approximators of dynamical systems. We also discuss the applicability of our results to invertibility certification in transformations between neural networks (e.g. at different levels of pruning). | 翻訳日:2023-01-30 15:09:49 公開日:2023-01-27 |
# 分類における動脈・てんかんの識別 Aleatoric and Epistemic Discrimination in Classification ( http://arxiv.org/abs/2301.11781v1 ) ライセンス: Link先を確認 | Hao Wang, Luxi He, Rui Gao, Flavio P. Calmon | (参考訳) 機械学習(ML)モデルは、モデル開発時の選択とデータ固有のバイアスにより、特定の集団群で過小評価される可能性がある。
我々は,mlパイプラインにおける識別源を,データ分布に固有のアリータ論的識別と,モデル開発における意思決定による認識論的識別の2つのクラスに分類する。
データ分布の完全な知識を仮定して、公平な制約の下でモデルの性能限界を決定することにより、アリータティックな識別を定量化する。
統計実験の比較にブラックウェルの結果を適用して,アレータティックな差別を特徴付ける方法を示す。
そこで我々は,モデルが公正性制約を課した精度と,アレタリック判別による限界とのギャップとして,てんかんの識別を定量化する。
このアプローチを既存の介入をベンチマークし、値が欠けているデータにおける公平性リスクを調査するために適用する。
以上の結果から,最先端の公正介入はてんかん差別の除去に有効であることが示唆された。
しかし、データが値が欠けている場合、弁別処理の改善の余地は依然として大きい。 Machine learning (ML) models can underperform on certain population groups due to choices made during model development and bias inherent in the data. We categorize sources of discrimination in the ML pipeline into two classes: aleatoric discrimination, which is inherent in the data distribution, and epistemic discrimination, which is due to decisions during model development. We quantify aleatoric discrimination by determining the performance limits of a model under fairness constraints, assuming perfect knowledge of the data distribution. We demonstrate how to characterize aleatoric discrimination by applying Blackwell's results on comparing statistical experiments. We then quantify epistemic discrimination as the gap between a model's accuracy given fairness constraints and the limit posed by aleatoric discrimination. We apply this approach to benchmark existing interventions and investigate fairness risks in data with missing values. Our results indicate that state-of-the-art fairness interventions are effective at removing epistemic discrimination. However, when data has missing values, there is still significant room for improvement in handling aleatoric discrimination. | 翻訳日:2023-01-30 15:09:36 公開日:2023-01-27 |
# ゼロ次最適化手法としての生体ニューラルネットワークにおける学習の解釈 Interpreting learning in biological neural networks as zero-order optimization method ( http://arxiv.org/abs/2301.11777v1 ) ライセンス: Link先を確認 | Johannes Schmidt-Hieber | (参考訳) 近年,ANN(Artificial Neural Network)の統計的理解に関する重要な進展が報告されている。
ANNは脳の機能によって動機づけられるが、いくつかの重要な側面において異なる。
特に、脳の学習が勾配降下に基づいていることは生物学的には理解できない。
本研究では,脳を教師あり学習の統計的方法とみなす。
主な貢献は、生物学的ニューラルネットワーク(BNN)における接続パラメータの局所的な更新規則をゼロ階最適化法に関連付けることである。 Recently, significant progress has been made regarding the statistical understanding of artificial neural networks (ANNs). ANNs are motivated by the functioning of the brain, but differ in several crucial aspects. In particular, it is biologically implausible that the learning of the brain is based on gradient descent. In this work we look at the brain as a statistical method for supervised learning. The main contribution is to relate the local updating rule of the connection parameters in biological neural networks (BNNs) to a zero-order optimization method. | 翻訳日:2023-01-30 15:09:08 公開日:2023-01-27 |
# 多様な人間選好からの強化学習 Reinforcement Learning from Diverse Human Preferences ( http://arxiv.org/abs/2301.11774v1 ) ライセンス: Link先を確認 | Wanqi Xue, Bo An, Shuicheng Yan, Zhongwen Xu | (参考訳) 報酬関数を設計する複雑さは、深層強化学習(RL)技術の幅広い応用にとって大きな障害となっている。
エージェントの望ましい行動や特性を記述することは、専門家にとっても難しい。
人間の嗜好(または嗜好に基づくRL)からの強化学習と呼ばれる新しいパラダイムが、行動軌跡内の人間の嗜好ラベルから報酬関数を学習する有望な解決策として登場した。
しかし,従来のRL法は,正確なオラクル選好ラベルの必要性によって制限されている。
本稿では,この制限に対処するため,人選好ラベルをクラウドソーシングし,人選好から学習する手法を開発した。
鍵となるアイデアは、潜在空間における正規化と修正を通じて報酬学習を安定させることである。
時間的整合性を確保するため、報酬モデルに強い制約が課せられ、その潜在空間は以前の分布に近くなる。
さらに、信頼性に基づく報酬モデルアンサンブル法は、より安定で信頼性の高い予測を生成するように設計されている。
提案手法はDMcontrol と Meta-world の様々なタスクでテストされ,様々なフィードバックから学習し,実世界の RL 手法への道を開く際に,既存の選好ベース RL アルゴリズムよりも一貫した,重要な改善が見られた。 The complexity of designing reward functions has been a major obstacle to the wide application of deep reinforcement learning (RL) techniques. Describing an agent's desired behaviors and properties can be difficult, even for experts. A new paradigm called reinforcement learning from human preferences (or preference-based RL) has emerged as a promising solution, in which reward functions are learned from human preference labels among behavior trajectories. However, existing methods for preference-based RL are limited by the need for accurate oracle preference labels. This paper addresses this limitation by developing a method for crowd-sourcing preference labels and learning from diverse human preferences. The key idea is to stabilize reward learning through regularization and correction in a latent space. To ensure temporal consistency, a strong constraint is imposed on the reward model that forces its latent space to be close to the prior distribution. Additionally, a confidence-based reward model ensembling method is designed to generate more stable and reliable predictions. The proposed method is tested on a variety of tasks in DMcontrol and Meta-world and has shown consistent and significant improvements over existing preference-based RL algorithms when learning from diverse feedback, paving the way for real-world applications of RL methods. | 翻訳日:2023-01-30 15:09:01 公開日:2023-01-27 |
# ディープニューラルネットワークを用いた自動変調分類 Automatic Modulation Classification with Deep Neural Networks ( http://arxiv.org/abs/2301.11773v1 ) ライセンス: Link先を確認 | Clayton Harper, Mitchell Thornton and Eric Larson | (参考訳) 自動変調分類は多くの現代のソフトウェア定義無線において望ましい特徴である。
近年,観測信号バーストの変調を自動分類するために,多くの畳み込み深層学習アーキテクチャが提案されている。
しかし、これらの異なるアーキテクチャと各デザイン要素の重要性に関する包括的な分析は行われていない。
したがって、これらの畳み込みニューラルネットワークの異なる設計にどのようなトレードオフがあるのかは不明である。
本研究では、自動変調分類のための多数のアーキテクチャを調査し、様々なハイパーパラメータと設計要素が自動変調分類性能に与える影響を総合的アブレーション研究する。
本研究では, 設計要素のサブセットを用いて, 性能の新たな状態が達成可能であることを示す。
特に, 拡張畳み込み, 統計プール, 圧縮・励起ユニットの組み合わせが, 最強の動作分類器となることを示す。
さらに、この最高の演奏者は、短い信号バースト、一般的な誤分類、異なる変調カテゴリーやモードでの演奏など、様々な基準で調べる。 Automatic modulation classification is a desired feature in many modern software-defined radios. In recent years, a number of convolutional deep learning architectures have been proposed for automatically classifying the modulation used on observed signal bursts. However, a comprehensive analysis of these differing architectures and importance of each design element has not been carried out. Thus it is unclear what tradeoffs the differing designs of these convolutional neural networks might have. In this research, we investigate numerous architectures for automatic modulation classification and perform a comprehensive ablation study to investigate the impacts of varying hyperparameters and design elements on automatic modulation classification performance. We show that a new state of the art in performance can be achieved using a subset of the studied design elements. In particular, we show that a combination of dilated convolutions, statistics pooling, and squeeze-and-excitation units results in the strongest performing classifier. We further investigate this best performer according to various other criteria, including short signal bursts, common misclassifications, and performance across differing modulation categories and modes. | 翻訳日:2023-01-30 15:08:40 公開日:2023-01-27 |
# CAPoW: コンテキスト対応AI支援による仕事ベースのDDoS防御の証明 CAPoW: Context-Aware AI-Assisted Proof of Work based DDoS Defense ( http://arxiv.org/abs/2301.11767v1 ) ライセンス: Link先を確認 | Trisha Chakraborty, Shaswata Mitra, Sudip Mittal | (参考訳) クリティカルサーバは、文脈的ネットワーク要求パターンを学習する人工知能(ai)が支援するpowシステムを使用して、ddos(distributed denial of service)攻撃に対して保護することができる。
本稿では,コンテキスト認識型PoWパズルを利用して通信中に遅延を適応的に注入する,コンテキスト認識型アンチDDoSフレームワークであるCAPoWを紹介する。
CAPoWでは、セキュリティ専門家が、AIシステムによって学習可能な関連する要求コンテキスト属性を定義することができる。
これらのコンテキスト属性は、ipアドレス、時間、フローレベル情報などのユーザ要求に関する情報を含むことができ、powパズルの難易度に影響を与える受信要求のコンテキストスコアを生成するために利用される。
これらのパズルは、サーバが要求を処理する前にユーザによって解決される必要があります。
パズルの解法は、受信する敵の要求の量を遅くする。
さらに、このフレームワークは要求毎にコストを発生させる敵を補完するので、敵がDDoS攻撃を長引かせるのに費用がかかる。
本稿では,CAPoWフレームワークの理論的基礎と,その実装と評価について述べる。 Critical servers can be secured against distributed denial of service (DDoS) attacks using proof of work (PoW) systems assisted by an Artificial Intelligence (AI) that learns contextual network request patterns. In this work, we introduce CAPoW, a context-aware anti-DDoS framework that injects latency adaptively during communication by utilizing context-aware PoW puzzles. In CAPoW, a security professional can define relevant request context attributes which can be learned by the AI system. These contextual attributes can include information about the user request, such as IP address, time, flow-level information, etc., and are utilized to generate a contextual score for incoming requests that influence the hardness of a PoW puzzle. These puzzles need to be solved by a user before the server begins to process their request. Solving puzzles slow down the volume of incoming adversarial requests. Additionally, the framework compels the adversary to incur a cost per request, hence making it expensive for an adversary to prolong a DDoS attack. We include the theoretical foundations of the CAPoW framework along with a description of its implementation and evaluation. | 翻訳日:2023-01-30 15:08:24 公開日:2023-01-27 |
# ExplainableFold: 説明可能なAIでAlphaFold予測を理解する ExplainableFold: Understanding AlphaFold Prediction with Explainable AI ( http://arxiv.org/abs/2301.11765v1 ) ライセンス: Link先を確認 | Juntao Tan, Yongfeng Zhang | (参考訳) 本稿では,タンパク質構造予測のためのaiフレームワークである explainsablefold を提案する。
この分野でAlphaFoldのようなAIベースの手法が成功したにも拘わらず、深層学習モデルのブラックボックスの性質のため、それらの予測の根底にある理由ははっきりしない。
そこで本研究では,タンパク質構造予測の反現実的説明を生成するために,生物学的原理に着想を得た反現実的学習フレームワークを提案する。
実験結果は,αfoldの予測に高品質な説明を生成できることを示し,アミノ酸が3dタンパク質構造に及ぼす影響をほぼ実験的に理解した。
この枠組みはタンパク質構造のより深い理解を促進する可能性がある。 This paper presents ExplainableFold, an explainable AI framework for protein structure prediction. Despite the success of AI-based methods such as AlphaFold in this field, the underlying reasons for their predictions remain unclear due to the black-box nature of deep learning models. To address this, we propose a counterfactual learning framework inspired by biological principles to generate counterfactual explanations for protein structure prediction, enabling a dry-lab experimentation approach. Our experimental results demonstrate the ability of ExplainableFold to generate high-quality explanations for AlphaFold's predictions, providing near-experimental understanding of the effects of amino acids on 3D protein structure. This framework has the potential to facilitate a deeper understanding of protein structures. | 翻訳日:2023-01-30 15:08:09 公開日:2023-01-27 |
# PECAN: バックドア攻撃に対する決定論的認証 PECAN: A Deterministic Certified Defense Against Backdoor Attacks ( http://arxiv.org/abs/2301.11824v1 ) ライセンス: Link先を確認 | Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni | (参考訳) ニューラルネットワークは、攻撃者がトレーニングセットを悪意を持って毒殺し、テスト入力にトリガーを挿入して被害者モデルの予測を変更するバックドア中毒攻撃に対して脆弱である。
既存のバックドア攻撃の防御は、正式な保証を提供しないか、コスト対計算と非効率な確率的保証を提供する。
PECANは,バックドア攻撃に対する効果的かつ認証されたアプローチである。
pecanの鍵となる洞察は、データを分離した分割でトレーニングされた一連のニューラルネットワークに、市販のテスト時間回避認証技術を適用することだ。
PECANを画像分類とマルウェア検出データセットで評価する。
以上の結果から,PECANは,(1)防衛力と効率の両面で最先端のバックドアディフェンスを著しく上回り,(2)実際のバックドアアタックでは,文献からのベースラインの範囲と比較して,桁違いに攻撃成功率を低下させることができることがわかった。 Neural networks are vulnerable to backdoor poisoning attacks, where the attackers maliciously poison the training set and insert triggers into the test input to change the prediction of the victim model. Existing defenses for backdoor attacks either provide no formal guarantees or come with expensive-to-compute and ineffective probabilistic guarantees. We present PECAN, an efficient and certified approach for defending against backdoor attacks. The key insight powering PECAN is to apply off-the-shelf test-time evasion certification techniques on a set of neural networks trained on disjoint partitions of the data. We evaluate PECAN on image classification and malware detection datasets. Our results demonstrate that PECAN can (1) significantly outperform the state-of-the-art certified backdoor defense, both in defense strength and efficiency, and (2) on real back-door attacks, PECAN can reduce attack success rate by order of magnitude when compared to a range of baselines from the literature. | 翻訳日:2023-01-30 15:02:12 公開日:2023-01-27 |
# HDPV-SLAM:Tilted LiDARとパノラマカメラを用いたモバイルマッピングシステムのためのハイブリッド奥行きパノラマ画像SLAM HDPV-SLAM: Hybrid Depth-augmented Panoramic Visual SLAM for Mobile Mapping System with Tilted LiDAR and Panoramic Visual Camera ( http://arxiv.org/abs/2301.11823v1 ) ライセンス: Link先を確認 | Mostafa Ahmadi, Amin Alizadeh Naeini, Zahra Arjmandi, Yujia Zhang, Mohammad Moein Sheikholeslami, and Gunho Sohn | (参考訳) 本論文では,パノラマカメラとマルチビームlidarスキャナを用いて高精度かつメートルスケールの車両軌跡を生成する,ハイブリッド奥行き誘導パノラマ視覚スラム (hdpv-slam) と呼ばれる新しい視覚同時測位・マッピング (slam) を提案する。
RGB-D SLAMはHDPV-SLAMの設計基盤として機能し、視覚的特徴に深度情報を加えた。
RGB-D SLAMシステムの性能を制限する2つの問題を克服しようとしている。
最初の障壁はライダー深度のばらばらさであり、rgb画像から抽出された視覚的な特徴との接続が困難である。
本稿では,ディープラーニング(DL)に基づく疎LiDAR深度を反復的に密度化するための深さ推定モジュールを提案する。
第2の課題は、パノラマカメラと傾斜したLiDARセンサの間に水平重なり合うカバーが欠如していることによる奥行き関係の課題に関するものである。
この難しさを克服するために,特徴三角法と深度推定という2つの独立した手順によって推定される深度情報を最適に組み合わせたハイブリッド深度関連モジュールを提案する。
このハイブリッド深度関連モジュールは、視覚的特徴追跡による三角深度と、特徴追跡の段階におけるDLベースの補正深度とのより正確な深度情報の使用を最大化する。
我々は、ヨーク大学とテレダイン・オプテック(YUTO)のMMSデータセットを用いて、HDPV-SLAMの性能を評価した。
実験の結果,提案した2つのモジュールはHDPV-SLAMの性能に大きく寄与し,SOTA(State-of-the-art)SLAMシステムよりも優れていた。 This paper proposes a novel visual simultaneous localization and mapping (SLAM), called Hybrid Depth-augmented Panoramic Visual SLAM (HDPV-SLAM), generating accurate and metrically scaled vehicle trajectories using a panoramic camera and a titled multi-beam LiDAR scanner. RGB-D SLAM served as the design foundation for HDPV-SLAM, adding depth information to visual features. It seeks to overcome the two problems that limit the performance of RGB-D SLAM systems. The first barrier is the sparseness of LiDAR depth, which makes it challenging to connect it with visual features extracted from the RGB image. We address this issue by proposing a depth estimation module for iteratively densifying sparse LiDAR depth based on deep learning (DL). The second issue relates to the challenges in the depth association caused by a significant deficiency of horizontal overlapping coverage between the panoramic camera and the tilted LiDAR sensor. To overcome this difficulty, we present a hybrid depth association module that optimally combines depth information estimated by two independent procedures, feature triangulation and depth estimation. This hybrid depth association module intends to maximize the use of more accurate depth information between the triangulated depth with visual features tracked and the DL-based corrected depth during a phase of feature tracking. We assessed HDPV-SLAM's performance using the 18.95 km-long York University and Teledyne Optech (YUTO) MMS dataset. Experimental results demonstrate that the proposed two modules significantly contribute to HDPV-SLAM's performance, which outperforms the state-of-the-art (SOTA) SLAM systems. | 翻訳日:2023-01-30 15:01:50 公開日:2023-01-27 |
# 単一エミッタナノレーザーの量子ノイズに対する確率論的アプローチ A stochastic approach to the quantum noise of a single-emitter nanolaser ( http://arxiv.org/abs/2301.11815v1 ) ライセンス: Link先を確認 | Matias Bundgaard-Nielsen and Emil Vosmar Denning and Marco Saldutti and Jesper M{\o}rk | (参考訳) エミッタ励起と光子数を整数値の確率変数とする唯一の仮定の下で、標準速度方程式モデルの確率的解釈を取り入れることで、単一エミッタナノレーザーの強度量子ノイズを正確に計算できることが示されている。
これは平均場限界を超えたレート方程式の妥当性を拡張し、少数のエミッターで失敗することが示される標準ランゲヴィンアプローチの使用を避ける。
このモデルは、相対強度雑音と二階強度相関関数 g(2)({\tau} )の完全な量子シミュレーションと比較して検証される。
驚くべきことに、全量子モデルが速度方程式に説明されない真空ラビ振動を示す場合でも、強度量子ノイズは確率的アプローチによって正しく予測される。
放射子と光子集団の単純な離散化を採用することで、レーザーの量子ノイズを記述するのに長い道のりが進む。
様々な応用が可能な新しい世代のナノレーザーをモデリングするための汎用的で使いやすいツールを提供するだけでなく、これらの結果はレーザーにおける量子ノイズの基本的な性質についての洞察を提供する。 It is shown that the intensity quantum noise of a single-emitter nanolaser can be accurately computed by adopting a stochastic interpretation of the standard rate equation model under the only assumption that the emitter excitation and photon number are stochastic variables with integer values. This extends the validity of rate equations beyond the mean-field limit and avoids using the standard Langevin approach, which is shown to fail for few emitters. The model is validated by comparison to full quantum simulations of the relative intensity noise and second-order intensity correlation function, g(2)({\tau} ). Surprisingly, even when the full quantum model displays vacuum Rabi oscillations, which are not accounted for by rate equations, the intensity quantum noise is correctly predicted by the stochastic approach. Adopting a simple discretization of the emitter and photon populations, thus, goes a long way in describing quantum noise in lasers. Besides providing a versatile and easy-to-use tool for modeling a new generation of nanolasers with many possible applications, these results provide insight into the fundamental nature of quantum noise in lasers. | 翻訳日:2023-01-30 15:01:18 公開日:2023-01-27 |
# BOMP-NAS:ベイズ最適化混合精度NAS BOMP-NAS: Bayesian Optimization Mixed Precision NAS ( http://arxiv.org/abs/2301.11810v1 ) ライセンス: Link先を確認 | David van Son, Floran de Putter, Sebastian Vogel, Henk Corporaal | (参考訳) Bayesian Optimization Mixed-Precision Neural Architecture Search (BOMP-NAS) は、ベイズ最適化(BO)と混合精度量子化(MP)の両方を活用する量子化対応ニューラルネットワーク探索(QA-NAS)のアプローチである。
その結果、NASループに量子化対応微調整(QAFT)を組み込むことは、低精度量子化の下で良好に動作するネットワークを見つけるために必要なステップであることが示唆された。
BOMP-NASは、設計コストをはるかに低くして、最先端のアートパフォーマンスを実現するニューラルネットワークを見つけることができる。
本研究は,BOMP-NASがこれらのニューラルネットワークを,最も近い関連研究に比べて6倍短い検索時間で見つけることができることを示した。 Bayesian Optimization Mixed-Precision Neural Architecture Search (BOMP-NAS) is an approach to quantization-aware neural architecture search (QA-NAS) that leverages both Bayesian optimization (BO) and mixed-precision quantization (MP) to efficiently search for compact, high performance deep neural networks. The results show that integrating quantization-aware fine-tuning (QAFT) into the NAS loop is a necessary step to find networks that perform well under low-precision quantization: integrating it allows a model size reduction of nearly 50\% on the CIFAR-10 dataset. BOMP-NAS is able to find neural networks that achieve state of the art performance at much lower design costs. This study shows that BOMP-NAS can find these neural networks at a 6x shorter search time compared to the closest related work. | 翻訳日:2023-01-30 15:00:58 公開日:2023-01-27 |
# PCV: ポイントクラウドベースのネットワーク検証器 PCV: A Point Cloud-Based Network Verifier ( http://arxiv.org/abs/2301.11806v1 ) ライセンス: Link先を確認 | Arup Kumar Sarker, Farzana Yasmin Ahmad and Matthew B. Dwyer | (参考訳) リアルタイムLiDARベースのポイントクラウドデータを用いた3Dビジョンは、特に物体の分類、セグメンテーション、検出に使用される知覚と予測モジュールにおいて、自律システム研究の重要な部分となった。
その成功にもかかわらず、ポイントクラウドベースのネットワークモデルは、複数の敵攻撃に対して脆弱であり、検証セットの変更の特定の要因が、よく訓練されたネットワークで顕著なパフォーマンス低下を引き起こす。
既存の検証器のほとんどは2次元畳み込みで完全に動作する。
複雑なアーキテクチャ、ハイパーパラメータの次元、および3次元畳み込みのため、検証者は基本的な層間検証を行うことができない。
検証を行わずに3次元視覚モデルの堅牢性を結論付けることは困難である。
なぜなら、モデルの有効性を損なうようなケースや逆入力が常に存在するからです。
本稿では, art 3d 分類器pointnet の状態の処理を成功させるポイントクラウドベースのネットワーク検証器について述べる。
訓練したポイントネットから抽出した特性を用いて,摂動入力の要因を変化させた。
我々は、モデル精度と特性係数への影響を計算し、提案したハイブリッド逆符号攻撃のような敵攻撃による摂動状態の小さなコレクションに対して、PointNetネットワークのロバスト性をテストする。
実験の結果, ポイントネットの弾性特性は, ハイブリッド型逆符号摂動戦略の影響を受けていることが明らかとなった。 3D vision with real-time LiDAR-based point cloud data became a vital part of autonomous system research, especially perception and prediction modules use for object classification, segmentation, and detection. Despite their success, point cloud-based network models are vulnerable to multiple adversarial attacks, where the certain factor of changes in the validation set causes significant performance drop in well-trained networks. Most of the existing verifiers work perfectly on 2D convolution. Due to complex architecture, dimension of hyper-parameter, and 3D convolution, no verifiers can perform the basic layer-wise verification. It is difficult to conclude the robustness of a 3D vision model without performing the verification. Because there will be always corner cases and adversarial input that can compromise the model's effectiveness. In this project, we describe a point cloud-based network verifier that successfully deals state of the art 3D classifier PointNet verifies the robustness by generating adversarial inputs. We have used extracted properties from the trained PointNet and changed certain factors for perturbation input. We calculate the impact on model accuracy versus property factor and can test PointNet network's robustness against a small collection of perturbing input states resulting from adversarial attacks like the suggested hybrid reverse signed attack. The experimental results reveal that the resilience property of PointNet is affected by our hybrid reverse signed perturbation strategy | 翻訳日:2023-01-30 15:00:40 公開日:2023-01-27 |
# レグレット境界付きダイレクトグラフによる分散オンライン帯域最適化 Decentralized Online Bandit Optimization on Directed Graphs with Regret Bounds ( http://arxiv.org/abs/2301.11802v1 ) ライセンス: Link先を確認 | Johan \"Ostman and Ather Gattami and Daniel Gillblad | (参考訳) 分散マルチプレイヤーゲームは$t$のラウンドでプレイされ、リーダー・フォローの階層構造は有向非循環グラフによって記述される。
各ラウンドにおいて、グラフ構造はプレイヤーの順番と、プレイヤーが互いのアクションをどのように観察するかを規定する。
各ラウンドの終了までに、全てのプレイヤーは、ジョイントアクションに基づいてジョイント・バンディット・リワードを受け取り、ジョイント・サブレグレットの最小化という目標に向けてプレイヤー戦略を更新するために使用される。
本稿では,単手マルチアームバンディット問題に触発された学習アルゴリズムを提案し,逆および確率バンディット報酬のラウンド数において,サブリニアジョイント擬似レグレットを実現することを示す。
さらに,中央集権的な設定と比較して,問題の分散性に起因するコストを定量化する。 We consider a decentralized multiplayer game, played over $T$ rounds, with a leader-follower hierarchy described by a directed acyclic graph. For each round, the graph structure dictates the order of the players and how players observe the actions of one another. By the end of each round, all players receive a joint bandit-reward based on their joint action that is used to update the player strategies towards the goal of minimizing the joint pseudo-regret. We present a learning algorithm inspired by the single-player multi-armed bandit problem and show that it achieves sub-linear joint pseudo-regret in the number of rounds for both adversarial and stochastic bandit rewards. Furthermore, we quantify the cost incurred due to the decentralized nature of our problem compared to the centralized setting. | 翻訳日:2023-01-30 15:00:20 公開日:2023-01-27 |
# 分類精度から適切なスコアリングルールへ:確率的トップリスト予測の解明可能性 From Classification Accuracy to Proper Scoring Rules: Elicitability of Probabilistic Top List Predictions ( http://arxiv.org/abs/2301.11797v1 ) ライセンス: Link先を確認 | Johannes Resin | (参考訳) 不確実性に直面して、予測に関する文献では、確率的評価の必要性が長年認識されてきた。
しかし分類において、分類器の比較評価は、確率的不確かさの定量化を無視する単純な精度尺度を用いて、単一のクラスを特定する予測にしばしば焦点をあてる。
本稿では,1クラス予測と予測分布のギャップを橋渡しする分類における新しい予測手法として,確率的トップリストを提案する。
確率的トップリスト関数は、厳密な一貫した評価指標を用いることで要求される。
提案する評価指標は, 対称的適切な採点規則に基づいており, 単類点予測から完全に特定された予測分布まで, 様々な種類の予測を比較している。
ブライアのスコアは、この種の比較に特に適した計量である。 In the face of uncertainty, the need for probabilistic assessments has long been recognized in the literature on forecasting. In classification, however, comparative evaluation of classifiers often focuses on predictions specifying a single class through the use of simple accuracy measures, which disregard any probabilistic uncertainty quantification. I propose probabilistic top lists as a novel type of prediction in classification, which bridges the gap between single-class predictions and predictive distributions. The probabilistic top list functional is elicitable through the use of strictly consistent evaluation metrics. The proposed evaluation metrics are based on symmetric proper scoring rules and admit comparison of various types of predictions ranging from single-class point predictions to fully specified predictive distributions. The Brier score yields a metric that is particularly well suited for this kind of comparison. | 翻訳日:2023-01-30 15:00:03 公開日:2023-01-27 |
# Call for Papers -- The BabyLM Challenge: 発達可能コーパスにおけるサンプル効率事前学習 Call for Papers -- The BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus ( http://arxiv.org/abs/2301.11796v1 ) ライセンス: Link先を確認 | Alex Warstadt, Leshem Choshen, Aaron Mueller, Adina Williams, Ethan Wilcox, Chengxu Zhuang | (参考訳) 本稿では,babylm challenge: sample- efficient pretraining on a developmentally plausible corpusについて述べる。
この共有タスクは、小規模言語モデリング、人間言語獲得、低リソースnlp、認知モデリングに関心を持つ参加者を対象としている。
CoNLL と CMCL との連携により,子どもへの入力にインスパイアされたデータから得られた限られたサイズのコーパスで事前学習を行うためのプラットフォームを提供する。
このタスクには3つのトラックがあり、そのうち2つはトレーニングデータを10M語と100M語のプレリリースデータセットに制限し、アーキテクチャのバリエーション、自己管理目的、カリキュラム学習といったアプローチの探索に重点を置いている。
最後のトラックは使用するテキストの量のみを制限し、データの選択、そのドメイン、さらにはそのモダリティ(テキスト以外のソースからのデータは歓迎される)の革新を可能にする。
対象とする構文評価や自然言語理解など,さまざまなベンチマークやタスクでモデルをスコア付けする共有評価パイプラインをリリースする予定です。 We present the call for papers for the BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus. This shared task is intended for participants with an interest in small scale language modeling, human language acquisition, low-resource NLP, and cognitive modeling. In partnership with CoNLL and CMCL, we provide a platform for approaches to pretraining with a limited-size corpus sourced from data inspired by the input to children. The task has three tracks, two of which restrict the training data to pre-released datasets of 10M and 100M words and are dedicated to explorations of approaches such as architectural variations, self-supervised objectives, or curriculum learning. The final track only restricts the amount of text used, allowing innovation in the choice of the data, its domain, and even its modality (i.e., data from sources other than text is welcome). We will release a shared evaluation pipeline which scores models on a variety of benchmarks and tasks, including targeted syntactic evaluations and natural language understanding. | 翻訳日:2023-01-30 14:59:49 公開日:2023-01-27 |
# 階層型グラフによるマルチホップ質問応答 Graph Attention with Hierarchies for Multi-hop Question Answering ( http://arxiv.org/abs/2301.11792v1 ) ライセンス: Link先を確認 | Yunjie He, Philip John Gorinski, Ieva Staliunaite, Pontus Stenetorp | (参考訳) マルチホップQA(Question Answering)は、複数の文書にまたがる質問に対する答えを見つけるタスクである。
近年、この複雑なタスクに取り組むためのディープラーニングベースのアプローチや、モデルを評価するための標準ベンチマークがいくつか提案されている。
本稿では,よく確立されたhotpotqaベンチマークデータセットに注目し,モデルの応答スパン抽出と文の予測を支援する。
階層グラフネットワーク(HGN:hierarchical Graph Network)であるHotpotQAのための,SOTA Graph Neural Network(GNN)ベースのモデルの拡張を2つ提示する。
i)クエリとコンテキスト文ノードの間に新しいエッジを導入することで、元の階層構造を完成させる。
(II) グラフ伝播過程において, グラフ階層を用いてノード表現を逐次的に更新する階層型グラフ注意ネットワークGATH(Graph Attention with Hierarchies)の新たな拡張を提案する。
ホットポットQA実験は,提案した修正の効率を実証し,モデル関連変数の効果に関する仮定を支持する。 Multi-hop QA (Question Answering) is the task of finding the answer to a question across multiple documents. In recent years, a number of Deep Learning-based approaches have been proposed to tackle this complex task, as well as a few standard benchmarks to assess models Multi-hop QA capabilities. In this paper, we focus on the well-established HotpotQA benchmark dataset, which requires models to perform answer span extraction as well as support sentence prediction. We present two extensions to the SOTA Graph Neural Network (GNN) based model for HotpotQA, Hierarchical Graph Network (HGN): (i) we complete the original hierarchical structure by introducing new edges between the query and context sentence nodes; (ii) in the graph propagation step, we propose a novel extension to Hierarchical Graph Attention Network GATH (Graph ATtention with Hierarchies) that makes use of the graph hierarchy to update the node representations in a sequential fashion. Experiments on HotpotQA demonstrate the efficiency of the proposed modifications and support our assumptions about the effects of model related variables. | 翻訳日:2023-01-30 14:59:31 公開日:2023-01-27 |
# コントラスト学習における3次元の活用 Leveraging the Third Dimension in Contrastive Learning ( http://arxiv.org/abs/2301.11790v1 ) ライセンス: Link先を確認 | Sumukh Aithal, Anirudh Goyal, Alex Lamb, Yoshua Bengio, Michael Mozer | (参考訳) SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
ほとんどのssl手法は、2d画像ピクセルマップを変換して得られる拡張に依存する。
これらの拡張は、生物の視覚が没入的な3次元、時間的に連続した環境で起こるという事実を無視し、低レベルの生物の視覚は深さの手がかりに大きく依存している。
事前訓練された最先端単分子RGB-to-deepthモデル(the \emph{Depth Prediction Transformer}, Ranftl et al., 2021)の信号を用いて、SSLフレームワークに奥行き信号を統合する2つの異なるアプローチを探索する。
まず,rgb+ deep 入力表現を用いたコントラスト学習の評価を行う。
第2に、奥行き信号を用いて、わずかに異なるカメラ位置から新しいビューを生成し、コントラスト学習のための3D拡張を生成する。
我々は、ImageNette(ImageNetの10クラスサブセット)、ImageNet-100、ImageNet-1kデータセットを使用して、BYOL、SimSiam、SwaVの3つの異なるSSLメソッドに対して、これらの2つのアプローチを評価する。
奥行き信号を取り込むアプローチはどちらもベースラインssl法のロバスト性と一般化を改善しているが、最初のアプローチ(奥行きチャネル結合)は優れている。
例えば、深度チャネルを付加したbyolは、imagenetteでは85.3\%から88.0\%、imagenet-cでは84.1\%から87.0\%へと下流分類精度が向上する。 Self-Supervised Learning (SSL) methods operate on unlabeled data to learn robust representations useful for downstream tasks. Most SSL methods rely on augmentations obtained by transforming the 2D image pixel map. These augmentations ignore the fact that biological vision takes place in an immersive three-dimensional, temporally contiguous environment, and that low-level biological vision relies heavily on depth cues. Using a signal provided by a pretrained state-of-the-art monocular RGB-to-depth model (the \emph{Depth Prediction Transformer}, Ranftl et al., 2021), we explore two distinct approaches to incorporating depth signals into the SSL framework. First, we evaluate contrastive learning using an RGB+depth input representation. Second, we use the depth signal to generate novel views from slightly different camera positions, thereby producing a 3D augmentation for contrastive learning. We evaluate these two approaches on three different SSL methods -- BYOL, SimSiam, and SwAV -- using ImageNette (10 class subset of ImageNet), ImageNet-100 and ImageNet-1k datasets. We find that both approaches to incorporating depth signals improve the robustness and generalization of the baseline SSL methods, though the first approach (with depth-channel concatenation) is superior. For instance, BYOL with the additional depth channel leads to an increase in downstream classification accuracy from 85.3\% to 88.0\% on ImageNette and 84.1\% to 87.0\% on ImageNet-C. | 翻訳日:2023-01-30 14:59:15 公開日:2023-01-27 |
# 検索型マルチエージェント学習におけるポリシ・バリューアライメントとロバスト性 Policy-Value Alignment and Robustness in Search-based Multi-Agent Learning ( http://arxiv.org/abs/2301.11857v1 ) ライセンス: Link先を確認 | Niko A. Grupen, Michael Hanlon, Alexis Hao, Daniel D. Lee, Bart Selman | (参考訳) 検索と学習を組み合わせた大規模なAIシステムは、ゲームプレイで超人的なパフォーマンスを達成したが、驚くべき方法で失敗することも示されている。
このようなモデルの脆さは、実際のデプロイメントにおける有効性と信頼性を制限する。
本研究では,このアルゴリズムであるAlphaZeroを体系的に研究し,探索の性質に関連する2つの現象を同定する。
まず、多くの州において、alphazeroの政策と価値予測は互いに矛盾しており、alphazeroの目的における正確な移動選択と価値推定の間の緊張関係を明らかにする。
さらに,AlphaZeroの値関数の不整合は,その方針が最適戦略であるにもかかわらず,不整合を生じさせる。
これらの知見から,AlphaZero におけるポリシ値アライメントと値ロバスト性を改善する新しい手法 VISA-VIS を導出する。
実験により,提案手法は,ポリシー値の不一致を最大76%削減し,値一般化誤差を最大50%低減し,平均値誤差を最大55%低減することを示した。 Large-scale AI systems that combine search and learning have reached super-human levels of performance in game-playing, but have also been shown to fail in surprising ways. The brittleness of such models limits their efficacy and trustworthiness in real-world deployments. In this work, we systematically study one such algorithm, AlphaZero, and identify two phenomena related to the nature of exploration. First, we find evidence of policy-value misalignment -- for many states, AlphaZero's policy and value predictions contradict each other, revealing a tension between accurate move-selection and value estimation in AlphaZero's objective. Further, we find inconsistency within AlphaZero's value function, which causes it to generalize poorly, despite its policy playing an optimal strategy. From these insights we derive VISA-VIS: a novel method that improves policy-value alignment and value robustness in AlphaZero. Experimentally, we show that our method reduces policy-value misalignment by up to 76%, reduces value generalization error by up to 50%, and reduces average value error by up to 55%. | 翻訳日:2023-01-30 14:53:00 公開日:2023-01-27 |
# ActiveLab: 複数のアノテーションによる再ラベルによるアクティブラーニング ActiveLab: Active Learning with Re-Labeling by Multiple Annotators ( http://arxiv.org/abs/2301.11856v1 ) ライセンス: Link先を確認 | Hui Wen Goh, Jonas Mueller | (参考訳) 現実世界のデータラベリングアプリケーションでは、アノテータはしばしば不完全なラベルを提供する。
したがって、複数のアノテータを使用してデータにラベルを付けることが一般的である。
我々はこのような環境で能動的学習を研究し、最も少ない全アノテーションでデータセットを収集して正確な分類器を訓練することを目的としている。
ここでは、任意の分類器モデルで動作し、1つまたは複数のアノテーションを用いたプールベースのバッチアクティブラーニングで使用できる、次にラベルを決定するための実用的な方法であるActiveLabを提案する。
ActiveLabは、完全に新しいものをラベル付けするよりも、サンプルを再ラベルする方が有益なタイミングを自動的に見積もる。
これは、限られたアノテーション予算内で高品質なラベルとトレーニングされたモデルを作成する上で重要な側面です。
画像と表のデータの実験では、ActiveLabは、さまざまな人気のあるアクティブな学習方法よりもはるかに少ないアノテーションで、より正確な分類器を確実に訓練している。 In real-world data labeling applications, annotators often provide imperfect labels. It is thus common to employ multiple annotators to label data with some overlap between their examples. We study active learning in such settings, aiming to train an accurate classifier by collecting a dataset with the fewest total annotations. Here we propose ActiveLab, a practical method to decide what to label next that works with any classifier model and can be used in pool-based batch active learning with one or multiple annotators. ActiveLab automatically estimates when it is more informative to re-label examples vs. labeling entirely new ones. This is a key aspect of producing high quality labels and trained models within a limited annotation budget. In experiments on image and tabular data, ActiveLab reliably trains more accurate classifiers with far fewer annotations than a wide variety of popular active learning methods. | 翻訳日:2023-01-30 14:52:40 公開日:2023-01-27 |
# 事実か偏見か?
ニュースの文レベル特性とバイアスの予測 Factual or Biased? Predicting Sentence-Level Factuality and Bias of News ( http://arxiv.org/abs/2301.11850v1 ) ライセンス: Link先を確認 | Francielle Vargas, Fabiana G\'oes, Thiago A. S. Pardo, Fabr\'icio Benevenuto | (参考訳) 本稿では,ドメイン間のニュース記事の文レベルの事実性とバイアスについて述べる。
nlpの先行研究は主に記事レベルのニュース報道の事実性やニュースメディアの政治イデオロギーバイアスの予測に焦点が当てられているが、論文全体の信頼性をより正確に説明するために、ドメイン間の事実報告におけるバイアスのフレーミングの効果を調査し、文章レベルでの事実性やバイアスの予測を行った。
まず、100のニュース記事から3つの異なるメディアから6,191の文章からなる、大きな文レベルの注釈付きデータセット「factnews」を手作業で作成し、300のニュース記事を生成する。
さらに、異なるメディアや異なるドメインのニュース記事に偏りや事実がどう現れるかについても検討した。
最後に,細調整したBERTを用いて,事実文予測のためのベースラインモデルを示した。
また、アノテーションとモデルの信頼性を示すデータの詳細な分析も提供する。 We present a study on sentence-level factuality and bias of news articles across domains. While prior work in NLP has mainly focused on predicting the factuality of article-level news reporting and political-ideological bias of news media, we investigated the effects of framing bias in factual reporting across domains so as to predict factuality and bias at the sentence level, which may explain more accurately the overall reliability of the entire document. First, we manually produced a large sentence-level annotated dataset, titled FactNews, composed of 6,191 sentences from 100 news stories by three different outlets, resulting in 300 news articles. Further, we studied how biased and factual spans surface in news articles from different media outlets and different domains. Lastly, a baseline model for factual sentence prediction was presented by fine-tuning BERT. We also provide a detailed analysis of data demonstrating the reliability of the annotation and models. | 翻訳日:2023-01-30 14:52:25 公開日:2023-01-27 |
# 長期臨床テキストにおける事前学習言語モデルの比較検討 A Comparative Study of Pretrained Language Models for Long Clinical Text ( http://arxiv.org/abs/2301.11847v1 ) ライセンス: Link先を確認 | Yikuan Li, Ramsey M. Wehbe, Faraz S. Ahmad, Hanyin Wang and Yuan Luo | (参考訳) 目的: 臨床知識強化トランスフォーマーモデル(例えば、臨床バート)は、臨床nlp(自然言語処理)タスクに関する最新の結果を持っている。
これらのトランスフォーマーモデルの中核的な制限の1つは、完全なセルフアテンション機構によるメモリ消費の実質的増加であり、長い臨床テキストのパフォーマンス低下に繋がる。
そこで本研究では,最大入力シーケンス長を512から4096に拡張した長系列トランスフォーマモデル(例えばlongformerとbigbird)を活用して,長期臨床テキストにおける長期依存のモデル化能力を高めることを提案する。
資料と方法: 長周期トランスフォーマーモデルの成功と臨床ノートがほとんど長いという事実に触発されて, 大規模臨床コーパスで事前訓練された2つのドメイン強化言語モデル, 臨床Longformerと臨床BigBirdを導入する。
名前付きエンティティ認識、質問応答、自然言語推論、文書分類タスクを含む10のベースラインタスクを用いて、両方の言語モデルを評価する。
結果: 臨床Longformer と Clinical-BigBird は, 連続的に, 臨床BERT などの短系列トランスフォーマーを, 下流10のタスクすべてで上回り, 新たな最先端の結果を得ることができた。
考察:我々の事前学習言語モデルは,長文を用いた臨床NLPの基盤となる。
ソースコードはhttps://github.com/luoyuanlab/Clinical-Longformerで公開されています。
結論: 本研究は, 臨床知識に富んだ長周期トランスフォーマーが長期臨床テキストで長期的依存関係を学習できることを実証した。
また,本手法は,他の領域に富んだ長周期変換器の開発を促す。 Objective: Clinical knowledge enriched transformer models (e.g., ClinicalBERT) have state-of-the-art results on clinical NLP (natural language processing) tasks. One of the core limitations of these transformer models is the substantial memory consumption due to their full self-attention mechanism, which leads to the performance degradation in long clinical texts. To overcome this, we propose to leverage long-sequence transformer models (e.g., Longformer and BigBird), which extend the maximum input sequence length from 512 to 4096, to enhance the ability to model long-term dependencies in long clinical texts. Materials and Methods: Inspired by the success of long sequence transformer models and the fact that clinical notes are mostly long, we introduce two domain enriched language models, Clinical-Longformer and Clinical-BigBird, which are pre-trained on a large-scale clinical corpus. We evaluate both language models using 10 baseline tasks including named entity recognition, question answering, natural language inference, and document classification tasks. Results: The results demonstrate that Clinical-Longformer and Clinical-BigBird consistently and significantly outperform ClinicalBERT and other short-sequence transformers in all 10 downstream tasks and achieve new state-of-the-art results. Discussion: Our pre-trained language models provide the bedrock for clinical NLP using long texts. We have made our source code available at https://github.com/luoyuanlab/Clinical-Longformer, and the pre-trained models available for public download at: https://huggingface.co/yikuan8/Clinical-Longformer. Conclusion: This study demonstrates that clinical knowledge enriched long-sequence transformers are able to learn long-term dependencies in long clinical text. Our methods can also inspire the development of other domain-enriched long-sequence transformers. | 翻訳日:2023-01-30 14:52:08 公開日:2023-01-27 |
# マルチモーダル環境における身体行動の効果の学習 Learning the Effects of Physical Actions in a Multi-modal Environment ( http://arxiv.org/abs/2301.11845v1 ) ライセンス: Link先を確認 | Gautier Dagan, Frank Keller, Alex Lascarides | (参考訳) 大規模言語モデル(llm)は物理的常識情報を不適切に扱う。
絶望的な環境でのトレーニングの結果、LLMは特定の環境でのアクションの結果を予測するのに失敗することが多い。
しかしながら、実行前にアクションの効果を予測することは、目標を達成するためにコヒーレントなアクションシーケンスがしばしば必要となるプランニングにおいて不可欠である。
そこで本研究では,現実的な感覚入力(イメージとテキスト)からのみ行動の結果を予測するマルチモーダルタスクを提案する。
次に、LLMを拡張してオブジェクトの潜在表現をモデル化し、環境におけるアクションの結果をより正確に予測する。
マルチモーダルモデルは,視覚情報を付加することで,物理的常識を捉えることができることを示す。
最後に、新しいアクションやオブジェクトに対するモデルの性能を評価し、モダリティを組み合わせることで、モデルがより一般的なコモンセンス推論を一般化し学習するのに役立つことを確かめる。 Large Language Models (LLMs) handle physical commonsense information inadequately. As a result of being trained in a disembodied setting, LLMs often fail to predict an action's outcome in a given environment. However, predicting the effects of an action before it is executed is crucial in planning, where coherent sequences of actions are often needed to achieve a goal. Therefore, we introduce the multi-modal task of predicting the outcomes of actions solely from realistic sensory inputs (images and text). Next, we extend an LLM to model latent representations of objects to better predict action outcomes in an environment. We show that multi-modal models can capture physical commonsense when augmented with visual information. Finally, we evaluate our model's performance on novel actions and objects and find that combining modalities help models to generalize and learn physical commonsense reasoning better. | 翻訳日:2023-01-30 14:51:35 公開日:2023-01-27 |
# Evidence-based Fact-Checkingのためのチャート画像読解と推論 Reading and Reasoning over Chart Images for Evidence-based Automated Fact-Checking ( http://arxiv.org/abs/2301.11843v1 ) ライセンス: Link先を確認 | Mubashara Akhtar, Oana Cocarascu, Elena Simperl | (参考訳) 自動ファクトチェック(AFC)のエビデンスデータは、テキスト、テーブル、画像、オーディオ、ビデオなど、複数のモードで記述することができる。
AFCには画像の使用に対する関心が高まっているが、以前の研究は主に操作された画像や偽画像の検出に焦点を当てていた。
本稿では,新しいタスク,チャートベースのファクトチェックを提案し,チャートエビデンスに対するAFCの最初のモデルとしてChartBERTを紹介する。
ChartBERTは、テキストクレームの正確性を決定するために、チャートのテキスト情報、構造情報、視覚情報を活用する。
評価のために、15,886グラフの新しいデータセットであるChartFCを作成します。
我々は75の異なる視覚言語(VL)ベースラインを体系的に評価し、ChartBERTがVLモデルより優れていることを示す。
我々の結果は、タスクは複雑だが実現可能であり、多くの課題があることを示唆している。 Evidence data for automated fact-checking (AFC) can be in multiple modalities such as text, tables, images, audio, or video. While there is increasing interest in using images for AFC, previous works mostly focus on detecting manipulated or fake images. We propose a novel task, chart-based fact-checking, and introduce ChartBERT as the first model for AFC against chart evidence. ChartBERT leverages textual, structural and visual information of charts to determine the veracity of textual claims. For evaluation, we create ChartFC, a new dataset of 15, 886 charts. We systematically evaluate 75 different vision-language (VL) baselines and show that ChartBERT outperforms VL models, achieving 63.8% accuracy. Our results suggest that the task is complex yet feasible, with many challenges ahead. | 翻訳日:2023-01-30 14:51:21 公開日:2023-01-27 |
# PhysGraph: グラフニューラルネットワークを用いた物理ベースの統合 PhysGraph: Physics-Based Integration Using Graph Neural Networks ( http://arxiv.org/abs/2301.11841v1 ) ライセンス: Link先を確認 | Oshri Halimi, Egor Larionov, Zohar Barzelay, Philipp Herholz, Tuur Stuyck | (参考訳) メッシュベースのドメインの物理に基づくシミュレーションは依然として難しい課題である。
最先端の技術は現実的な結果を生み出すが、専門知識を必要とする。
多くのアプローチにおける大きなボトルネックは、速度や変位を計算するためにポテンシャルエネルギーを統合するステップである。
近年、物理学に基づくシミュレーションのための学習ベースの手法が、有望な研究方向であるグラフベースのアプローチへの関心を喚起している。
これらの手法の課題の1つは、メッシュに依存しないモデルを生成し、異なる材料特性に一般化することである。
さらにモデルでは、ユビキタス衝突のような予期せぬ外部力に反応することも可能だ。
我々の貢献は単純な観察に基づいている:力の評価は従来のシミュレーション手法では計算的に比較的安価であり、それらの積分とは対照的に並列に計算できる。
系が一般の力に対してどのように反応するかを、その起源に関係なく学習すれば、高一般化力の総力による状態変化を予測できる積分器を学習できる。
不透明な力モジュールを頼りにすることで、結果の力の背後にある物理モデルを効果的に分解する。
このアイデアは、小さなメッシュパッチの基本的な内部力に基づいてトレーニングし、異なるメッシュタイプ、解像度、材料パラメータ、および推論時の衝突のような目に見えない力に一般化できる学習可能なモジュールにつながることを実証する。
提案するパラダイムは一般的であり,様々な物理現象のモデル化に利用できる。
我々は,コンピュータゲーム,バーチャルリアリティ,仮想トライオンなど,多くの応用がある粗い衣服形状の詳細な拡張に着目する。 Physics-based simulation of mesh based domains remains a challenging task. State-of-the-art techniques can produce realistic results but require expert knowledge. A major bottleneck in many approaches is the step of integrating a potential energy in order to compute velocities or displacements. Recently, learning based method for physics-based simulation have sparked interest with graph based approaches being a promising research direction. One of the challenges for these methods is to generate models that are mesh independent and generalize to different material properties. Moreover, the model should also be able to react to unforeseen external forces like ubiquitous collisions. Our contribution is based on a simple observation: evaluating forces is computationally relatively cheap for traditional simulation methods and can be computed in parallel in contrast to their integration. If we learn how a system reacts to forces in general, irrespective of their origin, we can learn an integrator that can predict state changes due to the total forces with high generalization power. We effectively factor out the physical model behind resulting forces by relying on an opaque force module. We demonstrate that this idea leads to a learnable module that can be trained on basic internal forces of small mesh patches and generalizes to different mesh typologies, resolutions, material parameters and unseen forces like collisions at inference time. Our proposed paradigm is general and can be used to model a variety of physical phenomena. We focus our exposition on the detail enhancement of coarse clothing geometry which has many applications including computer games, virtual reality and virtual try-on. | 翻訳日:2023-01-30 14:51:05 公開日:2023-01-27 |
# 量子化量子モンテカルロ : 工業的視点 Quantum-enhanced quantum Monte Carlo: an industrial view ( http://arxiv.org/abs/2301.11838v1 ) ライセンス: Link先を確認 | Maximilian Amsler, Peter Deglmann, Matthias Degroote, Michael P. Kaicher, Matthew Kiser, Michael K\"uhn, Chandan Kumar, Andreas Maier, Georgy Samsonidze, Anna Schroeder, Michael Streif, Davide Vodola, Christopher Wever | (参考訳) 本研究では,量子コンピュータを用いた古典的補助場量子モンテカルロ(AFQMC)計算を,産業関連システムのクラスの代表である化学や物質科学の例に対して拡張する手法を最近開発した。
分子実験では, 有機酸化反応に産業的に関与する三重項分子酸素に対して, H4のエネルギー曲線とオゾンおよび一重項分子酸素の相対エネルギーを計算した。
単一スレーター決定因子を超える試行波動関数はafqmcの性能を向上し、フルコンフィグレーション相互作用(fci)や実験結果と比較して化学精度に近いエネルギーを発生できることが判明した。
物質科学の代表として,CuBr2由来の準1次元フェルミ・ハッバードモデルについて検討した。
実験波動関数はハーツリー・フォック解よりもはるかに大きな忠実度と低いエネルギーの両方で、必ずしもより良いAFQMC結果をもたらすとは限らない。 In this work, we test a recently developed method to enhance classical auxiliary-field quantum Monte Carlo (AFQMC) calculations with quantum computers against examples from chemistry and material science, representatives of classes of industry-relevant systems. As molecular test cases, we calculate the energy curve of H4 and relative energies of ozone and singlet molecular oxygen with respect to triplet molecular oxygen, which are industrially relevant in organic oxidation reactions. We find that trial wave functions beyond single Slater determinants improve the performance of AFQMC and allow to generate energies close to chemical accuracy compared to full configuration interaction (FCI) or experimental results. As a representative for material science we study a quasi-1D Fermi-Hubbard model derived from CuBr2, a compound displaying electronic structure properties analogous to cuprates. We find that trial wave functions with both, significantly larger fidelities and lower energies over a Hartree-Fock solution, do not necessarily lead to better AFQMC results. | 翻訳日:2023-01-30 14:50:42 公開日:2023-01-27 |
# sober:再結合制約を用いたスケーラブルバッチベイズ最適化と二次計算 SOBER: Scalable Batch Bayesian Optimization and Quadrature using Recombination Constraints ( http://arxiv.org/abs/2301.11832v1 ) ライセンス: Link先を確認 | Masaki Adachi, Satoshi Hayakawa, Saad Hamid, Martin J{\o}rgensen, Harald Oberhauser, Micheal A. Osborne | (参考訳) バッチベイズ最適化(bo: batch bayesian optimization)は、高価な評価対象関数を並列にクエリできる最適化を行うサンプル効率のよい方法である。
しかし、現在の手法は大規模なバッチサイズにはスケールしない -- 実際には頻繁なデシデラタム(例えば、薬物の発見やシミュレーションに基づく推論)である。
本稿では,任意の取得関数,任意の入力空間(グラフなど),任意のカーネルを持つ,スケーラブルで多様化したバッチboを実現する新しいアルゴリズムであるsoberを提案する。
提案手法の鍵となるのは,BO のバッチ選択をベイズ二次問題 (BQ) として再構成することである。
この改革はBQタスクを相互に解く上で有益であり、BOのBQへの活用機能を導入している。
薬物発見やシミュレーションに基づく推論を含む実世界のタスクにおいて,SOBERが実質的なパフォーマンス向上をもたらすことを示す。 Batch Bayesian optimisation (BO) has shown to be a sample-efficient method of performing optimisation where expensive-to-evaluate objective functions can be queried in parallel. However, current methods do not scale to large batch sizes -- a frequent desideratum in practice (e.g. drug discovery or simulation-based inference). We present a novel algorithm, SOBER, which permits scalable and diversified batch BO with arbitrary acquisition functions, arbitrary input spaces (e.g. graph), and arbitrary kernels. The key to our approach is to reformulate batch selection for BO as a Bayesian quadrature (BQ) problem, which offers computational advantages. This reformulation is beneficial in solving BQ tasks reciprocally, which introduces the exploitative functionality of BO to BQ. We show that SOBER offers substantive performance gains in synthetic and real-world tasks, including drug discovery and simulation-based inference. | 翻訳日:2023-01-30 14:50:24 公開日:2023-01-27 |
# 解釈可能なエキスパート分布を持つディープクラスタリングサバイバルマシン Deep Clustering Survival Machines with Interpretable Expert Distributions ( http://arxiv.org/abs/2301.11826v1 ) ライセンス: Link先を確認 | Bojian Hou, Hongming Li, Zhicheng Jiao, Zhen Zhou, Hao Zheng, Yong Fan | (参考訳) 従来の生存分析手法は人口の不均一性を特徴付けるのに非効率であり、そのような情報は予測モデリングを支援するのに利用できる。
本研究では,判別機構と生成機構を組み合わせた,ディープクラスタリングサバイバルマシンと呼ばれるハイブリッドサバイバル解析手法を提案する。
混合モデルと同様に、サバイバルデータのタイミング情報は、特定の数のパラメトリック分布、すなわち専門家分布の混合によって生成的に記述されると仮定する。
我々は,各インスタンスの生存情報の重み付けの組み合わせを特徴付けるように,個々のインスタンスに対する専門家分布の重み付けを識別的に学習する。
この方法は、関連する専門家分布に従って、すべてのインスタンスのサブグループ化/クラスタ化を解釈可能にする。
実データと合成データの両方に対する大規模な実験により、この手法は有望なクラスタリング結果と競合する時間対イベント予測性能を得ることができることを示した。 Conventional survival analysis methods are typically ineffective to characterize heterogeneity in the population while such information can be used to assist predictive modeling. In this study, we propose a hybrid survival analysis method, referred to as deep clustering survival machines, that combines the discriminative and generative mechanisms. Similar to the mixture models, we assume that the timing information of survival data is generatively described by a mixture of certain numbers of parametric distributions, i.e., expert distributions. We learn weights of the expert distributions for individual instances according to their features discriminatively such that each instance's survival information can be characterized by a weighted combination of the learned constant expert distributions. This method also facilitates interpretable subgrouping/clustering of all instances according to their associated expert distributions. Extensive experiments on both real and synthetic datasets have demonstrated that the method is capable of obtaining promising clustering results and competitive time-to-event predicting performance. | 翻訳日:2023-01-30 14:50:09 公開日:2023-01-27 |
# ペルムタヘドロンによるDAG学習 DAG Learning on the Permutahedron ( http://arxiv.org/abs/2301.11898v1 ) ライセンス: Link先を確認 | Valentina Zantedeschi, Luca Franceschi, Jean Kaddour, Matt J. Kusner, Vlad Niculae | (参考訳) 観測データから潜在有向非巡回グラフ(DAG)を発見するための連続最適化フレームワークを提案する。
提案手法は、置換ベクトル(いわゆるペルムタヘドロン)のポリトープを最適化し、位相的順序付けを学ぶ。
エッジは共同で最適化したり、微分不可能なサブルーチンを通じて順序付けを学習したりすることができる。
既存の継続的最適化アプローチと比較して、私たちの定式化には次のような利点があります。
1. 有効性:近似DAGを最適化する他の緩和とは対照的に、正確なDAGを最適化する。
2. モジュール性: エッジ最適化手順、エッジ構造パラメータ化、最適化損失に対応。
3. エンドツーエンド: ノード順序付けとエッジ最適化を交互に繰り返すか、共同で最適化する。
タンパク質シグナリングと転写ネットワーク発見における実世界のデータ問題において、我々のアプローチは2つの主要な指標であるSIDとSHDのParetoフロンティアにあることを実証する。 We propose a continuous optimization framework for discovering a latent directed acyclic graph (DAG) from observational data. Our approach optimizes over the polytope of permutation vectors, the so-called Permutahedron, to learn a topological ordering. Edges can be optimized jointly, or learned conditional on the ordering via a non-differentiable subroutine. Compared to existing continuous optimization approaches our formulation has a number of advantages including: 1. validity: optimizes over exact DAGs as opposed to other relaxations optimizing approximate DAGs; 2. modularity: accommodates any edge-optimization procedure, edge structural parameterization, and optimization loss; 3. end-to-end: either alternately iterates between node-ordering and edge-optimization, or optimizes them jointly. We demonstrate, on real-world data problems in protein-signaling and transcriptional network discovery, that our approach lies on the Pareto frontier of two key metrics, the SID and SHD. | 翻訳日:2023-01-30 14:43:28 公開日:2023-01-27 |
# 境界散逸スピン鎖におけるスケールフリー非エルミタンスキン効果 Scale-free non-Hermitian skin effect in a boundary-dissipated spin chain ( http://arxiv.org/abs/2301.11896v1 ) ライセンス: Link先を確認 | He-Ran Wang, Bo Li, Fei Song, Zhong Wang | (参考訳) PT対称非エルミート境界場を持つ開XXZスピン鎖について検討する。
座標bethe ansatzを用いて, 相互作用によるスケールフリーな非エルミティアン皮膚効果を見いだした。
PT破壊相における定常状態と基底状態を構築し、熱力学限界における固有エネルギーの式を得る。
マルチボディのスケールフリー状態と境界弦状態の差を調査し, 等方点における2つの状態の遷移について検討した。
結果を検証するための実験的なスキームについても論じる。 We study the open XXZ spin chain with a PT-symmetric non-Hermitian boundary field. We find an interaction-induced scale-free non-Hermitian skin effect by using the coordinate Bethe ansatz. The steady state and the ground state in the PT broken phase are constructed, and the formulas of their eigen-energies in the thermodynamic limit are obtained. The differences between the many-body scale-free states and the boundary string states are explored, and the transition between the two at isotropic point is investigated. We also discuss an experimental scheme to verify our results. | 翻訳日:2023-01-30 14:43:13 公開日:2023-01-27 |
# リアルタイム推論による生涯学習のストリーミング Streaming LifeLong Learning With Any-Time Inference ( http://arxiv.org/abs/2301.11892v1 ) ライセンス: Link先を確認 | Soumya Banerjee, Vinay Kumar Verma, Vinay P. Namboodiri | (参考訳) 生涯学習(lll)研究の急速な進歩にもかかわらず、多くの研究は、既存の \textit{static} continual learning(cl)設定のパフォーマンス向上に重点を置いている。
これらの方法は急速に変化する \textit{dynamic} 環境では成功できないため、aiエージェントは破壊的な忘れることなく、非i.i.dデータストリームから'シングルパス'で新しいインスタンスをすばやく学習する必要がある。
実践的な適用性のために,ストリーミング中の新しい生涯学習手法を提案する。すなわち,1回の入力サンプルが各タイムステップ,シングルパス,クラスインクリメンタル,任意のタイミングで評価対象となる。
この困難なセットアップと様々な評価プロトコルに対処するために、我々は、単一のトレーニング例を与えられた高速なパラメータ更新を可能にし、いつでも推論を可能にするベイズフレームワークを提案する。
さらに,スナップショット自己蒸留という形で暗黙的正則化器を提案する。
さらに,オンラインメモリリハーサルのためのサンプルのサブセットを効率的に選択し,全体的な性能を著しく向上させる新しいリプレイバッファ管理手法を提案する。
我々の経験的評価と改善は,提案手法が先行研究を大きなマージンで上回ることを示すものである。 Despite rapid advancements in lifelong learning (LLL) research, a large body of research mainly focuses on improving the performance in the existing \textit{static} continual learning (CL) setups. These methods lack the ability to succeed in a rapidly changing \textit{dynamic} environment, where an AI agent needs to quickly learn new instances in a `single pass' from the non-i.i.d (also possibly temporally contiguous/coherent) data streams without suffering from catastrophic forgetting. For practical applicability, we propose a novel lifelong learning approach, which is streaming, i.e., a single input sample arrives in each time step, single pass, class-incremental, and subject to be evaluated at any moment. To address this challenging setup and various evaluation protocols, we propose a Bayesian framework, that enables fast parameter update, given a single training example, and enables any-time inference. We additionally propose an implicit regularizer in the form of snap-shot self-distillation, which effectively minimizes the forgetting further. We further propose an effective method that efficiently selects a subset of samples for online memory rehearsal and employs a new replay buffer management scheme that significantly boosts the overall performance. Our empirical evaluations and ablations demonstrate that the proposed method outperforms the prior works by large margins. | 翻訳日:2023-01-30 14:43:06 公開日:2023-01-27 |
# Polycraft World AI Lab (PAL): 人工知能エージェントを評価するための拡張可能なプラットフォーム Polycraft World AI Lab (PAL): An Extensible Platform for Evaluating Artificial Intelligence Agents ( http://arxiv.org/abs/2301.11891v1 ) ライセンス: Link先を確認 | Stephen A. Goss, Robert J. Steininger, Dhruv Narayanan, Daniel V. Oliven\c{c}a, Yutong Sun, Peng Qiu, Jim Amato, Eberhard O. Voit, Walter E. Voit, Eric J. Kildebeck | (参考訳) 人工知能の研究が進むにつれて、AIエージェントを評価するプラットフォームは、それらに挑戦し続けるために適応し成長する必要がある。
The Polycraft World AI Lab (PAL)は、Minecraft mod Polycraft WorldをベースとしたAPIを備えたタスクシミュレータである。
私たちのプラットフォームは、異なるアーキテクチャを持つAIエージェントがMinecraftの世界と簡単に対話し、複数のタスクでトレーニングし、評価できるように設計されています。
palは、評価中にタスクのあらゆる側面を操作する能力を持つだけでなく、柔軟な方法でタスクを作成することができる。
オープンワールド環境におけるAIエージェントと外部アクター(非プレイヤーキャラクタ、NPC)によるすべてのアクションは、評価を合理化するためにログされる。
ここでは、多段階計画に焦点を当てたPALプラットフォームと、ナビゲーションに焦点を当てた2つのカスタムタスクと、それらを解決するエージェントの評価について述べる。
まとめると、AI研究者が利用する参入障壁が低い、多目的で拡張可能なAI評価プラットフォームを報告します。 As artificial intelligence research advances, the platforms used to evaluate AI agents need to adapt and grow to continue to challenge them. We present the Polycraft World AI Lab (PAL), a task simulator with an API based on the Minecraft mod Polycraft World. Our platform is built to allow AI agents with different architectures to easily interact with the Minecraft world, train and be evaluated in multiple tasks. PAL enables the creation of tasks in a flexible manner as well as having the capability to manipulate any aspect of the task during an evaluation. All actions taken by AI agents and external actors (non-player-characters, NPCs) in the open-world environment are logged to streamline evaluation. Here we present two custom tasks on the PAL platform, one focused on multi-step planning and one focused on navigation, and evaluations of agents solving them. In summary, we report a versatile and extensible AI evaluation platform with a low barrier to entry for AI researchers to utilize. | 翻訳日:2023-01-30 14:42:40 公開日:2023-01-27 |
# 一般損失関数をもつ重機SGDのアルゴリズム安定性 Algorithmic Stability of Heavy-Tailed SGD with General Loss Functions ( http://arxiv.org/abs/2301.11885v1 ) ライセンス: Link先を確認 | Anant Raj and Lingjiong Zhu and Mert G\"urb\"uzbalaban and Umut \c{S}im\c{s}ekli | (参考訳) 確率勾配降下 (sgd) における重テール現象はいくつかの実験研究で報告されている。
前回の研究では、尾の重みとSGDの一般化行動の間に強い相互作用があることが示されている。
この経験的現象に理論的に対処するために、いくつかの研究は、一般化誤差を重尾にリンクする強い位相的および統計的仮定を行った。
ごく最近、新しい一般化境界が証明され、一般化誤差と重い尾との非単調な関係が示され、これは報告された経験的観測とより関連がある。
これらの境界は、重尾確率微分方程式(SDE)を用いてSGDをモデル化できるという追加の位相的仮定を必要としないが、単純な二次問題にのみ適用できる。
本稿では、この研究の線上に構築し、非凸関数を含むより一般的な目的関数のクラスに対する一般化境界を開発する。
我々のアプローチは、重み付きSDEとその離散化に対するワッサーシュタイン安定境界の開発に基づいており、それが一般化境界に変換される。
我々の結果は非自明な仮定を必要としないが、損失関数の一般性のおかげで経験的な観測により多くの光を当てた。 Heavy-tail phenomena in stochastic gradient descent (SGD) have been reported in several empirical studies. Experimental evidence in previous works suggests a strong interplay between the heaviness of the tails and generalization behavior of SGD. To address this empirical phenomena theoretically, several works have made strong topological and statistical assumptions to link the generalization error to heavy tails. Very recently, new generalization bounds have been proven, indicating a non-monotonic relationship between the generalization error and heavy tails, which is more pertinent to the reported empirical observations. While these bounds do not require additional topological assumptions given that SGD can be modeled using a heavy-tailed stochastic differential equation (SDE), they can only apply to simple quadratic problems. In this paper, we build on this line of research and develop generalization bounds for a more general class of objective functions, which includes non-convex functions as well. Our approach is based on developing Wasserstein stability bounds for heavy-tailed SDEs and their discretizations, which we then convert to generalization bounds. Our results do not require any nontrivial assumptions; yet, they shed more light to the empirical observations, thanks to the generality of the loss functions. | 翻訳日:2023-01-30 14:42:24 公開日:2023-01-27 |
# 双曲型量子ネットワーク上の長距離量子エネルギーテレポーテーションと分布 Long-range quantum energy teleportation and distribution on a hyperbolic quantum network ( http://arxiv.org/abs/2301.11884v1 ) ライセンス: Link先を確認 | Kazuki Ikeda | (参考訳) 遠隔地へのエネルギー輸送は、量子情報科学と技術にとって新たな課題である。
実験室システム内の局所エネルギーを遠隔地へ転送する方法の開発は、量子ネットワークにおける非自明なエネルギーの流れを可能にする。
量子情報工学の観点から,双曲幾何学を用いた多数の遠隔ノードに局所エネルギーを分配する手法を提案する。
ハイパーボリックネットワークはノード数が指数関数的に増加するため、大規模量子ネットワークのエネルギー割り当てに適している。
長距離量子エネルギーテレポーテーションを実現するために,量子状態テレポーテーションと量子エネルギーテレポーテーションのハイブリッド手法を提案する。
量子テレポーテーションを通じて局所的な量子情報を送信し、その情報上で条件演算を行うことで、理論的には地理的距離に依存しない量子エネルギーテレポーテーションを実現することができる。
提案手法は,将来の大規模量子ネットワークの新応用と量子物理学の情報工学への応用に新たな知見を与える。 Teleporting energy to remote locations is new challenge for quantum information science and technology. Developing a method for transferring local energy in laboratory systems to remote locations will enable non-trivial energy flows in quantum networks. From the perspective of quantum information engineering, we propose a method for distributing local energy to a large number of remote nodes using hyperbolic geometry. Hyperbolic networks are suitable for energy allocation in large quantum networks since the number of nodes grows exponentially. To realise long-range quantum energy teleportation, we propose a hybrid method of quantum state telepotation and quantum energy teleportation. By transmitting local quantum information through quantum teleportation and performing conditional operations on that information, quantum energy teleportation can theoretically be realized independent of geographical distance. The method we present will provide new insights into new applications of future large-scale quantum networks and potential applications of quantum physics to information engineering. | 翻訳日:2023-01-30 14:42:04 公開日:2023-01-27 |
# 360$^\circ$ビデオにおける光フロー推定:データセット,モデル,応用 Optical Flow Estimation in 360$^\circ$ Videos: Dataset, Model and Application ( http://arxiv.org/abs/2301.11880v1 ) ライセンス: Link先を確認 | Bin Duan, Keshav Bhandari, Gaowen Liu and Yan Yan | (参考訳) オプティカルフロー推定は、コンピュータビジョンコミュニティにおいて長期にわたり、かつ根本的な問題となっている。
しかし、視線ビデオにおける光学フロー推定の進歩にもかかわらず、360$^\circ$ビデオは、ベンチマークデータセットの不足と360$^\circ$ビデオの全方位特性に適応できないために、まだ初期段階にある。
我々は40の異なるビデオと4,000のビデオフレームを備えた最初のパーセプティヴな360$^\circ$のビデオベンチマークデータセット、flow360を提案する。
次に、FLOW360の知覚的リアリズム、独特性、多様性を示す包括的特徴分析と既存のデータセットとの比較を行った。
さらに,SLOF(Omnidirectional Flow)推定のための新しいSiamese表現学習フレームワークを提案する。
入力全方位フレームのランダムな回転に関するモデルをトレーニングすることにより,360$^\circ$ビデオにおける光フロー推定の全方位特性に対応し,予測誤差を大幅に低減する。
学習手法はさらに,シム学習手法と全方向光フロー推定をエゴセントリックな活動認識タスクに拡張し,その分類精度を$\sim$26%まで向上させることで,効率的であることが証明された。
要約すると,360$^\circ$ビデオ問題における光フロー推定を,ベンチマークデータセット,学習モデル,および実用的応用の観点から検討する。
flow360のデータセットとコードは、https://siamlof.github.ioで入手できる。 Optical flow estimation has been a long-lasting and fundamental problem in the computer vision community. However, despite the advances of optical flow estimation in perspective videos, the 360$^\circ$ videos counterpart remains in its infancy, primarily due to the shortage of benchmark datasets and the failure to accommodate the omnidirectional nature of 360$^\circ$ videos. We propose the first perceptually realistic 360$^\circ$ filed-of-view video benchmark dataset, namely FLOW360, with 40 different videos and 4,000 video frames. We then conduct comprehensive characteristic analysis and extensive comparisons with existing datasets, manifesting FLOW360's perceptual realism, uniqueness, and diversity. Moreover, we present a novel Siamese representation Learning framework for Omnidirectional Flow (SLOF) estimation, which is trained in a contrastive manner via a hybrid loss that combines siamese contrastive and optical flow losses. By training the model on random rotations of the input omnidirectional frames, our proposed contrastive scheme accommodates the omnidirectional nature of optical flow estimation in 360$^\circ$ videos, resulting in significantly reduced prediction errors. The learning scheme is further proven to be efficient by expanding our siamese learning scheme and omnidirectional optical flow estimation to the egocentric activity recognition task, where the classification accuracy is boosted up to $\sim$26%. To summarize, we study the optical flow estimation in 360$^\circ$ videos problem from perspectives of the benchmark dataset, learning model, and also practical application. The FLOW360 dataset and code are available at https://siamlof.github.io. | 翻訳日:2023-01-30 14:41:49 公開日:2023-01-27 |
# 論理的誤りの分類のための言語モデルを用いたケースベース推論 Case-Based Reasoning with Language Models for Classification of Logical Fallacies ( http://arxiv.org/abs/2301.11879v1 ) ライセンス: Link先を確認 | Zhivar Sourati, Filip Ilievski, H\^ong-\^An Sandlin, Alain Mermoud | (参考訳) 誤情報やプロパガンダをWeb上に広めることの容易さとスピードは、自然言語の議論における誤信を検出するための信頼できる技術を開発する必要性を動機付けている。
しかし、最先端の言語モデリング手法は、複雑な推論を必要とする論理的誤り分類のようなタスクに対する堅牢性の欠如を示している。
本稿では,言語モデルによる検索と過去の事例の適応により,論理的誤りの新たな事例を分類するケースベース推論手法を提案する。
我々は,目標,説明,反論,議論構造に関する外部情報に基づいて,モデルの入力表現を強化する4つの補完的戦略を設計した。
ドメイン内およびドメイン外設定の実験は、ケースベース推論が言語モデルの精度と一般化性を向上させることを示す。
本研究は, 類似事例の表現がモデル性能に強い影響を与えること, より少ない検索事例でモデルの性能が良好であること, ケースデータベースのサイズが性能に無視的な影響があることを確認するものである。
最後に,検索した事例の特性とモデル性能との関係について詳しく検討する。 The ease and the speed of spreading misinformation and propaganda on the Web motivate the need to develop trustworthy technology for detecting fallacies in natural language arguments. However, state-of-the-art language modeling methods exhibit a lack of robustness on tasks like logical fallacy classification that require complex reasoning. In this paper, we propose a Case-Based Reasoning method that classifies new cases of logical fallacy by language-modeling-driven retrieval and adaptation of historical cases. We design four complementary strategies to enrich the input representation for our model, based on external information about goals, explanations, counterarguments, and argument structure. Our experiments in in-domain and out-of-domain settings indicate that Case-Based Reasoning improves the accuracy and generalizability of language models. Our ablation studies confirm that the representations of similar cases have a strong impact on the model performance, that models perform well with fewer retrieved cases, and that the size of the case database has a negligible effect on the performance. Finally, we dive deeper into the relationship between the properties of the retrieved cases and the model performance. | 翻訳日:2023-01-30 14:41:20 公開日:2023-01-27 |
# ベイズ階層モデルの比較のための深層学習法 A Deep Learning Method for Comparing Bayesian Hierarchical Models ( http://arxiv.org/abs/2301.11873v1 ) ライセンス: Link先を確認 | Lasse Elsem\"uller, Martin Schnuerch, Paul-Christian B\"urkner, Stefan T. Radev | (参考訳) ベイズモデル比較(BMC)は、競合する計算モデルの相対的な利点を評価し、不確実性をモデル選択決定に伝播する原理的なアプローチを提供する。
しかし、BMCは高次元ネストパラメータ構造のため、一般的な階層モデルのクラスにとってしばしば難解である。
この難易度に対処するために,確率的プログラムとしてインスタンス化可能な階層モデルの集合上でBMCを実行する深層学習手法を提案する。
そこで本手法では,任意の実データアプリケーションに先立って,後続モデル確率の効率的な再推定と高速な性能検証を可能にする。
そこで本研究では, 提案手法の性能を最先端の橋梁サンプリング法と比較し, 全てのBMC設定において優れた償却推論を示す。
そこで本手法を用いて, 従来BMCにとって難解と考えられていた4つの階層的証拠蓄積モデルを比較した。
本稿では,最近提案されたL'evy飛行モデルによる意思決定の実証と,伝達学習の活用による学習効率の向上を実証する。
すべての分析のための再現可能なコードを提供する。 Bayesian model comparison (BMC) offers a principled approach for assessing the relative merits of competing computational models and propagating uncertainty into model selection decisions. However, BMC is often intractable for the popular class of hierarchical models due to their high-dimensional nested parameter structure. To address this intractability, we propose a deep learning method for performing BMC on any set of hierarchical models which can be instantiated as probabilistic programs. Since our method enables amortized inference, it allows efficient re-estimation of posterior model probabilities and fast performance validation prior to any real-data application. In a series of extensive validation studies, we benchmark the performance of our method against the state-of-the-art bridge sampling method and demonstrate excellent amortized inference across all BMC settings. We then use our method to compare four hierarchical evidence accumulation models that have previously been deemed intractable for BMC due to partly implicit likelihoods. In this application, we corroborate evidence for the recently proposed L\'evy flight model of decision-making and show how transfer learning can be leveraged to enhance training efficiency. Reproducible code for all analyses is provided. | 翻訳日:2023-01-30 14:41:02 公開日:2023-01-27 |
# 位置スケールと形状のためのニューラル付加モデル:平均を超えた解釈可能なニューラル回帰のためのフレームワーク Neural Additive Models for Location Scale and Shape: A Framework for Interpretable Neural Regression Beyond the Mean ( http://arxiv.org/abs/2301.11862v1 ) ライセンス: Link先を確認 | Anton Thielmann, Ren\'e-Marcel Kruse, Thomas Kneib, Benjamin S\"afken | (参考訳) ディープニューラルネットワーク(DNN)は様々なタスクにおいて非常に効果的であることが証明されており、高いレベルの予測力を必要とする問題に対するゴーツーメソッドとなっている。
この成功にもかかわらず、dnnの内部動作はしばしば透明ではなく、解釈や理解が困難である。
この解釈可能性の欠如により、近年は本質的に解釈可能なニューラルネットワークの研究が増加している。
ニューラル加算モデル(NAM)のようなモデルは、古典的な統計手法とDNNを組み合わせることで視覚的解釈性を実現する。
しかし、これらのアプローチは平均応答予測のみに集中し、基礎となるデータの応答分布の他の特性を除外する。
我々は,従来のディープラーニングモデルの予測能力と,適応モデルの解釈可能性を維持しつつ,分布回帰の固有の利点を組み合わせたモデルフレームワークであるNeural Additive Models for Location Scale and Shape (NAMLSS)を提案する。 Deep neural networks (DNNs) have proven to be highly effective in a variety of tasks, making them the go-to method for problems requiring high-level predictive power. Despite this success, the inner workings of DNNs are often not transparent, making them difficult to interpret or understand. This lack of interpretability has led to increased research on inherently interpretable neural networks in recent years. Models such as Neural Additive Models (NAMs) achieve visual interpretability through the combination of classical statistical methods with DNNs. However, these approaches only concentrate on mean response predictions, leaving out other properties of the response distribution of the underlying data. We propose Neural Additive Models for Location Scale and Shape (NAMLSS), a modelling framework that combines the predictive power of classical deep learning models with the inherent advantages of distributional regression while maintaining the interpretability of additive models. | 翻訳日:2023-01-30 14:40:44 公開日:2023-01-27 |
# 高次ウォーカーモードとカー非線形性との結合によるマグメカニカルバックアクション補正 Magnomechanical backaction corrections due to coupling to higher order Walker modes and Kerr nonlinearities ( http://arxiv.org/abs/2301.11920v1 ) ライセンス: Link先を確認 | V. A. S. V. Bittencourt and C. A. Potts and Y. Huang and J. P. Davis and S. Viola Kusminskiy | (参考訳) 磁石中のマグノンとフォノンの放射圧のような結合は、動的バックアクションによってフォノン周波数(磁気バネ効果)と崩壊率(磁気メカニカル崩壊)を変化させることができる。
このような効果は、磁気圏の均一なマグノンモード(キッテルモード)をマイクロ波空洞に結合することで最近観察されている。
特に,マグノメカニクスに基づく熱測定などの応用に必須の条件である [c.a. potts et al., arxiv:2211.13766 [quant-ph] (2022)] , 反作用を回避できる能力が実証された。
しかし, 標準理論モデルで予測されたマグノメカニカル崩壊速度から偏差が観測された。
本研究では,これらの偏差を補正による補正により考慮する。
(i)磁気ケラー非線形性及び
(ii)追加のマグノンモードへのフォノンの結合。
これらの付加モードが駆動キャビティに弱く結合している場合、このモデルは平均的なkittel magnonモードの占有に比例する補正を与える。
実験の結果は磁気球面に焦点をあて、静磁場ウォーカーモードがキッテルモードと同じくらい効率的に関連するメカニカルモードと結合することを示した。
我々のモデルは実験データとよく一致している。 The radiation pressure-like coupling between magnons and phonons in magnets can modify the phonon frequency (magnomechanical spring effect) and decay rate (magnomechanical decay) via dynamical backaction. Such effects have been recently observed by coupling the uniform magnon mode of a magnetic sphere (the Kittel mode) to a microwave cavity. In particular, the ability to evade backaction effects was demonstrated [C.A. Potts et al., arXiv:2211.13766 [quant-ph] (2022)], a requisite for applications such as magnomechanical based thermometry. However, deviations were observed from the predicted magnomechanical decay rate within the standard theoretical model. In this work, we account for these deviations by considering corrections due to (i) magnetic Kerr nonlinearities and (ii) the coupling of phonons to additional magnon modes. Provided that such additional modes couple weakly to the driven cavity, our model yields a correction proportional to the average Kittel magnon mode occupation. We focus our results on magnetic spheres, where we show that the magnetostatic Walker modes couple to the relevant mechanical modes as efficiently as the Kittel mode. Our model yields excellent agreement with the experimental data. | 翻訳日:2023-01-30 14:35:09 公開日:2023-01-27 |
# コンピュータ代数システムを用いたシンボリック回帰の背景知識の導入 Incorporating Background Knowledge in Symbolic Regression using a Computer Algebra System ( http://arxiv.org/abs/2301.11919v1 ) ライセンス: Link先を確認 | Charles Fox, Neil Tran, Nikki Nacion, Samiha Sharlin, and Tyler R. Josephson | (参考訳) シンボリック回帰(SR)は、特定のデータセットに適合する解釈可能な簡潔な表現を生成することができ、ブラックボックスアプローチよりも構造をより人間的に理解することができる。
背景知識の追加(記号的な数学的制約の形で)により、理論に関して意味のある表現の生成が可能となり、データにも一貫性がある。
従来型遺伝的アルゴリズム(ga)に基づくsr(pysr)とマルコフ鎖モンテカルロ(mcmc)に基づくベイズ型srアーキテクチャ(ベイズ機械科学者)への制約の追加を具体的に検討し、実験および歴史的なデータセットから吸着方程式を再発見することに適用する。
その結果,厳密な制約がGAとMCMC SRの探索を妨げているのに対して,ソフトな制約は探索効率とモデル意味性の両面において性能を向上させ,計算コストは1桁程度増加することがわかった。
制約がデータセットや期待モデルとうまく相関しない場合は、表現の検索を妨げる可能性がある。
ベイジアンSRは、GAの適合関数を変更するよりも、(ベイジアン以前のように)これらの制約の方が優れている。 Symbolic Regression (SR) can generate interpretable, concise expressions that fit a given dataset, allowing for more human understanding of the structure than black-box approaches. The addition of background knowledge (in the form of symbolic mathematical constraints) allows for the generation of expressions that are meaningful with respect to theory while also being consistent with data. We specifically examine the addition of constraints to traditional genetic algorithm (GA) based SR (PySR) as well as a Markov-chain Monte Carlo (MCMC) based Bayesian SR architecture (Bayesian Machine Scientist), and apply these to rediscovering adsorption equations from experimental, historical datasets. We find that, while hard constraints prevent GA and MCMC SR from searching, soft constraints can lead to improved performance both in terms of search effectiveness and model meaningfulness, with computational costs increasing by about an order-of-magnitude. If the constraints do not correlate well with the dataset or expected models, they can hinder the search of expressions. We find Bayesian SR is better these constraints (as the Bayesian prior) than by modifying the fitness function in the GA | 翻訳日:2023-01-30 14:34:43 公開日:2023-01-27 |
# 全ては量子イジングモデルである Everything is a quantum Ising model ( http://arxiv.org/abs/2301.11917v1 ) ライセンス: Link先を確認 | Ruben Verresen | (参考訳) この研究は、量子ビットの任意の$k$-局所ハミルトニアンが、$k$-局所対角相互作用を持つ4状態の「イシング」モデルから得られることを示し、量子物質の新しい理論的および実験的ハンドルを与える。
特に、古典的なイジング相互作用は、各ポーリ作用素を4 \times 4$対角行列に置き換えることで決定することができる。
その後、大きな横方向の場をチューニングして4つの状態のうち2つを投影し、qudit一般化によって元の量子ビットモデルを復元する。
これはスピン-1/2 XY やハイゼンベルクモデルなど、それぞれ3状態ポッツモデルと4状態ポッツモデルの大域極限から生じる顕著な対応をもたらす。
同様に、キタエフハニカムモデルは、ハニカム格子上のループ状態を強制する古典的相互作用から現れる。
これらの一般化されたイジングモデルは、量子臨界性や物質トポロジカル位相を含むより小さな分野のリッチな物理学も示している。
この研究は、対角相互作用とチューナブルフィールド(例えば、リドベルク原子や極性分子のツイーザーアレイ)のみを用いて量子スピンモデルを実現する方法を示すことによって、実験的に達成可能なものを拡張する。
より広義には、4状態スピンは、北エフハニカムモデルを実現するボース・ハッバードモデルによって実証された、反復粒子の位置に符号化することもできる。 This work shows that any $k$-local Hamiltonian of qubits can be obtained from a 4-state 'Ising' model with $k$-local diagonal interactions and a single-site transverse field -- giving a new theoretical and experimental handle on quantum matter. In particular, the classical Ising interactions can be determined by replacing each Pauli operator with a $4 \times 4$ diagonal matrix. Subsequently tuning a large transverse field projects out two of the four states, recovering the original qubit model, with qudit generalizations. This leads to striking correspondences, such as the spin-1/2 XY and Heisenberg models arising from the large-field limit of 3-state and 4-state Potts models, respectively. Similarly, the Kitaev honeycomb model emerges from classical interactions which enforce loop states on the honeycomb lattice. These generalized Ising models also display rich physics for smaller fields, including quantum criticality and topological phases of matter. This work expands what is experimentally achievable by showing how to realize any quantum spin model using only diagonal interactions and a tuneable field -- ingredients found in, e.g., tweezer arrays of Rydberg atoms or polar molecules. More broadly, 4-state spins can also be encoded in the positions of itinerant particles, exemplified by a Bose-Hubbard model realizing the Kitaev honeycomb model -- giving an experimental path to its $\mathbb Z_2$ and non-Abelian topological quantum liquids. | 翻訳日:2023-01-30 14:34:22 公開日:2023-01-27 |
# 大規模言語モデルは必然的にトピックモデルである:インテクスト学習のための良い説明と発見 Large Language Models Are Implicitly Topic Models: Explaining and Finding Good Demonstrations for In-Context Learning ( http://arxiv.org/abs/2301.11916v1 ) ライセンス: Link先を確認 | Xinyi Wang, Wanrong Zhu, William Yang Wang | (参考訳) 近年、事前学習された大規模言語モデルは、文脈内学習として知られる推論時間限定学習能力を達成する上で、著しく効率が向上している。
しかし、既存の文献では、この能力のわずかなデモの選択に対する感受性が強調されている。
この能力の基盤となるメカニズムは、通常の言語モデルで事前訓練された目的から生じる。
本研究では,実演からタスク関連情報を暗黙的に推測する話題モデルとして,ベイズレンズによる文脈内学習現象を検討することを目的とする。
そこで本研究では,8つの実世界のテキスト分類データセット上で,8つのGPT2モデルとGPT3モデルの平均値に対して,注釈付きデータの集合から最適なデモを選択するアルゴリズムを提案する。
我々の経験的発見は、大きな言語モデルが潜在概念変数を暗黙的に推論するという仮説を支持する。 In recent years, pre-trained large language models have demonstrated remarkable efficiency in achieving an inference-time few-shot learning capability known as in-context learning. However, existing literature has highlighted the sensitivity of this capability to the selection of few-shot demonstrations. The underlying mechanisms by which this capability arises from regular language model pretraining objectives remain poorly understood. In this study, we aim to examine the in-context learning phenomenon through a Bayesian lens, viewing large language models as topic models that implicitly infer task-related information from demonstrations. On this premise, we propose an algorithm for selecting optimal demonstrations from a set of annotated data and demonstrate a significant 12.5% improvement relative to the random selection baseline, averaged over eight GPT2 and GPT3 models on eight different real-world text classification datasets. Our empirical findings support our hypothesis that large language models implicitly infer a latent concept variable. | 翻訳日:2023-01-30 14:33:56 公開日:2023-01-27 |
# パートアウェア表現学習による自己指導型事前学習の理解 Understanding Self-Supervised Pretraining with Part-Aware Representation Learning ( http://arxiv.org/abs/2301.11915v1 ) ライセンス: Link先を確認 | Jie Zhu, Jiyang Qi, Mingyu Ding, Xiaokang Chen, Ping Luo, Xinggang Wang, Wenyu Liu, Leye Wang, Jingdong Wang | (参考訳) 本稿では,自己指導型事前学習手法がパート認識型表現を学習する能力を研究することによって,自己指導型事前学習の理解に関心がある。
この研究の主な動機は、対照的な学習で使用されるランダムなビューと、マスキング画像モデリングで使用されるランダムなマスク(可視性)パッチが、しばしばオブジェクト部分に関するものである点にある。
プロジェクション層は、エンコーダから学習したオブジェクト部分表現からオブジェクト全体の表現を幻覚し、マスクされた画像モデリングは部分的なタスクであり、オブジェクトのマスクされたパッチは可視的なパッチから幻覚される。
この説明は、オブジェクト部分を理解するには、自己教師付き事前学習エンコーダが必要であることを示唆する。
我々は,既訓練の市販エンコーダと,オブジェクトレベルの認識と部分レベルの認識に関するいくつかの代表的な手法を実証的に比較した。
その結果,全教師付きモデルは,オブジェクト指向認識のための自己教師付きモデルよりも優れており,ほとんどの自己教師付きコントラスト学習およびマスク付き画像モデリング手法は,全教師付き部分レベル認識法よりも優れていることがわかった。
コントラスト学習とマスキング画像モデリングの組み合わせにより,さらなる性能向上が期待できる。 In this paper, we are interested in understanding self-supervised pretraining through studying the capability that self-supervised representation pretraining methods learn part-aware representations. The study is mainly motivated by that random views, used in contrastive learning, and random masked (visible) patches, used in masked image modeling, are often about object parts. We explain that contrastive learning is a part-to-whole task: the projection layer hallucinates the whole object representation from the object part representation learned from the encoder, and that masked image modeling is a part-to-part task: the masked patches of the object are hallucinated from the visible patches. The explanation suggests that the self-supervised pretrained encoder is required to understand the object part. We empirically compare the off-the-shelf encoders pretrained with several representative methods on object-level recognition and part-level recognition. The results show that the fully-supervised model outperforms self-supervised models for object-level recognition, and most self-supervised contrastive learning and masked image modeling methods outperform the fully-supervised method for part-level recognition. It is observed that the combination of contrastive learning and masked image modeling further improves the performance. | 翻訳日:2023-01-30 14:33:39 公開日:2023-01-27 |
# SWARM並列性:大規模モデルのトレーニングは驚くほどコミュニケーション効率が良い SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient ( http://arxiv.org/abs/2301.11913v1 ) ライセンス: Link先を確認 | Max Ryabinin, Tim Dettmers, Michael Diskin, Alexander Borzunov | (参考訳) 多くのディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
本研究では、安価な"プリエンプティブル"インスタンスを使用したり、複数のリージョンから既存のリソースをプールするという、大規模なモデルをトレーニングするための代替設定を検討する。
これらの条件下で既存のモデル並列アルゴリズムの性能を解析し、より大きなモデルのトレーニングが通信集約化の少ない構成を見つける。
これらの結果に基づき、不連結で不均一で信頼性の低いデバイスを対象としたモデル並列学習アルゴリズムSWARM並列性を提案する。
SWARMは、障害時に再バランスするノード間で一時的なランダム化パイプラインを生成する。
本研究の成果を実証的に検証し,既存の大規模トレーニング手法と比較した。
最後に,200Mb/s未満のプリエンプティブルなT4 GPU上で1Bの共有パラメータ(約13Bの共有前)で大きなTransformer言語モデルをトレーニングするための圧縮戦略を組み合わせる。 Many deep learning applications benefit from using large models with billions of parameters. Training these models is notoriously expensive due to the need for specialized HPC clusters. In this work, we consider alternative setups for training large models: using cheap "preemptible" instances or pooling existing resources from multiple regions. We analyze the performance of existing model-parallel algorithms in these conditions and find configurations where training larger models becomes less communication-intensive. Based on these findings, we propose SWARM parallelism, a model-parallel training algorithm designed for poorly connected, heterogeneous and unreliable devices. SWARM creates temporary randomized pipelines between nodes that are rebalanced in case of failure. We empirically validate our findings and compare SWARM parallelism with existing large-scale training approaches. Finally, we combine our insights with compression strategies to train a large Transformer language model with 1B shared parameters (approximately 13B before sharing) on preemptible T4 GPUs with less than 200Mb/s network. | 翻訳日:2023-01-30 14:33:16 公開日:2023-01-27 |
# OccRob: ディープニューラルネットワークの効率的なSMTベースオクルージョンロバスト性検証 OccRob: Efficient SMT-Based Occlusion Robustness Verification of Deep Neural Networks ( http://arxiv.org/abs/2301.11912v1 ) ライセンス: Link先を確認 | Xingwu Guo, Ziwei Zhou, Yueling Zhang, Guy Katz, Min Zhang | (参考訳) オクルージョン(Occlusion)は、ディープニューラルネットワーク(DNN)に対する、一般的かつ容易に実現可能なセマンティック摂動である。
DNNを騙していくつかのセグメントを隠蔽することで入力画像を誤分類し、おそらく深刻なエラーを引き起こす。
したがって、安全クリティカルなシステムに植えられたDNNは、デプロイ前に閉塞に対して堅牢であることを確認する必要がある。
しかし、DNNの既存のロバスト性検証アプローチのほとんどは、非意味的な摂動に焦点を絞っており、排他的ケースには適していない。
本稿では,DNNのオクルージョンロバスト性を正式に検証するための,SMTに基づく最初の効率的な手法を提案する。
閉塞頑健性検証問題を定式化し、NP完全であることを証明する。
そこで我々は,ニューラルネットワークの一部としてオクルージョンを符号化する新しい手法を考案し,拡張ニューラルネットワークを既製のSMTベースのニューラルネットワーク検証ツールを用いて効率よく検証できるように2つの加速手法を導入する。
我々はOccRobと呼ばれるプロトタイプにアプローチを実装し、様々なオクルージョン変異を持つベンチマークデータセットの性能を広範囲に評価する。
実験の結果,DNNの各種閉塞に対する堅牢性を検証する上でのアプローチの有効性と有効性,およびこれらのDNNが堅牢でない場合の反例を生成する能力を示す。 Occlusion is a prevalent and easily realizable semantic perturbation to deep neural networks (DNNs). It can fool a DNN into misclassifying an input image by occluding some segments, possibly resulting in severe errors. Therefore, DNNs planted in safety-critical systems should be verified to be robust against occlusions prior to deployment. However, most existing robustness verification approaches for DNNs are focused on non-semantic perturbations and are not suited to the occlusion case. In this paper, we propose the first efficient, SMT-based approach for formally verifying the occlusion robustness of DNNs. We formulate the occlusion robustness verification problem and prove it is NP-complete. Then, we devise a novel approach for encoding occlusions as a part of neural networks and introduce two acceleration techniques so that the extended neural networks can be efficiently verified using off-the-shelf, SMT-based neural network verification tools. We implement our approach in a prototype called OccRob and extensively evaluate its performance on benchmark datasets with various occlusion variants. The experimental results demonstrate our approach's effectiveness and efficiency in verifying DNNs' robustness against various occlusions, and its ability to generate counterexamples when these DNNs are not robust. | 翻訳日:2023-01-30 14:33:02 公開日:2023-01-27 |
# 多次元概念発見(MCD):完全性を保証する統一フレームワーク Multi-dimensional concept discovery (MCD): A unifying framework with completeness guarantees ( http://arxiv.org/abs/2301.11911v1 ) ライセンス: Link先を確認 | Johanna Vielhaben, Stefan Bl\"ucher, Nils Strodthoff | (参考訳) 完全性公理は、モデルに局所的に忠実である、すなわち一つの決定に対してのみ、ポストホックなXAI法の説明を与える。
XAIの信頼できる応用、特に高い意思決定には、よりグローバルなモデル理解が必要です。
近年,概念に基づく手法が提案されているが,実際のモデル推論に縛られることは保証されていない。
この問題を回避するために,概念レベルの完全性関係を満たす従来のアプローチの拡張として,多次元概念発見(MCD)を提案する。
提案手法は一般線形部分空間から概念として始まり,概念解釈可能性の強化やモデル部品の再学習は不要である。
改良された概念を発見し,多次元部分空間の可能性を完全に活用するために,スパース部分空間クラスタリングを提案する。
mcdは、入力空間の概念を補完する2つの分析ツールを提供している: (1) 概念活性化マップ(concept activation map)は、サンプル内で概念が表現される場所を示し、原型的なサンプルを通して概念のキャラクタリゼーションを可能にする。
どちらのツールもモデル推論の詳細な理解を可能にし、完全性関係を通じてモデルと関係することを保証する。
これは、より信頼できるコンセプトベースのXAIへの道を開く。
我々はより制約のある概念定義に対するmcdの優位性を実証的に示す。 The completeness axiom renders the explanation of a post-hoc XAI method only locally faithful to the model, i.e. for a single decision. For the trustworthy application of XAI, in particular for high-stake decisions, a more global model understanding is required. Recently, concept-based methods have been proposed, which are however not guaranteed to be bound to the actual model reasoning. To circumvent this problem, we propose Multi-dimensional Concept Discovery (MCD) as an extension of previous approaches that fulfills a completeness relation on the level of concepts. Our method starts from general linear subspaces as concepts and does neither require reinforcing concept interpretability nor re-training of model parts. We propose sparse subspace clustering to discover improved concepts and fully leverage the potential of multi-dimensional subspaces. MCD offers two complementary analysis tools for concepts in input space: (1) concept activation maps, that show where a concept is expressed within a sample, allowing for concept characterization through prototypical samples, and (2) concept relevance heatmaps, that decompose the model decision into concept contributions. Both tools together enable a detailed understanding of the model reasoning, which is guaranteed to relate to the model via a completeness relation. This paves the way towards more trustworthy concept-based XAI. We empirically demonstrate the superiority of MCD against more constrained concept definitions. | 翻訳日:2023-01-30 14:32:43 公開日:2023-01-27 |
# フェデレーション学習におけるアップリンクスケジューリング:グラフ表現学習による重要認識アプローチ Uplink Scheduling in Federated Learning: an Importance-Aware Approach via Graph Representation Learning ( http://arxiv.org/abs/2301.11903v1 ) ライセンス: Link先を確認 | Marco Skocaj, Pedro Enrique Iturria Rivera, Roberto Verdone and Melike Erol-Kantarci | (参考訳) フェデレーション学習(fl)は、aiベースのサービス、アプリケーション、ネットワーク手順を6gで分散トレーニングするための有望なフレームワークとして登場した。
6g無線flシステムの性能と効率に影響を与える大きな課題の1つは、リソースに制約されたチャネル上のユーザデバイスの大規模スケジューリングである。
本稿では,flクライアントデバイスのアップリンクスケジューリングは,リレーショナル構造が豊富な問題であると主張する。
この課題に対処するために,Unsupervised Graph Representation Learning (UGRL) を利用して,FLアプリケーションにおけるクライアントスケジューリングのための新しい,エネルギー効率,重要度を考慮したメトリクスを提案する。
提案手法はスケジューリングプロセスにリレーショナル・インダクティブ・バイアスを導入し、最先端の重要度認識機構とは異なり、クライアントデバイスからのトレーニングフィードバック情報の収集を必要としない。
本研究では,最近提案する指標に基づくベースラインスケジューリングアルゴリズムに対する提案手法を評価する。
その結果, 空間的関係を示すノードのシナリオを考えると, モデル精度が最大10%, エネルギー効率が最大17倍に向上することが示唆された。 Federated Learning (FL) has emerged as a promising framework for distributed training of AI-based services, applications, and network procedures in 6G. One of the major challenges affecting the performance and efficiency of 6G wireless FL systems is the massive scheduling of user devices over resource-constrained channels. In this work, we argue that the uplink scheduling of FL client devices is a problem with a rich relational structure. To address this challenge, we propose a novel, energy-efficient, and importance-aware metric for client scheduling in FL applications by leveraging Unsupervised Graph Representation Learning (UGRL). Our proposed approach introduces a relational inductive bias in the scheduling process and does not require the collection of training feedback information from client devices, unlike state-of-the-art importance-aware mechanisms. We evaluate our proposed solution against baseline scheduling algorithms based on recently proposed metrics in the literature. Results show that, when considering scenarios of nodes exhibiting spatial relations, our approach can achieve an average gain of up to 10% in model accuracy and up to 17 times in energy efficiency compared to state-of-the-art importance-aware policies. | 翻訳日:2023-01-30 14:32:18 公開日:2023-01-27 |
# TinyMLは持続可能か?
マイクロコントローラにおける機械学習の環境影響評価 Is TinyML Sustainable? Assessing the Environmental Impacts of Machine Learning on Microcontrollers ( http://arxiv.org/abs/2301.11899v1 ) ライセンス: Link先を確認 | Shvetank Prakash, Matthew Stewart, Colby Banbury, Mark Mazumder, Pete Warden, Brian Plancher, Vijay Janapa Reddi | (参考訳) 炭素排出量とグローバル廃棄物の持続的成長は、環境の将来に重大な持続可能性の懸念をもたらす。
モノのインターネット(IoT)は、この問題を悪化させる可能性がある。
しかし、Tiny Machine Learning(TinyML)と呼ばれる新興分野は、持続可能なコンピューティングプラクティスを通じて、これらの環境課題に対処する機会を持っている。
低コストで低消費電力のマイクロコントローラシステムに機械学習(ML)アルゴリズムをデプロイするTinyMLは、デバイス上のセンサー分析を可能にし、多くの常時オンのMLアプリケーションをアンロックする。
本稿では、これらのTinyMLアプリケーションが重要な持続可能性課題に対処する可能性について論じる。
さらに、この新興技術のフットプリントは、TinyMLシステムの完全なライフサイクル分析を通じて評価される。
この分析からtinymlは、他のセクターの排出量を減らすアプリケーションを可能にすることで、二酸化炭素排出量を相殺する機会を提供する。
それにもかかわらず、グローバルにスケールすると、tinymlシステムのカーボンフットプリントは無視できない。
最後に、TinyMLが持続可能な未来に貢献するさらなる機会を可能にするための研究の方向性を概説する。 The sustained growth of carbon emissions and global waste elicits significant sustainability concerns for our environment's future. The growing Internet of Things (IoT) has the potential to exacerbate this issue. However, an emerging area known as Tiny Machine Learning (TinyML) has the opportunity to help address these environmental challenges through sustainable computing practices. TinyML, the deployment of machine learning (ML) algorithms onto low-cost, low-power microcontroller systems, enables on-device sensor analytics that unlocks numerous always-on ML applications. This article discusses the potential of these TinyML applications to address critical sustainability challenges. Moreover, the footprint of this emerging technology is assessed through a complete life cycle analysis of TinyML systems. From this analysis, TinyML presents opportunities to offset its carbon emissions by enabling applications that reduce the emissions of other sectors. Nevertheless, when globally scaled, the carbon footprint of TinyML systems is not negligible, necessitating that designers factor in environmental impact when formulating new devices. Finally, research directions for enabling further opportunities for TinyML to contribute to a sustainable future are outlined. | 翻訳日:2023-01-30 14:31:59 公開日:2023-01-27 |
# ナノスケール力センシングのためのインダクティブメカノ電気変換 Kinetic inductive mechano-electric transduction for nano-scale force sensing ( http://arxiv.org/abs/2301.11055v2 ) ライセンス: Link先を確認 | August K. Roos, Ermes Scarano, Elisabet K. Arvidsson, Erik Holmgren, David B. Haviland | (参考訳) 我々はキャビティオプティメカニクスの原理を用いて原子間力顕微鏡のための共鳴機械力センサを設計する。
このセンサーは、従来の静電容量カップリングと二重の電気機械カップリングの新たなタイプに基づいており、カンチレバーの運動は、超伝導ナノワイヤの動的インダクタンスの変化を引き起こす表面ひずみを誘導する。
キャビティは、ナノワイヤの運動インダクタンスを含む等価LC回路を備えた小型のマイクロ波プラズマモードによって実現される。
デバイスは完全に共平面であり、伝送線路と読み出し回路への最適な結合のためにキャビティインピーダンスを変換する方法を示す。
ここで紹介する装置は, ベア・キネティック・インダクティブ・メカノ・エレクトロリック・カップリング (KIMEC) を$g_0/2\pi \sim$ 3-10 Hz で推定する。
多周波ポンピングと測定手法を用いて, キャンチレバーの位相感度検出を行う。 We use the principles of cavity opto-mechanics to design a resonant mechanical force sensor for atomic force microscopy. The sensor is based on a new type of electro-mechanical coupling, dual to traditional capacitive coupling, whereby the motion of a cantilever induces surface strain that causes a change in the kinetic inductance of a superconducting nanowire. The cavity is realized by a compact microwave plasma mode with an equivalent LC circuit involving the nanowire's kinetic inductance. The device is fully co-planar and we show how to transform the cavity impedance for optimal coupling to the transmission line and readout circuit. For the device presented here, we estimate the bare Kinetic Inductive Mechano-Electric Coupling (KIMEC) rate $g_0/2\pi \sim$ 3-10 Hz. We demonstrate phase-sensitive detection of cantilever motion using a multifrequency pumping and measurement scheme. | 翻訳日:2023-01-30 11:51:57 公開日:2023-01-27 |
# 拡散モデルにおけるノイズスケジューリングの重要性について On the Importance of Noise Scheduling for Diffusion Models ( http://arxiv.org/abs/2301.10972v2 ) ライセンス: Link先を確認 | Ting Chen | (参考訳) 拡散生成モデルに対するノイズスケジューリング手法の効果を実験的に検討する。
1) ノイズスケジューリングは性能に不可欠であり,(2) 最適なノイズスケジューリングはタスク(画像サイズなど)に依存する,(2) 画像サイズを増加させると,よりノイズの少ないものにシフトする,(3) ノイズスケジュール関数を固定する(lognrを$\log b$にシフトするのと同値) 入力データをb$でスケールする,という3つの知見がある。
この簡単なレシピは、最近提案されたRecurrent Interface Network (RIN)と組み合わせて、ImageNet上の高解像度画像のための最先端のピクセルベースの拡散モデルを生成し、1024$\times$1024で多彩かつ高忠実な画像を単一のステージからエンドツーエンドに生成することを可能にする。 We empirically study the effect of noise scheduling strategies for denoising diffusion generative models. There are three findings: (1) the noise scheduling is crucial for the performance, and the optimal one depends on the task (e.g., image sizes), (2) when increasing the image size, the optimal noise scheduling shifts towards a noisier one (due to increased redundancy in pixels), and (3) simply scaling the input data by a factor of $b$ while keeping the noise schedule function fixed (equivalent to shifting the logSNR by $\log b$) is a good strategy across image sizes. This simple recipe, when combined with recently proposed Recurrent Interface Network (RIN), yields state-of-the-art pixel-based diffusion models for high-resolution images on ImageNet, enabling single-stage, end-to-end generation of diverse and high-fidelity images at 1024$\times$1024 resolution (without upsampling/cascades). | 翻訳日:2023-01-30 11:51:40 公開日:2023-01-27 |
# 2ビットハイゼンベルクスピンチェーン相関とエントロピー不確かさ Biqubit Heisenberg spin chain correlations and entropic uncertainty ( http://arxiv.org/abs/2301.10925v2 ) ライセンス: Link先を確認 | Atta ur Rahman, S. M. Zangi, Ma-Cheng Yang, Cong-Feng Qiao | (参考訳) 2量子XXZ型ハイゼンベルクスピンチェーン系における量子相関とエントロピーの不確かさのダイナミクスを,磁場と古典磁場に同時に曝露した場合に検討する。
エンタングルメント,コヒーレンス,エントロピーの不確かさ,混合性障害を示すために,それぞれネガティビティと$\ell_1$-norm of coherence,量子メモリ支援エントロピー不確実性,線形エントロピー関数を用いる。
また、外部の磁気チャネルと古典チャネルの結合スキームに悪影響を及ぼす静的ノイズも考慮される。
エンタングルメント, コヒーレンス, 不確実性, 障害のダイナミクスは, クビットチャネル結合, 静音強度, スピンスピン結合, ハイゼンベルクスピン交換相互作用, ジアロシンスキー-モリヤ相互作用 (DM), カプラン, シェフトマン, エンチン-ヴルマン, およびアハロニパラメータ (KSEA) や異方性パラメータなど, 現在の構成の様々なパラメータに対して明らかに研究されている。
古典的および磁場の個々の応用と比較して、それらの同時適用は量子相関保存により適していることを示す。
絡み合いとコヒーレンス関数は、エントロピーの不確実性やエントロピー障害と反対の関係があることが示されている。
最後に、エンタングルメントと比較して、コヒーレンスは2量子ビットのハイゼンベルクスピンチェーン系で強化されたままである。 We investigate the dynamics of quantum correlations and entropic uncertainty in a system of two-qubit XXZ-type Heisenberg spin chain when exposed to a magnetic and classical field simultaneously. To demonstrate entanglement, coherence, entropic uncertainty and mixedness disorder, we utilize negativity and $\ell_1$-norm of coherence, quantum memory-assisted entropic uncertainty and linear entropy functions, respectively. Besides, a dephasing static noise is considered affecting the joint scheme of the external magnetic and classical channel. The dynamics of entanglement, coherence, uncertainty, and disorder have been explicitly investigated against various several parameters of the current configuration, such as qubit-channel coupling, static noise strength, spin-spin coupling, Heisenberg spin exchange interaction, Dzyaloshinskii-Moriya interaction (DM), Kaplan, Shekhtman, Entin-Wohlman, and Aharony (KSEA) and anisotropy parameters. We show that compared to the individual application of the classical and magnetic field, their simultaneous application is more appropriate for the quantum correlations preservation. The entanglement and coherence functions have been shown to have opposite relationship with the entropic uncertainty and entropy disorder. Finally, compared to the entanglement, coherence remains strengthened in the two-qubit Heisenberg spin chain system. | 翻訳日:2023-01-30 11:51:21 公開日:2023-01-27 |
# gpuを用いたオンデバイス機械学習推論のためのプライベート情報検索 GPU-based Private Information Retrieval for On-Device Machine Learning Inference ( http://arxiv.org/abs/2301.10904v2 ) ライセンス: Link先を確認 | Maximilian Lam, Jeff Johnson, Wenjie Xiong, Kiwan Maeng, Udit Gupta, Minsoo Rhu, Hsien-Hsin S. Lee, Vijay Janapa Reddi, Gu-Yeon Wei, David Brooks, Edward Suh | (参考訳) オンデバイス機械学習(ML)推論は、リモートサーバなしでユーザデバイス上でプライベートなユーザデータを使用できる。
しかし、プライベートML推論に対する純粋なオンデバイスソリューションは、デバイス上に格納するには大きすぎる埋め込みテーブルに依存する多くのアプリケーションにとって実用的ではない。
この障壁を克服するために,デバイス上でのml推論中にプライベート情報を共有することなく,サーバからの埋め込みを効率的かつプライベートに検索するpir(private information retrieval)の利用を提案する。
オフザシェルフのPIRアルゴリズムは、通常計算量が多く、遅延に敏感な推論タスクに直接使用することができないので、我々はそうする。
1)GPU上でPIRを加速する新しいアルゴリズムを開発し、
2) 下流MLアプリケーションとPIRを併用してさらなる高速化を実現する。
我々のGPUアクセラレーション戦略は、最適化されたCPU PIR実装よりも20ドル以上のシステムスループットを向上し、我々の共同設計技術は、固定モデル品質で5ドル以上のスループット改善を得る。
レコメンデーションや言語モデリングといったさまざまなオンデバイスmlアプリケーションでは、単一のv100 gpu上のシステムは、モデル精度を維持しつつ、推論通信と応答レイテンシをそれぞれ300$kbと100$ms以内に制限しながら、1秒間に最大10万ドル(100ドル)のクエリーを処理できます。 On-device machine learning (ML) inference can enable the use of private user data on user devices without remote servers. However, a pure on-device solution to private ML inference is impractical for many applications that rely on embedding tables that are too large to be stored on-device. To overcome this barrier, we propose the use of private information retrieval (PIR) to efficiently and privately retrieve embeddings from servers without sharing any private information during on-device ML inference. As off-the-shelf PIR algorithms are usually too computationally intensive to directly use for latency-sensitive inference tasks, we 1) develop a novel algorithm for accelerating PIR on GPUs, and 2) co-design PIR with the downstream ML application to obtain further speedup. Our GPU acceleration strategy improves system throughput by more than $20 \times$ over an optimized CPU PIR implementation, and our co-design techniques obtain over $5 \times$ additional throughput improvement at fixed model quality. Together, on various on-device ML applications such as recommendation and language modeling, our system on a single V100 GPU can serve up to $100,000$ queries per second -- a $>100 \times$ throughput improvement over a naively implemented system -- while maintaining model accuracy, and limiting inference communication and response latency to within $300$KB and $<100$ms respectively. | 翻訳日:2023-01-30 11:50:48 公開日:2023-01-27 |
# 古典的および量子異常検出による標準モデルを越えての物理学の破滅 Unravelling physics beyond the standard model with classical and quantum anomaly detection ( http://arxiv.org/abs/2301.10787v2 ) ライセンス: Link先を確認 | Julian Schuhmacher, Laura Boggia, Vasilis Belis, Ema Puljak, Michele Grossi, Maurizio Pierini, Sofia Vallecorsa, Francesco Tacchino, Panagiotis Barkoutsos, and Ivano Tavernelli | (参考訳) 微視的スケールで新しい物理学現象を見つける多くの希望は、大型ハドロン衝突型加速器(lhc)で行ったような高エネルギー物理学実験から得られた観測に依存している。
しかし、現在の実験は、bsm(beyond standard model)理論の発展を導く新しい物理学の明確な兆候を示していない。
LHCで生成される膨大な量のデータから新しい物理のシグネチャを同定することは、異常検出のクラスに該当し、最も大きな計算課題の1つである。
本稿では,ランダムなプロセスによる異常の人工的生成に基づいて,教師付き学習環境で異常検出を行う新しい手法を提案する。
その結果,古典的支援ベクトル分類器 (CSVC) と量子的支援ベクトル分類器 (QSVC) を用いて,SMイベント中の人工的異常を同定した。
さらに有望なことに、人工的な異常を識別するために訓練されたSVCを用いることで、現実的なBSMイベントを高精度に識別することが可能である。
並行して, 分類精度を向上させるための量子アルゴリズムの可能性についても検討し, この新しい計算パラダイムを最大限に活用するために, 妥当な条件を提供する。 Much hope for finding new physics phenomena at microscopic scale relies on the observations obtained from High Energy Physics experiments, like the ones performed at the Large Hadron Collider (LHC). However, current experiments do not indicate clear signs of new physics that could guide the development of additional Beyond Standard Model (BSM) theories. Identifying signatures of new physics out of the enormous amount of data produced at the LHC falls into the class of anomaly detection and constitutes one of the greatest computational challenges. In this article, we propose a novel strategy to perform anomaly detection in a supervised learning setting, based on the artificial creation of anomalies through a random process. For the resulting supervised learning problem, we successfully apply classical and quantum Support Vector Classifiers (CSVC and QSVC respectively) to identify the artificial anomalies among the SM events. Even more promising, we find that employing an SVC trained to identify the artificial anomalies, it is possible to identify realistic BSM events with high accuracy. In parallel, we also explore the potential of quantum algorithms for improving the classification accuracy and provide plausible conditions for the best exploitation of this novel computational paradigm. | 翻訳日:2023-01-30 11:50:25 公開日:2023-01-27 |
# 建築負荷予測のための深層学習モデルにおける伝達学習--限られたデータの場合 Transfer Learning in Deep Learning Models for Building Load Forecasting: Case of Limited Data ( http://arxiv.org/abs/2301.10663v2 ) ライセンス: Link先を確認 | Menna Nawar, Moustafa Shomer, Samy Faddel, and Huangjie Gong | (参考訳) 建物の正確な負荷予測は、節減可能性を高め、発電計画の最適化戦略を促進する可能性がある。
コンピュータ科学の急速な進化により、特にディープラーニングモデルにおけるデータ駆動技術は、負荷予測問題に対する有望な解決策となっている。
これらのモデルは正確な予測結果を示しているが、性能を維持するには大量の履歴データが必要である。
新しい建物や低分解能の計測装置を備えた建物を考えると、それらから十分な履歴データを得ることは困難であり、予測性能が低下する。
本稿では,限られたデータと少ないデータを持つ建物にディープラーニングモデルを適用するために,その問題を克服し,ディープラーニングモデルの性能を向上させるビルディング・ツー・ビルディング・トランスファー・ラーニング・フレームワークを提案する。
転送学習手法をTransformerモデルと呼ばれる新しい手法に適用した。
アルゴリズムの性能は限られたデータを持つ大規模商業ビルでテストされた。
その結果,提案手法は,スクラッチからトレーニングを行う従来の深層学習と比較して,予測精度を56.8%向上させた。
また,提案モデルとLong-Short Term Memory(LSTM)やRecurrent Neural Network(RNN)といった他の逐次ディープラーニングモデルとの比較を行った。
変圧器モデルの精度は, 0.011のlstmと0.051のrnnと比較して, 根平均二乗誤差を0.009に下げることで他のモデルよりも優れていた。 Precise load forecasting in buildings could increase the bill savings potential and facilitate optimized strategies for power generation planning. With the rapid evolution of computer science, data-driven techniques, in particular the Deep Learning models, have become a promising solution for the load forecasting problem. These models have showed accurate forecasting results; however, they need abundance amount of historical data to maintain the performance. Considering the new buildings and buildings with low resolution measuring equipment, it is difficult to get enough historical data from them, leading to poor forecasting performance. In order to adapt Deep Learning models for buildings with limited and scarce data, this paper proposes a Building-to-Building Transfer Learning framework to overcome the problem and enhance the performance of Deep Learning models. The transfer learning approach was applied to a new technique known as Transformer model due to its efficacy in capturing data trends. The performance of the algorithm was tested on a large commercial building with limited data. The result showed that the proposed approach improved the forecasting accuracy by 56.8% compared to the case of conventional deep learning where training from scratch is used. The paper also compared the proposed Transformer model to other sequential deep learning models such as Long-short Term Memory (LSTM) and Recurrent Neural Network (RNN). The accuracy of the transformer model outperformed other models by reducing the root mean square error to 0.009, compared to LSTM with 0.011 and RNN with 0.051. | 翻訳日:2023-01-30 11:50:04 公開日:2023-01-27 |