このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230505となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# アピュリアにおける観光振興のためのメタバースプラットフォームの開発 Development of a Metaverse Platform for Tourism Promotion in Apulia ( http://arxiv.org/abs/2305.11877v1 ) ライセンス: Link先を確認 | Enrico Carmine Ciliberti, Marco Fiore and Marina Mongiello | (参考訳) metaverseは、現実世界のデジタル環境で再創造する魅力的な方法だ。
ユーザーはウェブサイトを閲覧するだけでなく、ヘッドセットやバーチャルリアリティー技術を使って接続することができる。
metaverseは、さまざまなトピックの進歩のおかげで、実際に急速な開発段階にある。
そこで本稿では,観光客が観光ガイドや様々なサプライヤーと交流できるスマートツーリズム・プラットフォームを提案する。
本稿では,イタリアの都市バリのレクリエーションを現実のシナリオとして利用して,現実世界をスキャンしてメタバースプラットフォームにトランスポーズする手法を提案する。 Metaverse is an engaging way to recreate in a digital environment the real world. It allows people to connect not by just browsing a website, but by using headsets and virtual reality techniques. The metaverse is actually in a rapid development phase, thanks to the advances in different topics. This paper proposes a smart tourism platform in which tourists can interact with guides and different kinds of suppliers, without the need to phisically visit the city they are in. We propose some techniques to scan the real world and transpose it in a metaverse platform, using the recreation of an Italian city, Bari, as a real life scenario. | 翻訳日:2023-05-28 05:28:53 公開日:2023-05-05 |
# 3次元における分子生成の階層的拡散モデル Coarse-to-Fine: a Hierarchical Diffusion Model for Molecule Generation in 3D ( http://arxiv.org/abs/2305.13266v1 ) ライセンス: Link先を確認 | Bo Qiang, Yuxuan Song, Minkai Xu, Jingjing Gong, Bowen Gao, Hao Zhou, Weiying Ma, Yanyan Lan | (参考訳) 3Dで望ましい分子構造を生成することは、薬物発見の根本的な問題である。
私たちが達成した大きな進歩にもかかわらず、既存の方法では通常、原子分解能の分子を生成し、環のような固有の局所構造を無視し、特に大きな分子を生成する際には、生成した構造の質が低下する。
フラグメントに基づく分子生成は有望な戦略であるが, 組み合わせ最適化の問題から3次元非自己回帰世代に適用することは容易ではない。
本稿では,自己回帰モデルに頼らずに局所セグメントの有効性を維持するために階層的拡散モデル(HierDiff)を提案する。
具体的には、ヒアディフはまず、各粗粒のノードが分子の断片を反射する等変拡散過程を通じて粗粒の分子ジオメトリを生成する。
次に、粗粒度ノードを、メッセージパス処理と新しく設計された反復的なサンプリングモジュールにより細粒度フラグメントにデコードする。
最後に、細粒の断片が組み立てられ、完全な原子分子構造が導かれる。
ヒアディフは既存の方法よりも分子生成の質を一貫して改善する Generating desirable molecular structures in 3D is a fundamental problem for drug discovery. Despite the considerable progress we have achieved, existing methods usually generate molecules in atom resolution and ignore intrinsic local structures such as rings, which leads to poor quality in generated structures, especially when generating large molecules. Fragment-based molecule generation is a promising strategy, however, it is nontrivial to be adapted for 3D non-autoregressive generations because of the combinational optimization problems. In this paper, we utilize a coarse-to-fine strategy to tackle this problem, in which a Hierarchical Diffusion-based model (i.e.~HierDiff) is proposed to preserve the validity of local segments without relying on autoregressive modeling. Specifically, HierDiff first generates coarse-grained molecule geometries via an equivariant diffusion process, where each coarse-grained node reflects a fragment in a molecule. Then the coarse-grained nodes are decoded into fine-grained fragments by a message-passing process and a newly designed iterative refined sampling module. Lastly, the fine-grained fragments are then assembled to derive a complete atomic molecular structure. Extensive experiments demonstrate that HierDiff consistently improves the quality of molecule generation over existing methods | 翻訳日:2023-05-28 05:09:54 公開日:2023-05-05 |
# 製造業における視覚障害検出ベンチマークの検討 A Review of Benchmarks for Visual Defect Detection in the Manufacturing Industry ( http://arxiv.org/abs/2305.13261v1 ) ライセンス: Link先を確認 | Philippe Carvalho (Roberval), Alexandre Durupt (Roberval), Yves Grandvalet (Heudiasyc) | (参考訳) 機械学習とディープラーニングを用いた産業欠陥検出の分野は活発な研究対象である。
ベンチマークとも呼ばれるデータセットは、研究結果の比較と評価に使用される。
工業用視覚検査には様々な品質のデータセットがある。
したがって、どのデータセットを使うかを決定するのは難しい。
一般的に、テストセットを含むデータセットは、正確なラベル付けと現実世界の条件で作成することが望ましい。
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。
産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
本稿では, 産業用視覚検査用ベンチマークの現状を調査し, ベンチマーク使用に関するガイドラインを公開することによって, その知見を考察する。 The field of industrial defect detection using machine learning and deep learning is a subject of active research. Datasets, also called benchmarks, are used to compare and assess research results. There is a number of datasets in industrial visual inspection, of varying quality. Thus, it is a difficult task to determine which dataset to use. Generally speaking, datasets which include a testing set, with precise labeling and made in real-world conditions should be preferred. We propose a study of existing benchmarks to compare and expose their characteristics and their use-cases. A study of industrial metrics requirements, as well as testing procedures, will be presented and applied to the studied benchmarks. We discuss our findings by examining the current state of benchmarks for industrial visual inspection, and by exposing guidelines on the usage of benchmarks. | 翻訳日:2023-05-28 05:09:23 公開日:2023-05-05 |
# METU学生の大学生活満足度 METU Students' college life satisfaction ( http://arxiv.org/abs/2305.15320v1 ) ライセンス: Link先を確認 | Furkan Berk Danisman, Ilyurek Kilic, Gizem Sarul, Sena Akta\c{s}, Niyousha Amini, Osman Orcun Ada | (参考訳) 本研究は,大学生の大学経験に対する満足度に影響を与える要因を明らかにするために行われた。
まず,これまで文献で研究されてきた関連因子を明らかにするため,文献レビューに焦点をあてた。
そして, 大学生の満足度に関連する要因として, 主満足度, 社会的自己効力感, アカデミックパフォーマンスの3因子を検討した。
本研究の結果から,学生の大学経験に対する満足度に影響する要因は,選択した専攻への満足度であることが示唆された。
これは、選択した専攻に満足している学生は、大学経験に総合的に満足する可能性が高いことを意味する。
この研究は、大きな満足度が最も重要な要因であることに気付きましたが、社会的自己効力、学術的パフォーマンス、キャンパス生活満足度といった他の要因が重要でないという意味ではありません。
これらの結果から,学生は大学経験に対する全体的な満足度を最大化するために,大学選択時の大きな満足度を優先することが望ましい。 The research was conducted to identify the factors that influence college students' satisfaction with their college experience. Firstly, the study was focused on the literature review to determine relevant factors that have been previously studied in the literature. Then, the survey analysis examined three main independent factors that have been found to be related to college students' satisfaction: Major Satisfaction, Social Self-Efficacy, and Academic Performance. The findings of the study suggested that the most important factor affecting students' satisfaction with their college experience is their satisfaction with their chosen major. This means that students who are satisfied with the major they have chosen are more likely to be overall satisfied with their college experience. It's worth noting that, while the study found that major satisfaction is the most crucial factor, it doesn't mean that other factors such as Social Self-Efficacy, Academic Performance, and Campus Life Satisfaction are not important. Based on these findings, it is recommend that students prioritize their major satisfaction when making college choices in order to maximize their overall satisfaction with their college experience. | 翻訳日:2023-05-28 04:38:59 公開日:2023-05-05 |
# 相対論的場理論の共変、正準、シンプレクティック量子化 Covariant, Canonical and Symplectic Quantization of Relativistic Field Theories ( http://arxiv.org/abs/2305.08864v1 ) ライセンス: Link先を確認 | David Chester, Xerxes D. Arsiwalla, Louis Kauffman, Michel Planat, and Klee Irwin | (参考訳) 我々はkoopman-von neumann古典力学を相対論的場理論に一般化する。
明らかに共変なクープマン・フォン・ノイマン力学は多相体上に定式化され、ド・ドンダー・ワイル力学へと繋がる。
この多元交叉式とディラックの量子化を比較すると、シンプレクティック構造と標準的かつ共変的な新しいハミルトン密度が得られる。
古典的および量子的場の可換関係は、新しいタイプの正準運動量を持ち、デ・ドンダー・ワイル多モーメントの共変構造を持つが、ディラックの共役運動量のシンプレクティック幾何学を持つ。
はじめて、第1および第2量子化が、座標と場の上の第1および第2フーリエ位相空間の可換関係の代数的変形とどのように関係するかを明らかにする。 We generalize Koopman-von Neumann classical mechanics to relativistic field theory. The manifestly covariant Koopman-von Neumann mechanics formulated over polysympletic fields leads to De Donder-Weyl mechanics. Comparing this polysymplectic formulation with Dirac's quantization leads to a new Hamiltonian density that is canonical and covariant with symplectic structure. We provide the commutation relations for these classical and quantum fields with a new type of canonical momentum that has the covariant structure of the De Donder-Weyl poly-momentum, yet has the symplectic geometry of Dirac's conjugate momentum. For the first time, we clarify how 1st and 2nd quantization relates to an algebraic deformation of commutation relations of 1st and 2nd Fourier-phase spaces over coordinates and fields, respectively. | 翻訳日:2023-05-21 11:03:28 公開日:2023-05-05 |
# 動的マクロフィナンスモデルの解法と推定のための深層学習 Deep Learning for Solving and Estimating Dynamic Macro-Finance Models ( http://arxiv.org/abs/2305.09783v1 ) ライセンス: Link先を確認 | Benjamin Fan, Edward Qiao, Anran Jiao, Zhouzhou Gu, Wenhao Li, Lu Lu | (参考訳) 我々は、金融経済学における正準連続時間一般均衡モデルを同時に解き、推定するためにディープラーニングを利用する手法を開発した。
提案手法は,(1)企業の産業動態,(2)金融摩擦を伴うマクロ経済モデル,の2つの例で概説する。
これらの応用を通じて, 汎用性, 同時解法, 推定法, 最先端機械学習手法の活用, 大規模状態空間の処理という, この手法の利点を述べる。
この方法は多用途であり、様々な問題に適用できる。 We develop a methodology that utilizes deep learning to simultaneously solve and estimate canonical continuous-time general equilibrium models in financial economics. We illustrate our method in two examples: (1) industrial dynamics of firms and (2) macroeconomic models with financial frictions. Through these applications, we illustrate the advantages of our method: generality, simultaneous solution and estimation, leveraging the state-of-art machine-learning techniques, and handling large state space. The method is versatile and can be applied to a vast variety of problems. | 翻訳日:2023-05-21 10:57:16 公開日:2023-05-05 |
# 支援技術からメタバースへ--特定学習困難学生のための包括的高等教育技術 From Assistive Technologies to Metaverse: Technologies in Inclusive Higher Education for Students with Specific Learning Difficulties ( http://arxiv.org/abs/2305.11057v1 ) ライセンス: Link先を確認 | Gokul Yenduri, Rajesh Kaluri, Dharmendra Singh Rajput, Kuruva Lakshmanna, Thippa Reddy Gadekallu, Mufti Mahmud, David J. Brown | (参考訳) 新しい技術の発展と幅広い教育環境における利用の拡大は、高等教育の変革を促している。
補助技術は最先端技術のサブセットであり、生徒がより効果的に学び、誰にでも教育を受けられるようにする。
補助技術は、学習困難のある生徒の能力を高め、維持し、改善することができる。
学習困難を抱える学生は、補助技術を利用することで大きな恩恵を受けるだろう。
これらの技術を効果的に利用すれば、学習困難の学生は仲間と競争し、学業を完遂することができる。
本研究の目的は,学習障害のある学生にインクルーシブな高等教育を提供することにおける支援技術の役割をより深く理解することにある。
このレビューは、学習困難とその原因の導入、包括的教育と補助技術の必要性、このレビューを実施する理由、および包括的高等教育における学習困難を持つ学生のための支援技術に関する関連レビューの要約から始まる。
次に,学習困難型と支援技術に関する予備条件について検討する。
その後,学習障害のある学生のインクルーシブ・高等教育における支援技術の効果について論じる。
さらに,学習困難を抱える学生を対象とした包括的高等教育における関連プロジェクトや支援ツールについても論じる。
また、高等教育における支援技術の利用に関する課題と解決策を探求し、学習困難を抱える学生に包括的教育を提供する。
我々は将来有望な方向性を議論してレビューを締めくくる。 The development of new technologies and their expanding use in a wide range of educational environments are driving the transformation of higher education. Assistive technologies are a subset of cutting-edge technology that can help students learn more effectively and make education accessible to everyone. Assistive technology can enhance, maintain, or improve the capacities of students with learning difficulties. Students with learning difficulties will be greatly benefited from the use of assistive technologies. If these technologies are used effectively, students with learning difficulties can compete with their peers and complete their academic tasks. We aim to conduct this review to better understand the role of assistive technologies in providing inclusive higher education for students with learning difficulties. The review begins with the introduction of learning difficulties and their causes; inclusive education and the need for assistive technologies; the reasoning for conducting this review; and a summary of related reviews on assistive technologies for students with learning difficulties in inclusive higher education. Then, we discuss the preliminaries for the learning difficulties type and assistive technology. Later, we discuss the effects of assistive technology on inclusive higher education for students with learning difficulties. Additionally, we discuss related projects and support tools available in inclusive higher education for students with learning difficulties. We also explore the challenges and possible solutions related to using assistive technology in higher education to provide inclusive education for students with learning difficulties. We conclude the review with a discussion of potential promising future directions. | 翻訳日:2023-05-21 10:24:35 公開日:2023-05-05 |
# 英語とbharti braille機械翻訳における多語表現の意義 Implications of Multi-Word Expressions on English to Bharti Braille Machine Translation ( http://arxiv.org/abs/2305.06157v1 ) ライセンス: Link先を確認 | Nisheeth Joshi, Pragya Katyayan | (参考訳) 本稿では,Bharti Braille 機械翻訳システムの改良について述べる。
我々は,言語知識を付加することで,ベースラインNMTモデルを改善する方法を示した。
これは5つの言語ペアで行われ、英語の文は5つのインド語に翻訳され、その後対応するbharti brailleに翻訳された。
これは多語表現を翻訳するサブモジュールを追加することで証明されている。
このアプローチは言語ペア間で有望な結果を示し、NMT出力の品質が向上する可能性がある。
英語と英語のペアでは22.08%で、英語とヒンディー語のペアでは23.30%で最も改善が見られた。 In this paper, we have shown the improvement of English to Bharti Braille machine translation system. We have shown how we can improve a baseline NMT model by adding some linguistic knowledge to it. This was done for five language pairs where English sentences were translated into five Indian languages and then subsequently to corresponding Bharti Braille. This has been demonstrated by adding a sub-module for translating multi-word expressions. The approach shows promising results as across language pairs, we could see improvement in the quality of NMT outputs. The least improvement was observed in English-Nepali language pair with 22.08% and the most improvement was observed in the English-Hindi language pair with 23.30%. | 翻訳日:2023-05-14 20:57:40 公開日:2023-05-05 |
# オープン量子系におけるヒルベルト空間フラグメンテーション Hilbert Space Fragmentation in Open Quantum Systems ( http://arxiv.org/abs/2305.06918v1 ) ライセンス: Link先を確認 | Yahui Li, Pablo Sala, Frank Pollmann | (参考訳) 開量子系におけるヒルベルト空間フラグメンテーション(HSF)現象について検討し,高絡み合った定常状態の安定化が可能であることを明らかにする。
具体性については、量子hsfを絡み合うようなテンペリー・リーブ模型を考察し、2つの異なるカップリングの下でのリンドブラッドダイナミクスを考察する。
まず, 量子断片化を古典的なものに還元し, 定常状態が分離可能であることを強調する浴槽にシステムを結合する。
量子相関の消失にもかかわらず、残りの保存された量のゆらぎによって古典相関が発展し、古典的確率的回路進化によって捉えられることが分かる。
第二に、量子断片化構造を保存する結合を用いる。
非可換保存量の多さにより初期状態の強いコヒーレントなメモリを持つ定常状態の一般表現を導出する。
対数ネガティビティによって定量化されるほど非常に絡み合っていることを示す。 We investigate the phenomenon of Hilbert space fragmentation (HSF) in open quantum systems and find that it can stabilize highly entangled steady states. For concreteness, we consider the Temperley-Lieb model, which exhibits quantum HSF in an entangled basis, and investigate the Lindblad dynamics under two different couplings. First, we couple the system to a dephasing bath that reduces quantum fragmentation to a classical one with the resulting stationary state being separable. We observe that despite vanishing quantum correlations, classical correlations develop due to fluctuations of the remaining conserved quantities, which we show can be captured by a classical stochastic circuit evolution. Second, we use a coupling that preserves the quantum fragmentation structure. We derive a general expression for the steady state, which has a strong coherent memory of the initial state due to the extensive number of non-commuting conserved quantities. We show that it is highly entangled as quantified by the logarithmic negativity. | 翻訳日:2023-05-14 20:47:39 公開日:2023-05-05 |
# インド語からbharti braille文字への翻訳モデル A Model for Translation of Text from Indian Languages to Bharti Braille Characters ( http://arxiv.org/abs/2305.06475v1 ) ライセンス: Link先を確認 | Nisheeth Joshi, Pragya Katyayan | (参考訳) 視覚障害者は勉強中に多くの困難に直面している。
主な原因の1つは、Bharti Brailleスクリプトで利用可能なテキストがないことである。
本稿では,インドの主要言語におけるテキストをBharti Brailleに変換する手法を提案する。
このシステムは、まず、インド語のテキストをルールベースシステムに付与するハイブリッドアプローチを用いており、曖昧さがある場合、LSTMベースのモデルを適用することで解決する。
開発されたモデルもテストされ、ほぼ正確な結果が得られた。 People who are visually impaired face a lot of difficulties while studying. One of the major causes to this is lack of available text in Bharti Braille script. In this paper, we have suggested a scheme to convert text in major Indian languages into Bharti Braille. The system uses a hybrid approach where at first the text in Indian language is given to a rule based system and in case if there is any ambiguity then it is resolved by applying a LSTM based model. The developed model has also been tested and found to have produced near accurate results. | 翻訳日:2023-05-14 20:47:24 公開日:2023-05-05 |
# 深層学習に基づくマルチターゲットレーダ検出 Deep Learning-based Estimation for Multitarget Radar Detection ( http://arxiv.org/abs/2305.05621v1 ) ライセンス: Link先を確認 | Mamady Delamou, Ahmad Bazzi, Marwa Chafii and El Mehdi Amhoud | (参考訳) ターゲット検出と認識は、多数の物体が位置する無線環境において、その位置を効果的に決定するか、特定して動きを予測するか、非常に困難なタスクである。
本研究では,検出信号のレンジ-ドップラーマップから直接移動対象の範囲と速度を推定する,畳み込みニューラルネットワーク(CNN)に基づく新しい手法を提案する。
得られた結果と2次元 (2D) 周期図, 技術手法の類似状況, 2DResFreq と VGG-19 ネットワークを比較し, このモデルを用いて行った推定プロセスは, 予測時間の短縮とともに, 異なる信号と雑音比 (SNR) における範囲および速度指数の推定精度を向上することを示した。
その後,圧縮やノイズ低減により得られた出力画像の品質を分析するための関連する指標であるピーク信号対雑音比(psnr)を用いて,提案アルゴリズムの性能を評価する。
2D- periodogram, 2DResFreq, VGG-19 と比較すると, SNR = 30 dB の場合, SNR は 33 dB, 21 dB, 10 dB となる。 Target detection and recognition is a very challenging task in a wireless environment where a multitude of objects are located, whether to effectively determine their positions or to identify them and predict their moves. In this work, we propose a new method based on a convolutional neural network (CNN) to estimate the range and velocity of moving targets directly from the range-Doppler map of the detected signals. We compare the obtained results to the two dimensional (2D) periodogram, and to the similar state of the art methods, 2DResFreq and VGG-19 network and show that the estimation process performed with our model provides better estimation accuracy of range and velocity index in different signal to noise ratio (SNR) regimes along with a reduced prediction time. Afterwards, we assess the performance of our proposed algorithm using the peak signal to noise ratio (PSNR) which is a relevant metric to analyse the quality of an output image obtained from compression or noise reduction. Compared to the 2D-periodogram, 2DResFreq and VGG-19, we gain 33 dB, 21 dB and 10 dB, respectively, in terms of PSNR when SNR = 30 dB. | 翻訳日:2023-05-10 19:13:38 公開日:2023-05-05 |
# ゼロ・マイズショット生物医学的エンティティ認識のためのトランスフォーマティブベース手法 A transformer-based method for zero and few-shot biomedical named entity recognition ( http://arxiv.org/abs/2305.04928v1 ) ライセンス: Link先を確認 | Milo\v{s} Ko\v{s}prdi\'c, Nikola Prodanovi\'c, Adela Ljaji\'c, Bojana Ba\v{s}aragin and Nikola Milo\v{s}evi\'c | (参考訳) 生物医学領域における監視された名前付きエンティティ認識(NER)は、与えられた名前付きエンティティを含む注釈付きテキストの大規模なセットに依存しており、その作成には時間と費用がかかる。
さらに、新しいエンティティの抽出には、追加のアノテーションタスクとモデルの再トレーニングが必要になることが多い。
これらの課題に対処するために,生物医学領域におけるゼロショットNERのトランスフォーマ方式を提案する。
マルチクラスのトークン分類のタスクをバイナリトークン分類に変換し(トーケンは検索されたエンティティを含むか、検索されたエンティティを含まない)、与えられたクラスと潜在クラスのセマンティック関係を学習できる大量のデータセットやバイオメディカルエンティティを事前学習する。
我々は,ゼロショットNERが35.44%,ワンショットNERが50.10%,10ショットNERが69.94%,100ショットNERが79.51%,PubMedBERT微調整モデルで評価された9つのバイオメディカルエンティティに対して平均F1スコアを達成した。
提案手法は,実例を限定し,最先端のゼロショットと少数ショットのner法と同等かそれ以上の結果を得た新しいエンティティを識別する手法の有効性を示す。 Supervised named entity recognition (NER) in the biomedical domain is dependent on large sets of annotated texts with the given named entities, whose creation can be time-consuming and expensive. Furthermore, the extraction of new entities often requires conducting additional annotation tasks and retraining the model. To address these challenges, this paper proposes a transformer-based method for zero- and few-shot NER in the biomedical domain. The method is based on transforming the task of multi-class token classification into binary token classification (token contains the searched entity or does not contain the searched entity) and pre-training on a larger amount of datasets and biomedical entities, from where the method can learn semantic relations between the given and potential classes. We have achieved average F1 scores of 35.44% for zero-shot NER, 50.10% for one-shot NER, 69.94% for 10-shot NER, and 79.51% for 100-shot NER on 9 diverse evaluated biomedical entities with PubMedBERT fine-tuned model. The results demonstrate the effectiveness of the proposed method for recognizing new entities with limited examples, with comparable or better results from the state-of-the-art zero- and few-shot NER methods. | 翻訳日:2023-05-10 14:51:19 公開日:2023-05-05 |
# 投稿前に削除されたツイートの検出と推論 Detecting and Reasoning of Deleted Tweets before they are Posted ( http://arxiv.org/abs/2305.04927v1 ) ライセンス: Link先を確認 | Hamdy Mubarak, Samir Abdaljalil, Azza Nassar and Firoj Alam | (参考訳) ソーシャルメディアプラットフォームは、情報発信から消費まで、さまざまな方法で私たちに力を与えてくれます。
これらのプラットフォームは市民ジャーナリズムや公衆の意識を高めるのに役立ちますが、誤用の可能性もあります。
悪意のあるユーザーは、ヘイトスピーチ、不快なコンテンツ、噂などを広め、社会的、政治的議題を得たり、個人、団体、組織を傷つけたりするために使用する。
多くの場合、一般ユーザーは検証せずに無意識に情報を共有したり、意図せずに有害なメッセージを投稿したりする。
このようなコンテンツのいくつかは、用語やポリシーに違反しているため、プラットフォームによって削除されるか、ユーザー自身が異なる理由、例えば後悔のために削除される。
削除されたコンテンツの特徴付け、理解、予測に関する幅広い研究がある。
しかし、削除されたコンテンツの背後にあるきめ細かい理由(投稿は攻撃的、憎しみの言葉、識別できない理由など)を特定する研究は限られている。
本研究では,削除したツイートを特にアラビア語の文脈内で識別し,それに対応する微粒な偽情報カテゴリにラベル付けすることで,このギャップに対処する。
次に、削除されたツイートの可能性を予測し、削除の背後にある潜在的な理由を予測するモデルを開発した。
このようなモデルは、投稿する前にソーシャルメディア投稿をモデレートするのに役立ちます。 Social media platforms empower us in several ways, from information dissemination to consumption. While these platforms are useful in promoting citizen journalism, public awareness etc., they have misuse potentials. Malicious users use them to disseminate hate-speech, offensive content, rumor etc. to gain social and political agendas or to harm individuals, entities and organizations. Often times, general users unconsciously share information without verifying it, or unintentionally post harmful messages. Some of such content often get deleted either by the platform due to the violation of terms and policies, or users themselves for different reasons, e.g., regrets. There is a wide range of studies in characterizing, understanding and predicting deleted content. However, studies which aims to identify the fine-grained reasons (e.g., posts are offensive, hate speech or no identifiable reason) behind deleted content, are limited. In this study we address this gap, by identifying deleted tweets, particularly within the Arabic context, and labeling them with a corresponding fine-grained disinformation category. We then develop models that can predict the potentiality of tweets getting deleted, as well as the potential reasons behind deletion. Such models can help in moderating social media posts before even posting. | 翻訳日:2023-05-10 14:50:54 公開日:2023-05-05 |
# Walk4Me:遠隔医療コミュニティモビリティアセスメント : 早期診断と疾患進展のための自動システム Walk4Me: Telehealth Community Mobility Assessment, An Automated System for Early Diagnosis and Disease Progression ( http://arxiv.org/abs/2305.05543v1 ) ライセンス: Link先を確認 | Albara Ah Ramli, Xin Liu, Erik K. Henricson | (参考訳) walk4meは,早期診断,重症度,進行診断を容易にするテレヘルス・コミュニティ・モビリティ評価システムである。
私たちのシステムは
1)早期診断が可能。
2 臨床症状の早期指標の特定、及び
3) 疾患の止血段階における進行の定量化と追跡。
これを実現するために、我々は、人工知能(AI)を用いた、患者および典型的には、歩行特性の検出を採用する。
我々のシステムは,新しいWalk4Me APIを用いて,デバイスセンサ(モバイルデバイスからの加速度など)からリモートおよびリアルタイムにデータを収集する。
ウェブアプリケーションは時空間歩行特性と生データ信号特性を抽出し,従来の機械学習と深層学習技術を用いてパターンを識別する。
1)疾患に伴う歩行障害の患者を特定する。
2)移動制限の程度を記述し
3)疾患進行に伴う経時的変化の特徴の同定。
調査対象の年齢範囲に100%の精度で患者と通常発達する被験者を区別する機械学習手法を複数同定し,各群に関連する時間的・空間的歩行特性も同定した。
本研究は,モバイル機器と機械学習技術の最新の進歩を活用し,ケアポイントに関係なく臨床成果を計測し,早期臨床診断と治療の意思決定を報知し,疾患の進行をモニターする可能性を実証する。 We introduce Walk4Me, a telehealth community mobility assessment system designed to facilitate early diagnosis, severity, and progression identification. Our system achieves this by 1) enabling early diagnosis, 2) identifying early indicators of clinical severity, and 3) quantifying and tracking the progression of the disease across the ambulatory phase of the disease. To accomplish this, we employ an Artificial Intelligence (AI)-based detection of gait characteristics in patients and typically developing peers. Our system remotely and in real-time collects data from device sensors (e.g., acceleration from a mobile device, etc.) using our novel Walk4Me API. Our web application extracts temporal/spatial gait characteristics and raw data signal characteristics and then employs traditional machine learning and deep learning techniques to identify patterns that can 1) identify patients with gait disturbances associated with disease, 2) describe the degree of mobility limitation, and 3) identify characteristics that change over time with disease progression. We have identified several machine learning techniques that differentiate between patients and typically-developing subjects with 100% accuracy across the age range studied, and we have also identified corresponding temporal/spatial gait characteristics associated with each group. Our work demonstrates the potential of utilizing the latest advances in mobile device and machine learning technology to measure clinical outcomes regardless of the point of care, inform early clinical diagnosis and treatment decision-making, and monitor disease progression. | 翻訳日:2023-05-10 12:23:00 公開日:2023-05-05 |
# 振動信号を用いた畳み込みに基づく断層検出手法のアンサンブル An ensemble of convolution-based methods for fault detection using vibration signals ( http://arxiv.org/abs/2305.05532v1 ) ライセンス: Link先を確認 | Xian Yeow Lee, Aman Kumar, Lasitha Vidyaratne, Aniruddha Rajendra Rao, Ahmed Farahat, Chetan Gupta | (参考訳) 本稿では,惑星ギアボックスから収集した振動信号の多変量時系列を用いた故障検出問題の解法について述べる。
距離ベース、関数型データ指向、特徴駆動、畳み込みカーネルベースの方法を含む、多変量時系列分類のための伝統的な機械学習および深層学習手法が提案されている。
近年の研究では、ROCKETのような畳み込みカーネルベースの手法と、ResNetやFCNによる1次元畳み込みニューラルネットワークを用いることで、多変量時系列データ分類の堅牢な性能が示されている。
本稿では,3つの畳み込みカーネルに基づく手法の組合わせを提案し,他の手法を上回って98.8\%以上の精度を達成することで,この故障検出問題に対する有効性を示す。 This paper focuses on solving a fault detection problem using multivariate time series of vibration signals collected from planetary gearboxes in a test rig. Various traditional machine learning and deep learning methods have been proposed for multivariate time-series classification, including distance-based, functional data-oriented, feature-driven, and convolution kernel-based methods. Recent studies have shown using convolution kernel-based methods like ROCKET, and 1D convolutional neural networks with ResNet and FCN, have robust performance for multivariate time-series data classification. We propose an ensemble of three convolution kernel-based methods and show its efficacy on this fault detection problem by outperforming other approaches and achieving an accuracy of more than 98.8\%. | 翻訳日:2023-05-10 12:21:33 公開日:2023-05-05 |
# 量子化学シミュレーションのためのフォールトトレラント資源推定:リチウムイオン電池電解質分子のケーススタディ Fault-tolerant resource estimate for quantum chemical simulations: Case study on Li-ion battery electrolyte molecules ( http://arxiv.org/abs/2104.10653v2 ) ライセンス: Link先を確認 | Isaac H. Kim, Eunseok Lee, Ye-Hua Liu, Sam Pallister, William Pol, Sam Roberts | (参考訳) 我々は, 耐故障性フォトニック量子コンピュータ上でのLiイオン電池の電解質分子のシミュレーションに必要な資源を推定する。
産業関連問題に対する実用的な解決策を提供する分子に焦点を当てる。
フォールトトレラントなオペレーションには、専用の"magic state factory" (msfs) で用意されたシングルキュービットの"magic state"を使用する必要がある。
マジックステートを並列に生成および消費することは、通常非常に高価な作業であり、耐故障ゲートのシリアルな適用をもたらす。
しかし、考慮されたシステムでは、MSFは量子コンピュータの総フットプリントの無視可能な部分を占め、複数のMSFを使用して並列にマジック状態を生成することができる。
このような能力に対応可能なアーキテクチャおよびアルゴリズム技術を提案する。
本稿では,複数のマジック状態を同時に消費する手法を提案する。これにより,フットプリントに余分な費用を要さずに,計算実行時間を大幅に削減できる可能性がある。 We estimate the resources required in the fusion-based quantum computing scheme to simulate electrolyte molecules in Li-ion batteries on a fault-tolerant, photonic quantum computer. We focus on the molecules that can provide practical solutions to industrially relevant problems. Certain fault-tolerant operations require the use of single-qubit "magic states" prepared by dedicated "magic state factories" (MSFs). Producing and consuming magic states in parallel is typically a prohibitively expensive task, resulting in the serial application of fault-tolerant gates. However, for the systems considered, the MSF constitutes a negligible fraction of the total footprint of the quantum computer, allowing for the use of multiple MSFs to produce magic states in parallel. We suggest architectural and algorithmic techniques that can accommodate such a capability. We propose a method to consume multiple magic states simultaneously, which can potentially lead to an order of magnitude reduction in the computational runtime without additional expense in the footprint. | 翻訳日:2023-05-10 01:42:26 公開日:2023-05-05 |
# 保護カテゴリー属性の符号化の公平性 Fairness Implications of Encoding Protected Categorical Attributes ( http://arxiv.org/abs/2201.11358v2 ) ライセンス: Link先を確認 | Carlos Mougan, Jose M. Alvarez, Salvatore Ruggieri, Steffen Staab | (参考訳) 過去の研究では、機械学習における保護属性の明示的な使用は、パフォーマンスと公平性の両方を改善することが示されている。
しかし、多くの機械学習アルゴリズムは、出生国や民族などのカテゴリー属性を直接処理することはできない。
保護された属性はカテゴリ的であるため、例えば、サポートベクターマシン、勾配ブースティング決定木、線形モデルなど、選択された機械学習アルゴリズムに入力可能な特徴としてエンコードする必要がある。
これにより、機械学習アルゴリズムの学習方法や学習内容にエンコード手法が影響し、モデルの性能や公平性に影響を及ぼす。
この研究は、最もよく知られた符号化方法である \emph{one-hot encoding} と \emph{target encoding} の精度と公平性を比較した。
これらの符号化法から生じる2種類の誘導バイアスを区別し、不公平なモデルにつながる可能性がある。
第1の型である \textit{irreducible bias} は直接群分類によるものであり、第2の型である \textit{reducible bias} は統計的に表現されていない群の大きなばらつきによるものである。
分類的エンコーディングと対象エンコーディングの相互作用について検討し,不公平さを低減する。
さらに,機械学習のベストプラクティスがいくつかのカテゴリ属性を高次心機能に符号化することで,パフォーマンス対策を改善する際に生じる交叉不公平さの問題を考察する。 Past research has demonstrated that the explicit use of protected attributes in machine learning can improve both performance and fairness. Many machine learning algorithms, however, cannot directly process categorical attributes, such as country of birth or ethnicity. Because protected attributes frequently are categorical, they must be encoded as features that can be input to a chosen machine learning algorithm, e.g.\ support vector machines, gradient boosting decision trees or linear models. Thereby, encoding methods influence how and what the machine learning algorithm will learn, affecting model performance and fairness. This work compares the accuracy and fairness implications of the two most well-known encoding methods: \emph{one-hot encoding} and \emph{target encoding}. We distinguish between two types of induced bias that may arise from these encoding methods and may lead to unfair models. The first type, \textit{irreducible bias}, is due to direct group category discrimination, and the second type, \textit{reducible bias}, is due to the large variance in statistically underrepresented groups. We investigate the interaction between categorical encodings and target encoding regularization methods that reduce unfairness. Furthermore, we consider the problem of intersectional unfairness that may arise when machine learning best practices improve performance measures by encoding several categorical attributes into a high-cardinality feature. | 翻訳日:2023-05-10 01:22:51 公開日:2023-05-05 |
# CausalSim: バイアスのないトレース駆動シミュレーションのための因果フレームワーク CausalSim: A Causal Framework for Unbiased Trace-Driven Simulation ( http://arxiv.org/abs/2201.01811v4 ) ライセンス: Link先を確認 | Abdullah Alomar, Pouya Hamadanian, Arash Nasr-Esfahany, Anish Agarwal, Mohammad Alizadeh, Devavrat Shah | (参考訳) 未バイアストレース駆動シミュレーションのための因果的フレームワークCausalSimを提案する。
現在のトレース駆動シミュレータは、シミュレーションされる介入(例えば新しいアルゴリズム)がトレースの有効性に影響を与えないと仮定している。
しかし、現実世界のトレースはしばしば、アルゴリズムがトレース収集中に行う選択に偏っているため、介入の下でトレースを再生することは誤った結果につながる可能性がある。
causalsimはシステムダイナミクスの因果モデルとトレース収集の基盤となるシステム条件を捉える潜在要因を学習することで、この課題に対処している。
アルゴリズムの固定セットの下で初期ランダム化制御試行(RCT)を使用してこれらのモデルを学習し、新しいアルゴリズムをシミュレートする際にトレースデータからバイアスを取り除く。
因果シムの鍵は、偏りのないトレース駆動シミュレーションを非常にスパースな観測を伴うテンソル補完問題にマッピングすることである。
RCTデータに存在する基本的な分布不変性を利用して、CausalSimは観測の間隔にかかわらず、新しいテンソル完備化法を可能にする。
pufferビデオストリーミングシステムからの10ヶ月以上の実データを含む、実データと合成データの両方におけるcausalsimの広範な評価により、シミュレーション精度が向上し、専門家が設計した学習ベースラインと比較して、エラーを平均53%と61%削減できることがわかった。
さらに、CausalSimは、実際のデプロイで検証するバイアスベースラインシミュレータと比較して、ABRアルゴリズムに関する非常に異なる洞察を提供する。 We present CausalSim, a causal framework for unbiased trace-driven simulation. Current trace-driven simulators assume that the interventions being simulated (e.g., a new algorithm) would not affect the validity of the traces. However, real-world traces are often biased by the choices algorithms make during trace collection, and hence replaying traces under an intervention may lead to incorrect results. CausalSim addresses this challenge by learning a causal model of the system dynamics and latent factors capturing the underlying system conditions during trace collection. It learns these models using an initial randomized control trial (RCT) under a fixed set of algorithms, and then applies them to remove biases from trace data when simulating new algorithms. Key to CausalSim is mapping unbiased trace-driven simulation to a tensor completion problem with extremely sparse observations. By exploiting a basic distributional invariance property present in RCT data, CausalSim enables a novel tensor completion method despite the sparsity of observations. Our extensive evaluation of CausalSim on both real and synthetic datasets, including more than ten months of real data from the Puffer video streaming system shows it improves simulation accuracy, reducing errors by 53% and 61% on average compared to expert-designed and supervised learning baselines. Moreover, CausalSim provides markedly different insights about ABR algorithms compared to the biased baseline simulator, which we validate with a real deployment. | 翻訳日:2023-05-10 01:21:42 公開日:2023-05-05 |
# 多項式スケーリングをもつランダムな内積核行列のスペクトルの同値原理 An Equivalence Principle for the Spectrum of Random Inner-Product Kernel Matrices with Polynomial Scalings ( http://arxiv.org/abs/2205.06308v2 ) ライセンス: Link先を確認 | Yue M. Lu and Horng-Tzer Yau | (参考訳) 我々は、$n$独立なデータベクトル間のペアの内積に非線形カーネル関数を適用して得られるランダム行列を、$\mathbb{R}^d$の単位球面から一様に描画する。
この研究は、これらのカーネルランダム行列とそのスペクトル特性が重要な役割を果たす機械学習や統計学の応用によって動機付けられている。
そこで、ある固定された $\ell \in \mathbb{n}$ と $\kappa \in (0, \infty)$ に対して、$n / d^\ell \to \kappa$ となるような多項式スケーリング系において、これらの行列の経験的スペクトル分布の弱い極限を確立する。
以上の結果から,Cheng と Singer が線形スケーリング系において同じモデルを ($\ell = 1$ で) 検討した結果を一般化した。
ランダムカーネル行列のスペクトルは、(シフトした)ウィシャー行列とガウス直交アンサンブルからサンプリングされた独立行列の線形結合として構成される、より単純な行列モデルのスペクトルと漸近的に等価である。
ウィッシュアート行列のアスペクト比と線形結合の係数は、直交エルミート多項式基底における$\ell$とカーネル関数の拡張によって決定される。
したがって、ランダムカーネル行列の制限スペクトルは、マルケンコ・パストゥル則と半円則の間の自由加法的畳み込みとして特徴づけることができる。
また、球面分布ではなく等方性ガウス分布からサンプリングされたデータベクトルの場合にも結果を拡張する。 We investigate random matrices whose entries are obtained by applying a nonlinear kernel function to pairwise inner products between $n$ independent data vectors, drawn uniformly from the unit sphere in $\mathbb{R}^d$. This study is motivated by applications in machine learning and statistics, where these kernel random matrices and their spectral properties play significant roles. We establish the weak limit of the empirical spectral distribution of these matrices in a polynomial scaling regime, where $d, n \to \infty$ such that $n / d^\ell \to \kappa$, for some fixed $\ell \in \mathbb{N}$ and $\kappa \in (0, \infty)$. Our findings generalize an earlier result by Cheng and Singer, who examined the same model in the linear scaling regime (with $\ell = 1$). Our work reveals an equivalence principle: the spectrum of the random kernel matrix is asymptotically equivalent to that of a simpler matrix model, constructed as a linear combination of a (shifted) Wishart matrix and an independent matrix sampled from the Gaussian orthogonal ensemble. The aspect ratio of the Wishart matrix and the coefficients of the linear combination are determined by $\ell$ and the expansion of the kernel function in the orthogonal Hermite polynomial basis. Consequently, the limiting spectrum of the random kernel matrix can be characterized as the free additive convolution between a Marchenko-Pastur law and a semicircle law. We also extend our results to cases with data vectors sampled from isotropic Gaussian distributions instead of spherical distributions. | 翻訳日:2023-05-10 01:05:11 公開日:2023-05-05 |
# あなたのレビュアーは平等に扱われるのか?
スパム検出におけるフェアネス向上のためのサブグループ構造発見 Are Your Reviewers Being Treated Equally? Discovering Subgroup Structures to Improve Fairness in Spam Detection ( http://arxiv.org/abs/2204.11164v2 ) ライセンス: Link先を確認 | Jiaxin Liu, Yuefei Lyu, Xi Zhang, Sihong Xie | (参考訳) 製品のユーザー生成レビューはamazonやyelpのようなオンラインコマースの重要な資産であり、偽レビューは誤解を招く顧客に広まっている。
GNNは、不審なレビュアーを検知する最先端の手法であり、レビュアー、レビュー、ターゲット製品を結合するグラフのトポロジーを利用する。
しかし、レビュアの異なるグループに対する検出精度の相違は、レビューサイトにおけるレビュアのエンゲージメントと顧客の信頼を低下させる可能性がある。
グループ間の差異が不公平を生じさせるという以前の信念とは異なり、異なるグループを扱いうるグループ内のサブグループ構造について検討する。
本稿では,スパム検出のための新しいサブグループ構造の定義,近似,利用の課題に対処する。
まずレビューグラフのサブグループ構造を特定し,グループ内の精度を区別する。
レビューグラフ上の複雑な依存関係は、大きなグループに隠されたサブグループをいじるのを難しくする。
我々は,隠れたサブグループメンバーシップを共同で推測し,グループ間の検出精度を校正するために,メンバーシップを利用するように訓練できるモデルを設計した。
3つの大規模なYelpレビューデータセットのベースラインに対する包括的な比較は、サブグループのメンバシップを識別し、グループフェアネスに活用できることを示しています。 User-generated reviews of products are vital assets of online commerce, such as Amazon and Yelp, while fake reviews are prevalent to mislead customers. GNN is the state-of-the-art method that detects suspicious reviewers by exploiting the topologies of the graph connecting reviewers, reviews, and target products. However, the discrepancy in the detection accuracy over different groups of reviewers can degrade reviewer engagement and customer trust in the review websites. Unlike the previous belief that the difference between the groups causes unfairness, we study the subgroup structures within the groups that can also cause discrepancies in treating different groups. This paper addresses the challenges of defining, approximating, and utilizing a new subgroup structure for fair spam detection. We first identify subgroup structures in the review graph that lead to discrepant accuracy in the groups. The complex dependencies over the review graph create difficulties in teasing out subgroups hidden within larger groups. We design a model that can be trained to jointly infer the hidden subgroup memberships and exploits the membership for calibrating the detection accuracy across groups. Comprehensive comparisons against baselines on three large Yelp review datasets demonstrate that the subgroup membership can be identified and exploited for group fairness. | 翻訳日:2023-05-10 01:04:20 公開日:2023-05-05 |
# 位相差の最適抑制による量子制御ノイズ分光 Quantum Control Noise Spectroscopy with Optimal Suppression of Dephasing ( http://arxiv.org/abs/2204.10894v2 ) ライセンス: Link先を確認 | Vivian Maloney, Yasuo Oda, Gregory Quiroz, B. David Clader, Leigh M. Norris | (参考訳) 振幅制御ノイズの量子ノイズスペクトロスコピー(QNS)を、劣化ノイズや変形誤差が量子ビット力学に大きく寄与する設定に拡張する。
振幅雑音を特徴付ける以前のアプローチは、低周波消音ノイズと静的消音誤差の脆弱性によって制限されており、ターゲットの制御ノイズ信号を過大にし、振幅雑音スペクトルの推定にバイアスを導入することができる。
この問題を解決するために, スペクトル推定に必須の振幅フィルタのスペクトル濃度を維持しつつ, 低周波デファスノイズやデチューニング誤差を最適に抑制する振幅制御波形を同定するために, 最適制御を利用する。
数値最適化によって得られた波形は驚くほど単純な解析形式を持ち、特定の振幅や周波数の制約に従う正弦波を振動させる。
数値シミュレーションによるqns実験では、これらの波形はロバスト性が優れており、低周波のデファスメントノイズとデチューニングエラーによって既存のアプローチが偏りがある場合の振幅雑音スペクトルを正確に推定することができる。 We extend quantum noise spectroscopy (QNS) of amplitude control noise to settings where dephasing noise or detuning errors make significant contributions to qubit dynamics. Previous approaches to characterize amplitude noise are limited by their vulnerability to low-frequency dephasing noise and static detuning errors, which can overwhelm the target control noise signal and introduce bias into estimates of the amplitude noise spectrum. To overcome this problem, we leverage optimal control to identify a family of amplitude control waveforms that optimally suppress low-frequency dephasing noise and detuning errors, while maintaining the spectral concentration in the amplitude filter essential for spectral estimation. The waveforms found via numerical optimization have surprisingly simple analytic forms, consisting of oscillating sine waves obeying particular amplitude and frequency constraints. In numerically simulated QNS experiments, these waveforms demonstrate superior robustness, enabling accurate estimation of the amplitude noise spectrum in regimes where existing approaches are biased by low-frequency dephasing noise and detuning errors. | 翻訳日:2023-05-10 01:04:01 公開日:2023-05-05 |
# ChordMixer: 長さの異なるシーケンスに対するスケーラブルなニューラルアテンションモデル ChordMixer: A Scalable Neural Attention Model for Sequences with Different Lengths ( http://arxiv.org/abs/2206.05852v2 ) ライセンス: Link先を確認 | Ruslan Khalitov, Tong Yu, Lei Cheng, Zhirong Yang | (参考訳) 順序データは自然に多くの領域で異なる長さを持ち、非常に長い配列を持つ。
重要なモデリングツールとして、神経の注意はそのようなシーケンスで長距離の相互作用を捉えるべきである。
しかし、既存の神経注意モデルは短いシーケンスしか認めていないか、一定の入力長を強制するためにチャンクまたはパディングを用いる必要がある。
本稿では,可変長長列に対する注意をモデル化できるchordmixerと呼ばれる単純なニューラルネットワーク構築ブロックを提案する。
各コードミキサーブロックは、学習可能なパラメータのない位置方向回転層と、要素方向mlp層とからなる。
このようなブロックを繰り返し適用することは、入力信号を学習対象に向かって混合する効果的なネットワークバックボーンを形成する。
我々は、合成付加問題、長い文書分類、DNA配列に基づく分類について、ChordMixerを試験した。
実験の結果,本手法は他の神経注意モデルよりも有意に優れていた。 Sequential data naturally have different lengths in many domains, with some very long sequences. As an important modeling tool, neural attention should capture long-range interaction in such sequences. However, most existing neural attention models admit only short sequences, or they have to employ chunking or padding to enforce a constant input length. Here we propose a simple neural network building block called ChordMixer which can model the attention for long sequences with variable lengths. Each ChordMixer block consists of a position-wise rotation layer without learnable parameters and an element-wise MLP layer. Repeatedly applying such blocks forms an effective network backbone that mixes the input signals towards the learning targets. We have tested ChordMixer on the synthetic adding problem, long document classification, and DNA sequence-based taxonomy classification. The experiment results show that our method substantially outperforms other neural attention models. | 翻訳日:2023-05-10 00:56:17 公開日:2023-05-05 |
# 動的潜在状態モデルにおける因果解析 Counterfactual Analysis in Dynamic Latent State Models ( http://arxiv.org/abs/2205.13832v4 ) ライセンス: Link先を確認 | Martin Haugh and Raghav Singal | (参考訳) 隠れた状態を持つ動的モデルで反事実解析を行う最適化ベースのフレームワークを提供する。
我々のフレームワークは,(1)状態が隠蔽され(2)モデルが動的である2つの主要な課題に対処し,対実的なクエリに応答するための‘abduction, action, and prediction’アプローチに基づいている。
基礎となる因果メカニズムに関する知識の欠如と、そのようなメカニズムが無限に存在する可能性を認識し、この空間上で最適化し、反事実量の上限を計算します。
私たちの研究は、因果関係、状態空間モデル、シミュレーション、最適化からのアイデアをまとめ、乳がんのケーススタディに適用します。
我々の知る限りでは、動的潜在状態モデルにおいて、カウンターファクトクエリの下位および上位境界を初めて計算する。 We provide an optimization-based framework to perform counterfactual analysis in a dynamic model with hidden states. Our framework is grounded in the ``abduction, action, and prediction'' approach to answer counterfactual queries and handles two key challenges where (1) the states are hidden and (2) the model is dynamic. Recognizing the lack of knowledge on the underlying causal mechanism and the possibility of infinitely many such mechanisms, we optimize over this space and compute upper and lower bounds on the counterfactual quantity of interest. Our work brings together ideas from causality, state-space models, simulation, and optimization, and we apply it on a breast cancer case study. To the best of our knowledge, we are the first to compute lower and upper bounds on a counterfactual query in a dynamic latent-state model. | 翻訳日:2023-05-10 00:54:09 公開日:2023-05-05 |
# 視覚トランスフォーマーに基づく異なるモダリティのための統一物体検出器 Unified Object Detector for Different Modalities based on Vision Transformers ( http://arxiv.org/abs/2207.01071v2 ) ライセンス: Link先を確認 | Xiaoke Shen and Ioannis Stamos | (参考訳) 従来のシステムでは、rgb画像のモデルや深度画像のモデルなど、異なるモダリティを処理するために異なるモデルが必要となる。
近年の研究では、ひとつのモダリティに対する単一モデルが、クロスモダリティ転送学習を用いて別のモダリティに適応できることが示されている。
本稿では,クロス・インターモダリティ伝達学習と視覚トランスフォーマーを組み合わせることで,多様なモダリティにまたがる優れた性能を実現する統一検出器を開発することにより,このアプローチを拡張する。
本研究では,照明条件の異なるrgbカメラと深度センサをシームレスに切り替えるロボット工学の応用シナリオについて考察する。
重要なのは、このスムーズな移行を可能にするために、システムはモデルアーキテクチャや重み付け更新を必要としないことだ。
具体的には、低照度(夜間)に深度センサーを使用し、RGBカメラと深度センサーとRGBカエマの両方を、明るい環境でのみ使用する。
我々は,SUN RGB-Dデータセット上での統一モデルの評価を行い,SUNRGBD16カテゴリの最先端手法と比較して,mAP50と同等あるいは優れた性能を示し,点クラウドのみのモードで同等の性能を示した。
また,従来の手法よりもはるかに優れた結果が得られる新しいモード間混合手法を提案する。
再現性とさらなる研究を容易にするために、トレーニング/会議ログやモデルのチェックポイントを含むコードを提供します。
\url{https://github.com/liketheflower/UODDM} Traditional systems typically require different models for processing different modalities, such as one model for RGB images and another for depth images. Recent research has demonstrated that a single model for one modality can be adapted for another using cross-modality transfer learning. In this paper, we extend this approach by combining cross/inter-modality transfer learning with a vision transformer to develop a unified detector that achieves superior performance across diverse modalities. Our research envisions an application scenario for robotics, where the unified system seamlessly switches between RGB cameras and depth sensors in varying lighting conditions. Importantly, the system requires no model architecture or weight updates to enable this smooth transition. Specifically, the system uses the depth sensor during low-lighting conditions (night time) and both the RGB camera and depth sensor or RGB caemra only in well-lit environments. We evaluate our unified model on the SUN RGB-D dataset, and demonstrate that it achieves similar or better performance in terms of mAP50 compared to state-of-the-art methods in the SUNRGBD16 category, and comparable performance in point cloud only mode. We also introduce a novel inter-modality mixing method that enables our model to achieve significantly better results than previous methods. We provide our code, including training/inference logs and model checkpoints, to facilitate reproducibility and further research. \url{https://github.com/liketheflower/UODDM} | 翻訳日:2023-05-10 00:43:30 公開日:2023-05-05 |
# 2次元クリフォード回路における局在の欠如 Absence of localization in two-dimensional Clifford circuits ( http://arxiv.org/abs/2210.10129v2 ) ライセンス: Link先を確認 | Tom Farshi, Jonas Richter, Daniele Toniolo, Arijeet Pal, Lluis Masanes | (参考訳) ランダムなクリフォードゲートを持つフロケット回路を1次元と2次元で解析する。
ランダムグラフとパーコレーション理論の手法を用いることで、局所作用素が弾道速度で成長することを2次元で証明し、これは局所化の欠如を意味する。
対照的に、一次元モデルはランダムな場所における左右の遮蔽壁の出現を特徴とする強固な局在を示す。
2次元(単次元)における局所化の欠如(予備)を示す演算子の拡散と絡み合い成長の数値シミュレーションにより,解析結果を補完することにより,さらなる知見を提供する。
さらに,2次元回路におけるフロケ単位のスペクトル形状係数が,カオス的な単一粒子動力学を持つ準自由フェルミオンのように振る舞うことを明らかにする。
我々の研究は、乱れたフロッケ・クリフォード力学の性質と、完全にカオスな量子力学との関係に光を当てている。 We analyze a Floquet circuit with random Clifford gates in one and two spatial dimensions. By using random graphs and methods from percolation theory, we prove in the two dimensional setting that some local operators grow at ballistic rate, which implies the absence of localization. In contrast, the one-dimensional model displays a strong form of localization characterized by the emergence of left and right-blocking walls in random locations. We provide additional insights by complementing our analytical results with numerical simulations of operator spreading and entanglement growth, which show the absence (presence) of localization in two-dimension (one-dimension). Furthermore, we unveil that the spectral form factor of the Floquet unitary in two-dimensional circuits behaves like that of quasi-free fermions with chaotic single particle dynamics, with an exponential ramp that persists till times scaling linearly with the size of the system. Our work sheds light on the nature of disordered, Floquet Clifford dynamics and its relationship to fully chaotic quantum dynamics. | 翻訳日:2023-05-10 00:17:46 公開日:2023-05-05 |
# 補助入力によるエージェント状態構築 Agent-State Construction with Auxiliary Inputs ( http://arxiv.org/abs/2211.07805v3 ) ライセンス: Link先を確認 | Ruo Yu Tao, Adam White, Marlos C. Machado | (参考訳) 多くの場合、すべての現実的な意思決定タスクではないとしても、意思決定エージェントは世界の複雑さを完全にモデル化することはできない。
環境はしばしばエージェントよりも大きく複雑であり、部分的可観測性とも呼ばれる。
このような設定では、エージェントは現在の感覚入力だけでなく、これまでの世界との相互作用を要約するエージェント状態を構築する必要がある。
現在、この問題に取り組むための一般的なアプローチは、エージェントの感覚ストリームからリカレントネットワークを介してエージェントの状態関数を入力として学習することである。
多くの印象的な強化学習アプリケーションは、エージェントの入力を履歴要約に役立てるために、環境特有の機能に依存している。
これらの拡張は、観測を連結するといった単純なアプローチから、不確実性推定のようなより複雑なアプローチまで、複数の方法で行われる。
この分野ではユビキタスだが、補助入力と呼ばれるこれらの追加入力はほとんど強調されず、それらの役割や影響は明らかではない。
この研究で、我々はこのアイデアをさらに探求し、これらの補助的なインプットを、状態構築に対する以前の古典的アプローチに関連付ける。
本稿では,補助入力を用いた強化学習の方法を示す一連の例を示す。
これらの補助的な入力は、他の方法ではエイリアスされるであろう観測を区別するために使用することができ、異なる状態間でスムーズに補間するより表現力のある特徴をもたらす。
最後に,このアプローチは,繰り返しニューラルネットワークや時間経過によるバックプロパゲーションといった最先端の手法を補完するものであり,時間的クレジット割り当ての長期化を促進するヒューリスティックとして機能し,パフォーマンスの向上につながることを示す。 In many, if not every realistic sequential decision-making task, the decision-making agent is not able to model the full complexity of the world. The environment is often much larger and more complex than the agent, a setting also known as partial observability. In such settings, the agent must leverage more than just the current sensory inputs; it must construct an agent state that summarizes previous interactions with the world. Currently, a popular approach for tackling this problem is to learn the agent-state function via a recurrent network from the agent's sensory stream as input. Many impressive reinforcement learning applications have instead relied on environment-specific functions to aid the agent's inputs for history summarization. These augmentations are done in multiple ways, from simple approaches like concatenating observations to more complex ones such as uncertainty estimates. Although ubiquitous in the field, these additional inputs, which we term auxiliary inputs, are rarely emphasized, and it is not clear what their role or impact is. In this work we explore this idea further, and relate these auxiliary inputs to prior classic approaches to state construction. We present a series of examples illustrating the different ways of using auxiliary inputs for reinforcement learning. We show that these auxiliary inputs can be used to discriminate between observations that would otherwise be aliased, leading to more expressive features that smoothly interpolate between different states. Finally, we show that this approach is complementary to state-of-the-art methods such as recurrent neural networks and truncated back-propagation through time, and acts as a heuristic that facilitates longer temporal credit assignment, leading to better performance. | 翻訳日:2023-05-09 23:56:30 公開日:2023-05-05 |
# clip-tsa: 弱教師付きビデオ異常検出のためのクリップ支援時間的セルフアテンション CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection ( http://arxiv.org/abs/2212.05136v2 ) ライセンス: Link先を確認 | Hyekang Kevin Joo, Khoa Vo, Kashu Yamazaki, Ngan Le | (参考訳) ビデオ異常検出(VAD: Video Anomaly Detection) - 労働集約性による弱い監督によるマルチインスタンス学習問題として一般的に定式化されている - は、ビデオ監視において、異常のフレームを非トリミングビデオにローカライズする必要があるという課題である。
本稿ではまず,従来のC3DやI3Dとは異なり,CLIPの視覚的特徴をViTで符号化し,その特徴を効果的に抽出する手法を提案する。
次に,時間的依存関係と短距離依存関係をモデル化し,提案した時間的自己意識(TSA)を利用して関心の断片を列挙する。
実験の結果,提案したCLIP-TSA法は,VAD問題(UCF-CrimeとShanghaiTech Campus)における2つの一般的なベンチマークデータセットに対して,既存のSOTA法よりも高い性能を示した。
ソースコードは受理次第公開される予定だ。 Video anomaly detection (VAD) -- commonly formulated as a multiple-instance learning problem in a weakly-supervised manner due to its labor-intensive nature -- is a challenging problem in video surveillance where the frames of anomaly need to be localized in an untrimmed video. In this paper, we first propose to utilize the ViT-encoded visual features from CLIP, in contrast with the conventional C3D or I3D features in the domain, to efficiently extract discriminative representations in the novel technique. We then model long- and short-range temporal dependencies and nominate the snippets of interest by leveraging our proposed Temporal Self-Attention (TSA). The ablation study conducted on each component confirms its effectiveness in the problem, and the extensive experiments show that our proposed CLIP-TSA outperforms the existing state-of-the-art (SOTA) methods by a large margin on two commonly-used benchmark datasets in the VAD problem (UCF-Crime and ShanghaiTech Campus). The source code will be made publicly available upon acceptance. | 翻訳日:2023-05-09 23:49:07 公開日:2023-05-05 |
# ニューラルボリューム超解法 Neural Volume Super-Resolution ( http://arxiv.org/abs/2212.04666v2 ) ライセンス: Link先を確認 | Yuval Bahat, Yuxuan Zhang, Hendrik Sommerhoff, Andreas Kolb and Felix Heide | (参考訳) ニューラルボリューム表現は3次元シーンにおける放射場モデルとして広く採用されている。
これらの表現は完全に暗黙的あるいはハイブリッドな関数であり、シーン内の瞬時ボリュームの放射能の近似値であり、通常、シーンのマルチビューキャプチャから学習される。
低解像度で撮影されたシーンに対応する高解像度の映像をレンダリングするニューラルボリューム超解像の新しい課題について検討する。
そこで本研究では,シーンの体積表現を直接操作する超解像ネットワークを提案する。
このアプローチは、ボリューム領域における操作の利点、すなわち、異なる視野方向における一貫した超解像を保証する能力を利用することができる。
本手法を実現するために,複数の2次元特徴平面に係わる新たな3次元表現を考案する。
これにより,2次元特徴平面上に2次元畳み込みネットワークを適用することで,3次元シーン表現の超解像が可能になる。
提案手法は,既存の手法よりも質的かつ定量的に好適な品質を検証し,多様な3次元シーンの多視点一貫した視点をスーパーレゾリューションすることで検証する。 Neural volumetric representations have become a widely adopted model for radiance fields in 3D scenes. These representations are fully implicit or hybrid function approximators of the instantaneous volumetric radiance in a scene, which are typically learned from multi-view captures of the scene. We investigate the new task of neural volume super-resolution - rendering high-resolution views corresponding to a scene captured at low resolution. To this end, we propose a neural super-resolution network that operates directly on the volumetric representation of the scene. This approach allows us to exploit an advantage of operating in the volumetric domain, namely the ability to guarantee consistent super-resolution across different viewing directions. To realize our method, we devise a novel 3D representation that hinges on multiple 2D feature planes. This allows us to super-resolve the 3D scene representation by applying 2D convolutional networks on the 2D feature planes. We validate the proposed method by super-resolving multi-view consistent views on a diverse set of unseen 3D scenes, confirming qualitative and quantitatively favorable quality over existing approaches. | 翻訳日:2023-05-09 23:48:43 公開日:2023-05-05 |
# タスク命令からの学習のロバスト性 Robustness of Learning from Task Instructions ( http://arxiv.org/abs/2212.03813v3 ) ライセンス: Link先を確認 | Jiasheng Gu, Hongyu Zhao, Hanzi Xu, Liangyu Nie, Hongyuan Mei and Wenpeng Yin | (参考訳) 従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。
このパラダイムは、タスク固有の例セットを作成するのにコストがかかるため、タスクの一般化を著しく妨げます。
新たなタスクに迅速かつ容易に一般化できるシステムを構築するために,タスク命令が近年,監督の新たなトレンドとして採用されている。
これらの命令はモデルにタスクの定義を与え、モデルが命令と入力に基づいて適切な応答を出力することを可能にする。
しかし、タスク命令はしばしば異なる形式で表現され、2つのスレッドから解釈できる: まず、いくつかの命令は短い文であり、プロンプトのような事前学習された言語モデル(plm)指向であり、他の命令は段落であり、amazon mturkのような人間指向である。
タスク一般化のための堅牢なシステムは、命令の可変性に関係なく、新しいタスクを処理できる必要がある。
しかし、命令駆動タスクの一般化を扱うシステムの堅牢性はまだ未検討である。
本研究は,新しいタスクの指示がいつ強固であるかを考察する。
(i)操作された。
(ii)言い換える、または
(iii)異なる簡潔さのレベルから。
私たちの知る限りでは、plmが可変性の異なる要素を持つ命令によって監視される場合の堅牢性について体系的に研究するのはこれが初めてです。 Traditional supervised learning mostly works on individual tasks and requires training on a large set of task-specific examples. This paradigm seriously hinders the development of task generalization since preparing a task-specific example set is costly. To build a system that can quickly and easily generalize to new tasks, task instructions have been adopted as an emerging trend of supervision recently. These instructions give the model the definition of the task and allow the model to output the appropriate answer based on the instructions and inputs. However, task instructions are often expressed in different forms, which can be interpreted from two threads: first, some instructions are short sentences and are pretrained language model (PLM) oriented, such as prompts, while other instructions are paragraphs and are human-oriented, such as those in Amazon MTurk; second, different end-users very likely explain the same task with instructions of different textual expressions. A robust system for task generalization should be able to handle any new tasks regardless of the variability of instructions. However, the system robustness in dealing with instruction-driven task generalization is still unexplored. This work investigates the system robustness when the instructions of new tasks are (i) manipulated, (ii) paraphrased, or (iii) from different levels of conciseness. To our knowledge, this is the first work that systematically studies how robust a PLM is when it is supervised by instructions with different factors of variability. | 翻訳日:2023-05-09 23:47:51 公開日:2023-05-05 |
# 平面 #csp 等式は量子同型に対応する -- 正則的視点 Planar #CSP Equality Corresponds to Quantum Isomorphism -- A Holant Viewpoint ( http://arxiv.org/abs/2212.03335v3 ) ライセンス: Link先を確認 | Jin-Yi Cai (University of Wisconsin-Madison) and Ben Young (University of Wisconsin-Madison) | (参考訳) 最近、man\v{c}inska と roberson は、2つのグラフ $g$ と $g'$ が量子同型であると証明した。
この結果は、任意の集合の組 $\mathcal{F}$ と $\mathcal{F}'$ で、実数値で任意のアリティ制約関数を持つ平面 #CSP に拡張する。
グラフ準同型は、$\mathcal{f}$ と $\mathcal{f}'$ のそれぞれが単一の対称 0-1-値二項制約関数を含む特別な場合である。
我々の治療は平面ホラント問題の枠組みを用いる。
量子同型制約関数集合が任意の平面 #csp インスタンス上で同じ値を与えることを証明するために、量子準同型を定義する量子置換行列 $\mathcal{u}$ を用いて、ヴァリアントのホログラム変換の新しい形式を適用する。
$\mathcal{U}$'sエントリの非可換性のため、この形のホログラフィック変換は平面ホラントにのみ適用可能であることが判明した。
この逆を証明するために、量子自己同型群 Qut$(\mathcal{F})$ の制約関数の集合 $\mathcal{F}$ を紹介し、Qut$(\mathcal{F})$ の中間体を平面ホラント$(\mathcal{F}\,|\,\mathcal{EQ})$量子ガジェットのシグネチャ行列として特徴づける。
次に、制約函数に対する(射影)接続の新しい概念を定義し、量子自己同型群を維持しながらアーリティーを減少させる。
最後に、0-1 から実値制約関数への一般化によって生じる課題に対処するため、実重み付きグラフの同型に関する古典的設定において、lov\'asz のテクニックを量子同型の設定に適用する。 Recently, Man\v{c}inska and Roberson proved that two graphs $G$ and $G'$ are quantum isomorphic if and only if they admit the same number of homomorphisms from all planar graphs. We extend this result to planar #CSP with any pair of sets $\mathcal{F}$ and $\mathcal{F}'$ of real-valued, arbitrary-arity constraint functions. Graph homomorphism is the special case where each of $\mathcal{F}$ and $\mathcal{F}'$ contains a single symmetric 0-1-valued binary constraint function. Our treatment uses the framework of planar Holant problems. To prove that quantum isomorphic constraint function sets give the same value on any planar #CSP instance, we apply a novel form of holographic transformation of Valiant, using the quantum permutation matrix $\mathcal{U}$ defining the quantum isomorphism. Due to the noncommutativity of $\mathcal{U}$'s entries, it turns out that this form of holographic transformation is only applicable to planar Holant. To prove the converse, we introduce the quantum automorphism group Qut$(\mathcal{F})$ of a set of constraint functions $\mathcal{F}$, and characterize the intertwiners of Qut$(\mathcal{F})$ as the signature matrices of planar Holant$(\mathcal{F}\,|\,\mathcal{EQ})$ quantum gadgets. Then we define a new notion of (projective) connectivity for constraint functions and reduce arity while preserving the quantum automorphism group. Finally, to address the challenges posed by generalizing from 0-1 valued to real-valued constraint functions, we adapt a technique of Lov\'asz in the classical setting for isomorphisms of real-weighted graphs to the setting of quantum isomorphisms. | 翻訳日:2023-05-09 23:47:14 公開日:2023-05-05 |
# 遅延系の階層的運動方程式(heom)アナログ:共振器間光子伝播を例に A hierarchical equations of motion (HEOM) analog for systems with delay: illustrated on inter-cavity photon propagation ( http://arxiv.org/abs/2301.02626v4 ) ライセンス: Link先を確認 | Robert Fuchs and Marten Richter | (参考訳) 過去20年間で、谷村と久保の階層的運動方程式(HEOM)は、システムバス問題の数値計算のための動きに基づくツールの方程式となっている。
HEOMは今日では、外浴を通しての散逸・移行プロセスの多くに一般化されている。
空間的に拡張されたフォトニック系では、浴槽内の光子の伝播は量子エミッタのカップリングの遅延/遅延を引き起こす。
ここで、HEOMの導出の背後にあるアイデアは光子遅延の場合に一般化され、2つの誘電スラブの単純な例に適用される。
導出方程式は遅延を記述するための単純な信頼できる枠組みを提供し、経路積分処理の代替となるかもしれない。 Over the last two decades, the hierarchical equations of motion (HEOM) of Tanimura and Kubo have become the equation of motion-based tool for numerically exact calculations of system-bath problems. The HEOM is today generalized to many cases of dissipation and transfer processes through an external bath. In spatially extended photonic systems, the propagation of photons through the bath leads to retardation/delays in the coupling of quantum emitters. Here, the idea behind the HEOM derivation is generalized to the case of photon retardation and applied to the simple example of two dielectric slabs. The derived equations provide a simple reliable framework for describing retardation and may provide an alternative to path integral treatments. | 翻訳日:2023-05-09 23:28:24 公開日:2023-05-05 |
# 知識グラフ補完のための二重置換等価性 Double Permutation Equivariance for Knowledge Graph Completion ( http://arxiv.org/abs/2302.01313v3 ) ライセンス: Link先を確認 | Jianfei Gao, Yangze Zhou, Bruno Ribeiro | (参考訳) この研究は知識グラフ(kgs)を、二重交換可能な有理グラフを表す新しいグラフのクラスとして形式化し、ノードとペアワイズ(joint 2-node)表現は、ノードidとエッジ(&node)属性(relation & node feature)の両方の置換に同値でなければならない。
二重置換同変 KG 表現は KG の新しい研究方向を開く。
この等分散は、ニューラルネットワークが複雑な論理推論タスクをkgsで実行できるようにする関係の構造的表現を課す。
最後に,このような等価表現に対する一般的な青写真を導入し,wn18rr,fb237,nell995インダクティブkg完了タスクにおいて最先端のhis@10テスト精度を達成し,既存の手法では実行できない論理的推論タスクを最善の知識に対して正確に実行可能にする,単純なgnnベースの二重置換同変ニューラルネットワークアーキテクチャをテストする。 This work provides a formalization of Knowledge Graphs (KGs) as a new class of graphs that we denote doubly exchangeable attributed graphs, where node and pairwise (joint 2-node) representations must be equivariant to permutations of both node ids and edge (& node) attributes (relations & node features). Double-permutation equivariant KG representations open a new research direction in KGs. We show that this equivariance imposes a structural representation of relations that allows neural networks to perform complex logical reasoning tasks in KGs. Finally, we introduce a general blueprint for such equivariant representations and test a simple GNN-based double-permutation equivariant neural architecture that achieve state-of-the-art Hits@10 test accuracy in the WN18RR, FB237 and NELL995 inductive KG completion tasks, and can accurately perform logical reasoning tasks that no existing methods can perform, to the best of our knowledge. | 翻訳日:2023-05-09 23:21:07 公開日:2023-05-05 |
# GaitSADA:mm波歩行認識のための自己調整型ドメイン適応 GaitSADA: Self-Aligned Domain Adaptation for mmWave Gait Recognition ( http://arxiv.org/abs/2301.13384v3 ) ライセンス: Link先を確認 | Ekkasit Pinyoanuntapong, Ayman Ali, Kalvik Jakkala, Pu Wang, Minwoo Lee, Qucheng Peng, Chen Chen, Zhi Sun | (参考訳) mmWaveレーダを用いた歩行認識は,mmWaveレーダの帰還信号から人間の歩行バイオメトリックスを捉える新しいユーザ識別法である。
この技術はプライバシー保護を提供し、天候や照明条件に耐性がある。
しかし、その一般化性能はまだ不明であり、実際の展開を制限している。
この問題に対処するため,本論文では,mmWave測位データにおける空間的・時間的領域シフトの存在を明らかにするために,非合成データセットを収集,解析し,識別精度に大きな影響を及ぼす。
この問題を軽減するために,GaitSADAと呼ばれるドメイン適応手法を提案する。
GaitSADAは2段階の半教師付きモデルトレーニング手法を用いてシステム一般化性能を向上させる。
第1段階では、半教師付きコントラスト学習を用いて、ソースとターゲットの両方のドメインデータからコンパクトな歩行表現を学習し、ソースとターゲットのドメイン分布を暗黙的に調整する。
第2段階では、ターゲットドメインサンプルを擬似ラベリングし、同じクラスに属するサンプルを異なるドメインからクラスタリングし、各クラスの重みベクトルに近いクラスセントロイドをプッシュすることで、セントロイドアライメントを用いた半教師付き整合トレーニングを用いて、ソース・ターゲットドメインギャップをさらに閉じる。
実験により、GaitSADAは、低データ状態における平均精度で15.41\%から26.32\%の改善により、代表的ドメイン適応法よりも優れていることが示された。
コードとデータセットはhttps://exitudio.github.io/GaitSADAで入手できる。 mmWave radar-based gait recognition is a novel user identification method that captures human gait biometrics from mmWave radar return signals. This technology offers privacy protection and is resilient to weather and lighting conditions. However, its generalization performance is yet unknown and limits its practical deployment. To address this problem, in this paper, a non-synthetic dataset is collected and analyzed to reveal the presence of spatial and temporal domain shifts in mmWave gait biometric data, which significantly impacts identification accuracy. To mitigate this issue, a novel self-aligned domain adaptation method called GaitSADA is proposed. GaitSADA improves system generalization performance by using a two-stage semi-supervised model training approach. The first stage employs semi-supervised contrastive learning to learn a compact gait representation from both source and target domain data, aligning source-target domain distributions implicitly. The second stage uses semi-supervised consistency training with centroid alignment to further close source-target domain gap by pseudo-labelling the target-domain samples, clustering together the samples belonging to the same class but from different domains, and pushing the class centroid close to the weight vector of each class. Experiments show that GaitSADA outperforms representative domain adaptation methods with an improvement ranging from 15.41\% to 26.32\% on average accuracy in low data regimes. Code and dataset will be available at https://exitudio.github.io/GaitSADA | 翻訳日:2023-05-09 23:19:48 公開日:2023-05-05 |
# 物質相における地盤・熱状態の効率的な学習 Efficient learning of ground & thermal states within phases of matter ( http://arxiv.org/abs/2301.12946v2 ) ライセンス: Link先を確認 | Emilio Onorati, Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a, James D. Watson | (参考訳) 関連する2つのタスクについて検討します
(a)この状態におけるギブス状態のパラメータ化とリプシッツ観測量の期待値の推定
(b)物質の熱的または量子的位相における局所観測物の期待値を学ぶこと。
どちらの場合も、これらの特性を与えられた精度で学習するために使用するサンプルの数を最小化したい。
まず、相関の指数的減衰と近似マルコフ特性を持つ非可換ハミルトニアンの量子ギブス状態を含む、システムのクラスのパラメータ化を学ぶ新しい手法を開発した。
システムサイズに多元的にスケールするだけでなく、可観測性の局所性に多項式的にスケールする多数のコピーから、状態の広範囲な特性の期待値を推測できることを指数関数的な改善として示す。
この性質の集合は準局所観測可能とエントロピーの期待値を含む。
第2の課題として,量子システムにおける可観測性学習のための効率的なアルゴリズムを開発した。
ハミルトニアンの局所性を利用すると、$M$局所観測可能量は確率$1-\delta$ to precision$\epsilon$で学習でき、$N=O\big(\log\big(\frac{M}{\delta}\big)e^{polylog(\epsilon^{-1})}\big)$ sample -- 前の境界の精度を指数関数的に改善する。
本研究は,局所トポロジカル量子次数を示すハミルトンの基底状態の族と,指数関数的相関減衰を持つ物質の熱相の両方に適用できる。
加えて、サンプルの複雑さはより悪いケース設定に当てはまるが、以前の結果は平均にしか当てはまらない。
さらに,ロバストなシャドウトモグラフィアルゴリズム,基底状態へのギブス近似,ギブス状態の輸送コスト不等式一般化など,独立した関心を持つツールを開発した。 We consider two related tasks: (a) estimating a parameterisation of a given Gibbs state and expectation values of Lipschitz observables on this state; and (b) learning the expectation values of local observables within a thermal or quantum phase of matter. In both cases, we wish to minimise the number of samples we use to learn these properties to a given precision. For the first task, we develop new techniques to learn parameterisations of classes of systems, including quantum Gibbs states of non-commuting Hamiltonians with exponential decay of correlations and the approximate Markov property. We show it is possible to infer the expectation values of all extensive properties of the state from a number of copies that not only scales polylogarithmically with the system size, but polynomially in the observable's locality -- an exponential improvement. This set of properties includes expected values of quasi-local observables and entropies. For the second task, we develop efficient algorithms for learning observables in a phase of matter of a quantum system. By exploiting the locality of the Hamiltonian, we show that $M$ local observables can be learned with probability $1-\delta$ to precision $\epsilon$ with using only $N=O\big(\log\big(\frac{M}{\delta}\big)e^{polylog(\epsilon^{-1})}\big)$ samples -- an exponential improvement on the precision over previous bounds. Our results apply to both families of ground states of Hamiltonians displaying local topological quantum order, and thermal phases of matter with exponential decay of correlations. In addition, our sample complexity applies to the worse case setting whereas previous results only applied on average. Furthermore, we develop tools of independent interest, such as robust shadow tomography algorithms, Gibbs approximations to ground states, and generalisations of transportation cost inequalities for Gibbs states. | 翻訳日:2023-05-09 23:19:21 公開日:2023-05-05 |
# コードのための大規模言語モデル: セキュリティ強化と逆行テスト Large Language Models for Code: Security Hardening and Adversarial Testing ( http://arxiv.org/abs/2302.05319v2 ) ライセンス: Link先を確認 | Jingxuan He and Martin Vechev | (参考訳) 大規模言語モデル(LM)は、大規模なコードベースで事前訓練され、コードを生成するのに使われている。
しかし、LMはセキュリティを意識せず、しばしば安全でないコードを生成する。
この研究は、2つの重要な軸に沿ってlmsのセキュリティを研究する。
(i)セキュアコード生成におけるlmsの信頼性向上を目的としたセキュリティ強化
(ii)敵対的立場からlsmのセキュリティを評価しようとする敵対的テスト。
制御コード生成と呼ばれる新しいセキュリティタスクを定式化することで、これら2つに対処する。
タスクはパラメトリックであり、LMが機能的に正しいコードを生成する能力を保持しながら、LMを誘導して安全または安全でないコードを生成するためにバイナリプロパティを入力する。
この課題を解決するために,SVENと呼ばれる新しい学習手法を提案する。
SVENはプロパティ固有の連続ベクトルを利用して、LMの重みを変更することなくプログラム生成を与えられたプロパティへ導く。
トレーニング手順は、コードの各領域に特別な損失項を強制することにより、これらの連続ベクトルを最適化する。
SVENは強力なセキュリティ制御を実現する上で極めて有効であることを示す。
例えば、2.7Bパラメータを持つ最先端のCodeGen LMは59.1%の時間でセキュアなコードを生成する。
このLM上でセキュリティ強化(または敵検定)を行うためにSVENを使用する場合、比率は92.3%(または36.8%に低下)に大幅に向上する。
重要なことに、SVENは機能的正確性において元のLMと密接に一致している。 Large language models (LMs) are increasingly pretrained on massive codebases and used to generate code. However, LMs lack awareness of security and are found to frequently produce unsafe code. This work studies the security of LMs along two important axes: (i) security hardening, which aims to enhance LMs' reliability in generating secure code, and (ii) adversarial testing, which seeks to evaluate LMs' security at an adversarial standpoint. We address both of these by formulating a new security task called controlled code generation. The task is parametric and takes as input a binary property to guide the LM to generate secure or unsafe code, while preserving the LM's capability of generating functionally correct code. We propose a novel learning-based approach called SVEN to solve this task. SVEN leverages property-specific continuous vectors to guide program generation towards the given property, without modifying the LM's weights. Our training procedure optimizes these continuous vectors by enforcing specialized loss terms on different regions of code, using a high-quality dataset carefully curated by us. Our extensive evaluation shows that SVEN is highly effective in achieving strong security control. For instance, a state-of-the-art CodeGen LM with 2.7B parameters generates secure code for 59.1% of the time. When we employ SVEN to perform security hardening (or adversarial testing) on this LM, the ratio is significantly boosted to 92.3% (or degraded to 36.8%). Importantly, SVEN closely matches the original LMs in functional correctness. | 翻訳日:2023-05-09 23:11:13 公開日:2023-05-05 |
# グラフニューラルネットワークによる時変信号の復元 Time-varying Signals Recovery via Graph Neural Networks ( http://arxiv.org/abs/2302.11313v2 ) ライセンス: Link先を確認 | Jhon A. Castro-Correa, Jhony H. Giraldo, Anindya Mondal, Mohsen Badiey, Thierry Bouwmans, Fragkiskos D. Malliaros | (参考訳) 時間変化グラフ信号の回復は、センサネットワークや時系列予測の多くの応用において根本的な問題である。
これらの信号の時空間情報を効果的に捉えることは下流タスクに不可欠である。
従来の研究では、そのようなグラフ信号の時間差の滑らかさを初期仮定として用いていた。
それでも、この滑らかさの仮定は、前者が持たない場合、対応するアプリケーションの性能の低下をもたらす可能性がある。
本研究では,学習モジュールを含めることで,この仮説の要件を緩和する。
時間変動グラフ信号の回復のための時間グラフニューラルネットワーク(TimeGNN)を提案する。
提案アルゴリズムは,平均二乗誤差関数とソボレフスムーズネス演算子からなる特殊損失を持つエンコーダデコーダアーキテクチャを用いており,TimeGNNは実際のデータセットにおける従来の手法と競合する性能を示す。 The recovery of time-varying graph signals is a fundamental problem with numerous applications in sensor networks and forecasting in time series. Effectively capturing the spatio-temporal information in these signals is essential for the downstream tasks. Previous studies have used the smoothness of the temporal differences of such graph signals as an initial assumption. Nevertheless, this smoothness assumption could result in a degradation of performance in the corresponding application when the prior does not hold. In this work, we relax the requirement of this hypothesis by including a learning module. We propose a Time Graph Neural Network (TimeGNN) for the recovery of time-varying graph signals. Our algorithm uses an encoder-decoder architecture with a specialized loss composed of a mean squared error function and a Sobolev smoothness operator.TimeGNN shows competitive performance against previous methods in real datasets. | 翻訳日:2023-05-09 22:50:01 公開日:2023-05-05 |
# 単一項目を超えて:会話型プレイリストキュレーションデータセットによるアイテムセット内のユーザ嗜好の探索 Beyond Single Items: Exploring User Preferences in Item Sets with the Conversational Playlist Curation Dataset ( http://arxiv.org/abs/2303.06791v2 ) ライセンス: Link先を確認 | Arun Tejasvi Chaganty, Megan Leszczynski, Shu Zhang, Ravi Ganti, Krisztian Balog, Filip Radlinski | (参考訳) 音楽など消費領域のユーザは、特定のアイテム(プレイリストやラジオなど)よりも、複数のアイテム(曲など)に対してより効率的に好みを提供することができる。
残念ながら、これは未調査の研究分野であり、既存のレコメンデーションシステムは単一項目よりも好みを理解することに限定されている。
これは、ユーザーがユーザーのニーズを理解する効率的な方法として、自然言語における好みを明確化または洗練する会話的アプローチを動機付ける。
このタスク会話アイテムセットのキュレーションと呼び、アイテムレベルとセットレベルのフィードバックの両方を観察することにより、会話設定におけるアイテムセットの現実的な好みを効率的に収集する新しいデータ収集手法を提案する。
この手法を音楽レコメンデーションに適用して,対話型プレイリストキュレーションデータセット(cpcd)を構築する。
最後に,このタスクのベースラインとして,幅広い会話検索モデルを提案し,データセット上で評価する。 Users in consumption domains, like music, are often able to more efficiently provide preferences over a set of items (e.g. a playlist or radio) than over single items (e.g. songs). Unfortunately, this is an underexplored area of research, with most existing recommendation systems limited to understanding preferences over single items. Curating an item set exponentiates the search space that recommender systems must consider (all subsets of items!): this motivates conversational approaches-where users explicitly state or refine their preferences and systems elicit preferences in natural language-as an efficient way to understand user needs. We call this task conversational item set curation and present a novel data collection methodology that efficiently collects realistic preferences about item sets in a conversational setting by observing both item-level and set-level feedback. We apply this methodology to music recommendation to build the Conversational Playlist Curation Dataset (CPCD), where we show that it leads raters to express preferences that would not be otherwise expressed. Finally, we propose a wide range of conversational retrieval models as baselines for this task and evaluate them on the dataset. | 翻訳日:2023-05-09 21:05:28 公開日:2023-05-05 |
# 1億語で訓練されたBERTがBritish National Corpusと出会う Trained on 100 million words and still in shape: BERT meets British National Corpus ( http://arxiv.org/abs/2303.09859v3 ) ライセンス: Link先を確認 | David Samuel, Andrey Kutuzov, Lilja {\O}vrelid and Erik Velldal | (参考訳) 現代のマスク付き言語モデル(LM)は、ずっと大きなコーパスで訓練されているが、ここでは、低スケールのトレーニングを、控えめながら代表的でバランスのとれた、公開の英語テキストソースであるBritish National Corpusへの効果を探る。
この厳格なコーパスの事前学習は,従来のBERTモデルよりも優れた性能が得られることを示す。
このタイプのコーパスは言語モデリングベンチマークとして大きな可能性を秘めています。
この可能性を示すために,lmsの公平で再現性が高く,データ効率の良い比較研究を行い,いくつかのトレーニング目標とモデルアーキテクチャを評価し,従来の実験結果を体系的な方法で再現する。
LTG-BERTと呼ばれる最適化されたLMアーキテクチャを提案する。 While modern masked language models (LMs) are trained on ever larger corpora, we here explore the effects of down-scaling training to a modestly-sized but representative, well-balanced, and publicly available English text source -- the British National Corpus. We show that pre-training on this carefully curated corpus can reach better performance than the original BERT model. We argue that this type of corpora has great potential as a language modeling benchmark. To showcase this potential, we present fair, reproducible and data-efficient comparative studies of LMs, in which we evaluate several training objectives and model architectures and replicate previous empirical results in a systematic way. We propose an optimized LM architecture called LTG-BERT. | 翻訳日:2023-05-09 20:55:47 公開日:2023-05-05 |
# 医用画像におけるコンピュータビジョンベンチマークセグメンテーションモデル(SAM):12データセットの精度 Computer-Vision Benchmark Segment-Anything Model (SAM) in Medical Images: Accuracy in 12 Datasets ( http://arxiv.org/abs/2304.09324v3 ) ライセンス: Link先を確認 | Sheng He, Rina Bao, Jingpeng Li, Jeffrey Stout, Atle Bjornerud, P. Ellen Grant, Yangming Ou | (参考訳) 背景: 2023年4月に導入されたsegment-anything model(sam)は、promiseをベンチマークモデルとして示し、さまざまな自然画像をセグメント化するユニバーサルソリューションである。
新しいデータセットごとに事前に要求された再トレーニングや微調整は行わない。
目的:各種医用画像分割作業におけるSAMの精度を検証し,その精度に影響を与える可能性のある因子について検討する。
方法:SAMは7,451名の被験者を含む12の公開医用画像セグメンテーションデータセットで試験された。
精度はアルゴリズム・セグメンテーションと接地マスクの重なりによって測定された。
SAMは、医療画像のセグメンテーションに特化した5つの最先端アルゴリズムと比較された。
セグメンテーション能力スコアとディス重なりによるu-netにおけるセグメンテーションの難易度,画像寸法,対象領域の大きさ,モダリティ,コントラストなど,samの精度と6因子の相関を独立に計算した。
結果: SAMとDiceの重なりは, 医療画像セグメンテーションデータセットの5つの画像ベースアルゴリズムよりも有意に低く, 0.1-0.5, 0.6-0.7Diceのマージンが得られた。
SAM-Semanticは画像分割困難と画像モダリティに大きく関連し,SAM-PointとSAM-Boxは画像分割困難,画像次元,ターゲット領域サイズ,ターゲット-vs-背景コントラストに大きく関連していた。
これら3種類のSAMは, 医用2次元画像, ターゲット領域の大きさ, セグメンテーション能力スコアが高く, U-NetDiceが高く, 前地上コントラストが高かった。 Background: The segment-anything model (SAM), introduced in April 2023, shows promise as a benchmark model and a universal solution to segment various natural images. It comes without previously-required re-training or fine-tuning specific to each new dataset. Purpose: To test SAM's accuracy in various medical image segmentation tasks and investigate potential factors that may affect its accuracy in medical images. Methods: SAM was tested on 12 public medical image segmentation datasets involving 7,451 subjects. The accuracy was measured by the Dice overlap between the algorithm-segmented and ground-truth masks. SAM was compared with five state-of-the-art algorithms specifically designed for medical image segmentation tasks. Associations of SAM's accuracy with six factors were computed, independently and jointly, including segmentation difficulties as measured by segmentation ability score and by Dice overlap in U-Net, image dimension, size of the target region, image modality, and contrast. Results: The Dice overlaps from SAM were significantly lower than the five medical-image-based algorithms in all 12 medical image segmentation datasets, by a margin of 0.1-0.5 and even 0.6-0.7 Dice. SAM-Semantic was significantly associated with medical image segmentation difficulty and the image modality, and SAM-Point and SAM-Box were significantly associated with image segmentation difficulty, image dimension, target region size, and target-vs-background contrast. All these 3 variations of SAM were more accurate in 2D medical images, larger target region sizes, easier cases with a higher Segmentation Ability score and higher U-Net Dice, and higher foreground-background contrast. | 翻訳日:2023-05-09 20:40:00 公開日:2023-05-05 |
# AI生成マップの倫理 : DALLE 2とカルトグラフィーへの応用 The Ethics of AI-Generated Maps: A Study of DALLE 2 and Implications for Cartography ( http://arxiv.org/abs/2304.10743v2 ) ライセンス: Link先を確認 | Yuhao Kang and Qianheng Zhang and Robert Roth | (参考訳) ChatGPTやDALLE 2といった大規模言語モデルの出現など、人工知能(AI)の急速な進歩は、生産性の向上と倫理的懸念の高まりをもたらす。
本稿では,地図学における人工知能(ai)活用の倫理について,特にdalle 2を用いた地図生成に焦点をあてて検討する。
これを実現するために、まず、さまざまな設定で複数のスケールで合成(AI生成)と実世界の(人間設計)マップを含むオープンソースのデータセットを作成します。
次に, dalle 2 生成地図の特徴, 不正確性, 誤解を招く情報, 予期せぬ特徴, 再現性から生じる4つの潜在的な倫理的懸念について検討した。
次に、AI生成マップを識別する深層学習に基づく倫理検査システムを開発する。
本研究は,地図学におけるAI技術の発展と活用における倫理的配慮の重要性を強調し,信頼性の高い地図の開発に寄与する。
我々は、AI生成マップに関連する潜在的なリスクに対する大衆の認識を高め、将来の利用のための倫理ガイドラインの開発を支援することを目的としている。 The rapid advancement of artificial intelligence (AI) such as the emergence of large language models including ChatGPT and DALLE 2 has brought both opportunities for improving productivity and raised ethical concerns. This paper investigates the ethics of using artificial intelligence (AI) in cartography, with a particular focus on the generation of maps using DALLE 2. To accomplish this, we first create an open-sourced dataset that includes synthetic (AI-generated) and real-world (human-designed) maps at multiple scales with a variety settings. We subsequently examine four potential ethical concerns that may arise from the characteristics of DALLE 2 generated maps, namely inaccuracies, misleading information, unanticipated features, and reproducibility. We then develop a deep learning-based ethical examination system that identifies those AI-generated maps. Our research emphasizes the importance of ethical considerations in the development and use of AI techniques in cartography, contributing to the growing body of work on trustworthy maps. We aim to raise public awareness of the potential risks associated with AI-generated maps and support the development of ethical guidelines for their future use. | 翻訳日:2023-05-09 20:28:37 公開日:2023-05-05 |
# 核スティック破砕過程に基づくガウス過程専門家の混合物 Mixtures of Gaussian process experts based on kernel stick-breaking processes ( http://arxiv.org/abs/2304.13833v2 ) ライセンス: Link先を確認 | Yuji Saikai and Khue-Dung Dang | (参考訳) gaussian process expertsの混合は、標準gaussianプロセスに固有の2つの重要な制限、スケーラビリティと予測性能を同時に扱うことができるモデルのクラスである。
特に、ゲーティング関数としてディリクレプロセスを使用するモデルでは、混合した専門家の数の簡単な解釈と自動選択が可能である。
既存のモデルは直感的であり、非定常性、多モード性、ヘテロスケダスティック性を捉えることができるが、ゲーティング関数の単純さは複雑なデータ生成プロセスに適用した場合の予測性能を制限する可能性がある。
依存型ディリクレプロセスの文献化の最近の進展を踏まえ,カーネルスティックブレーキングプロセスに基づくガウスプロセスエキスパートの混合モデルを提案する。
我々のモデルは直感的な魅力を維持しつつ、既存のモデルの性能を改善している。
そこで本研究では,スライスサンプリングに基づく後続計算のためのサンプリング器を設計する。
モデル挙動と予測性能の改善は、6つのデータセットを用いた実験で実証された。 Mixtures of Gaussian process experts is a class of models that can simultaneously address two of the key limitations inherent in standard Gaussian processes: scalability and predictive performance. In particular, models that use Dirichlet processes as gating functions permit straightforward interpretation and automatic selection of the number of experts in a mixture. While the existing models are intuitive and capable of capturing non-stationarity, multi-modality and heteroskedasticity, the simplicity of their gating functions may limit the predictive performance when applied to complex data-generating processes. Capitalising on the recent advancement in the dependent Dirichlet processes literature, we propose a new mixture model of Gaussian process experts based on kernel stick-breaking processes. Our model maintains the intuitive appeal yet improve the performance of the existing models. To make it practical, we design a sampler for posterior computation based on the slice sampling. The model behaviour and improved predictive performance are demonstrated in experiments using six datasets. | 翻訳日:2023-05-09 20:20:09 公開日:2023-05-05 |
# Pylogik を用いた医用画像の識別・洗浄・圧縮 Medical Image Deidentification, Cleaning and Compression Using Pylogik ( http://arxiv.org/abs/2304.12322v3 ) ライセンス: Link先を確認 | Adrienne Kline, Vinesh Appadurai, Yuan Luo, Sanjiv Shah | (参考訳) ビッグデータと機械学習の時代における医療記録情報の活用は、データのクリーン化と識別の欠如に注意する必要がある。
保護された健康情報(PHI)が画像メタデータに含まれる場合,多施設連携のためのデータ共有と調和は特に困難である。
我々は,pylogikと呼ばれるpythonフレームワークの新しいライブラリを提案し,超音波画像に対するこの問題を軽減する。
PyLogikは、一連のテキスト検出/抽出、フィルタリング、しきい値、形態と輪郭の比較を通じて画像ボリュームを処理する。
この方法論は、イメージを識別し、ファイルサイズを小さくし、ディープラーニングとデータ共有のアプリケーション用の画像ボリュームを作成する。
興味領域(ROI)の同定における有効性を評価するため,PyLogikを用いて50個の心エコー(心電図)のランダムサンプルを処理し,専門家による手動セグメンテーションと比較した。
2つのアプローチのDice係数は0.976の平均値を達成した。
次に,アルゴリズムを用いて得られた情報圧縮の程度を確認するために調査を行った。
結果、pylogikによる処理後、平均で約72%小さくなることがわかった。
以上の結果から,PyLogikは超音波データのクリーニングや識別,ROIの決定,ファイル圧縮に有効な手法であることが示唆された。 Leveraging medical record information in the era of big data and machine learning comes with the caveat that data must be cleaned and deidentified. Facilitating data sharing and harmonization for multi-center collaborations are particularly difficult when protected health information (PHI) is contained or embedded in image meta-data. We propose a novel library in the Python framework, called PyLogik, to help alleviate this issue for ultrasound images, which are particularly challenging because of the frequent inclusion of PHI directly on the images. PyLogik processes the image volumes through a series of text detection/extraction, filtering, thresholding, morphological and contour comparisons. This methodology deidentifies the images, reduces file sizes, and prepares image volumes for applications in deep learning and data sharing. To evaluate its effectiveness in the identification of regions of interest (ROI), a random sample of 50 cardiac ultrasounds (echocardiograms) were processed through PyLogik, and the outputs were compared with the manual segmentations by an expert user. The Dice coefficient of the two approaches achieved an average value of 0.976. Next, an investigation was conducted to ascertain the degree of information compression achieved using the algorithm. Resultant data was found to be on average approximately 72% smaller after processing by PyLogik. Our results suggest that PyLogik is a viable methodology for ultrasound data cleaning and deidentification, determining ROI, and file compression which will facilitate efficient storage, use, and dissemination of ultrasound data. | 翻訳日:2023-05-09 20:17:27 公開日:2023-05-05 |
# 2次元医用画像におけるSegment Anything Model(SAM)のゼロショット性能:包括的評価と実践的ガイドライン Zero-shot performance of the Segment Anything Model (SAM) in 2D medical imaging: A comprehensive evaluation and practical guidelines ( http://arxiv.org/abs/2305.00109v2 ) ライセンス: Link先を確認 | Christian Mattjie and Luis Vinicius de Moura and Rafaela Cappelari Ravazio and Lucas Silveira Kupssinsk\"u and Ot\'avio Parraga and Marcelo Mussi Delucis and Rodrigo Coelho Barros | (参考訳) 画像診断におけるセグメンテーションは、様々な疾患や疾患の診断、監視、治療に重要な要素である。
現在、医学的なセグメンテーションのランドスケープは、特定のセグメンテーションタスクと画像モダリティのために微調整された多数の専門的なディープラーニングモデルによって支配されている。
最近導入されたSegment Anything Model(SAM)は、ViTニューラルアーキテクチャを採用し、ほぼすべてのオブジェクトをセグメント化するための大規模なトレーニングデータセットを使用しているが、医療領域への適合性はまだ調査されていない。
本研究では, X線, 超音波, 皮膚内視鏡, 大腸内視鏡の4つの画像モダリティから得られた6つのデータセットに対して, 8つの異なるプロンプト戦略を実装し, SAMのゼロショット性能について検討した。
この結果から,SAMのゼロショット性能は,現在の最先端技術に匹敵するだけでなく,ある場合においても優れていることがわかった。
これらの結果に基づき,すべての評価された文脈で一貫した結果が得られながら,最小限のインタラクションを必要とする実用的なガイドラインを提案する。
ソースコードと推奨ガイドラインのデモはhttps://github.com/Malta-Lab/SAM-zero-shot-in-Medical-Imaging.comで見ることができる。 Segmentation in medical imaging is a critical component for the diagnosis, monitoring, and treatment of various diseases and medical conditions. Presently, the medical segmentation landscape is dominated by numerous specialized deep learning models, each fine-tuned for specific segmentation tasks and image modalities. The recently-introduced Segment Anything Model (SAM) employs the ViT neural architecture and harnesses a massive training dataset to segment nearly any object; however, its suitability to the medical domain has not yet been investigated. In this study, we explore the zero-shot performance of SAM in medical imaging by implementing eight distinct prompt strategies across six datasets from four imaging modalities, including X-ray, ultrasound, dermatoscopy, and colonoscopy. Our findings reveal that SAM's zero-shot performance is not only comparable to, but in certain cases, surpasses the current state-of-the-art. Based on these results, we propose practical guidelines that require minimal interaction while consistently yielding robust outcomes across all assessed contexts. The source code, along with a demonstration of the recommended guidelines, can be accessed at https://github.com/Malta-Lab/SAM-zero-shot-in-Medical-Imaging. | 翻訳日:2023-05-09 20:10:37 公開日:2023-05-05 |
# 色とシャープネスを増強した糖尿病性足部潰瘍のVenn Diagram Multi-label Class Interpretation Venn Diagram Multi-label Class Interpretation of Diabetic Foot Ulcer with Color and Sharpness Enhancement ( http://arxiv.org/abs/2305.01044v2 ) ライセンス: Link先を確認 | Md Mahamudul Hasan, Moi Hoon Yap, Md Kamrul Hasan | (参考訳) DFUは糖尿病の重篤な合併症であり、適切に治療しなければ下肢の切断につながる可能性がある。
2021年の糖尿病性足潰瘍のグランドチャレンジに触発されて、研究者たちは感染、虚血、これらの状態の両方を含むdfuの自動多種分類を考案した。
しかし、分類精度はまだ不十分であるため、依然として課題である。
本稿では,異なる画像強調手法を用いたマルチラベルCNN方式のVenn Diagramによる解釈を提案し,DFU分類の改善を図る。
いずれのクラスも感染と虚血の同時発生と解釈できるため,感染の欠如と虚血の欠如はクラス傷の欠如と解釈できるため,4つのクラスを2つに減らすことを提案する。
これら2つのクラスから4つのクラス全てを解釈するために、分類器に新しいVenn Diagram表現ブロックを導入する。
モデルをより弾力性のあるものにするために,色やシャープさの強化により,DFU画像の知覚品質,特にぼやけや不整合DFU画像の画質を向上させることを提案する。
また、CNNモデル一般化性能を改善するために、微調整最適化手法、適応的シャープネス認識最小化を用いる。
提案手法は,5,734枚の画像を含むDFUC2021のテストデータセットを用いて評価し,DFUC2021の上位3点と比較した。
提案手法は, 既存の手法よりも優れており, マクロ平均値f1, リコールスコア0.6592, 0.6593, 0.6652をそれぞれ上回っており, さらに, アブレーション研究および画質測定を行い, 提案手法をさらに解釈する。
本手法は, 撮影画像の不整合に対処し, より堅牢な遠隔DFU創傷分類に利用できるため, DFU患者に有用である。 DFU is a severe complication of diabetes that can lead to amputation of the lower limb if not treated properly. Inspired by the 2021 Diabetic Foot Ulcer Grand Challenge, researchers designed automated multi-class classification of DFU, including infection, ischaemia, both of these conditions, and none of these conditions. However, it remains a challenge as classification accuracy is still not satisfactory. This paper proposes a Venn Diagram interpretation of multi-label CNN-based method, utilizing different image enhancement strategies, to improve the multi-class DFU classification. We propose to reduce the four classes into two since both class wounds can be interpreted as the simultaneous occurrence of infection and ischaemia and none class wounds as the absence of infection and ischaemia. We introduce a novel Venn Diagram representation block in the classifier to interpret all four classes from these two classes. To make our model more resilient, we propose enhancing the perceptual quality of DFU images, particularly blurry or inconsistently lit DFU images, by performing color and sharpness enhancements on them. We also employ a fine-tuned optimization technique, adaptive sharpness aware minimization, to improve the CNN model generalization performance. The proposed method is evaluated on the test dataset of DFUC2021, containing 5,734 images and the results are compared with the top-3 winning entries of DFUC2021. Our proposed approach outperforms these existing approaches and achieves Macro-Average F1, Recall and Precision scores of 0.6592, 0.6593, and 0.6652, respectively.Additionally, We perform ablation studies and image quality measurements to further interpret our proposed method. This proposed method will benefit patients with DFUs since it tackles the inconsistencies in captured images and can be employed for a more robust remote DFU wound classification. | 翻訳日:2023-05-09 19:59:37 公開日:2023-05-05 |
# 非アベリアトポロジカル秩序の創出とトラップイオンプロセッサ上の異性体 Creation of Non-Abelian Topological Order and Anyons on a Trapped-Ion Processor ( http://arxiv.org/abs/2305.03766v1 ) ライセンス: Link先を確認 | Mohsin Iqbal, Nathanan Tantivasadakarn, Ruben Verresen, Sara L. Campbell, Joan M. Dreiling, Caroline Figgatt, John P. Gaebler, Jacob Johansen, Michael Mills, Steven A. Moses, Juan M. Pino, Anthony Ransford, Mary Rowe, Peter Siegfried, Russell P. Stutz, Michael Foss-Feig, Ashvin Vishwanath, and Henrik Dreyer | (参考訳) 非可換位相次数 (non-abelian topological order, to) は、それらが交換される順序を記憶できる準粒子を含む、顕著な性質を持つ物質の対流状態である。
これらの正準励起は、フォールトトレラント量子コンピュータのブロックを構築することを約束している。
しかし、多くの努力にもかかわらず、非アベリアTOとその励起は、アベリアTOのより単純な準粒子や欠陥とは異なり、解明され続けている。
本研究では,非可換環を初めて非あいまいに実現し,そのアノンの制御を実証する。
QuantinuumのH2トラップイオン量子プロセッサ上の適応回路を用いて、27量子ビットのカゴメ格子上にD_4$TOの基底状態波動関数を生成し、サイト当たりの忠実度は9,8.4 %$を超える。
時空におけるボローム環に沿ったエノンの生成と移動により、エノン干渉計は本質的に非アベリアのブレイディング過程を検出する。
さらに、トーラスの周りの非アベリオンをトンネルすると、22の基底状態がすべて生成され、1つのエノンが励起状態となる。
この研究は非可換の直観に反する性質を示し、量子デバイスでの研究を可能にする。 Non-Abelian topological order (TO) is a coveted state of matter with remarkable properties, including quasiparticles that can remember the sequence in which they are exchanged. These anyonic excitations are promising building blocks of fault-tolerant quantum computers. However, despite extensive efforts, non-Abelian TO and its excitations have remained elusive, unlike the simpler quasiparticles or defects in Abelian TO. In this work, we present the first unambiguous realization of non-Abelian TO and demonstrate control of its anyons. Using an adaptive circuit on Quantinuum's H2 trapped-ion quantum processor, we create the ground state wavefunction of $D_4$ TO on a kagome lattice of 27 qubits, with fidelity per site exceeding $98.4\%$. By creating and moving anyons along Borromean rings in spacetime, anyon interferometry detects an intrinsically non-Abelian braiding process. Furthermore, tunneling non-Abelions around a torus creates all 22 ground states, as well as an excited state with a single anyon -- a peculiar feature of non-Abelian TO. This work illustrates the counterintuitive nature of non-Abelions and enables their study in quantum devices. | 翻訳日:2023-05-09 19:42:48 公開日:2023-05-05 |
# 銀河系における弱教師付き異常検出 Weakly-Supervised Anomaly Detection in the Milky Way ( http://arxiv.org/abs/2305.03761v1 ) ライセンス: Link先を確認 | Mariel Pettee, Sowmya Thanvantri, Benjamin Nachman, David Shih, Matthew R. Buckley, Jack H. Collins | (参考訳) 大規模な天体物理学データセットは、従来の検索で見過ごされる可能性のある領域を識別する新しい機械学習テクニックの機会を提供する。
この目的のために、gaia衛星が観測した10億以上の天の川銀河内の冷たい恒星流を識別するために、弱い教師付き異常検出法であるラベルなし分類(cwola)を用いる。
CWoLaはラベル付きストリームや天体物理学の原理の知識を使わずに動作する。
その代わり、信号と背景サンプルの比率が不明な混合サンプルを区別するために分類器を訓練する。
この計算に軽量な戦略は、データ内のシミュレーションストリームと既知のストリームgd-1の両方を検出できる。
もともと高エネルギーコライダー物理学のために設計されたこの手法は、天体物理学だけでなく、局所的な異常を識別することに関心のある他の領域にも適用可能である。 Large-scale astrophysics datasets present an opportunity for new machine learning techniques to identify regions of interest that might otherwise be overlooked by traditional searches. To this end, we use Classification Without Labels (CWoLa), a weakly-supervised anomaly detection method, to identify cold stellar streams within the more than one billion Milky Way stars observed by the Gaia satellite. CWoLa operates without the use of labeled streams or knowledge of astrophysical principles. Instead, we train a classifier to distinguish between mixed samples for which the proportions of signal and background samples are unknown. This computationally lightweight strategy is able to detect both simulated streams and the known stream GD-1 in data. Originally designed for high-energy collider physics, this technique may have broad applicability within astrophysics as well as other domains interested in identifying localized anomalies. | 翻訳日:2023-05-09 19:42:17 公開日:2023-05-05 |
# 絡み合い量子ネットワークにおけるノイズの影響 Influence of noise in entanglement-based quantum networks ( http://arxiv.org/abs/2305.03759v1 ) ライセンス: Link先を確認 | Maria Flors Mor-Ruiz and Wolfgang D\"ur | (参考訳) 我々は,マルチパーティショニングされたリソース状態がノード間で分散保存され,要求に応じて局所的に操作され,所望のターゲット構成が確立されるエンタングルメントベースの量子ネットワークを考える。
リクエストからの生成プロセスの分離により、リソースの事前準備が可能になり、ネットワーク遅延が減少する。
また、基礎となるネットワーク幾何学とは無関係な絡み合いトポロジーの最適化も可能である。
我々は、任意の当事者間でベルペアまたはGHZ状態を確立することに集中する。
この過程における雑音の影響について検討し, 状態準備, 記憶, 測定における不完全性について考察する。
線形鎖,木,多次元矩形クラスタに対応する異なる資源状態と,二成分あるいは三成分の絡み合った状態を用いた集中的トポロジを比較した。
本研究では,最近確立した効率的手法である雑音安定化器形式を用いて対象状態の忠実度を算出し,それらのクラスにおける最適資源状態の同定を行う。
これにより、数百万のノードを含む大規模なネットワークを処理できます。
大規模ネットワークでは,高次元クラスタ状態が好適であり,目標状態の忠実度が著しく高いことが判明した。 We consider entanglement-based quantum networks, where multipartite entangled resource states are distributed and stored among the nodes and locally manipulated upon request to establish the desired target configuration. The separation of the generation process from the requests enables a pre-preparation of resources, and hence a reduced network latency. It also allows for an optimization of the entanglement topology, which is independent of the underlying network geometry. We concentrate on establishing Bell pairs or tripartite GHZ states between arbitrary parties. We study the influence of noise in this process, where we consider imperfections in state preparation, memories and measurements - all of which can be modeled by local depolarizing noise. We compare different resource states corresponding to linear chains, trees or multi-dimensional rectangular clusters, as well as centralized topologies using bipartite or tripartite entangled states. We compute the fidelity of the target states using a recently established efficient method, the noisy stabilizer formalism and identify the best resource states within these classes. This allows us to treat networks of large size containing millions of nodes. We find that in large networks, high-dimensional cluster states are favorable and lead to a significantly higher target state fidelity. | 翻訳日:2023-05-09 19:42:01 公開日:2023-05-05 |
# 有限データによる量子相関の活性化の証明 Certifying activation of quantum correlations with finite data ( http://arxiv.org/abs/2305.03748v1 ) ライセンス: Link先を確認 | Jonathan Steinberg, H. Chau Nguyen and Matthias Kleinmann | (参考訳) 量子論は、絡み合い、ステアビリティ、ベル非局所性など、異なる種類の相関を許容する。
特定のクラス内での量子状態の生成とその後の相互変換の実験的実証が行われたが、統計的意義に関する厳密な記述は得られていない。
この背景には、測定データから適切な信頼領域を導出する方法の欠如と、信頼領域内の各状態の量子相関を分類する効率的な手法の欠如がある。
本研究では,これらの問題にどのように対処できるかを示す。
具体的には、高オクタヘドロンの形で信頼度ポリトープを導入し、量子状態が局所的な隠れ状態モデルを認めているかどうかを計算的に効率よく検証する方法を提供する。
本手法は,局所フィルタリングによる量子相関の活性化,特にベル非局所性と量子ステアビリティの解析に利用できることを示す。 Quantum theory allows for different classes of correlations, such as entanglement, steerability or Bell-nonlocality. Experimental demonstrations of the preparation of quantum states within specific classes and their subsequent interconversion have been carried out; however, rigorous statements on the statistical significance are not available. Behind this are two difficulties: the lack of a method to derive a suitable confidence region from the measured data and an efficient technique to classify the quantum correlations for every state in the confidence region. In this work, we show how both of these problems can be addressed. Specifically, we introduce a confidence polytope in the form of a hyperoctahedron and provide a computationally efficient method to verify whether a quantum state admits a local hidden state model, thus being unsteerable and, consequently, Bell-local. We illustrate how our methods can be used to analyse the activation of quantum correlations by local filtering, specifically for Bell-nonlocality and quantum steerability. | 翻訳日:2023-05-09 19:41:41 公開日:2023-05-05 |
# 最小三角形シナリオにおける量子後非局所性 Post-quantum nonlocality in the minimal triangle scenario ( http://arxiv.org/abs/2305.03745v1 ) ライセンス: Link先を確認 | Alejandro Pozas-Kerstjens, Antoine Girardin, Tam\'as Kriv\'achy, Armin Tavakoli, Nicolas Gisin | (参考訳) 入力出力とバイナリ出力が存在しない場合の三角形シナリオにおいて,ネットワークの非局所性について検討する。
明示的な例を通して、この最小のシナリオは3つのソースの無信号化と独立性に両立する非局所相関をサポートするが、独立な量子または古典的ソースに基づく実現ではないことを証明している。
この非局所性は騒音に強い。
さらに、極小三角形のシナリオでは、ポープスク・ローリッヒボックスに相当するものを特定する。 We investigate network nonlocality in the triangle scenario when all three parties have no input and binary outputs. Through an explicit example, we prove that this minimal scenario supports nonlocal correlations compatible with no-signaling and independence of the three sources, but not with realisations based on independent quantum or classical sources. This nonlocality is robust to noise. Moreover, we identify the equivalent to a Popescu-Rohrlich box in the minimal triangle scenario. | 翻訳日:2023-05-09 19:41:25 公開日:2023-05-05 |
# 学習センチネル-2 データ駆動型同化・予測のための反射率ダイナミクス Learning Sentinel-2 reflectance dynamics for data-driven assimilation and forecasting ( http://arxiv.org/abs/2305.03743v1 ) ライセンス: Link先を確認 | Anthony Frion, Lucas Drumetz, Guillaume Tochon, Mauro Dalla Mura, Abdeldjalil A\"issa El Bey | (参考訳) ここ数年、欧州コペルニクス計画(英語版)などを通じて、地球の表面を覆う大量の衛星マルチスペクトルおよびハイパースペクトル画像が科学的目的のために公開されている。
同時に、自己教師付き学習(ssl)手法の開発は、リモートセンシングコミュニティに大きな関心を呼び起こし、ラベルのないデータから潜在表現を学習することで、補間、予測、混合など、注釈付き例の少ない下流タスクの処理を可能にした。
このラインに続いて、koopman演算子理論に触発されたディープラーニングモデルを訓練し、教師なしの方法で長期的な反射ダイナミクスをモデル化する。
この訓練されたモデルは、微分可能であり、直接的にデータ同化の先行として使用できることを示す。
当社のデータセットはsentinel-2 multispectral image time seriesで構成され、いくつかのレベルの処理で公開されています。 Over the last few years, massive amounts of satellite multispectral and hyperspectral images covering the Earth's surface have been made publicly available for scientific purpose, for example through the European Copernicus project. Simultaneously, the development of self-supervised learning (SSL) methods has sparked great interest in the remote sensing community, enabling to learn latent representations from unlabeled data to help treating downstream tasks for which there is few annotated examples, such as interpolation, forecasting or unmixing. Following this line, we train a deep learning model inspired from the Koopman operator theory to model long-term reflectance dynamics in an unsupervised way. We show that this trained model, being differentiable, can be used as a prior for data assimilation in a straightforward way. Our datasets, which are composed of Sentinel-2 multispectral image time series, are publicly released with several levels of treatment. | 翻訳日:2023-05-09 19:41:15 公開日:2023-05-05 |
# 微分可能シンボリックプログラミングによる言語モデルの論理的推論の改善 Improved Logical Reasoning of Language Models via Differentiable Symbolic Programming ( http://arxiv.org/abs/2305.03742v1 ) ライセンス: Link先を確認 | Hanlin Zhang, Jiani Huang, Ziyang Li, Mayur Naik, Eric Xing | (参考訳) 事前訓練された大規模言語モデル(LM)は、スケールと構成性の進歩にもかかわらず、論理的推論を確実に行うのに苦労する。
本研究では,この課題を記号プログラミングのレンズを通して解決する。
本稿では,事前学習されたlmsが事実知識の知覚を制御できる微分可能な記号推論フレームワークdsr-lmを提案する。
手作りの論理規則に依存する作業とは対照的に、我々の微分可能な記号推論フレームワークは、重み付けされた規則を効率よく学習し、意味的損失を適用してLMをさらに改善する。
DSR-LMはスケーラブルで解釈可能で、事前知識の容易な統合を可能にし、より広範な記号プログラミングをサポートし、論理的な結論をしっかりと導き出す。
実験の結果,dsr-lmは事前学習した言語モデルの論理推論能力を改善し,帰納的推論ベンチマークにおいて20%以上の精度向上が得られた。
さらに、DSR-LMは、配列長の体系的な変化に直面した場合に、様々な競争ベースラインより優れる。 Pre-trained large language models (LMs) struggle to perform logical reasoning reliably despite advances in scale and compositionality. In this work, we tackle this challenge through the lens of symbolic programming. We propose DSR-LM, a Differentiable Symbolic Reasoning framework where pre-trained LMs govern the perception of factual knowledge, and a symbolic module performs deductive reasoning. In contrast to works that rely on hand-crafted logic rules, our differentiable symbolic reasoning framework efficiently learns weighted rules and applies semantic loss to further improve LMs. DSR-LM is scalable, interpretable, and allows easy integration of prior knowledge, thereby supporting extensive symbolic programming to robustly derive a logical conclusion. The results of our experiments suggest that DSR-LM improves the logical reasoning abilities of pre-trained language models, resulting in a significant increase in accuracy of over 20% on deductive reasoning benchmarks. Furthermore, DSR-LM outperforms a variety of competitive baselines when faced with systematic changes in sequence length. | 翻訳日:2023-05-09 19:41:00 公開日:2023-05-05 |
# AmGCL:自己教師型コントラスト学習による属性不足グラフの特徴計算 AmGCL: Feature Imputation of Attribute Missing Graph via Self-supervised Contrastive Learning ( http://arxiv.org/abs/2305.03741v1 ) ライセンス: Link先を確認 | Xiaochuan Zhang, Mengran Li, Ye Wang, Haojun Fei | (参考訳) 属性グラフはマルチメディアアプリケーションではユビキタスであり,グラフ表現学習(GRL)は属性グラフデータの解析に成功している。
しかし、不完全グラフデータと欠落ノード属性はメディア知識発見に悪影響を及ぼす可能性がある。
属性欠落グラフを処理する既存のメソッドには、複雑な属性グラフ依存関係の取得に失敗したり、仮定が限定されている。
これらの課題に対処するため,属性グラフデータにおけるノード属性の欠落を処理するフレームワークであるAttribute missing Graph Contrastive Learning (AmGCL)を提案する。
AmGCLはディリクレのエネルギー最小化に基づくプリコーディングを利用して、欠落した属性をエンコードし、自己教師付きグラフ拡張コントラスト学習構造(GACLS)を用いて、エンコードされたデータから潜伏変数を学習する。
特に、amgclは構造分布エネルギー最小化に基づく特徴再構成を活用し、潜在表現相互情報に対するエビデンスの下限を最大化する。
複数の実世界のデータセットを用いた実験結果から, amgclは機能インプテーションとノード分類の両方において最先端の手法よりも優れており, 実世界の属性グラフ解析タスクにおいて提案手法の有効性が示された。 Attribute graphs are ubiquitous in multimedia applications, and graph representation learning (GRL) has been successful in analyzing attribute graph data. However, incomplete graph data and missing node attributes can have a negative impact on media knowledge discovery. Existing methods for handling attribute missing graph have limited assumptions or fail to capture complex attribute-graph dependencies. To address these challenges, we propose Attribute missing Graph Contrastive Learning (AmGCL), a framework for handling missing node attributes in attribute graph data. AmGCL leverages Dirichlet energy minimization-based feature precoding to encode in missing attributes and a self-supervised Graph Augmentation Contrastive Learning Structure (GACLS) to learn latent variables from the encoded-in data. Specifically, AmGCL utilizies feature reconstruction based on structure-attribute energy minimization while maximizes the lower bound of evidence for latent representation mutual information. Our experimental results on multiple real-world datasets demonstrate that AmGCL outperforms state-of-the-art methods in both feature imputation and node classification tasks, indicating the effectiveness of our proposed method in real-world attribute graph analysis tasks. | 翻訳日:2023-05-09 19:40:41 公開日:2023-05-05 |
# 文脈における判断:弱危険ラベルの存在下でのテレマティクスに基づく運転リスク予測フレームワーク Judge Me in Context: A Telematics-Based Driving Risk Prediction Framework in Presence of Weak Risk Labels ( http://arxiv.org/abs/2305.03740v1 ) ライセンス: Link先を確認 | Sobhan Moosavi and Rajiv Ramnath | (参考訳) 運転リスクの予測は、運転リスクを最小化し、安全性を高めるために過去数十年にわたって多くの研究の対象となっている。
リスク予測における人口統計情報の利用は、保険計画に応用する従来の解決策であるが、そのような粗い要因によって真の運転行動を把握することは困難である。
それゆえ、テレマティクスデータの利用は過去10年間で広く普及している。
既存の研究の多くは、テレマティクスデータに加えて人口統計情報を利用するが、我々の目標は、テレマティクスと文脈情報(例えば道路型)を最大限に活用して、現実世界のアプリケーションを用いたリスク予測フレームワークを構築することである。
私たちは、テレマティクスデータをさまざまな形式でコンテキスト化し、それを使用してリスク分類器を開発し、利用可能な弱いリスクラベル(例えば過去のトラフィック引用レコード)があると仮定します。
しかし、リスク分類器を構築する前に、弱いリスクラベルを増やすために、新しいデータ駆動プロセスを採用する。
米国の主要都市における実世界データに基づく大規模分析と結果から,提案手法の有用性が示された。 Driving risk prediction has been a topic of much research over the past few decades to minimize driving risk and increase safety. The use of demographic information in risk prediction is a traditional solution with applications in insurance planning, however, it is difficult to capture true driving behavior via such coarse-grained factors. Therefor, the use of telematics data has gained a widespread popularity over the past decade. While most of the existing studies leverage demographic information in addition to telematics data, our objective is to maximize the use of telematics as well as contextual information (e.g., road-type) to build a risk prediction framework with real-world applications. We contextualize telematics data in a variety of forms, and then use it to develop a risk classifier, assuming that there are some weak risk labels available (e.g., past traffic citation records). Before building a risk classifier though, we employ a novel data-driven process to augment weak risk labels. Extensive analysis and results based on real-world data from multiple major cities in the United States demonstrate usefulness of the proposed framework. | 翻訳日:2023-05-09 19:40:18 公開日:2023-05-05 |
# Intel Movidius VPUのニューラルネットワーク検索 Neural Architecture Search for Intel Movidius VPU ( http://arxiv.org/abs/2305.03739v1 ) ライセンス: Link先を確認 | Qian Xu, Victor Li and Crews Darren S | (参考訳) ハードウェア対応ニューラルアーキテクチャサーチ(NAS)技術は、与えられたハードウェアの品質と推論効率の両方を満たすためにモデル設計を自動化および高速化するために提案されている。
先行技術は、ハードウェア固有のネットワーク設計におけるNASの能力を示している。
このホワイトペーパーでは、nasの使用をさらにintel movidius vpu(vision processor units)に拡張します。
NASプロセスに組み込むハードウェアコストを決定するために,デバイスにプリコンパイルされたハードウェアコストと,デバイス固有のハードウェアコストモデルVPUNNを導入した。
VPUの分類タスクにおいてNASの助けを借りて、Mobilenet-v2-1.4で1.3x fps、Resnet50で2.2xの加速度を同じ精度で達成できる。
VPU上の超分解能タスクでは、EDSR3と比較して1.08xPSNRと6倍高いfpsを達成することができる。 Hardware-aware Neural Architecture Search (NAS) technologies have been proposed to automate and speed up model design to meet both quality and inference efficiency requirements on a given hardware. Prior arts have shown the capability of NAS on hardware specific network design. In this whitepaper, we further extend the use of NAS to Intel Movidius VPU (Vision Processor Units). To determine the hardware-cost to be incorporated into the NAS process, we introduced two methods: pre-collected hardware-cost on device and device-specific hardware-cost model VPUNN. With the help of NAS, for classification task on VPU, we can achieve 1.3x fps acceleration over Mobilenet-v2-1.4 and 2.2x acceleration over Resnet50 with the same accuracy score. For super resolution task on VPU, we can achieve 1.08x PSNR and 6x higher fps compared with EDSR3. | 翻訳日:2023-05-09 19:39:58 公開日:2023-05-05 |
# 材料情報学:アルゴリズム設計規則 Materials Informatics: An Algorithmic Design Rule ( http://arxiv.org/abs/2305.03797v1 ) ライセンス: Link先を確認 | Bhupesh Bishnoi | (参考訳) 材料情報学は、従来の経験的アプローチ、理論科学、計算研究に次いで、材料科学研究において「第4のパラダイム」である。
材料情報学には2つの必須成分がある:フィンガープリント材料と統計推論と学習の理論である。
有機半導体のエニグマを材料情報化アプローチにより研究した。
多様なニューラルネットワークトポロジ、論理公理、情報科学の推論を応用し、半導体産業のための新しい有機半導体発見と材料科学コミュニティのための知識抽出のためのデータ駆動手法を開発した。
我々は、材料情報データセットのためのニューラルネットワーク設計トポロジの様々なアルゴリズムをレビューし、対応させた。 Materials informatics, data-enabled investigation, is a "fourth paradigm" in materials science research after the conventional empirical approach, theoretical science, and computational research. Materials informatics has two essential ingredients: fingerprinting materials proprieties and the theory of statistical inference and learning. We have researched the organic semiconductor's enigmas through the materials informatics approach. By applying diverse neural network topologies, logical axiom, and inferencing information science, we have developed data-driven procedures for novel organic semiconductor discovery for the semiconductor industry and knowledge extraction for the materials science community. We have reviewed and corresponded with various algorithms for the neural network design topology for the materials informatics dataset. | 翻訳日:2023-05-09 19:34:12 公開日:2023-05-05 |
# 正規言語推論と自然言語長補間を可能にするトランスフォーマーワーキングメモリ Transformer Working Memory Enables Regular Language Reasoning and Natural Language Length Extrapolation ( http://arxiv.org/abs/2305.03796v1 ) ライセンス: Link先を確認 | Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky and Peter J. Ramadge | (参考訳) リカレントモデルとは異なり、従来の知恵ではトランスフォーマーは正規言語を完全にモデル化することはできない。
ワーキングメモリの概念に触発されて、RegularGPTという新しいトランスフォーマー変種を提案する。
ウェイトシェア、アダプティブディープス、スライディングディレイテッド・アテンションの新たな組み合わせにより、RegularGPTは、深さ次元に沿ってワーキングメモリを構築し、PARITYのような正規言語を効率的かつうまくモデリングできるようにする。
自然言語長補間作業におけるRegularGPTのさらなるテストを行い、長さ補間作業に必要と思われる局所的な窓の注意効果を再検討した。 Unlike recurrent models, conventional wisdom has it that Transformers cannot perfectly model regular languages. Inspired by the notion of working memory, we propose a new Transformer variant named RegularGPT. With its novel combination of Weight-Sharing, Adaptive-Depth, and Sliding-Dilated-Attention, RegularGPT constructs working memory along the depth dimension, thereby enabling efficient and successful modeling of regular languages such as PARITY. We further test RegularGPT on the task of natural language length extrapolation and surprisingly find that it rediscovers the local windowed attention effect deemed necessary in prior work for length extrapolation. | 翻訳日:2023-05-09 19:34:01 公開日:2023-05-05 |
# 相互作用する1次元相互作用量子系 Commensurate and incommensurate 1D interacting quantum systems ( http://arxiv.org/abs/2305.03794v1 ) ライセンス: Link先を確認 | Andrea Di Carli, Christopher Parsonage, Arthur La Rooij, Lennart Koehn, Clemens Ulm, Callum W Duncan, Andrew J Daley, Elmar Haller, Stefan Kuhr | (参考訳) 我々は、量子ガス顕微鏡において動的に変化する微視光電位を用いて、光学格子内の相互作用するボソニック原子の共役および不協和1次元系の研究を行う。
このような非共振系は、原子輸送と圧縮性を示すドープ絶縁状態と類似している。
はじめに、2つの潜在的な障壁間に単位充填と固定原子数を持つ共用系を準備する。
我々は,原子数を維持しながら,利用可能な格子点の数を減少させるようなバリアの位置を動的に変化させることにより,不整合系を決定的に生成する。
本研究では, 粒子と穴の分布を格子充填関数として測定し, 相互作用強度を測定し, バイアスポテンシャルを適用して粒子移動度を調べる。
本研究は,光学格子実験における制御充填による低エントロピー状態の調製の基礎となる。 We use dynamically varying microscopic light potentials in a quantum-gas microscope to study commensurate and incommensurate 1D systems of interacting bosonic atoms in an optical lattice. Such incommensurate systems are analogous to doped insulating states that exhibit atom transport and compressibility. Initially, a commensurate system with unit filling and fixed atom number is prepared between two potential barriers. We deterministically create an incommensurate system by dynamically changing the position of the barriers such that the number of available lattice sites is reduced while retaining the atom number. Our commensurate and incommensurate systems are characterised by measuring the distribution of particles and holes as a function of the lattice filling, and interaction strength, and we probe the particle mobility by applying a bias potential. Our work provides the foundation for preparation of low-entropy states with controlled filling in optical lattice experiments. | 翻訳日:2023-05-09 19:33:47 公開日:2023-05-05 |
# タスクに依存しないオントロジーと単純なラベルを用いたゼロショットフレーム意味解析 Towards Zero-Shot Frame Semantic Parsing with Task Agnostic Ontologies and Simple Labels ( http://arxiv.org/abs/2305.03793v1 ) ライセンス: Link先を確認 | Danilo Ribeiro, Omid Abdar, Jack Goetz, Mike Ross, Annie Dong, Kenneth Forbus, Ahmed Mohamed | (参考訳) フレーム意味解析はタスク指向対話システムの重要な構成要素である。
現在のモデルは、ユーザの入力発話の意図とスロットをうまく識別するために、かなりの量のトレーニングデータに依存している。
このデータは高度に専門的なNLP専門知識を必要とするため、仮想アシスタント機能に新たなドメインを追加する上で大きな障壁となる。
本研究で提案するOpenFSPは,特定のNLP知識を必要とせずに生成可能な,少数の単純なラベルから新しいドメインを簡単に作成できるフレームワークである。
我々のアプローチは、新しいドメインを簡単にアノテーションできる小さな、しかし表現力のある、ドメインに依存しないスロットタイプを作ることに依存します。
このようなアノテーションを与えられた場合、文エンコーダに依存するマッチングアルゴリズムは、エンドユーザによって定義されたドメインのインテントとスロットを予測する。
TopV2データセットの大規模な実験により、この単純なラベル設定では、我々のモデルは強いベースラインよりも優れています。 Frame semantic parsing is an important component of task-oriented dialogue systems. Current models rely on a significant amount training data to successfully identify the intent and slots in the user's input utterance. This creates a significant barrier for adding new domains to virtual assistant capabilities, as creation of this data requires highly specialized NLP expertise. In this work we propose OpenFSP, a framework that allows for easy creation of new domains from a handful of simple labels that can be generated without specific NLP knowledge. Our approach relies on creating a small, but expressive, set of domain agnostic slot types that enables easy annotation of new domains. Given such annotation, a matching algorithm relying on sentence encoders predicts the intent and slots for domains defined by end-users. Extensive experiments on the TopV2 dataset shows that our model outperforms strong baselines in this simple labels setting. | 翻訳日:2023-05-09 19:33:33 公開日:2023-05-05 |
# トルコのクリニカルドメインにおけるBERTの力のハーネス : 限られたデータシナリオに対する事前訓練アプローチ Harnessing the Power of BERT in the Turkish Clinical Domain: Pretraining Approaches for Limited Data Scenarios ( http://arxiv.org/abs/2305.03788v1 ) ライセンス: Link先を確認 | Hazal T\"urkmen, O\u{g}uz Dikenelli, Cenk Eraslan, Mehmet Cem \c{C}all{\i}, S\"uha S\"ureyya \"Ozbek | (参考訳) 近年,大規模言語モデル (LLM) の出現により, 自然言語処理 (NLP) の進歩が加速し, この分野における研究・開発に大きな革命をもたらした。
本研究は, 放射線学報告を含む多言語分類課題において, トルコ語臨床言語モデルの性能に及ぼす事前学習手法の影響を考察し, 限られた言語資源がもたらす課題に対処することに焦点を当てた。
また,臨床データを限定的に活用し,同時事前訓練のアプローチを初めて評価した。
我々はTurcRadBERT-task v1,TurkRadBERT-task v2,TurkRadBERT-sim v1,TurkRadBERT-sim v2の4つのモデルを開発した。
以上の結果から,トルコのBERTモデル (BERTurk) とTurkRadBERT-task v1 は,いずれも実質的な汎用ドメインコーパスからの知識を生かしたもので,総合的な性能が最も優れていることが示唆された。
task-adaptive pre-trainingアプローチはドメイン固有のパターンをキャプチャする可能性があるが、限定されたタスク固有のコーパスによって制限され、オーバーフィットの影響を受けやすい。
さらに,モデル性能向上のための事前学習におけるドメイン固有語彙の重要性を強調する。
最終的に、汎用知識とタスク固有の微調整の組み合わせは、様々なカテゴリで最適なパフォーマンスを達成するために不可欠である。
本研究は、効果的なトルコ語臨床言語モデルの開発に有用な知見を提供し、臨床領域内の他の低リソース言語に対する事前学習技術の今後の研究を導くことができる。 In recent years, major advancements in natural language processing (NLP) have been driven by the emergence of large language models (LLMs), which have significantly revolutionized research and development within the field. Building upon this progress, our study delves into the effects of various pre-training methodologies on Turkish clinical language models' performance in a multi-label classification task involving radiology reports, with a focus on addressing the challenges posed by limited language resources. Additionally, we evaluated the simultaneous pretraining approach by utilizing limited clinical task data for the first time. We developed four models, including TurkRadBERT-task v1, TurkRadBERT-task v2, TurkRadBERT-sim v1, and TurkRadBERT-sim v2. Our findings indicate that the general Turkish BERT model (BERTurk) and TurkRadBERT-task v1, both of which utilize knowledge from a substantial general-domain corpus, demonstrate the best overall performance. Although the task-adaptive pre-training approach has the potential to capture domain-specific patterns, it is constrained by the limited task-specific corpus and may be susceptible to overfitting. Furthermore, our results underscore the significance of domain-specific vocabulary during pre-training for enhancing model performance. Ultimately, we observe that the combination of general-domain knowledge and task-specific fine-tuning is essential for achieving optimal performance across a range of categories. This study offers valuable insights for developing effective Turkish clinical language models and can guide future research on pre-training techniques for other low-resource languages within the clinical domain. | 翻訳日:2023-05-09 19:33:20 公開日:2023-05-05 |
# 監視資本主義の旅 : コンピュータ倫理における哲学的視点による批判的分析 Navigating Surveillance Capitalism: A Critical Analysis through philosophical perspectives in Computer Ethics ( http://arxiv.org/abs/2305.03787v1 ) ライセンス: Link先を確認 | Angelica Sofia Valeriani | (参考訳) サーベイランス・キャピタリズム(英: Surveillance capitalism)とは、ターゲット広告などの収益化を目的とした大量のユーザーデータを収集・分析する概念である。
近年、GoogleやFacebookなどのテクノロジー企業がユーザーの個人情報を使ってパーソナライズされたコンテンツや広告を配信するなど、この現象はますます広まっている。
監視資本主義のもう一つの例は、国家安全保障のためのデータ収集と分析に軍事技術を使用することである。
この文脈では、監視資本主義は、顔認識やソーシャルメディア監視のような技術を使って、国家の安全保障に対する潜在的な脅威と考えられる個人やグループの情報を収集する。
この情報は軍事活動や意思決定に使用される。
本稿は,二つの異なる倫理的枠組みの下で提案された,監視資本主義現象を批判的に分析することを目的とする。
ユーティリティリタリズム(Utilitarianism)は、最も多くの人々にとって最大の幸福や喜びをもたらす能力に基づいて行動を決定する連続主義的倫理理論であり、個人の自律性、自由、尊厳の重要性を強調する非連続主義的倫理理論であるカンティアン・デオントロジーである。
一方、実用主義的な枠組みは、情報技術(it)と提供される機能がどのようにして、一見すると、多くの人々、幸福、娯楽、喜びにポジティブな認識を提供するかを啓蒙する。
一方、カンティアン・デオントロジーの枠組みは、主に個人の自由と自由意志の側面に焦点を当てている。
この話題は特に、サービス変更時のデータアクセス許可の譲歩や、監視資本主義による操作が生み出す影響の程度に関連している。 Surveillance capitalism is a concept that describes the practice of collecting and analyzing massive amounts of user data for the purpose of targeted advertising and other forms of monetization. The phenomenon has become increasingly prevalent in recent years, with tech companies like Google and Facebook using users' personal information to deliver personalized content and advertisements. Another example of surveillance capitalism is the use of military technology to collect and analyze data for national security purposes. In this context, surveillance capitalism involves the use of technologies like facial recognition and social media monitoring to gather information on individuals and groups deemed to be potential threats to national security. This information is then used to inform military operations and decision-making. This paper wants to analyze in a critical way the phenomenon of surveillance capitalism, proposed under two different ethical framework perspectives. Utilitarianism, a consequentialist ethical theory that judges actions based on their ability to bring about the greatest amount of happiness or pleasure for the greatest number of people, and Kantian deontology, a non-consequentialist ethical theory that emphasizes the importance of individual autonomy, freedom, and dignity. On one side, the utilitarian framework enlightens how Information Technology (IT) and the features provided offer, at first sight, all the positive perceptions to the majority of people, happiness, entertainment, and pleasure. On the other side, the Kantian deontology framework mostly focuses on the aspect of freedom and free will of the individual. This topic is particularly related to the concession of permissions to access data in change of services and the degree of influence that manipulation performed by surveillance capitalism can generate. | 翻訳日:2023-05-09 19:32:50 公開日:2023-05-05 |
# コンテクスト・バンディットのニューラル・エクスプロイジョンと探索 Neural Exploitation and Exploration of Contextual Bandits ( http://arxiv.org/abs/2305.03784v1 ) ライセンス: Link先を確認 | Yikun Ban, Yuchen Yan, Arindam Banerjee, Jingrui He | (参考訳) 本稿では,ニューラルネットワークを用いた多腕バンディットの活用と探索について検討する。
コンテキスト多武装の盗賊は、様々な用途で何十年も研究されてきた。
盗賊の搾取と探索のトレードオフを解決するために、エプシロン・グレーディ、トンプソン・サンプリング(TS)、アッパー・信頼境界(UCB)の3つの主要な技術がある。
近年の文献では、非線形報酬関数に適応する一連のニューラルバンディットアルゴリズムと、探索のためのTSやUCB戦略が提案されている。
本稿では,従来の手法と同様に探索に限定した大規模評価に基づく統計量を計算する代わりに,新しいニューラル・ベースの探索戦略である `ee-net,' を提案する。
報酬関数を学習するためにニューラルネットワーク(爆発ネットワーク)を使用するのに加えて、ee-netは別のニューラルネットワーク(爆発ネットワーク)を使用して、現在推定されている探索報酬に比べて潜在的な利益を適応的に学習する。
インスタンスベースの$\widetilde{\mathcal{o}}(\sqrt{t})$ regret upperbound for ee-netを提供し、ee-netが実際のデータセット上で関連する線形およびニューラルネットワークのコンテキスト的バンディットベースラインよりも優れていることを示す。 In this paper, we study utilizing neural networks for the exploitation and exploration of contextual multi-armed bandits. Contextual multi-armed bandits have been studied for decades with various applications. To solve the exploitation-exploration trade-off in bandits, there are three main techniques: epsilon-greedy, Thompson Sampling (TS), and Upper Confidence Bound (UCB). In recent literature, a series of neural bandit algorithms have been proposed to adapt to the non-linear reward function, combined with TS or UCB strategies for exploration. In this paper, instead of calculating a large-deviation based statistical bound for exploration like previous methods, we propose, ``EE-Net,'' a novel neural-based exploitation and exploration strategy. In addition to using a neural network (Exploitation network) to learn the reward function, EE-Net uses another neural network (Exploration network) to adaptively learn the potential gains compared to the currently estimated reward for exploration. We provide an instance-based $\widetilde{\mathcal{O}}(\sqrt{T})$ regret upper bound for EE-Net and show that EE-Net outperforms related linear and neural contextual bandit baselines on real-world datasets. | 翻訳日:2023-05-09 19:32:20 公開日:2023-05-05 |
# ポラリトン凝縮体における光駆動スピン偏差 Optically driven spin precession in polariton condensates ( http://arxiv.org/abs/2305.03782v1 ) ライセンス: Link先を確認 | Ivan Gnusov, Stepan Baryshev, Helgi Sigur{\dh}sson, Kirill Sitnik, Julian T\"opfer, Sergey Alyatkin and Pavlos G. Lagoudakis | (参考訳) 量子系における磁場または光学場によるスピンの自由度の外部駆動は、核磁気共鳴から量子コンピューティングにおけるコヒーレント状態制御まで、多くの応用を導いた。
スピノルポラリトン凝縮体はスピントロニクス応用のための柔軟なプラットフォームを提供しているが、強い粒子間相互作用はスピンコヒーレンスを制限する。
本稿では,空間的に回転する非対称エキシトン貯水池の周波数変調により非分極を解消し,ポラリトン凝縮液を積極的に補充する,マイクロキャビティポラリトン凝縮における全光駆動スピン前駆体を導入する。
我々は, 複合ポンピング源の凝縮, 周波数ドリフトのみに制限される, マクロなスピンコヒーレンス時間で複数のGHz駆動スピンプレセッションを実現する。
我々の観測は平均場モデリングによって支持され、核磁気共鳴効果の駆動拡散型量子流体類似性が証明される。 External driving of spinor degrees of freedom by magnetic or optical fields in quantum systems underpin many applications ranging from nuclear magnetic resonance to coherent state control in quantum computing. Although spinor polariton condensates are offering a flexible platform for spinoptronic applications, strong inter-particle interactions limit their spin coherence. Here, we introduce an all-optically driven spin precession in microcavity polariton condensates that eliminates depolarisation, through a radio frequency modulation of a spatially rotating, asymmetric exciton reservoir that both confines, and actively replenishes the polariton condensate. We realise several GHz driven spin precession with a macroscopic spin coherence time that is limited only by the extraneous to the condensate, frequency drift of the composite pumping sources. Our observations are supported by mean field modelling and evidence a driven-dissipative quantum fluidic analogue of the nuclear magnetic resonance effect. | 翻訳日:2023-05-09 19:31:55 公開日:2023-05-05 |
# 連立イベントの校正評価とボルドネス-校正 Calibration Assessment and Boldness-Recalibration for Binary Events ( http://arxiv.org/abs/2305.03780v1 ) ライセンス: Link先を確認 | Adeline P. Guthrie and Christopher T. Franck | (参考訳) 確率予測は、医学、経済学、画像分類、スポーツ分析、エンタテインメント、その他多くの分野における意思決定に不可欠である。
理想的には 確率予測は
(i)よく校正された。
(ii)正確で
(三)大胆、すなわち、イベントのベースレートから遠く離れていること。
これら3つの基準を満たす予測は、意思決定に役立ちます。
しかし、予測が過度に慎重である場合、すなわち非ボルドの場合、キャリブレーションのメトリクスが高いため、キャリブレーションと大胆さの間には基本的な緊張関係がある。
本研究の目的は,キャリブレーションを評価するための仮説テストとベイズモデル選択手法,および,必要なキャリブレーションのレベルに応じた予測を柔軟に実施できる大胆なキャリブレーション戦略を開発することである。
具体的には、ユーザが所望のキャリブレーションの後方確率を事前に指定し、この制約に従う予測を最大に具現化する。
シミュレーションにより本手法の性能を検証し,上で述べた各分野における実世界のケーススタディに適用することにより,適用範囲の広さを実証する。
キャリブレーション確率の非常に小さな緩和(例:0.99から0.95まで)は、しばしば実質的な予測(例:ホッケーの予測の範囲を.25-.75から.10-.90まで広げる)を具体化する。 Probability predictions are essential to inform decision making in medicine, economics, image classification, sports analytics, entertainment, and many other fields. Ideally, probability predictions are (i) well calibrated, (ii) accurate, and (iii) bold, i.e., far from the base rate of the event. Predictions that satisfy these three criteria are informative for decision making. However, there is a fundamental tension between calibration and boldness, since calibration metrics can be high when predictions are overly cautious, i.e., non-bold. The purpose of this work is to develop a hypothesis test and Bayesian model selection approach to assess calibration, and a strategy for boldness-recalibration that enables practitioners to responsibly embolden predictions subject to their required level of calibration. Specifically, we allow the user to pre-specify their desired posterior probability of calibration, then maximally embolden predictions subject to this constraint. We verify the performance of our procedures via simulation, then demonstrate the breadth of applicability by applying these methods to real world case studies in each of the fields mentioned above. We find that very slight relaxation of calibration probability (e.g., from 0.99 to 0.95) can often substantially embolden predictions (e.g., widening Hockey predictions' range from .25-.75 to .10-.90) | 翻訳日:2023-05-09 19:31:37 公開日:2023-05-05 |
# 物理インフォームド・ローカライズド・ラーニングによる対流拡散反応系 Physics-Informed Localized Learning for Advection-Diffusion-Reaction Systems ( http://arxiv.org/abs/2305.03774v1 ) ライセンス: Link先を確認 | Surya T. Sathujoda and Soham M. Sheth | (参考訳) 地熱や二酸化炭素の捕獲・隔離といった新しいエネルギーソリューションの世界的な推進は、現在の地下流体シミュレーターに新たな需要を押し付けている。
短時間で大量の貯水池状態を同時にシミュレートできるという要求は、サロゲートモデリングに機械学習技術を適用する機会の扉を開いた。
本稿では,E2C(Embed-to-Control)モデルとEmbed-to-Control and Observed(E2CO)モデルを拡張し,Advection-Diffusion Reaction Systemにおける大域的状態変数の局所表現を学習する,新しい物理インフォームドおよび境界条件認識型局所学習法を提案する。
本研究では, 貯水池シミュレーションデータに基づいてトレーニングしたモデルを用いて, システムの将来状態の予測を, 利用可能な情報のごく一部で行うことができ, また, 元のE2CモデルやE2COモデルと比較して, トレーニング時間を大幅に短縮できることを示す。 The global push for new energy solutions, such as Geothermal, and Carbon Capture and Sequestration initiatives has thrust new demands upon the current state-of the-art subsurface fluid simulators. The requirement to be able to simulate a large order of reservoir states simultaneously in a short period of time has opened the door of opportunity for the application of machine learning techniques for surrogate modelling. We propose a novel physics-informed and boundary conditions-aware Localized Learning method which extends the Embed-to-Control (E2C) and Embed-to-Control and Observed (E2CO) models to learn local representations of global state variables in an Advection-Diffusion Reaction system. We show that our model trained on reservoir simulation data is able to predict future states of the system, given a set of controls, to a great deal of accuracy with only a fraction of the available information, while also reducing training times significantly compared to the original E2C and E2CO models. | 翻訳日:2023-05-09 19:31:11 公開日:2023-05-05 |
# 不確実性を考慮した因果モデルによる画像ベース精密医療の改善 Improving Image-Based Precision Medicine with Uncertainty-Aware Causal Models ( http://arxiv.org/abs/2305.03829v1 ) ライセンス: Link先を確認 | Joshua Durso-Finley, Jean-Pierre Falet, Raghav Mehta, Douglas L. Arnold, Nick Pawlowski, Tal Arbel | (参考訳) 画像に基づく精密医療は、個人の独自の画像特徴に基づいて治療決定をパーソナライズし、臨床結果を改善することを目的としている。
治療レコメンデーションの一部として不確実性推定を統合する機械学習フレームワークは、より安全で信頼性が高い。
しかし,不確実性推定手法や検証基準を精度医学に適用する作業はほとんど行われていない。
本稿では,ベイズ深層学習を用いて,いくつかの治療における実結果と偽結果の後方分布を推定する。
これにより、各治療オプションに対する不確実性や、2つの治療法間の個々の治療効果(ite)の推定が可能になる。
このモデルを用いて,多発性硬化症患者のmr脳画像の大規模多施設データセットにおけるt2病変数を予測し,ランダム化比較試験中に複数の治療を行った。
我々は,不確実性推定と事実誤差の相関性を評価し,実測結果の欠如を踏まえて,ITT予測の不確実性がITT誤差の境界とどのように関係しているかを示す。
最後に、不確実性に関する知識が、患者個人および臨床試験結果を改善するために臨床意思決定をどう変えるかを示す。 Image-based precision medicine aims to personalize treatment decisions based on an individual's unique imaging features so as to improve their clinical outcome. Machine learning frameworks that integrate uncertainty estimation as part of their treatment recommendations would be safer and more reliable. However, little work has been done in adapting uncertainty estimation techniques and validation metrics for precision medicine. In this paper, we use Bayesian deep learning for estimating the posterior distribution over factual and counterfactual outcomes on several treatments. This allows for estimating the uncertainty for each treatment option and for the individual treatment effects (ITE) between any two treatments. We train and evaluate this model to predict future new and enlarging T2 lesion counts on a large, multi-center dataset of MR brain images of patients with multiple sclerosis, exposed to several treatments during randomized controlled trials. We evaluate the correlation of the uncertainty estimate with the factual error, and, given the lack of ground truth counterfactual outcomes, demonstrate how uncertainty for the ITE prediction relates to bounds on the ITE error. Lastly, we demonstrate how knowledge of uncertainty could modify clinical decision-making to improve individual patient and clinical trial outcomes. | 翻訳日:2023-05-09 19:24:08 公開日:2023-05-05 |
# レーストラック追尾型イオン量子プロセッサ A Race Track Trapped-Ion Quantum Processor ( http://arxiv.org/abs/2305.03828v1 ) ライセンス: Link先を確認 | S. A. Moses, C. H. Baldwin, M. S. Allman, R. Ancona, L. Ascarrunz, C. Barnes, J. Bartolotta, B. Bjork, P. Blanchard, M. Bohn, J. G. Bohnet, N. C. Brown, N. Q. Burdick, W. C. Burton, S. L. Campbell, J. P. Campora III, C. Carron, J. Chambers, J. W. Chen, Y. H. Chen, A. Chernoguzov, E. Chertkov, J. Colina, M. DeCross, J. M. Dreiling, C. T. Ertsgaard, J. Esposito, B. Estey, M. Fabrikant, C. Figgatt, C. Foltz, M. Foss-Feig, D. Francois, J. P. Gaebler, T. M. Gatterman, C. N. Gilbreth, J. Giles, E. Glynn, A. Hall, A. M. Hankin, A. Hansen, D. Hayes, B. Higashi, I. M. Hoffman, B. Horning, J. J. Hout, R. Jacobs, J. Johansen, T. Klein, P. Lauria, P. Lee, D. Liefer, S. T. Lu, D. Lucchetti, A. Malm, M. Matheny, B. Mathewson, K. Mayer, D. B. Miller, M. Mills, B. Neyenhuis, L. Nugent, S. Olson, J. Parks, G. N. Price, Z. Price, M. Pugh, A. Ransford, A. P. Reed, C. Roman, M. Rowe, C. Ryan-Anderson, S. Sanders, J. Sedlacek, P. Shevchuk, P. Siegfried, T. Skripka, B. Spaun, R. T. Sprenkle, R. P. Stutz, M. Swallows, R. I. Tobey, A. Tran, T. Tran, E. Vogt, C. Volin, J. Walker, A. M. Zolot, and J. M. Pino | (参考訳) 我々は、周期的な境界条件を持つ線形トラップに基づいて、新しい量子電荷結合デバイス(QCCD)を記述し、ベンチマークする。
新しいシステムは、将来のスケーラビリティに不可欠ないくつかの技術、例えば、電極放送、多層rfルーティング、磁気光学トラップ(mot)の負荷を保ちつつ、場合によっては以前のqccdシステムのゲートフィダリティを保ちながら、うまく組み込んだ。
システムは当初32量子ビットで動作するが、将来のアップグレードによりさらに拡張される。
我々は,平均状態準備および測定誤差1.6(1)$\times 10^{-3}$,平均単一ビットゲート不完全性2.5(3)\times 10^{-5}$,平均2ビットゲート不完全性1.84(5)\times 10^{-3}$を含むプリミティブ演算の性能をベンチマークした。
量子プロセッサのシステムレベルの性能は、ミラーベンチマーク、線形クロスエントロピーベンチマーク、$\mathrm{qv}=2^{16}$の量子体積測定、およびghz状態で32量子ビットの絡み合いの作成によって評価される。
また, ハミルトンシミュレーション, qaoa, 繰り返しコードの誤り訂正, 量子ビット再利用を用いた動力学シミュレーションなど, アプリケーションベンチマークもテストした。
また、より多くのキュービットと機能の追加を目的とした新システムの今後のアップグレードについても論じる。 We describe and benchmark a new quantum charge-coupled device (QCCD) trapped-ion quantum computer based on a linear trap with periodic boundary conditions, which resembles a race track. The new system successfully incorporates several technologies crucial to future scalability, including electrode broadcasting, multi-layer RF routing, and magneto-optical trap (MOT) loading, while maintaining, and in some cases exceeding, the gate fidelities of previous QCCD systems. The system is initially operated with 32 qubits, but future upgrades will allow for more. We benchmark the performance of primitive operations, including an average state preparation and measurement error of 1.6(1)$\times 10^{-3}$, an average single-qubit gate infidelity of $2.5(3)\times 10^{-5}$, and an average two-qubit gate infidelity of $1.84(5)\times 10^{-3}$. The system-level performance of the quantum processor is assessed with mirror benchmarking, linear cross-entropy benchmarking, a quantum volume measurement of $\mathrm{QV}=2^{16}$, and the creation of 32-qubit entanglement in a GHZ state. We also tested application benchmarks including Hamiltonian simulation, QAOA, error correction on a repetition code, and dynamics simulations using qubit reuse. We also discuss future upgrades to the new system aimed at adding more qubits and capabilities. | 翻訳日:2023-05-09 19:23:45 公開日:2023-05-05 |
# 遠隔教師データを用いた統合抽出のための不確実性を考慮したブートストラップ学習 Uncertainty-Aware Bootstrap Learning for Joint Extraction on Distantly-Supervised Data ( http://arxiv.org/abs/2305.03827v1 ) ライセンス: Link先を確認 | Yufei Li, Xiao Yu, Yanchi Liu, Haifeng Chen, Cong Liu | (参考訳) エンティティペアとその関係を共同で抽出することは、あいまいまたは騒がしいラベルを持つ遠方の教師付きデータを扱う際に困難である。
そこで本研究では,不確実性が高まるほど,モデルの信頼感は根拠の真理と矛盾する可能性が高まるという直観に基づく,不確実性認識型ブートストラップ学習を提案する。
具体的には、まずインスタンスレベルのデータ不確実性を調査して、最初の高信頼な例を作成します。
このようなサブセットは、ノイズの多いインスタンスをフィルタリングし、初期の段階でモデルを高速に収束させるのに役立つ。
ブートストラップ学習中に,ノイズラベルによるモデル間の不確実性を軽減するための正規化として,自己センシングを提案する。
さらに,新たな信頼性トレーニングインスタンスの選択と構築に使用される内部モデルパラメトリック不確かさを推定するために,共同タグ付け確率の確率分散を定義する。
2つの大きなデータセットの実験結果から、我々のアプローチは既存の強いベースラインや関連する手法よりも優れていることが判明した。 Jointly extracting entity pairs and their relations is challenging when working on distantly-supervised data with ambiguous or noisy labels. To mitigate such impact, we propose uncertainty-aware bootstrap learning, which is motivated by the intuition that the higher uncertainty of an instance, the more likely the model confidence is inconsistent with the ground truths. Specifically, we first explore instance-level data uncertainty to create an initial high-confident examples. Such subset serves as filtering noisy instances and facilitating the model to converge fast at the early stage. During bootstrap learning, we propose self-ensembling as a regularizer to alleviate inter-model uncertainty produced by noisy labels. We further define probability variance of joint tagging probabilities to estimate inner-model parametric uncertainty, which is used to select and build up new reliable training instances for the next iteration. Experimental results on two large datasets reveal that our approach outperforms existing strong baselines and related methods. | 翻訳日:2023-05-09 19:23:18 公開日:2023-05-05 |
# 微分量子関数近似を用いた雑音・費用ハイブリッドモデルの非拘束ベイズ最適化 No-Regret Constrained Bayesian Optimization of Noisy and Expensive Hybrid Models using Differentiable Quantile Function Approximations ( http://arxiv.org/abs/2305.03824v1 ) ライセンス: Link先を確認 | Congwen Lu and Joel A. Paulson | (参考訳) 本稿では, 実世界科学, 工学, 製造, 制御などにおいてしばしば発生する, ベクトル値出力とノイズ観測を伴う高価なブラックボックス関数を入力とする複合関数(ハイブリッドモデル)の効率的制約付き大域最適化の問題について検討する。
目的関数と制約関数の合成構造を直接利用してサンプリング効率を大幅に向上させる新しいアルゴリズムであるCUQB(Constrained Upper Quantile Bound)を提案する。
CUQBは概念的には単純であり、従来の手法の制約近似を避ける。
CUQBの取得関数はクローズドな形では利用できないが,より効率的に最大化できる新しい微分確率近似を提案する。
我々はさらに、累積的後悔と制約違反の限界を導き出す。
これらの境界は、いくつかの正則性仮定の下での反復数に依存するので、元の制約された問題の最適解に対する収束率の明示的な境界を確立する。
既存の手法とは対照的に、CUQBはさらに単純な不変性検出スキームを取り入れており、元の問題が実現できない場合に(高い確率で)有限個の反復でトリガを証明している。
環境モデルキャリブレーションやリアルタイム原子炉最適化を含むいくつかの試験問題に関する数値実験により、CUQBは制約のあるケースと制約のないケースの両方において従来のベイズ最適化よりも著しく優れていることが示された。
さらに、複合構造を利用する他の最先端手法と比較して、CUQBは競合的な経験的性能を実現し、理論的な保証も大幅に改善した。 This paper investigates the problem of efficient constrained global optimization of composite functions (hybrid models) whose input is an expensive black-box function with vector-valued outputs and noisy observations, which often arises in real-world science, engineering, manufacturing, and control applications. We propose a novel algorithm, Constrained Upper Quantile Bound (CUQB), to solve such problems that directly exploits the composite structure of the objective and constraint functions that we show leads substantially improved sampling efficiency. CUQB is conceptually simple and avoids the constraint approximations used by previous methods. Although the CUQB acquisition function is not available in closed form, we propose a novel differentiable stochastic approximation that enables it to be efficiently maximized. We further derive bounds on the cumulative regret and constraint violation. Since these bounds depend sublinearly on the number of iterations under some regularity assumptions, we establish explicit bounds on the convergence rate to the optimal solution of the original constrained problem. In contrast to existing methods, CUQB further incorporates a simple infeasibility detection scheme, which we prove triggers in a finite number of iterations (with high probability) when the original problem is infeasible. Numerical experiments on several test problems, including environmental model calibration and real-time reactor optimization, show that CUQB significantly outperforms traditional Bayesian optimization in both constrained and unconstrained cases. Furthermore, compared to other state-of-the-art methods that exploit composite structure, CUQB achieves competitive empirical performance while also providing substantially improved theoretical guarantees. | 翻訳日:2023-05-09 19:22:59 公開日:2023-05-05 |
# 脳-コンピュータインタフェースにおける予測型付けのためのトランスフォーマー言語モデルの適用 Adapting Transformer Language Models for Predictive Typing in Brain-Computer Interfaces ( http://arxiv.org/abs/2305.03819v1 ) ライセンス: Link先を確認 | Shijia Liu, David A. Smith | (参考訳) 脳コンピュータインタフェース(BCI)は、多くの人々にとって、代替および拡張的なコミュニケーションの重要なモードである。
キーボードとは異なり、多くのbciシステムは1度に26文字の英語も表示しない。
言語モデルを使って文字レベルの予測を行うと、BCIタイピングが大幅に高速化される(Ghosh and Kristensson, 2017)。
既存のBCIシステムでは文字n-gramモデルやLMを全く採用していないが,本論文では複数のワードピースレベルのトランスフォーマーLMを用いて文字予測を行い,入力タスクで評価する。
gpt-2はクリーンテキストに最適だが、異なるlmsはノイズの多い履歴と異なる反応をする。
さらに,単語の文字位置と文脈長の影響について分析する。 Brain-computer interfaces (BCI) are an important mode of alternative and augmentative communication for many people. Unlike keyboards, many BCI systems do not display even the 26 letters of English at one time, let alone all the symbols in more complex systems. Using language models to make character-level predictions, therefore, can greatly speed up BCI typing (Ghosh and Kristensson, 2017). While most existing BCI systems employ character n-gram models or no LM at all, this paper adapts several wordpiece-level Transformer LMs to make character predictions and evaluates them on typing tasks. GPT-2 fares best on clean text, but different LMs react differently to noisy histories. We further analyze the effect of character positions in a word and context lengths. | 翻訳日:2023-05-09 19:22:33 公開日:2023-05-05 |
# Persistent HomologyがObject Unityと出会う: Clutterにおけるオブジェクト認識 Persistent Homology Meets Object Unity: Object Recognition in Clutter ( http://arxiv.org/abs/2305.03815v1 ) ライセンス: Link先を確認 | Ekta U. Samani, Ashis G. Banerjee | (参考訳) 屋内環境における閉塞物体の認識は,移動ロボットにとって困難な問題である。
この課題に対処するために,深度画像から生成する点雲のための新しいディスクリプタtopsと,人間の推論にインスパイアされた関連する認識フレームワークthorを提案する。
ディスクリプタは、持続的ホモロジーを用いた単純複体の濾過から位相的特徴を計算するために新しいスライシングに基づくアプローチを採用し、オブジェクトの統一を用いた推論に基づく認識を促進する。
ベンチマークデータセットとは別に,環境条件の異なる実世界のシナリオを反映し,コモディティハードウェアを用いてキュレートした新しいデータセットUW Indoor Scenes (UW-IS)Occludedデータセットの性能を報告する。
THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度はかなり高い。
そのためthorは、屋内での日常使用を目的とした低コストロボットにおけるロバストな認識に向けた有望なステップである。 Recognition of occluded objects in unseen and unstructured indoor environments is a challenging problem for mobile robots. To address this challenge, we propose a new descriptor, TOPS, for point clouds generated from depth images and an accompanying recognition framework, THOR, inspired by human reasoning. The descriptor employs a novel slicing-based approach to compute topological features from filtrations of simplicial complexes using persistent homology, and facilitates reasoning-based recognition using object unity. Apart from a benchmark dataset, we report performance on a new dataset, the UW Indoor Scenes (UW-IS) Occluded dataset, curated using commodity hardware to reflect real-world scenarios with different environmental conditions and degrees of object occlusion. THOR outperforms state-of-the-art methods on both the datasets and achieves substantially higher recognition accuracy for all the scenarios of the UW-IS Occluded dataset. Therefore, THOR, is a promising step toward robust recognition in low-cost robots, meant for everyday use in indoor settings. | 翻訳日:2023-05-09 19:22:19 公開日:2023-05-05 |
# fMRI脳ネットワークのディープラベリング Deep Labeling of fMRI Brain Networks ( http://arxiv.org/abs/2305.03814v1 ) ライセンス: Link先を確認 | Ammar Ahmed Pallikonda Latheef (1), Sejal Ghate (2), Zhipeng Hui (1), Alberto Santamaria-Pang (3), Ivan Tarapov (3), Haris I Sair (4 and 5), and Craig K Jones (1, 4 and 5) ((1) Department of Computer Science, Johns Hopkins University, (2) Department of Biomedical Engineering, Johns Hopkins University, (3) Health AI, Microsoft, Redmond Washington, (4) Department of Radiology and Radiological Science, Johns Hopkins School of Medicine, (5) Malone Center for Engineering in Healthcare, Johns Hopkins University) | (参考訳) 静止状態機能mri(rs-fmri)から抽出された脳の静止状態ネットワーク(rsns)は、神経外科医を導くための手術前計画に使用される。
しかし、専門家の知識がそれぞれのRSNをラベル付けする必要があるため、これは難しい。
臨床ワークフローで使用される効率的で標準化された方法が欠けている。
さらに、メソッドは取得技術に関係なくうまく機能する必要があるため、これらのメソッドは一般化する必要がある。
RSNをラベル付けするための正確で高速で軽量なディープラーニング手法を提案する。
グループ独立成分分析 (ica) はコホートにおける大規模機能的接続パターンを抽出し, 2重回帰は個々の対象rsnにそれらを投影するために用いられた。
MLPをベースとしたMulti-Layer Perceptron (MLP) 法と2次元および3次元畳み込みニューラルネットワーク (CNN) を比較し,より高速かつ高精度であることを示す。
MLP法は、コンパクトなサイズにもかかわらず、他の作品よりも良い、または良い性能を発揮する。
本手法の汎用性は,mlpがホールドアウトデータセットで100%,他の3サイトのfmri取得で98.3%の精度を示すことによって証明する。 Resting State Networks (RSNs) of the brain extracted from Resting State functional Magnetic Resonance Imaging (RS-fMRI) are used in the pre-surgical planning to guide the neurosurgeon. This is difficult, though, as expert knowledge is required to label each of the RSNs. There is a lack of efficient and standardized methods to be used in clinical workflows. Additionally, these methods need to be generalizable since the method needs to work well regardless of the acquisition technique. We propose an accurate, fast, and lightweight deep learning approach to label RSNs. Group Independent Component Analysis (ICA) was used to extract large scale functional connectivity patterns in the cohort and dual regression was used to back project them on individual subject RSNs. We compare a Multi-Layer Perceptron (MLP) based method with 2D and 3D Convolutional Neural Networks (CNNs) and find that the MLP is faster and more accurate. The MLP method performs as good or better than other works despite its compact size. We prove the generalizability of our method by showing that the MLP performs at 100% accuracy in the holdout dataset and 98.3% accuracy in three other sites' fMRI acquisitions. | 翻訳日:2023-05-09 19:22:00 公開日:2023-05-05 |
# 蒸留ミッドフュージョントランスフォーマーネットワークによるマルチモーダルヒューマンアクティビティ認識 Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity Recognition ( http://arxiv.org/abs/2305.03810v1 ) ライセンス: Link先を確認 | Jingcheng Li, Lina Yao, Binghao Li, Claude Sammut | (参考訳) 人間の活動認識は多くの人間とコンピュータの協調シナリオにおいて重要なタスクであり、様々な応用がある。
ユニモーダルアプローチは広く研究されているが、データ品質に悩まされ、モダリティ固有の機能エンジニアリングを必要とするため、現実のデプロイメントに十分な堅牢で効果的ではない。
様々なセンサを利用することで、マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法では有望な結果が得られたが,多モード空間-時間的特徴の抽出と補完的情報の利用は十分に検討されていない。
また、エッジデプロイメントのためのマルチモーダルアプローチの複雑さを低減することも、まだ解決できていない問題です。
本課題を解決するために, 知識蒸留型マルチモーダル・ミッドフュージョン・アプローチdmft(dmft)を提案し, 情報的特徴抽出と融合を行い, マルチモーダル・ヒューマンアクティビティ認識タスクを効率的に解決する。
DMFTはまず、マルチモーダル入力データを統一表現に符号化する。
DMFT教師モデルでは,有意な時空間特徴を抽出する多モード時空間変圧器モジュールを適用した。
時間的中核融合モジュールも提案され、時間的特徴をさらに融合させる。
次に、学習した表現を教師モデルから多モード空間時変器モジュールのエレガントなバージョンからなるシンプルなDMFT学生モデルに転送し、結果を生成する知識蒸留法を適用した。
DMFTの評価は2つの公開マルチモーダルな人間活動認識データセットを用いて行われた。
実験の結果,モデルの有効性,スケーラビリティ,ロバスト性の観点から,競争性能が得られた。 Human Activity Recognition is an important task in many human-computer collaborative scenarios, whilst having various practical applications. Although uni-modal approaches have been extensively studied, they suffer from data quality and require modality-specific feature engineering, thus not being robust and effective enough for real-world deployment. By utilizing various sensors, Multi-modal Human Activity Recognition could utilize the complementary information to build models that can generalize well. While deep learning methods have shown promising results, their potential in extracting salient multi-modal spatial-temporal features and better fusing complementary information has not been fully explored. Also, reducing the complexity of the multi-modal approach for edge deployment is another problem yet to resolve. To resolve the issues, a knowledge distillation-based Multi-modal Mid-Fusion approach, DMFT, is proposed to conduct informative feature extraction and fusion to resolve the Multi-modal Human Activity Recognition task efficiently. DMFT first encodes the multi-modal input data into a unified representation. Then the DMFT teacher model applies an attentive multi-modal spatial-temporal transformer module that extracts the salient spatial-temporal features. A temporal mid-fusion module is also proposed to further fuse the temporal features. Then the knowledge distillation method is applied to transfer the learned representation from the teacher model to a simpler DMFT student model, which consists of a lite version of the multi-modal spatial-temporal transformer module, to produce the results. Evaluation of DMFT was conducted on two public multi-modal human activity recognition datasets with various state-of-the-art approaches. The experimental results demonstrate that the model achieves competitive performance in terms of effectiveness, scalability, and robustness. | 翻訳日:2023-05-09 19:21:36 公開日:2023-05-05 |
# 透かしを用いたAI生成コンテンツの検出 Evading Watermark based Detection of AI-Generated Content ( http://arxiv.org/abs/2305.03807v1 ) ライセンス: Link先を確認 | Zhengyuan Jiang, Jinghuai Zhang, Neil Zhenqiang Gong | (参考訳) DALL-E、Stable Diffusion、ChatGPTといった生成AIモデルは、極めて現実的なコンテンツを生成することができ、情報の真正性に対する課題が増大する。
この課題に対処するために、透かしを利用してAI生成コンテンツを検出する。
具体的には、リリース前にAI生成コンテンツに透かしを埋め込む。
類似の透かしをデコードできれば、コンテンツはAI生成として検出される。
本研究では,このような透かしに基づくAI生成コンテンツ検出の堅牢性に関する系統的研究を行う。
AI生成画像に焦点を当てる。
我々の研究は、AI生成画像が視覚的品質を維持しながら検出を回避するように、AI生成画像の小さな人間の知覚できない摂動を付加することで、攻撃者がAI生成画像を後処理できることを示しています。
我々は理論的にも経験的にも攻撃の有効性を実証する。
さらに,検出を回避するために,AI生成画像の摂動をはるかに小さくし,JPEG圧縮やガウスボケ,明度/コントラストといった既存の画像後処理方法よりも視覚的品質を向上する。
我々の研究は、既存の透かしに基づくAI生成コンテンツの検出が不十分であることを示し、新しい検出方法の緊急性を強調した。 A generative AI model -- such as DALL-E, Stable Diffusion, and ChatGPT -- can generate extremely realistic-looking content, posing growing challenges to the authenticity of information. To address the challenges, watermark has been leveraged to detect AI-generated content. Specifically, a watermark is embedded into an AI-generated content before it is released. A content is detected as AI-generated if a similar watermark can be decoded from it. In this work, we perform a systematic study on the robustness of such watermark-based AI-generated content detection. We focus on AI-generated images. Our work shows that an attacker can post-process an AI-generated watermarked image via adding a small, human-imperceptible perturbation to it, such that the post-processed AI-generated image evades detection while maintaining its visual quality. We demonstrate the effectiveness of our attack both theoretically and empirically. Moreover, to evade detection, our adversarial post-processing method adds much smaller perturbations to the AI-generated images and thus better maintain their visual quality than existing popular image post-processing methods such as JPEG compression, Gaussian blur, and Brightness/Contrast. Our work demonstrates the insufficiency of existing watermark-based detection of AI-generated content, highlighting the urgent needs of new detection methods. | 翻訳日:2023-05-09 19:21:08 公開日:2023-05-05 |
# 等変ニューラルネットワークによるイテナント磁石のスピンダイナミクスシミュレーション Equivariant Neural Networks for Spin Dynamics Simulations of Itinerant Magnets ( http://arxiv.org/abs/2305.03804v1 ) ライセンス: Link先を確認 | Yu Miyazaki | (参考訳) 近藤格子モデルの大規模スピンダイナミクスシミュレーションのための新しい同変ニューラルネットワークアーキテクチャを提案する。
このニューラルネットワークは、主にテンソル積に基づく畳み込み層で構成され、格子の変換とスピンの回転の2つの同値性を保証する。
2次元正方形および三角形格子上の2つの近藤格子モデルに対して等価ニューラルネットワークを実装し、トレーニングおよび検証を行う。
平方格子の同変モデルでは、入力として不変記述子を用いたモデルと比較して、検証誤差(ルート平均2乗誤差に基づく)は3分の1以下に削減される。
さらに, 三角格子中のスカイミオン結晶の相転移を, トレーニングモデルを用いた動力学シミュレーションにより再現する能力を示す。 I present a novel equivariant neural network architecture for the large-scale spin dynamics simulation of the Kondo lattice model. This neural network mainly consists of tensor-product-based convolution layers and ensures two equivariances: translations of the lattice and rotations of the spins. I implement equivariant neural networks for two Kondo lattice models on two-dimensional square and triangular lattices, and perform training and validation. In the equivariant model for the square lattice, the validation error (based on root mean squared error) is reduced to less than one-third compared to a model using invariant descriptors as inputs. Furthermore, I demonstrate the ability to reproduce phase transitions of skyrmion crystals in the triangular lattice, by performing dynamics simulations using the trained model. | 翻訳日:2023-05-09 19:20:46 公開日:2023-05-05 |
# スポーツ科学・医学における大規模言語モデル--機会・リスク・考察 Large Language Models in Sport Science & Medicine: Opportunities, Risks and Considerations ( http://arxiv.org/abs/2305.03851v1 ) ライセンス: Link先を確認 | Mark Connor and Michael O'Neill | (参考訳) 本稿では,スポーツ科学と医学における大規模言語モデル(llm)の利用に関する可能性,リスク,課題について考察する。
llmは、大量のテキストデータに基づいてトレーニングされたトランスフォーマースタイルのアーキテクチャを備えた、大規模なニューラルネットワークである。
LLMは様々な自然言語処理タスクを実行できる。
スポーツ科学や医学では、LLMはスポーツ医療実践者の知識を支援し、強化し、個人化されたトレーニングプログラムの推薦を行い、発展途上国の実践者に高品質な情報を配布する可能性がある。
しかし、LLMの使用と開発に関連する潜在的なリスクには、モデルを作成するために使用されるデータセットのバイアス、機密データを公開するリスク、有害な出力を生成するリスク、フィードバックを通じてこれらのモデルを人間の好みに合わせる必要性などが含まれる。
スポーツ科学や医学におけるLLMの潜在的な応用を十分に理解し、スポーツ選手、クライアント、患者、実践者、一般大衆にとって倫理的かつ有益であることを保証するためには、さらなる研究が必要である。 This paper explores the potential opportunities, risks, and challenges associated with the use of large language models (LLMs) in sports science and medicine. LLMs are large neural networks with transformer style architectures trained on vast amounts of textual data, and typically refined with human feedback. LLMs can perform a large range of natural language processing tasks. In sports science and medicine, LLMs have the potential to support and augment the knowledge of sports medicine practitioners, make recommendations for personalised training programs, and potentially distribute high-quality information to practitioners in developing countries. However, there are also potential risks associated with the use and development of LLMs, including biases in the dataset used to create the model, the risk of exposing confidential data, the risk of generating harmful output, and the need to align these models with human preferences through feedback. Further research is needed to fully understand the potential applications of LLMs in sports science and medicine and to ensure that their use is ethical and beneficial to athletes, clients, patients, practitioners, and the general public. | 翻訳日:2023-05-09 19:15:52 公開日:2023-05-05 |
# ロングベースラインイメージングにおけるパラメータ推定の量子限界 Quantum limits of parameter estimation in long-baseline imaging ( http://arxiv.org/abs/2305.03848v1 ) ライセンス: Link先を確認 | Aqil Sajjad, Michael R Grace, Saikat Guha | (参考訳) 分散開口望遠鏡は、天文画像の解像度を高めるための確立されたアプローチである。
しかし、定量的イメージングの精度に関する理論的限界や、そのような配列で使用するビーム結合および検出方式は、概ね未検討のままである。
量子および古典的クレーマー・ラオ境界の数学的ツールを用いて、分散イメージングシステムによって提供される1つのモノリシック望遠鏡上の拡張の基本的な起源を解析し、シーンの非コヒーレントな放射に埋め込まれた任意のパラメータをマルチ開口イメージングシステムで推定できる精度について考察する。
1) 異なる開口部からの光が共通の焦点平面(例えば、セグメンテーション・アパーチャー望遠鏡)に向けられる多軸系と、(2)各開口部で収集される光(例えば、ロングベース・アレイの望遠鏡部位)を光学干渉計にルーティングする同軸系である。
一例として, 2点エミッタ間の角分離を, ベースライン距離で分離した2つの同一開口を用いて推定する量子フィッシャー情報(QFI)を明示的に計算する。
このqfiは単一の開口部とベースラインから指示的に付加的な寄与に分解する。
我々は、テレスコープ内(例えば空間モード)光学処理とテレスコープ間ビームの組み合わせの相対的な利点を定量化する。
両方の受信機の設計が両方の情報源を捉える方法を示し、より一般的な撮像タスクに類似の方法を拡張する方法について論じる。
本稿では,有意な受信機設計へのQFI含有測定の変換と,開口部が収集した光の共配置・結合が不可能な場合のQFIを実現するための事前共有絡み合わせの利用について議論する。 Distributed aperture telescopes are a well-established approach for boosting resolution in astronomical imaging. However, theoretical limits on quantitative imaging precision, and the fundamentally best possible beam-combining and detection schemes to use with such arrays, remain largely unexplored. Using mathematical tools of the quantum and classical Cramer-Rao bounds, we perform analyses showing the fundamental origins of the enhancement provided by distributed imaging systems, over and above a single monolithic telescope, and consider the precision with which one can estimate any desired parameter embedded in a scene's incoherent radiation with a multi-aperture imaging system. We show how quantum-optimal measurements can be realized via beam-combination strategies of two classes: (1) multi-axial: where light from different apertures is directed to a common focal plane, e.g., of a segmented-aperture telescope; and (2) co-axial: where light collected at each aperture, e.g., telescope sites of a long-baseline array, is routed to an optical interferometer. As an example, we show an explicit calculation of the quantum Fisher information (QFI) for estimating the angular separation between two-point emitters using two identical apertures separated by a baseline distance. We show that this QFI splits instructively into additive contributions from the single apertures and from the baseline. We quantify the relative benefits of intra-telescope (e.g., spatial-mode) optical processing and inter-telescope beam combination. We show how both receiver designs can capture both sources of information and discuss how similar methods could be extended to more general imaging tasks. We discuss translating QFI-attaining measurements to explicit receiver designs, and the use of pre-shared entanglement to achieve the QFI when it is impractical to co-locate and combine light collected by the apertures. | 翻訳日:2023-05-09 19:15:34 公開日:2023-05-05 |
# 時間依存性調和ポテンシャルにおける波動関数の形状の進化 Evolution of the wave-function's shape in a time-dependent harmonic potential ( http://arxiv.org/abs/2305.03847v1 ) ライセンス: Link先を確認 | Etera R. Livine | (参考訳) 量子力学に対する効果的な操作的アプローチは波束の進化に焦点を合わせ、波関数は波束の形状とそのゆらぎを記述する余分な自由度を身に着けた古典的運動を表すものとして半古典的構造に見ることができる。
これらの量子ドレッシングは独立自由度であり、波動関数のより高いモーメントで数学的に符号化される。
1+1次元の時空における時間依存ポテンシャルを持つシュロディンガー方程式に従って発展するガウス波束の有効ダイナミクスを抽出し、二次不確かさに対する運動方程式を導出する方法を考察する。
次に、時間依存調和ポテンシャルにおける一般波動関数に対する全ての高次モーメントの進化を統合する方法を示す。 An effective operational approach to quantum mechanics is to focus on the evolution of wave-packets, for which the wave-function can be seen in the semi-classical regime as representing a classical motion dressed with extra degrees of freedom describing the shape of the wave-packet and its fluctuations. These quantum dressing are independent degrees of freedom, mathematically encoded in the higher moments of the wave-function. We review how to extract the effective dynamics for Gaussian wave-packets evolving according to the Schrodinger equation with time-dependent potential in a 1+1-dimensional spacetime, and derive the equations of motion for the quadratic uncertainty. We then show how to integrate the evolution of all the higher moments for a general wave-function in a time-dependent harmonic potential. | 翻訳日:2023-05-09 19:14:58 公開日:2023-05-05 |
# 低次運動量のデータ自由学習 Data-Free Learning of Reduced-Order Kinematics ( http://arxiv.org/abs/2305.03846v1 ) ライセンス: Link先を確認 | Nicholas Sharp, Cristian Romero, Alec Jacobson, Etienne Vouga, Paul G. Kry, David I.W. Levin, Justin Solomon | (参考訳) 弾性体からキネマティックリンケージまでの物理系は高次元構成空間で定義されるが、それらの典型的な低エネルギー構成はより低次元の部分空間に集中している。
本研究では,高次元システムに対するエネルギー関数の入力として,画像が多様だが低エネルギーな構成のサブ多様体をパラメータ化する低次元写像を生成する。
必要な唯一の追加入力は、手続きを初期化するシステムのための単一のシード設定であり、トラジェクトリのデータセットは不要である。
低次元の潜在ベクトルを完全な構成空間にマッピングするニューラルネットワークとしてサブスペースを表現し、ネットワークパラメータを任意のシステムに適用するトレーニングスキームを提案する。
この定式化は、非線形で低次元の弾性体や布のサブスペースだけでなく、剛体やリンケージの衝突のようなより一般的なシステムでも有効である。
我々は、操作、潜在補間、サンプリングを含むこの定式化に基づいて構築されたアプリケーションについて簡単に検討する。 Physical systems ranging from elastic bodies to kinematic linkages are defined on high-dimensional configuration spaces, yet their typical low-energy configurations are concentrated on much lower-dimensional subspaces. This work addresses the challenge of identifying such subspaces automatically: given as input an energy function for a high-dimensional system, we produce a low-dimensional map whose image parameterizes a diverse yet low-energy submanifold of configurations. The only additional input needed is a single seed configuration for the system to initialize our procedure; no dataset of trajectories is required. We represent subspaces as neural networks that map a low-dimensional latent vector to the full configuration space, and propose a training scheme to fit network parameters to any system of interest. This formulation is effective across a very general range of physical systems; our experiments demonstrate not only nonlinear and very low-dimensional elastic body and cloth subspaces, but also more general systems like colliding rigid bodies and linkages. We briefly explore applications built on this formulation, including manipulation, latent interpolation, and sampling. | 翻訳日:2023-05-09 19:14:43 公開日:2023-05-05 |
# SemEval-2023 Task 2におけるCLaC: NERにおけるSpan-PredictionとSequence-Labelingの比較 CLaC at SemEval-2023 Task 2: Comparing Span-Prediction and Sequence-Labeling approaches for NER ( http://arxiv.org/abs/2305.03845v1 ) ライセンス: Link先を確認 | Harsh Verma, Sabine Bergler | (参考訳) 本稿では、複雑できめ細かい名前を持つエンティティの認識に関するMultiCoNER 2タスクに対するCLaC提案を要約する。
NERの2つの一般的なアプローチ、すなわちSequence LabelingとSpan Predictionを比較した。
ベストスパン予測システムはテストデータ上の最良のシーケンスラベリングシステムよりも若干優れていることが分かりました。
さらに,XLM RoBERTaの大型バージョンを使用することで性能が大幅に向上することがわかった。
比較実験の結果,XLM-RoBERTaの特別な入力トークン(<s>, </s>)を使用する場合, Span Prediction と Sequence Labeling のアプローチは改善することがわかった。
すべてのモデル、前処理、後処理をトレーニングするコードは、https://github.com/harshshredding/semeval2023-multiconer-paperで入手できる。 This paper summarizes the CLaC submission for the MultiCoNER 2 task which concerns the recognition of complex, fine-grained named entities. We compare two popular approaches for NER, namely Sequence Labeling and Span Prediction. We find that our best Span Prediction system performs slightly better than our best Sequence Labeling system on test data. Moreover, we find that using the larger version of XLM RoBERTa significantly improves performance. Post-competition experiments show that Span Prediction and Sequence Labeling approaches improve when they use special input tokens (<s> and </s>) of XLM-RoBERTa. The code for training all models, preprocessing, and post-processing is available at https://github.com/harshshredding/semeval2023-multiconer-paper. | 翻訳日:2023-05-09 19:14:25 公開日:2023-05-05 |
# 高域フィルタ位相からのロバストな定量的感受性マッピングのための物理ネットワーク微細チューニング Physics-based network fine-tuning for robust quantitative susceptibility mapping from high-pass filtered phase ( http://arxiv.org/abs/2305.03844v1 ) ライセンス: Link先を確認 | Jinwei Zhang, Alexey Dimov, Chao Li, Hang Zhang, Thanh D. Nguyen, Pascal Spincemaille, Yi Wang | (参考訳) 目的: 畳み込みニューラルネットワーク(CNN)を用いた高速フィルタ位相(HPFP)画像からの定量的感受性マッピング(QSM)の一般化能力を向上させること。
方法:提案ネットワークは,事前学習ネットワークを用いてHPFPからQSMを予測する際に生じる2つの共通一般化問題に対処する。
a) 目立たないボクセルサイズのデータ,及び
b) 未知のハイパスフィルタパラメータを有するデータ。
事前学習ネットワークの一般化誤差を低減するために,高域通過フィルタ双極子畳み込み前方モデルに基づくネットワーク微調整ステップを提案する。
計算コストを微調整することなく予測精度を向上させるために, プログレッシブunetアーキテクチャを提案する。
結果: RMSE, PSNR, SSIM, HFENを品質指標として用いた振り返り実験において, UnetおよびプログレッシブUnetの性能は, すべてのボクセルサイズでの物理ベース微調整および実験で試験されたほとんどの高通過フィルタ遮断周波数により改善した。
プログレッシブunetは、微調整前後のunetをわずかに上回った。
UnetとプログレッシブUnetの両方を物理ベースで微調整した後、画像のシャープネスが向上した。
unetと比較して、プログレッシブunetは参照qsmと地域感受性値の一致が良好であった。
結論: 提案手法は,テストデータセットがトレーニングから逸脱したときの微調整を伴わない,事前学習ネットワークと比較して堅牢性の向上を示す。
私たちのコードはhttps://github.com/Jinwei1209/SWI_to_QSM/で利用可能です。 Purpose: To improve the generalization ability of convolutional neural network (CNN) based prediction of quantitative susceptibility mapping (QSM) from high-pass filtered phase (HPFP) image. Methods: The proposed network addresses two common generalization issues that arise when using a pre-trained network to predict QSM from HPFP: a) data with unseen voxel sizes, and b) data with unknown high-pass filter parameters. A network fine-tuning step based on a high-pass filtering dipole convolution forward model is proposed to reduce the generalization error of the pre-trained network. A progressive Unet architecture is proposed to improve prediction accuracy without increasing fine-tuning computational cost. Results: In retrospective studies using RMSE, PSNR, SSIM and HFEN as quality metrics, the performance of both Unet and progressive Unet was improved after physics-based fine-tuning at all voxel sizes and most high-pass filtering cutoff frequencies tested in the experiment. Progressive Unet slightly outperformed Unet both before and after fine-tuning. In a prospective study, image sharpness was improved after physics-based fine-tuning for both Unet and progressive Unet. Compared to Unet, progressive Unet had better agreement of regional susceptibility values with reference QSM. Conclusion: The proposed method shows improved robustness compared to the pre-trained network without fine-tuning when the test dataset deviates from training. Our code is available at https://github.com/Jinwei1209/SWI_to_QSM/ | 翻訳日:2023-05-09 19:14:10 公開日:2023-05-05 |
# コード検索のための意味的類似性のコントラスト学習について On Contrastive Learning of Semantic Similarity forCode to Code Search ( http://arxiv.org/abs/2305.03843v1 ) ライセンス: Link先を確認 | Anthony Saieva, Saikat Chakraborty, Gail Kaiser | (参考訳) 本稿では,大規模言語モデル(LLM)の性能向上を図り,静的特徴と動的特徴の両方を取り入れた新しいコード・コード検索手法を提案する。
本稿では,探索中のコーパスや検索クエリを推論時に実行することなく,トレーニング中に動的ランタイム情報をエンコードするコード検索手法と,正と負の両方の参照サンプルをトレーニングするコード検索手法を提案する。
提案手法の有効性を検証するために,拡張LDMによる言語間コード検索の能力を示す一連の研究を行った。
評価の結果,提案手法の有効性は様々なモデルアーキテクチャやプログラミング言語で一致していることがわかった。
我々は、最先端のクロス言語検索ツールを最大44.7\%で上回っている。
さらに,訓練過程における単一の正および負の参照サンプルであっても,類似参照と異種参照の両方がコード検索の重要な部分であることを示すことにより,性能が大幅に向上することが明らかとなった。
重要なことは、オープンソースモデルの重要性を強調した最大のLLMを拡張しても、改良された改良された細調整モデルが微調整なしで常に向上していることを示している。
本研究の再現性と拡張性を確保するため,Coscoと呼ばれるツールとトレーニング手順のオープンソース実装を提案する。 This paper introduces a novel code-to-code search technique that enhances the performance of Large Language Models (LLMs) by including both static and dynamic features as well as utilizing both similar and dissimilar examples during training. We present the first-ever code search method that encodes dynamic runtime information during training without the need to execute either the corpus under search or the search query at inference time and the first code search technique that trains on both positive and negative reference samples. To validate the efficacy of our approach, we perform a set of studies demonstrating the capability of enhanced LLMs to perform cross-language code-to-code search. Our evaluation demonstrates that the effectiveness of our approach is consistent across various model architectures and programming languages. We outperform the state-of-the-art cross-language search tool by up to 44.7\%. Moreover, our ablation studies reveal that even a single positive and negative reference sample in the training process results in substantial performance improvements demonstrating both similar and dissimilar references are important parts of code search. Importantly, we show that enhanced well-crafted, fine-tuned models consistently outperform enhanced larger modern LLMs without fine tuning, even when enhancing the largest available LLMs highlighting the importance for open-sourced models. To ensure the reproducibility and extensibility of our research, we present an open-sourced implementation of our tool and training procedures called Cosco. | 翻訳日:2023-05-09 19:13:35 公開日:2023-05-05 |
# 厳格な量子スピード限界 Exact Quantum Speed Limits ( http://arxiv.org/abs/2305.03839v1 ) ライセンス: Link先を確認 | Arun K. Pati, Brij Mohan, Sahil, and Samuel L. Braunstein | (参考訳) 従来の量子速度制限は多くの物理プロセスでは達成できないが、それらはゆるく、量子系の進化に要する正確な時間を決定することができない。
これに対処するために、既存の量子速度限界を超える純状態量子システムのユニタリダイナミクスの正確な量子速度限界を証明する。
これらの量子速度制限を用いることで、2次元および高次元の量子システムの進化時間を正確に推定することができる。
さらに、有限次元と無限次元の量子系の両方において、純粋な状態に対する改良されたマンデルシュタム・タム結合を導出し、この境界は常に自己逆ハミルトニアンによって生成されるユニタリに対して飽和することを示した。
これらの結果は、量子物理学の理解だけでなく、量子コンピューティング、量子制御、量子熱機械などの急速に発展する量子技術にも大きな影響を与えるだろう。 The traditional quantum speed limits are not attainable for many physical processes, as they tend to be loose and fail to determine the exact time taken by quantum systems to evolve. To address this, we prove exact quantum speed limits for the unitary dynamics of pure-state quantum system that outperform the existing quantum speed limits. Using these exact quantum speed limits, we can precisely estimate the evolution time for two- and higher-dimensional quantum systems. Additionally, for both finite- and infinite-dimensional quantum systems, we derive an improved Mandelstam-Tamm bound for pure states and show that this bound always saturates for any unitary generated by self-inverse Hamiltonians. These results will have a significant impact on our understanding of quantum physics as well as rapidly developing quantum technologies, such as quantum computing, quantum control, and quantum thermal machines. | 翻訳日:2023-05-09 19:12:54 公開日:2023-05-05 |
# Mask the Bias:内部言語モデル推定によるCTCベースのASRのドメイン適応一般化の改善 Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR with Internal Language Model Estimation ( http://arxiv.org/abs/2305.03837v1 ) ライセンス: Link先を確認 | Nilaksh Das, Monica Sunkara, Sravan Bodapati, Jinglun Cai, Devang Kulshreshtha, Jeff Farris, Katrin Kirchhoff | (参考訳) 大量のデータでトレーニングされたエンドツーエンドasrモデルは、トレーニングデータの言語意味論に暗黙的に偏りがちである。
注意に基づくエンコーダデコーダやRNN-Tのような自己回帰モデルにおいて、このバイアスを軽減するために、内部言語モデル推定(ILME)が提案されている。
典型的には、ilmeはモデルアーキテクチャの音響および言語コンポーネントをモジュール化し、音響入力を取り除き、テキストのみの後方でログ線形補間を行う。
しかし、CTC ベースの ASR では、CTC のログフォスタが非自己回帰的に計算されるため、モデルをそのような音響的および言語的コンポーネントに分離することは容易ではない。
本研究では,CTCに基づくASRモデルのための新しいILME手法を提案する。
本手法は、内部LMの擬似ログ類似度を、マスキング時間のみにログフォレアを蓄積することにより、音声時間ステップを反復的にマスキングして推定する。
複数のドメイン外のデータセットに対する大規模な評価により、提案されたアプローチは、ターゲットドメインからのテキストデータのみが利用可能である場合、WERを最大9.8%改善し、OOV F1スコアを最大24.6%改善することが明らかになった。
ゼロショットドメイン適応の場合、いかなるターゲットドメインデータにもアクセスせず、ilmeでソースドメインのバイアスを除去しても、wirを最大9.3%改善するために浅い融合を上回ることができることを実証する。 End-to-end ASR models trained on large amount of data tend to be implicitly biased towards language semantics of the training data. Internal language model estimation (ILME) has been proposed to mitigate this bias for autoregressive models such as attention-based encoder-decoder and RNN-T. Typically, ILME is performed by modularizing the acoustic and language components of the model architecture, and eliminating the acoustic input to perform log-linear interpolation with the text-only posterior. However, for CTC-based ASR, it is not as straightforward to decouple the model into such acoustic and language components, as CTC log-posteriors are computed in a non-autoregressive manner. In this work, we propose a novel ILME technique for CTC-based ASR models. Our method iteratively masks the audio timesteps to estimate a pseudo log-likelihood of the internal LM by accumulating log-posteriors for only the masked timesteps. Extensive evaluation across multiple out-of-domain datasets reveals that the proposed approach improves WER by up to 9.8% and OOV F1-score by up to 24.6% relative to Shallow Fusion, when only text data from target domain is available. In the case of zero-shot domain adaptation, with no access to any target domain data, we demonstrate that removing the source domain bias with ILME can still outperform Shallow Fusion to improve WER by up to 9.3% relative. | 翻訳日:2023-05-09 19:12:31 公開日:2023-05-05 |
# ストック移動予測のための時空間変圧器 Spatiotemporal Transformer for Stock Movement Prediction ( http://arxiv.org/abs/2305.03835v1 ) ライセンス: Link先を確認 | Daniel Boyle, Jugal Kalita | (参考訳) 金融市場は投資家に正しいタイミングで大きな利益を得る可能性を与える興味深い場所だ。
残念ながら、金融市場のダイナミックで非線形な性質は、将来の価格変動を予測するのを非常に困難にしている。
米国の証券取引所には、金融声明、社会とニュースの感情、全体的な市場感情、政治的出来事、取引心理学など、企業の株価に影響を及ぼす要因が数え切れないほどある。
これらの要因は人間にとって事実上不可能である。
そこで本研究では,ストックムーブメント予測のための時空間変圧器-LSTMモデルを用いた新しいアプローチSTSTを提案する。
本モデルでは,ACL18データセットとKDD17データセットに対してそれぞれ63.707と56.879%の精度が得られる。
さらに,本モデルを用いて実生活適用性の評価を行った。
S&P500の株価指数よりも最低10.41%高い利益を得ており、年間リターンは最低31.24%だった。 Financial markets are an intriguing place that offer investors the potential to gain large profits if timed correctly. Unfortunately, the dynamic, non-linear nature of financial markets makes it extremely hard to predict future price movements. Within the US stock exchange, there are a countless number of factors that play a role in the price of a company's stock, including but not limited to financial statements, social and news sentiment, overall market sentiment, political happenings and trading psychology. Correlating these factors is virtually impossible for a human. Therefore, we propose STST, a novel approach using a Spatiotemporal Transformer-LSTM model for stock movement prediction. Our model obtains accuracies of 63.707 and 56.879 percent against the ACL18 and KDD17 datasets, respectively. In addition, our model was used in simulation to determine its real-life applicability. It obtained a minimum of 10.41% higher profit than the S&P500 stock index, with a minimum annualized return of 31.24%. | 翻訳日:2023-05-09 19:12:05 公開日:2023-05-05 |
# フローマップ演算子による確率力学系の学習 Learning Stochastic Dynamical System via Flow Map Operator ( http://arxiv.org/abs/2305.03874v1 ) ライセンス: Link先を確認 | Yuan Chen, Dongbin Xiu | (参考訳) 計測データを用いて未知確率力学系を学習するための数値的枠組みを提案する。
確率的フローマップ学習(sFML)と呼ばれる新しいフレームワークは、決定論的力学系を学習するために開発されたフローマップ学習(FML)の拡張である。
確率系を学習するために、決定論的サブマップと確率的サブマップという2つのサブフローマップの重ね合わせである確率的フローマップを定義する。
確率的トレーニングデータは、まず決定論的サブマップを構築し、次に確率的サブマップを構築するために使用される。
決定論的サブマップは、決定論的システムのためのFMLのような残留ネットワーク(ResNet)の形式をとる。
本稿では,確率的サブマップに対し,生成モデル,特にGAN(Generative Adversarial Network)を用いた。
最終的に構築された確率フローマップは、未知の確率系の分布の観点から弱い近似である確率進化モデルを定義する。
様々な確率系に対して提案したsFML法の柔軟性と有効性を示すため, 総合的な数値例を示す。 We present a numerical framework for learning unknown stochastic dynamical systems using measurement data. Termed stochastic flow map learning (sFML), the new framework is an extension of flow map learning (FML) that was developed for learning deterministic dynamical systems. For learning stochastic systems, we define a stochastic flow map that is a superposition of two sub-flow maps: a deterministic sub-map and a stochastic sub-map. The stochastic training data are used to construct the deterministic sub-map first, followed by the stochastic sub-map. The deterministic sub-map takes the form of residual network (ResNet), similar to the work of FML for deterministic systems. For the stochastic sub-map, we employ a generative model, particularly generative adversarial networks (GANs) in this paper. The final constructed stochastic flow map then defines a stochastic evolution model that is a weak approximation, in term of distribution, of the unknown stochastic system. A comprehensive set of numerical examples are presented to demonstrate the flexibility and effectiveness of the proposed sFML method for various types of stochastic systems. | 翻訳日:2023-05-09 19:04:25 公開日:2023-05-05 |
# train global, tailor local: 絶滅危惧言語へのミニマリスト多言語翻訳 Train Global, Tailor Local: Minimalist Multilingual Translation into Endangered Languages ( http://arxiv.org/abs/2305.03873v1 ) ライセンス: Link先を確認 | Zhong Zhou, Jan Niehues, Alex Waibel | (参考訳) 多くの人道的なシナリオでは、非常に低いリソース言語への翻訳は普遍的な翻訳エンジンではなく、専用のテキスト固有の翻訳エンジンを必要とすることが多い。
例えば、医療記録、衛生処置、政府通信、緊急処置、宗教文書は全て制限されたテキストである。
全ての言語に対する一般的な翻訳エンジンは存在しないが、多言語で知られている制限付きテキストを新しい絶滅危惧言語に翻訳することは可能であり、人間の翻訳作業を減らすことができる。
我々は、多くのリッチリソース言語からの翻訳資源を活用して、複数の言語で利用可能な、非常に低いリソース言語において、よく知られたテキストの翻訳品質を効率的に生成しようと試みている。
2つのアプローチを調べます
1.より大きなターゲットテキストの残りの部分への最適な一般化の観点から、新しい言語で開始翻訳をジャンプするためのシード文の選択
我々は,他の多くの言語からの多言語翻訳エンジンを適応させ,未知の言語における特定のテキストに焦点をあてる。
事前訓練済みの大規模多言語モデルをまずドメイン/テキストに適用し,次いでリソースの少ない言語に適応することが最善であることがわかった。
また、最適なシード文のセットを選択すると、21.9から50.7のベースラインから新しいテスト言語の平均chrF性能を向上させることができ、新しい未知の言語では、シード文の数を1,000に減らすことができる。 In many humanitarian scenarios, translation into severely low resource languages often does not require a universal translation engine, but a dedicated text-specific translation engine. For example, healthcare records, hygienic procedures, government communication, emergency procedures and religious texts are all limited texts. While generic translation engines for all languages do not exist, translation of multilingually known limited texts into new, endangered languages may be possible and reduce human translation effort. We attempt to leverage translation resources from many rich resource languages to efficiently produce best possible translation quality for a well known text, which is available in multiple languages, in a new, severely low resource language. We examine two approaches: 1. best selection of seed sentences to jump start translations in a new language in view of best generalization to the remainder of a larger targeted text(s), and 2. we adapt large general multilingual translation engines from many other languages to focus on a specific text in a new, unknown language. We find that adapting large pretrained multilingual models to the domain/text first and then to the severely low resource language works best. If we also select a best set of seed sentences, we can improve average chrF performance on new test languages from a baseline of 21.9 to 50.7, while reducing the number of seed sentences to only around 1,000 in the new, unknown language. | 翻訳日:2023-05-09 19:04:07 公開日:2023-05-05 |
# 強化学習における教師から学習者への知識伝達 Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning ( http://arxiv.org/abs/2305.03870v1 ) ライセンス: Link先を確認 | Patrick Emedom-Nnamdi, Abram L. Friesen, Bobak Shahriari, Nando de Freitas, Matt W. Hoffman | (参考訳) シーケンシャルな意思決定に対する標準的なアプローチは、エージェントが環境と継続的に対話し、コントロールポリシーを改善する能力を利用する。
しかし、安全、倫理、実用性の制約のため、この種の試行錯誤実験は医療やロボティクスといった現実世界の多くの領域で実施できないことが多い。
代わりに、これらのドメインの制御ポリシーは、通常、以前ログしたデータからオフラインでトレーニングされる。
この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。
この改善サイクルを複数回繰り返すことができる。
実世界の領域ではそのようなサイクルの数が限られているが、結果として得られるデータの量と多様性は、標準的な継続的な相互作用アプローチよりもはるかに低い。
しかしながら、これらの領域のデータ収集は、収集したデータのラベル付けや注釈付けが可能な人間の専門家と共同で行われることが多い。
本稿では,まず,この成長段階におけるトレードオフを調査し,教師が提供する情報(デモ,エキスパートアクション,グラデーション情報など)をトレーニング時に活用し,アクタ-批判的手法のサンプル複雑性やカバレッジ要件を緩和する方法について検討する。
DeepMind Control Suiteのタスクに対するコントリビューションを検証する。 Standard approaches to sequential decision-making exploit an agent's ability to continually interact with its environment and improve its control policy. However, due to safety, ethical, and practicality constraints, this type of trial-and-error experimentation is often infeasible in many real-world domains such as healthcare and robotics. Instead, control policies in these domains are typically trained offline from previously logged data or in a growing-batch manner. In this setting a fixed policy is deployed to the environment and used to gather an entire batch of new data before being aggregated with past batches and used to update the policy. This improvement cycle can then be repeated multiple times. While a limited number of such cycles is feasible in real-world domains, the quantity and diversity of the resulting data are much lower than in the standard continually-interacting approach. However, data collection in these domains is often performed in conjunction with human experts, who are able to label or annotate the collected data. In this paper, we first explore the trade-offs present in this growing-batch setting, and then investigate how information provided by a teacher (i.e., demonstrations, expert actions, and gradient information) can be leveraged at training time to mitigate the sample complexity and coverage requirements for actor-critic methods. We validate our contributions on tasks from the DeepMind Control Suite. | 翻訳日:2023-05-09 19:03:40 公開日:2023-05-05 |
# 教師なし表現学習のためのヒュービアン可塑性を持つスパイキングニューラルネットワーク Spiking neural networks with Hebbian plasticity for unsupervised representation learning ( http://arxiv.org/abs/2305.03866v1 ) ライセンス: Link先を確認 | Naresh Ravichandran, Anders Lansner, Pawel Herman | (参考訳) 教師なしの手順でデータから分散内部表現を学習するための新しいスパイクニューラルネットワークモデルを提案する。
本研究では,BCPNNを用いた非スパイキングフィードフォワード型ベイズ信頼伝播ニューラルネットワーク(BCPNN)モデルを用いて,前述したように表現学習を行うヘビアン・ベイズ学習再生機構を用いて,ポアソン統計と生体内皮質錐体ニューロンに匹敵する発火速度の低いスパイキングニューラルネットワークに変換した。
我々は,線形分類器を用いてスパイキングモデルで学習した表現を評価し,非スパイキングBCPNNに近い性能を示し,MNISTおよびF-MNIST機械学習ベンチマークでトレーニングしたヘビアンベースのスパイキングネットワークと競合することを示した。 We introduce a novel spiking neural network model for learning distributed internal representations from data in an unsupervised procedure. We achieved this by transforming the non-spiking feedforward Bayesian Confidence Propagation Neural Network (BCPNN) model, employing an online correlation-based Hebbian-Bayesian learning and rewiring mechanism, shown previously to perform representation learning, into a spiking neural network with Poisson statistics and low firing rate comparable to in vivo cortical pyramidal neurons. We evaluated the representations learned by our spiking model using a linear classifier and show performance close to the non-spiking BCPNN, and competitive with other Hebbian-based spiking networks when trained on MNIST and F-MNIST machine learning benchmarks. | 翻訳日:2023-05-09 19:03:18 公開日:2023-05-05 |
# ソフトウェアベースの自動差別化は違法である Software-based Automatic Differentiation is Flawed ( http://arxiv.org/abs/2305.03863v1 ) ライセンス: Link先を確認 | Daniel Johnson, Trevor Maxfield, Yongxu Jin, Ronald Fedkiw | (参考訳) 様々なソフトウェアの取り組みは、オブジェクト指向プログラミングがチェーンルールの便利な実装を可能にし、バックプロパゲーションによるいわゆる自動微分を促進するという考えを受け入れている。
このようなフレームワークは、評価する前に式(チェーンルールによって保持される)を単純化するメカニズムを持たない。
以下に示すように、結果として生じるエラーは無制限になる傾向がある。 Various software efforts embrace the idea that object oriented programming enables a convenient implementation of the chain rule, facilitating so-called automatic differentiation via backpropagation. Such frameworks have no mechanism for simplifying the expressions (obtained via the chain rule) before evaluating them. As we illustrate below, the resulting errors tend to be unbounded. | 翻訳日:2023-05-09 19:03:01 公開日:2023-05-05 |
# 因果構造学習におけるオープン問題:英国におけるCOVID-19の事例研究 Open problems in causal structure learning: A case study of COVID-19 in the UK ( http://arxiv.org/abs/2305.03859v1 ) ライセンス: Link先を確認 | Anthony C. Constantinou, Neville K. Kitson, Yang Liu, Kiattikun Chobtham, Arian Hashemzadeh, Praharsh A. Nanavati, Rendani Mbuvha, and Bruno Petrungaro | (参考訳) 因果機械学習(ML)アルゴリズムは、原因と効果の関係について何かを教えてくれるグラフィカルな構造を復元する。
これらのアルゴリズムが提供する因果表現は、重要な現実世界の問題において必要となる透明性と説明可能性を実現する。
しかし, 因果MLは, 関連MLと比較して, 実践に限られた影響を与えている。
本稿では、COVID-19 UKパンデミックデータに適用した因果MLの課題について検討する。
各種公開情報源からのデータを照合し,これらのデータからどのような構造学習アルゴリズムが学習するかを検討する。
本研究では,学習の異なるクラスにまたがるアルゴリズムに対する異なるデータ形式の影響を調査し,各アルゴリズム,およびアルゴリズム群が生成する結果について,グラフィカル構造,モデル次元,感度解析,変数の結合,予測および介入推論の観点から評価する。
これらの結果を用いて, 因果構造学習におけるオープン問題を強調し, 今後の研究の方向性を示す。
将来の作業を容易にするために、すべてのグラフ、モデル、データセットをオンラインで公開しています。 Causal machine learning (ML) algorithms recover graphical structures that tell us something about cause-and-effect relationships. The causal representation provided by these algorithms enables transparency and explainability, which is necessary in critical real-world problems. Yet, causal ML has had limited impact in practice compared to associational ML. This paper investigates the challenges of causal ML with application to COVID-19 UK pandemic data. We collate data from various public sources and investigate what the various structure learning algorithms learn from these data. We explore the impact of different data formats on algorithms spanning different classes of learning, and assess the results produced by each algorithm, and groups of algorithms, in terms of graphical structure, model dimensionality, sensitivity analysis, confounding variables, predictive and interventional inference. We use these results to highlight open problems in causal structure learning and directions for future research. To facilitate future work, we make all graphs, models and data sets publicly available online. | 翻訳日:2023-05-09 19:02:55 公開日:2023-05-05 |
# 制約付きポートフォリオ最適化のためのqaoaパフォーマンスを改善する初期状態とミキサーのアライメント Alignment between Initial State and Mixer Improves QAOA Performance for Constrained Portfolio Optimization ( http://arxiv.org/abs/2305.03857v1 ) ライセンス: Link先を確認 | Zichang He, Ruslan Shaydulin, Shouvanik Chakrabarti, Dylan Herman, Changhao Li, Yue Sun, Marco Pistoia | (参考訳) 量子交互演算子アンサッツ(QAOA)は組合せ最適化のための有望な量子アルゴリズムである。
QAOAは断熱アルゴリズムと強く結びついており、十分な深さで近似することができる。
同時に、実際に実施されているQAOA、すなわち、小から中程度の深さにおいて、断熱的体制からの教訓がどの程度適用されるかは明らかでない。
本稿では, adiabaticアルゴリズムからの直観がqaoa初期状態の選択に応用できることを示す。
具体的には, adiabaticアルゴリズムによって要求されるように, qaoaの初期状態が混合ハミルトニアンの基底状態である場合, 最高の性能が得られることを観察する。
我々は、低 (p\leq 3$) および高 (p = 100$) QAOA 深さの制約付きポートフォリオ最適化問題の例を用いて、数値的なエビデンスを示し、ほとんどの場合、初期状態と混合ハミルトンの基底状態との整合が有益であることを示す。
我々は、異なる数のトロッターステップを用いて、正確に、ほぼ両方をシミュレートするハミング重保存XYミキサーの多くのバリエーションを比較した。
我々は,初期状態が(実際に)XYモデルの既定基底状態に設定された場合,低トラッター誤差によりQAOA性能が向上することが観察された。
さらに,32量子ビットの捕捉イオン量子プロセッサ上でのポートフォリオ最適化に,xyミキサーを用いたqaoaを適用することに成功し,短期実験における本研究の意義について考察した。 Quantum alternating operator ansatz (QAOA) is a promising quantum algorithm for combinatorial optimization. QAOA has a strong connection to the adiabatic algorithm, which it can approximate with sufficient depth. At the same time, it is unclear to what extent the lessons from the adiabatic regime apply to QAOA as executed in practice, i.e., with small to moderate depth. In this paper, we demonstrate that the intuition from the adiabatic algorithm applies to the task of choosing the QAOA initial state. Specifically, we observe that the best performance is obtained when the initial state of QAOA is set to be the ground state of the mixing Hamiltonian, as required by the adiabatic algorithm. We provide numerical evidence using the examples of constrained portfolio optimization problems with both low ($p\leq 3$) and high ($p = 100$) QAOA depth, suggesting that the alignment between the initial state and the ground state of the mixing Hamiltonian is beneficial in most cases. We compare many variations of Hamming-weight-preserving XY mixers, which we simulate both exactly and approximately, using different numbers of Trotter steps. We observe that lower Trotter error improves QAOA performance when the initial state is set to be the easy-to-prepare ground state of the (exact) XY model. In addition, we successfully apply QAOA with XY mixer to portfolio optimization on a trapped-ion quantum processor using 32 qubits and discuss the implications of our findings to near-term experiments. | 翻訳日:2023-05-09 19:02:37 公開日:2023-05-05 |
# ベイズ逆問題に対するロバストA最適実験設計 Robust A-Optimal Experimental Design for Bayesian Inverse Problems ( http://arxiv.org/abs/2305.03855v1 ) ライセンス: Link先を確認 | Ahmed Attia and Sven Leyffer and Todd Munson | (参考訳) ベイジアン逆問題に対する実験の最適設計は近年広く普及し、特に計算科学やベイジアン逆問題において多くの注目を集めている。
最適設計は、パラメータ識別に最適なセンサ配置である例として、逆問題の要素の観点から定式化された事前定義されたユーティリティ関数を最大化する。
この単純な定式化に続く最先端のアルゴリズム的アプローチは、一般に、前者や測定の不確実性のような逆問題の要素の誤特定を見落としている。
本研究は,ベイズ逆問題に対する最適実験設計スキームを設計するための効率的なアルゴリズム的手法を提案する。
具体的には,不確実あるいは不特定パラメータに対する最悪のシナリオアプローチを検討し,頑健な目標を定式化し,それらの目標を最適化するためのアルゴリズム的アプローチを提案する。
リラクゼーションと確率解法の両方について,問題の解釈と提案するアルゴリズム的アプローチに関する詳細な分析と洞察とともに議論した。
パラメータ同定問題におけるセンサ配置に対する提案手法の検証と解析を行うための大規模な数値実験を行った。 Optimal design of experiments for Bayesian inverse problems has recently gained wide popularity and attracted much attention, especially in the computational science and Bayesian inversion communities. An optimal design maximizes a predefined utility function that is formulated in terms of the elements of an inverse problem, an example being optimal sensor placement for parameter identification. The state-of-the-art algorithmic approaches following this simple formulation generally overlook misspecification of the elements of the inverse problem, such as the prior or the measurement uncertainties. This work presents an efficient algorithmic approach for designing optimal experimental design schemes for Bayesian inverse problems such that the optimal design is robust to misspecification of elements of the inverse problem. Specifically, we consider a worst-case scenario approach for the uncertain or misspecified parameters, formulate robust objectives, and propose an algorithmic approach for optimizing such objectives. Both relaxation and stochastic solution approaches are discussed with detailed analysis and insight into the interpretation of the problem and the proposed algorithmic approach. Extensive numerical experiments to validate and analyze the proposed approach are carried out for sensor placement in a parameter identification problem. | 翻訳日:2023-05-09 19:02:08 公開日:2023-05-05 |
# chai-dt: 会話型生成aiエージェントが積極的に共同創造に参加するためのフレームワーク CHAI-DT: A Framework for Prompting Conversational Generative AI Agents to Actively Participate in Co-Creation ( http://arxiv.org/abs/2305.03852v1 ) ライセンス: Link先を確認 | Brandon Harwood | (参考訳) 本稿では,ビジネスイノベーションと共同創造コンテキストにおける問題解決とイデオロギーを高めるために,グループ中心の共創造フレームワークにおいて生成型aiモデルを活用する可能性について検討し,従来の「人間対人間」ファシリテーションに触発された手法と,共同創造型フレームワークであるデザイン思考への積極的な貢献を可能にするための指導を用いた対話型生成型aiエージェントのための新しい促進手法を提案する。
このプロンプト技術を用いた実験により、会話生成トランスフォーマー(ChatGPT)が、コンテキスト特異的で有用で創造的なインプットをデザイン思考活動に貢献できることを示す。
また、創造的AIモデルを用いた共同創造的アイデアの潜在的なメリット、限界、リスクについても論じ、今後の研究に推奨する。 This paper explores the potential for utilizing generative AI models in group-focused co-creative frameworks to enhance problem solving and ideation in business innovation and co-creation contexts, and proposes a novel prompting technique for conversational generative AI agents which employ methods inspired by traditional 'human-to-human' facilitation and instruction to enable active contribution to Design Thinking, a co-creative framework. Through experiments using this prompting technique, we gather evidence that conversational generative transformers (i.e. ChatGPT) have the capability to contribute context-specific, useful, and creative input into Design Thinking activities. We also discuss the potential benefits, limitations, and risks associated with using generative AI models in co-creative ideation and provide recommendations for future research. | 翻訳日:2023-05-09 19:01:50 公開日:2023-05-05 |
# u-need: ユーザニーズ中心の電子商取引推薦のためのきめ細かいデータセット U-NEED: A Fine-grained Dataset for User Needs-Centric E-commerce Conversational Recommendation ( http://arxiv.org/abs/2305.04774v1 ) ライセンス: Link先を確認 | Yuanxing Liu, Weinan Zhang, Baohua Dong, Yan Fan, Hang Wang, Fan Feng, Yifan Chen, Ziyu Zhuang, Hengbin Cui, Yongbin Li, Wanxiang Che | (参考訳) 会話推薦システム(CRS)は,対話で表現される情報ニーズや嗜好を理解し,適切な項目をユーザに推薦することを目的としている。
既存の会話型レコメンデーションデータセットのほとんどは、クラウドソーシングによって合成またはシミュレートされており、現実のシナリオと大きなギャップがある。
ギャップを埋めるために、以前の作業は、Eコマースシナリオにおけるユーザとカスタマーサービススタッフ間の事前販売対話に基づくデータセットE-ConvRecに貢献している。
しかし、E-ConvRecは、大まかなアノテーションと、事前販売の対話でレコメンデーションを行うための一般的なタスクのみを提供する。
それとは違って、私たちは、ユーザニーズ中心のEコマース対話レコメンデーション(UNECR)という複雑なプレセールス対話において、Eコマースの会話レコメンデーションを探求する手がかりとして、実際のユーザニーズを使用します。
本稿では,現実のEコマースシナリオからユーザニーズ中心のEコマース対話レコメンデーションデータセット(U-NEED)を構築する。
U-NEEDは3種類のリソースから構成される。
(i)5つのカテゴリーの細粒化前販売対話7,698件
(ii)ユーザーの行動333,879件
(iii)製品知識タプル332,148。
UNECRの研究を容易にするために,我々は5つの重要な課題を提案する。
(i)事前販売の対話理解
(ii)利用者には啓発が必要である
(iii)ユーザニーズに基づくレコメンデーション
(iv)プレセール対話生成及び
(v)事前販売対話評価。
各タスクのベースラインメソッドと評価メトリクスを確立します。
U-NEEDにおける5つの課題の実験結果について報告する。
また,3つの典型例を報告した。
実験結果から,様々なカテゴリーにおけるUNECRの課題が異なることが明らかとなった。 Conversational recommender systems (CRSs) aim to understand the information needs and preferences expressed in a dialogue to recommend suitable items to the user. Most of the existing conversational recommendation datasets are synthesized or simulated with crowdsourcing, which has a large gap with real-world scenarios. To bridge the gap, previous work contributes a dataset E-ConvRec, based on pre-sales dialogues between users and customer service staff in E-commerce scenarios. However, E-ConvRec only supplies coarse-grained annotations and general tasks for making recommendations in pre-sales dialogues. Different from that, we use real user needs as a clue to explore the E-commerce conversational recommendation in complex pre-sales dialogues, namely user needs-centric E-commerce conversational recommendation (UNECR). In this paper, we construct a user needs-centric E-commerce conversational recommendation dataset (U-NEED) from real-world E-commerce scenarios. U-NEED consists of 3 types of resources: (i) 7,698 fine-grained annotated pre-sales dialogues in 5 top categories (ii) 333,879 user behaviors and (iii) 332,148 product knowledge tuples. To facilitate the research of UNECR, we propose 5 critical tasks: (i) pre-sales dialogue understanding (ii) user needs elicitation (iii) user needs-based recommendation (iv) pre-sales dialogue generation and (v) pre-sales dialogue evaluation. We establish baseline methods and evaluation metrics for each task. We report experimental results of 5 tasks on U-NEED. We also report results in 3 typical categories. Experimental results indicate that the challenges of UNECR in various categories are different. | 翻訳日:2023-05-09 14:01:32 公開日:2023-05-05 |
# 集合型信念伝播とマッピング, MTT, SLAM, SLATへの応用 Set-Type Belief Propagation with Applications to Mapping, MTT, SLAM, and SLAT ( http://arxiv.org/abs/2305.04797v1 ) ライセンス: Link先を確認 | Hyowon Kim, Angel F. Garc\'ia-Fern\'andez, Yu Ge, Yuxuan Xia, Lennart Svensson, Henk Wymeersch | (参考訳) 信念伝播 (bp) は確率変数の近似限界確率密度を効率的に計算する有用な確率的推論アルゴリズムである。
しかし、標準形式では、BPはベクトル型確率変数のみに適用できるが、特定のアプリケーションは未知のベクトル要素を持つ集合型確率変数に依存している。
本稿では,まず,集合型確率変数に対するBP規則を開発し,ベクトル型BPが集合型BPの特別な場合であることを実証する。
さらに,集合変数をランダムな要素と濃度で対応できる集合因子ノードを考案し,ベクトル型ベクトル要素の数を把握しながら,集合因子と集合変数ノードを持つ因子グラフを提案する。
開発した集合型bpの有効性を実証するために,poisson multi-bernoulli (pmb) filter for concurrent localization and mapping (slam) に適用した。
最後に,ベクトル型BP-SLAMフィルタと提案したセット型BP-SLAMフィルタとの接続を明らかにし,ベクトル型BP-SLAMフィルタと比較して,提案したセット型BP-SLAMフィルタの性能向上を示す。 Belief propagation (BP) is a useful probabilistic inference algorithm for efficiently computing approximate marginal probability densities of random variables. However, in its standard form, BP is applicable to only the vector-type random variables, while certain applications rely on set-type random variables with an unknown number of vector elements. In this paper, we first develop BP rules for set-type random variables and demonstrate that vector-type BP is a special case of set-type BP. We further propose factor graphs with set-factor and set-variable nodes by devising the set-factor nodes that can address the set-variables with random elements and cardinality, while the number of vector elements in vector-type is known. To demonstrate the validity of developed set-type BP, we apply it to the Poisson multi-Bernoulli (PMB) filter for simultaneous localization and mapping (SLAM), which naturally leads to a new set-type BP-SLAM filter. Finally, we reveal connections between the vector-type BP-SLAM filter and the proposed set-type BP-SLAM filter and show a performance gain of the proposed set-type BP-SLAM filter in comparison with the vector-type BP-SLAM filter. | 翻訳日:2023-05-09 13:52:12 公開日:2023-05-05 |
# NewsQuote: Fact-Checkingのエキスパートレコメンデーションのための詳細抽出と属性に基づくデータセット NewsQuote: A Dataset Built on Quote Extraction and Attribution for Expert Recommendation in Fact-Checking ( http://arxiv.org/abs/2305.04825v1 ) ライセンス: Link先を確認 | Wenjia Zhang and Lin Gui and Rob Procter and Yulan He | (参考訳) ニュース記事に信頼できる証拠を見つける能力を高めるため,特定のニューストピックについて信頼できる専門家を特定することを目的とした,専門家推薦の新たなタスクを提案する。
この目的を達成するために、COVID-19ニュースコーパスに現れた24,031個の引用話者ペアからなる新しいNewsQuoteデータセットの構築について述べる。
BERTに基づく質問応答モデルを用いて話者と引用抽出のための自動パイプラインを示す。
次に,専門家識別のための中間ステップとして,関連する引用を検索し,候補者に対するクエリ条件の確率に基づいて情報源を直接検索することで,専門家推薦を文書検索タスクとして定式化する。
newsquote における実験結果から,特定のニューストピックに対する文書検索は,専門家の検索と比較して,関連する専門家の識別に有効であることが示された。 To enhance the ability to find credible evidence in news articles, we propose a novel task of expert recommendation, which aims to identify trustworthy experts on a specific news topic. To achieve the aim, we describe the construction of a novel NewsQuote dataset consisting of 24,031 quote-speaker pairs that appeared on a COVID-19 news corpus. We demonstrate an automatic pipeline for speaker and quote extraction via a BERT-based Question Answering model. Then, we formulate expert recommendations as document retrieval task by retrieving relevant quotes first as an intermediate step for expert identification, and expert retrieval by directly retrieving sources based on the probability of a query conditional on a candidate expert. Experimental results on NewsQuote show that document retrieval is more effective in identifying relevant experts for a given news topic compared to expert retrieval | 翻訳日:2023-05-09 13:41:36 公開日:2023-05-05 |
# マルコフ決定プロセスと機械学習技術を用いたオンライン広告におけるリアルタイム入札の改善 Improving Real-Time Bidding in Online Advertising Using Markov Decision Processes and Machine Learning Techniques ( http://arxiv.org/abs/2305.04889v1 ) ライセンス: Link先を確認 | Parikshit Sharma | (参考訳) リアルタイム入札は効果的なオンライン広告手法として登場した。
リアルタイム入札により、広告主はインプレッションごとに広告を配置でき、特定の視聴者をリアルタイムでターゲットすることで広告キャンペーンを最適化することができる。
本稿では,ディープラーニングと強化学習を組み合わせたリアルタイム入札手法を提案する。
特に,提案手法では,オークションの詳細と市場価格を予測するためのディープニューラルネットワークと,最適な入札価格を決定するための強化学習アルゴリズムを用いる。
このモデルは、iPinYouデータセットの履歴データを使用してトレーニングされ、最先端のリアルタイム入札アルゴリズムと比較される。
その結果,提案手法は費用対効果と精度が好ましいことが示された。
さらに,提案アルゴリズムの性能に及ぼす各種モデルパラメータの影響について検討した。
リアルタイム入札におけるディープラーニングと強化学習の併用の有効性に関する洞察を提供する。
本研究は,技術の進歩に寄与し,今後の研究に有望な方向性を提供する。 Real-time bidding has emerged as an effective online advertising technique. With real-time bidding, advertisers can position ads per impression, enabling them to optimise ad campaigns by targeting specific audiences in real-time. This paper proposes a novel method for real-time bidding that combines deep learning and reinforcement learning techniques to enhance the efficiency and precision of the bidding process. In particular, the proposed method employs a deep neural network to predict auction details and market prices and a reinforcement learning algorithm to determine the optimal bid price. The model is trained using historical data from the iPinYou dataset and compared to cutting-edge real-time bidding algorithms. The outcomes demonstrate that the proposed method is preferable regarding cost-effectiveness and precision. In addition, the study investigates the influence of various model parameters on the performance of the proposed algorithm. It offers insights into the efficacy of the combined deep learning and reinforcement learning approach for real-time bidding. This study contributes to advancing techniques and offers a promising direction for future research. | 翻訳日:2023-05-09 13:20:55 公開日:2023-05-05 |
# モデルミス種別に対する高速かつロバストなランクアグリゲーション Fast and Robust Rank Aggregation against Model Misspecification ( http://arxiv.org/abs/1905.12341v2 ) ライセンス: Link先を確認 | Yuangang Pan, Weijie Chen, Gang Niu, Ivor W. Tsang, Masashi Sugiyama | (参考訳) ランクアグリゲーション(ra)では、異なるユーザからの選好の集まりを、ユーザの均質性を仮定して総順序にまとめる。
raにおけるモデル誤特定は、複雑な実世界の状況において同質性仮定が満足できないために生じる。
既存のロバストなRAは、通常、追加のノイズを考慮するためにランキングモデルの強化を頼りにしており、そこで収集された嗜好は理想化された嗜好の騒々しい摂動として扱うことができる。
頑健なRAの大多数は特定の摂動仮定に頼っているため、実世界ではノイズを伴わない選好を一般化することはできない。
本稿では,モデル誤特定に対する堅牢性を有するCoarsenRankを提案する。
具体的には,CoarsenRankの特性を次のように要約する。 1) CoarsenRankは,実際の嗜好の近傍に位置する理想的な選好(モデル仮定との整合性)が存在すると仮定した,軽度のモデルミススペクテーションのために設計されている。
2) CoarsenRankは、元のデータセットを直接ではなく、好みの近傍で正規のRAを実行する。
そのため、CoarsenRankは、地区内でのモデルの不特定に対して堅牢性を持っている。
(3)データセットの近傍は経験的データ分布によって定義される。
さらに, 近傍の未知の大きさに指数関数を前置し, 特に発散測度において, より単純化された後続式を導出する。
(4)Coarsened Thurstone、Coarsened Bradly-Terry、Coarsened Plackett-Luceは3つの一般的な確率ランキングモデルでインスタンス化される。
また、それぞれのインスタンス化に関して、扱いやすい最適化戦略を導入する。
最後に、実世界の4つのデータセットにCoarsenRankを適用する。 In rank aggregation (RA), a collection of preferences from different users are summarized into a total order under the assumption of homogeneity of users. Model misspecification in RA arises since the homogeneity assumption fails to be satisfied in the complex real-world situation. Existing robust RAs usually resort to an augmentation of the ranking model to account for additional noises, where the collected preferences can be treated as a noisy perturbation of idealized preferences. Since the majority of robust RAs rely on certain perturbation assumptions, they cannot generalize well to agnostic noise-corrupted preferences in the real world. In this paper, we propose CoarsenRank, which possesses robustness against model misspecification. Specifically, the properties of our CoarsenRank are summarized as follows: (1) CoarsenRank is designed for mild model misspecification, which assumes there exist the ideal preferences (consistent with model assumption) that locates in a neighborhood of the actual preferences. (2) CoarsenRank then performs regular RAs over a neighborhood of the preferences instead of the original dataset directly. Therefore, CoarsenRank enjoys robustness against model misspecification within a neighborhood. (3) The neighborhood of the dataset is defined via their empirical data distributions. Further, we put an exponential prior on the unknown size of the neighborhood, and derive a much-simplified posterior formula for CoarsenRank under particular divergence measures. (4) CoarsenRank is further instantiated to Coarsened Thurstone, Coarsened Bradly-Terry, and Coarsened Plackett-Luce with three popular probability ranking models. Meanwhile, tractable optimization strategies are introduced with regards to each instantiation respectively. In the end, we apply CoarsenRank on four real-world datasets. | 翻訳日:2023-05-08 18:50:57 公開日:2023-05-05 |
# ベイズ最適化のための不確かさ定量化 Uncertainty Quantification for Bayesian Optimization ( http://arxiv.org/abs/2002.01569v2 ) ライセンス: Link先を確認 | Rui Tuo, Wenjia Wang | (参考訳) ベイズ最適化はグローバル最適化手法のクラスである。
ベイズ最適化では、対象関数はガウス過程の実現としてモデル化される。
ガウス過程の仮定はベイズ最適化出力のランダム分布を意味するが、この不確かさの定量化が文献で研究されることは滅多にない。
本研究では,目的関数の最大点(または値)の信頼領域を構築することにより,ベイズ最適化アルゴリズムの出力不確実性を評価するための新しい手法を提案する。
これらの領域は効率的に計算でき、本研究で新たに開発された逐次ガウス過程回帰に対する一様誤差境界によって信頼度が保証される。
本理論は、既存の全ての逐次サンプリングポリシーと停止基準の統一不確実性定量化フレームワークを提供する。 Bayesian optimization is a class of global optimization techniques. In Bayesian optimization, the underlying objective function is modeled as a realization of a Gaussian process. Although the Gaussian process assumption implies a random distribution of the Bayesian optimization outputs, quantification of this uncertainty is rarely studied in the literature. In this work, we propose a novel approach to assess the output uncertainty of Bayesian optimization algorithms, which proceeds by constructing confidence regions of the maximum point (or value) of the objective function. These regions can be computed efficiently, and their confidence levels are guaranteed by the uniform error bounds for sequential Gaussian process regression newly developed in the present work. Our theory provides a unified uncertainty quantification framework for all existing sequential sampling policies and stopping criteria. | 翻訳日:2023-05-08 18:47:08 公開日:2023-05-05 |
# ガウスモデルに基づくクラスタリングにおける外れ値の探索 Finding Outliers in Gaussian Model-Based Clustering ( http://arxiv.org/abs/1907.01136v4 ) ライセンス: Link先を確認 | Katharine M. Clark and Paul D. McNicholas | (参考訳) 教師なし分類(unsupervised classification)またはクラスタリング(clustering)は、異常者によってしばしば悩まされる問題である。
外乱アルゴリズムは、外乱包含法とトリミング法という2つの広いカテゴリに分類される傾向があり、除去する点の数を事前に特定する必要がある。
サンプルマハラノビス距離がβ分布であるという事実は、部分有限ガウス混合モデルの対数分布を近似的に導くために用いられる。
対数類似度が基準分布に従うまで、外れ値と見なされる最も可能性の低い点を除去するアルゴリズムが提案されている。
この結果、トリミング法は本質的に存在する外れ値の数を推定する。 Unsupervised classification, or clustering, is a problem often plagued by outliers, yet there is a paucity of work on handling outliers in unsupervised classification. Outlier algorithms tend to fall into two broad categories: outlier inclusion methods and trimming methods, which often require pre-specification of the number of points to remove. The fact that sample Mahalanobis distance is beta-distributed is used to derive an approximate distribution for the log-likelihoods of subset finite Gaussian mixture models. An algorithm is proposed that removes the least likely points, which are deemed outliers, until the log-likelihoods adhere to the reference distribution. This results in a trimming method which inherently estimates the number of outliers present. | 翻訳日:2023-05-08 18:46:56 公開日:2023-05-05 |
# CaloFlow: 正規化フローによるキャロリメータショーアの高速かつ高精度生成 CaloFlow: Fast and Accurate Generation of Calorimeter Showers with Normalizing Flows ( http://arxiv.org/abs/2106.05285v3 ) ライセンス: Link先を確認 | Claudius Krause and David Shih | (参考訳) 正規化フローに基づく高速検出器シミュレーションフレームワークであるCaloFlowを紹介する。
計算量の多いgeant4シミュレーションや、gansやvaesに基づく最先端の高速シミュレーションフレームワークの代替として、フローの正規化が極めて高い忠実度で多チャンネルのカロリメータシャワーを再現できることを初めて実証した。
実際の画像と実際の画像とを区別するために訓練された分類器の性能について,通常のヒストグラムやカロリーメータシャワーの画像に加えて,生成モデルの品質を判断する新たな指標を導入する。
また,gan生成画像は100%精度で分類器によって識別できるが,caloflowから生成した画像は分類器を騙すことができる。
より広い範囲において、フローの正規化は、他の最先端のアプローチ(gansとvaes)と比較していくつかの利点を提供している。
正規化フローはまた、データと潜伏空間の間の単射マッピングを提供し、例えば展開を検知するためのシミュレーション以外の応用を与えることができる。 We introduce CaloFlow, a fast detector simulation framework based on normalizing flows. For the first time, we demonstrate that normalizing flows can reproduce many-channel calorimeter showers with extremely high fidelity, providing a fresh alternative to computationally expensive GEANT4 simulations, as well as other state-of-the-art fast simulation frameworks based on GANs and VAEs. Besides the usual histograms of physical features and images of calorimeter showers, we introduce a new metric for judging the quality of generative modeling: the performance of a classifier trained to differentiate real from generated images. We show that GAN-generated images can be identified by the classifier with nearly 100% accuracy, while images generated from CaloFlow are better able to fool the classifier. More broadly, normalizing flows offer several advantages compared to other state-of-the-art approaches (GANs and VAEs), including: tractable likelihoods; stable and convergent training; and principled model selection. Normalizing flows also provide a bijective mapping between data and the latent space, which could have other applications beyond simulation, for example, to detector unfolding. | 翻訳日:2023-05-08 18:19:38 公開日:2023-05-05 |
# ベイジアン階層的混合クラスタリングの後方規則化 Posterior Regularization on Bayesian Hierarchical Mixture Clustering ( http://arxiv.org/abs/2105.06903v7 ) ライセンス: Link先を確認 | Weipeng Huang, Tin Lok James Ng, Nishma Laitonjam, Neil J. Hurley | (参考訳) ベイジアン階層混合クラスタリング(BHMC)は、ガウスからガウスまでの従来のガウスのカーネルを階層的ディリクレプロセス混合モデル(HDPMM)に置き換えて、生成過程における親子拡散を改良する。
しかし、bhmcは高い節分散を持つ木を生産し、高いレベルでのノード間の弱い分離を示す。
この問題に対処するために,各レベルのノードに最大制約を課し,クラスタ分離を向上するポストリア正規化(Posterior Regularization)を採用している。
本稿では, PRをBHMCに適用し, そのBHMCモデルの改善効果を示す。 Bayesian hierarchical mixture clustering (BHMC) improves traditionalBayesian hierarchical clustering by replacing conventional Gaussian-to-Gaussian kernels with a Hierarchical Dirichlet Process Mixture Model(HDPMM) for parent-to-child diffusion in the generative process. However,BHMC may produce trees with high nodal variance, indicating weak separation between nodes at higher levels. To address this issue, we employ Posterior Regularization, which imposes max-margin constraints on nodes at every level to enhance cluster separation. We illustrate how to apply PR toBHMC and demonstrate its effectiveness in improving the BHMC model. | 翻訳日:2023-05-08 18:19:18 公開日:2023-05-05 |
# 摂動に対するノード表現の学習 Learning Node Representations against Perturbations ( http://arxiv.org/abs/2008.11416v3 ) ライセンス: Link先を確認 | Xu Chen and Yuangang Pan and Ivor Tsang and Ya Zhang | (参考訳) 近年のグラフニューラルネットワーク(GNN)はノード表現学習において顕著な性能を発揮している。
GNNの成功の重要な要因の1つは、ノード表現上の \emph{smoothness} プロパティである。
しかし、ほとんどのGNNモデルはグラフ入力の摂動に脆弱であり、信頼できないノード表現を学習することができる。
本稿では,GNNにおける摂動に対するノード表現の学習方法について検討する。
具体的には、入力に対するわずかな摂動の下でノード表現は安定であり、異なる構造からのノード表現は識別可能であり、2つはノード表現でそれぞれ \emph{stability} と \emph{identifiability} と呼ばれる。
そこで本研究では,信頼度の高いノード表現を教師なしで学習するSIGNNAP(Stable-Identifiability GNN Against Perturbations)を提案する。
SIGNNAPは、対照的な目的によって \emph{stability} と \emph{identifiability} を形式化し、既存のGNNバックボーンで \emph{smoothness} を保存する。
提案手法は,多数のバックボーンモデル(GCN, GraphSage, GATなど)を備えた汎用フレームワークである。
ノード分類の帰納的および帰納的学習環境下での6つのベンチマーク実験により,本手法の有効性が示された。
コードとデータはオンラインで入手できる:~\url{https://github.com/xuchensjtu/signnap-master-online} Recent graph neural networks (GNN) has achieved remarkable performance in node representation learning. One key factor of GNN's success is the \emph{smoothness} property on node representations. Despite this, most GNN models are fragile to the perturbations on graph inputs and could learn unreliable node representations. In this paper, we study how to learn node representations against perturbations in GNN. Specifically, we consider that a node representation should remain stable under slight perturbations on the input, and node representations from different structures should be identifiable, which two are termed as the \emph{stability} and \emph{identifiability} on node representations, respectively. To this end, we propose a novel model called Stability-Identifiability GNN Against Perturbations (SIGNNAP) that learns reliable node representations in an unsupervised manner. SIGNNAP formalizes the \emph{stability} and \emph{identifiability} by a contrastive objective and preserves the \emph{smoothness} with existing GNN backbones. The proposed method is a generic framework that can be equipped with many other backbone models (e.g. GCN, GraphSage and GAT). Extensive experiments on six benchmarks under both transductive and inductive learning setups of node classification demonstrate the effectiveness of our method. Codes and data are available online:~\url{https://github.com/xuChenSJTU/SIGNNAP-master-online} | 翻訳日:2023-05-08 18:19:07 公開日:2023-05-05 |
# PredProp: 精度重み付き予測符号化による双方向確率最適化 PredProp: Bidirectional Stochastic Optimization with Precision Weighted Predictive Coding ( http://arxiv.org/abs/2111.08792v2 ) ライセンス: Link先を確認 | Andr\'e Ofner and Sebastian Stober | (参考訳) 予測符号化ネットワーク(PCN)における重みと状態の最適化手法であるPredPropについて,伝搬誤差と神経活動の精度に基づいて述べる。
predpropは確率的勾配降下と近似曲率による適応的重み付けパラメータ更新による推論と学習を共同で扱う。
伝播誤差共分散とフィッシャー情報行列の関係から、predpropは近似的な自然勾配降下を行う。
我々は、高密度デコーダネットワークと単純な画像ベンチマークデータセットのコンテキストにおいて、PredPropの有効性を示す。
PredPropはテスト構成で広く使われている適応型学習率最適化器であるAdamよりも好適に動作することがわかった。
さらに、重みパラメータの最適化方法は、推論中にPredPropの誤差精度を使用することで得られる。
階層的予測符号化層は局所的誤差を用いて個別に最適化されるため、必要な精度は階層的層に分解される。
階層層ごとに1組のデコーダ層で古典的PCNを超えて拡張し,各PCN層の重みを加味して,各PCN層のディープニューラルネットワークにPredPropを一般化する。 We present PredProp, a method for optimization of weights and states in predictive coding networks (PCNs) based on the precision of propagated errors and neural activity. PredProp jointly addresses inference and learning via stochastic gradient descent and adaptively weights parameter updates by approximate curvature. Due to the relation between propagated error covariance and the Fisher information matrix, PredProp implements approximate Natural Gradient Descent. We demonstrate PredProp's effectiveness in the context of dense decoder networks and simple image benchmark datasets. We found that PredProp performs favorably over Adam, a widely used adaptive learning rate optimizer in the tested configurations. Furthermore, available optimization methods for weight parameters benefit from using PredProp's error precision during inference. Since hierarchical predictive coding layers are optimised individually using local errors, the required precisions factorize over hierarchical layers. Extending beyond classical PCNs with a single set of decoder layers per hierarchical layer, we also generalize PredProp to deep neural networks in each PCN layer by additionally factorizing over the weights in each PCN layer. | 翻訳日:2023-05-08 18:11:24 公開日:2023-05-05 |
# CaloFlow II: 正規化フローによるキャロリメータショーアの高速かつ高精度な生成 CaloFlow II: Even Faster and Still Accurate Generation of Calorimeter Showers with Normalizing Flows ( http://arxiv.org/abs/2110.11377v2 ) ライセンス: Link先を確認 | Claudius Krause and David Shih | (参考訳) 近年,正規化フローに基づくGEANT4カロリーシャワーエミュレーションのための高忠実度生成モデルであるCaloFlowを紹介した。
そこで,本研究では,シャワー発生速度を500倍に高速化するフレームワークであるcaloflow v2について紹介する。
この改善は,ml文献における音声合成のために開発された確率密度蒸留法に基づくもので,強力な損失項の導入によりさらに発展する。
我々は,CaloFlow v2が,定性的(平均画像,高次特徴ヒストグラム)と量的(GEANT4と生成したサンプルの分類基準)を用いて,元の高忠実度を保っていることを示す。
その結果、カロリーメータのシャワー生成モデルが、最先端の速さ(GEANT4よりも10^4$速い)と一致し、従来の忠実度をはるかに上回る結果となった。 Recently, we introduced CaloFlow, a high-fidelity generative model for GEANT4 calorimeter shower emulation based on normalizing flows. Here, we present CaloFlow v2, an improvement on our original framework that speeds up shower generation by a further factor of 500 relative to the original. The improvement is based on a technique called Probability Density Distillation, originally developed for speech synthesis in the ML literature, and which we develop further by introducing a set of powerful new loss terms. We demonstrate that CaloFlow v2 preserves the same high fidelity of the original using qualitative (average images, histograms of high level features) and quantitative (classifier metric between GEANT4 and generated samples) measures. The result is a generative model for calorimeter showers that matches the state-of-the-art in speed (a factor of $10^4$ faster than GEANT4) and greatly surpasses the previous state-of-the-art in fidelity. | 翻訳日:2023-05-08 18:11:08 公開日:2023-05-05 |
# ディジタル量子シミュレーションにおける量子カオスと普遍的トロータライズ挙動 Quantum Chaos and Universal Trotterisation Behaviours in Digital Quantum Simulations ( http://arxiv.org/abs/2110.11113v3 ) ライセンス: Link先を確認 | Cahit Kargi, Juan Pablo Dehollain, Lukas M. Sieberer, Fabio Henriques, Tobias Olsacher, Philipp Hauke, Markus Heyl, Peter Zoller and Nathan K. Langford | (参考訳) デジタル量子シミュレーション(DQS)は、量子プロセッサの最初の有用な実世界のアプリケーションを実現するための最も有望な道の1つである。
しかし、デバイスエンジニアリングの急速な進歩とフォールトトレラントな量子プロセッサの開発を仮定しても、アルゴリズムリソースの最適化は、その全力を活用するためには、長い間不可欠である。
現在、trotterizationは最先端のリソーススケーリングを提供する。
また、最近のトロッタ化イジングモデルの理論的研究は、予想よりも優れた性能が、経験的性能の異なる破壊しきい値まで可能であることを示唆している。
本稿では,実験的に実現可能なトロッタライゼーションを持つ複数のパラダイム的DQSモデルについて検討し,しきい値だけでなく,実用上最も重要となる先行状態の新たな特徴を含む,トロッタライズ性能挙動の普遍性を実証する。
各モデルにおいて、幅広い性能シグネチャ間で共有される異なるトロタライゼーション閾値を観察し、量子カオス力学の開始が性能低下を引き起こし、デジタル化エラーによって直接誘導されることを示す。
threshold以前の重要なシステムでは、定性的に異なる準周期的パフォーマンスの振る舞いを示す新しい異なるレジームを識別でき、適切に定義された操作的トロッターエラーに対する分析的振る舞いを示すことができる。
私たちの結果は、新しい分析ツールの多様化に大きく依存しており、局所観測可能領域、大域的量子状態、全トロッタ化ユニタリをまたいだトロタライズ行動の、これまで欠けていた統一的なイメージを提供します。
この研究は、アルゴリズムのパフォーマンスと十分に複雑なトロッタライゼーションベースのDQSの理論原理に関する重要な問題に対処するための新しい洞察とツールを提供し、将来の量子プロセッサから最大シミュレーションパワーを抽出するのに役立つ。 Digital quantum simulation (DQS) is one of the most promising paths for achieving first useful real-world applications for quantum processors. Yet even assuming rapid progress in device engineering and development of fault-tolerant quantum processors, algorithmic resource optimisation will long remain crucial to exploit their full power. Currently, Trotterisation provides state-of-the-art resource scaling. And recent theoretical studies of Trotterised Ising models suggest that even better performance than expected may be possible up to a distinct breakdown threshold in empirical performance. Here, we study multiple paradigmatic DQS models with experimentally realisable Trotterisations, and evidence the universality of a range of Trotterisation performance behaviours, including not only the threshold, but also new features in the pre-threshold regime that is most important for practical applications. In each model, we observe a distinct Trotterisation threshold shared across widely varying performance signatures; we further show that an onset of quantum chaotic dynamics causes the performance breakdown and is directly induced by digitisation errors. In the important pre-threshold regime, we are able to identify new distinct regimes displaying qualitatively different quasiperiodic performance behaviours, and show analytic behaviour for properly defined operational Trotter errors. Our results rely crucially on diverse new analytical tools, and provide a previously missing unified picture of Trotterisation behaviour across local observables, the global quantum state, and the full Trotterised unitary. This work provides new insights and tools for addressing important questions about the algorithm performance and underlying theoretical principles of sufficiently complex Trotterisation-based DQS, that will help in extracting maximum simulation power from future quantum processors. | 翻訳日:2023-05-08 18:10:48 公開日:2023-05-05 |
# 変圧器ganを用いた記号推論問題の生成 Generating Symbolic Reasoning Problems with Transformer GANs ( http://arxiv.org/abs/2110.10054v3 ) ライセンス: Link先を確認 | Jens U. Kreber and Christopher Hahn | (参考訳) トランスエンコーダを備えたgansおよびwasserstein gansの記号推論領域における有能かつ挑戦的なトレーニングデータを生成する能力について検討した。
我々は最近トランスフォーマーの応用が成功した2つの問題領域(記号数学と検証における時間的仕様)について実験を行った。
自己回帰がなくても、我々のGANモデルは構文的に正しいインスタンスを生成する。
その結果, 生成したデータは, 分類器を訓練する場合に, 実際の訓練データの代用として使用できること, 特に, 直接訓練するには小さすぎるデータセットから訓練データを生成できることが確認された。
我々は、ジェネレータの目的に分類器の不確かさ部分を追加することで、元のデータセットよりも時間的論理分類器の解くのがさらに難しいデータセットが得られることを示す。 We study the capabilities of GANs and Wasserstein GANs equipped with Transformer encoders to generate sensible and challenging training data for symbolic reasoning domains. We conduct experiments on two problem domains where Transformers have been successfully applied recently: symbolic mathematics and temporal specifications in verification. Even without autoregression, our GAN models produce syntactically correct instances. We show that the generated data can be used as a substitute for real training data when training a classifier, and, especially, that training data can be generated from a dataset that is too small to be trained on directly. Using a GAN setting also allows us to alter the target distribution: We show that by adding a classifier uncertainty part to the generator objective, we obtain a dataset that is even harder to solve for a temporal logic classifier than our original dataset. | 翻訳日:2023-05-08 18:10:16 公開日:2023-05-05 |
# 単一光子検出器の異常超線形応答の実験的観察 Experimental observation of anomalous supralinear response of single-photon detectors ( http://arxiv.org/abs/2109.08347v3 ) ライセンス: Link先を確認 | Josef Hlou\v{s}ek, Ivo Straka, Miroslav Je\v{z}ek | (参考訳) 前例のない精度で単一光子検出器の絶対非線形性を直接測定する。
単光子アバランシェダイオードの驚くべき超線形挙動を発見し、既知の理論モデルでは説明できないことを示す。
また, 超伝導ナノワイヤ単光子検出器のサブ・超線形動作特性を完全に把握し, かすかな連続照明下での超線形性を明らかにする。
その結果, 単一光子レベルでの非線形効果に関する既存の知識に取って代わる新しい検出器異常が同定された。 We demonstrate a direct single-source measurement of absolute nonlinearity of single-photon detectors with unprecedented accuracy. We discover a surprising supralinear behavior of single-photon avalanche diodes and show that it cannot be explained using known theoretical models. We also fully characterize sub- and supra-linear operation regimes of superconducting nanowire single-photon detectors and uncover the supralinearity under faint continuous illumination. The results identify new detector anomalies that supersede existing knowledge of nonlinear effects at the single-photon level. | 翻訳日:2023-05-08 18:10:03 公開日:2023-05-05 |
# 単一光子の実現限界 Limits for realizing single photons ( http://arxiv.org/abs/2109.06472v2 ) ライセンス: Link先を確認 | Jan Gulla, Kai Ryen, Johannes Skaar | (参考訳) 特定の単一光子は無限尾のためにオンデマンドで生成できない。
対象の単一光子に対して実現可能な状態がどの程度近いかを定量化するために、ターゲットの状態を特定するには自然だが相容れない2つの方法が存在すると論じる。
選択された正の周波数スペクトルを持つ光子として表すか、選択された正の時間パルスにおいて(非物理的)光子として表すことができる。
いずれの場合においても,最大忠実度に対する上限と下限を決定する。
境界は、それぞれ負の時間または負の周波数で、対象状態の尾の大きさの関数として表される。
また、任意の光子数状態の境界を一般化する。 Exact single photons cannot be generated on demand due to their infinite tails. To quantify how close realizable states can be to some target single photon, we argue that there are two natural but incompatible ways to specify the target state. Either it can be expressed as a photon with a chosen, positive-frequency spectrum, or it can be described as an (unphysical) photon in a chosen, positive-time pulse. We determine upper and lower bounds for the maximum fidelity in both cases. The bounds are expressed as functions of the size of the target state's tail, for negative time or negative frequency, respectively. We also generalize the bounds to arbitrary photon-number states. | 翻訳日:2023-05-08 18:09:53 公開日:2023-05-05 |
# Sachdev-Ye-Kitaevモデルの普遍平衡ダイナミクス Universal equilibration dynamics of the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2108.01718v3 ) ライセンス: Link先を確認 | Soumik Bandyopadhyay, Philipp Uhrich, Alessio Paviglianiti and Philipp Hauke | (参考訳) 相転移近傍の平衡量子多体系は、普遍性を示す。
対照的に、量子臨界相における系の非平衡進化における普遍的な特性に関する限られた知識が得られている。
この文脈では、普遍性は、可観測性の微視的システムパラメータと初期条件に対する無感性に起因する。
ここでは、Sachdev-Ye-Kitaev (SYK) Hamiltonianの平衡力学におけるそのような普遍的な特徴について述べる。
我々は、グローバルなクエンチを行い、システムの平衡から遠く離れて、そのアンサンブル平均が定常状態にどのように緩和するかを追跡する。
正確な進化のための最先端の数値シミュレーションを用いて,量子フィッシャー情報や局所作用素の低次モーメントを含む数体観測器の無秩序な進化が,数値分解能内で普遍的平衡過程として現れることを明らかにした。
単純な再スケーリングの下では、異なる初期状態に対応するデータが普遍曲線に崩壊し、それは進化の大部分がガウスによってよく近似される。
この過程の背後にある物理学を明らかにするために、ノヴィコフ・フルツの定理に基づく一般理論の枠組みを定式化する。
このフレームワークは、多体系の無秩序平均ダイナミクスを効果的な散逸進化として抽出し、この作業を超えて応用することができる。
sykアンサンブルの正確な非マルコフ的進化は、ボレー=マルコフ近似によって非常によく捉えられ、システムの極端なカオス性によって共通のロアとは対照的に正当化され、対応するリウヴィリアンのスペクトル分析で普遍性が明らかにされる。 Equilibrium quantum many-body systems in the vicinity of phase transitions generically manifest universality. In contrast, limited knowledge has been gained on possible universal characteristics in the non-equilibrium evolution of systems in quantum critical phases. In this context, universality is generically attributed to the insensitivity of observables to the microscopic system parameters and initial conditions. Here, we present such a universal feature in the equilibration dynamics of the Sachdev-Ye-Kitaev (SYK) Hamiltonian -- a paradigmatic system of disordered, all-to-all interacting fermions that has been designed as a phenomenological description of quantum critical regions. We drive the system far away from equilibrium by performing a global quench, and track how its ensemble average relaxes to a steady state. Employing state-of-the-art numerical simulations for the exact evolution, we reveal that the disorder-averaged evolution of few-body observables, including the quantum Fisher information and low-order moments of local operators, exhibit within numerical resolution a universal equilibration process. Under a straightforward rescaling, data that correspond to different initial states collapse onto a universal curve, which can be well approximated by a Gaussian throughout large parts of the evolution. To reveal the physics behind this process, we formulate a general theoretical framework based on the Novikov--Furutsu theorem. This framework extracts the disorder-averaged dynamics of a many-body system as an effective dissipative evolution, and can have applications beyond this work. The exact non-Markovian evolution of the SYK ensemble is very well captured by Bourret--Markov approximations, which contrary to common lore become justified thanks to the extreme chaoticity of the system, and universality is revealed in a spectral analysis of the corresponding Liouvillian. | 翻訳日:2023-05-08 18:09:02 公開日:2023-05-05 |
# PyNET-QxQ: CMOSイメージセンサにおけるQxQベイアパターンデモのための効率的なPyNETバリアント PyNET-QxQ: An Efficient PyNET Variant for QxQ Bayer Pattern Demosaicing in CMOS Image Sensors ( http://arxiv.org/abs/2203.04314v2 ) ライセンス: Link先を確認 | Minhyeok Cho, Haechang Lee, Hyunwoo Je, Kijeong Kim, Dongil Ryu, and Albert No | (参考訳) モバイルカメラ用のディープラーニングベースの画像信号プロセッサ(ISP)モデルは、プロのDSLRカメラに匹敵する高品質な画像を生成することができる。
しかし、それらの計算要求は、しばしばモバイル設定に適さない。
さらに、現代のモバイルカメラは画質を向上させるためにQuad Bayer、Nona Bayer、QxQ Bayerなどの非Bayerカラーフィルタアレイ(CFA)を使用しているが、既存のディープラーニングベースのISP(またはデモサイシング)モデルは、主に標準的なBayer CFAに焦点を当てている。
本研究では,QxQ Bayer CFAパターンに特化して設計されたPyNET-QxQについて述べる。
また,還元ネットワークをより効果的に訓練するために,プログレッシブ蒸留と呼ばれる知識蒸留手法を提案する。
その結果、PyNET-QxQはオリジナルのPyNETのパラメータの2.5%以下であり、性能を保っている。
プロト型QxQカメラセンサで撮影したQxQ画像を用いて実験したところ、PyNET-QxQはパラメータ数が大幅に減少しているにもかかわらず、テクスチャとエッジ再構成の点で従来のアルゴリズムよりも優れていることがわかった。 Deep learning-based image signal processor (ISP) models for mobile cameras can generate high-quality images that rival those of professional DSLR cameras. However, their computational demands often make them unsuitable for mobile settings. Additionally, modern mobile cameras employ non-Bayer color filter arrays (CFA) such as Quad Bayer, Nona Bayer, and QxQ Bayer to enhance image quality, yet most existing deep learning-based ISP (or demosaicing) models focus primarily on standard Bayer CFAs. In this study, we present PyNET-QxQ, a lightweight demosaicing model specifically designed for QxQ Bayer CFA patterns, which is derived from the original PyNET. We also propose a knowledge distillation method called progressive distillation to train the reduced network more effectively. Consequently, PyNET-QxQ contains less than 2.5% of the parameters of the original PyNET while preserving its performance. Experiments using QxQ images captured by a proto type QxQ camera sensor show that PyNET-QxQ outperforms existing conventional algorithms in terms of texture and edge reconstruction, despite its significantly reduced parameter count. | 翻訳日:2023-05-08 18:01:01 公開日:2023-05-05 |
# バイアス調整量子LDPC符号 Bias-tailored quantum LDPC codes ( http://arxiv.org/abs/2202.01702v3 ) ライセンス: Link先を確認 | Joschka Roffe, Lawrence Z. Cohen, Armanda O. Quintavalle, Daryus Chandra, Earl T. Campbell | (参考訳) バイアス調整により量子誤り訂正符号は量子ビットノイズ非対称性を利用することができる。
近年,XZZX符号の変形形は,バイアス雑音下での大幅な性能向上を示すことが明らかとなった。
本研究では、量子低密度パリティチェック符号も同様にバイアス調整可能であることを示す。
本稿では,2次元トポロジカルコード群を超えてバイアス調整手法を拡張するためのフレームワークを提供する。
本稿では,古典的準巡回符号に基づくバイアス対応揚陸積符号の例を示し,その性能を信念伝播と順序統計デコーダを用いて数値的に評価する。
非対称雑音下でのモンテカルロシミュレーションにより, 偏極雑音に対する誤差抑圧において, バイアス調整符号が数桁の精度向上を実現することを示した。 Bias-tailoring allows quantum error correction codes to exploit qubit noise asymmetry. Recently, it was shown that a modified form of the surface code, the XZZX code, exhibits considerably improved performance under biased noise. In this work, we demonstrate that quantum low density parity check codes can be similarly bias-tailored. We introduce a bias-tailored lifted product code construction that provides the framework to expand bias-tailoring methods beyond the family of 2D topological codes. We present examples of bias-tailored lifted product codes based on classical quasi-cyclic codes and numerically assess their performance using a belief propagation plus ordered statistics decoder. Our Monte Carlo simulations, performed under asymmetric noise, show that bias-tailored codes achieve several orders of magnitude improvement in their error suppression relative to depolarising noise. | 翻訳日:2023-05-08 17:59:29 公開日:2023-05-05 |
# 3次元物体検出モデルと方法の調査と体系化 Survey and Systematization of 3D Object Detection Models and Methods ( http://arxiv.org/abs/2201.09354v2 ) ライセンス: Link先を確認 | Moritz Drobnitzky, Jonas Friederich, Bernhard Egger, Patrick Zschech | (参考訳) 自動運転車の強い需要と3Dセンサーの普及により、3Dオブジェクト検出の新しい手法が提案され続けている。
本稿では,2012-2021年における入力データ,データ表現,特徴抽出から実際の検出モジュールまでの全パイプラインをカバーする3次元物体検出の最近の展開を包括的に調査する。
我々は、基本的な概念を導入し、過去10年間に現れた様々なアプローチに焦点を合わせ、これらのアプローチと将来の開発、評価、アプリケーション活動の指針とを比較するための実践的なフレームワークを提供する体系化を提案する。
具体的には、3Dオブジェクト検出モデルと手法の探索と体系化により、研究者や実践者が3DODソリューションをより管理しやすいものに分解することで、現場の概要を素早く把握することができる。 Strong demand for autonomous vehicles and the wide availability of 3D sensors are continuously fueling the proposal of novel methods for 3D object detection. In this paper, we provide a comprehensive survey of recent developments from 2012-2021 in 3D object detection covering the full pipeline from input data, over data representation and feature extraction to the actual detection modules. We introduce fundamental concepts, focus on a broad range of different approaches that have emerged over the past decade, and propose a systematization that provides a practical framework for comparing these approaches with the goal of guiding future development, evaluation and application activities. Specifically, our survey and systematization of 3D object detection models and methods can help researchers and practitioners to get a quick overview of the field by decomposing 3DOD solutions into more manageable pieces. | 翻訳日:2023-05-08 17:59:17 公開日:2023-05-05 |
# 量子記憶の相互作用によって引き起こされるユニタリ進化:状態履歴を用いた閉量子系 Unitary Evolutions Sourced By Interacting Quantum Memories: Closed Quantum Systems Directing Themselves Using Their State Histories ( http://arxiv.org/abs/2201.05583v3 ) ライセンス: Link先を確認 | Alireza Tavanfar, Aliasghar Parvizi, Marco Pezzutto | (参考訳) 本稿では,システムの内部相互作用とユニタリ時間進化の源泉となるために,システムの記憶の瞬間的選択が相互作用する新しい量子系と行動相を定式化し,検証する。
この種の閉じたシステムでは、ユニタリ進化演算子は、システムの'経験'、すなわち量子状態履歴から再作成され、瞬間的に更新される。
これらのユニタリ進化を生成する 'Quantum Memory Made' Hamiltonian (QMM-Hs) は、閉系またはその任意の部分系の任意の非局所時間作用素である。
この種の時間進化は、新しい非局所非線形フォン・ノイマン方程式とシュリンガー方程式によって記述される。
非自明な純粋qmmユニタリ進化は「ロバスト的に非マルコフ的」であり、選択された量子記憶の間の最大時間距離は相互作用結合によって設定される有限の下限を超える必要がある。
一般的な定式化と考察の後,1,2,3量子記憶からなる多項式qmm-hsによって生成される1量子ビットの純粋状態進化の行動相を十分に獲得し,分類するタスクに注目する。
QMM-Hsから得られた行動アトラクションは,QMMの2点関数オブザーバブルを自然なプローブとして用いて,解析手法と広範囲な数値解析を組み合わせた分類を行う。
QMM相図は卓越した豊かさを示し、前例のない単体進化のクラスと物理的に顕著な振る舞いを持つ。
さらに,QMM相互作用が純粋に内部的な動的相転移を引き起こすことを示す。
最後に,提案する「実験中心」ユニタリ進化をnatuarlly と advantagely で適用可能な,独立した基本および適用領域を提案する。 We propose, formulate and examine novel quantum systems and behavioral phases in which momentary choices of the system's memories interact in order to source the internal interactions and unitary time evolutions of the system. In a closed system of the kind, the unitary evolution operator is updated, moment by moment, by being remade out of the system's `experience', that is, its quantum state history. The `Quantum Memory Made' Hamiltonians (QMM-Hs) which generate these unitary evolutions are Hermitian nonlocal-in-time operators composed of arbitrarily-chosen past-until-present density operators of the closed system or its arbitrary subsystems. The time evolutions of the kind are described by novel nonlocal nonlinear von Neumann and Schr\"odinger equations. We establish that nontrivial Purely-QMM unitary evolutions are `Robustly Non-Markovian', meaning that the maximum temporal distances between the chosen quantum memories must exceed finite lower bounds which are set by the interaction couplings. After general formulation and considerations, we focus on the sufficiently-involved task of obtaining and classifying behavioral phases of one-qubit pure-state evolutions generated by first-to-third order polynomial QMM-Hs made out of one, two and three quantum memories. The behavioral attractors resulted from QMM-Hs are characterized and classified using QMM two-point-function observables as the natural probes, upon combining analytical methods with extensive numerical analyses. The QMM phase diagrams are shown to be outstandingly rich, having diverse classes of unprecedented unitary evolutions with physically remarkable behaviors. Moreover, we show that QMM interactions cause novel purely-internal dynamical phase transitions. Finally, we suggest independent fundamental and applied domains where the proposed `Experience Centric' Unitary Evolutions can be applied natuarlly and advantageously. | 翻訳日:2023-05-08 17:59:03 公開日:2023-05-05 |
# トポロジカル量子計算は双曲的です Topological quantum computation is hyperbolic ( http://arxiv.org/abs/2201.00857v4 ) ライセンス: Link先を確認 | Eric Samperton (Purdue University) | (参考訳) そこで,Witten-Reshetikhin-Turaev TQFT不変ノットの評価に基づくトポロジカル量子コンピュータは,常に1つの計算するノット図が双曲ノットの図形となるように配置可能であることを示す。
図は、最小交差数で交互にされるような追加の優れた性質を持つように配置することもできる。
また、着色対象の自己受動指数において、低減は多項式的に均一である。
結び目の量子不変量の計算に関する様々な複雑性理論的硬さの結果が系として従う。
特に、結び目の双曲幾何学は位相量子計算に有用ではないと主張する。 We show that a topological quantum computer based on the evaluation of a Witten-Reshetikhin-Turaev TQFT invariant of knots can always be arranged so that the knot diagrams with which one computes are diagrams of hyperbolic knots. The diagrams can even be arranged to have additional nice properties, such as being alternating with minimal crossing number. Moreover, the reduction is polynomially uniform in the self-braiding exponent of the coloring object. Various complexity-theoretic hardness results regarding the calculation of quantum invariants of knots follow as corollaries. In particular, we argue that the hyperbolic geometry of knots is unlikely to be useful for topological quantum computation. | 翻訳日:2023-05-08 17:58:29 公開日:2023-05-05 |
# 深部生成モデルによる逆問題に対する微分ガウス化層 Differentiable Gaussianization Layers for Inverse Problems Regularized by Deep Generative Models ( http://arxiv.org/abs/2112.03860v4 ) ライセンス: Link先を確認 | Dongzhuo Li | (参考訳) GAN、正規化フロー、拡散モデルといった深い生成モデルは、逆問題に対する強力な正規化器である。
彼らは不備を減らし、高品質な結果を得るために大きな可能性を秘めている。
しかし、そのような深い生成モデルの潜在テンソルは、特にデータノイズと不正確な前方モデルの存在下で、反転中に所望の高次元標準ガウス分布から外れる可能性があり、低忠実性解につながる。
この問題に対処するために,最適化問題を解いてカスタム演算子を定義する新しい微分可能データ依存層を用いて,潜在テンソルの再パラメータ化とガウス化を提案する。
これらの層は、高忠実度分散解を得るために逆問題に制約を与える。
提案手法は, 圧縮センシングMRI, 画像デブロアリング, エイコナルトモグラフィー(非線形PDE制約逆問題) の3つの逆問題に対して, 代表的な2つの深部生成モデルであるStyleGAN2とGlowを用いて検証した。
本手法は精度と一貫性の観点から最先端の性能を実現する。 Deep generative models such as GANs, normalizing flows, and diffusion models are powerful regularizers for inverse problems. They exhibit great potential for helping reduce ill-posedness and attain high-quality results. However, the latent tensors of such deep generative models can fall out of the desired high-dimensional standard Gaussian distribution during inversion, particularly in the presence of data noise and inaccurate forward models, leading to low-fidelity solutions. To address this issue, we propose to reparameterize and Gaussianize the latent tensors using novel differentiable data-dependent layers wherein custom operators are defined by solving optimization problems. These proposed layers constrain inverse problems to obtain high-fidelity in-distribution solutions. We validate our technique on three inversion tasks: compressive-sensing MRI, image deblurring, and eikonal tomography (a nonlinear PDE-constrained inverse problem) using two representative deep generative models: StyleGAN2 and Glow. Our approach achieves state-of-the-art performance in terms of accuracy and consistency. | 翻訳日:2023-05-08 17:58:16 公開日:2023-05-05 |
# LOGEN: 自己学習による論理的知識記述テキスト生成 LOGEN: Few-shot Logical Knowledge-Conditioned Text Generation with Self-training ( http://arxiv.org/abs/2112.01404v3 ) ライセンス: Link先を確認 | Shumin Deng, Jiacheng Yang, Hongbin Ye, Chuanqi Tan, Mosha Chen, Songfang Huang, Fei Huang, Huajun Chen, Ningyu Zhang | (参考訳) 構造化データからの自然言語生成は主に、制御不能なコンテンツ選択と低忠実さに苦しむ表面レベルの記述に焦点を当てている。
以前の作品は論理形式を利用して論理知識条件付きテキスト生成を容易にする。
目覚ましい進歩を遂げたものの、それらはデータ収集であり、限られたデータで現実のアプリケーションを採用するのに苦労している。
そこで本稿では,論理知識条件付きテキスト生成のための統合フレームワークを提案する。
少数の種論理形式(例:20/100ショット)で、本手法は自己学習を活用し、内容と構造整合性に基づいて擬似論理形式をサンプリングする。
実験結果から,本手法はベースラインよりも精度が良いことを示す。 Natural language generation from structured data mainly focuses on surface-level descriptions, suffering from uncontrollable content selection and low fidelity. Previous works leverage logical forms to facilitate logical knowledge-conditioned text generation. Though achieving remarkable progress, they are data-hungry, which makes the adoption for real-world applications challenging with limited data. To this end, this paper proposes a unified framework for logical knowledge-conditioned text generation in the few-shot setting. With only a few seeds logical forms (e.g., 20/100 shot), our approach leverages self-training and samples pseudo logical forms based on content and structure consistency. Experimental results demonstrate that our approach can obtain better few-shot performance than baselines. | 翻訳日:2023-05-08 17:57:57 公開日:2023-05-05 |
# 光子を用いた量子コヒーレントフィードバック制御 Quantum coherent feedback control with photons ( http://arxiv.org/abs/2206.01445v2 ) ライセンス: Link先を確認 | Haijin Ding, Guofeng Zhang | (参考訳) 本研究の目的は、導波路に結合したキャビティ量子電磁力学(cavity-qed)系のコヒーレントフィードバック制御によって引き起こされる2光子ダイナミクスの研究である。
このセットアップでは、共振器内の2レベルの系が光子源として機能し、導波路に放出された光子が導波路内の透過・反射後に何度も共振器QED系と相互作用し、フィードバックが共振器内外光子の数を調整できる。
このコヒーレントフィードバックネットワークにおける2光子過程のダイナミクスを連続モード結合スキームと導波路とキャビティ間の離散周期モード結合スキームという2つのシナリオで解析する。
これらのカップリングスキームの違いは、それらの相対スケールとカップリングのための半透明ミラーの数に起因する。
具体的には、連続モード結合方式において、2光子状態の生成は、導波路によるフィードバックループの長さと導波路とキャビティ-QED系の結合強度に影響される。
導波路の長さと結合強度を調整することにより、2光子状態を効率的に生成することができる。
離散周期モード結合方式では、空洞内のラビ振動は安定し、導波路には顕著な2光子状態は存在しない。 The purpose of this paper is to study two-photon dynamics induced by the coherent feedback control of a cavity quantum electrodynamics (cavity-QED) system coupled to a waveguide. In this set-up, the two-level system in the cavity can work as a photon source, and the photon emitted into the waveguide can re-interact with the cavity-QED system many times after the transmission and reflection in the waveguide, during which the feedback can tune the number of the photons in and out of the cavity. We analyze the dynamics of two-photon processes in this coherent feedback network in two scenarios: the continuous mode coupling scheme and the discrete periodic mode coupling scheme between the waveguide and cavity. The difference of these coupling schemes is due to their relative scales and the number of semi-transparent mirrors for coupling. Specifically, in the continuous mode coupling scheme, the generation of two-photon states is influenced by the length of the feedback loop by the waveguide and the coupling strength between the waveguide and the cavity-QED system. By tuning the length of the waveguide and the coupling strength, we are able to generate two-photon states efficiently. In the discrete periodic mode coupling scheme, the Rabi oscillation in the cavity can be stabilized and there are no notable two-photon states in the waveguide. | 翻訳日:2023-05-08 17:52:47 公開日:2023-05-05 |
# 時空間 EPI 再構成によるGAN-based Multi-View Video 符号化 GAN-Based Multi-View Video Coding with Spatio-Temporal EPI Reconstruction ( http://arxiv.org/abs/2205.03599v2 ) ライセンス: Link先を確認 | Chengdong Lan, Hao Yan, Cheng Luo, Tiesong Zhao | (参考訳) ビデオシーンにおける複数の視点の導入は、ストレージと送信に必要なビットレートを必然的に増加させる。
ビットレートを低減するため、圧縮・配信中の中間視点を省略し、最終的にサイド情報(SI)を用いて再構築する方法を開発した。
通常、深度マップはSIを構築するために使われる。
しかし、それらの手法は再建の不正確さと本質的に高いビットレートに悩まされている。
本稿では,GAN(Generative Adversarial Network)の画像生成機能を活用して,SIの再構成精度を向上させる多視点ビデオ符号化手法を提案する。
さらに,隣接する時間的・空間的視点からの情報を取り入れることで,SI冗長性をさらに低減する。
エンコーダでは、時空間のエピポーラ平面画像(EPI)を構築し、さらに畳み込みネットワークを用いてGANの潜伏符号をSIとして抽出する。
デコーダ側では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
具体的には,再建コストとSIエントロピーに対する共同エンコーダ制約を確立し,再建品質とビットレートオーバヘッドの最適トレードオフを実現する。
実験では、最先端手法と比較してRD性能が大幅に向上した。 The introduction of multiple viewpoints in video scenes inevitably increases the bitrates required for storage and transmission. To reduce bitrates, researchers have developed methods to skip intermediate viewpoints during compression and delivery, and ultimately reconstruct them using Side Information (SI). Typically, depth maps are used to construct SI. However, their methods suffer from inaccuracies in reconstruction and inherently high bitrates. In this paper, we propose a novel multi-view video coding method that leverages the image generation capabilities of Generative Adversarial Network (GAN) to improve the reconstruction accuracy of SI. Additionally, we consider incorporating information from adjacent temporal and spatial viewpoints to further reduce SI redundancy. At the encoder, we construct a spatio-temporal Epipolar Plane Image (EPI) and further utilize a convolutional network to extract the latent code of a GAN as SI. At the decoder side, we combine the SI and adjacent viewpoints to reconstruct intermediate views using the GAN generator. Specifically, we establish a joint encoder constraint for reconstruction cost and SI entropy to achieve an optimal trade-off between reconstruction quality and bitrates overhead. Experiments demonstrate significantly improved Rate-Distortion (RD) performance compared with state-of-the-art methods. | 翻訳日:2023-05-08 17:52:24 公開日:2023-05-05 |
# U-NO:U字型ニューラルオペレータ U-NO: U-shaped Neural Operators ( http://arxiv.org/abs/2204.11127v3 ) ライセンス: Link先を確認 | Md Ashiqur Rahman, Zachary E. Ross, Kamyar Azizzadenesheli | (参考訳) ニューラルネットワークは、無限次元空間、例えば関数空間の間の写像に古典的ニューラルネットワークを一般化する。
ニューラル作用素に関する先行研究は、そのような写像を学ぶための一連の新しい方法を提案し、偏微分方程式の解作用素を学ぶことに前例のない成功を収めた。
完全に接続されたアーキテクチャに近いため、これらのモデルは主にメモリ使用量が高く、一般的に浅いディープラーニングモデルに限られる。
本稿では,より深いニューラル演算を可能にするU字型メモリ拡張アーキテクチャであるU字型ニューラル演算子(U-NO)を提案する。
U-NOは関数予測における問題構造を利用し、ハイパーパラメータの選択に関して高速なトレーニング、データ効率、堅牢性を実証する。
本稿では,PDE ベンチマークにおける U-NO の性能,すなわち Darcy のフロー則と Navier-Stokes 方程式について検討する。
u-noの結果,darcyの流速と乱流navier-stokes方程式における平均26%と44%の予測改善が得られた。
Navier-Stokes 3D Spatiotemporal operator learning taskでは,U-NOが最先端技術よりも37%向上していることを示す。 Neural operators generalize classical neural networks to maps between infinite-dimensional spaces, e.g., function spaces. Prior works on neural operators proposed a series of novel methods to learn such maps and demonstrated unprecedented success in learning solution operators of partial differential equations. Due to their close proximity to fully connected architectures, these models mainly suffer from high memory usage and are generally limited to shallow deep learning models. In this paper, we propose U-shaped Neural Operator (U-NO), a U-shaped memory enhanced architecture that allows for deeper neural operators. U-NOs exploit the problem structures in function predictions and demonstrate fast training, data efficiency, and robustness with respect to hyperparameters choices. We study the performance of U-NO on PDE benchmarks, namely, Darcy's flow law and the Navier-Stokes equations. We show that U-NO results in an average of 26% and 44% prediction improvement on Darcy's flow and turbulent Navier-Stokes equations, respectively, over the state of the art. On Navier-Stokes 3D spatiotemporal operator learning task, we show U-NO provides 37% improvement over the state of art methods. | 翻訳日:2023-05-08 17:51:39 公開日:2023-05-05 |
# 私たちは本当に大きな進歩を遂げていますか?
単一ラベルと複数ラベルテキストの分類におけるバガ-オブ-ワード対シーケンス対グラフ対階層 Are We Really Making Much Progress? Bag-of-Words vs. Sequence vs. Graph vs. Hierarchy for Single- and Multi-Label Text Classification ( http://arxiv.org/abs/2204.03954v3 ) ライセンス: Link先を確認 | Lukas Galke, Andor Diera, Bao Xin Lin, Bhakti Khera, Tim Meuser, Tushar Singhal, Fabian Karl, Ansgar Scherp | (参考訳) グラフニューラルネットワークの普及により、シングルラベルとマルチラベルのテキスト分類のためのグラフベースの手法が復活した。
しかし、これらのグラフベースの手法が、標準的な機械学習手法や近代事前学習言語モデルと比較して有益かどうかは不明である。
テキスト分類のための単語の袋、シーケンスベース、グラフベース、階層的手法の豊富な選択を比較した。
5つのシングルラベルと7つのマルチラベルデータセットの文献から結果を集計し、独自の実験を実行します。
その結果,単一ラベルおよび複数ラベルの分類タスクにおいて,グラフベースの手法は微調整言語モデルよりも優れず,多層パーセプトロン (MLP) などの標準機械学習手法よりも性能が劣ることが明らかとなった。
この質問は、過去数年間にグラフベースの新しいメソッドの開発に費やされた膨大な労力と、テキスト分類の約束に疑問を呈するものだ。
最近の専門的な進歩にもかかわらず、事前学習された言語モデルがテキスト分類において最先端のままであることを確認した。
テキスト分類における今後の研究は、mlpのような強固なベースラインに対して徹底的にテストし、科学的進歩を適切に評価すべきである。
ソースコード: https://github.com/drndr/multilabel-text-clf The popularity of graph neural networks has triggered a resurgence of graph-based methods for single-label and multi-label text classification. However, it is unclear whether these graph-based methods are beneficial compared to standard machine learning methods and modern pretrained language models. We compare a rich selection of bag-of-words, sequence-based, graph-based, and hierarchical methods for text classification. We aggregate results from the literature over 5 single-label and 7 multi-label datasets and run our own experiments. Our findings unambiguously demonstrate that for single-label and multi-label classification tasks, the graph-based methods fail to outperform fine-tuned language models and sometimes even perform worse than standard machine learning methods like multilayer perceptron (MLP) on a bag-of-words. This questions the enormous amount of effort put into the development of new graph-based methods in the last years and the promises they make for text classification. Given our extensive experiments, we confirm that pretrained language models remain state-of-the-art in text classification despite all recent specialized advances. We argue that future work in text classification should thoroughly test against strong baselines like MLPs to properly assess the true scientific progress. The source code is available: https://github.com/drndr/multilabel-text-clf | 翻訳日:2023-05-08 17:50:59 公開日:2023-05-05 |
# 1型糖尿病患者における血糖コントロールのためのオフライン強化学習 Offline Reinforcement Learning for Safer Blood Glucose Control in People with Type 1 Diabetes ( http://arxiv.org/abs/2204.03376v2 ) ライセンス: Link先を確認 | Harry Emerson, Matthew Guy and Ryan McConville | (参考訳) 効果的なハイブリッドクローズドループシステムの普及は、1型糖尿病(T1D)患者のケアの重要なマイルストーンとなる。
これらの装置は通常、単純な制御アルゴリズムを使用して、健康な範囲で血糖値を維持するのに最適なインスリン量を選択する。
オンライン強化学習(RL)は、これらのデバイスにおけるグルコース制御をさらに強化する方法として利用されてきた。
従来のアプローチは、古典的な制御アルゴリズムと比較して患者リスクを減らし、目標範囲に費やした時間を改善することが示されているが、学習過程において不安定になりがちであり、多くの場合、安全でない行動を選択する。
本研究は、トレーニング中の潜在的に危険な患者との相互作用を必要とせず、効果的な服用ポリシーを開発するためのオフラインRLの評価である。
本稿では,FDAが承認したUVA/パドバ血糖動態シミュレータで利用可能な30名の仮想的患者の血糖管理におけるBCQ,CQL,TD3-BCの有用性について検討する。
オンラインRLが安定した性能を達成するのに必要なトレーニングサンプルの10分の1以下でトレーニングすると、オフラインRLは、最強の最先端のベースライン(p < 0.001)と比較して、61.6 +\- 0.3%から65.3 +/- 0.5%までの健康な血糖値の時間を大幅に増加させることができる。
これは血糖値の低下を伴わずに達成される。
オフラインRLはまた、不正な食事時間、不規則な食事時間、圧縮エラーなど、一般的な、困難な制御シナリオを修正可能である。 The widespread adoption of effective hybrid closed loop systems would represent an important milestone of care for people living with type 1 diabetes (T1D). These devices typically utilise simple control algorithms to select the optimal insulin dose for maintaining blood glucose levels within a healthy range. Online reinforcement learning (RL) has been utilised as a method for further enhancing glucose control in these devices. Previous approaches have been shown to reduce patient risk and improve time spent in the target range when compared to classical control algorithms, but are prone to instability in the learning process, often resulting in the selection of unsafe actions. This work presents an evaluation of offline RL for developing effective dosing policies without the need for potentially dangerous patient interaction during training. This paper examines the utility of BCQ, CQL and TD3-BC in managing the blood glucose of the 30 virtual patients available within the FDA-approved UVA/Padova glucose dynamics simulator. When trained on less than a tenth of the total training samples required by online RL to achieve stable performance, this work shows that offline RL can significantly increase time in the healthy blood glucose range from 61.6 +\- 0.3% to 65.3 +/- 0.5% when compared to the strongest state-of-art baseline (p < 0.001). This is achieved without any associated increase in low blood glucose events. Offline RL is also shown to be able to correct for common and challenging control scenarios such as incorrect bolus dosing, irregular meal timings and compression errors. | 翻訳日:2023-05-08 17:50:35 公開日:2023-05-05 |
# 強化学習におけるニューラルネットワーク表現の性質の検討 Investigating the Properties of Neural Network Representations in Reinforcement Learning ( http://arxiv.org/abs/2203.15955v3 ) ライセンス: Link先を確認 | Han Wang, Erfan Miahi, Martha White, Marlos C. Machado, Zaheer Abbas, Raksha Kumaraswamy, Vincent Liu, Adam White | (参考訳) 本稿では,深層強化学習システムで学習した表現の特性について検討する。
強化学習の表現に関する初期の研究の多くは、直交性や空間性など、望ましいと考えられる特性を達成するために固定基底アーキテクチャを設計することに焦点を当てていた。
対照的に、深層強化学習手法の背後にある考え方は、エージェントデザイナーは表現特性をエンコードすべきではなく、データストリームが表現の性質を決定するべきであるということである。
本稿では,これら2つの視点を組み合わせることで,強化学習における表現の性質を実証的に検討する。
25万以上のエージェントタスク設定に対して,6つの表現特性を導入し,測定する。
我々は、画素ベースのナビゲーション環境において、異なる補助的損失を持つ深度Q学習エージェントを、異なる目標位置に対応するソースおよび転送タスクで検討する。
提案手法は,タスクの類似性を変化させる体系的アプローチと,表現特性の測定と伝達性能との関連付けを通じて,表現がなぜ転送にうまく働くのかをよりよく理解する手法である。
atari 2600のゲームモード間での転送に成功しているレインボーエージェントが学習した表現を調べることで,この手法の汎用性を示す。 In this paper we investigate the properties of representations learned by deep reinforcement learning systems. Much of the early work on representations for reinforcement learning focused on designing fixed-basis architectures to achieve properties thought to be desirable, such as orthogonality and sparsity. In contrast, the idea behind deep reinforcement learning methods is that the agent designer should not encode representational properties, but rather that the data stream should determine the properties of the representation -- good representations emerge under appropriate training schemes. In this paper we bring these two perspectives together, empirically investigating the properties of representations that support transfer in reinforcement learning. We introduce and measure six representational properties over more than 25 thousand agent-task settings. We consider Deep Q-learning agents with different auxiliary losses in a pixel-based navigation environment, with source and transfer tasks corresponding to different goal locations. We develop a method to better understand why some representations work better for transfer, through a systematic approach varying task similarity and measuring and correlating representation properties with transfer performance. We demonstrate the generality of the methodology by investigating representations learned by a Rainbow agent that successfully transfer across games modes in Atari 2600. | 翻訳日:2023-05-08 17:50:05 公開日:2023-05-05 |
# ADATIME:時系列データに基づくドメイン適応のためのベンチマークスイート ADATIME: A Benchmarking Suite for Domain Adaptation on Time Series Data ( http://arxiv.org/abs/2203.08321v2 ) ライセンス: Link先を確認 | Mohamed Ragab, Emadeldeen Eldele, Wee Ling Tan, Chuan-Sheng Foo, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li | (参考訳) 教師なしドメイン適応法(unsupervised domain adaptation method)は、トレーニングデータとは異なる(シフトされた)分布を持つ可能性のあるラベルなしテストデータをうまく一般化することを目的としている。
このような手法は一般的に画像データ上で開発され、時系列データへの応用は少ない。
時系列領域適応に関する既存の研究は、評価スキーム、データセット、バックボーンニューラルネットワークアーキテクチャの不整合に苦しむ。
さらに、ラベル付きターゲットデータは、教師なしドメイン適応の基本的な前提に反するモデル選択にしばしば使用される。
これらの課題に対処するため、時系列データ上で異なるドメイン適応手法を体系的かつ適切に評価するベンチマーク評価スイート(AdaTime)を開発した。
具体的には、バックボーンニューラルネットワークアーキテクチャとベンチマークデータセットを標準化するとともに、ラベル付きデータやいくつかのラベル付きサンプルで動作可能な、より現実的なモデル選択アプローチも検討しています。
本評価は,時系列データに最先端の視覚領域適応法を適応させるとともに,時系列データ専用に開発された最近の手法も含む。
50のクロスドメインシナリオにまたがる5つの代表的なデータセットについて,11の最先端手法を評価するための広範な実験を行った。
提案手法は,ハイパーパラメータの選択を慎重に行うことで,時系列領域適応法と競合することが示唆された。
さらに、ハイパーパラメーターは現実的なモデル選択アプローチに基づいて選択できることがわかった。
本研究は,時系列データにドメイン適応手法を適用するための実践的洞察を公開し,将来的な研究のための基盤を構築する。
コードは \href{https://github.com/emadeldeen24/adatime}{github.com/emadeldeen24/adatime} で入手できる。 Unsupervised domain adaptation methods aim to generalize well on unlabeled test data that may have a different (shifted) distribution from the training data. Such methods are typically developed on image data, and their application to time series data is less explored. Existing works on time series domain adaptation suffer from inconsistencies in evaluation schemes, datasets, and backbone neural network architectures. Moreover, labeled target data are often used for model selection, which violates the fundamental assumption of unsupervised domain adaptation. To address these issues, we develop a benchmarking evaluation suite (AdaTime) to systematically and fairly evaluate different domain adaptation methods on time series data. Specifically, we standardize the backbone neural network architectures and benchmarking datasets, while also exploring more realistic model selection approaches that can work with no labeled data or just a few labeled samples. Our evaluation includes adapting state-of-the-art visual domain adaptation methods to time series data as well as the recent methods specifically developed for time series data. We conduct extensive experiments to evaluate 11 state-of-the-art methods on five representative datasets spanning 50 cross-domain scenarios. Our results suggest that with careful selection of hyper-parameters, visual domain adaptation methods are competitive with methods proposed for time series domain adaptation. In addition, we find that hyper-parameters could be selected based on realistic model selection approaches. Our work unveils practical insights for applying domain adaptation methods on time series data and builds a solid foundation for future works in the field. The code is available at \href{https://github.com/emadeldeen24/AdaTime}{github.com/emadeldeen24/AdaTime}. | 翻訳日:2023-05-08 17:49:44 公開日:2023-05-05 |
# オープンインテント検出のための学習識別表現と決定境界 Learning Discriminative Representations and Decision Boundaries for Open Intent Detection ( http://arxiv.org/abs/2203.05823v3 ) ライセンス: Link先を確認 | Hanlei Zhang, Hua Xu, Shaojie Zhao, Qianrui Zhou | (参考訳) オープンインテント検出は自然言語理解において重要な問題であり、既知のインテント識別性能を確保しながら、未認識のオープンインテントを特定することを目的としている。
しかし、現在の手法は2つの大きな課題に直面している。
まず、彼らは、既知の意図のみの事前知識でオープンな意図を検出するために友好的な表現を学ぶのに苦労する。
第二に、既知の意図に対する特定かつコンパクトな決定境界を得るための効果的なアプローチがない。
これらの問題に対処するため,本論文では,オープンインテント検出のための距離認識インテント表現と適応的決定バウンダリを逐次学習するda-adbというフレームワークを提案する。
具体的には,まず距離情報を利用して意図表現の識別能力を高める。
次に,経験的リスクとオープンスペースリスクのバランスをとることにより,適切な決定境界を得るための新たな損失関数を設計する。
広汎な実験は,提案した距離認識および境界学習戦略の有効性を示す。
最先端のメソッドと比較して、3つのベンチマークデータセットで大幅に改善されています。
さらに、ラベル付きデータと既知のカテゴリの比率の異なる堅牢な性能が得られる。 Open intent detection is a significant problem in natural language understanding, which aims to identify the unseen open intent while ensuring known intent identification performance. However, current methods face two major challenges. Firstly, they struggle to learn friendly representations to detect the open intent with prior knowledge of only known intents. Secondly, there is a lack of an effective approach to obtaining specific and compact decision boundaries for known intents. To address these issues, this paper presents an original framework called DA-ADB, which successively learns distance-aware intent representations and adaptive decision boundaries for open intent detection. Specifically, we first leverage distance information to enhance the distinguishing capability of the intent representations. Then, we design a novel loss function to obtain appropriate decision boundaries by balancing both empirical and open space risks. Extensive experiments demonstrate the effectiveness of the proposed distance-aware and boundary learning strategies. Compared to state-of-the-art methods, our framework achieves substantial improvements on three benchmark datasets. Furthermore, it yields robust performance with varying proportions of labeled data and known categories. | 翻訳日:2023-05-08 17:49:18 公開日:2023-05-05 |
# 変分量子アルゴリズムの性能向上のための誤差相関の能力 Ability of error correlations to improve the performance of variational quantum algorithms ( http://arxiv.org/abs/2207.10622v2 ) ライセンス: Link先を確認 | Joris Kattem\"olle and Guido Burkard | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、ノイズの多い中間スケール量子(NISQ)デバイスに有用な量子優位性を提供する可能性がある。
qaoaのような変分量子アルゴリズムに対する非相関ノイズの影響は集中的に研究されている。
しかし,最近の実験結果から,NISQデバイスに影響を及ぼす誤差は有意に相関していることがわかった。
古典的環境変動器に基づく空間的および時間的(非マルコフ的)相関誤差のモデルを提案する。
このモデルにより、余分化時空局所誤差確率と相関強度の独立変動が可能である。
本モデルを用いて, 相関確率雑音がQAOAに及ぼす影響について検討した。
雑音の相関時間や相関長が一定の局所誤差確率で増加するにつれて,QAOAの性能が向上することを示す。
これは、QAOAのようなNISQアルゴリズムに対して、ノイズ相関自体が有害である必要はないことを示している。 The quantum approximate optimization algorithm (QAOA) has the potential of providing a useful quantum advantage on noisy intermediate-scale quantum (NISQ) devices. The effects of uncorrelated noise on variational quantum algorithms such as QAOA have been studied intensively. Recent experimental results, however, show that the errors impacting NISQ devices are significantly correlated. We introduce a model for both spatially and temporally (non-Markovian) correlated errors based on classical environmental fluctuators. The model allows for the independent variation of the marginalized spacetime-local error probability and the correlation strength. Using this model, we study the effects of correlated stochastic noise on QAOA. We find evidence that the performance of QAOA improves as the correlation time or correlation length of the noise is increased at fixed local error probabilities. This shows that noise correlations in themselves need not be detrimental for NISQ algorithms such as QAOA. | 翻訳日:2023-05-08 17:40:33 公開日:2023-05-05 |
# 高分解能質量分析データによる学習が可能なマルチスケール正弦波埋め込み Multi-scale Sinusoidal Embeddings Enable Learning on High Resolution Mass Spectrometry Data ( http://arxiv.org/abs/2207.02980v2 ) ライセンス: Link先を確認 | Gennady Voronov, Rose Lightheart, Joe Davison, Christoph A. Krettler, David Healey, Thomas Butler | (参考訳) 生物試料中の小さな分子は、疾患の状態、環境毒素、天然物医薬品の発見、その他多くの応用に関する情報を提供するために研究されている。
小さな分子混合物の合成における主窓はタンデム質量分析 (Tandem mass spectrometry, MS2) であり、これは高感度で1億倍の分解能を持つデータを生成する。
我々は,MS2データの完全解像度から学習する際の課題を満たすために,MS2のマスデータのマルチスケール正弦波埋め込みを採用する。
これらの埋め込みを用いて,MS2データの初期評価のための標準課題であるスペクトルライブラリ検索のための新しい手法を提案する。
また,MS2データからの化学特性予測という新たな課題を導入し,高スループットMS2実験に自然に適用し,医薬化学者が優先する10種類の化学特性に対して,新規化合物の平均R^2$ of 80\%を達成可能であることを示した。
我々は,MS2データから学習において,多スケールの正弦波埋め込みが果たす重要な役割を,異なる浮動小数点分解法を用いて示す。 Small molecules in biological samples are studied to provide information about disease states, environmental toxins, natural product drug discovery, and many other applications. The primary window into the composition of small molecule mixtures is tandem mass spectrometry (MS2), which produces data that are of high sensitivity and part per million resolution. We adopt multi-scale sinusoidal embeddings of the mass data in MS2 designed to meet the challenge of learning from the full resolution of MS2 data. Using these embeddings, we provide a new state of the art model for spectral library search, the standard task for initial evaluation of MS2 data. We also introduce a new task, chemical property prediction from MS2 data, that has natural applications in high-throughput MS2 experiments and show that an average $R^2$ of 80\% for novel compounds can be achieved across 10 chemical properties prioritized by medicinal chemists. We use dimensionality reduction techniques and experiments with different floating point resolutions to show the essential role multi-scale sinusoidal embeddings play in learning from MS2 data. | 翻訳日:2023-05-08 17:40:21 公開日:2023-05-05 |
# 非干渉sagnac系量子相関のコヒーレンス解釈 Coherence interpretation of the noninterfering Sagnac-based quantum correlation ( http://arxiv.org/abs/2206.05358v5 ) ライセンス: Link先を確認 | Byoung S. Ham | (参考訳) ベルの不等式違反は量子エンタングルメントの定量的測定ツールである。
量子絡み合い(quantum entanglement)は量子情報科学の心臓であり、遠隔で分離された光子の非局所的相関は量子力学のユニークな性質を示す。
ここでは,光子対(Phys)を用いた単純な偏光基底選択型非干渉計システムにおいて,非局所相関に対する一致検出の役割をコヒーレントに検討した。
a73, 012316 (2006)を参照。
2つの独立局所偏光子間の非局所量子特徴は、分離不能な強度積の結合パラメータ関係のためにコヒーレントに導かれる。
したがって、量子力学の波動特性に基づくコヒーレンス解は、偶然検出による測定修正による決定論的過程として理解される。 Bell inequality violation is a quantitative measurement tool for quantum entanglement. Quantum entanglement is the heart of quantum information science, in which the resulting nonlocal correlation between remotely separated photons shows a unique property of quantum mechanics. Here, the role of coincidence detection is coherently investigated for the nonlocal correlation in a simple polarization-basis selective non-interferometric system using entangled photon pairs (Phys. Rev. A 73, 012316 (2006)). The resulting nonlocal quantum feature between two independent local polarizers is coherently derived for the joint-parameter relation of the inseparable intensity product. The resulting coherence solution based on the wave nature of quantum mechanics is thus understood as a deterministic process via coincidence detection-caused measurement modification. | 翻訳日:2023-05-08 17:39:46 公開日:2023-05-05 |
# サンプル制約付き深層多視点半監視クラスタリング Deep Multi-View Semi-Supervised Clustering with Sample Pairwise Constraints ( http://arxiv.org/abs/2206.04949v2 ) ライセンス: Link先を確認 | Rui Chen, Yongqiang Tang, Wensheng Zhang, Wenlong Feng | (参考訳) マルチビュークラスタリングは、マルチソース情報統合の能力により、多くの注目を集めている。
過去数十年間、数多くの高度な手法が提案されてきたが、たいていの場合、弱い教師付き情報の重要性を見落とし、複数のビューの特徴の保存に失敗したため、クラスタ化性能が不十分になった。
そこで,本稿では,マルチビュークラスタリングの損失,半教師付きペアワイズ制約損失,マルチオートエンコーダの再構成損失など,ネットワークの微調整時の3種類の損失を共同で最適化する,新しい深層マルチビューセミスーパーバイザクラスタリング(dmsc)手法を提案する。
具体的には、KL分散に基づくマルチビュークラスタリング損失を多ビューデータの共通表現に課し、不均一な特徴最適化、マルチビュー重み付け、クラスタリング予測を同時に行う。
そこで我々は,マルチビュークラスタリングのプロセスにペアワイズ制約を組み込むことを革新的に提案し,学習したマスタリンクサンプル(カンノリンクサンプル)のマルチビュー表現を類似(異種)にすることで,クラスタリングアーキテクチャがより信頼性の高いものにすることを提案する。
さらに、ネットワークの微調整中に各分岐のエンコーダのみを保持する既存のライバルとは異なり、エンコーダとデコーダの両方を含む無傷オートエンコーダフレームのチューニングも提案する。
このようにして、ビュー特化およびビュー共有機能空間の深刻な破損の問題が軽減され、トレーニング全体の安定性が向上する。
8つの人気のある画像データセットに関する総合的な実験を通して、提案手法が最先端のマルチビューやシングルビューの競合より優れていることを示す。 Multi-view clustering has attracted much attention thanks to the capacity of multi-source information integration. Although numerous advanced methods have been proposed in past decades, most of them generally overlook the significance of weakly-supervised information and fail to preserve the feature properties of multiple views, thus resulting in unsatisfactory clustering performance. To address these issues, in this paper, we propose a novel Deep Multi-view Semi-supervised Clustering (DMSC) method, which jointly optimizes three kinds of losses during networks finetuning, including multi-view clustering loss, semi-supervised pairwise constraint loss and multiple autoencoders reconstruction loss. Specifically, a KL divergence based multi-view clustering loss is imposed on the common representation of multi-view data to perform heterogeneous feature optimization, multi-view weighting and clustering prediction simultaneously. Then, we innovatively propose to integrate pairwise constraints into the process of multi-view clustering by enforcing the learned multi-view representation of must-link samples (cannot-link samples) to be similar (dissimilar), such that the formed clustering architecture can be more credible. Moreover, unlike existing rivals that only preserve the encoders for each heterogeneous branch during networks finetuning, we further propose to tune the intact autoencoders frame that contains both encoders and decoders. In this way, the issue of serious corruption of view-specific and view-shared feature space could be alleviated, making the whole training procedure more stable. Through comprehensive experiments on eight popular image datasets, we demonstrate that our proposed approach performs better than the state-of-the-art multi-view and single-view competitors. | 翻訳日:2023-05-08 17:39:35 公開日:2023-05-05 |
# 学習可能な伝搬演算子によるグラフニューラルネットワークの改善 Improving Graph Neural Networks with Learnable Propagation Operators ( http://arxiv.org/abs/2210.17224v2 ) ライセンス: Link先を確認 | Moshe Eliasof, Lars Ruthotto, Eran Treister | (参考訳) グラフニューラルネットワーク(GNN)は、伝播演算子で制限される。
多くの場合、これらの演算子は非負の要素のみを含み、チャネル間で共有され、GNNの表現性を制限する。
さらに、一部のGNNは過密に悩まされ、深さが制限される。
一方、畳み込みニューラルネットワーク(CNN)は多様な伝搬フィルタを学習でき、過度に滑らかな現象は典型的にはCNNでは見られない。
本稿では,各層における複数の平滑化・研削伝播演算子の学習と混合のために,訓練可能なチャネル単位の重み付け係数$\omega$を組み込むことにより,これらのギャップを橋渡しする。
我々のジェネリックメソッドは$\omega$GNNと呼ばれ、実装が容易です。
我々は、$\omega$GCN と $\omega$GAT の2つの変種を研究する。
$\omega$GCNの場合、理論的にその振る舞いと得られたノード機能に対する$\omega$の影響を分析する。
実験ではこれらの知見を確認し,両変種が過度に滑らかでないことを示す。
さらに、ノードとグラフの分類タスクで15の実世界のデータセットを実験し、$\omega$GCNと$\omega$GATは最先端のメソッドと同等に動作します。 Graph Neural Networks (GNNs) are limited in their propagation operators. In many cases, these operators often contain non-negative elements only and are shared across channels, limiting the expressiveness of GNNs. Moreover, some GNNs suffer from over-smoothing, limiting their depth. On the other hand, Convolutional Neural Networks (CNNs) can learn diverse propagation filters, and phenomena like over-smoothing are typically not apparent in CNNs. In this paper, we bridge these gaps by incorporating trainable channel-wise weighting factors $\omega$ to learn and mix multiple smoothing and sharpening propagation operators at each layer. Our generic method is called $\omega$GNN, and is easy to implement. We study two variants: $\omega$GCN and $\omega$GAT. For $\omega$GCN, we theoretically analyse its behaviour and the impact of $\omega$ on the obtained node features. Our experiments confirm these findings, demonstrating and explaining how both variants do not over-smooth. Additionally, we experiment with 15 real-world datasets on node- and graph-classification tasks, where our $\omega$GCN and $\omega$GAT perform on par with state-of-the-art methods. | 翻訳日:2023-05-08 17:33:19 公開日:2023-05-05 |
# Prompt Entailmentによるイベントコーディングパイプラインの再考 Rethinking the Event Coding Pipeline with Prompt Entailment ( http://arxiv.org/abs/2210.05257v2 ) ライセンス: Link先を確認 | Cl\'ement Lefebvre, Niklas Stoehr | (参考訳) 危機を監視するために、ニュースから政治イベントが抽出される。
大量の構造化されていない全文イベント記述は、ケースバイケース分析、特に低リソースの人道支援組織では管理できない。
これにより、イベントをイベントタイプ(イベントコーディングと呼ばれるタスク)に分類する需要が生じる。
一般的に、ドメインの専門家はイベントタイプのオントロジーを作り、アノテーションは大きなデータセットをラベル付けし、技術の専門家は教師付きコーディングシステムを開発する。
In this work, we propose PR-ENT, a new event coding approach that is more flexible and resource-efficient, while maintaining competitive accuracy: first, we extend an event description such as "Military injured two civilians'' by a template, e.g. "People were [Z]" and prompt a pre-trained (cloze) language model to fill the slot Z. Second, we select answer candidates Z* = {"injured'', "hurt"...} by treating the event description as premise and the filled templates as hypothesis in a textual entailment task.
これによりドメインの専門家は、ラベル付きプロンプトとしてコードブックを直接ドラフトし、回答候補を解釈することができる。
このHuman-in-the-loopプロセスは、インタラクティブなコードブック設計ツールによってガイドされます。
イベント記述とプロンプトテンプレートの摂動,語彙制限,コンテキスト情報の削除など,いくつかの堅牢性チェックでpr-entを評価した。 For monitoring crises, political events are extracted from the news. The large amount of unstructured full-text event descriptions makes a case-by-case analysis unmanageable, particularly for low-resource humanitarian aid organizations. This creates a demand to classify events into event types, a task referred to as event coding. Typically, domain experts craft an event type ontology, annotators label a large dataset and technical experts develop a supervised coding system. In this work, we propose PR-ENT, a new event coding approach that is more flexible and resource-efficient, while maintaining competitive accuracy: first, we extend an event description such as "Military injured two civilians'' by a template, e.g. "People were [Z]" and prompt a pre-trained (cloze) language model to fill the slot Z. Second, we select answer candidates Z* = {"injured'', "hurt"...} by treating the event description as premise and the filled templates as hypothesis in a textual entailment task. This allows domain experts to draft the codebook directly as labeled prompts and interpretable answer candidates. This human-in-the-loop process is guided by our interactive codebook design tool. We evaluate PR-ENT in several robustness checks: perturbing the event description and prompt template, restricting the vocabulary and removing contextual information. | 翻訳日:2023-05-08 17:32:59 公開日:2023-05-05 |
# flamby: 現実的な医療環境でのクロスサイロフェデレーション学習のためのデータセットとベンチマーク FLamby: Datasets and Benchmarks for Cross-Silo Federated Learning in Realistic Healthcare Settings ( http://arxiv.org/abs/2210.04620v3 ) ライセンス: Link先を確認 | Jean Ogier du Terrail, Samy-Safwan Ayed, Edwige Cyffers, Felix Grimberg, Chaoyang He, Regis Loeb, Paul Mangold, Tanguy Marchand, Othmane Marfoq, Erum Mushtaq, Boris Muzellec, Constantin Philippenko, Santiago Silva, Maria Tele\'nczuk, Shadi Albarqouni, Salman Avestimehr, Aur\'elien Bellet, Aymeric Dieuleveut, Martin Jaggi, Sai Praneeth Karimireddy, Marco Lorenzi, Giovanni Neglia, Marc Tommasi, Mathieu Andreux | (参考訳) フェデレートラーニング(FL)は、センシティブなデータを保持している複数のクライアントが、データを集中することなく、協調的に機械学習モデルをトレーニングできる新しいアプローチである。
クロスサイロのFL設定は、信頼できるクライアントがほとんど($2$--$50$)ない場合に対応し、それぞれが中から大規模なデータセットを保持し、一般的に医療、金融、産業などのアプリケーションで見られる。
これまでの研究では、デバイス間FLの代表的なデータセットが提案されていたが、現実的な医療用クロスサイロFLデータセットはほとんど存在せず、この重要な応用におけるアルゴリズム研究の速度が低下している。
本研究では,医療分野に重点を置くクロスサイロ・データセット・スイートであるFLamby(Federated Learning AMple Benchmark of Your cross-silo Strategy)を提案し,クロスサイロ・FLの理論と実践のギャップを埋める。
flambyは7つの医療データセットを自然な分割で包含しており、複数のタスク、モダリティ、データボリュームをカバーする。
実例として、すべてのデータセットで標準FLアルゴリズムをベンチマークする。
私たちの柔軟でモジュール化されたスイートは、研究者が簡単にデータセットをダウンロードし、結果を再現し、研究のためにさまざまなコンポーネントを再利用できます。
FLambyは~\url{www.github.com/owkin/flamby}で入手できる。 Federated Learning (FL) is a novel approach enabling several clients holding sensitive data to collaboratively train machine learning models, without centralizing data. The cross-silo FL setting corresponds to the case of few ($2$--$50$) reliable clients, each holding medium to large datasets, and is typically found in applications such as healthcare, finance, or industry. While previous works have proposed representative datasets for cross-device FL, few realistic healthcare cross-silo FL datasets exist, thereby slowing algorithmic research in this critical application. In this work, we propose a novel cross-silo dataset suite focused on healthcare, FLamby (Federated Learning AMple Benchmark of Your cross-silo strategies), to bridge the gap between theory and practice of cross-silo FL. FLamby encompasses 7 healthcare datasets with natural splits, covering multiple tasks, modalities, and data volumes, each accompanied with baseline training code. As an illustration, we additionally benchmark standard FL algorithms on all datasets. Our flexible and modular suite allows researchers to easily download datasets, reproduce results and re-use the different components for their research. FLamby is available at~\url{www.github.com/owkin/flamby}. | 翻訳日:2023-05-08 17:32:37 公開日:2023-05-05 |
# 自分を見失うな!
明示的自己他者認識による共感応答生成 Don't Lose Yourself! Empathetic Response Generation via Explicit Self-Other Awareness ( http://arxiv.org/abs/2210.03884v2 ) ライセンス: Link先を確認 | Weixiang Zhao, Yanyan Zhao, Xin Lu, Bing Qin | (参考訳) 人間のようなチャットボットを実現するための重要なステップとして、共感的な応答生成が益々増えている。
以前の試みは不完全であり、共感の初期の側面にのみ焦点を合わせ、他の認識を通じてユーザーの感情や思考を自動的に模倣するので、共感を引き出すには不十分である。
しかし、彼らはシステムの維持を無視し、自己認識と呼ばれる共感を達成する上で重要なプロセスであるシステム自身の見解を考慮に入れている。
そこで本研究では,自覚を明示した共感応答(EmpSOA)を提案する。
具体的には、自己他者分化、自己他者変調、自己他者世代という3つの段階が、自己他者認識情報を共感応答生成のプロセスに明確に維持、調整、注入するために考案される。
ベンチマークデータセットの自動評価と人的評価は、より共感的な反応を生成するためにEmpSOAの優位性を示している。 As a critical step to achieve human-like chatbots, empathetic response generation has attained increasing interests. Previous attempts are incomplete and not sufficient enough to elicit empathy because they only focus on the initial aspect of empathy to automatically mimic the feelings and thoughts of the user via other-awareness. However, they ignore to maintain and take the own views of the system into account, which is a crucial process to achieve the empathy called self-other awareness. To this end, we propose to generate Empathetic response with explicit Self-Other Awareness (EmpSOA). Specifically, three stages, self-other differentiation, self-other modulation and self-other generation, are devised to clearly maintain, regulate and inject the self-other aware information into the process of empathetic response generation. Both automatic and human evaluations on the benchmark dataset demonstrate the superiority of EmpSOA to generate more empathetic responses. | 翻訳日:2023-05-08 17:32:12 公開日:2023-05-05 |
# 四元数に基づくトポロジカル量子系の機械学習 Quaternion-based machine learning on topological quantum systems ( http://arxiv.org/abs/2209.14551v2 ) ライセンス: Link先を確認 | Min-Ruei Lin, Wan-Ju Li, and Shin-Ming Huang | (参考訳) 興味のシステムから抽出された情報を最大化するために、異なる形式のトレーニングデータを提案する機械学習技術を通じて、トポロジカル位相分類が集中的に研究されている。
量子物理学の複雑さのため、高度な数学的アーキテクチャは機械の設計において考慮すべきである。
本研究では,2次元チャーン絶縁体を分類するために,教師付きおよび教師なし学習のフレームに四元数代数を組み込む。
教師なし学習の側面では、四元数変換された固有状態に対して主成分分析(PCA)を適用して位相位相を区別する。
教師あり学習の面では,従来の畳み込みニューラルネットワーク上に4次畳み込み層を1つ加えることで,マシンを構築する。
マシンは四元変換された構成を入力とし、トレーニングプロセス中にマシンが見た状態とは異なる分布を持つ状態であっても、すべての異なるトポロジーフェーズをうまく分類する。
我々の研究は、トポロジカル位相分類のタスクにおいて、ターゲットデータから重要な特徴を抽出する四元数代数のパワーと、四元数に基づくニューラルネットワークの利点を示す。 Topological phase classifications have been intensively studied via machine-learning techniques where different forms of the training data are proposed in order to maximize the information extracted from the systems of interests. Due to the complexity in quantum physics, advanced mathematical architecture should be considered in designing machines. In this work, we incorporate quaternion algebras into data analysis either in the frame of supervised and unsupervised learning to classify two-dimensional Chern insulators. For the unsupervised-learning aspect, we apply the principal component analysis (PCA) on the quaternion-transformed eigenstates to distinguish topological phases. For the supervised-learning aspect, we construct our machine by adding one quaternion convolutional layer on top of a conventional convolutional neural network. The machine takes quaternion-transformed configurations as inputs and successfully classify all distinct topological phases, even for those states that have different distributuions from those states seen by the machine during the training process. Our work demonstrates the power of quaternion algebras on extracting crucial features from the targeted data and the advantages of quaternion-based neural networks than conventional ones in the tasks of topological phase classifications. | 翻訳日:2023-05-08 17:31:57 公開日:2023-05-05 |
# 有限次元の量子論は有限記憶を持つすべての一般過程を説明できない Quantum theory in finite dimension cannot explain every general process with finite memory ( http://arxiv.org/abs/2209.11225v2 ) ライセンス: Link先を確認 | Marco Fanizza, Josep Lumbreras, Andreas Winter | (参考訳) 有限メモリによって生成される確率過程の最大のクラスは、適切な一般化確率論(GPT)において、逐次測定によって生成される観測の系列である。
これらは、可能な線形写像の集合の下で進化する有限次元メモリと、メモリ状態の線形関数によって決定される結果の確率から構成される。
そのようなモデルの例は古典的な隠れマルコフ過程によって与えられ、メモリ状態は確率分布であり、各ステップでは非負行列に従って進化し、隠れ量子マルコフ過程ではメモリ状態は有限次元量子状態であり、各ステップでは完全に正の写像に従って進化する。
ここでは、有限次元の説明を認める過程の集合が古典的確率または量子力学の観点から説明できる必要はないことを示す。
ウィットは、明示的に与えられた GPT の力学によって明確に定義された有限次元の説明を持つ過程の族を示すが、量子は認めず、従って有限次元では古典的ではない。
さらに、Fox, Rubin, Dharmadikari および Nadkarni が無限次元マルコフ連鎖の関数として導入した例を含む古典的有限次元実現を容認しない量子過程と量子トリット上の量子過程の族を示し、また、古典的モデルの量子過程のノイズのあるバージョンを実現するためのメモリサイズを低くする。 Arguably, the largest class of stochastic processes generated by means of a finite memory consists of those that are sequences of observations produced by sequential measurements in a suitable generalized probabilistic theory (GPT). These are constructed from a finite-dimensional memory evolving under a set of possible linear maps, and with probabilities of outcomes determined by linear functions of the memory state. Examples of such models are given by classical hidden Markov processes, where the memory state is a probability distribution, and at each step it evolves according to a non-negative matrix, and hidden quantum Markov processes, where the memory state is a finite dimensional quantum state, and at each step it evolves according to a completely positive map. Here we show that the set of processes admitting a finite-dimensional explanation do not need to be explainable in terms of either classical probability or quantum mechanics. To wit, we exhibit families of processes that have a finite-dimensional explanation, defined manifestly by the dynamics of explicitly given GPT, but that do not admit a quantum, and therefore not even classical, explanation in finite dimension. Furthermore, we present a family of quantum processes on qubits and qutrits that do not admit a classical finite-dimensional realization, which includes examples introduced earlier by Fox, Rubin, Dharmadikari and Nadkarni as functions of infinite dimensional Markov chains, and lower bound the size of the memory of a classical model realizing a noisy version of the qubit processes. | 翻訳日:2023-05-08 17:31:26 公開日:2023-05-05 |
# スケーラブルな位置認識のためのコンパクト・地域特化・正規化スパイクニューラルネットワークのアンサンブル Ensembles of Compact, Region-specific & Regularized Spiking Neural Networks for Scalable Place Recognition ( http://arxiv.org/abs/2209.08723v3 ) ライセンス: Link先を確認 | Somayeh Hussaini, Michael Milford and Tobias Fischer | (参考訳) スパイクニューラルネットワークは、特殊なハードウェア上での高エネルギー効率のため、ロボット工学において有意義な有用性を持っているが、概念実証の実装は、従来のアプローチによる競争性能や能力の達成が一般的ではない。
本稿では,コンパクトでローカライズされたスパイクネットワークが,それぞれが学習し,環境の局所的な領域のみを認識できるという,新しいモジュール型アンサンブルネットワーク手法を導入することで,スケーラビリティの重要な課題の1つに挑戦する。
このモジュラーアプローチは高度にスケーラブルなシステムを生み出す。
しかし、デプロイ時にグローバルな正規化の欠如が、学習領域外の場所に誤って反応する過活動ニューロンにつながる、高性能なコストが伴う。
第2の貢献は、これらの問題のあるハイパーアクティブニューロンを初期環境学習段階で検出し除去する正規化アプローチの導入である。
我々は、この新しいスケーラブルなモジュラーシステムを、標準技術であるNetVLAD、DenseVLAD、SADおよび以前のスパイクニューラルネットワークシステムと比較して、ベンチマークローカライゼーションデータセット上で評価する。
提案方式は,従来のsnnシステムよりも小さなデータセットで大幅に性能が向上するが,従来方式の演算が実現不可能であった27倍のベンチマークデータセットの性能を維持し,従来のローカライズ方式と競合する。 Spiking neural networks have significant potential utility in robotics due to their high energy efficiency on specialized hardware, but proof-of-concept implementations have not yet typically achieved competitive performance or capability with conventional approaches. In this paper, we tackle one of the key practical challenges of scalability by introducing a novel modular ensemble network approach, where compact, localized spiking networks each learn and are solely responsible for recognizing places in a local region of the environment only. This modular approach creates a highly scalable system. However, it comes with a high-performance cost where a lack of global regularization at deployment time leads to hyperactive neurons that erroneously respond to places outside their learned region. Our second contribution introduces a regularization approach that detects and removes these problematic hyperactive neurons during the initial environmental learning phase. We evaluate this new scalable modular system on benchmark localization datasets Nordland and Oxford RobotCar, with comparisons to standard techniques NetVLAD, DenseVLAD, and SAD, and a previous spiking neural network system. Our system substantially outperforms the previous SNN system on its small dataset, but also maintains performance on 27 times larger benchmark datasets where the operation of the previous system is computationally infeasible, and performs competitively with the conventional localization systems. | 翻訳日:2023-05-08 17:30:59 公開日:2023-05-05 |
# 分割型経験的ベイズECMアルゴリズムによる疎高次元線形回帰 Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm ( http://arxiv.org/abs/2209.08139v4 ) ライセンス: Link先を確認 | Alexander C. McLain, Anja Zgodic, and Howard Bondell | (参考訳) ベイズ変数選択法はスパース高次元線形回帰モデルに適合し、推論するための強力な手法である。
しかし、多くは計算量が多いか、モデルパラメーター上の制限付き事前分布を必要とする。
本稿では,高次元線形回帰に対する計算効率と強力なベイズ法を提案する。
パラメータの最小の事前仮定は、ハイパーパラメータのプラグイン経験ベイズ推定を用いて使われる。
パラメータ拡張された期待条件最大化(px-ecm)アルゴリズムにより、効率的な最大後方推定(map)が完了する。
PX-ECMは、他の予測変数の影響を調節する、堅牢な計算効率の良い座標ワイズ最適化をもたらす。
Eステップの完成は、人気のある2グループアプローチによる複数のテストの動機付けによるアプローチを使用する。
その結果、PaRtiti Oned empirical Bayes Ecm (PROBE) アルゴリズムが高次元線形回帰に応用され、ワン・ア・ア・タイムあるいはオール・ア・ア・オンス型最適化を用いて完遂できる。
本研究は, 癌細胞株の薬物応答解析とシミュレーション研究を比較検討し, PROBEの実証的特性を比較検討した。
提案手法はRパッケージプローブに実装されている。 Bayesian variable selection methods are powerful techniques for fitting and inferring on sparse high-dimensional linear regression models. However, many are computationally intensive or require restrictive prior distributions on model parameters. In this paper, we proposed a computationally efficient and powerful Bayesian approach for sparse high-dimensional linear regression. Minimal prior assumptions on the parameters are used through the use of plug-in empirical Bayes estimates of hyperparameters. Efficient maximum a posteriori (MAP) estimation is completed through a Parameter-Expanded Expectation-Conditional-Maximization (PX-ECM) algorithm. The PX-ECM results in a robust computationally efficient coordinate-wise optimization, which adjusts for the impact of other predictor variables. The completion of the E-step uses an approach motivated by the popular two-groups approach to multiple testing. The result is a PaRtitiOned empirical Bayes Ecm (PROBE) algorithm applied to sparse high-dimensional linear regression, which can be completed using one-at-a-time or all-at-once type optimization. We compare the empirical properties of PROBE to comparable approaches with numerous simulation studies and an analysis of cancer cell lines drug response study. The proposed approach is implemented in the R package probe. | 翻訳日:2023-05-08 17:30:35 公開日:2023-05-05 |
# グラフ正規化ニューラルネットワークを用いた超スペクトルデータからの樹木種分類 Tree species classification from hyperspectral data using graph-regularized neural networks ( http://arxiv.org/abs/2208.08675v2 ) ライセンス: Link先を確認 | Debmita Bandyopadhyay, Subhadip Mukherjee, James Ball, Gr\'egoire Vincent, David A. Coomes, Carola-Bibiane Sch\"onlieb | (参考訳) 木種分類のための新しいグラフ正規化ニューラルネットワーク(GRNN)を提案する。
提案アルゴリズムは,グラフ構築のためのスーパーピクセルベースセグメンテーション,画素ワイドニューラルネットワーク分類器,およびラベル伝搬技術を含み,細かな注釈付きデータセット上に,正確でリアルな(ツリークラウンをエミュレートする)分類マップを生成する。
GRNNは、標準のインド・パインズHSIだけでなく、1%未満のピクセルがラベル付けされた場合、フランス領ギアナ(FG)の異質林で収集された新しいHSIデータセットに対して高い分類精度(約92%)を達成している。
さらに、GRNNは最先端の半教師付き手法と競合し、異なる数のトレーニングサンプルに対する精度の差が小さく、ランダムなラベル付き画素によるトレーニングのための繰り返し試行が可能であることを示す。 We propose a novel graph-regularized neural network (GRNN) algorithm for tree species classification. The proposed algorithm encompasses superpixel-based segmentation for graph construction, a pixel-wise neural network classifier, and the label propagation technique to generate an accurate and realistic (emulating tree crowns) classification map on a sparsely annotated data set. GRNN outperforms several state-of-the-art techniques not only for the standard Indian Pines HSI but also achieves a high classification accuracy (approx. 92%) on a new HSI data set collected over the heterogeneous forests of French Guiana (FG) when less than 1% of the pixels are labeled. We further show that GRNN is competitive with the state-of-the-art semi-supervised methods and exhibits a small deviation in accuracy for different numbers of training samples and over repeated trials with randomly sampled labeled pixels for training. | 翻訳日:2023-05-08 17:30:18 公開日:2023-05-05 |
# 量子気体中の波動乱流の普遍状態方程式 Universal equation of state for wave turbulence in a quantum gas ( http://arxiv.org/abs/2212.08652v2 ) ライセンス: Link先を確認 | Lena H. Dogra, Gevorg Martirosyan, Timon A. Hilker, Jake A. P. Glidden, Ji\v{r}\'i Etrych, Alec Cao, Christoph Eigen, Robert P. Smith, Zoran Hadzibabic | (参考訳) ボイルの1662年の観測では、気体の体積は常温では圧力に逆比例しており、状態方程式(eos)が多粒子系の重要な性質を簡潔に捉える方法の典型例となった。
このような関係は現在平衡熱力学の基礎となっている。
熱力学の概念を遠方平衡系に拡張することは、眼鏡、活性物質、乱流など様々な文脈において非常に興味深いが、一般にはオープンな問題である。
ここでは, 均一な超低温原子ボースガスを用いて, 物質波の乱流カスケードのためのEoSを実験的に構築する。
ガスは、大きなスケールでの連続的な強制と小さいスケールでの散逸の下では、スケール不変の運動量-空間エネルギーフラックスによって持続されるパワーロー運動量分布によって特徴づけられる非熱的だが定常状態を示す。
我々は、エネルギー注入や散逸の詳細や系の歴史に依存しないEoSによって関係づけられた平衡状態変数として運動量分布と下層のエネルギーフラックスの振幅を定めている。
さらに, 幅広い相互作用強度と気体密度に対する状態方程式が, 実験的に相互にスケールできることを示した。
この結果、普遍次元のないEoSは理論のベンチマークを設定し、他の乱流系にも関係する。 Boyle's 1662 observation that the volume of a gas is, at constant temperature, inversely proportional to pressure, offered a prototypical example of how an equation of state (EoS) can succinctly capture key properties of a many-particle system. Such relations are now cornerstones of equilibrium thermodynamics. Extending thermodynamic concepts to far-from-equilibrium systems is of great interest in various contexts including glasses, active matter, and turbulence, but is in general an open problem. Here, using a homogeneous ultracold atomic Bose gas, we experimentally construct an EoS for a turbulent cascade of matter waves. Under continuous forcing at a large length scale and dissipation at a small one, the gas exhibits a non-thermal, but stationary state, which is characterised by a power-law momentum distribution sustained by a scale-invariant momentum-space energy flux. We establish the amplitude of the momentum distribution and the underlying energy flux as equilibrium-like state variables, related by an EoS that does not depend on the details of the energy injection or dissipation, or the history of the system. Moreover, we show that the equations of state for a wide range of interaction strengths and gas densities can be empirically scaled onto each other. This results in a universal dimensionless EoS that sets benchmarks for the theory and should also be relevant for other turbulent systems. | 翻訳日:2023-05-08 17:23:40 公開日:2023-05-05 |
# xTrimoABFold:MSAのないDe novo抗体構造予測 xTrimoABFold: De novo Antibody Structure Prediction without MSA ( http://arxiv.org/abs/2212.00735v3 ) ライセンス: Link先を確認 | Yining Wang, Xumeng Gong, Shaochuan Li, Bing Yang, YiWu Sun, Chuan Shi, Yangang Wang, Cheng Yang, Hui Li, Le Song | (参考訳) 抗体工学の分野では、パラトープが正しいエピトープを持つ特定の抗原に結合する新しい抗体を設計することが重要な課題である。
抗体構造とそのパラトープを理解することは、その機能の機械的理解を促進する。
したがって、その配列だけでの抗体構造予測は、デノボ抗体の設計において非常に重要な問題である。
AlphaFold2は構造生物学の分野におけるブレークスルーであり、タンパク質配列と計算に高価な共進化的多重配列アライメント(MSA)に基づいてタンパク質構造を予測するソリューションを提供する。
しかしながら、特に抗体の相補性決定領域(cdrs)における抗体の計算効率と望ましくない予測精度は、工業的に高スループットな薬物設計におけるそれらの応用を制限する。
抗体のインフォメーション表現を学ぶために,我々は,観察された抗体空間データベースからトランスフォーマモデルを介してキュレートされた配列に対して,ディープ抗体言語モデル(alm)を用いた。
我々はまた,事前訓練されたALMと効率的なエボフォーマおよび構造モジュールに基づいて,抗体配列から抗体構造を予測する新しいモデルxTrimoABFoldを開発した。
CDRにおけるドメイン特異的焦点損失のアンサンブル損失とフレーム整合点損失を最小化し,PDBの抗体構造をエンドツーエンドに学習した。
xtrimoabfold は alphafold2 や他のタンパク質言語モデルベースの sota、例えば omegafold, helixfold-single, igfold よりも大きなマージン(rmsd では 30+\% 改善)を持ち、alphafold2 よりも 151 倍高速である。
我々の知る限りでは、xTrimoABFoldは最先端の抗体構造予測を達成した。
精度と効率の両面での改善により、デノボ抗体の設計に有用なツールとなり、免疫理論のさらなる改善が期待できる。 In the field of antibody engineering, an essential task is to design a novel antibody whose paratopes bind to a specific antigen with correct epitopes. Understanding antibody structure and its paratope can facilitate a mechanistic understanding of its function. Therefore, antibody structure prediction from its sequence alone has always been a highly valuable problem for de novo antibody design. AlphaFold2, a breakthrough in the field of structural biology, provides a solution to predict protein structure based on protein sequences and computationally expensive coevolutionary multiple sequence alignments (MSAs). However, the computational efficiency and undesirable prediction accuracy of antibodies, especially on the complementarity-determining regions (CDRs) of antibodies limit their applications in the industrially high-throughput drug design. To learn an informative representation of antibodies, we employed a deep antibody language model (ALM) on curated sequences from the observed antibody space database via a transformer model. We also developed a novel model named xTrimoABFold to predict antibody structure from antibody sequence based on the pretrained ALM as well as efficient evoformers and structural modules. The model was trained end-to-end on the antibody structures in PDB by minimizing the ensemble loss of domain-specific focal loss on CDR and the frame-aligned point loss. xTrimoABFold outperforms AlphaFold2 and other protein language model based SOTAs, e.g., OmegaFold, HelixFold-Single, and IgFold with a large significant margin (30+\% improvement on RMSD) while performing 151 times faster than AlphaFold2. To the best of our knowledge, xTrimoABFold achieved state-of-the-art antibody structure prediction. Its improvement in both accuracy and efficiency makes it a valuable tool for de novo antibody design and could make further improvements in immuno-theory. | 翻訳日:2023-05-08 17:22:32 公開日:2023-05-05 |
# ビッグデータから見た企業財務リスク分析に関する総合調査 A Comprehensive Survey on Enterprise Financial Risk Analysis from Big Data Perspective ( http://arxiv.org/abs/2211.14997v3 ) ライセンス: Link先を確認 | Yu Zhao, Huaming Du, Qing Li, Fuzhen Zhuang, Ji Liu, Gang Kou | (参考訳) 企業金融リスク分析は、企業の将来の金融リスクを予測することを目的としている。
その広範かつ重要な応用により、企業の金融リスク分析は常に金融・経営分野の中核的な研究テーマとなっている。
高度なコンピュータ科学と人工知能技術に基づき、エンタープライズリスク分析研究は急速に発展し、大きな進歩を遂げている。
したがって、関連する研究を総合的に見直すことは必要かつ困難である。
金融・マネジメントの観点からは、企業リスク分析に関する有意義で印象的な調査がすでに行われているが、これらの調査は比較的孤立したアプローチを導入し、企業金融リスク分析の最近の進歩を欠いている。
対照的に本稿では,過去50年間(1968年から2023年)に250以上の代表的な論文をレビューしたビッグデータの観点から,企業リスク分析アプローチに関する体系的文献調査を試みている。
私たちの知る限りでは、ビッグデータの観点から企業の金融リスクに関する調査は、これが初めてで唯一のものです。
具体的には、既存の企業金融リスク研究、すなわち問題、方法、スポットライトを包括的に要約し、解釈するために接続し、体系化する。
特に,企業財務リスクの問題を,そのタイプ,粒度,インテリジェンス,評価指標の観点から紹介し,対応する代表的業績を要約する。
次に、企業財務リスクの学習に使用される分析手法を比較し、最終的に代表的作品のスポットライトを要約する。
我々のゴールは、企業リスクの発生と伝染のメカニズムを十分に理解することを目的として、企業リスクをモデル化するための最先端の研究とその今後の方向性を明らかにすることである。 Enterprise financial risk analysis aims at predicting the future financial risk of enterprises. Due to its wide and significant application, enterprise financial risk analysis has always been the core research topic in the fields of Finance and Management. Based on advanced computer science and artificial intelligence technologies, enterprise risk analysis research is experiencing rapid developments and making significant progress. Therefore, it is both necessary and challenging to comprehensively review the relevant studies. Although there are already some valuable and impressive surveys on enterprise risk analysis from the perspective of Finance and Management, these surveys introduce approaches in a relatively isolated way and lack recent advances in enterprise financial risk analysis. In contrast, this paper attempts to provide a systematic literature survey of enterprise risk analysis approaches from Big Data perspective, which reviews more than 250 representative articles in the past almost 50 years (from 1968 to 2023). To the best of our knowledge, this is the first and only survey work on enterprise financial risk from Big Data perspective. Specifically, this survey connects and systematizes the existing enterprise financial risk studies, i.e. to summarize and interpret the problems, methods, and spotlights in a comprehensive way. In particular, we first introduce the issues of enterprise financial risks in terms of their types,granularity, intelligence, and evaluation metrics, and summarize the corresponding representative works. Then, we compare the analysis methods used to learn enterprise financial risk, and finally summarize the spotlights of the most representative works. Our goal is to clarify current cutting-edge research and its possible future directions to model enterprise risk, aiming to fully understand the mechanisms of enterprise risk generation and contagion. | 翻訳日:2023-05-08 17:22:00 公開日:2023-05-05 |
# ランクプーリングと高速フーリエ変換を用いたマルチステップ短期風速予測 Multi-Step Short-Term Wind Speed Prediction with Rank Pooling and Fast Fourier Transformation ( http://arxiv.org/abs/2211.14434v2 ) ライセンス: Link先を確認 | Hailong Shu | (参考訳) 短期的な風速予測は経済的な風力利用に不可欠である。
現実の風速データは通常断続的で変動し、既存の浅いモデルに大きな課題をもたらす。
本稿では,LR-FFT-RP-MLP/LSTM(Linear Fast Fourier Transformation Rank Pooling Multiple-Layer Perception/Long Short-Term Memory)という,多段風速予測のための新しいハイブリッドモデルを提案する。
我々のハイブリッドモデルは、局所的およびグローバルな入力特徴を同時に処理する。
局所特徴抽出にランクプーリング(RP)を用い,時間的秩序を維持しながら時間的構造を捉える。
また,風周期パターンを理解するために,風速データからグローバル特徴と関連する周波数成分を抽出するために高速フーリエ変換(fft)を利用する。
得られた局所的特徴とグローバルな特徴はそれぞれ元のデータと統合され、初期の風速予測のためにMLP/LSTM層に供給される。
最後に、線形回帰層を利用してこれらの初期予測を協調して最終的な風速予測を行う。
提案したハイブリッドモデルは,2010年から2020年にかけて収集された実風速データを用いて評価し,最先端の単一ハイブリッドモデルと比較して優れた予測能力を示す。
本研究は風速予測の精度を向上させるための有望な手法を提案する。 Short-term wind speed prediction is essential for economical wind power utilization. The real-world wind speed data is typically intermittent and fluctuating, presenting great challenges to existing shallow models. In this paper, we present a novel deep hybrid model for multi-step wind speed prediction, namely LR-FFT-RP-MLP/LSTM (Linear Fast Fourier Transformation Rank Pooling Multiple-Layer Perception/Long Short-Term Memory). Our hybrid model processes the local and global input features simultaneously. We leverage Rank Pooling (RP) for the local feature extraction to capture the temporal structure while maintaining the temporal order. Besides, to understand the wind periodic patterns, we exploit Fast Fourier Transformation (FFT) to extract global features and relevant frequency components in the wind speed data. The resulting local and global features are respectively integrated with the original data and are fed into an MLP/LSTM layer for the initial wind speed predictions. Finally, we leverage a linear regression layer to collaborate these initial predictions to produce the final wind speed prediction. The proposed hybrid model is evaluated using real wind speed data collected from 2010 to 2020, demonstrating superior forecasting capabilities when compared to state-of-the-art single and hybrid models. Overall, this study presents a promising approach for improving the accuracy of wind speed forecasting. | 翻訳日:2023-05-08 17:21:37 公開日:2023-05-05 |
# 自動コピー/ペースト攻撃によるディープニューラルネットワークの診断 Diagnostics for Deep Neural Networks with Automated Copy/Paste Attacks ( http://arxiv.org/abs/2211.10024v3 ) ライセンス: Link先を確認 | Stephen Casper, Kaivalya Hariharan, Dylan Hadfield-Menell | (参考訳) 本稿では,ディープニューラルネットワーク(DNN)のスケーラビリティに配慮した作業を支援する。
逆例は、DNNの弱点を明らかにするのに役立つが、行動可能な結論を解釈したり、引き出すことは困難である。
以前のいくつかの研究は、人間の解釈可能な敵の攻撃を用いており、例えば、ある自然画像が別の画像に貼り付けられたコピー/ペースト攻撃は、予期せぬ誤分類を引き起こす。
私たちはこれらを2つのコントリビューションで構築します。
まず,本研究では,組込み(snafue)を用いた自然敵の探索について紹介する。
次に、SNAFUEを使ってImageNet分類器をレッドチーム化する。
我々は、過去の作品からコピー/ペースト攻撃を再現し、他の何百もの簡単に記述できる脆弱性を見つけます。
コードはhttps://github.com/thestephencasper/snafueで入手できる。 This paper considers the problem of helping humans exercise scalable oversight over deep neural networks (DNNs). Adversarial examples can be useful by helping to reveal weaknesses in DNNs, but they can be difficult to interpret or draw actionable conclusions from. Some previous works have proposed using human-interpretable adversarial attacks including copy/paste attacks in which one natural image pasted into another causes an unexpected misclassification. We build on these with two contributions. First, we introduce Search for Natural Adversarial Features Using Embeddings (SNAFUE) which offers a fully automated method for finding copy/paste attacks. Second, we use SNAFUE to red team an ImageNet classifier. We reproduce copy/paste attacks from previous works and find hundreds of other easily-describable vulnerabilities, all without a human in the loop. Code is available at https://github.com/thestephencasper/snafue | 翻訳日:2023-05-08 17:21:11 公開日:2023-05-05 |
# Sachdev-Ye-Kitaevモデルを用いた非エルミート多体量子カオスの普遍性とその極限 Universality and its limits in non-Hermitian many-body quantum chaos using the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2211.01650v2 ) ライセンス: Link先を確認 | Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, and Jacobus J. M. Verbaarschot | (参考訳) エルミート量子カオス系のスペクトル剛性は、ハイゼンベルク時間よりもはるかに短い時間スケールにおける動的普遍性の存在を示唆する。
長距離スペクトル相関器の詳細な解析により,多体非ヘルミット量子カオスにおけるこの時間スケールの類似性について検討した。
その目的のために、ゼロ空間次元におけるN$フェルミオンを記述した非エルミート的$q$-body Sachdev-Ye-Kitaev(nHSYK)モデルの数値分散とスペクトル形成係数について検討する。
非エルミート確率行列に対するこれらのスペクトル観測可能量の解析的および数値的解析と、慎重に展開した結果、nHSYKモデルと$q > 2$の時間スケールでの良好な一致が、$q$と急激に減少する。
解析的に特定された普遍性からの逸脱の源は、量子力学とは無関係なアンサンブル変動である。
固定された$q$ と十分大きな$n$ に対して、これらのゆらぎはハイゼンベルク時間後まで支配的となり、スペクトル形式因子は量子カオスの研究でもはや役に立たない。
いずれの場合においても、この結果は、完全な量子エルゴディシティの観測を効果的に遅らせる、弱化または消滅するスペクトル剛性を示す。
また,nHSYKモデルとランダム行列の双方に対して,非定常スペクトル相関を示す。
この非定常性は、量子力学にも関係せず、量子カオス運動を記述するためにこれらの観測可能性の本質的な制限を示している。
一方, 非エルミート量子カオスの効果的な診断法として, 局所スペクトル形成因子を導入し, 集団変動の影響を受けないことが示されている。
$q = 2$の場合、ポアソン統計の飽和は$\log D$であり、$$$\sqrt D$ for $ q>2$であるのに対し、$D$は州の総数である。 Spectral rigidity in Hermitian quantum chaotic systems signals the presence of dynamical universal features at timescales that can be much shorter than the Heisenberg time. We study the analog of this timescale in many-body non-Hermitian quantum chaos by a detailed analysis of long-range spectral correlators. For that purpose, we investigate the number variance and the spectral form factor of a non-Hermitian $q$-body Sachdev-Ye-Kitaev (nHSYK) model, which describes $N$ fermions in zero spatial dimensions. After an analytical and numerical analysis of these spectral observables for non-Hermitian random matrices, and a careful unfolding, we find good agreement with the nHSYK model for $q > 2$ starting at a timescale that decreases sharply with $q$. The source of deviation from universality, identified analytically, is ensemble fluctuations not related to the quantum dynamics. For fixed $q$ and large enough $N$, these fluctuations become dominant up until after the Heisenberg time, so that the spectral form factor is no longer useful for the study of quantum chaos. In all cases, our results point to a weakened or vanishing spectral rigidity that effectively delays the observation of full quantum ergodicity. We also show that the number variance displays nonstationary spectral correlations for both the nHSYK model and random matrices. This nonstationarity, also not related to the quantum dynamics, points to intrinsic limitations of these observables to describe the quantum chaotic motion. On the other hand, we introduce the local spectral form factor, which is shown to be stationary and not affected by collective fluctuations, and propose it as an effective diagnostic of non-Hermitian quantum chaos. For $q = 2$, we find saturation to Poisson statistics at a timescale of $\log D$, compared to a scale of $\sqrt D$ for $ q>2$, with $D $ the total number of states. | 翻訳日:2023-05-08 17:20:45 公開日:2023-05-05 |
# マルチモーダルAIと衛星画像による大気質の予測 Predicting air quality via multimodal AI and satellite imagery ( http://arxiv.org/abs/2211.00780v2 ) ライセンス: Link先を確認 | Andrew Rowley and Oktay Karaku\c{s} | (参考訳) 気候変動は、地球が現在直面している最も重要な環境問題であり、地球上のすべての生物に影響を及ぼす可能性がある。
空気質の監視ステーションは一般的に地上ベースであるため、汚染物質分布を検出する能力は広い範囲に限定されることが多い。
欧州宇宙機関(ESA)のコペルニクス計画衛星 "Sentinel-5P" は、様々な汚染情報を公的に利用可能なデータ出力で測定できる、新たに打ち上げられた衛星である。
本稿では,監視局が存在しない空気質指標を予測するためのマルチモーダル機械学習モデルを提案する。
このモデルの入力には、汚染物質分布の強調と社会・産業行動の変化の動機づけを目的として、地上測定と衛星データの融合が含まれる。
ヨーロッパの汚染監視ステーション測定の新しいデータセットは、$\textit{altitude, populationなどを含む機能で作成されている。
ESA Copernicusプロジェクトからの$。
このデータセットは、様々な種類のデータソースを融合させて様々な汚染物質の予測を出力できるマルチモーダルMLモデルAir Quality Network(AQNet)のトレーニングに使用される。
これらの予測は「空気品質指標」を作成するために集約され、異なる地域における空気品質を比較するのに使用できる。
NO$_2$, O$_3$, PM$_{10}$の3種類の汚染物質がAQNetによって予測され, 衛星画像のみを用いたモデルと比較して有用であることが判明した。
また,サポートデータの追加により予測が向上することが判明した。
英国とアイルランドのサンプル外データで開発されたAQNetをテストすると、平均汚染量の約20%が過大評価されているものの、良好な推定値が得られる。 Climate change may be classified as the most important environmental problem that the Earth is currently facing, and affects all living species on Earth. Given that air-quality monitoring stations are typically ground-based their abilities to detect pollutant distributions are often restricted to wide areas. Satellites however have the potential for studying the atmosphere at large; the European Space Agency (ESA) Copernicus project satellite, "Sentinel-5P" is a newly launched satellite capable of measuring a variety of pollutant information with publicly available data outputs. This paper seeks to create a multi-modal machine learning model for predicting air-quality metrics where monitoring stations do not exist. The inputs of this model will include a fusion of ground measurements and satellite data with the goal of highlighting pollutant distribution and motivating change in societal and industrial behaviors. A new dataset of European pollution monitoring station measurements is created with features including $\textit{altitude, population, etc.}$ from the ESA Copernicus project. This dataset is used to train a multi-modal ML model, Air Quality Network (AQNet) capable of fusing these various types of data sources to output predictions of various pollutants. These predictions are then aggregated to create an "air-quality index" that could be used to compare air quality over different regions. Three pollutants, NO$_2$, O$_3$, and PM$_{10}$, are predicted successfully by AQNet and the network was found to be useful compared to a model only using satellite imagery. It was also found that the addition of supporting data improves predictions. When testing the developed AQNet on out-of-sample data of the UK and Ireland, we obtain satisfactory estimates though on average pollution metrics were roughly overestimated by around 20\%. | 翻訳日:2023-05-08 17:20:10 公開日:2023-05-05 |
# LHCおよび将来の衝突器における弱ゲージボソン生成におけるベルの不等式と量子絡み合い Bell inequalities and quantum entanglement in weak gauge bosons production at the LHC and future colliders ( http://arxiv.org/abs/2302.00683v2 ) ライセンス: Link先を確認 | M. Fabbrichesi, R. Floreanini, E. Gabrielli, and L. Marzola | (参考訳) 衝突器で生成する弱い相互作用ゲージボソンの量子絡み合いは、対応する分極密度行列を計算することで探究できる。
この目的のために、ヒッグス粒子は$H\to W W^*$と$H\to Z Z^*$で崩壊し、そこでは$W^*$と$Z^*$はオフシェル状態、そして$WW$、$WZ$および$ZZ$は陽子衝突におけるダイボソン生成である。
ディボソン状態の分極密度行列は、生成プロセスの振幅によって決定され、ゲージボソンが崩壊する荷電レプトンのモーメントの角分布から実験的に再構成することができる。
我々は,ベルの不等式が$H\to Z Z^*$において,将来のデータでLHCで検証できる程度に不等式を犯していることを示す。
同じベルの不等式は900GeV以上の不変質量に対する$WW$と$ZZ$ボソン対と、質量フレームの中心における$\pi/2$に近い散乱角に対して違反される。
この場合のLHCデータはベルの不平等の違反を確立するには不十分である。
また, ダイボソン最終状態におけるベル不等式違反を将来の$e^+e^-$およびミューオン衝突器で検出する可能性も分析した。
ダイボソン系における分極エンタングルメントの量に低いバウンドを与えるさらなるオブザーバブルを各プロセスで計算する。
偏光密度行列の解析式は、Appendixで完全に表現される。
またベルの不等式テストに必要な最適化手順に必要なユニタリ行列も提供する。 Quantum entanglement of weak interaction gauge bosons produced at colliders can be explored by computing the corresponding polarization density matrix. To this end, we consider the Higgs boson decays $H\to W W^*$ and $H\to Z Z^*$, in which $W^*$ and $Z^*$ are off-shell states, and the $WW$, $WZ$ and $ZZ$ di-boson production in proton collisions. The polarization density matrix of the di-boson state is determined by the amplitude of the production process and can be experimentally reconstructed from the angular distribution of the momenta of the charged leptons into which the gauge boson decays. We show that a suitable instance of the Bell inequality is violated in $H\to Z Z^*$ to a degree that can be tested at the LHC with future data. The same Bell inequality is violated in the production of $WW$ and $ZZ$ boson pairs for invariant masses above 900 GeV and scattering angles close to $\pi/2$ in the center of mass frame. LHC data in this case are not sufficient to establish the violation of the Bell inequality. We also analyze the prospects for detecting Bell inequality violations in di-boson final states at future $e^+e^-$ and muon colliders. A further observable that provides a lower bound on the amount of polarization entanglement in the di-boson system is computed for each of the examined processes. The analytic expressions for the polarization density matrices are presented in full in an Appendix. We also provide the unitary matrices required in the optimization procedure necessary in testing the Bell inequalities. | 翻訳日:2023-05-08 17:14:29 公開日:2023-05-05 |
# Green AIのシステムレビュー A Systematic Review of Green AI ( http://arxiv.org/abs/2301.11047v3 ) ライセンス: Link先を確認 | Roberto Verdecchia and June Sallou and Lu\'is Cruz | (参考訳) AIベースのシステムの普及が続く中、AIのカーボンフットプリントはもはや無視できない。
そのため、AI研究者や実践者は、自分たちが設計し使用するAIモデルの二酸化炭素排出量について責任を負うように促されている。
これは近年、グリーンAIと呼ばれる分野である、環境の持続可能性に取り組む研究の出現につながった。
このトピックへの関心は急速に高まっているが、グリーンai研究の包括的な概要は、いまだに欠けている。
本稿では,このギャップに対処するために,グリーンai文献を体系的にレビューする。
98の一次研究の分析から異なるパターンが出現した。
この話題は2020年以降、かなりの成長を遂げた。
ほとんどの研究は、AIモデルのフットプリントの監視、モデルサステナビリティ改善のためのハイパーパラメータのチューニング、あるいはベンチマークモデルについて検討している。
位置論文、観察研究、解答論文が混在している。
ほとんどの論文はトレーニングフェーズに注目し、アルゴリズムに依存しない、あるいはニューラルネットワークを研究し、画像データを使用する。
実験室実験は最も一般的な研究戦略である。
グリーンaiによる省エネは115%まで増加し、50%以上の省エネが一般的である。
産業団体はグリーンAI研究に関わっており、ほとんどの学術読者が対象だ。
グリーンAIツールのプロビジョニングは少ない。
結論として、green ai研究分野は、かなり成熟したレベルに達している。
したがって、このレビューから、他のグリーンAI研究戦略を採用し、多くの有望な学術成果を工業的実践に移植するのに適切な時期が現れる。 With the ever-growing adoption of AI-based systems, the carbon footprint of AI is no longer negligible. AI researchers and practitioners are therefore urged to hold themselves accountable for the carbon emissions of the AI models they design and use. This led in recent years to the appearance of researches tackling AI environmental sustainability, a field referred to as Green AI. Despite the rapid growth of interest in the topic, a comprehensive overview of Green AI research is to date still missing. To address this gap, in this paper, we present a systematic review of the Green AI literature. From the analysis of 98 primary studies, different patterns emerge. The topic experienced a considerable growth from 2020 onward. Most studies consider monitoring AI model footprint, tuning hyperparameters to improve model sustainability, or benchmarking models. A mix of position papers, observational studies, and solution papers are present. Most papers focus on the training phase, are algorithm-agnostic or study neural networks, and use image data. Laboratory experiments are the most common research strategy. Reported Green AI energy savings go up to 115%, with savings over 50% being rather common. Industrial parties are involved in Green AI studies, albeit most target academic readers. Green AI tool provisioning is scarce. As a conclusion, the Green AI research field results to have reached a considerable level of maturity. Therefore, from this review emerges that the time is suitable to adopt other Green AI research strategies, and port the numerous promising academic results to industrial practice. | 翻訳日:2023-05-08 17:13:58 公開日:2023-05-05 |
# COVINS-G:コラボレーション型ビジュアル慣性SLAMのための汎用バックエンド COVINS-G: A Generic Back-end for Collaborative Visual-Inertial SLAM ( http://arxiv.org/abs/2301.07147v3 ) ライセンス: Link先を確認 | Manthan Patel, Marco Karrer, Philipp B\"anninger and Margarita Chli | (参考訳) 協調的なslamは、ロボットチームの共通参照フレームにおけるコローカライゼーションを可能にするため、マルチロボットシステムにおける認識の核心である。
集中型アーキテクチャのパラダイムは確立されており、例えば、キーフレーム(KF)のような関連するデータを中央のバックエンド(サーバ)に通信しながら、視覚慣性オドメトリー(VIO)を搭載中のロボット(エージェント)が統合し、エージェントの関節マップを最適化する。
これらのフレームワークは成功したことが証明されているが、その能力と性能はVIOフロントエンドの選択に大きく依存しているため、柔軟性が制限される。
本研究では,COVINSフレームワークをベースとした汎用バックエンドビルディングであるCOVINS-Gを紹介し,例えばRealsense T265のようなオドメトリ機能を備えたオフザシェルカメラを含む任意のVIOフロントエンドとのサーババックエンドの互換性を実現する。
COVINS-Gバックエンドは、ループ閉鎖制約を計算するためのマルチカメラ相対ポーズ推定アルゴリズムをデプロイし、システムは2D画像データ上で純粋に動作する。
実験評価では,最先端のマルチセッション・コラボレーティブslamシステムと同等の精度を示すとともに,同一ミッション内で異なるフロントエンドを連携エージェントとして使用することにより,我々のアプローチの柔軟性と汎用性を実証した。
COVINS-Gコードベースと一般化されたフロントエンドラッパーは、提案された共同バックエンドと組み合わせて、既存のVIOフロントエンドを簡単に使用できるようにする。
ビデオ: https://youtu.be/FoJfXCfaYDw Collaborative SLAM is at the core of perception in multi-robot systems as it enables the co-localization of the team of robots in a common reference frame, which is of vital importance for any coordination amongst them. The paradigm of a centralized architecture is well established, with the robots (i.e. agents) running Visual-Inertial Odometry (VIO) onboard while communicating relevant data, such as e.g. Keyframes (KFs), to a central back-end (i.e. server), which then merges and optimizes the joint maps of the agents. While these frameworks have proven to be successful, their capability and performance are highly dependent on the choice of the VIO front-end, thus limiting their flexibility. In this work, we present COVINS-G, a generalized back-end building upon the COVINS framework, enabling the compatibility of the server-back-end with any arbitrary VIO front-end, including, for example, off-the-shelf cameras with odometry capabilities, such as the Realsense T265. The COVINS-G back-end deploys a multi-camera relative pose estimation algorithm for computing the loop-closure constraints allowing the system to work purely on 2D image data. In the experimental evaluation, we show on-par accuracy with state-of-the-art multi-session and collaborative SLAM systems, while demonstrating the flexibility and generality of our approach by employing different front-ends onboard collaborating agents within the same mission. The COVINS-G codebase along with a generalized front-end wrapper to allow any existing VIO front-end to be readily used in combination with the proposed collaborative back-end is open-sourced. Video: https://youtu.be/FoJfXCfaYDw | 翻訳日:2023-05-08 17:13:37 公開日:2023-05-05 |
# 超伝導アナログシミュレータにおけるポーラロン励起のスペクトル特性 Spectral features of polaronic excitations in a superconducting analog simulator ( http://arxiv.org/abs/2212.14859v2 ) ライセンス: Link先を確認 | Julian K. Nauth and Vladimir M. Stojanovic | (参考訳) 導電性超伝導トランスモン量子ビットとマイクロ波共振器を用いたアナログ量子シミュレータのフレームワーク内でのポーラロン励起のスペクトル特性について検討した。
このシステムは、無分散(アインシュタイン型)フォノンへのスピンレスフェルミオン励起の非局所結合を記述する格子模型をエミュレートする。
このモデルの特徴は、有効励起-フォノン結合強度の臨界値における鋭い水平交差遷移であり、遷移点上において、このモデルの基底状態は強装(ポーラニック)励起に対応する。
カーネル-多項法を用いて、このシステムの運動量-周波数分解スペクトル関数を幅広いパラメータで評価した。
特に、素励起の零準同相ブロッホ状態が、任意の励起-フォノン結合強度のために、この系のハミルトニアンの正確な固有状態を表すという事実の分岐を裏付ける。
また, 数値評価されたスペクトル関数と, 初期非励起ブロッホ状態(Loschmidt echo)の生存確率とのよく知られた関係に基づいて, 励起-フォノン相互作用のクエンチに従って系の力学を予測できることを示した。
本研究では,Ramsey干渉プロトコルのマルチキュービットバージョンを用いて,局所(単一キュービット)アドバイザビリティを持つシステムにおける動的応答関数を抽出する手法を提案する。 We investigate spectral properties of polaronic excitations within the framework of an analog quantum simulator based on inductively coupled superconducting transmon qubits and microwave resonators. This system emulates a lattice model that describes a nonlocal coupling of an itinerant spinless-fermion excitation to dispersionless (Einstein-type) phonons. The model is characterized by a sharp, level-crossing transition at a critical value of the effective excitation-phonon coupling strength; above the transition point, the ground state of this model corresponds to a heavily-dressed (polaronic) excitation. Using the kernel-polynomial method, we evaluate the momentum-frequency resolved spectral function of this system for a broad range of parameters. In particular, we underscore the ramifications of the fact that the zero-quasimomentum Bloch state of a bare excitation represents the exact eigenstate of the Hamiltonian of this system for an arbitrary excitation-phonon coupling strength. We also show that -- based on the numerically evaluated spectral function and its well-known relation with the survival probability of the initial, bare-excitation Bloch state (the Loschmidt echo) -- one can make predictions about the system dynamics following an excitation-phonon interaction quench. To make contact with anticipated experimental realizations, we utilize a previously proposed method for extracting dynamical-response functions in systems with local (single-qubit) addressability using the multi-qubit version of the Ramsey interference protocol. | 翻訳日:2023-05-08 17:12:35 公開日:2023-05-05 |
# 熱方程式の変分量子アルゴリズムの深さ解析 Depth analysis of variational quantum algorithms for heat equation ( http://arxiv.org/abs/2212.12375v2 ) ライセンス: Link先を確認 | N. M. Guseynov, A. A. Zhukov, W. V. Pogosov, A.V. Lebedev | (参考訳) 変分量子アルゴリズムは偏微分方程式を解くための有望なツールである。
数値解の標準的なアプローチは有限差分スキームであり、線形代数問題に還元することができる。
量子コンピュータ上での熱方程式を解くための3つの方法を考える。
直接変分法を用いて、研究中の問題の解となる基底状態を用いて、ハミルトニアンの期待値を最小限に抑える。
通常、ハミルトニアン分解におけるポーリ積の指数関数数は量子速度を上げることができない。
ハダマールテストに基づくアプローチはこの問題を解くが、実行されたシミュレーションは、アンサッツ回路が量子ビット数に対して多項式深さを持つことを明らかに証明していない。
ansatz木アプローチは行列の明示的な形式を活用し、古典的なアルゴリズムよりも優位に立つことができる。
最大$n=11$ qubitsの数値シミュレーションでは、この手法が指数関数的なスピードアップを示している。 Variational quantum algorithms are a promising tool for solving partial differential equations. The standard approach for its numerical solution are finite difference schemes, which can be reduced to the linear algebra problem. We consider three approaches to solve the heat equation on a quantum computer. Using the direct variational method we minimize the expectation value of a Hamiltonian with its ground state being the solution of the problem under study. Typically, an exponential number of Pauli products in the Hamiltonian decomposition does not allow for the quantum speed up to be achieved. The Hadamard test based approach solves this problem, however, the performed simulations do not evidently prove that the ansatz circuit has a polynomial depth with respect to the number of qubits. The ansatz tree approach exploits an explicit form of the matrix what makes it possible to achieve an advantage over classical algorithms. In our numerical simulations with up to $n=11$ qubits, this method reveals the exponential speed up. | 翻訳日:2023-05-08 17:12:11 公開日:2023-05-05 |
# autothrottle: スローターゲットマイクロサービスのリソース管理のための実用的なbiレベルアプローチ Autothrottle: A Practical Bi-Level Approach to Resource Management for SLO-Targeted Microservices ( http://arxiv.org/abs/2212.12180v3 ) ライセンス: Link先を確認 | Zibo Wang, Pinghe Li, Chieh-Jan Mike Liang, Feng Wu, Francis Y. Yan | (参考訳) エンドユーザーエクスペリエンスを維持しながらリソース効率を達成することは、クラウドアプリケーションオペレーターにとって非自明なことです。
クラウドアプリケーションがマイクロサービスを採用するにつれて、リソースマネージャは、エンドツーエンドのアプリケーションレイテンシとサービス単位のリソース使用という、2つの異なるレベルのシステム動作に直面します。
しかし、この2つのレベル間の変換は、ユーザ要求が一括して(不均一に)エンドツーエンドのレイテンシに寄与する異種サービスを横断しているため、難しい。
本稿では,SLOをターゲットとするマイクロサービスのための双方向学習支援リソース管理フレームワークであるAutothrottleを提案する。
アプリケーションSLOフィードバックとサービスリソース制御のメカニズムをアーキテクチャ的に分離し、パフォーマンス目標の概念でそれらをブリッジします。
この分離により、軽量なヒューリスティックと学習技術を組み合わせた2つのメカニズムのターゲット制御ポリシが実現される。
プロダクションシナリオからのワークロードトレースを備えた,3つのマイクロサービスアプリケーション上でAutothrottleを評価する。
その結果、CPUリソースの節約は最高性能のベースラインで26.21%、全ベースラインで93.84%に向上した。 Achieving resource efficiency while preserving end-user experience is non-trivial for cloud application operators. As cloud applications progressively adopt microservices, resource managers are faced with two distinct levels of system behavior: the end-to-end application latency and per-service resource usage. Translation between these two levels, however, is challenging because user requests traverse heterogeneous services that collectively (but unevenly) contribute to the end-to-end latency. This paper presents Autothrottle, a bi-level learning-assisted resource management framework for SLO-targeted microservices. It architecturally decouples mechanisms of application SLO feedback and service resource control, and bridges them with the notion of performance targets. This decoupling enables targeted control policies for these two mechanisms, where we combine lightweight heuristics and learning techniques. We evaluate Autothrottle on three microservice applications, with workload traces from production scenarios. Results show its superior CPU resource saving, up to 26.21% over the best-performing baseline, and up to 93.84% over all baselines. | 翻訳日:2023-05-08 17:11:57 公開日:2023-05-05 |
# テキスト生成のためのモデルベース評価指標の盲点について On the Blind Spots of Model-Based Evaluation Metrics for Text Generation ( http://arxiv.org/abs/2212.10020v2 ) ライセンス: Link先を確認 | Tianxing He, Jingyu Zhang, Tianle Wang, Sachin Kumar, Kyunghyun Cho, James Glass, Yulia Tsvetkov | (参考訳) 本研究では,テキスト生成評価指標のロバスト性分析のための有用だがしばしば無視される手法,すなわち合成データを用いたストレステストについて検討する。
基本的に、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
本稿では,最近提案されている言語モデルに基づく評価指標について,オープンエンド生成,翻訳,要約の課題について検討する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
例えば、BERTScoreは、要約におけるトランケーションエラーと混同されており、MAUVE(GPT-2上に構築されている)は、世代の初期または中期のエラーに敏感である。
さらに,これらの盲点の背後にある理由を調査し,テキスト生成の信頼性を高めるための実践的回避策を提案する。
私たちはコードとデータをhttps://github.com/cloudygoose/blindspot_nlgでリリースした。 In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress tests with synthetic data. Basically, we design and synthesize a wide range of potential errors and check whether they result in a commensurate drop in the metric scores. We examine a range of recently proposed evaluation metrics based on pretrained language models, for the tasks of open-ended generation, translation, and summarization. Our experiments reveal interesting insensitivities, biases, or even loopholes in existing metrics. For example, we find that BERTScore is confused by truncation errors in summarization, and MAUVE (built on top of GPT-2) is insensitive to errors at the beginning or middle of generations. Further, we investigate the reasons behind these blind spots and suggest practical workarounds for a more reliable evaluation of text generation. We have released our code and data at https://github.com/cloudygoose/blindspot_nlg. | 翻訳日:2023-05-08 17:11:41 公開日:2023-05-05 |
# PVGRU:擬似変動機構による多変量および関連対話応答の生成 PVGRU: Generating Diverse and Relevant Dialogue Responses via Pseudo-Variational Mechanism ( http://arxiv.org/abs/2212.09086v2 ) ライセンス: Link先を確認 | Yongkang Liu and Shi Feng and Daling Wang and Hinrich Sch\"utze and Yifei Zhang | (参考訳) 生成型チャットボットにおけるマルチターン対話の応答生成について検討する。
既存のRNN(Recurrent Neural Networks)に基づく生成モデルは、通常、シーケンスを要約するために最後の隠れ状態を使用するため、異なる対話で観察される微妙な変動を捉えることができず、合成において類似した対話の違いを区別できない。
本稿では,GRUに再帰的な要約変数を導入することで,後続知識のない擬似分散Gated Recurrent Unit (PVGRU) を提案する。
PVGRUは、考案された分布の一貫性と再構成目的によって最適化された変数を要約することで、微妙な意味的変動を認識することができる。
さらに,PVGRUに基づく擬似変数階層対話(PVHD)モデルを構築した。
実験の結果,PVGRUは2つのベンチマークデータセットにおける応答の多様性と関連性を大きく改善できることが示された。 We investigate response generation for multi-turn dialogue in generative-based chatbots. Existing generative models based on RNNs (Recurrent Neural Networks) usually employ the last hidden state to summarize the sequences, which makes models unable to capture the subtle variability observed in different dialogues and cannot distinguish the differences between dialogues that are similar in composition. In this paper, we propose a Pseudo-Variational Gated Recurrent Unit (PVGRU) component without posterior knowledge through introducing a recurrent summarizing variable into the GRU, which can aggregate the accumulated distribution variations of subsequences. PVGRU can perceive the subtle semantic variability through summarizing variables that are optimized by the devised distribution consistency and reconstruction objectives. In addition, we build a Pseudo-Variational Hierarchical Dialogue (PVHD) model based on PVGRU. Experimental results demonstrate that PVGRU can broadly improve the diversity and relevance of responses on two benchmark datasets. | 翻訳日:2023-05-08 17:11:27 公開日:2023-05-05 |
# 雑音安定化器形式主義 Noisy Stabilizer Formalism ( http://arxiv.org/abs/2212.08677v2 ) ライセンス: Link先を確認 | Maria Flors Mor-Ruiz and Wolfgang D\"ur | (参考訳) 一般的なマルチキュービット量子状態やプロセスを記述するための指数的オーバーヘッドにもかかわらず、特定の状態族や操作のための効率的な方法が開発され、利用されている。
純粋な安定化器やグラフ状態がクリフォード演算やパウリ測定によって操作される安定化器形式論やゴッテマン・クニールの定理は顕著な例であり、これらの状態は量子技術における多くの応用において重要な役割を果たす。
ここでは、Clifford 演算や Pauli 測定の下で純粋状態の効率的な記述と追従を可能にするだけでなく、その安定化状態に作用する Pauli ノイズプロセス、例えば、非相関的かつ相関的な dephasing や、シングルまたはマルチキュービットの depolarizing noise などを開発する。
この方法は初期状態の量子ビット数で線形にスケールするが、ターゲット状態のサイズでは指数関数的にスケールする。
したがって、数量子ビットの多部共役状態が生成されるような局所的なパウリ測定によってノイズ安定化状態が操作されると、結果の状態を効率的に記述することができる。 Despite the exponential overhead to describe general multi-qubit quantum states and processes, efficient methods for certain state families and operations have been developed and utilised. The stabilizer formalism and the Gottesman-Knill theorem, where pure stabilizer or graph states are manipulated by Clifford operations and Pauli measurements, are prominent examples, and these states play a major role in many applications in quantum technologies. Here we develop a noisy stabilizer formalism, i.e., a method that allows one not only to efficiently describe and follow pure states under Clifford operations and Pauli measurements but also Pauli noise processes acting on such stabilizer states, including uncorrelated and correlated dephasing and single- or multi-qubit depolarizing noise. The method scales linearly in the number of qubits of the initial state, but exponentially in the size of the target state. Thus, whenever a noisy stabilizer state is manipulated by means of local Pauli measurements such that a multipartite entangled state of a few qubits is generated, one can efficiently describe the resulting state. | 翻訳日:2023-05-08 17:11:10 公開日:2023-05-05 |
# 非感染性疾患の有病率と主な危険因子--バングラデシュ・ダッカの病院における横断研究 Prevalence and major risk factors of non-communicable diseases: A Hospital-based Cross-Sectional Study in Dhaka, Bangladesh ( http://arxiv.org/abs/2303.04808v2 ) ライセンス: Link先を確認 | Mrinmoy Roy, Anica Tasnim Protity, Srabonti Das, Porarthi Dhar | (参考訳) 目的:バングラデシュのダッカで栄養指導を求める成人患者を対象に,いくつかの非感染性疾患(NCD)の頻度を判定し,リスク要因を分析した。
結果: 性別, 年齢, 肥満, NCD (DM, CKD, IBS, CVD, CRD, 甲状腺) の関係について検討した。
最も頻度の高いNCDは心血管疾患(CVD)であり,全症例の83.56%にみられた。
CVDは男性より多かった。
その結果、男性参加者は女性よりも血圧分布が高かった。
一方,糖尿病(dm)では,性別による傾向は認められなかった。
CVD,DMともに加齢による進行を認めた。
その結果,中高年者では若年者よりも慢性呼吸器疾患が多かった。
データによると、入院患者5人に1人が肥満だった。
共同調査の結果、人口の31.5%がNCDを1つ、30.1%がNCDを2つ、38.3%がNCDを2つ以上持っていることがわかった。
さらに、糖尿病患者の86.25%が心血管障害を患っていた。
全甲状腺患者にCVDを施行した。
t-testを用いてckdと甲状腺(p-value 0.061)の関係を見いだした。
35歳未満の男性は甲状腺と慢性呼吸器疾患(p値0.018)の間に統計的に有意な関係がある。
また,65歳以上 (p-value 0.038) におけるdmとckdとの関連も見いだした。
さらに,35~35~65歳未満では,ckdと甲状腺 (p < 0.05) との間に有意な相関が認められた。
心臓疾患と慢性呼吸器疾患の統計学的に有意な相互作用を,糖尿病と組み合わせてanova試験を行った。
DMとRTIの組み合わせは,65歳以上の男性患者のCKDにも影響した。 Objective: The study aimed to determine the prevalence of several non-communicable diseases (NCD) and analyze risk factors among adult patients seeking nutritional guidance in Dhaka, Bangladesh. Result: Our study observed the relationships between gender, age groups, obesity, and NCDs (DM, CKD, IBS, CVD, CRD, thyroid). The most frequently reported NCD was cardiovascular issues (CVD), which was present in 83.56% of all participants. CVD was more common in male participants. Consequently, male participants had a higher blood pressure distribution than females. Diabetes mellitus (DM), on the other hand, did not have a gender-based inclination. Both CVD and DM had an age-based progression. Our study showed that chronic respiratory illness was more frequent in middle-aged participants than in younger or elderly individuals. Based on the data, every one in five hospitalized patients was obese. We analyzed the co-morbidities and found that 31.5% of the population has only one NCD, 30.1% has two NCDs, and 38.3% has more than two NCDs. Besides, 86.25% of all diabetic patients had cardiovascular issues. All thyroid patients in our study had CVD. Using a t-test, we found a relationship between CKD and thyroid (p-value 0.061). Males under 35 years have a statistically significant relationship between thyroid and chronic respiratory diseases (p-value 0.018). We also found an association between DM and CKD among patients over 65 (p-value 0.038). Moreover, there has been a statistically significant relationship between CKD and Thyroid (P < 0.05) for those below 35 and 35-65. We used a two-way ANOVA test to find the statistically significant interaction of heart issues and chronic respiratory illness, in combination with diabetes. The combination of DM and RTI also affected CKD in male patients over 65 years old. | 翻訳日:2023-05-08 17:04:36 公開日:2023-05-05 |
# 線形同変ステアブルネットワークの入射バイアスについて On the Implicit Bias of Linear Equivariant Steerable Networks ( http://arxiv.org/abs/2303.04198v2 ) ライセンス: Link先を確認 | Ziyu Chen, Wei Zhu | (参考訳) 群不変二元分類における線形同変ステアブルネットワーク上の勾配流の暗黙バイアスについて検討する。
その結果,パラメータ化予測器は入力群アクションによって定義された最大辺を持つ一意な群不変分類器に方向収束することがわかった。
入力表現のユニタリな仮定に基づき、ステアブルネットワークとデータ拡張の等価性を確立する。
さらに,非不変ネットワークに対するステアブルネットワークのマージン改善と一般化のバウンダリを示す。 We study the implicit bias of gradient flow on linear equivariant steerable networks in group-invariant binary classification. Our findings reveal that the parameterized predictor converges in direction to the unique group-invariant classifier with a maximum margin defined by the input group action. Under a unitary assumption on the input representation, we establish the equivalence between steerable networks and data augmentation. Furthermore, we demonstrate the improved margin and generalization bound of steerable networks over their non-invariant counterparts. | 翻訳日:2023-05-08 17:04:07 公開日:2023-05-05 |
# あなたがサインアップしたものではない:間接的プロンプト注入による現実世界のLLM統合アプリケーションの妥協 Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection ( http://arxiv.org/abs/2302.12173v2 ) ライセンス: Link先を確認 | Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz | (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
近年のLLMの機能は自然言語のプロンプトによって柔軟に調節できる。
例えば、プロンプト・インジェクション(PI)攻撃では、攻撃者が元の命令をオーバーライドし、制御を使用できるようになる。
これまでのところ、ユーザが直接LSMを誘導していると仮定されていた。
しかし、ユーザがプロンプトしていない場合はどうだろう?
LLM-Integrated Applicationsはデータと命令の境界を曖昧にします。
Indirect Prompt Injection を使って新たな攻撃ベクトルを明らかにし、敵がリモートで(直接インターフェースを使わずに)LSM統合アプリケーションを利用できるようにする。
我々は,コンピュータセキュリティの観点から包括的分類法を導出し,データ盗難,ワーム,情報エコシステム汚染,その他の新たなセキュリティリスクを含む影響や脆弱性を体系的に調査する。
我々は,Bing の GPT-4 搭載の Chat やコード補完エンジン,GPT-4 をベースとした合成アプリケーションなど,実世界のシステムに対する攻撃の実用可能性を示す。
検索したプロンプトが任意のコード実行として動作し、アプリケーションの機能を操作し、他のAPIが呼び出されるかどうかを制御する方法を示す。
LLMとの統合と依存の高まりにもかかわらず、これらの新興脅威の効果的な軽減は、現在不足している。
これらの脆弱性の認識を高め、その影響に関する重要な洞察を提供することで、これらの強力なモデルの安全かつ責任ある展開と、ユーザやシステムに対する潜在的な攻撃から保護する堅牢な防御の開発を促進することを目指している。 Large Language Models (LLMs) are increasingly being integrated into various applications. The functionalities of recent LLMs can be flexibly modulated via natural language prompts. This renders them susceptible to targeted adversarial prompting, e.g., Prompt Injection (PI) attacks enable attackers to override original instructions and employed controls. So far, it was assumed that the user is directly prompting the LLM. But, what if it is not the user prompting? We argue that LLM-Integrated Applications blur the line between data and instructions. We reveal new attack vectors, using Indirect Prompt Injection, that enable adversaries to remotely (without a direct interface) exploit LLM-integrated applications by strategically injecting prompts into data likely to be retrieved. We derive a comprehensive taxonomy from a computer security perspective to systematically investigate impacts and vulnerabilities, including data theft, worming, information ecosystem contamination, and other novel security risks. We demonstrate our attacks' practical viability against both real-world systems, such as Bing's GPT-4 powered Chat and code-completion engines, and synthetic applications built on GPT-4. We show how processing retrieved prompts can act as arbitrary code execution, manipulate the application's functionality, and control how and if other APIs are called. Despite the increasing integration and reliance on LLMs, effective mitigations of these emerging threats are currently lacking. By raising awareness of these vulnerabilities and providing key insights into their implications, we aim to promote the safe and responsible deployment of these powerful models and the development of robust defenses that protect users and systems from potential attacks. | 翻訳日:2023-05-08 17:03:23 公開日:2023-05-05 |
# 有界パラメータ空間におけるランダウ・ツェナー問題に対する解析的アプローチ Analytic approach to the Landau-Zener problem in bounded parameter space ( http://arxiv.org/abs/2302.11372v2 ) ライセンス: Link先を確認 | Felipe Matus, Jan St\v{r}ele\v{c}ek, Pavel Cejnar | (参考訳) 時間依存ランドウ・ツェナー・ハミルトニアンに対するschr\"{o}dinger方程式の3つの解析解を提示する。
これらは2レベル系の有界パラメータ空間内の特定の有限時間駆動パスに対応する。
これらの経路のうち2つは、一定の速度で、またはエネルギーギャップの減少した領域で減少する変動速度で、避けられたレベルの交差を通り抜け、エネルギーギャップが一定であるように通過をバイパスする。
この解は、初期ハミルトニアンの基底状態から進化する系の励起確率の正確な時間依存性をもたらす。
ランダウ・ゼナーの公式は、回避された交差を通る一定の速度の運転時間内で有効となる近似として現れる。
長い運転時間の間、全ての解は断熱摂動理論の予測に収束する。
励起確率はいくつかの離散時間瞬間で消失する。 Three analytic solutions to the Schr\"{o}dinger equation for the time-dependent Landau-Zener Hamiltonian are presented. They correspond to specific finite-time driving paths in a bounded parameter space of a two-level system. Two of these paths go through the avoided crossing of levels, either with a constant speed or with variable speed that decreases in the region of reduced energy gap, the third path bypasses the crossing such that the energy gap remains constant. The solutions yield exact time dependencies of the excitation probability for the system evolving from the ground state of the initial Hamiltonian. The Landau-Zener formula emerges as an approximation valid within a certain interval of driving times for the constant-speed driving through the avoided crossing. For long driving times, all solutions converge to the prediction of the adiabatic perturbation theory. The excitation probability vanishes at some discrete time instants. | 翻訳日:2023-05-08 17:02:55 公開日:2023-05-05 |
# 人間とロボットのコラボレーションアプリケーションのための学習データと深層学習によるマルチユーザ行動認識に向けて Towards Multi-User Activity Recognition through Facilitated Training Data and Deep Learning for Human-Robot Collaboration Applications ( http://arxiv.org/abs/2302.05763v2 ) ライセンス: Link先を確認 | Francesco Semeraro, Jon Carberry and Angelo Cangelosi | (参考訳) HRI(Human-robot Interaction)研究は、ロボットが複数の人間のユーザと同時に対話するマルチパーティシナリオに、段階的に対処している。
逆に、研究はまだ人間とロボットのコラボレーションの初期段階にある。
このようなコラボレーションを扱うために機械学習技術を使用するには、典型的なHRCセットアップよりも生成しにくいデータが必要である。
本研究は,非Dydic HRCアプリケーションの並列タスクのシナリオを概説する。
これらの概念に基づいて,シングルユーザに関連するデータを収集し,後処理でマージすることで,複数ユーザの活動に関するデータ収集の代替手法を提案し,ペア設定の録音に係わる労力を削減する。
このステートメントを検証するために、シングルユーザのアクティビティの3dスケルトンポーズが収集され、ペアにマージされた。
その後、このようなデータポイントを用いて長期記憶ネットワーク(LSTM)と時空間グラフ畳み込みネットワーク(STGCN)からなる変動オートエンコーダ(VAE)を別々にトレーニングし、両者の協調活動を認識する。
その結果、同じ設定で記録されたユーザのグループに関するトレーニングデータと比較すると、この方法で収集したデータをHRC設定のペアに利用し、同様のパフォーマンスを得ることが可能であり、これらのデータの生成にまつわる技術的困難を軽減できることがわかった。
関連コードと収集されたデータは公開されている。 Human-robot interaction (HRI) research is progressively addressing multi-party scenarios, where a robot interacts with more than one human user at the same time. Conversely, research is still at an early stage for human-robot collaboration. The use of machine learning techniques to handle such type of collaboration requires data that are less feasible to produce than in a typical HRC setup. This work outlines scenarios of concurrent tasks for non-dyadic HRC applications. Based upon these concepts, this study also proposes an alternative way of gathering data regarding multi-user activity, by collecting data related to single users and merging them in post-processing, to reduce the effort involved in producing recordings of pair settings. To validate this statement, 3D skeleton poses of activity of single users were collected and merged in pairs. After this, such datapoints were used to separately train a long short-term memory (LSTM) network and a variational autoencoder (VAE) composed of spatio-temporal graph convolutional networks (STGCN) to recognise the joint activities of the pairs of people. The results showed that it is possible to make use of data collected in this way for pair HRC settings and get similar performances compared to using training data regarding groups of users recorded under the same settings, relieving from the technical difficulties involved in producing these data. The related code and collected data are publicly available. | 翻訳日:2023-05-08 17:02:43 公開日:2023-05-05 |
# オンライン誤報ビデオの会話:特徴,検出,今後の方向性 Combating Online Misinformation Videos: Characterization, Detection, and Future Directions ( http://arxiv.org/abs/2302.03242v2 ) ライセンス: Link先を確認 | Yuyan Bu, Qiang Sheng, Juan Cao, Peng Qi, Danding Wang, Jintao Li | (参考訳) オンラインビデオストリーミングによる情報消費がますます高まる中、誤った情報ビデオはオンライン情報エコシステムの健康に新たな脅威をもたらす。
これまでの研究は、テキストと画像のフォーマットにおける誤情報の検出に多大な進歩を遂げてきたが、ビデオベースの誤情報は、自動検出システムに新しいユニークな課題をもたらす。
1) 各種モダリティがもたらす高情報不均一性
2)誤解を招く映像操作とユビキタスな芸術的映像編集の区別の曖昧化
3) オンラインビデオプラットフォームにおけるレコメンデーションシステムの役割により, 誤情報伝播の新たなパターンが出現した。
本研究は,この課題の研究を促進するために,誤報映像検出研究の進歩を示す。
まず、信号、意味、意図を含む3つのレベルから誤情報映像を分析し、特徴付ける。
特徴量に基づいて,様々なモダリティの特徴から手がかり統合の手法まで,既存の手法を体系的に検討する。
また、代表的なデータセットや広く使われているツールを含む既存のリソースも導入する。
既存の研究の要約に加えて、関連分野を議論し、オープンな課題と今後の方向性を概説し、誤情報検出に関するさらなる研究を奨励し、指導する。
対応するパブリックリポジトリはhttps://github.com/ICTMCG/Awesome-Misinfo-Video-Detectionで公開しています。 With information consumption via online video streaming becoming increasingly popular, misinformation video poses a new threat to the health of the online information ecosystem. Though previous studies have made much progress in detecting misinformation in text and image formats, video-based misinformation brings new and unique challenges to automatic detection systems: 1) high information heterogeneity brought by various modalities, 2) blurred distinction between misleading video manipulation and ubiquitous artistic video editing, and 3) new patterns of misinformation propagation due to the dominant role of recommendation systems on online video platforms. To facilitate research on this challenging task, we conduct this survey to present advances in misinformation video detection research. We first analyze and characterize the misinformation video from three levels including signals, semantics, and intents. Based on the characterization, we systematically review existing works for detection from features of various modalities to techniques for clue integration. We also introduce existing resources including representative datasets and widely used tools. Besides summarizing existing studies, we discuss related areas and outline open issues and future directions to encourage and guide more research on misinformation video detection. Our corresponding public repository is available at https://github.com/ICTMCG/Awesome-Misinfo-Video-Detection. | 翻訳日:2023-05-08 17:02:19 公開日:2023-05-05 |
# ボース・アインシュタイン凝縮体に浸漬したFew-Body Bose系の発酵 Fermionization of a Few-Body Bose System Immersed into a Bose-Einstein Condensate ( http://arxiv.org/abs/2302.01743v2 ) ライセンス: Link先を確認 | Tim Keller, Thom\'as Fogarty, Thomas Busch | (参考訳) ボース・アインシュタイン凝縮体に没入した成分が有限種内相互作用強度を持つ場合、準1次元2成分量子気体中の最近導入された自己ピン遷移(Phys. Lett. 128, 053401 (2022))について検討する。
物質波バックアクションの結果、無限種内反発の限界におけるフェルミオン化は、静的トラップポテンシャルの漸近的挙動とは対照的に、自己ピンド状態への一階の相転移によって起こる。
このシステムはまた、種間相互作用が種内反発を克服できる場合、浸漬された成分に対して追加の超流動状態を示す。
解析モデルにおける超流動状態を近似し,二元系においてよく知られた相分離基準と一致する相転移線の表現を導出する。
システムの全位相図は、没入成分中の2原子と3原子の場合に数値的にマッピングされる。 We study the recently introduced self-pinning transition [Phys. Rev. Lett. 128, 053401 (2022)] in a quasi-one-dimensional two-component quantum gas in the case where the component immersed into the Bose-Einstein condensate has a finite intraspecies interaction strength. As a result of the matter-wave backaction, the fermionization in the limit of infinite intraspecies repulsion occurs via a first-order phase transition to the self-pinned state, which is in contrast to the asymptotic behavior in static trapping potentials. The system also exhibits an additional superfluid state for the immersed component if the interspecies interaction is able to overcome the intraspecies repulsion. We approximate the superfluid state in an analytical model and derive an expression for the phase transition line that coincides with well-known phase separation criteria in binary Bose systems. The full phase diagram of the system is mapped out numerically for the case of two and three atoms in the immersed component. | 翻訳日:2023-05-08 17:01:48 公開日:2023-05-05 |
# 非エルミートホログラフィにおける導電性 Electric conductivity in non-Hermitian holography ( http://arxiv.org/abs/2304.11183v2 ) ライセンス: Link先を確認 | Zhuo-Yu Xian, David Rodr\'iguez Fern\'andez, Zhaohui Chen, Yang Liu, Rene Meyer | (参考訳) 非エルミート型PT対称ホログラフィーモデルarXiv:1912.06647の有限温度における相構造と電荷輸送および化学ポテンシャルについて検討した。
非エルミートpt対称変形は、大域u(1)対称性のパラメータを複素数に促進することによって実現される。
変形強度によっては, 安定なpt-対称相, 不安定なpt-対称相, 不安定なpt-対称破壊相の3相が認められる。
3つの相では、縮合体の正方形と0周波数での交流伝導率のスペクトル重みはそれぞれ正、負、複素である。
我々は、交流伝導度に対するフェレル・グルーバー・ティンカム和則が3つの相すべてで成り立つことを確認する。
また,pt対称変形を伴う複雑なu(1)回転子モデルについて検討し,その位相構造と凝縮パターンを導出し,ホログラムモデルに類似した零周波スペクトル量を求める。 We study the phase structure and charge transport at finite temperature and chemical potential in the non-Hermitian PT-symmetric holographic model of arXiv:1912.06647. The non-Hermitian PT-symmetric deformation is realized by promoting the parameter of a global U(1) symmetry to a complex number. Depending on the strength of the deformation, we find three phases: stable PT-symmetric phase, unstable PT-symmetric phase, and an unstable PT-symmetry broken phase. In the three phases, the square of the condensate and also the spectral weight of the AC conductivity at zero frequency are, respectively, positive, negative, and complex. We check that the Ferrell-Glover-Tinkham sum rule for the AC conductivity holds in all the three phases. We also investigate a complexified U(1) rotor model with PT-symmetric deformation, derive its phase structure and condensation pattern, and find a zero frequency spectral weight analogous to the holographic model. | 翻訳日:2023-05-08 16:55:49 公開日:2023-05-05 |
# Progressive-Hint Promptingは大規模言語モデルの推論を改善する Progressive-Hint Prompting Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2304.09797v2 ) ライセンス: Link先を確認 | Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li | (参考訳) 推論タスクにおける大規模言語モデル(llm)のパフォーマンスは、プロンプトデザインに大きく依存しており、chain-of-thought (cot) と self-consistency はこの能力を高める重要な方法である。
しかし、これらの手法はLLMが生成した回答を十分に活用していない。
本稿では,これまで生成した回答をヒントとして,ユーザとLLMの対話を自動的に行うためのプロンプトプロンプト手法であるプログレッシブ・ヒント・プロンプト(PHP)を提案する。
PHPはCoTと自己整合性に直交しているため、最新技術と組み合わせてパフォーマンスをさらに向上することができる。
提案手法の有効性を実証するため,広範かつ包括的な評価を行った。
6つのベンチマーク実験の結果,CoTとPHPの自己整合性の組み合わせは高い効率を維持しながら精度を著しく向上させることがわかった。
例えば、text-davinci-003では、複雑なCoTに比べてGSM8Kが4.2%向上し、自己整合性のあるサンプルパスが46.17%減少した。
GPT-4とPHPでは、SVAMP(89.1% -> 91.9%)、GSM8K(92% -> 95.5%)、AQuA(76.4% -> 79.9%)、MATH(50.2% -> 53.9%)の最先端のパフォーマンスを実現している。 The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted an extensive and comprehensive evaluation to demonstrate the effectiveness of the proposed method. Our experimental results on six benchmarks show that combining CoT and self-consistency with PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (89.1% -> 91.9%), GSM8K (92% -> 95.5%), AQuA (76.4% -> 79.9%) and MATH (50.2% -> 53.9%). | 翻訳日:2023-05-08 16:55:33 公開日:2023-05-05 |
# vit-calibrator: vision transformer の決定ストリーム校正 ViT-Calibrator: Decision Stream Calibration for Vision Transformer ( http://arxiv.org/abs/2304.04354v2 ) ライセンス: Link先を確認 | Lin Chen, Zhijie Jia, Tian Qiu, Lechao Cheng, Jie Lei, Zunlei Feng, Mingli Song | (参考訳) 様々な視覚タスクにおけるトランスフォーマーの利用に対する関心が高まっている。
しかし、既存のアプローチは、しばしば大きな試行錯誤を伴う内部モデルアーキテクチャ設計の最適化に重点を置いている。
本研究では,一般視覚トランスフォーマーの性能を高める決定ストリーム校正という新しいパラダイムを提案する。
そこで我々は,異なるトークンと複数の次元の関連係数の相関関係を探索することにより,学習過程における情報伝達機構の光を当てた。
さらなる分析により、そのことが判明した。
1) 最終決定は前景目標のトークンに関連付けられ、前景目標のトークン特徴は可能な限り次の層に伝達され、背景領域の役に立たないトークン特徴は前方伝播時に徐々に排除される。
2) 各カテゴリはトークン内の特定のスパース次元にのみ関連している。
上記の発見に基づいて,トークン伝搬校正段階と寸法伝搬校正段階を含む2段階キャリブレーション方式,すなわちViTキャリブレータを設計した。
一般的なデータセットに関する広範な実験は、提案手法が有望な結果が得られることを示している。
ソースコードはサプリメントに含まれている。 A surge of interest has emerged in utilizing Transformers in diverse vision tasks owing to its formidable performance. However, existing approaches primarily focus on optimizing internal model architecture designs that often entail significant trial and error with high burdens. In this work, we propose a new paradigm dubbed Decision Stream Calibration that boosts the performance of general Vision Transformers. To achieve this, we shed light on the information propagation mechanism in the learning procedure by exploring the correlation between different tokens and the relevance coefficient of multiple dimensions. Upon further analysis, it was discovered that 1) the final decision is associated with tokens of foreground targets, while token features of foreground target will be transmitted into the next layer as much as possible, and the useless token features of background area will be eliminated gradually in the forward propagation. 2) Each category is solely associated with specific sparse dimensions in the tokens. Based on the discoveries mentioned above, we designed a two-stage calibration scheme, namely ViT-Calibrator, including token propagation calibration stage and dimension propagation calibration stage. Extensive experiments on commonly used datasets show that the proposed approach can achieve promising results. The source codes are given in the supplements. | 翻訳日:2023-05-08 16:54:49 公開日:2023-05-05 |
# ロバストと生成モデルとのつながりを探る Exploring the Connection between Robust and Generative Models ( http://arxiv.org/abs/2304.04033v2 ) ライセンス: Link先を確認 | Senad Beadini and Iacopo Masi | (参考訳) 我々は,敵対的訓練(AT)で訓練された頑健な識別的分類器と,エネルギーベースモデル(EBM)の形で生成的モデリングを結びつける研究を提案する。
我々は、識別的分類器の損失を分解し、識別的モデルが入力データ密度も認識していることを示す。
一般的な仮定は、逆数点が入力データの多様体を残していることであるが、我々の研究は、驚くほど、入力空間の未ターゲットの逆数点が、識別型分類器の内部に隠された生成モデルの下では、EMMのエネルギーが低いことを発見した。
非標的攻撃は、自然データよりもさらに可能性が高く、攻撃強度が増大するにつれてその可能性が増加する。
これにより、それらを簡単に検出し、分類器を騙してデータセットに似たエネルギーを持つ、High-Energy PGDと呼ばれる新しい攻撃を作れます。 We offer a study that connects robust discriminative classifiers trained with adversarial training (AT) with generative modeling in the form of Energy-based Models (EBM). We do so by decomposing the loss of a discriminative classifier and showing that the discriminative model is also aware of the input data density. Though a common assumption is that adversarial points leave the manifold of the input data, our study finds out that, surprisingly, untargeted adversarial points in the input space are very likely under the generative model hidden inside the discriminative classifier -- have low energy in the EBM. We present two evidence: untargeted attacks are even more likely than the natural data and their likelihood increases as the attack strength increases. This allows us to easily detect them and craft a novel attack called High-Energy PGD that fools the classifier yet has energy similar to the data set. | 翻訳日:2023-05-08 16:54:29 公開日:2023-05-05 |
# ChatGPTとGPT-4の論理的推論能力の評価 Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 ( http://arxiv.org/abs/2304.03439v3 ) ライセンス: Link先を確認 | Hanmeng Liu, Ruoxi Ning, Zhiyang Teng, Jian Liu, Qiji Zhou, Yue Zhang | (参考訳) 論理的推論能力の調和は、包括的な自然言語理解の取り組みである。
Generative Pretrained Transformer 4 (GPT-4) のリリースにより、様々な論理的推論タスクについて GPT-4 のパフォーマンスを学習したいと考えている。
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。
我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。
さらに,ChatGPTとGPT-4のロバスト性を調べるために,分布外の論理的推論データセットを構築した。
また,ChatGPTとGPT-4の性能比較を行った。
実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
GPT-4 APIへの早期アクセスにより、私たちはGPT-4モデルで激しい実験を行うことができます。
その結果、GPT-4は、ほとんどの論理的推論データセットでさらに高い性能を示すことがわかった。
ベンチマークの中で、ChatGPTとGPT-4はLogiQAやReClorのようなよく知られたデータセットで比較的うまく動作する。
しかし、新しいリリースとアウト・オブ・ディストリビューションデータセットを扱うと、パフォーマンスは大幅に低下する。
chatgptやgpt-4、特にアウトオブディストリビューションや自然言語推論データセットでは、論理的推論は依然として困難である。
プロンプトスタイルの論理推論データセットをベンチマークスイートとしてリリースし、LogiEvalと名付けます。 Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as "advanced" at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. With early access to the GPT-4 API we are able to conduct intense experiments on the GPT-4 model. The results show GPT-4 yields even higher performance on most logical reasoning datasets. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets. We release the prompt-style logical reasoning datasets as a benchmark suite and name it LogiEval. | 翻訳日:2023-05-08 16:54:11 公開日:2023-05-05 |
# Smart-Tree: 3次元木骨格化のための点雲のニューラルネットワーク軸近似 Smart-Tree: Neural Medial Axis Approximation of Point Clouds for 3D Tree Skeletonization ( http://arxiv.org/abs/2303.11560v2 ) ライセンス: Link先を確認 | Harry Dobbs, Oliver Batchelor, Richard Green, James Atlas | (参考訳) 本稿では,木点雲から分岐骨格の軸を近似する方法であるSmart-Treeを紹介する。
Smart-Treeはスパースボクセル畳み込みニューラルネットワークを使用して、各入力点の内側軸への半径と方向を抽出する。
グリーディアルゴリズムは推定メディア軸を用いて頑健な骨格化を行う。
提案手法は, 複雑な木構造に対して堅牢性を提供し, 自己閉塞性, 複雑な幾何学, タッチブランチ, 様々な点密度を扱う際の忠実性を向上させる。
我々は,多種合成ツリーデータセットを用いてSmart-Treeを評価し,実世界のツリーポイントクラウド上で定性解析を行う。
合成および実世界のデータセットを用いた実験は、現在の最先端手法に対する我々のアプローチの堅牢性を示している。
データセットとソースコードは公開されている。 This paper introduces Smart-Tree, a supervised method for approximating the medial axes of branch skeletons from a tree point cloud. Smart-Tree uses a sparse voxel convolutional neural network to extract the radius and direction towards the medial axis of each input point. A greedy algorithm performs robust skeletonization using the estimated medial axis. Our proposed method provides robustness to complex tree structures and improves fidelity when dealing with self-occlusions, complex geometry, touching branches, and varying point densities. We evaluate Smart-Tree using a multi-species synthetic tree dataset and perform qualitative analysis on a real-world tree point cloud. Our experimentation with synthetic and real-world datasets demonstrates the robustness of our approach over the current state-of-the-art method. The dataset and source code are publicly available. | 翻訳日:2023-05-08 16:53:08 公開日:2023-05-05 |
# BaDLAD: 大規模マルチドメインのBengaliドキュメントレイアウト分析データセット BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset ( http://arxiv.org/abs/2303.05325v3 ) ライセンス: Link先を確認 | Md. Istiak Hossain Shihab, Md. Rakibul Hasan, Mahfuzur Rahman Emon, Syed Mobassir Hossen, Md. Nazmuddoha Ansary, Intesur Ahmed, Fazle Rabbi Rakib, Shahriar Elahi Dhruvo, Souhardya Saha Dip, Akib Hasan Pavel, Marsia Haque Meghla, Md. Rezwanul Haque, Sayma Sultana Chowdhury, Farig Sadeque, Tahsin Reasat, Ahmed Imtiaz Humayun, Asif Shahriyar Sushmit | (参考訳) 過去10年間、深層学習に基づくベンガル光文字認識(OCR)の努力が続けられてきたが、大規模な文書レイアウト分析(DLA)データセットが欠如しているため、OCRの文書の書き起こし、例えば、歴史文書や新聞の書き起こしが妨げられている。
さらに、現在実際に使用されているルールベースのDLAシステムは、ドメインのバリエーションや配布外レイアウトに対して堅牢ではない。
この目的のために、最初のマルチドメイン大規模Bengali Document Layout Analysis Dataset: BaDLADを提案する。
このデータセットには、6つのドメインから33,695人の注釈付きドキュメントサンプルが含まれている。
i)本及び雑誌
二 パブリックドメインのgovt。
書類や
三 解放戦争文書
iv) 新聞
v) 歴史新聞,及び
vi) プロパティの処理, テキストボックス, 段落, 画像, テーブルの4つの単位タイプに対する710Kポリゴンアノテーション
英語DLAのための既存の最先端ディープラーニングアーキテクチャのパフォーマンスをベンチマークする予備実験を通じて、深層学習に基づくベンガル文書デジタル化モデルのトレーニングにおけるデータセットの有効性を実証する。 While strides have been made in deep learning based Bengali Optical Character Recognition (OCR) in the past decade, the absence of large Document Layout Analysis (DLA) datasets has hindered the application of OCR in document transcription, e.g., transcribing historical documents and newspapers. Moreover, rule-based DLA systems that are currently being employed in practice are not robust to domain variations and out-of-distribution layouts. To this end, we present the first multidomain large Bengali Document Layout Analysis Dataset: BaDLAD. This dataset contains 33,695 human annotated document samples from six domains - i) books and magazines, ii) public domain govt. documents, iii) liberation war documents, iv) newspapers, v) historical newspapers, and vi) property deeds, with 710K polygon annotations for four unit types: text-box, paragraph, image, and table. Through preliminary experiments benchmarking the performance of existing state-of-the-art deep learning architectures for English DLA, we demonstrate the efficacy of our dataset in training deep learning based Bengali document digitization models. | 翻訳日:2023-05-08 16:52:55 公開日:2023-05-05 |
# LSTMを用いたACC用攻撃車線変化時の先行車両挙動予測 LSTM-based Preceding Vehicle Behaviour Prediction during Aggressive Lane Change for ACC Application ( http://arxiv.org/abs/2305.01095v2 ) ライセンス: Link先を確認 | Rajmeet Singh, Saeed Mozaffari, Mahdi Rezaei, Shahpour Alirezaee | (参考訳) アダプティブ・クルーズ・コントロール(ACC)システムの開発は、車両の速度を自動制御して車両の安全と快適性を高めることを目的としている。
しかし、従来のaccシステムは運転条件の変化や運転者の行動に適応できない。
この制限に対処するために,過去の運転経験から学習し,新しい状況をリアルタイムで予測できるLong Short-Term Memory (LSTM)ベースのACCシステムを提案する。
このモデルは、カメラ付きドローンの助けを借りて、ドイツの高速道路から取得した現実世界のhighdデータセットに基づいて構築されている。
車両の前車線が遮断された場合, 攻撃的な車線変化下でのACCシステムの評価を行い, 目標ドライバの速度低下を強制した。
この目的のために,提案システムはシミュレーション運転環境を用いて評価し,フィードフォワードニューラルネットワーク(ANN)モデルとモデル予測制御(MPC)モデルと比較した。
その結果,LSTMに基づくシステムはANNモデルよりも19.25%精度が高く,MPCモデルよりも5.9%精度が高いことがわかった。
シミュレーションはMatlab/Simulink環境で行われる。 The development of Adaptive Cruise Control (ACC) systems aims to enhance the safety and comfort of vehicles by automatically regulating the speed of the vehicle to ensure a safe gap from the preceding vehicle. However, conventional ACC systems are unable to adapt themselves to changing driving conditions and drivers' behavior. To address this limitation, we propose a Long Short-Term Memory (LSTM) based ACC system that can learn from past driving experiences and adapt and predict new situations in real time. The model is constructed based on the real-world highD dataset, acquired from German highways with the assistance of camera-equipped drones. We evaluated the ACC system under aggressive lane changes when the side lane preceding vehicle cut off, forcing the targeted driver to reduce speed. To this end, the proposed system was assessed on a simulated driving environment and compared with a feedforward Artificial Neural Network (ANN) model and Model Predictive Control (MPC) model. The results show that the LSTM-based system is 19.25% more accurate than the ANN model and 5.9% more accurate than the MPC model in terms of predicting future values of subject vehicle acceleration. The simulation is done in Matlab/Simulink environment. | 翻訳日:2023-05-08 16:45:38 公開日:2023-05-05 |
# ニューラルネットワークを用いた例外点のキャラクタリゼーション Characterizing Exceptional Points Using Neural Networks ( http://arxiv.org/abs/2305.00776v2 ) ライセンス: Link先を確認 | Md. Afsar Reja, Awadhesh Narayan | (参考訳) 非エルミート系の重要な特徴の1つは例外点(EP)、固有値と固有ベクトルが融合するスペクトル退化である。
本研究では,新しい特徴である要約位相剛性(SPR)を導入して,EPを特徴付けるニューラルネットワークを提案する。
我々は,このアプローチを説明するために,複雑性の異なる異なるモデルを検討し,epsの予測方法を示す。
さらに,多様なサイトに対するパラダイム的Hatano-Nelsonモデルにおいて,正確なEP予測を示す。
注目すべきは、SPRがトレーニングデータから完全に見当たらない注文のEPを予測できることである。
本手法は,機械学習手法を用いてEPを自動で特徴付けるのに有用である。 One of the key features of non-Hermitian systems is the occurrence of exceptional points (EPs), spectral degeneracies where the eigenvalues and eigenvectors merge. In this work, we propose applying neural networks to characterize EPs by introducing a new feature -- summed phase rigidity (SPR). We consider different models with varying degrees of complexity to illustrate our approach, and show how to predict EPs for two-site and four-site gain and loss models. Further, we demonstrate an accurate EP prediction in the paradigmatic Hatano-Nelson model for a variable number of sites. Remarkably, we show how SPR enables a prediction of EPs of orders completely unseen by the training data. Our method can be useful to characterize EPs in an automated manner using machine learning approaches. | 翻訳日:2023-05-08 16:45:19 公開日:2023-05-05 |
# 領域からポイントへの探索:セマンティック・ジオメトリ複合機能マッチングのための階層的フレームワーク Searching from Area to Point: A Hierarchical Framework for Semantic-Geometric Combined Feature Matching ( http://arxiv.org/abs/2305.00194v3 ) ライセンス: Link先を確認 | Yesheng Zhang, Xu Zhao, Dahong Qian | (参考訳) 特徴マッチングはコンピュータビジョンにおいて重要な技術である。
本質的には、画像間の対応を確立するための探索問題と見なすことができる。
このタスクにおける重要な課題は、明確に定義された検索空間の欠如であり、現在のメソッドの不正確なポイントマッチングにつながる。
本稿では,適切なマッチング検索空間を求めて,まず画像間の意味的領域マッチング(a2pm)を探索し,次に領域マッチングを行う階層的特徴マッチングフレームワークを提案する。
A2PMフレームワークの適切な検索空間は、最先端のTransformerベースのマッチング手法の精度の制限を緩和する。
この枠組みを実現するために、画像間の正確な領域マッチングを確立するために、意味的前後整合性と幾何学的一貫性を利用した意味的・幾何学的領域マッチング(sgam)手法を提案する。
SGAMとオフザシェルトランスフォーマーベースのマーカを組み合わせることで,A2PMフレームワークを取り入れた特徴マッチング手法により,大規模点マッチングの精度向上と,現在の美術品のポーズ推定実験を実現する。 Feature matching is a crucial technique in computer vision. Essentially, it can be considered as a searching problem to establish correspondences between images. The key challenge in this task lies in the lack of a well-defined search space, leading to inaccurate point matching of current methods. In pursuit of a reasonable matching search space, this paper introduces a hierarchical feature matching framework: Area to Point Matching (A2PM), to first find semantic area matches between images, and then perform point matching on area matches, thus setting the search space as the area matches with salient features to achieve high matching precision. This proper search space of A2PM framework also alleviates the accuracy limitation in state-of-the-art Transformer-based matching methods. To realize this framework, we further propose Semantic and Geometry Area Matching (SGAM) method, which utilizes semantic prior and geometry consistency to establish accurate area matches between images. By integrating SGAM with off-the-shelf Transformer-based matchers, our feature matching methods, adopting the A2PM framework, achieve encouraging precision improvements in massive point matching and pose estimation experiments for present arts. | 翻訳日:2023-05-08 16:45:06 公開日:2023-05-05 |
# 因果状態推定とハイゼンベルクの不確かさ原理 Causal State Estimation and the Heisenberg Uncertainty Principle ( http://arxiv.org/abs/2304.14476v2 ) ライセンス: Link先を確認 | Junxin Chen, Benjamin B. Lane, Su Direkci, Dhruva Ganapathy, Xinghui Yin, Nergis Mavalvala, Yanbei Chen, and Vivishek Sudhir | (参考訳) ノイズ量子システムの可観測性は、連続測定の記録を適切にフィルタリングすることで推定することができる。
このようなフィルタリングは状態推定と測定に基づく量子フィードバック制御に関係している。
したがって、因果フィルターによって推定される観測可能量はハイゼンベルクの不確実性原理を満たすことが必須である。
マルコフの設定では、事前の作業はこの要件を暗黙的に保証する。
線形だが必ずしもマルコフ系ではない線形可観測性の因果推定が不確実性原理を満たすことを示す。
特に、これは、システムのフィードバック制御や、フィードバックループ内の -- 内部または外部 -- 計測レコードがアクセスされる場所に関係なく、真である。
実際、ループ内測定記録を用いた因果推定は、ループ外記録を使用するものと同等に正確である。
これらの結果は,大規模な量子システムに対する因果推定器の役割を明らかにし,その推定と制御におけるループ内およびループ外測定の等価性を復元し,測定に基づく量子フィードバック制御に関する将来の実験を単純化する。 The observables of a noisy quantum system can be estimated by appropriately filtering the records of their continuous measurement. Such filtering is relevant for state estimation and measurement-based quantum feedback control. It is therefore imperative that the observables estimated through a causal filter satisfy the Heisenberg uncertainty principle. In the Markovian setting, prior work implicitly guarantees this requirement. We show that any causal estimate of linear observables of a linear, but not necessarily Markovian, system will satisfy the uncertainty principle. In particular, this is true irrespective of any feedback control of the system and of where in the feedback loop -- inside or outside -- the measurement record is accessed. Indeed, causal estimators using the in-loop measurement record can be as precise as those using the out-of-loop record. These results clarify the role of causal estimators to a large class of quantum systems, restores the equanimity of in-loop and out-of-loop measurements in their estimation and control, and simplifies future experiments on measurement-based quantum feedback control. | 翻訳日:2023-05-08 16:44:48 公開日:2023-05-05 |
# 文脈情報の対話的コントラスト学習による物体検出の精度向上に向けて Towards Precise Weakly Supervised Object Detection via Interactive Contrastive Learning of Context Information ( http://arxiv.org/abs/2304.14114v2 ) ライセンス: Link先を確認 | Qi Lai, ChiMan Vong | (参考訳) weakly supervised object detection (wsod) は、画像レベルのタグだけで正確な物体検出を学習することを目的としている。
近年,ディープラーニング (DL) のアプローチに関する研究が盛んに行われているが,WSOD と完全教師付きオブジェクト検出との間には,依然として大きなパフォーマンスギャップがある。
実際、既存のwsodメソッドのほとんどは、各領域の提案の視覚的な外観のみを考慮しつつ、画像内の有用なコンテキスト情報を使用することを無視している。
そこで本研究では,JLWSODという対話型エンドツーエンドWSDOフレームワークを提案する。
i)wsodフレームワークに2種類のwsod固有のコンテキスト情報(すなわち、インスタンス毎の相関関係及びsemantic-wise correlation)を提案し、導入する。
二 対話型グラフコントラッシブラーニング(iGCL)機構は、視覚的外観と文脈情報を協調的に最適化し、WSODの性能を向上させる。
特に、iGCLメカニズムは、WSODの補完的な解釈、すなわちインスタンスワイド検出とセマンティックワイド予測タスクを最大限に活用し、より包括的なソリューションを形成する。
広く使われているPASCAL VOCとMS COCOベンチマークの広範な実験は、JLWSODの代替の最先端アプローチとベースラインモデル(それぞれmAPが3.6%〜23.3%、CorLocが3.4%~19.7%)よりも優れていることを検証している。 Weakly supervised object detection (WSOD) aims at learning precise object detectors with only image-level tags. In spite of intensive research on deep learning (DL) approaches over the past few years, there is still a significant performance gap between WSOD and fully supervised object detection. In fact, most existing WSOD methods only consider the visual appearance of each region proposal but ignore employing the useful context information in the image. To this end, this paper proposes an interactive end-to-end WSDO framework called JLWSOD with two innovations: i) two types of WSOD-specific context information (i.e., instance-wise correlation andsemantic-wise correlation) are proposed and introduced into WSOD framework; ii) an interactive graph contrastive learning (iGCL) mechanism is designed to jointly optimize the visual appearance and context information for better WSOD performance. Specifically, the iGCL mechanism takes full advantage of the complementary interpretations of the WSOD, namely instance-wise detection and semantic-wise prediction tasks, forming a more comprehensive solution. Extensive experiments on the widely used PASCAL VOC and MS COCO benchmarks verify the superiority of JLWSOD over alternative state-of-the-art approaches and baseline models (improvement of 3.6%~23.3% on mAP and 3.4%~19.7% on CorLoc, respectively). | 翻訳日:2023-05-08 16:44:33 公開日:2023-05-05 |
# 勾配ブースト決定木の1ホットエンコーディングと正規化によるロバスト性向上 Enhancing Robustness of Gradient-Boosted Decision Trees through One-Hot Encoding and Regularization ( http://arxiv.org/abs/2304.13761v2 ) ライセンス: Link先を確認 | Shijie Cui, Agus Sudjianto, Aijun Zhang, Runze Li | (参考訳) グラフデータモデリングにおいて、GBDT(Gradient-boosted decision tree)が広く使われ、非常に効果的な機械学習アプローチである。
しかし、その複雑な構造は、目に見えないデータにおいて小さな共変量摂動に対して低い堅牢性をもたらす可能性がある。
本研究では,各木の葉を1つのダミー変数にエンコーディングすることにより,gbdtモデルを線形フレームワークに変換するために,ワンホットエンコーディングを適用する。
これにより線形回帰法が利用可能となり、GBDTモデルの共変量摂動に対する堅牢性を評価する新たなリスク分解が可能となった。
線形回帰形式を$L_1$または$L_2$正規化することでGBDTモデルの堅牢性を高めることを提案する。
モデル性能とロバスト性に対する正則化の効果に関する理論的結果を得た。
数値実験により,提案手法は1ホット符号化GBDTモデルのロバスト性を高めることができることを示した。 Gradient-boosted decision trees (GBDT) are widely used and highly effective machine learning approach for tabular data modeling. However, their complex structure may lead to low robustness against small covariate perturbation in unseen data. In this study, we apply one-hot encoding to convert a GBDT model into a linear framework, through encoding of each tree leaf to one dummy variable. This allows for the use of linear regression techniques, plus a novel risk decomposition for assessing the robustness of a GBDT model against covariate perturbations. We propose to enhance the robustness of GBDT models by refitting their linear regression forms with $L_1$ or $L_2$ regularization. Theoretical results are obtained about the effect of regularization on the model performance and robustness. It is demonstrated through numerical experiments that the proposed regularization approach can enhance the robustness of the one-hot-encoded GBDT models. | 翻訳日:2023-05-08 16:44:06 公開日:2023-05-05 |
# pascal vocを用いた意味セグメンテーションにおけるcnnの活用 Exploiting CNNs for Semantic Segmentation with Pascal VOC ( http://arxiv.org/abs/2304.13216v2 ) ライセンス: Link先を確認 | Sourabh Prakash, Priyanshi Shah, Ashrya Agrawal | (参考訳) 本稿では,Pascal VOCデータセットを用いたセマンティックセグメンテーションに関する総合的研究を行う。
ここで、各ピクセルにクラスをラベル付けし、オブジェクト/エンティティに基づいてイメージ全体をセグメンテーションする必要があります。
これを解決するために、まずFCN(Fully Convolution Network)ベースラインを使用し、71.31%の精度と0.0527の平均IoUを与えた。
パフォーマンスと動作を分析し、次にベースラインでの問題に3つの改善を加えます。
a)コサイン焼鈍学習率スケジューラ(画素精度:72.86%、IoU:0.00529)
b)データ拡張(画素精度:69.88%、iou: 0.0585)
c)クラス不均衡重量(ピクセル精度:68.98%、iou: 0.0596)
これらのトレーニングパイプラインの変更とは別に、3つの異なるアーキテクチャも検討しています。
a)提案したモデル -- Advanced FCN (ピクセル精度:67.20%、IoU:0.0602)
b)ResNetによる転送学習(ベストパフォーマンス)(画素精度:71.33%、IoU:0.0926)
c) U-Net(ピクセル精度:72.15%、IoU: 0.0649)
改善は、メトリクスとセグメンテーションマップの両方で反映されるように、パフォーマンスを大幅に改善するのに役立ちます。
興味深いことに、改善の中でデータセット拡張が最も貢献しているのがわかります。
また、転送学習モデルがpascalデータセットで最善を尽くしていることに注意してください。
損失、精度、IoUプロットとセグメンテーションマップを用いてこれらの性能を分析し、モデルの動作に関する貴重な洞察を得るのに役立ちます。 In this paper, we present a comprehensive study on semantic segmentation with the Pascal VOC dataset. Here, we have to label each pixel with a class which in turn segments the entire image based on the objects/entities present. To tackle this, we firstly use a Fully Convolution Network (FCN) baseline which gave 71.31% pixel accuracy and 0.0527 mean IoU. We analyze its performance and working and subsequently address the issues in the baseline with three improvements: a) cosine annealing learning rate scheduler(pixel accuracy: 72.86%, IoU: 0.0529), b) data augmentation(pixel accuracy: 69.88%, IoU: 0.0585) c) class imbalance weights(pixel accuracy: 68.98%, IoU: 0.0596). Apart from these changes in training pipeline, we also explore three different architectures: a) Our proposed model -- Advanced FCN (pixel accuracy: 67.20%, IoU: 0.0602) b) Transfer Learning with ResNet (Best performance) (pixel accuracy: 71.33%, IoU: 0.0926 ) c) U-Net(pixel accuracy: 72.15%, IoU: 0.0649). We observe that the improvements help in greatly improving the performance, as reflected both, in metrics and segmentation maps. Interestingly, we observe that among the improvements, dataset augmentation has the greatest contribution. Also, note that transfer learning model performs the best on the pascal dataset. We analyse the performance of these using loss, accuracy and IoU plots along with segmentation maps, which help us draw valuable insights about the working of the models. | 翻訳日:2023-05-08 16:43:50 公開日:2023-05-05 |
# 有向連鎖生成型逆ネットワーク Directed Chain Generative Adversarial Networks ( http://arxiv.org/abs/2304.13131v2 ) ライセンス: Link先を確認 | Ming Min, Ruimeng Hu, Tomoyuki Ichiba | (参考訳) 実世界のデータは、コミュニティにおける意見のばらつきを記述するデータ、ニューロンのインタースパイク間隔分布、振動子自然周波数などのマルチモーダルな分散が可能である。
マルチモーダル分散実世界のデータ生成は,GAN(Generative Adversarial Network)の課題となっている。
例えば、無限次元GANとして扱われるニューラル確率微分方程式(Neural SDEs)は、主に単調時系列データを生成することに成功している。
本稿では,方向連鎖型sdesのドリフトと拡散係数に分布制約のある時系列データセット(方向連鎖または入力の近傍プロセスと呼ばれる)を挿入する,方向連鎖gans (dc-gans) という新しい時系列生成器を提案する。
dc-gansは近隣プロセスと同じ分布の新しい時系列を生成することができ、近傍プロセスはマルチモーダルな分散時系列を学習し生成するための重要なステップを提供する。
提案するdc-ganは,社会科学と計算神経科学の2つの確率モデルと,株価とエネルギー消費に関する実世界データセットを含む4つのデータセットで検討された。
我々の知る限り、DC-GANは、マルチモーダル時系列データを生成し、分布、データ類似性、予測能力に関して、常に最先端のベンチマークを上回ります。 Real-world data can be multimodal distributed, e.g., data describing the opinion divergence in a community, the interspike interval distribution of neurons, and the oscillators natural frequencies. Generating multimodal distributed real-world data has become a challenge to existing generative adversarial networks (GANs). For example, neural stochastic differential equations (Neural SDEs), treated as infinite-dimensional GANs, have demonstrated successful performance mainly in generating unimodal time series data. In this paper, we propose a novel time series generator, named directed chain GANs (DC-GANs), which inserts a time series dataset (called a neighborhood process of the directed chain or input) into the drift and diffusion coefficients of the directed chain SDEs with distributional constraints. DC-GANs can generate new time series of the same distribution as the neighborhood process, and the neighborhood process will provide the key step in learning and generating multimodal distributed time series. The proposed DC-GANs are examined on four datasets, including two stochastic models from social sciences and computational neuroscience, and two real-world datasets on stock prices and energy consumption. To our best knowledge, DC-GANs are the first work that can generate multimodal time series data and consistently outperforms state-of-the-art benchmarks with respect to measures of distribution, data similarity, and predictive ability. | 翻訳日:2023-05-08 16:43:30 公開日:2023-05-05 |
# 科学のための教師なしドメイン転送:ディファリング応答モデルを用いたLArTPC検出器シミュレーション間の翻訳のための深層学習手法の探索 Unsupervised Domain Transfer for Science: Exploring Deep Learning Methods for Translation between LArTPC Detector Simulations with Differing Response Models ( http://arxiv.org/abs/2304.12858v2 ) ライセンス: Link先を確認 | Yi Huang, Dmitrii Torbunov, Brett Viren, Haiwang Yu, Jin Huang, Meifeng Lin, Yihui Ren | (参考訳) 深層学習(DL)技術は科学、特に潜在的な解法や発見への道筋の合理化に広く応用されている。
しかし、DLモデルは実際の実験データに適用されていないシミュレーションの結果に基づいて訓練されることが多い。
このように、シミュレーションされたデータと実際のデータの系統的な違いは、モデルのパフォーマンスを低下させる可能性がある。
本研究は,シミュレーションデータと実データとの系統的差異の玩具モデルに関する研究である。
完全に教師なしでタスクに依存しない方法で、体系的に異なる2つのサンプルの違いを減らす。
本手法は, 画像対画像変換技術の最近の進歩に基づき, 模擬液体アルゴン時間投影室 (lartpc) 検出器の2組の試料について検証を行い, シミュレーションデータと実データとの共通系統的差異を制御的に示す。
LArTPCベースの検出器は次世代粒子検出器を表現し、独自の高分解能粒子トラックデータを生成する。
この研究は、Simple Liquid-Argon Track Samples(SLATS)と呼ばれる生成されたLArTPCデータセットをオープンソースとして公開した。
コードとトレーニングされたモデルはhttps://github.com/LS4GAN/uvcgan4slatsで入手できる。 Deep learning (DL) techniques have broad applications in science, especially in seeking to streamline the pathway to potential solutions and discoveries. Frequently, however, DL models are trained on the results of simulation yet applied to real experimental data. As such, any systematic differences between the simulated and real data may degrade the model's performance -- an effect known as "domain shift." This work studies a toy model of the systematic differences between simulated and real data. It presents a fully unsupervised, task-agnostic method to reduce differences between two systematically different samples. The method is based on the recent advances in unpaired image-to-image translation techniques and is validated on two sets of samples of simulated Liquid Argon Time Projection Chamber (LArTPC) detector events, created to illustrate common systematic differences between the simulated and real data in a controlled way. LArTPC-based detectors represent the next-generation particle detectors, producing unique high-resolution particle track data. This work open-sources the generated LArTPC data set, called Simple Liquid-Argon Track Samples (or SLATS), allowing researchers from diverse domains to study the LArTPC-like data for the first time. The code and trained models are available at https://github.com/LS4GAN/uvcgan4slats. | 翻訳日:2023-05-08 16:43:04 公開日:2023-05-05 |
# LLM+P: 最適計画精度で大規模言語モデルを構築する LLM+P: Empowering Large Language Models with Optimal Planning Proficiency ( http://arxiv.org/abs/2304.11477v2 ) ライセンス: Link先を確認 | Bo Liu and Yuqian Jiang and Xiaohan Zhang and Qiang Liu and Shiqi Zhang and Joydeep Biswas and Peter Stone | (参考訳) 最先端のチャットボットは、日常生活で起こる多くの一般的な質問に対して、妥当な答えを提供することができます。
しかし、今のところLLMは長期計画問題を確実に解決できない。
対照的に、古典的なプランナーは、問題が形式化された方法で与えられると、効率的な検索アルゴリズムを使用して、正しい、あるいは最適なプランを素早く識別することができる。
本稿では,従来のプランナの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
LLM+Pは計画問題の自然言語記述を受け取り、その問題を自然言語で解くための正しい(あるいは最適な)計画を返す。
LLM+Pは、まず、言語記述を計画ドメイン定義言語(PDDL)で記述されたファイルに変換し、次に古典的なプランナーを活用して解決策を素早く見つけ、発見されたソリューションを自然言語に翻訳する。
LLM+Pとともに、一般的な計画シナリオから得られる様々なベンチマーク問題を定義する。
これらのベンチマーク問題を総合的に検討した結果, LLM+P はほとんどの問題に対して最適解を提供することができる一方で, LLM はほとんどの問題に対して可能な計画も提供できないことがわかった。
コードと結果はhttps://github.com/Cranial-XIX/llm-pddl.gitで公開されている。 Large language models (LLMs) have demonstrated remarkable zero-shot generalization abilities: state-of-the-art chatbots can provide plausible answers to many common questions that arise in daily life. However, so far, LLMs cannot reliably solve long-horizon planning problems. By contrast, classical planners, once a problem is given in a formatted way, can use efficient search algorithms to quickly identify correct, or even optimal, plans. In an effort to get the best of both worlds, this paper introduces LLM+P, the first framework that incorporates the strengths of classical planners into LLMs. LLM+P takes in a natural language description of a planning problem, then returns a correct (or optimal) plan for solving that problem in natural language. LLM+P does so by first converting the language description into a file written in the planning domain definition language (PDDL), then leveraging classical planners to quickly find a solution, and then translating the found solution back into natural language. Along with LLM+P, we define a diverse set of different benchmark problems taken from common planning scenarios. Via a comprehensive set of experiments on these benchmark problems, we find that LLM+P is able to provide optimal solutions for most problems, while LLMs fail to provide even feasible plans for most problems.\footnote{The code and results are publicly available at https://github.com/Cranial-XIX/llm-pddl.git. | 翻訳日:2023-05-08 16:42:41 公開日:2023-05-05 |
# 大規模言語モデルによるYAMLの情報技術タスクの自動コード生成 Automated Code generation for Information Technology Tasks in YAML through Large Language Models ( http://arxiv.org/abs/2305.02783v2 ) ライセンス: Link先を確認 | Saurabh Pujar, Luca Buratti, Xiaojie Guo, Nicolas Dupuis, Burn Lewis, Sahil Suneja, Atin Sood, Ganesh Nalawade, Matthew Jones, Alessandro Morari, Ruchir Puri | (参考訳) 大規模言語モデルの使用によるコード生成能力の最近の改善は、主に汎用プログラミング言語の恩恵を受けている。
ITオートメーションで使用されるようなドメイン固有言語は、多くのアクティブな開発者を巻き込み、現代のクラウドプラットフォームに不可欠なコンポーネントであるにもかかわらず、はるかに注目を集めている。
この作業は、ITオートメーションのための広く使われているマークアップ言語であるAnsible-YAMLの生成に焦点を当てている。
私たちは、IT自動化の生産性向上を目的とした、Ansible-YAMLコード生成ツールであるAnsible Wisdomを紹介します。
ansible wisdomはtransformerベースのモデルで、ansible-yamlを含む新しいデータセットでトレーニングによって拡張される。
また、YAMLとAnsibleの2つの新しいパフォーマンス指標を開発し、この領域の特徴を捉える。
その結果、Ansible Wisdomは、既存のアートコード生成モデルと同等かそれ以上のパフォーマンスで、自然言語プロンプトからAnsibleスクリプトを正確に生成できることがわかった。 The recent improvement in code generation capabilities due to the use of large language models has mainly benefited general purpose programming languages. Domain specific languages, such as the ones used for IT Automation, have received far less attention, despite involving many active developers and being an essential component of modern cloud platforms. This work focuses on the generation of Ansible-YAML, a widely used markup language for IT Automation. We present Ansible Wisdom, a natural-language to Ansible-YAML code generation tool, aimed at improving IT automation productivity. Ansible Wisdom is a transformer-based model, extended by training with a new dataset containing Ansible-YAML. We also develop two novel performance metrics for YAML and Ansible to capture the specific characteristics of this domain. Results show that Ansible Wisdom can accurately generate Ansible script from natural language prompts with performance comparable or better than existing state of the art code generation models. | 翻訳日:2023-05-08 16:35:27 公開日:2023-05-05 |
# UNTER: 事前訓練された言語モデルを強化するための統一知識インターフェース UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language Models ( http://arxiv.org/abs/2305.01624v2 ) ライセンス: Link先を確認 | Deming Ye, Yankai Lin, Zhengyan Zhang and Maosong Sun | (参考訳) 最近の研究は、様々な下流NLPタスクにおいて、外部知識注入が事前学習言語モデル(PLM)を前進させることを実証している。
しかし,既存の知識注入法は構造化知識にも非構造化知識にも適用可能である。
本稿では,構造化知識と非構造化知識の両方を活用する統一的視点を提供するために,Unified Knowledge InTERface(UNTER)を提案する。
UNTERでは、デコーダを統一知識インタフェースとして採用し、エンコーダから得られたスパン表現を対応する知識と整合させる。
このアプローチにより、エンコーダは下流アプリケーションのパラメータからスパン関連の知識を均一に呼び出すことができる。
実験結果から,UNTERは知識を注入することで,エンティティタイピング,名前付きエンティティ認識,関係抽出などの一連の知識駆動型NLPタスク,特に低リソースシナリオにおいて継続的な改善が得られた。 Recent research demonstrates that external knowledge injection can advance pre-trained language models (PLMs) in a variety of downstream NLP tasks. However, existing knowledge injection methods are either applicable to structured knowledge or unstructured knowledge, lacking a unified usage. In this paper, we propose a UNified knowledge inTERface, UNTER, to provide a unified perspective to exploit both structured knowledge and unstructured knowledge. In UNTER, we adopt the decoder as a unified knowledge interface, aligning span representations obtained from the encoder with their corresponding knowledge. This approach enables the encoder to uniformly invoke span-related knowledge from its parameters for downstream applications. Experimental results show that, with both forms of knowledge injected, UNTER gains continuous improvements on a series of knowledge-driven NLP tasks, including entity typing, named entity recognition and relation extraction, especially in low-resource scenarios. | 翻訳日:2023-05-08 16:34:15 公開日:2023-05-05 |
# トップ1分解特徴のヒュージングロジットによる対向移動性の向上 Boosting Adversarial Transferability via Fusing Logits of Top-1 Decomposed Feature ( http://arxiv.org/abs/2305.01361v2 ) ライセンス: Link先を確認 | Juanjuan Weng and Zhiming Luo and Dazhen Lin and Shaozi Li and Zhun Zhong | (参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)は、高い転送性を持ち、未知のブラックボックスモデルを攻撃するために使用できる、敵のサンプルに対して非常に脆弱であることが示されている。
逆行性サンプルの伝達性を改善するために、中層におけるニューロンの活性化を阻害するいくつかの機能ベースの逆行性攻撃法が提案されている。
しかし、現在の最先端の機能ベースの攻撃方法は、一般的にニューロンの重要性を推定するために追加の計算コストを必要とする。
そこで本研究では,Singular Value Decomposition(SVD)に基づく特徴レベル攻撃手法を提案する。
我々のアプローチは、中間層の特徴から分解された大きな特異値に付随する固有ベクトルがより優れた一般化と注意特性を示すという発見に着想を得たものである。
具体的には,分解されたtop-1特異値関連特徴を保持して出力ロジットを演算し,元のロジットと組み合わせて敵のサンプルを最適化することで攻撃を行う。
提案手法の有効性を検証し,各種ベースラインに容易に組み込むことにより,通常訓練されたCNNと先進防衛戦略を妨害する対向サンプルの転送性を大幅に向上させる。
この研究のソースコードは \textcolor{blue}{\href{https://anonymous.4open.science/r/svd-ssa-13bf/readme.md}{link}} で入手できる。 Recent research has shown that Deep Neural Networks (DNNs) are highly vulnerable to adversarial samples, which are highly transferable and can be used to attack other unknown black-box models. To improve the transferability of adversarial samples, several feature-based adversarial attack methods have been proposed to disrupt neuron activation in the middle layers. However, current state-of-the-art feature-based attack methods typically require additional computation costs for estimating the importance of neurons. To address this challenge, we propose a Singular Value Decomposition (SVD)-based feature-level attack method. Our approach is inspired by the discovery that eigenvectors associated with the larger singular values decomposed from the middle layer features exhibit superior generalization and attention properties. Specifically, we conduct the attack by retaining the decomposed Top-1 singular value-associated feature for computing the output logits, which are then combined with the original logits to optimize adversarial examples. Our extensive experimental results verify the effectiveness of our proposed method, which can be easily integrated into various baselines to significantly enhance the transferability of adversarial samples for disturbing normally trained CNNs and advanced defense strategies. The source code of this study is available at \textcolor{blue}{\href{https://anonymous.4open.science/r/SVD-SSA-13BF/README.md}{Link}}. | 翻訳日:2023-05-08 16:34:00 公開日:2023-05-05 |
# 被写体間相関に基づく睡眠ステージングのコントラスト学習 Contrastive Learning for Sleep Staging based on Inter Subject Correlation ( http://arxiv.org/abs/2305.03178v1 ) ライセンス: Link先を確認 | Tongxu Zhang and Bei Wang | (参考訳) 近年では、深層学習を自動睡眠ステージ分類に適用する研究が数多く行われている。
実際には、これらの作品は睡眠ステージにおけるクロスサブジェクトの問題にあまり注意を払っていない。
同時に、サブジェクト間の相関に関する新しい神経科学理論は、クロスサブジェクト分析に新たな洞察を与えることができる。
本稿では,睡眠ステージング研究に用いられているMViTimeモデルについて述べる。
また,睡眠ステージ分類におけるクロスサブジェクト問題に対処するための実現可能な解として,コントラスト学習を通じてサブジェクト間相関理論を実装した。
最後に,実験結果と結論を提示し,本手法が睡眠ステージングにおいて最先端のパフォーマンスを達成していることを示す。
アブレーション実験の結果は、対照的な学習に基づくクロスオブジェクトアプローチの有効性を示した。 In recent years, multitudes of researches have applied deep learning to automatic sleep stage classification. Whereas actually, these works have paid less attention to the issue of cross-subject in sleep staging. At the same time, emerging neuroscience theories on inter-subject correlations can provide new insights for cross-subject analysis. This paper presents the MViTime model that have been used in sleep staging study. And we implement the inter-subject correlation theory through contrastive learning, providing a feasible solution to address the cross-subject problem in sleep stage classification. Finally, experimental results and conclusions are presented, demonstrating that the developed method has achieved state-of-the-art performance on sleep staging. The results of the ablation experiment also demonstrate the effectiveness of the cross-subject approach based on contrastive learning. | 翻訳日:2023-05-08 16:06:46 公開日:2023-05-05 |
# 量子仮想プライベートネットワークにおける資源管理 Resource Management in Quantum Virtual Private Networks ( http://arxiv.org/abs/2305.03231v1 ) ライセンス: Link先を確認 | Shahrooz Pouryousef, Nitish K. Panigrahy, Monimoy Deb Purkayastha, Sabyasachi Mukhopadhyay, Gert Grammel, Dominoko Di Mola, and Don Towsley | (参考訳) 本研究では,複数の組織による量子絡み合い分布の基盤となる量子ネットワークの共有を含む,量子仮想プライベートネットワーク(qvpn)のためのリソース管理フレームワークを開発した。
提案手法では,集中型最適化フレームワークを用いて,qVPNにおけるリンク絡みリソース割り当ての問題を解決する。
我々は,qvpn最適化のための遺伝的および学習ベースのアルゴリズムの可能性に関する洞察を提供し,多組織環境における効率的かつ信頼性の高い量子通信の実現における経路選択と蒸留の重要性を強調する。
遺伝的アルゴリズムと学習に基づくアルゴリズムは,従来の欲望に基づくヒューリスティックと比べ,よりよい経路を識別できることを示した。
さらに、これらのアルゴリズムは、エンドユーザーに必要なサービス品質を確保しつつ、ゲートや量子チャネルの潜在的なノイズを軽減する優れた蒸留戦略を効果的に特定することができる。 In this study, we develop a resource management framework for a quantum virtual private network (qVPN), which involves the sharing of an underlying public quantum network by multiple organizations for quantum entanglement distribution. Our approach involves resolving the issue of link entanglement resource allocation in a qVPN by utilizing a centralized optimization framework. We provide insights into the potential of genetic and learning-based algorithms for optimizing qVPNs, and emphasize the significance of path selection and distillation in enabling efficient and reliable quantum communication in multi-organizational settings. Our findings demonstrate that compared to traditional greedy based heuristics, genetic and learning-based algorithms can identify better paths. Furthermore, these algorithms can effectively identify good distillation strategies to mitigate potential noises in gates and quantum channels, while ensuring the necessary quality of service for end users. | 翻訳日:2023-05-08 15:48:05 公開日:2023-05-05 |
# ノイズロバスト高速イメージングのための信号符号化露光センシング Sign-Coded Exposure Sensing for Noise-Robust High-Speed Imaging ( http://arxiv.org/abs/2305.03226v1 ) ライセンス: Link先を確認 | R. Wes Baldwin, Vijayan Asari, Keigo Hirakawa | (参考訳) 本稿では,画素レベルの符号符号化露光を用いた高速フレームの高速圧縮技術であるフーリエカメラを提案する。
ウォルシュ関数の直交性は、高速フレーム再構成中にノイズが増幅されないことを保証するため、非常に高いフレームレート操作を目的とした符号化露光システムにとってより魅力的な選択肢となる。
フレーム再構成は、空間多重化ウォルシュ関数を格子配置で1パスの分解によって行い、計算複雑性を著しく低減する。
シミュレーションプロトタイプは、ワンホットエンコーディングや擬似ランダムエンコーディングのようなバイナリ符号化された露光パターンと比較して、ノイズに対する堅牢性の向上を確認する。
ハードウェアプロトタイプは、周囲の光のみに照らされた移動シーンの4kHzフレームの再構成を実証した。 We present a novel Fourier camera, an in-hardware optical compression of high-speed frames employing pixel-level sign-coded exposure where pixel intensities temporally modulated as positive and negative exposure are combined to yield Hadamard coefficients. The orthogonality of Walsh functions ensures that the noise is not amplified during high-speed frame reconstruction, making it a much more attractive option for coded exposure systems aimed at very high frame rate operation. Frame reconstruction is carried out by a single-pass demosaicking of the spatially multiplexed Walsh functions in a lattice arrangement, significantly reducing the computational complexity. The simulation prototype confirms the improved robustness to noise compared to the binary-coded exposure patterns, such as one-hot encoding and pseudo-random encoding. Our hardware prototype demonstrated the reconstruction of 4kHz frames of a moving scene lit by ambient light only. | 翻訳日:2023-05-08 15:47:50 公開日:2023-05-05 |
# 量的回帰と特徴選択による炭素価格予測 Carbon Price Forecasting with Quantile Regression and Feature Selection ( http://arxiv.org/abs/2305.03224v1 ) ライセンス: Link先を確認 | Tianqi Pang and Kehui Tan and Chenyou Fan | (参考訳) 炭素先物は最近、欧州連合(EU)や中国などの貿易市場で新たな金融資産として出現している。
炭素価格の傾向のモニタリングは、国家政策立案と工業生産計画の両方にとって重要になっている。
しかし、様々な地政学的、社会的、経済的要因が炭素価格に大きな影響を与えうる。
ボラティリティと非線形性のため、正確な炭素価格の予測は一般的に難しい作業である。
本研究では, 炭素価格予測を新しい手法で改善することを提案する。
まず,商品価格,石油や天然ガスなどの輸出量,繁栄指標など,さまざまな影響要因を収集する。
次に,最も重要な要因を選択し,その最適グループ化を説明可能性のために開示する。
最後に,Sparse Quantile Group LassoとAdaptive Sparse Quantile Group Lassoを用いて価格予測を行う。
提案手法が既存の手法よりも優れていることを示す実験を行った。
また、当社の質的予測は、異なるレベルの将来の価格の完全なプロファイルを提供し、炭素市場の分布をよりよく説明します。 Carbon futures has recently emerged as a novel financial asset in the trading markets such as the European Union and China. Monitoring the trend of the carbon price has become critical for both national policy-making as well as industrial manufacturing planning. However, various geopolitical, social, and economic factors can impose substantial influence on the carbon price. Due to its volatility and non-linearity, predicting accurate carbon prices is generally a difficult task. In this study, we propose to improve carbon price forecasting with several novel practices. First, we collect various influencing factors, including commodity prices, export volumes such as oil and natural gas, and prosperity indices. Then we select the most significant factors and disclose their optimal grouping for explainability. Finally, we use the Sparse Quantile Group Lasso and Adaptive Sparse Quantile Group Lasso for robust price predictions. We demonstrate through extensive experimental studies that our proposed methods outperform existing ones. Also, our quantile predictions provide a complete profile of future prices at different levels, which better describes the distributions of the carbon market. | 翻訳日:2023-05-08 15:47:36 公開日:2023-05-05 |
# 社会正義のためのアルゴリズム:ソーシャルネットワークにおける肯定的行動 Algorithms for Social Justice: Affirmative Action in Social Networks ( http://arxiv.org/abs/2305.03223v1 ) ライセンス: Link先を確認 | Georgina Curto, Adrian Arnaiz-Rodriguez, Nuria Oliver | (参考訳) リンクレコメンデーションアルゴリズムは、世界中のソーシャルネットワークで何十億というユーザーの人間関係を形成するのに役立つ。
関連性を最大化するために、彼らは通常、互いに類似した接続ユーザを提案する。
これにより情報サイロが生成され、脆弱な有能なグループによる孤立が悪化し、社会的なステレオタイプが持続する。
これらの制限を緩和するために、フェアリンク推奨手法の実装に多くの作業が費やされてきた。
しかし、ほとんどのアプローチはリンクレコメンデーションアルゴリズムの最終的な目標、すなわちデータ取引の複雑なビジネスモデルにおけるユーザの関与の収益化に疑問を呈しない。
本稿では,社会正義の追求に沿った,プレイヤーの多様化とソーシャル・ネットワーク・プラットフォームの目的を提唱する。
そこで本稿では,この概念的目標を説明するために,スペクトルグラフ理論に基づく新たなリンク推薦アルゴリズムである era-link を提案する。
提案手法の挙動を定量的に分析し, 提案手法を3つの方法と比較するために, 有効抵抗から導かれる4つの基本的評価尺度を提案する。
合成および実世界のネットワークを用いた実験は、ERA-Linkが脆弱なグループだけでなくネットワーク全体に対して、すべての評価基準に従ってより良い結果を生成する方法を示している。
言い換えれば、ERA-Linkは脆弱なグループの構造的差別を緩和し、社会的結束を改善し、すべてのネットワークユーザーの社会的資本を増大させるコネクションを推奨している。
さらに、多様なユーザへのアクセスを促進することで、ERA-Linkはイノベーションの機会を促進する。 Link recommendation algorithms contribute to shaping human relations of billions of users worldwide in social networks. To maximize relevance, they typically propose connecting users that are similar to each other. This has been found to create information silos, exacerbating the isolation suffered by vulnerable salient groups and perpetuating societal stereotypes. To mitigate these limitations, a significant body of work has been devoted to the implementation of fair link recommendation methods. However, most approaches do not question the ultimate goal of link recommendation algorithms, namely the monetization of users' engagement in intricate business models of data trade. This paper advocates for a diversification of players and purposes of social network platforms, aligned with the pursue of social justice. To illustrate this conceptual goal, we present ERA-Link, a novel link recommendation algorithm based on spectral graph theory that counteracts the systemic societal discrimination suffered by vulnerable groups by explicitly implementing affirmative action. We propose four principled evaluation measures, derived from effective resistance, to quantitatively analyze the behavior of the proposed method and compare it to three alternative approaches. Experiments with synthetic and real-world networks illustrate how ERA-Link generates better outcomes according to all evaluation measures, not only for the vulnerable group but for the whole network. In other words, ERA-Link recommends connections that mitigate the structural discrimination of a vulnerable group, improves social cohesion and increases the social capital of all network users. Furthermore, by promoting the access to a diversity of users, ERA-Link facilitates innovation opportunities. | 翻訳日:2023-05-08 15:47:22 公開日:2023-05-05 |
# すべてのモデルはローカルである: 外部バリデーションをリカレントローカルバリデーションに置き換える時間 All models are local: time to replace external validation with recurrent local validation ( http://arxiv.org/abs/2305.03219v1 ) ライセンス: Link先を確認 | Alex Youssef (1 and 2), Michael Pencina (3), Anshul Thakur (2), Tingting Zhu (2), David Clifton (2 and 4), Nigam H. Shah (5 and 6 and 7) ((1) Stanford Bioengineering Department, Stanford University, Stanford, CA, USA (2) Department of Engineering Science, University of Oxford, Oxford, UK (3) Duke University School of Medicine, Durham, NC, USA (4) Oxford-Suzhou Centre for Advanced Research, Suzhou, China (5) Center for Biomedical Informatics Research, Stanford University School of Medicine, Stanford, CA, USA (6) Technology and Digital Solutions, Stanford Medicine, Stanford, CA, USA (7) Clinical Excellence Research Center, Stanford Medicine, Stanford, CA, USA) | (参考訳) 外部検証はMLモデルの一般化性を保証するためにしばしば推奨される。
しかし、汎用性や、モデルの臨床的有用性(あらゆる臨床的意思決定支援ツールの最終的な目標)に匹敵するものではない。
外部検証は、現在のヘルスケアMLのニーズと不一致である。
まず、患者データは時間、地理、施設によって変化する。
これらの変化は、単一の固定モデル(特に臨床mlを支配しているディープラーニングモデル)のパフォーマンスに大きなボラティリティをもたらします。
第二に、新しいML技術、現在の市場力、更新された規制フレームワークは、デプロイされた個々のモデルインスタンスの頻繁な更新と監視を可能にしている。
MLモデルの安全性やユーティリティを確立するには,外部検証が不十分であることを示す。
外部バリデーションパラダイムを修正するための提案は、十分に行き届かない。
最終的なテストが私たちを混乱に導く可能性が高いので、引き続きそれに依存します。
本稿では,MLOpsにインスパイアされた局所的検証のパラダイムを提案する。
このパラダイムは、デプロイ毎のサイト固有の信頼性テストと、デプロイされたアルゴリズムのライフサイクル全体にわたる定期的かつ反復的なチェックに依存する。
初期および繰り返しの信頼性テストは、パフォーマンス破壊的な分散シフトと、患者の安全性を損なうコンセプトドリフトから保護される。 External validation is often recommended to ensure the generalizability of ML models. However, it neither guarantees generalizability nor equates to a model's clinical usefulness (the ultimate goal of any clinical decision-support tool). External validation is misaligned with current healthcare ML needs. First, patient data changes across time, geography, and facilities. These changes create significant volatility in the performance of a single fixed model (especially for deep learning models, which dominate clinical ML). Second, newer ML techniques, current market forces, and updated regulatory frameworks are enabling frequent updating and monitoring of individual deployed model instances. We submit that external validation is insufficient to establish ML models' safety or utility. Proposals to fix the external validation paradigm do not go far enough. Continued reliance on it as the ultimate test is likely to lead us astray. We propose the MLOps-inspired paradigm of recurring local validation as an alternative that ensures the validity of models while protecting against performance-disruptive data variability. This paradigm relies on site-specific reliability tests before every deployment, followed by regular and recurrent checks throughout the life cycle of the deployed algorithm. Initial and recurrent reliability tests protect against performance-disruptive distribution shifts, and concept drifts that jeopardize patient safety. | 翻訳日:2023-05-08 15:46:54 公開日:2023-05-05 |
# 深部3次元シミュレーションスーパーリゾリューションによる近リアルタイム顔アニメーション Near-realtime Facial Animation by Deep 3D Simulation Super-Resolution ( http://arxiv.org/abs/2305.03216v1 ) ライセンス: Link先を確認 | Hyojoon Park, Sangeetha Grama Srinivasan, Matthew Cong, Doyub Kim, Byungsoo Kim, Jonathan Swartz, Ken Museth, Eftychios Sifakis | (参考訳) 本稿では,より高分解能(26倍の要素数)で正確な物理モデリングを行う基準品質のオフラインシミュレータと密接に類似した細部まで,安価でリアルタイムな物理シミュレーションによって生成される表情性能を,効率的に,かつ現実的に向上させることができるニューラルネットワークに基づくシミュレーション超解像フレームワークを提案する。
私たちのアプローチは、それぞれ低解像度と高分解能のシミュレータから、ペアフレームのトレーニングセットをシミュレーションを通じて構築する能力に根ざしています。
このようなシミュレーション領域の例示として顔アニメーションを用いて,同じ筋運動制御と骨格ポーズを2つのシミュレータで単純にダイヤルすることで,この意味的一致を実現する。
提案するニューラルネットワークスーパーレゾリューションフレームワークは,このトレーニングセットから認識不能な表現に一般化し,リアルタイム変種における解像度の制限やコストカット近似による2つのシミュレーション間の不一致のモデル化を補償し,リアルタイムシミュレーションの結果として,入力として提供される意味記述子やパラメータは不要である。
我々は,様々な表現能力に対するパイプラインの有効性を評価し,提案手法と代替案の比較・アブレーション実験を行った。 We present a neural network-based simulation super-resolution framework that can efficiently and realistically enhance a facial performance produced by a low-cost, realtime physics-based simulation to a level of detail that closely approximates that of a reference-quality off-line simulator with much higher resolution (26x element count in our examples) and accurate physical modeling. Our approach is rooted in our ability to construct - via simulation - a training set of paired frames, from the low- and high-resolution simulators respectively, that are in semantic correspondence with each other. We use face animation as an exemplar of such a simulation domain, where creating this semantic congruence is achieved by simply dialing in the same muscle actuation controls and skeletal pose in the two simulators. Our proposed neural network super-resolution framework generalizes from this training set to unseen expressions, compensates for modeling discrepancies between the two simulations due to limited resolution or cost-cutting approximations in the real-time variant, and does not require any semantic descriptors or parameters to be provided as input, other than the result of the real-time simulation. We evaluate the efficacy of our pipeline on a variety of expressive performances and provide comparisons and ablation experiments for plausible variations and alternatives to our proposed scheme. | 翻訳日:2023-05-08 15:46:38 公開日:2023-05-05 |
# VicunaNER: Vicunaを用いたゼロ/フルショットのエンティティ認識 VicunaNER: Zero/Few-shot Named Entity Recognition using Vicuna ( http://arxiv.org/abs/2305.03253v1 ) ライセンス: Link先を確認 | Bin Ji | (参考訳) 大型言語モデル(LLM、例えばChatGPT)は、名前付きエンティティ認識(NER)において印象的なゼロショットと少数ショットの能力を示している。
しかし、これらのモデルはオンラインapi経由でのみアクセス可能であり、データ漏洩と再生不能な問題を引き起こす可能性がある。
本稿では,新たなオープンソース LLM -- Vicuna をベースとしたゼロ/ファウショット NER フレームワークである VicunaNER を提案する。
VicunaNERは2フェーズのフレームワークで、各フェーズはVicunaとのマルチターン対話を利用してテキストからエンティティを認識する。
第2フェーズは再認識と呼ばれ、第1フェーズで認識されていないエンティティ(認識)を認識する。
さらに、各フェーズにエンティティの正当性チェックのダイアログを設定し、間違ったエンティティをフィルタリングする。
VicunaNERのゼロショット能力は、Few-NERDで5つの領域を横断する10のデータセットと少数ショット能力を評価する。
実験の結果、ビクナナーは両方のショット設定で優れた性能を得られた。
また,複数の視点からvicunaの総合的な調査を行う。 Large Language Models (LLMs, e.g., ChatGPT) have shown impressive zero- and few-shot capabilities in Named Entity Recognition (NER). However, these models can only be accessed via online APIs, which may cause data leak and non-reproducible problems. In this paper, we propose VicunaNER, a zero/few-shot NER framework based on the newly released open-source LLM -- Vicuna. VicunaNER is a two-phase framework, where each phase leverages multi-turn dialogues with Vicuna to recognize entities from texts. We name the second phase as Re-Recognition, which recognizes those entities not recognized in the first phase (a.k.a. Recognition). Moreover, we set entity correctness check dialogues in each phase to filter out wrong entities. We evaluate VicunaNER's zero-shot capacity on 10 datasets crossing 5 domains and few-shot capacity on Few-NERD. Experimental results demonstrate that VicunaNER achieves superior performance in both shot settings. Additionally, we conduct comprehensive investigations on Vicuna from multiple perspectives. | 翻訳日:2023-05-08 15:39:23 公開日:2023-05-05 |
# heteroedge:異種協調自律システムにおける非対称性の解消 HeteroEdge: Addressing Asymmetry in Heterogeneous Collaborative Autonomous Systems ( http://arxiv.org/abs/2305.03252v1 ) ライセンス: Link先を確認 | Mohammad Saeid Anwar, Emon Dey, Maloy Kumar Devnath, Indrajeet Ghosh, Naima Khan, Jade Freeman, Timothy Gregory, Niranjan Suri, Kasthuri Jayaraja, Sreenivasan Ramasamy Ramamurthy, Nirmalya Roy | (参考訳) 環境に関する知識を集め、IoTデバイスに対する状況認識を生み出すことは、スマート都市および未テスト環境向けに開発されたシステムにとって最も重要である。
例えば、大規模な監視システムは、通常、カメラやLIDARのようなマルチモーダルセンサーを備えており、アクション、顔、行動、オブジェクト認識のためのディープラーニングアルゴリズムを実行する必要がある。
しかし、これらのシステムはユビキタスな性質のために電力とメモリの制約に直面しており、データ処理、ディープラーニングアルゴリズム入力、モデル推論通信を最適化することが重要である。
本論文では、2台の無人地上車両(UGV)と2台のNVIDIA Jetsonデバイスからなるテストベッドの自己適応最適化フレームワークを提案する。
このフレームワークは、異種ノード上の複数のタスク(ストレージ、処理、計算、送信、推論)を同時に効率的に管理する。
入力された画像フレームの圧縮とマスキング、類似したフレームの識別、および最適化のための境界条件を得るためにプロファイリング装置を含む。
.
最後に、ネットワーク帯域幅、忙しい要因、メモリ(CPU、GPU、RAM)、テストベッド内のデバイスの電力制約を考慮して、別のデバイスにオフロードするために必要なデータの比率を示す新しいパラメータ分割比を提案し、最適化する。
複数のタスク(PoseNet, SegNet, ImageNet, DetectNet, DepthNetなど)を同時に実行中に得られた評価から,補助ノード上のデータの70%(split-ratio=70%)の実行は,アロックスによるオフロードレイテンシを最小化します。
33%(18.7ms/画像から12.5ms/画像)、総動作時間は約2。
47%(69.32sから36.43s)であり、ベースライン構成(プライマリノードで実行)と比較した。 Gathering knowledge about surroundings and generating situational awareness for IoT devices is of utmost importance for systems developed for smart urban and uncontested environments. For example, a large-area surveillance system is typically equipped with multi-modal sensors such as cameras and LIDARs and is required to execute deep learning algorithms for action, face, behavior, and object recognition. However, these systems face power and memory constraints due to their ubiquitous nature, making it crucial to optimize data processing, deep learning algorithm input, and model inference communication. In this paper, we propose a self-adaptive optimization framework for a testbed comprising two Unmanned Ground Vehicles (UGVs) and two NVIDIA Jetson devices. This framework efficiently manages multiple tasks (storage, processing, computation, transmission, inference) on heterogeneous nodes concurrently. It involves compressing and masking input image frames, identifying similar frames, and profiling devices to obtain boundary conditions for optimization.. Finally, we propose and optimize a novel parameter split-ratio, which indicates the proportion of the data required to be offloaded to another device while considering the networking bandwidth, busy factor, memory (CPU, GPU, RAM), and power constraints of the devices in the testbed. Our evaluations captured while executing multiple tasks (e.g., PoseNet, SegNet, ImageNet, DetectNet, DepthNet) simultaneously, reveal that executing 70% (split-ratio=70%) of the data on the auxiliary node minimizes the offloading latency by approx. 33% (18.7 ms/image to 12.5 ms/image) and the total operation time by approx. 47% (69.32s to 36.43s) compared to the baseline configuration (executing on the primary node). | 翻訳日:2023-05-08 15:39:05 公開日:2023-05-05 |
# pmp:part-wise motion priorsを用いた物理的相互作用の学習 PMP: Learning to Physically Interact with Environments using Part-wise Motion Priors ( http://arxiv.org/abs/2305.03249v1 ) ライセンス: Link先を確認 | Jinseok Bae, Jungdam Won, Donggeun Lim, Cheol-Hui Min, Young Min Kim | (参考訳) 本稿では,複数のPMPを組み込んだキャラクタをアニメーション化する手法を提案する。
以前の研究では、参照データから現実的な調音運動を作成できるが、動きの範囲は利用可能なサンプルによって大きく制限されている。
特に相互作用に富むシナリオでは、物理的パラメータの組合せが指数関数的に増加するため、あらゆる可能な相互作用運動を取得することは不可能である。
提案したPMPにより,複数のパートスキルを組み立ててキャラクタをアニメーションし,既存のデータの組み合わせの異なる多様な動作セットを作成することができる。
私たちのパイプラインでは、幅広い部分的な事前のエージェントをトレーニングできます。
したがって、各本体部は、モーションキャプチャーからスタイルのキネマティックな洞察を得ることができ、同時に、追加部分特定シミュレーションからダイナミクス関連情報を抽出することができる。
例えば、まず、手足の部分だけをつかむような一般的な相互作用スキルを訓練し、訓練済みのエージェントからの専門家の軌跡と他の手足のキネマティックな先駆体を組み合わせることができる。
最終的に、我々の全身エージェントは、参照動作シーケンスに物体軌跡が存在しない場合でも、新しい物理的相互作用スキルを学習する。 We present a method to animate a character incorporating multiple part-wise motion priors (PMP). While previous works allow creating realistic articulated motions from reference data, the range of motion is largely limited by the available samples. Especially for the interaction-rich scenarios, it is impractical to attempt acquiring every possible interacting motion, as the combination of physical parameters increases exponentially. The proposed PMP allows us to assemble multiple part skills to animate a character, creating a diverse set of motions with different combinations of existing data. In our pipeline, we can train an agent with a wide range of part-wise priors. Therefore, each body part can obtain a kinematic insight of the style from the motion captures, or at the same time extract dynamics-related information from the additional part-specific simulation. For example, we can first train a general interaction skill, e.g. grasping, only for the dexterous part, and then combine the expert trajectories from the pre-trained agent with the kinematic priors of other limbs. Eventually, our whole-body agent learns a novel physical interaction skill even with the absence of the object trajectories in the reference motion sequence. | 翻訳日:2023-05-08 15:38:35 公開日:2023-05-05 |
# 炭化ケイ素膜におけるプラズモニック励起単一スピン欠陥 Plasmonic-enhanced bright single spin defects in silicon carbide membranes ( http://arxiv.org/abs/2305.03244v1 ) ライセンス: Link先を確認 | Ji-Yang Zhou, Qiang Li, Zhi-He Hao, Wu-Xi Lin, Zhen-Xuan He, Rui-Jian Liang, Liping Guo, Hao Li, Lixing You, Jian-Shun Tang, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo | (参考訳) 炭化ケイ素(SiC)の光処理可能なスピン欠陥は、様々な量子技術のための魅力的なプラットフォームとして出現している。
しかし、低い光子数率は、それらの応用を著しく制限する。
金膜コプラナー導波路で生成した表面プラズモンを用いて, 4H-SiC膜における光沢の7倍, スピン制御強度を14倍強化した。
プラズモニックエンハンスド効果のメカニズムは、金膜の表面と単一欠陥の間の距離を調整することによってさらに研究されている。
3エネルギーレベルのモデルを用いて、単一欠陥の輝度の増大に対応する遷移速度を決定する。
寿命測定では欠陥と表面プラズモンのカップリングも検証された。
この方式は低コストで複雑な微細加工や繊細な構造を持たず、異なる材料中の他のスピン欠陥にも適用できる。
この研究は、sic材料におけるスピン欠陥に基づく量子応用の開発を促進する。 Optically addressable spin defects in silicon carbide (SiC) have emerged as attractable platforms for various quantum technologies. However, the low photon count rate significantly limits their applications. We strongly enhanced the brightness by 7 times and spin-control strength by 14 times of single divacancy defects in 4H-SiC membranes using surface plasmon generated by gold film coplanar waveguides. The mechanism of the plasmonic-enhanced effect is further studied by tuning the distance between single defects and the surface of the gold film. A three-energy-level model is used to determine the corresponding transition rates consistent with the enhanced brightness of single defects. Lifetime measurements also verified the coupling between defects and surface plasmons. Our scheme is low-cost, without complicated microfabrication and delicate structures, which is applicable for other spin defects in different materials. This work would promote developing spin defect-based quantum applications in mature SiC materials. | 翻訳日:2023-05-08 15:38:16 公開日:2023-05-05 |
# 不均一超伝導量子コンピュータのためのマイクロアーキテクチャ Microarchitectures for Heterogeneous Superconducting Quantum Computers ( http://arxiv.org/abs/2305.03243v1 ) ライセンス: Link先を確認 | Samuel Stein, Sara Sussman, Teague Tomesh, Charles Guinn, Esin Tureci, Sophia Fuhui Lin, Wei Tang, James Ang, Srivatsan Chakram, Ang Li, Margaret Martonosi, Fred T. Chong, Andrew A. Houck, Isaac L. Chuang, and Michael Austin DeMarco | (参考訳) Noisy Intermediate-Scale Quantum Computing (NISQ) は近年,障害耐性量子計算 (FTQC) の長期的ビジョンによって,現在難易度の高いリソースコストと量子エラー補正 (QEC) のオーバーヘッドが実現されている。
興味深い問題のためにftqcは、長いコヒーレンス時間、高忠実度ゲート、コンパクトサイズを持つ数百万の物理キュービットを必要とする。
異種特殊化が古典コンピューティングにおけるスケーリングの利点を提供しているのと同様に、FTQCにも関心を寄せている。
しかしながら、FTQCシステムのハードウェアまたはソフトウェア要素における異種性の体系的利用は、膨大な設計空間と可変物理制約のために深刻な課題である。
本稿では、不均一な量子システムを設計するためのツールボックスであるHetArchを導入し、不均一な設計シナリオを探索することで、不均一なFTQC設計を実現するという課題を満たす。
階層的なアプローチを用いることで、量子アルゴリズムをより小さな演算(古典的なアプリケーションカーネルと同様)に分割し、設計空間を大幅に単純化し、結果としてトレードオフをもたらす。
超伝導システムに特化して、様々な超伝導デバイスからなる最適化された異種ハードウェアを設計し、物理的制約を設計ルールに抽象化し、特定の操作に最適化された標準セルにデバイスを組み立てる。
最後に,シミュレーションの負担を10^4以上削減し,最適な設計ポイントを特徴付ける異種設計空間探索フレームワークを提案する。
これらの手法を用いて, エンタングルメント蒸留, エラー補正, コードテレポーテーションのための超伝導量子モジュールを設計し, 均一系と比較して誤差率2.6x, 10.7x, 3.0xを低減した。 Noisy Intermediate-Scale Quantum Computing (NISQ) has dominated headlines in recent years, with the longer-term vision of Fault-Tolerant Quantum Computation (FTQC) offering significant potential albeit at currently intractable resource costs and quantum error correction (QEC) overheads. For problems of interest, FTQC will require millions of physical qubits with long coherence times, high-fidelity gates, and compact sizes to surpass classical systems. Just as heterogeneous specialization has offered scaling benefits in classical computing, it is likewise gaining interest in FTQC. However, systematic use of heterogeneity in either hardware or software elements of FTQC systems remains a serious challenge due to the vast design space and variable physical constraints. This paper meets the challenge of making heterogeneous FTQC design practical by introducing HetArch, a toolbox for designing heterogeneous quantum systems, and using it to explore heterogeneous design scenarios. Using a hierarchical approach, we successively break quantum algorithms into smaller operations (akin to classical application kernels), thus greatly simplifying the design space and resulting tradeoffs. Specializing to superconducting systems, we then design optimized heterogeneous hardware composed of varied superconducting devices, abstracting physical constraints into design rules that enable devices to be assembled into standard cells optimized for specific operations. Finally, we provide a heterogeneous design space exploration framework which reduces the simulation burden by a factor of 10^4 or more and allows us to characterize optimal design points. We use these techniques to design superconducting quantum modules for entanglement distillation, error correction, and code teleportation, reducing error rates by 2.6x, 10.7x, and 3.0x compared to homogeneous systems. | 翻訳日:2023-05-08 15:38:02 公開日:2023-05-05 |
# 背景情報によるクラスアクティベーションの不確かさの低減 Reduction of Class Activation Uncertainty with Background Information ( http://arxiv.org/abs/2305.03238v1 ) ライセンス: Link先を確認 | H M Dipu Kabir | (参考訳) マルチタスク学習は、一般化を改善したハイパフォーマンスニューラルネットワークをトレーニングするための一般的なアプローチである。
本稿では,計算能力の低い研究者や組織に対して,マルチタスク学習よりも低い計算速度で一般化を実現するためのバックグラウンドクラスを提案する。
また,背景画像の選択手法を提案し,今後の改善について検討する。
提案手法を複数のデータセットに適用し,より少ない計算量で一般化した。
また,学習モデルのクラスアクティベーションマッピング(cams)についても検討し,提案するモデルトレーニング手法を用いて,いくつかのクラス分類問題において,より大きな視点を見る傾向を観察した。
GitHub Repositoryの‘CAM’フォルダには,次のようなスクリプトが提供されている。 Multitask learning is a popular approach to training high-performing neural networks with improved generalization. In this paper, we propose a background class to achieve improved generalization at a lower computation compared to multitask learning to help researchers and organizations with limited computation power. We also present a methodology for selecting background images and discuss potential future improvements. We apply our approach to several datasets and achieved improved generalization with much lower computation. We also investigate class activation mappings (CAMs) of the trained model and observed the tendency towards looking at a bigger picture in a few class classification problems with the proposed model training methodology. Example scripts are available in the `CAM' folder of the following GitHub Repository: github.com/dipuk0506/UQ | 翻訳日:2023-05-08 15:37:28 公開日:2023-05-05 |
# マルチターン対話コンテキストを考慮したドメイン外インテント検出 Out-of-Domain Intent Detection Considering Multi-turn Dialogue Contexts ( http://arxiv.org/abs/2305.03237v1 ) ライセンス: Link先を確認 | Hao Lang, Yinhe Zheng, Binyuan Hui, Fei Huang, Yongbin Li | (参考訳) Out-of-Domain (OOD) インテント検出は実用的な対話システムには不可欠であり、通常はマルチターン対話コンテキストを検討する必要がある。
しかし、従来のOODインテント検出手法は単一の対話のみに限られていた。
本稿では,OODインテント検出タスクにおけるマルチターンコンテキストをモデル化するためのコンテキスト認識型OODインテント検出(Caro)フレームワークを提案する。
具体的には,マルチターン対話の文脈からロバスト表現を抽出するための情報ボトルネック原理に従う。
入力サンプル毎に2つの異なるビューを構築し、多視点情報ボトルネック損失を用いて意図検出に関係のない過剰な情報を除去する。
さらに,Caroにおけるラベルなしデータの利用についても検討する。
これらのラベルのないデータからOODサンプルをマイニングするために2段階のトレーニングプロセスを導入し、これらのOODサンプルを使用してブートストラップアプローチによるモデルのトレーニングを行う。
総合的な実験により、CaroはF1-OODのスコアを以前のベストメソッドと比較して29\%以上改善することで、マルチターンOOD検出タスクの最先端性能を確立している。 Out-of-Domain (OOD) intent detection is vital for practical dialogue systems, and it usually requires considering multi-turn dialogue contexts. However, most previous OOD intent detection approaches are limited to single dialogue turns. In this paper, we introduce a context-aware OOD intent detection (Caro) framework to model multi-turn contexts in OOD intent detection tasks. Specifically, we follow the information bottleneck principle to extract robust representations from multi-turn dialogue contexts. Two different views are constructed for each input sample and the superfluous information not related to intent detection is removed using a multi-view information bottleneck loss. Moreover, we also explore utilizing unlabeled data in Caro. A two-stage training process is introduced to mine OOD samples from these unlabeled data, and these OOD samples are used to train the resulting model with a bootstrapping approach. Comprehensive experiments demonstrate that Caro establishes state-of-the-art performances on multi-turn OOD detection tasks by improving the F1-OOD score of over $29\%$ compared to the previous best method. | 翻訳日:2023-05-08 15:37:18 公開日:2023-05-05 |
# NLPのアウト・オブ・ディストリビューション検出に関する調査 A Survey on Out-of-Distribution Detection in NLP ( http://arxiv.org/abs/2305.03236v1 ) ライセンス: Link先を確認 | Hao Lang, Yinhe Zheng, Yixuan Li, Jian Sun, Fei Huang, Yongbin Li | (参考訳) 現実世界における機械学習システムの信頼性と安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
過去数年間、大きな進歩を遂げてきた。
本稿では,OOD検出の最近の進歩について,特に自然言語処理に焦点をあてて概説する。
まず、OOD検出の正式な定義を提供し、いくつかの関連分野について論じる。
次に,最近のアルゴリズムを,(1)OODデータが利用可能であること,(2)OODデータが利用できないこと,(3)OODデータが利用できないこと,(3)IDラベルが利用できないこと,の3つのクラスに分類する。
第3に、データセット、アプリケーション、メトリクスを紹介します。
最後に,既存研究の概要と今後の研究課題について述べる。 Out-of-distribution (OOD) detection is essential for the reliable and safe deployment of machine learning systems in the real world. Great progress has been made over the past years. This paper presents the first review of recent advances in OOD detection with a particular focus on natural language processing approaches. First, we provide a formal definition of OOD detection and discuss several related fields. We then categorize recent algorithms into three classes according to the data they used: (1) OOD data available, (2) OOD data unavailable + in-distribution (ID) label available, and (3) OOD data unavailable + ID label unavailable. Third, we introduce datasets, applications, and metrics. Finally, we summarize existing work and present potential future research topics. | 翻訳日:2023-05-08 15:36:59 公開日:2023-05-05 |
# 単粒子-励起密度汎関数理論 Single-particle-exact density functional theory ( http://arxiv.org/abs/2305.03233v1 ) ライセンス: Link先を確認 | Martin-Isbj\"orn Trappe, Jun Hao Hue, Jonah Huang Zi Chao, Miko{\l}aj Paraniak, Djamila Hiller, Jerzy Cios{\l}owski, Berthold-Georg Englert | (参考訳) 1pEx-DFT(Single-Partic-Exact density functional theory)は、エネルギーへの単一粒子の完全な寄与を表す新しい密度汎関数法である。
本稿では,量子多体系の単粒子状態の「参加数」から密度行列を構築するための2つの新しいスキームを用いて,相互作用エネルギー汎関数をパラメータ化する。
これらの参加数は、標準軌道自由密度汎関数理論における粒子密度に似た変分変数の役割を担っている。
我々は、進化アルゴリズムの助けを借りて総エネルギーを最小化し、相互作用するフェルミ気体と原子やイオンの電子構造を相対論的補正なしで構成する原理実証シミュレーションにおいて、一般的に1パーセント精度の基底状態エネルギーを得る。
これにより, 1pex-dftの成分と実用的特徴を明らかにし, メソスコピック量子多体系をシミュレートする精度, スケーラブル, 転送可能な技術となる可能性を明らかにする。 We introduce 'single-particle-exact density functional theory' (1pEx-DFT), a novel density functional approach that represents all single-particle contributions to the energy with exact functionals. Here, we parameterize interaction energy functionals by utilizing two new schemes for constructing density matrices from 'participation numbers' of the single-particle states of quantum many-body systems. These participation numbers play the role of the variational variables akin to the particle densities in standard orbital-free density functional theory. We minimize the total energies with the help of evolutionary algorithms and obtain ground-state energies that are typically accurate at the one-percent level for our proof-of-principle simulations that comprise interacting Fermi gases as well as the electronic structure of atoms and ions, with and without relativistic corrections. We thereby illustrate the ingredients and practical features of 1pEx-DFT and reveal its potential of becoming an accurate, scalable, and transferable technology for simulating mesoscopic quantum many-body systems. | 翻訳日:2023-05-08 15:36:49 公開日:2023-05-05 |
# 神経変調ゲートトランス Neuromodulation Gated Transformer ( http://arxiv.org/abs/2305.03232v1 ) ライセンス: Link先を確認 | Kobe Knowles, Joshua Bensemann, Diana Benavides Prado, Vithya Yogarajan, Michael Witbrock, Gillian Dobbie and Yang Chen | (参考訳) 我々は,神経変調ゲートトランスフォーマー (ngt) という新しいアーキテクチャを導入し,乗法効果によるトランスフォーマーにおける神経変調の簡易な実装法を提案する。
ベースラインと比較した結果,SuperGLUEベンチマーク検証セットの平均性能が最高の結果となった。 We introduce a novel architecture, the Neuromodulation Gated Transformer (NGT), which is a simple implementation of neuromodulation in transformers via a multiplicative effect. We compare it to baselines and show that it results in the best average performance on the SuperGLUE benchmark validation sets. | 翻訳日:2023-05-08 15:36:31 公開日:2023-05-05 |
# Verify-and-Edit: 知識強化型Chain-of-Thoughtフレームワーク Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework ( http://arxiv.org/abs/2305.03268v1 ) ライセンス: Link先を確認 | Ruochen Zhao, Xingxuan Li, Shafiq Joty, Chengwei Qin, Lidong Bing | (参考訳) 大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクにおける優れたパフォーマンスを示すにつれ、最も致命的な欠点の1つは、事実の正しさの欠如である。
実際のテキストを生成するとパフォーマンスが低下するだけでなく、アプリケーションの信頼性と妥当性が低下する。
CoT(Chain-of-Thought)は、解釈可能な推論連鎖を生成することによって、複雑な推論タスクにおける信頼とモデルのパフォーマンスを向上させるが、それでも知識集約タスクにおける事実性の懸念に悩まされている。
本稿では,外的知識に基づいた後編集推論チェーンによる予測事実性の向上を目指す,cotプロンプトのための検証・編集フレームワークを提案する。
GPT-3上に構築したフレームワークは,複数のオープンドメイン質問応答タスクにおいて精度の向上を実現する。 As large language models (LLMs) have become the norm in NLP, demonstrating good performance in generation and reasoning tasks, one of its most fatal disadvantages is the lack of factual correctness. Generating unfactual texts not only leads to lower performances but also degrades the trust and validity of their applications. Chain-of-Thought (CoT) prompting improves trust and model performance on complex reasoning tasks by generating interpretable reasoning chains, but still suffers from factuality concerns in knowledge-intensive tasks. In this paper, we propose the Verify-and-Edit framework for CoT prompting, which seeks to increase prediction factuality by post-editing reasoning chains according to external knowledge. Building on top of GPT-3, our framework lead to accuracy improvements in multiple open-domain question-answering tasks. | 翻訳日:2023-05-08 15:29:45 公開日:2023-05-05 |
# ハイブリッド深層学習モデルによる地域間観光フローの予測 Forecasting Inter-Destination Tourism Flow via a Hybrid Deep Learning Model ( http://arxiv.org/abs/2305.03267v1 ) ライセンス: Link先を確認 | Hanxi Fang, Song Gao, Feng Zhang | (参考訳) 観光客はしばしば1回の旅行で複数の観光地に行く。
本論文では、観光先間の観光フロー量(itf(inter-destination tourism flow)とも呼ばれる)は、観光先の役割の分類や訪問パターンのマイニングといったタスクにおいて、観光管理に一般的に用いられている。
しかし、itfはデータ収集技術やプライバシの問題が制限されているため、実現が難しい。
itfの体積がマルチトラクションシステムの特徴にどのように影響するかを理解することは困難である。
これらの課題に対処するために,マルチソースデータセットを用いて,itf予測のためのグラフベースハイブリッドディープラーニングモデルを提案した。
このモデルは、個々の観光名所の明示的な特徴と、複数のアトラクション間の相互作用の暗黙的な特徴の両方を利用する。
北京市におけるクラウドソーシング観光客の旅行記録から抽出したitfデータを用いた実験により,提案モデルの有用性が検証された。
さらに,観光アトラクションの異なる特徴がIFFのボリュームに与える影響を,説明可能なAI技術を用いて分析する。
その結果,人気,品質,距離が3つの要因となっている。
coordinatesのような他の機能は、異なる方法で影響を与える。
予測されたitfデータは、観光管理における様々な下流タスクに利用することができる。
この研究はまた、複数のアトラクションからなる観光システムにおける観光客の訪問選択の理解を深めた。 Tourists often go to multiple tourism destinations in one trip. The volume of tourism flow between tourism destinations, also referred to as ITF (Inter-Destination Tourism Flow) in this paper, is commonly used for tourism management on tasks like the classification of destinations' roles and visitation pattern mining. However, the ITF is hard to get due to the limitation of data collection techniques and privacy issues. It is difficult to understand how the volume of ITF is influenced by features of the multi-attraction system. To address these challenges, we utilized multi-source datasets and proposed a graph-based hybrid deep learning model to predict the ITF. The model makes use of both the explicit features of individual tourism attractions and the implicit features of the interactions between multiple attractions. Experiments on ITF data extracted from crowdsourced tourists' travel notes about the city of Beijing verified the usefulness of the proposed model. Besides, we analyze how different features of tourism attractions influence the volume of ITF with explainable AI techniques. Results show that popularity, quality and distance are the main three influential factors. Other features like coordinates will also exert an influence in different ways. The predicted ITF data can be further used for various downstream tasks in tourism management. The research also deepens the understanding of tourists' visiting choice in a tourism system consisting of multiple attractions. | 翻訳日:2023-05-08 15:29:27 公開日:2023-05-05 |
# 複数特徴の融合と分類手法を用いたロバストな顔形態検出 Robust Face Morphing Attack Detection Using Fusion of Multiple Features and Classification Techniques ( http://arxiv.org/abs/2305.03264v1 ) ライセンス: Link先を確認 | Jag Mohan Singh Sushma Venkatesh Raghavendra Ramachandra | (参考訳) 顔認識システム(FRS)は新生児の画像に弱いことが示されている。
新生児の顔画像から生じるモーフィング攻撃の検出は、セキュリティと社会の両方において、望ましくない結果を避けるために重要である。
本稿では,Wavelet Scattering Network (WSN) を用いた新規なモーフィング画像検出のための参照ベース・ディファレンシャルモーフィング検出(MAD)手法を提案する。
我々は250$\times$ 250の2層wsnと層ごとに6つのウェーブレットを持つ2層wsnを提案し、577のパスを生成する。
提案手法は,42人の新生児の顔画像を用いて構築した852ボナファイド画像と2460モルファス画像を用いて検証した。
その結果,既存のd-mad法に比べて検出精度が10%以上向上した。 Face Recognition System (FRS) are shown to be vulnerable to morphed images of newborns. Detecting morphing attacks stemming from face images of newborn is important to avoid unwanted consequences, both for security and society. In this paper, we present a new reference-based/Differential Morphing Attack Detection (MAD) method to detect newborn morphing images using Wavelet Scattering Network (WSN). We propose a two-layer WSN with 250 $\times$ 250 pixels and six rotations of wavelets per layer, resulting in 577 paths. The proposed approach is validated on a dataset of 852 bona fide images and 2460 morphing images constructed using face images of 42 unique newborns. The obtained results indicate a gain of over 10\% in detection accuracy over other existing D-MAD techniques. | 翻訳日:2023-05-08 15:29:09 公開日:2023-05-05 |
# 認知負荷を限定したベイズ強化学習 Bayesian Reinforcement Learning with Limited Cognitive Load ( http://arxiv.org/abs/2305.03263v1 ) ライセンス: Link先を確認 | Dilip Arumugam, Mark K. Ho, Noah D. Goodman, Benjamin Van Roy | (参考訳) すべての生物学的および人工的なエージェントは、情報を処理する能力に制限のある決定を学習し、行う必要がある。
このように、適応行動の一般的な理論は、エージェントの学習履歴、決定、およびキャパシティ制約の間の複雑な相互作用を考慮すべきである。
コンピュータ科学における最近の研究は、強化学習、ベイズ的意思決定、レート歪曲理論からアイデアをブリッジすることで、これらの力学を形作る原理を明確にし始めている。
この研究は、処理制約が学習と行動選択に与える影響をモデル化するための統一規範的枠組みである、容量制限ベイズ強化学習の説明を提供する。
本稿では,近年のアルゴリズムと理論的結果について,認知・行動科学における問題研究にこれらのアイデアをどのように適用できるかについて,特に注目する。 All biological and artificial agents must learn and make decisions given limits on their ability to process information. As such, a general theory of adaptive behavior should be able to account for the complex interactions between an agent's learning history, decisions, and capacity constraints. Recent work in computer science has begun to clarify the principles that shape these dynamics by bridging ideas from reinforcement learning, Bayesian decision-making, and rate-distortion theory. This body of work provides an account of capacity-limited Bayesian reinforcement learning, a unifying normative framework for modeling the effect of processing constraints on learning and action selection. Here, we provide an accessible review of recent algorithms and theoretical results in this setting, paying special attention to how these ideas can be applied to studying questions in the cognitive and behavioral sciences. | 翻訳日:2023-05-08 15:28:47 公開日:2023-05-05 |
# デッドエンドからの会話救助:タスク指向の対話政策最適化のための効率的な探索 Rescue Conversations from Dead-ends: Efficient Exploration for Task-oriented Dialogue Policy Optimization ( http://arxiv.org/abs/2305.03262v1 ) ライセンス: Link先を確認 | Yangyang Zhao, Zhenyu Wang, Mehdi Dastani, Shihan Wang | (参考訳) 深層強化学習を用いた対話政策の訓練には,環境の探索が必要となる。
無駄な不正な探索の量が学習を非効率にする。
本稿では,無効な探索の重要な理由であるデッドエンドを見つけ,定義する。
会話がデッドエンド状態に入ると、その後に行われたアクションに関係なく、エージェントが終了状態または最大ターンに達するまでデッドエンドの軌道を続ける。
本稿では,初期デッドエンド状態をタイムリーかつ効率的な方法で検出し,探索方向を誘導・補正するための救助行動を提供する,デッドエンド復活(DDR)アルゴリズムを提案する。
対話政策が繰り返し同じ過ちを犯さないようにするため、ddrはデッドエンド状態を含む関連体験を追加して対話データ拡張を行う。
まず,様々な領域の対話データセット上で実験結果を報告し,デッドエンド検出の信頼性を検証し,提案手法の有効性と汎用性を示す。 Training a dialogue policy using deep reinforcement learning requires a lot of exploration of the environment. The amount of wasted invalid exploration makes their learning inefficient. In this paper, we find and define an important reason for the invalid exploration: dead-ends. When a conversation enters a dead-end state, regardless of the actions taken afterward, it will continue in a dead-end trajectory until the agent reaches a termination state or maximum turn. We propose a dead-end resurrection (DDR) algorithm that detects the initial dead-end state in a timely and efficient manner and provides a rescue action to guide and correct the exploration direction. To prevent dialogue policies from repeatedly making the same mistake, DDR also performs dialogue data augmentation by adding relevant experiences containing dead-end states. We first validate the dead-end detection reliability and then demonstrate the effectiveness and generality of the method by reporting experimental results on several dialogue datasets from different domains. | 翻訳日:2023-05-08 15:28:22 公開日:2023-05-05 |
# 量子最適制御のための直接コロケーション Direct Collocation for Quantum Optimal Control ( http://arxiv.org/abs/2305.03261v1 ) ライセンス: Link先を確認 | Aaron Trowbridge, Aditya Bhardwaj, Kevin He, David I. Schuster, and Zachary Manchester | (参考訳) 本稿では,ロボット工学や航空宇宙工学でよく用いられる軌道最適化手法であるダイレクト・コロケーションを量子最適制御(QOC)に適用し,この手法をPade Integrator Collocation (PICO)と呼ぶ。
このアプローチは、状態と制御に対する一般的な非線形制約をサポートし、最先端の大規模非線形プログラミング解法を生かし、GRAPEやCRABのような標準手法と比較して収束特性が優れている。
PICOはまた、新しい自由時間および最小時間制御問題の定式化を可能にする。
シミュレーションおよびハードウェア上でのPICOの性能を3次元回路キャビティ量子電磁力学システムを用いて実証する。 We present an adaptation of direct collocation -- a trajectory optimization method commonly used in robotics and aerospace applications -- to quantum optimal control (QOC); we refer to this method as Pade Integrator COllocation (PICO). This approach supports general nonlinear constraints on the states and controls, takes advantage of state-of-the-art large-scale nonlinear programming solvers, and has superior convergence properties compared to standard approaches like GRAPE and CRAB. PICO also allows for the formulation of novel free-time and minimum-time control problems -- crucial for realizing high-performance quantum computers when the optimal pulse duration is not known a priori. We demonstrate PICO's performance both in simulation and on hardware with a 3D circuit cavity quantum electrodynamics system. | 翻訳日:2023-05-08 15:27:57 公開日:2023-05-05 |
# メソスコピック光パラメトリック相互作用を用いた立方体量子非退化ハミルトニアン Engineering cubic quantum nondemolition Hamiltonian with mesoscopic optical parametric interactions ( http://arxiv.org/abs/2305.03260v1 ) ライセンス: Link先を確認 | Ryotatsu Yanagimoto, Rajveer Nehra, Edwin Ng, Alireza Marandi, Hideo Mabuchi | (参考訳) 光学パラメトリック相互作用を用いた立方量子非復調(QND)ハミルトニアンを実現する手法を提案する。
我々は, 立方体QNDハミルトニアンの下で, 非線形媒質で伝播する強圧縮基本場と第二高調波場が効果的に進化することを示す。
このようなハミルトニアンの非ガウジアン量子状態、例えばschr\"odinger cat状態や立方相状態に対する汎用性に注目した。
補助高利得位相感光増幅器を用いて, 全検出非効率に対して高い耐性を持つことを示す。
提案手法は, メソスコピック光子数系におけるパラメトリック相互作用を包含し, 単一光子カップリング速度から有効非線形カップリングを著しく向上するとともに, 光子伝播損失に対抗する強力な手段を提供する。
実験結果から、近い将来、特にパルス非線形ナノフォトニクスでこの手法が実現可能である可能性が示唆された。 We propose a scheme to realize cubic quantum nondemolition (QND) Hamiltonian with optical parametric interactions. We show that strongly squeezed fundamental and second harmonic fields propagating in a $\chi^{(2)}$ nonlinear medium effectively evolve under a cubic QND Hamiltonian. We highlight the versatility offered by such Hamiltonian for engineering non-Gaussian quantum states, such as Schr\"odinger cat states and cubic phase states. We show that our scheme can be highly tolerant against overall detection inefficiency with an auxiliary high-gain phase-sensitive optical amplifier. Our proposal involves parametric interactions in a mesoscopic photon-number regime, significantly enhancing the effective nonlinear coupling from the nat\"ive single-photon coupling rate while providing powerful means to fight photon propagation loss. Experimental numbers suggest that our scheme might be feasible in the near future, particularly with pulsed nonlinear nanophotonics. | 翻訳日:2023-05-08 15:27:37 公開日:2023-05-05 |
# rgb-d意味セグメンテーションに基づく服の把持と展開 Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation ( http://arxiv.org/abs/2305.03259v1 ) ライセンス: Link先を確認 | Xingyu Zhu, Xin Wang, Jonathan Freer, Hyung Jin Chang, Yixing Gao | (参考訳) 服の把持と展開は、ロボット支援ドレッシングの核となるステップである。
既存の作品の多くは、服の奥行き画像を利用して深層学習に基づくモデルを訓練し、適切な把持点を認識する。
これらの手法はしばしば物理エンジンを用いて深度画像の合成を行い、実際のラベル付きデータ収集のコストを削減する。
しかし、合成画像と実画像の間の自然な領域ギャップは、しばしば実際のデータ上でこれらのメソッドのパフォーマンスを低下させる。
さらに、これらのアプローチは、着物自体に把持ポイントが混入するシナリオでしばしば苦労する。
以上の課題に対処するために,セマンティックセグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
深度画像のみを使用する代わりに,フラクタル・クロス・フュージョン(FCF)モジュールがRGBと深度データを融合するネットワークへの入力として,フラクタル幾何に基づく地球規模の複雑な特徴を考慮したRGB画像を利用する。
さらに,実データ収集のコストを削減するために,色と幾何学的変換がラベル対応を維持しながらrgbと深度データを同時に処理する,敵対的戦略に基づくデータ拡張手法を提案する。
最後に,衣服の平坦性尺度に基づくセグメント領域からの地点選択戦略を付加し,その把握方向を考慮しつつ,意味セグメンテーションの観点から衣服の把握と展開を行うパイプラインを提案する。
公開データセットNYUDv2でBiFCNetを評価し,現在の最先端モデルに匹敵する性能を得た。
また,baxterロボットにモデルをデプロイし,アブレーション実験の一環として広範囲な把握および展開実験を行い,84%の成功率を得た。 Clothes grasping and unfolding is a core step in robotic-assisted dressing. Most existing works leverage depth images of clothes to train a deep learning-based model to recognize suitable grasping points. These methods often utilize physics engines to synthesize depth images to reduce the cost of real labeled data collection. However, the natural domain gap between synthetic and real images often leads to poor performance of these methods on real data. Furthermore, these approaches often struggle in scenarios where grasping points are occluded by the clothing item itself. To address the above challenges, we propose a novel Bi-directional Fractal Cross Fusion Network (BiFCNet) for semantic segmentation, enabling recognition of graspable regions in order to provide more possibilities for grasping. Instead of using depth images only, we also utilize RGB images with rich color features as input to our network in which the Fractal Cross Fusion (FCF) module fuses RGB and depth data by considering global complex features based on fractal geometry. To reduce the cost of real data collection, we further propose a data augmentation method based on an adversarial strategy, in which the color and geometric transformations simultaneously process RGB and depth data while maintaining the label correspondence. Finally, we present a pipeline for clothes grasping and unfolding from the perspective of semantic segmentation, through the addition of a strategy for grasp point selection from segmentation regions based on clothing flatness measures, while taking into account the grasping direction. We evaluate our BiFCNet on the public dataset NYUDv2 and obtained comparable performance to current state-of-the-art models. We also deploy our model on a Baxter robot, running extensive grasping and unfolding experiments as part of our ablation studies, achieving an 84% success rate. | 翻訳日:2023-05-08 15:27:19 公開日:2023-05-05 |
# 中国ハムスター卵巣細胞バイオリアクターのデータ駆動および物理インフォームドモデリング Data-driven and Physics Informed Modelling of Chinese Hamster Ovary Cell Bioreactors ( http://arxiv.org/abs/2305.03257v1 ) ライセンス: Link先を確認 | Tianqi Cui, Tom S. Bertalan, Nelson Ndahiro, Pratik Khare, Michael Betenbaugh, Costas Maranas, Ioannis G. Kevrekidis | (参考訳) フェドバッチ培養は哺乳類の細胞培養を用いた生物生産のための確立された操作モードである。
定量的モデリングは、いくつかの重要な反応ステップの運動量と、フラックスバランス解析を用いた最適化駆動代謝束の割り当ての両方を統合する。
本稿では,プロセスデータからチャイニーズハムスター卵巣(cho)細胞バイオリアクターの動的進化モデルを学ぶために,物理的に変形したデータ駆動ハイブリッドモデル(gray box)を提案する。
このアプローチには物理法則(例えば質量収支)と代謝束の運動論的表現が組み込まれている。
機械学習(ML)が使われる。
(a)進化方程式を直接学習する(ブラックボックスモデリング)
(b)未知の物理パラメータ ("white-box"パラメータフィッティング) または --重要 --
(c)部分未知の運動式(グレーボックスモデリング)を学習する。
我々は、過度に決定された代謝生物物理システムの凸最適化ステップを、差別化可能なフィードフォワード層としてアーキテクチャにコード化し、部分的な物理知識とデータ駆動機械学習を結びつける。 Fed-batch culture is an established operation mode for the production of biologics using mammalian cell cultures. Quantitative modeling integrates both kinetics for some key reaction steps and optimization-driven metabolic flux allocation, using flux balance analysis; this is known to lead to certain mathematical inconsistencies. Here, we propose a physically-informed data-driven hybrid model (a "gray box") to learn models of the dynamical evolution of Chinese Hamster Ovary (CHO) cell bioreactors from process data. The approach incorporates physical laws (e.g. mass balances) as well as kinetic expressions for metabolic fluxes. Machine learning (ML) is then used to (a) directly learn evolution equations (black-box modelling); (b) recover unknown physical parameters ("white-box" parameter fitting) or -- importantly -- (c) learn partially unknown kinetic expressions (gray-box modelling). We encode the convex optimization step of the overdetermined metabolic biophysical system as a differentiable, feed-forward layer into our architectures, connecting partial physical knowledge with data-driven machine learning. | 翻訳日:2023-05-08 15:26:51 公開日:2023-05-05 |
# スティル化データ・テキスト・ジェネレーション : 電子商取引分野を事例として Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain ( http://arxiv.org/abs/2305.03256v1 ) ライセンス: Link先を確認 | Liqiang Jing and Xuemeng Song and Xuming Lin and Zhongzhou Zhao and Wei Zhou and Liqiang Nie | (参考訳) 既存のデータ-テキスト生成の取り組みは、主にテーブルや属性-値ペアのような非言語的な入力データから一貫性のあるテキストを生成することに重点を置いていますが、異なるアプリケーションシナリオは異なるスタイルのテキストを必要とするかもしれません。
そこで我々は,与えられた非言語データに対して,特定のスタイルに従ってコヒーレントなテキストを生成することを目的とした,スタイリズド・データ・ツー・テキスト生成という新しいタスクを定義した。
生成したテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題がある。
そこで,これらの課題に対処するために,論理計画エンハンスドデータ埋め込み,マスクベーススタイル埋め込み,非バイアススタイリッシュテキスト生成という3つのコンポーネントからなる,新しいスタイリッシュなデータ対テキスト生成モデルstyled2tを提案する。
第1のコンポーネントでは,属性整理のためのグラフ誘導論理プランナを導入し,生成したテキストの論理を確実にする。
第2のコンポーネントでは、与えられた非構造化スタイル参照から必須のスタイル信号を抽出するために、特徴レベルマスクベースのスタイル埋め込みを考案する。
最後に、疑似三重項拡張を利用して偏りのないテキスト生成を行い、疑似サンプルの品質を保証するために多条件信頼割当関数を設計する。
タオバオから新たに収集したデータセットを広範囲に実験した結果,既存の手法よりも優れたモデルが得られた。 Existing data-to-text generation efforts mainly focus on generating a coherent text from non-linguistic input data, such as tables and attribute-value pairs, but overlook that different application scenarios may require texts of different styles. Inspired by this, we define a new task, namely stylized data-to-text generation, whose aim is to generate coherent text for the given non-linguistic data according to a specific style. This task is non-trivial, due to three challenges: the logic of the generated text, unstructured style reference, and biased training samples. To address these challenges, we propose a novel stylized data-to-text generation model, named StyleD2T, comprising three components: logic planning-enhanced data embedding, mask-based style embedding, and unbiased stylized text generation. In the first component, we introduce a graph-guided logic planner for attribute organization to ensure the logic of generated text. In the second component, we devise feature-level mask-based style embedding to extract the essential style signal from the given unstructured style reference. In the last one, pseudo triplet augmentation is utilized to achieve unbiased text generation, and a multi-condition based confidence assignment function is designed to ensure the quality of pseudo samples. Extensive experiments on a newly collected dataset from Taobao have been conducted, and the results show the superiority of our model over existing methods. | 翻訳日:2023-05-08 15:26:34 公開日:2023-05-05 |
# 双極子-双極子相互作用と外部駆動場に基づく量子電池 Quantum battery based on dipole-dipole interaction and external driving field ( http://arxiv.org/abs/2305.03294v1 ) ライセンス: Link先を確認 | Wuji Zhang, Shuyue Wang, Chunfeng Wu, and Gangcheng Wang | (参考訳) ディッケモデルは量子光学の基本モデルであり、量子空洞場と2レベル原子の大きなアンサンブルの間の相互作用を記述する。
本研究では、双極子-双極子相互作用と外部駆動場を有する拡張ディッケモデルを考慮し、効率的な荷電量子電池を提案する。
我々は、原子間相互作用と駆動磁場が充電過程における量子電池の性能に与える影響に注目し、最大貯蔵エネルギーが重要な現象であることを示す。
最大蓄積エネルギーと最大チャージパワーは原子数を変化させて調べられる。
原子とキャビティの結合がdicke量子電池と比べてそれほど強くない場合、そのような量子電池はより安定し、より高速に充電できる。
さらに、最大充電力は超線型スケーリング関係$P_{\rm max}\varpropto\beta N^{\alpha}$をほぼ満足し、量子的優位性$\alpha=1.6$はパラメータを最適化することで到達できる。 The Dicke model is a fundamental model in quantum optics, which describes the interaction between quantum cavity field and a large ensemble of two-level atoms. In this work, we propose an efficient charging quantum battery achieved by considering an extension Dicke model with dipole-dipole interaction and an external driving field. We focus on the influence of the atomic interaction and the driving field on the performance of the quantum battery during the charging process and find that the maximum stored energy exhibits a critical phenomenon. The maximum stored energy and maximum charging power are investigated by varying the number of atoms. When the coupling between atoms and cavity is not very strong, compared to the Dicke quantum battery, such quantum battery can achieve more stable and faster charging. In addition, the maximum charging power approximately satisfies a superlinear scaling relation $P_{\rm max}\varpropto\beta N^{\alpha}$, where the quantum advantage $\alpha=1.6$ can be reached via optimizing the parameters. | 翻訳日:2023-05-08 15:20:27 公開日:2023-05-05 |
# FedNC:ネットワークコーディングにヒントを得たセキュアで効率的なフェデレーション学習手法 FedNC: A Secure and Efficient Federated Learning Method Inspired by Network Coding ( http://arxiv.org/abs/2305.03292v1 ) ライセンス: Link先を確認 | Yuchen Shi, Zheqi Zhu, Pingyi Fan, Khaled B. Letaief and Chenghui Peng | (参考訳) Federated Learning(FL)は有望な分散学習メカニズムであり、プライバシー侵害とシステム効率という2つの大きな課題に直面している。
本研究では,ネットワーク情報理論の観点からFLシステムを再認識し,ネットワーク符号化(NC)にインスパイアされたオリジナルのFL通信フレームワークであるFedNCを定式化する。
fedncの主な考え方は、元のパケットをランダムに線形に組み合わせて、さらに集約するためにアップロードする前にローカルモデルの情報を混合することである。
符号化方式の利点により、fencはセキュリティ、スループット、ロバスト性など、いくつかの重要な方法で従来のflの性能を改善していることを示している。
私たちの知る限りでは、これが NC がFLで導入された最初のフレームワークです。
flが実用的なネットワークフレームワークで進化を続けるにつれ、fedncに基づいてさらに多くのアプリケーションや変種を設計できる。 Federated Learning (FL) is a promising distributed learning mechanism which still faces two major challenges, namely privacy breaches and system efficiency. In this work, we reconceptualize the FL system from the perspective of network information theory, and formulate an original FL communication framework, FedNC, which is inspired by Network Coding (NC). The main idea of FedNC is mixing the information of the local models by making random linear combinations of the original packets, before uploading for further aggregation. Due to the benefits of the coding scheme, both theoretical and experimental analysis indicate that FedNC improves the performance of traditional FL in several important ways, including security, throughput, and robustness. To the best of our knowledge, this is the first framework where NC is introduced in FL. As FL continues to evolve within practical network frameworks, more applications and variants can be further designed based on FedNC. | 翻訳日:2023-05-08 15:20:09 公開日:2023-05-05 |
# 社会工学的民俗理論に基づくデジタルプラットフォームの設計と運用 The Design and Operation of Digital Platform under Sociotechnical Folk Theories ( http://arxiv.org/abs/2305.03291v1 ) ライセンス: Link先を確認 | Jordan W. Suchow, Lea Burton, Vahid Ashrafimoghari | (参考訳) 本稿では,プラットフォーム設計者,所有者,あるいはオペレータが,プラットフォームを社会工学システムとして持つ民俗理論を表現する計算認知モデルを利用して,デジタルプラットフォームの設計と運用を改善する方法について考察する。
私たちはRedditというソーシャルメディアプラットフォームで、オーナーや管理者がシャドウバニングを多用している。これは透明でないコンテンツモデレーションメカニズムで、ユーザーの投稿やコメントをフィルタリングして、仲間のコミュニティメンバーや一般人が見ることができないようにします。
redditの設計と運用が、メカニズムが実際に呼び出されていない場合にシャドウバンニングに起因していると証明した後、シャドウバンニングの結果に関するユーザの民俗理論の計算的認知モデルを開発し、ユーザーがシャドウバンにオンプラットフォーム観察を分類する時期を予測する。
このモデルは、プラットフォームデザイナー、オーナー、オペレーターが利用可能な介入の能力を評価し、これらの誤った疑いの発生を減らすために使用される。
最後に,デジタルプラットフォームの設計と運用におけるこのアプローチの意義について考察する。 We consider the problem of how a platform designer, owner, or operator can improve the design and operation of a digital platform by leveraging a computational cognitive model that represents users's folk theories about a platform as a sociotechnical system. We do so in the context of Reddit, a social media platform whose owners and administrators make extensive use of shadowbanning, a non-transparent content moderation mechanism that filters a user's posts and comments so that they cannot be seen by fellow community members or the public. After demonstrating that the design and operation of Reddit have led to an abundance of spurious suspicions of shadowbanning in case the mechanism was not in fact invoked, we develop a computational cognitive model of users's folk theories about the antecedents and consequences of shadowbanning that predicts when users will attribute their on-platform observations to a shadowban. The model is then used to evaluate the capacity of interventions available to a platform designer, owner, and operator to reduce the incidence of these false suspicions. We conclude by considering the implications of this approach for the design and operation of digital platforms at large. | 翻訳日:2023-05-08 15:19:54 公開日:2023-05-05 |
# BadSAM: 屋内攻撃によるSAMのセキュリティ脆弱性を探る BadSAM: Exploring Security Vulnerabilities of SAM via Backdoor Attacks ( http://arxiv.org/abs/2305.03289v1 ) ライセンス: Link先を確認 | Zihan Guan, Mengxuan Hu, Zhongliang Zhou, Jielu Zhang, Sheng Li, Ninghao Liu | (参考訳) 近年, 画像分割基盤モデルとして, 様々な下流タスクの性能が強いことから, SAM(Segment Anything Model)が注目されている。
しかし,下流の課題に直面する場合,SAMは必ずしも満足に機能しないことがわかった。
これにより、ダウンストリームユーザは、これらのダウンストリームタスクに適応可能な、カスタマイズされたSAMモデルを要求するようになった。
本稿では,画像分割基盤モデルに対する最初のバックドア攻撃であるBadSAMを紹介する。
CAMOデータセットの予備実験により,BadSAMの有効性が示された。 Recently, the Segment Anything Model (SAM) has gained significant attention as an image segmentation foundation model due to its strong performance on various downstream tasks. However, it has been found that SAM does not always perform satisfactorily when faced with challenging downstream tasks. This has led downstream users to demand a customized SAM model that can be adapted to these downstream tasks. In this paper, we present BadSAM, the first backdoor attack on the image segmentation foundation model. Our preliminary experiments on the CAMO dataset demonstrate the effectiveness of BadSAM. | 翻訳日:2023-05-08 15:19:33 公開日:2023-05-05 |
# 専門家のガウス混合におけるソフトマックスゲーティングのデミスティフィケーション Demystifying Softmax Gating in Gaussian Mixture of Experts ( http://arxiv.org/abs/2305.03288v1 ) ライセンス: Link先を確認 | Huy Nguyen and TrungTin Nguyen and Nhat Ho | (参考訳) ソフトマックスゲーティングガウシアン混合の専門家のパラメータ推定の理解は、文学における長年の未解決問題のままである。
主な原因は、ソフトマックスゲーティングに関連する3つの基本的な理論的課題である。
(i)パラメータの翻訳までしか識別できないこと。
(ii)ガウス分布におけるソフトマックスゲーティングと専門家関数との偏微分方程式による内在的相互作用
(3) ガウスの混合を測るソフトマックスの条件密度の数値と分母の間の複素依存性。
これらの課題を,パラメータ間の新しいボノノイ損失関数を提案し,パラメータ推定のための最大確率推定器(mle)の収束率を確立することで解決する。
専門家の数が不明で、過度に特定された場合、mleの速度と多項式方程式系の可解性問題との関係を示す。 Understanding parameter estimation of softmax gating Gaussian mixture of experts has remained a long-standing open problem in the literature. It is mainly due to three fundamental theoretical challenges associated with the softmax gating: (i) the identifiability only up to the translation of the parameters; (ii) the intrinsic interaction via partial differential equation between the softmax gating and the expert functions in Gaussian distribution; (iii) the complex dependence between the numerator and denominator of the conditional density of softmax gating Gaussian mixture of experts. We resolve these challenges by proposing novel Vononoi loss functions among parameters and establishing the convergence rates of the maximum likelihood estimator (MLE) for solving parameter estimation in these models. When the number of experts is unknown and over-specified, our findings show a connection between the rate of MLE and a solvability problem of a system of polynomial equations. | 翻訳日:2023-05-08 15:19:25 公開日:2023-05-05 |
# 複数プロンプト知識に基づく低リソース多粒度学術関数認識 Low-Resource Multi-Granularity Academic Function Recognition Based on Multiple Prompt Knowledge ( http://arxiv.org/abs/2305.03287v1 ) ライセンス: Link先を確認 | Jiawei Liu, Zi Xiong, Yi Jiang, Yongqiang Ma, Wei Lu, Yong Huang, Qikai Cheng | (参考訳) 微調整事前学習言語モデル(PLM)、例えばSciBERTは、科学領域における様々なNLPタスクにおける最先端のパフォーマンスを達成するために、多くの注釈付きデータを必要とする。
しかし、科学的NLPタスクのための微調整データを取得することは依然として困難でコストがかかる。
本稿では,近年の素早い学習の進歩に触発されて,注釈付きデータへの依存を緩和し,少数のラベル付き例で多粒度学術関数認識タスクの性能を向上させる半教師付き手法であるMix Prompt Tuning(MPT)を提案する。
具体的には,手作業によるプロンプトテンプレートと自動学習された継続的プロンプトテンプレートを組み合わせることにより,plmの知識を最大限活用できるマルチパースペクティブ表現を提供する。
これらのプロンプトテンプレートと微調整されたplmに基づいて、多数の擬似ラベルがラベルなしの例に割り当てられる。
最後に擬似トレーニングセットを用いてPLMを微調整する。
本手法は,コンピュータサイエンス領域と生物医学領域のデータセットを用いて,引用関数,抽象文関数,キーワード関数を含む3つの異なる粒度の学術関数認識タスクについて評価する。
大規模な実験により,本手法の有効性と,強いベースラインに対する統計的に有意な改善が示された。
特に、低リソース環境では、マクロf1スコアが微調整と比較して平均5%増加し、マクロf1スコアが6%上昇する。
さらにMPTは他の低リソースの科学的分類タスクにも容易に適用できる一般的な手法である。 Fine-tuning pre-trained language models (PLMs), e.g., SciBERT, generally requires large numbers of annotated data to achieve state-of-the-art performance on a range of NLP tasks in the scientific domain. However, obtaining the fine-tune data for scientific NLP task is still challenging and expensive. Inspired by recent advancement in prompt learning, in this paper, we propose the Mix Prompt Tuning (MPT), which is a semi-supervised method to alleviate the dependence on annotated data and improve the performance of multi-granularity academic function recognition tasks with a small number of labeled examples. Specifically, the proposed method provides multi-perspective representations by combining manual prompt templates with automatically learned continuous prompt templates to help the given academic function recognition task take full advantage of knowledge in PLMs. Based on these prompt templates and the fine-tuned PLM, a large number of pseudo labels are assigned to the unlabeled examples. Finally, we fine-tune the PLM using the pseudo training set. We evaluate our method on three academic function recognition tasks of different granularity including the citation function, the abstract sentence function, and the keyword function, with datasets from computer science domain and biomedical domain. Extensive experiments demonstrate the effectiveness of our method and statistically significant improvements against strong baselines. In particular, it achieves an average increase of 5% in Macro-F1 score compared with fine-tuning, and 6% in Macro-F1 score compared with other semi-supervised method under low-resource settings. In addition, MPT is a general method that can be easily applied to other low-resource scientific classification tasks. | 翻訳日:2023-05-08 15:19:12 公開日:2023-05-05 |
# タスク制御による複合動作学習 Composite Motion Learning with Task Control ( http://arxiv.org/abs/2305.03286v1 ) ライセンス: Link先を確認 | Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas | (参考訳) 物理シミュレーション文字に対する合成およびタスク駆動動作制御のための深層学習法を提案する。
全身運動を模倣した強化学習を用いた既存のデータ駆動アプローチとは対照的に,複数の参照動作から特定の身体部位の分離動作を同時にかつ直接的に学習する。
このプロセスでは、学習のための複合参照運動を生成するための手作業は不要である。
その代わり、制御ポリシーは、合成運動をいかに自動的に組み合わせるかをそれ自体で探求する。
さらに、複数のタスク固有の報酬を考慮し、単一のマルチ目的制御ポリシーをトレーニングします。
そこで本研究では,複数音源からの異なる動きの学習と,複数の目標指向制御目標とを適応的にバランスさせる多目的学習フレームワークを提案する。
さらに, 複合動作がより単純な行動の増進である場合, 段階的に複合制御ポリシーを訓練する方法を導入し, 事前学習された政策をメタポリシーとして再利用し, メタポリシーを新しい複合タスクに適用する協調政策を訓練する。
複合運動模倣と複数目標指向制御を併用した多目的多目的課題に対して,本手法の適用性を示す。 We present a deep learning method for composite and task-driven motion control for physically simulated characters. In contrast to existing data-driven approaches using reinforcement learning that imitate full-body motions, we learn decoupled motions for specific body parts from multiple reference motions simultaneously and directly by leveraging the use of multiple discriminators in a GAN-like setup. In this process, there is no need of any manual work to produce composite reference motions for learning. Instead, the control policy explores by itself how the composite motions can be combined automatically. We further account for multiple task-specific rewards and train a single, multi-objective control policy. To this end, we propose a novel framework for multi-objective learning that adaptively balances the learning of disparate motions from multiple sources and multiple goal-directed control objectives. In addition, as composite motions are typically augmentations of simpler behaviors, we introduce a sample-efficient method for training composite control policies in an incremental manner, where we reuse a pre-trained policy as the meta policy and train a cooperative policy that adapts the meta one for new composite tasks. We show the applicability of our approach on a variety of challenging multi-objective tasks involving both composite motion imitation and multiple goal-directed control. | 翻訳日:2023-05-08 15:18:44 公開日:2023-05-05 |
# FM-ViT:対面防止用フレキシブルモード視覚変換器 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing ( http://arxiv.org/abs/2305.03277v1 ) ライセンス: Link先を確認 | Ajian Liu, Zichang Tan, Zitong Yu, Chenxu Zhao, Jun Wan, Yanyan Liang, Zhen Lei, Du Zhang, Stan Z. Li, Guodong Guo | (参考訳) 便利なマルチモーダル(RGB-D)センサーが利用可能になったことで、顔の反偽造研究が急増した。
しかしながら、現在のマルチモーダル顔提示攻撃検出(PAD)には、(1)マルチモーダル融合に基づくフレームワークは、トレーニング入力と整合したモダリティを提供する必要があり、デプロイメントシナリオを著しく制限する。
2) 高忠実度データセットにおけるConvNetモデルの性能はますます制限されている。
本稿では,マルチモーダルデータを利用することで,任意の単一モーダル(すなわちrgb)攻撃シナリオを柔軟に対象とする,フレキシブルモダルビジョントランスフォーマタ(fm-vit)という,純粋トランスフォーマティブベースのフレームワークを提案する。
具体的には,MMA(Multi-headed Mutual-Attention)とFusion-Attention(MFA)という2つのカスケードされた注目からなり,各モジュールブランチが情報的パッチトークンから潜在的な特徴をマイニングし,それぞれのCLSトークンのモダリティ情報を豊かにすることにより,モダリティ非依存の生きやすさの特徴を学習する。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークを大きなマージンで上回り、より小さなFLOPとモデルパラメータで導入されたマルチモーダルフレームワークに近づいた。 The availability of handy multi-modal (i.e., RGB-D) sensors has brought about a surge of face anti-spoofing research. However, the current multi-modal face presentation attack detection (PAD) has two defects: (1) The framework based on multi-modal fusion requires providing modalities consistent with the training input, which seriously limits the deployment scenario. (2) The performance of ConvNet-based model on high fidelity datasets is increasingly limited. In this work, we present a pure transformer-based framework, dubbed the Flexible Modal Vision Transformer (FM-ViT), for face anti-spoofing to flexibly target any single-modal (i.e., RGB) attack scenarios with the help of available multi-modal data. Specifically, FM-ViT retains a specific branch for each modality to capture different modal information and introduces the Cross-Modal Transformer Block (CMTB), which consists of two cascaded attentions named Multi-headed Mutual-Attention (MMA) and Fusion-Attention (MFA) to guide each modal branch to mine potential features from informative patch tokens, and to learn modality-agnostic liveness features by enriching the modal information of own CLS token, respectively. Experiments demonstrate that the single model trained based on FM-ViT can not only flexibly evaluate different modal samples, but also outperforms existing single-modal frameworks by a large margin, and approaches the multi-modal frameworks introduced with smaller FLOPs and model parameters. | 翻訳日:2023-05-08 15:18:24 公開日:2023-05-05 |
# 露出テキスト生成:模倣,検索,パラフレーズ Expository Text Generation: Imitate, Retrieve, Paraphrase ( http://arxiv.org/abs/2305.03276v1 ) ライセンス: Link先を確認 | Nishant Balepur, Jie Huang, Kevin Chen-Chuan Chang | (参考訳) 展示資料は、複雑な情報を読者に伝えるための重要なリソースである。
その有用性にも拘わらず、手書きの例証書を書くことは、関心領域の知識、注意深いコンテンツ計画、複数の情報源からの情報を合成する能力を必要とする時間と労力を要するプロセスである。
そこで,これらの負担を軽減するために,知識ソースから正確かつ情報に富んだ文書を自動的に生成することを目的とした文書生成作業を紹介する。
我々は、言語モデルの限界を克服し、コンテンツ計画、事実選択、言い換えのステップを別々に取り組んだ反復的フレームワークであるIRPを開発することで、我々の課題を解決する。
3つの多様なデータセットの実験を通して、IRPは、読者に正確に知らせる高品質な実証文書を生成することを示した。 Expository documents are vital resources for conveying complex information to readers. Despite their usefulness, writing expository documents by hand is a time-consuming and labor-intensive process that requires knowledge of the domain of interest, careful content planning, and the ability to synthesize information from multiple sources. To ease these burdens, we introduce the task of expository text generation, which seeks to automatically generate an accurate and informative expository document from a knowledge source. We solve our task by developing IRP, an iterative framework that overcomes the limitations of language models and separately tackles the steps of content planning, fact selection, and rephrasing. Through experiments on three diverse datasets, we demonstrate that IRP produces high-quality expository documents that accurately inform readers. | 翻訳日:2023-05-08 15:17:48 公開日:2023-05-05 |
# 視覚トランスフォーマーを用いた意味セグメンテーション:調査 Semantic Segmentation using Vision Transformers: A survey ( http://arxiv.org/abs/2305.03273v1 ) ライセンス: Link先を確認 | Hans Thisanke, Chamli Deshan, Kavindu Chamith, Sachith Seneviratne, Rajith Vidanaarachchi, Damayanthi Herath | (参考訳) セマンティックセグメンテーションは、土地被覆分析、自律運転、医療画像解析など、様々な分野に幅広い応用がある。
convolutional neural networks (cnn) と vision transformers (vits) はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しているが、パッチ分割方式のため、ViTは一般的な目的のバックボーンではないため、画像分割やオブジェクト検出といった密集した予測タスクには直接適用できない。
本稿では、セマンティックセグメンテーションに使用できる異なるViTアーキテクチャのいくつかと、それらの進化がどのように上記の課題に対処したかについて論じる。
ViTの台頭と高い成功率によるパフォーマンスは、様々なコンピュータビジョンタスクにおける伝統的な畳み込みニューラルネットワークをゆっくりと置き換える動機となった。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
これは、セマンティックセグメンテーションで実施された実装に関する知識をコミュニティに提供し、ViTを使ってより効率的な方法論を発見することに価値がある。 Semantic segmentation has a broad range of applications in a variety of domains including land coverage analysis, autonomous driving, and medical image analysis. Convolutional neural networks (CNN) and Vision Transformers (ViTs) provide the architecture models for semantic segmentation. Even though ViTs have proven success in image classification, they cannot be directly applied to dense prediction tasks such as image segmentation and object detection since ViT is not a general purpose backbone due to its patch partitioning scheme. In this survey, we discuss some of the different ViT architectures that can be used for semantic segmentation and how their evolution managed the above-stated challenge. The rise of ViT and its performance with a high success rate motivated the community to slowly replace the traditional convolutional neural networks in various computer vision tasks. This survey aims to review and compare the performances of ViT architectures designed for semantic segmentation using benchmarking datasets. This will be worthwhile for the community to yield knowledge regarding the implementations carried out in semantic segmentation and to discover more efficient methodologies using ViTs. | 翻訳日:2023-05-08 15:17:34 公開日:2023-05-05 |
# 第四次信頼性統計を用いた量子符号の伝播デコードについて On Belief Propagation Decoding of Quantum Codes with Quaternary Reliability Statistics ( http://arxiv.org/abs/2305.03321v1 ) ライセンス: Link先を確認 | Ching-Feng Kung, Kao-Yueh Kuo, and Ching-Yi Lai | (参考訳) 本稿では,量子コードの順序統計復号化(OSD)における4次信頼性統計の利用について検討する。
OSDは、エラーシンドロームの修正に失敗した場合に、信念伝達(BP)復号の性能を向上させるために使用できる。
BPが出力する第四次信頼性情報とハード決定履歴を利用してOSDの信頼性ソートを行う手法を提案する。
このアプローチは、ソートステップ中にX/Z相関を保存することにより、XとZのエラーを別々に扱う従来の方法を改善する。
シミュレーションの結果,スカラーメッセージを用いた改良BPとOSDは,従来のBP-OSDの組み合わせよりも優れていた。
我々は、トーリック、サーフェス、XZX符号で17.5%、六角形の平面カラー符号で14.8%の閾値を得る。 In this paper, we investigate the use of quaternary reliability statistics for ordered statistics decoding (OSD) of quantum codes. OSD can be used to improve the performance of belief propagation (BP) decoding when it fails to correct the error syndrome. We propose an approach that leverages quaternary reliability information and the hard-decision history output by BP to perform reliability sorting for OSD. This approach improves upon previous methods that separately treat X and Z errors, by preserving the X/Z correlations during the sorting step. Our simulations show that the refined BP with scalar messages and the proposed OSD outperforms previous BP-OSD combinations. We achieve thresholds of 17.5% for toric, surface, and XZZX codes, and 14.8% for hexagonal planar color codes. | 翻訳日:2023-05-08 15:09:36 公開日:2023-05-05 |
# HiPool: グラフニューラルネットワークによる長いドキュメントのモデリング HiPool: Modeling Long Documents Using Graph Neural Networks ( http://arxiv.org/abs/2305.03319v1 ) ライセンス: Link先を確認 | Irene Li, Aosong Feng, Dragomir Radev, Rex Ying | (参考訳) 自然言語処理(nlp)における長いシーケンスのエンコーディングは難しい問題である。
最近の事前学習言語モデルは、多くのNLPタスクで満足なパフォーマンスを実現するが、まだ定義済みの最大長によって制限されているため、長いシーケンスに拡張することは困難である。
そのため、階層構造を利用して長い列をモデル化する最近の研究もある。
しかし、それらのほとんどは、長い依存関係の問題に苦しむ、上位階層に対してシーケンシャルなモデルを適用する。
本稿では,これらの問題をグラフベースで解決する。
まず、文レベルの情報をモデル化するために、シーケンスを一定の長さでチャンクする。
次に,新しい注意機構を用いて,グラフを利用して相互間相関をモデル化する。
さらに,長文分類のための標準ベンチマーク(LDC)の制限により,最大53kサンプルと平均トークン長4034のデータセットを合計6つ集めて,新たな挑戦的ベンチマークを提案する。
評価の結果,f1スコアでは2.6%,最長シーケンスデータセットでは4.8%の競合ベースラインを上回った。
提案手法は,特に長いシーケンスにおいて,性能とスケーラビリティを向上した階層的逐次モデルより優れていることを示す。 Encoding long sequences in Natural Language Processing (NLP) is a challenging problem. Though recent pretraining language models achieve satisfying performances in many NLP tasks, they are still restricted by a pre-defined maximum length, making them challenging to be extended to longer sequences. So some recent works utilize hierarchies to model long sequences. However, most of them apply sequential models for upper hierarchies, suffering from long dependency issues. In this paper, we alleviate these issues through a graph-based method. We first chunk the sequence with a fixed length to model the sentence-level information. We then leverage graphs to model intra- and cross-sentence correlations with a new attention mechanism. Additionally, due to limited standard benchmarks for long document classification (LDC), we propose a new challenging benchmark, totaling six datasets with up to 53k samples and 4034 average tokens' length. Evaluation shows our model surpasses competitive baselines by 2.6% in F1 score, and 4.8% on the longest sequence dataset. Our method is shown to outperform hierarchical sequential models with better performance and scalability, especially for longer sequences. | 翻訳日:2023-05-08 15:09:22 公開日:2023-05-05 |
# 音とラベルをブロックする「N-Gram Masked Speller for Chinese Spell Checking」 Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell Checking ( http://arxiv.org/abs/2305.03314v1 ) ライセンス: Link先を確認 | Haiyun Yang | (参考訳) 近年,文中の誤字を検知して修正するタスクである中国語スペルチェック(CSC)が,様々なNLPタスクに広く応用されているため,注目されている。
既存の手法の多くはBERTを用いてCSCタスクのセマンティック情報を抽出している。
しかし、これらの方法は、入力としてわずかな誤りしか持たない文を直接受け取り、正しい文字がモデルに答えを漏らし、遠方の文脈を捉える能力を損なう可能性がある。
そこで本研究では, ラベルの漏洩や誤検出を回避するため, 電流や周辺トークンをマスクするn-gramマスキング層を提案する。
また,誤りによって示されるマルチモーダル情報を無視するマスク戦略を考えると,音韻学的・形態的情報を意味表現と統合する新たな点生成ゲーティング機構が提案されている。
SIGHANデータセットの広汎な実験により、プラグ可能なn-gramマスキング機構により、一般的なCSCモデルの性能が向上することを示した。 Recently, Chinese Spell Checking(CSC), a task to detect erroneous characters in a sentence and correct them, has attracted extensive interest because of its wide applications in various NLP tasks. Most of the existing methods have utilized BERT to extract semantic information for CSC task. However, these methods directly take sentences with only a few errors as inputs, where the correct characters may leak answers to the model and dampen its ability to capture distant context; while the erroneous characters may disturb the semantic encoding process and result in poor representations. Based on such observations, this paper proposes an n-gram masking layer that masks current and/or surrounding tokens to avoid label leakage and error disturbance. Moreover, considering that the mask strategy may ignore multi-modal information indicated by errors, a novel dot-product gating mechanism is proposed to integrate the phonological and morphological information with semantic representation. Extensive experiments on SIGHAN datasets have demonstrated that the pluggable n-gram masking mechanism can improve the performance of prevalent CSC models and the proposed methods in this paper outperform multiple powerful state-of-the-art models. | 翻訳日:2023-05-08 15:09:04 公開日:2023-05-05 |
# Tiny-PPG:エッジデバイス上のフォトプレソグラム信号における動きアーチファクトのリアルタイム検出のための軽量ディープニューラルネットワーク Tiny-PPG: A Lightweight Deep Neural Network for Real-Time Detection of Motion Artifacts in Photoplethysmogram Signals on Edge Devices ( http://arxiv.org/abs/2305.03308v1 ) ライセンス: Link先を確認 | Chen Wu, Peizheng Cai, Zhiqiang Zhong, Yali Zheng | (参考訳) 光胸腺電図(PPG)信号は、心臓血管の健康モニタリングにIoT(Internet-of-Things)ベースのウェアラブルおよびスマートヘルスデバイスで広く使用されているにもかかわらず、現実の環境でのモーションアーティファクトによって容易に汚染される。
本研究は,IoTエッジデバイス上でのPPGアーティファクトの高精度かつリアルタイムなセグメンテーションを実現するための,Tiny-PPGと呼ばれる軽量なディープニューラルネットワークを提案する。
モデルはパブリックデータセット PPG DaLiA でトレーニングおよびテストされ、時計型デバイス(Empatica E4)を使用して15人の被験者の日々のさまざまな活動において、様々な長さと形態を持つ複雑なアーティファクトを特徴とした。
モデル構造, 訓練方法, 損失関数は, 実時間ppgアーチファクト検出における検出精度と速度のバランスをとるように設計されている。
マルチスケール特徴表現におけるモデルサイズと能力の最適化のために,モデルはそれぞれ深分離可能な畳み込みとアラス空間ピラミッドプールモジュールを用いた。
さらに、機能埋め込みをさらに最適化するために、対照的な損失も利用しました。
さらなるモデルプルーニングにより、tiny-ppgは19,726モデルパラメータ(0.15メガバイト)しか持たず、87.8%の最先端検出精度を達成し、リアルタイムppgアーティファクト検出のためのstm32組み込みシステムへのデプロイに成功した。
そこで本研究では, PPGアーチファクト検出における資源制約型IoTスマートヘルスデバイスに対する効果的なソリューションを提供する。 Photoplethysmogram (PPG) signals are easily contaminated by motion artifacts in real-world settings, despite their widespread use in Internet-of-Things (IoT) based wearable and smart health devices for cardiovascular health monitoring. This study proposed a lightweight deep neural network, called Tiny-PPG, for accurate and real-time PPG artifact segmentation on IoT edge devices. The model was trained and tested on a public dataset, PPG DaLiA, which featured complex artifacts with diverse lengths and morphologies during various daily activities of 15 subjects using a watch-type device (Empatica E4). The model structure, training method and loss function were specifically designed to balance detection accuracy and speed for real-time PPG artifact detection in resource-constrained embedded devices. To optimize the model size and capability in multi-scale feature representation, the model employed deep separable convolution and atrous spatial pyramid pooling modules, respectively. Additionally, the contrastive loss was also utilized to further optimize the feature embeddings. With additional model pruning, Tiny-PPG achieved state-of-the-art detection accuracy of 87.8% while only having 19,726 model parameters (0.15 megabytes), and was successfully deployed on an STM32 embedded system for real-time PPG artifact detection. Therefore, this study provides an effective solution for resource-constraint IoT smart health devices in PPG artifact detection. | 翻訳日:2023-05-08 15:08:41 公開日:2023-05-05 |
# 人間中心信頼フレームワーク--HCIの視点から Human-centered trust framework: An HCI perspective ( http://arxiv.org/abs/2305.03306v1 ) ライセンス: Link先を確認 | Sonia Sousa, Jose Cravino, Paulo Martins, David Lamas | (参考訳) この研究の理論的根拠は、現在の人工知能(AI)のユーザ信頼談話に基づいている。
我々は、信頼を現在の技術の取り込み(あるいは評価)のファシリテーターとして利用する新しいHCIアプローチを作ることを目指している。
我々は、非専門家にai設計に対するユーザーの信頼の完全な可能性を解き放つためのフレームワーク(hctframe)を提案する。
3つの文献レビューから得られたデータ三角測量の結果は、コンピュータ科学とAI談話におけるユーザ信頼の誤解を解き明かし、潜在的なユーザの信頼の崩壊と懸念をマッピングする心理測定尺度の有効性を評価するために3つのケーススタディを行った。
この研究は、技術中心の脆弱な相互作用を設計する傾向との戦いに主に寄与し、最終的には、現実的で認識された信頼の侵害につながる可能性がある。
提案したフレームワークは、システム設計者に対して、ユーザ信頼と、AIシステム設計の社会倫理的、組織的ニーズと特性をマップし、定義する方法をガイドするために使用することができる。
また、AIシステムデザイナにプロトタイプの開発方法を指導し、ユーザの信頼要件を満たすソリューションを運用することも可能だ。
この記事は、提案されたソリューションに対するユーザの信頼の意図と行動を測定するために使用できる、いくつかのユーザーリサーチツールを提供することで終わる。 The rationale of this work is based on the current user trust discourse of Artificial Intelligence (AI). We aim to produce novel HCI approaches that use trust as a facilitator for the uptake (or appropriation) of current technologies. We propose a framework (HCTFrame) to guide non-experts to unlock the full potential of user trust in AI design. Results derived from a data triangulation of findings from three literature reviews demystify some misconceptions of user trust in computer science and AI discourse, and three case studies are conducted to assess the effectiveness of a psychometric scale in mapping potential users' trust breakdowns and concerns. This work primarily contributes to the fight against the tendency to design technical-centered vulnerable interactions, which can eventually lead to additional real and perceived breaches of trust. The proposed framework can be used to guide system designers on how to map and define user trust and the socioethical and organisational needs and characteristics of AI system design. It can also guide AI system designers on how to develop a prototype and operationalise a solution that meets user trust requirements. The article ends by providing some user research tools that can be employed to measure users' trust intentions and behaviours towards a proposed solution. | 翻訳日:2023-05-08 15:08:11 公開日:2023-05-05 |
# 自然言語記述による高忠実度3次元顔生成 High-Fidelity 3D Face Generation from Natural Language Descriptions ( http://arxiv.org/abs/2305.03302v1 ) ライセンス: Link先を確認 | Menghua Wu, Hao Zhu, Linjia Huang, Yiyu Zhuang, Yuanxun Lu, Xun Cao | (参考訳) 自然言語記述から高品質な3d顔モデルを合成することは、アバター作成、仮想現実、テレプレゼンスなど、多くのアプリケーションにとって非常に有用である。
しかし、この課題に関わった研究はほとんどなかった。
私たちは大きな障害がそこにあると主張する
1)記述的テキストアノテーションによる高品質な3D顔データの欠如、及び
2)記述言語空間と形状/出現空間の複雑なマッピング関係。
これらの問題を解決するために,テキストから3次元の顔生成タスクのための詳細なテキスト記述を備えた,最初の大規模データセットである describe3d dataset を構築した。
次に,まず具体的記述にマッチする3次元顔を生成し,そのパラメータを抽象的記述で3次元形状とテクスチャ空間のパラメータに最適化して3次元顔モデルを改善する2段階フレームワークを提案する。
実験結果から,本手法は入力記述に適合する忠実な3次元面を従来手法よりも高精度かつ高品質に生成できることが示された。
コードと説明3dデータセットはhttps://github.com/zhuhao-nju/describe3dでリリースされる。 Synthesizing high-quality 3D face models from natural language descriptions is very valuable for many applications, including avatar creation, virtual reality, and telepresence. However, little research ever tapped into this task. We argue the major obstacle lies in 1) the lack of high-quality 3D face data with descriptive text annotation, and 2) the complex mapping relationship between descriptive language space and shape/appearance space. To solve these problems, we build Describe3D dataset, the first large-scale dataset with fine-grained text descriptions for text-to-3D face generation task. Then we propose a two-stage framework to first generate a 3D face that matches the concrete descriptions, then optimize the parameters in the 3D shape and texture space with abstract description to refine the 3D face model. Extensive experimental results show that our method can produce a faithful 3D face that conforms to the input descriptions with higher accuracy and quality than previous methods. The code and Describe3D dataset are released at https://github.com/zhuhao-nju/describe3d . | 翻訳日:2023-05-08 15:07:48 公開日:2023-05-05 |
# SemEval-2023 Task 2: XLM-RoBERTaを用いた多言語複合NER LLM-RM at SemEval-2023 Task 2: Multilingual Complex NER using XLM-RoBERTa ( http://arxiv.org/abs/2305.03300v1 ) ライセンス: Link先を確認 | Rahul Mehta and Vasudeva Varma | (参考訳) 名前付きエンティティ認識(NER)は、文中のトークンレベルでエンティティを認識するタスクである。
本稿では、複雑な名前付きエンティティの多言語設定におけるNERタスクの解決に焦点をあてる。
我々のチームであるLM-RMは、最近組織されたSemEval 2023タスク、Task 2: MultiCoNER II、Multilingual Complex Named Entity Recognitionに参加した。
我々は、バングラ語、中国語、英語、ファルシ語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、スウェーデン語、ウクライナ語の全12言語のデータセットを微調整したxlm-robertaベースモデルによって提供される言語横断表現を利用してこの問題にアプローチする。 Named Entity Recognition(NER) is a task of recognizing entities at a token level in a sentence. This paper focuses on solving NER tasks in a multilingual setting for complex named entities. Our team, LLM-RM participated in the recently organized SemEval 2023 task, Task 2: MultiCoNER II,Multilingual Complex Named Entity Recognition. We approach the problem by leveraging cross-lingual representation provided by fine-tuning XLM-Roberta base model on datasets of all of the 12 languages provided -- Bangla, Chinese, English, Farsi, French, German, Hindi, Italian, Portuguese, Spanish, Swedish and Ukrainian | 翻訳日:2023-05-08 15:07:31 公開日:2023-05-05 |
# チャンクによるオープン情報抽出 Open Information Extraction via Chunks ( http://arxiv.org/abs/2305.03299v1 ) ライセンス: Link先を確認 | Kuicai Dong, Aixin Sun, Jung-Jae Kim, Xiaoli Li | (参考訳) Open Information extract (OIE)は、オープンドメイン文から関係タプルを抽出することを目的としている。
既存のoieシステムは文をトークンに分割し、トークンスパンをタプル関係と引数として認識する。
代わりに、Sentenceをチャンクシーケンス(SaC)として提案し、チャンクをタプル関係と引数として認識する。
我々は,SaCはトークンシーケンスとして文よりもOIEの量的および質的特性が優れており,金のOIEタプルに対して4つのチャンク(CoNLLチャンク,単純なフレーズ,NPチャンク,およびSpanOIEからのスパン)を選択する。
そこで我々は,文チャンキングのための単純なBERTモデルを提案し,SaC上でのタプル抽出のためのChunk-OIEを提案する。
Chunk-OIEは複数のOIEデータセットで最先端の結果を達成しており、SaCがOIEタスクの恩恵を受けていることを示している。 Open Information Extraction (OIE) aims to extract relational tuples from open-domain sentences. Existing OIE systems split a sentence into tokens and recognize token spans as tuple relations and arguments. We instead propose Sentence as Chunk sequence (SaC) and recognize chunk spans as tuple relations and arguments. We argue that SaC has better quantitative and qualitative properties for OIE than sentence as token sequence, and evaluate four choices of chunks (i.e., CoNLL chunks, simple phrases, NP chunks, and spans from SpanOIE) against gold OIE tuples. Accordingly, we propose a simple BERT-based model for sentence chunking, and propose Chunk-OIE for tuple extraction on top of SaC. Chunk-OIE achieves state-of-the-art results on multiple OIE datasets, showing that SaC benefits OIE task. | 翻訳日:2023-05-08 15:07:12 公開日:2023-05-05 |
# TransESC: ターンレベル状態遷移による平滑な感情支援会話 TransESC: Smoothing Emotional Support Conversation via Turn-Level State Transition ( http://arxiv.org/abs/2305.03296v1 ) ライセンス: Link先を確認 | Weixiang Zhao, Yanyan Zhao, Shilong Wang, Bing Qin | (参考訳) 感情サポート会話(esc)は、人々の感情的な苦痛を減らすことを目的とした、新しくて挑戦的なタスクである。
ESCにおける発話間のスムーズな遷移を維持できないのは、各対話のターンで細かい遷移情報の把握を無視するためである。
この問題を解決するために,意味論遷移,戦略遷移,感情遷移を含む3つの視点から,ターンレベルの \textbf{Trans}itions of \textbf{ESC} (\textbf{Trans}C}) を考慮し,会話を円滑かつ自然な方法で進めることを提案する。
具体的には、3種類のターンレベル遷移情報を把握するためにtransit-then-interactという2段階の方法で状態遷移グラフを構築する。
最後に、transition-awareデコーダに注入することで、より魅力的なレスポンスを生成する。
ベンチマークデータセットの自動評価と人的評価の両方は、よりスムーズで効果的なサポート応答を生成するTransESCの優位性を示している。
ソースコードは \url{https://github.com/circle-hit/transesc} で利用可能です。 Emotion Support Conversation (ESC) is an emerging and challenging task with the goal of reducing the emotional distress of people. Previous attempts fail to maintain smooth transitions between utterances in ESC because they ignore to grasp the fine-grained transition information at each dialogue turn. To solve this problem, we propose to take into account turn-level state \textbf{Trans}itions of \textbf{ESC} (\textbf{TransESC}) from three perspectives, including semantics transition, strategy transition and emotion transition, to drive the conversation in a smooth and natural way. Specifically, we construct the state transition graph with a two-step way, named transit-then-interact, to grasp such three types of turn-level transition information. Finally, they are injected into the transition-aware decoder to generate more engaging responses. Both automatic and human evaluations on the benchmark dataset demonstrate the superiority of TransESC to generate more smooth and effective supportive responses. Our source code is available at \url{https://github.com/circle-hit/TransESC}. | 翻訳日:2023-05-08 15:06:58 公開日:2023-05-05 |
# 非パラメトリック制約事前知識に基づく分散拡散学習 Decentralized diffusion-based learning under non-parametric limited prior knowledge ( http://arxiv.org/abs/2305.03295v1 ) ライセンス: Link先を確認 | Pawe{\l} Wachel, Krzysztof Kowalczyk, Cristian R. Rojas | (参考訳) 本研究では, 雑音環境下で収集した局所エージェントの測定値から, 非線形現象の拡散に基づくネットワーク学習問題である$m$について検討する。
分散ネットワークと隣接ノード間のみに広がる情報に対して,生のデータ交換を回避し,約$m$の軽度な \textit{a priori} 知識のみを必要とする非パラメトリック学習アルゴリズムを提案する。
提案手法は非漸近的推定誤差境界を導出する。
その可能性の応用はシミュレーション実験によって示される。 We study the problem of diffusion-based network learning of a nonlinear phenomenon, $m$, from local agents' measurements collected in a noisy environment. For a decentralized network and information spreading merely between directly neighboring nodes, we propose a non-parametric learning algorithm, that avoids raw data exchange and requires only mild \textit{a priori} knowledge about $m$. Non-asymptotic estimation error bounds are derived for the proposed method. Its potential applications are illustrated through simulation experiments. | 翻訳日:2023-05-08 15:06:36 公開日:2023-05-05 |
# 読解を伴う大規模クロスモーダルビデオ検索データセット A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension ( http://arxiv.org/abs/2305.03347v1 ) ライセンス: Link先を確認 | Weijia Wu and Yuzhong Zhao, Zhuang Li and Jiahong Li, Hong Zhou and Mike Zheng Shou and Xiang Bai | (参考訳) 既存のクロスモーダル言語からビデオへの検索(vr)研究のほとんどは、ビデオからの単一モーダル入力、すなわち視覚的表現に焦点を当てている。
視覚とテキストの両方のセマンティクス表現を用いた映像の検索方法を検討するため,まずテキスト読み理解を備えた大規模かつクロスモーダルなビデオ検索データセットtextvrを導入する。textvrは8シナリオドメインの10.5kビデオに対して,42.2kの文クエリを含む。例えばstreet view (indoor),street view (outdoor),games, sports, driving, activity, tv show, cookingである。
提案するtextvrでは,テキストを認識し,理解し,視覚的コンテキストに関連付け,映像検索タスクに不可欠なテキスト意味情報を決定するための,統一的なクロスモーダルモデルが必要となる。
さらに,既存のデータセットと比較してテキストVRの詳細な分析を行い,テキストベースのビデオ検索タスクのための新しいマルチモーダルビデオ検索ベースラインを設計する。
データセット分析と広範な実験により、TextVRベンチマークは、ビデオと言語コミュニティのための以前のデータセットからの多くの新しい技術的課題と洞察を提供します。
プロジェクトwebサイトとgithubリポジトリは、それぞれhttps://sites.google.com/view/loveucvpr23/guest-trackとhttps://github.com/callsys/textvrで見ることができる。 Most existing cross-modal language-to-video retrieval (VR) research focuses on single-modal input from video, i.e., visual representation, while the text is omnipresent in human environments and frequently critical to understand video. To study how to retrieve video with both modal inputs, i.e., visual and text semantic representations, we first introduce a large-scale and cross-modal Video Retrieval dataset with text reading comprehension, TextVR, which contains 42.2k sentence queries for 10.5k videos of 8 scenario domains, i.e., Street View (indoor), Street View (outdoor), Games, Sports, Driving, Activity, TV Show, and Cooking. The proposed TextVR requires one unified cross-modal model to recognize and comprehend texts, relate them to the visual context, and decide what text semantic information is vital for the video retrieval task. Besides, we present a detailed analysis of TextVR compared to the existing datasets and design a novel multimodal video retrieval baseline for the text-based video retrieval task. The dataset analysis and extensive experiments show that our TextVR benchmark provides many new technical challenges and insights from previous datasets for the video-and-language community. The project website and GitHub repo can be found at https://sites.google.com/view/loveucvpr23/guest-track and https://github.com/callsys/TextVR, respectively. | 翻訳日:2023-05-08 15:01:06 公開日:2023-05-05 |
# logo-former:動的表情認識のための局所的時空間トランスフォーマ LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial Expression Recognition ( http://arxiv.org/abs/2305.03343v1 ) ライセンス: Link先を確認 | Fuyan Ma, Bin Sun and Shutao Li | (参考訳) 野生での動的表情認識(dfer)の手法は、主に畳み込みニューラルネットワーク(cnns)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーベースの手法は性能が向上するが、FLOPや計算コストが向上する。
これらの問題を解決するために,各フレーム内の識別的特徴を抽出し,複雑さのバランスを保ちながらフレーム間のコンテキスト関係をモデル化するローカル・グローバル時空間変換器(LOGO-Former)を提案する。
顔の筋肉が局所的に動き、表情が徐々に変化するという先例に基づいて、まず空間的注意と時間的注意の両方を局所的な窓に制限し、特徴トークン間の局所的な相互作用を捉える。
さらに,各ローカルウインドウから特徴のあるトークンを反復的にクエリし,全映像列の長距離情報を得ることにより,グローバルに注目する。
さらに,最小クラス間距離と最大クラス間距離の学習特徴をより促進するために,コンパクトな損失正規化項を提案する。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。 Previous methods for dynamic facial expression recognition (DFER) in the wild are mainly based on Convolutional Neural Networks (CNNs), whose local operations ignore the long-range dependencies in videos. Transformer-based methods for DFER can achieve better performances but result in higher FLOPs and computational costs. To solve these problems, the local-global spatio-temporal Transformer (LOGO-Former) is proposed to capture discriminative features within each frame and model contextual relationships among frames while balancing the complexity. Based on the priors that facial muscles move locally and facial expressions gradually change, we first restrict both the space attention and the time attention to a local window to capture local interactions among feature tokens. Furthermore, we perform the global attention by querying a token with features from each local window iteratively to obtain long-range information of the whole video sequence. In addition, we propose the compact loss regularization term to further encourage the learned features have the minimum intra-class distance and the maximum inter-class distance. Experiments on two in-the-wild dynamic facial expression datasets (i.e., DFEW and FERV39K) indicate that our method provides an effective way to make use of the spatial and temporal dependencies for DFER. | 翻訳日:2023-05-08 15:00:42 公開日:2023-05-05 |
# 向進化と生態進化のバイオフィジカルサイバネティクス Biophysical Cybernetics of Directed Evolution and Eco-evolutionary Dynamics ( http://arxiv.org/abs/2305.03340v1 ) ライセンス: Link先を確認 | Bryce Allen Bagley | (参考訳) 進化力学の理論における多くの主要な質問は、ゲーム理論の文脈における確率的軌跡の分析に意味のある意味でマッピングすることができる。
しばしばこのアプローチは、少数の異なる個体群を解析し、あるいは、決定論的軌道が現実の優れた近似となるほど大きな個体群の大きさの体制内でダイナミクスが生じると仮定する。
生態学的要因(eco-evolutionary dynamics)の付加は、さらにダイナミクスを複雑化し、現在の理論的な手法では扱いにくい、あるいは実用的でない多くの問題を引き起こす。
しかし、類似しているが未熟なアプローチは、モデル自体の不確実性に主に目を向けて、これらのシステムを分析することである。
強化学習と隣接する分野の研究者の言語では、部分的に観察可能なマルコフプロセスがある。
ここでは、生態学と個別の遺伝子型/フェノタイプ型の両方の会計の複雑さを、計算を変えない物理的境界を描くのではなく、基礎となる情報理論計算にのみ考慮する問題にマッピングする双対性を導入する。
この計算とTaak-dualityと呼ばれる関連する生物物理学の等価性に則って、我々は部分的に観察可能なマルコフ決定プロセスという形で「直接進化」の問題に対処する。
これは、非常に一般的なタイプのエコ進化軌道の研究や、有向の場合の進化の効率に対する潜在的な限界の問題を解析することのできるケースを提供する。 Many major questions in the theory of evolutionary dynamics can in a meaningful sense be mapped to analyses of stochastic trajectories in game theoretic contexts. Often the approach is to analyze small numbers of distinct populations and/or to assume dynamics occur within a regime of population sizes large enough that deterministic trajectories are an excellent approximation of reality. The addition of ecological factors, termed "eco-evolutionary dynamics", further complicates the dynamics and results in many problems which are intractable or impractically messy for current theoretical methods. However, an analogous but underexplored approach is to analyze these systems with an eye primarily towards uncertainty in the models themselves. In the language of researchers in Reinforcement Learning and adjacent fields, a Partially Observable Markov Process. Here we introduce a duality which maps the complexity of accounting for both ecology and individual genotypic/phenotypic types onto a problem of accounting solely for underlying information-theoretic computations rather than drawing physical boundaries which do not change the computations. Armed with this equivalence between computation and the relevant biophysics, which we term Taak-duality, we attack the problem of "directed evolution" in the form of a Partially Observable Markov Decision Process. This provides a tractable case of studying eco-evolutionary trajectories of a highly general type, and of analyzing questions of potential limits on the efficiency of evolution in the directed case. | 翻訳日:2023-05-08 15:00:17 公開日:2023-05-05 |
# semeval-2023タスク3 : 多言語モデルを用いたニュースジャンル,フレーミング,説得技術検出 QCRI at SemEval-2023 Task 3: News Genre, Framing and Persuasion Techniques Detection using Multilingual Models ( http://arxiv.org/abs/2305.03336v1 ) ライセンス: Link先を確認 | Maram Hasanain, Ahmed Oumar El-Shangiti, Rabindra Nath Nandi, Preslav Nakov and Firoj Alam | (参考訳) 主流やソーシャルメディアに広がる誤情報が、ユーザーをさまざまな方法で誤解させてきた。
ジャーナリストやファクトチェッカーによる手動検出と検証作業は、もはや誤解を招く情報の大規模かつ迅速な拡散に対応できない。
このことは、オンラインに広まるニュースを分析し検証するシステムを開発する研究と産業の取り組みを動機づけた。
semeval-2023タスク3は、読者の意見に影響を与えるためにニュース記事に使用される書き込み技術をターゲットに、この包括的な問題の下でいくつかのサブタスクに対処する試みである。
このタスクは6つの言語で3つのサブタスクに対応し、3つの ``surprise'' テスト言語に加えて、27の異なるテストセットアップを実現した。
本稿では,本課題に対する参加システムについて述べる。
私たちのチームは、すべてのセットアップで正常に実行した6チームのうちの1つです。
公式の結果,27のシステムのうち10のシステムで上位3位にランクインした。 Misinformation spreading in mainstream and social media has been misleading users in different ways. Manual detection and verification efforts by journalists and fact-checkers can no longer cope with the great scale and quick spread of misleading information. This motivated research and industry efforts to develop systems for analyzing and verifying news spreading online. The SemEval-2023 Task 3 is an attempt to address several subtasks under this overarching problem, targeting writing techniques used in news articles to affect readers' opinions. The task addressed three subtasks with six languages, in addition to three ``surprise'' test languages, resulting in 27 different test setups. This paper describes our participating system to this task. Our team is one of the 6 teams that successfully submitted runs for all setups. The official results show that our system is ranked among the top 3 systems for 10 out of the 27 setups. | 翻訳日:2023-05-08 14:59:52 公開日:2023-05-05 |
# 非局所性は? Whence Nonlocality? ( http://arxiv.org/abs/2305.03335v1 ) ライセンス: Link先を確認 | Aur\'elien Drezet | (参考訳) 本章ではアインシュタイン・ポドルスキー・ローゼンの定理とそのベルの定理との強い関係について論じる。
我々は「局所現実主義」に関する曖昧さを明確にし、現実主義も決定論も反事実的定性もこれらの定理の前提条件ではないことを強調する。 In this chapter we discuss the Einstein Podolsky Rosen theorem and its strong relation with Bell's theorem. We clarify some ambiguities concerning `local-realism' and emphasize that neither realism nor determinism nor counterfactual definiteness are prerequisite of these theorems. | 翻訳日:2023-05-08 14:59:35 公開日:2023-05-05 |
# 一元的進化と周期的射影測定によるスピン配置ダイナミクスの複雑さ Complexity of spin configurations dynamics due to unitary evolution and periodic projective measurements ( http://arxiv.org/abs/2305.03334v1 ) ライセンス: Link先を確認 | Heitor P. Casagrande, Bo Xing, Marcello Dalmonte, Alex Rodriguez, Vinitha Balachandran, Dario Poletti | (参考訳) 本研究では,多体量子系のハミルトニアンダイナミクスを,確率的セルオートマトンダイナミクスに繋がる周期的投影計測により検討する。
一連の測定値が与えられたとき、主成分分析を行うことで、それらのダイナミクスを特徴付ける。
システムのほぼ完全な記述に必要な主成分の数は、我々がpca複雑性と呼ぶ複雑性の尺度であり、ハミルトニアンパラメータと測定間隔の関数として研究されている。
我々は、ランダム局所ハミルトニアンや翻訳不変なランダム局所ハミルトニアンを含む相互作用、非相互作用、可積分および非可積分系を記述する異なるハミルトニアンを考える。
これらすべてのシナリオにおいて,PCAの複雑性は高原に近づく前に急速に増加する。
pca複雑性のダイナミクスは、ハミルトニアンパラメーターおよび測定プロトコルの関数として定量的および定性的に変化する。
重要なことに、pca複雑性のダイナミクスは、非可積分モデルの場合のように、単純な局所ダイナミクスを欠くモデルの特定のシステムパラメータにかなり敏感な振る舞いが存在する。
特に,システムパラメータに対するPCA複雑性ダイナミクスの感度を予測するために,局所力学と測定方向を考慮したメリットの指標を指摘する。 We study the Hamiltonian dynamics of a many-body quantum system subjected to periodic projective measurements which leads to probabilistic cellular automata dynamics. Given a sequence of measured values, we characterize their dynamics by performing a principal component analysis. The number of principal components required for an almost complete description of the system, which is a measure of complexity we refer to as PCA complexity, is studied as a function of the Hamiltonian parameters and measurement intervals. We consider different Hamiltonians that describe interacting, non-interacting, integrable, and non-integrable systems, including random local Hamiltonians and translational invariant random local Hamiltonians. In all these scenarios, we find that the PCA complexity grows rapidly in time before approaching a plateau. The dynamics of the PCA complexity can vary quantitatively and qualitatively as a function of the Hamiltonian parameters and measurement protocol. Importantly, the dynamics of PCA complexity present behavior that is considerably less sensitive to the specific system parameters for models which lack simple local dynamics, as is often the case in non-integrable models. In particular, we point out a figure of merit that considers the local dynamics and the measurement direction to predict the sensitivity of the PCA complexity dynamics to the system parameters. | 翻訳日:2023-05-08 14:59:30 公開日:2023-05-05 |
# オンラインサービスシステムにおける汎用ルートとロバストルートの多次元データの局所化 Generic and Robust Root Cause Localization for Multi-Dimensional Data in Online Service Systems ( http://arxiv.org/abs/2305.03331v1 ) ライセンス: Link先を確認 | Zeyan Li, Junjie Chen, Yihao Chen, Chengyang Luo, Yiwei Zhao, Yongqian Sun, Kaixin Sui, Xiping Wang, Dapeng Liu, Xing Jin, Qi Wang, Dan Pei | (参考訳) 多次元データに対する根本原因のローカライズは、オンラインサービスシステムの信頼性を確保するために重要である。
障害が発生した場合、特定の属性の組み合わせ内の測定値のみが異常となる。
このような属性の組み合わせは根本原因の重要な手がかりであり、したがって多次元データの根本原因と呼ばれる。
本稿では多次元データPSqueezeに対する汎用的かつロバストなルート原因ローカライズ手法を提案する。
本稿では,多次元データ,一般化リップル効果(GRE)に対する根本原因の一般性を提案する。
そこで本研究では,新しい確率クラスタ法とロバストなヒューリスティック探索法を提案する。
また,外根原因の決定の重要性を明らかにし,文献に初めて有効な方法を提案する。
5400の故障を伴う2つの実世界のデータセットに対する実験の結果、PSqueezeのF1スコアはベースラインを32.89%上回り、ローカライゼーション時間は全ケースで約10秒である。
psqueeze の外部根原因を決定する f1-score は 0.90 に達する。
さらに、いくつかの生産システムにおけるケーススタディでは、PSqueezeが現実世界の故障診断に役立つことが示されている。 Localizing root causes for multi-dimensional data is critical to ensure online service systems' reliability. When a fault occurs, only the measure values within specific attribute combinations are abnormal. Such attribute combinations are substantial clues to the underlying root causes and thus are called root causes of multidimensional data. This paper proposes a generic and robust root cause localization approach for multi-dimensional data, PSqueeze. We propose a generic property of root cause for multi-dimensional data, generalized ripple effect (GRE). Based on it, we propose a novel probabilistic cluster method and a robust heuristic search method. Moreover, we identify the importance of determining external root causes and propose an effective method for the first time in literature. Our experiments on two real-world datasets with 5400 faults show that the F1-score of PSqueeze outperforms baselines by 32.89%, while the localization time is around 10 seconds across all cases. The F1-score in determining external root causes of PSqueeze achieves 0.90. Furthermore, case studies in several production systems demonstrate that PSqueeze is helpful to fault diagnosis in the real world. | 翻訳日:2023-05-08 14:59:10 公開日:2023-05-05 |
# 多スペクトルCTにおける離散基底シングラムの解の存在、特異性、安定性 Solution existence, uniqueness, and stability of discrete basis sinograms in multispectral CT ( http://arxiv.org/abs/2305.03330v1 ) ライセンス: Link先を確認 | Yu Gao and Xiaochuan Pan and Chong Chen | (参考訳) 本研究では,マルチスペクトルCT(Multispectral Computed Tomography, MCT)における定量的画像再構成の条件について検討する。
MSCTでは、被写体内の所定のX線エネルギーにおいて、仮想単色画像(VMI)と呼ばれる線形減衰係数の空間分布をデータから求める。
vmiは、しばしば既知の分解係数を持つ基底画像の線形結合に分解されるので、vmiの再構成は、基底画像のそれと同一視される。
実験的だが高効率な2段階データドメイン分解法(DDD)が開発され,MSCTの定量的画像再構成に広く利用されている。
2段階ddd法では、ステップ(1)は非線形変換を解いてデータからいわゆる基底シンノグラムを推定し、ステップ(2)は基底シンノグラムから基底画像を再構成する。
その後、再構成されたベース画像の線形結合から容易にVMIを得ることができる。
ステップ(2)は直線系の逆転を伴うので、ステップ(1)はデータから基底のシングラムを推定するために非線形系を逆転させる必要のあるDDDメソッドの重要な構成要素である。
本研究は, ステップ(1)における非線形系の離散形式を考察し, 離散非線形系に対する解の存在, 特異性, 安定性に関する理論的, 数値的な解析を行い, 離散基底シングラムを正確に推定し, そしてMSCTにおけるVMIを定量的に再構成する。 This work investigates conditions for quantitative image reconstruction in multispectral computed tomography (MSCT), which remains a topic of active research. In MSCT, one seeks to obtain from data the spatial distribution of linear attenuation coefficient, referred to as a virtual monochromatic image (VMI), at a given X-ray energy, within the subject imaged. As a VMI is decomposed often into a linear combination of basis images with known decomposition coefficients, the reconstruction of a VMI is thus tantamount to that of the basis images. An empirical, but highly effective, two-step data-domain-decomposition (DDD) method has been developed and used widely for quantitative image reconstruction in MSCT. In the two-step DDD method, step (1) estimates the so-called basis sinogram from data through solving a nonlinear transform, whereas step (2) reconstructs basis images from their basis sinograms estimated. Subsequently, a VMI can readily be obtained from the linear combination of basis images reconstructed. As step (2) involves the inversion of a straightforward linear system, step (1) is the key component of the DDD method in which a nonlinear system needs to be inverted for estimating the basis sinograms from data. In this work, we consider a {\it discrete} form of the nonlinear system in step (1), and then carry out theoretical and numerical analyses of conditions on the existence, uniqueness, and stability of a solution to the discrete nonlinear system for accurately estimating the discrete basis sinograms, leading to quantitative reconstruction of VMIs in MSCT. | 翻訳日:2023-05-08 14:58:50 公開日:2023-05-05 |
# flowtext: オプティカルフロー推定によるリアルなシーンテキストビデオの合成 FlowText: Synthesizing Realistic Scene Text Video with Optical Flow Estimation ( http://arxiv.org/abs/2305.03327v1 ) ライセンス: Link先を確認 | Yuzhong Zhao and Weijia Wu and Zhuang Li and Jiahong Li and Weiqiang Wang | (参考訳) 現在のビデオテキストスポッティング法は、十分なラベル付きトレーニングデータを用いて、好ましいパフォーマンスを達成することができる。
しかし、データを手動でラベル付けするのは時間と労力を要する。
これを克服するために、低コストな合成データを使うことは有望な選択肢である。
本稿では,光学的フロー推定を利用して,ロバストなビデオテキストスポッターを訓練するために,大量のテキストデータを低コストで合成するFlowTextという新しいビデオテキスト合成手法を提案する。
画像レベルの合成に焦点を当てた既存の手法とは異なり、flowtextは光学フローを用いてテキストインスタンスの時間情報を連続フレームで合成することに集中している。
この時間情報は、テキストの動き、歪み、外観、消失、避難所、ぼやけなど、ビデオシーケンス中のテキストを正確に追跡し、特定するために重要である。
実験により、TransDETRのような一般的な検出器と提案されたFlowTextを組み合わせることで、ICDAR2015videoやICDAR2013videoのような様々なデータセットで顕著な結果が得られることが示された。
コードはhttps://github.com/callsys/FlowTextで入手できる。 Current video text spotting methods can achieve preferable performance, powered with sufficient labeled training data. However, labeling data manually is time-consuming and labor-intensive. To overcome this, using low-cost synthetic data is a promising alternative. This paper introduces a novel video text synthesis technique called FlowText, which utilizes optical flow estimation to synthesize a large amount of text video data at a low cost for training robust video text spotters. Unlike existing methods that focus on image-level synthesis, FlowText concentrates on synthesizing temporal information of text instances across consecutive frames using optical flow. This temporal information is crucial for accurately tracking and spotting text in video sequences, including text movement, distortion, appearance, disappearance, shelter, and blur. Experiments show that combining general detectors like TransDETR with the proposed FlowText produces remarkable results on various datasets, such as ICDAR2015video and ICDAR2013video. Code is available at https://github.com/callsys/FlowText. | 翻訳日:2023-05-08 14:58:21 公開日:2023-05-05 |
# キャビティ・マグノン・オプトメカニクスにおける非相互絡み合い Nonreciprocal Entanglement in Cavity-Magnon Optomechanics ( http://arxiv.org/abs/2305.03325v1 ) ライセンス: Link先を確認 | Jiaojiao Chen, Xiao-Gang Fan, Wei Xiong, Dong Wang, Liu Ye | (参考訳) マクロな量子効果を研究するための有望なプラットフォームであるキャビティ光学は、サグネック効果による非相互絡みの研究に広く用いられている。
本稿では,マグノンカー効果を用いるハイブリッドキャビティ-マグノン光学系において,マグノン,光子,フォノン間の非相互絡み合いを実現する方法を提案する。
我々はカー効果がマグノン周波数シフトと追加の2つのマグノン効果をもたらすことを示す。
どちらも正から負まで、マゼクティック場の方向をチューニングすることで調整でき、非相反性に繋がる。
マグノン周波数デチューニングや2マグノン効果の係数などのシステムパラメータをチューニングすることにより、二成分および三成分の絡み合いを非相対的に向上させることができる。
定義した双方向コントラスト比のさらなる研究により, システム内の非相互性はオン/オフ可能であり, 浴槽温度で操作できることがわかった。
本提案は,マグノンカー効果と非相互絡み合いを示す潜在経路を提供するだけでなく,非線形効果を持つハイブリッドキャビティ・マグノン光学系における多種多様な非相互デバイスの設計・設計への道を開く。 Cavity optomechanics, a promising platform to investigate macroscopic quantum effects, has been widely used to study nonreciprocal entanglement with Sagnec effect. Here we propose an alternative way to realize nonreciprocal entanglemment among magnons, photons, and phonons in a hybrid cavity-magnon optomechanics, where magnon Kerr effect is used. We show that the Kerr effect gives rise to a magnon frequency shift and an additional two-magnon effect. Both of them can be tuned from positive to negative via tuning the magectic field direction, leading to nonreciprocity. By tuning system parameters such as magnon frequency detuning or the coefficient of the two-magnon effect, bipartite and tripartite entanglements can be nonreciprocally enhanced. By further studying the defined bidirectional contrast ratio, we find that nonreciprocity in our system can be switch on and off, and can be engineered by the bath temperature. Our proposal not only provides a potential path to demonstrate nonreciprocal entanglement with the magnon Kerr effect, but also opens a direction to engineer and design diverse nonreciprocal devices in hybrid cavity-magnon optomechanics with nonlinear effects. | 翻訳日:2023-05-08 14:58:04 公開日:2023-05-05 |
# DisenBooth: 主観駆動型テキスト・画像生成のための遠方パラメータ効率チューニング DisenBooth: Disentangled Parameter-Efficient Tuning for Subject-Driven Text-to-Image Generation ( http://arxiv.org/abs/2305.03374v1 ) ライセンス: Link先を確認 | Hong Chen, Yipeng Zhang, Xin Wang, Xuguang Duan, Yuwei Zhou, Wenwu Zhu | (参考訳) 特定の主題の画像の小さなセットが与えられた場合、新たなテキスト記述に基づいて、主題をカスタマイズした画像を生成することを目的としており、近年、コミュニティで注目が集まっている。
現在の主題駆動テキスト対画像生成法は、主に事前訓練された大規模テキスト対画像生成モデルの微調整に基づいている。
しかし、これらの微調整方法は、被写体の画像を被写体同一性非関連情報と高度に絡み合う埋め込みにマッピングし、生成された画像とテキスト記述との間の不整合と被写体同一性の変化をもたらす可能性がある。
そこで本研究では,主題駆動テキスト対画像生成のための不連続パラメータ効率の高いチューニングフレームワークである disenbooth を提案する。
DisenBoothは、ID関連およびID非関連部分への埋め込みを解除することにより、主題のアイデンティティを同時に保存し、テキスト記述に準拠する新しい画像を生成することができる。
具体的には、disenboothは予め訓練された拡散モデルに基づいて、共有id埋め込みと画像固有id非関連埋め込みを併用して各画像のデノー化を行う拡散デノージングプロセスにおいて微調整を行う。
2つの組込みを乱すため、2つの補助目的が提案されている。
また、微調整効率を向上させるためにパラメータ効率の良い微調整戦略を採用する。
広範囲にわたる実験により、DisenBoothは、よく異なるアイデンティティ関連およびアイデンティティ非関連埋め込みを忠実に学習できることが示されている。
共有id埋め込みにより、disenboothは、優れたサブジェクト駆動のテキスト対イメージ生成能力を示している。
さらに、disenboothは、異なる組込みの組み合わせで、より柔軟で制御可能なフレームワークを提供する。 Given a small set of images of a specific subject, subject-driven text-to-image generation aims to generate customized images of the subject according to new text descriptions, which has attracted increasing attention in the community recently. Current subject-driven text-to-image generation methods are mainly based on finetuning a pretrained large-scale text-to-image generation model. However, these finetuning methods map the images of the subject into an embedding highly entangled with subject-identity-unrelated information, which may result in the inconsistency between the generated images and the text descriptions and the changes in the subject identity. To tackle the problem, we propose DisenBooth, a disentangled parameter-efficient tuning framework for subject-driven text-to-image generation. DisenBooth enables generating new images that simultaneously preserve the subject identity and conform to the text descriptions, by disentangling the embedding into an identity-related and an identity-unrelated part. Specifically, DisenBooth is based on the pretrained diffusion models and conducts finetuning in the diffusion denoising process, where a shared identity embedding and an image-specific identity-unrelated embedding are utilized jointly for denoising each image. To make the two embeddings disentangled, two auxiliary objectives are proposed. Additionally, to improve the finetuning efficiency, a parameter-efficient finetuning strategy is adopted. Extensive experiments show that our DisenBooth can faithfully learn well-disentangled identity-related and identity-unrelated embeddings. With the shared identity embedding, DisenBooth demonstrates superior subject-driven text-to-image generation ability. Additionally, DisenBooth provides a more flexible and controllable framework with different combinations of the disentangled embeddings. | 翻訳日:2023-05-08 14:50:50 公開日:2023-05-05 |
# MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked Emotions, Cross-Cultural Humour, and Personalization The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked Emotions, Cross-Cultural Humour, and Personalisation ( http://arxiv.org/abs/2305.03369v1 ) ライセンス: Link先を確認 | Lukas Christ, Shahin Amiriparian, Alice Baird, Alexander Kathan, Niklas M\"uller, Steffen Klug, Chris Gagne, Panagiotis Tzirakis, Eva-Maria Me{\ss}ner, Andreas K\"onig, Alan Cowen, Erik Cambria, Bj\"orn W. Schuller | (参考訳) muse 2023は、3つの異なる同時代のマルチモーダルな感情と感情分析の問題に対処する一連の共有タスクである: 模倣された感情サブチャレンジ(muse-mimic)では、参加者は3つの連続した感情ターゲットを予測する。
このサブチャレンジは、ユーザ生成ビデオからなるHum-Vidmimicデータセットを利用する。
クロスカルカルチャー・ハマー検出サブチャレンジ(MuSe-Humour)には、パソー・SFCH(Passau-SFCH)データセットの拡張が提供される。
参加者は、異文化間における自発的なユーモアの存在を予測する。
Personalisation Sub-Challenge (MuSe-Personalisation)は、Ulm-Trier Social Stress Test (Ulm-TSST)データセットに基づいており、ストレスのある状況における被験者の記録を特徴としている。
ここで arousal 信号と valence 信号は予測されるが、テストラベルの一部はパーソナライズを容易にするために利用可能である。
MuSe 2023は、音声・視覚的感情認識、自然言語処理、信号処理、健康情報学など、さまざまな研究コミュニティから幅広い読者を集めようとしている。
本論文では,データセット,サブチャレンジュ,特徴セットについて紹介する。
競合するベースラインシステムとしては、GRU(Gated Recurrent Unit)-Recurrent Neural Network(RNN)がある。
各サブチャリエンスの試験データセットでは、平均(連続した3つの強度目標)のピアソン相関係数がミューズミミックで.4727、曲線(auc)で.8310、覚醒で.7482、ミューズパーソナライズサブチャリエンジで.7827となる。 The MuSe 2023 is a set of shared tasks addressing three different contemporary multimodal affect and sentiment analysis problems: In the Mimicked Emotions Sub-Challenge (MuSe-Mimic), participants predict three continuous emotion targets. This sub-challenge utilises the Hume-Vidmimic dataset comprising of user-generated videos. For the Cross-Cultural Humour Detection Sub-Challenge (MuSe-Humour), an extension of the Passau Spontaneous Football Coach Humour (Passau-SFCH) dataset is provided. Participants predict the presence of spontaneous humour in a cross-cultural setting. The Personalisation Sub-Challenge (MuSe-Personalisation) is based on the Ulm-Trier Social Stress Test (Ulm-TSST) dataset, featuring recordings of subjects in a stressed situation. Here, arousal and valence signals are to be predicted, whereas parts of the test labels are made available in order to facilitate personalisation. MuSe 2023 seeks to bring together a broad audience from different research communities such as audio-visual emotion recognition, natural language processing, signal processing, and health informatics. In this baseline paper, we introduce the datasets, sub-challenges, and provided feature sets. As a competitive baseline system, a Gated Recurrent Unit (GRU)-Recurrent Neural Network (RNN) is employed. On the respective sub-challenges' test datasets, it achieves a mean (across three continuous intensity targets) Pearson's Correlation Coefficient of .4727 for MuSe-Mimic, an Area Under the Curve (AUC) value of .8310 for MuSe-Humor and Concordance Correlation Coefficient (CCC) values of .7482 for arousal and .7827 for valence in the MuSe-Personalisation sub-challenge. | 翻訳日:2023-05-08 14:50:21 公開日:2023-05-05 |
# 行動模倣に基づくディープニューラルネットワークの修復 Repairing Deep Neural Networks Based on Behavior Imitation ( http://arxiv.org/abs/2305.03365v1 ) ライセンス: Link先を確認 | Zhen Liang, Taoran Wu, Changyuan Zhao, Wanwei Liu, Bai Xue, Wenjing Yang, Ji Wang | (参考訳) 安全クリティカルなシステムにおけるディープニューラルネットワーク(DNN)の利用の増加は、不適切な行動を示す可能性を懸念している。
DNNの検証とテストは予期せぬ行動に関するポストホックな結論を与えるが、誤った行動の発生を妨げない。
この問題に対処するため、DNNの修復/パッチは、欠陥のあるDNNによって生じる予期せぬ予測を排除することを目的としている。
2つの典型的なDNN修復パラダイムは、リトレーニングと微調整である。
しかし、既存の手法では状態空間の高レベルな抽象的解釈や推論に焦点をあて、基礎となるニューロンの出力を無視している。
これにより、パッチプロセスの計算が禁止され、PWL(Computerwise linear)アクティベーション関数に大きく制限される。
これらの欠点に対処するため,我々は2つの修復パラダイムを初めて統合した行動模倣型修復フレームワークBIRDNNを提案する。
BIRDNNは、再トレーニング修復過程における正のサンプルの最も近い振る舞いを模倣することにより、負のサンプルの誤予測を補正する。
微調整修復プロセスにおいて、BIRDNNは、正および負のサンプル上でのニューロンの行動差を分析し、誤動作に対する最も責任あるニューロンを特定する。
より困難なドメインワイド修復問題 (DRP) に対処するため, BIRDNN をドメイン挙動解析手法で合成し, バグジジ DNN をほぼ正しい方法で修復する。
また、BIRDNNに基づくプロトタイプツールを実装し、ACAS Xu DNNで評価する。
実験の結果, BIRDNNは最先端の修復ツールよりも高い効率でバギーDNNを修復できることがわかった。
さらに、BIRDNNは異なるアクティベーション機能と高度に互換性がある。 The increasing use of deep neural networks (DNNs) in safety-critical systems has raised concerns about their potential for exhibiting ill-behaviors. While DNN verification and testing provide post hoc conclusions regarding unexpected behaviors, they do not prevent the erroneous behaviors from occurring. To address this issue, DNN repair/patch aims to eliminate unexpected predictions generated by defective DNNs. Two typical DNN repair paradigms are retraining and fine-tuning. However, existing methods focus on the high-level abstract interpretation or inference of state spaces, ignoring the underlying neurons' outputs. This renders patch processes computationally prohibitive and limited to piecewise linear (PWL) activation functions to great extent. To address these shortcomings, we propose a behavior-imitation based repair framework, BIRDNN, which integrates the two repair paradigms for the first time. BIRDNN corrects incorrect predictions of negative samples by imitating the closest expected behaviors of positive samples during the retraining repair procedure. For the fine-tuning repair process, BIRDNN analyzes the behavior differences of neurons on positive and negative samples to identify the most responsible neurons for the erroneous behaviors. To tackle more challenging domain-wise repair problems (DRPs), we synthesize BIRDNN with a domain behavior characterization technique to repair buggy DNNs in a probably approximated correct style. We also implement a prototype tool based on BIRDNN and evaluate it on ACAS Xu DNNs. Our experimental results show that BIRDNN can successfully repair buggy DNNs with significantly higher efficiency than state-of-the-art repair tools. Additionally, BIRDNN is highly compatible with different activation functions. | 翻訳日:2023-05-08 14:49:46 公開日:2023-05-05 |
# オフラインモデルに基づく強化学習に関する調査 A Survey on Offline Model-Based Reinforcement Learning ( http://arxiv.org/abs/2305.03360v1 ) ライセンス: Link先を確認 | Haoyang He | (参考訳) モデルベースアプローチは、教師付き学習技術で利用可能な巨大な歴史的データセットを徹底的に活用する能力のため、オフライン強化学習の分野で人気が高まっている。
本稿では,オフライン強化学習におけるモデルベースアプローチを活用したオフラインモデルベース強化学習の最近の研究について文献レビューを行う。
本調査では, オフライン強化学習とモデルベース強化学習の両分野における概念と最近の展開について概説し, 両分野の交点について論じる。
次に,オフラインモデルに基づく強化学習の分野における重要な関連論文を提示し,その方法,特に,現在のオフラインモデルに基づく強化学習手法が直面する主な課題である分布シフト問題を解決するためのアプローチについて論じる。
さらに,この分野が直面する課題を議論し,今後の課題への道筋を示唆する。 Model-based approaches are becoming increasingly popular in the field of offline reinforcement learning, with high potential in real-world applications due to the model's capability of thoroughly utilizing the large historical datasets available with supervised learning techniques. This paper presents a literature review of recent work in offline model-based reinforcement learning, a field that utilizes model-based approaches in offline reinforcement learning. The survey provides a brief overview of the concepts and recent developments in both offline reinforcement learning and model-based reinforcement learning, and discuss the intersection of the two fields. We then presents key relevant papers in the field of offline model-based reinforcement learning and discuss their methods, particularly their approaches in solving the issue of distributional shift, the main problem faced by all current offline model-based reinforcement learning methods. We further discuss key challenges faced by the field, and suggest possible directions for future work. | 翻訳日:2023-05-08 14:49:21 公開日:2023-05-05 |
# Parse-ExecuteからParse-Execute-Refineへ:知識ベースによる複雑な質問応答のための意味解析の改善 From Parse-Execute to Parse-Execute-Refine: Improving Semantic Parser for Complex Question Answering over Knowledge Base ( http://arxiv.org/abs/2305.03356v1 ) ライセンス: Link先を確認 | Wangzhen Guo, Linyin Luo, Hanjiang Lai, Jian Yin | (参考訳) 知識ベース質問応答(KBQA)において,質問を実行可能な論理形式に解析した結果が得られた。
しかし、複雑なKBQAはより困難なタスクであり、複雑な多段階推論を行う必要がある。
近年、複雑なKBQAにおける最先端技術を実現した推論過程を明示的にモデル化するために、KoPLと呼ばれる新しい意味解析器が提案されている。
本稿では,簡単な構文解析-実行-再定義パラダイムを用いて,意味解析の推論能力を解き明かす方法について検討する。
KBQAモデルに対して実行された中間推論ステップを実証することにより、KoPLパーサを洗練・改善する。
このような単純な戦略は、複雑な推論の能力を大幅に改善できることを示します。
具体的には,複雑な推論能力を高めるために,パースステージ,実行ステージ,改良ステージの3つのコンポーネントを提案する。
パーサはKoPLを使用して透明な論理形式を生成する。
そして、実行段階が知識ベース上で論理形式を調整して実行し、中間推論プロセスを得る。
最後に、改良段階におけるKBQAモデルに中間段階の推論過程を示す。
明示的な推論プロセスでは、複雑な質問に答えるのはずっと簡単です。
ベンチマークデータセットの実験では、提案したPER-KBQAは、複雑なKBQAのステージ・オブ・ザ・アートベースラインよりも大幅に性能が向上している。 Parsing questions into executable logical forms has showed impressive results for knowledge-base question answering (KBQA). However, complex KBQA is a more challenging task that requires to perform complex multi-step reasoning. Recently, a new semantic parser called KoPL has been proposed to explicitly model the reasoning processes, which achieved the state-of-the-art on complex KBQA. In this paper, we further explore how to unlock the reasoning ability of semantic parsers by a simple proposed parse-execute-refine paradigm. We refine and improve the KoPL parser by demonstrating the executed intermediate reasoning steps to the KBQA model. We show that such simple strategy can significantly improve the ability of complex reasoning. Specifically, we propose three components: a parsing stage, an execution stage and a refinement stage, to enhance the ability of complex reasoning. The parser uses the KoPL to generate the transparent logical forms. Then, the execution stage aligns and executes the logical forms over knowledge base to obtain intermediate reasoning processes. Finally, the intermediate step-by-step reasoning processes are demonstrated to the KBQA model in the refinement stage. With the explicit reasoning processes, it is much easier to answer the complex questions. Experiments on benchmark dataset shows that the proposed PER-KBQA performs significantly better than the stage-of-the-art baselines on the complex KBQA. | 翻訳日:2023-05-08 14:49:07 公開日:2023-05-05 |
# データセット蒸留に関する総合的研究:性能,プライバシ,ロバスト性,公正性 A Comprehensive Study on Dataset Distillation: Performance, Privacy, Robustness and Fairness ( http://arxiv.org/abs/2305.03355v1 ) ライセンス: Link先を確認 | Zongxiong Chen, Jiahui Geng, Herbert Woisetschlaeger, Sonja Schimmler, Ruben Mayer, Chunming Rong | (参考訳) データセット蒸留の目的は、元のデータセットの豊富な特徴を小さなデータセットにエンコードすることである。
ニューラルネットワークのトレーニングと関連する研究を加速する有望なアプローチである。
蒸留画像のインフォメーション性と一般化性能を改善するために異なるアプローチが提案されている。
しかしながら、セキュリティの観点からこのテクニックを包括的に分析する作業はなく、潜在的なリスクに関する体系的な理解が欠如している。
本研究では,現状のデータセット蒸留法を評価するために,広範囲にわたる実験を行った。
私たちは、プライバシーリスクがまだ残っていることを示すために、メンバーシップ推論攻撃をうまく利用しています。
我々の研究は、データセットの蒸留がモデルロバスト性に様々な影響を及ぼし、予測を行う際にクラス間のモデル不公平性を増幅することを示した。
この研究は、データセットの蒸留評価のための大規模なベンチマークフレームワークを提供する。 The aim of dataset distillation is to encode the rich features of an original dataset into a tiny dataset. It is a promising approach to accelerate neural network training and related studies. Different approaches have been proposed to improve the informativeness and generalization performance of distilled images. However, no work has comprehensively analyzed this technique from a security perspective and there is a lack of systematic understanding of potential risks. In this work, we conduct extensive experiments to evaluate current state-of-the-art dataset distillation methods. We successfully use membership inference attacks to show that privacy risks still remain. Our work also demonstrates that dataset distillation can cause varying degrees of impact on model robustness and amplify model unfairness across classes when making predictions. This work offers a large-scale benchmarking framework for dataset distillation evaluation. | 翻訳日:2023-05-08 14:48:45 公開日:2023-05-05 |
# MindGames:動的認識型モーダル論理を用いた大規模言語モデルにおける心の理論 MindGames: Targeting Theory of Mind in Large Language Models with Dynamic Epistemic Modal Logic ( http://arxiv.org/abs/2305.03353v1 ) ライセンス: Link先を確認 | Damien Sileo and Antoine Lernould | (参考訳) 心の理論 (ToM) は知性の重要な構成要素であるが、正確な測定は議論の対象であり続けている。
以前の研究は、人間が作成した標準テストまたはルールベースのテンプレートを使用して、自然言語処理モデルに人間のトム評価を適用しようと試みた。
しかし、これらの手法は主に単純化された推論に焦点を合わせ、さらなる検証を必要とする。
本研究では,ToMと重なり合う動的エピステミック論理を用いて,より複雑な問題を発生させる。
また,これらの問題を自然言語を用いて表現するための新しい言語化手法を提案する。
以上の結果から,70Mから6B,350Mから174Bまでの言語モデルスケーリングでは,ランダムな確率よりも連続的に結果が得られないことが示唆された。
GPT-4は先天的推論能力の向上を示すが、まだ増強の余地がある。
私たちのコードとデータセットは、https://github.com/antoinelrnld/modlog https://huggingface.co/datasets/sileod/mindgamesで公開されています。 Theory of Mind (ToM) is a critical component of intelligence, yet accurately measuring it continues to be a subject of debate. Prior research has attempted to apply human ToM assessments to natural language processing models using either human-created standardized tests or rule-based templates. However, these methods primarily focus on simplistic reasoning and require further validation. In this study, we utilize dynamic epistemic logic, which has established overlaps with ToM, to generate more intricate problems. We also introduce novel verbalization techniques to express these problems using natural language. Our findings indicate that certain language model scaling (from 70M to 6B and 350M to 174B) does not consistently yield results better than random chance. While GPT-4 demonstrates improved epistemic reasoning capabilities, there is still room for enhancement. Our code and datasets are publicly available https://github.com/antoinelrnld/modlog https://huggingface.co/datasets/sileod/mindgames | 翻訳日:2023-05-08 14:48:32 公開日:2023-05-05 |
# 低照度生雑音化のためのコントラスト学習 Contrastive Learning for Low-light Raw Denoising ( http://arxiv.org/abs/2305.03352v1 ) ライセンス: Link先を確認 | Taoyong Cui, Yuhan Dong | (参考訳) 光子数と高ノイズが限られているため、低光度シーンでの映像/動画のデノージングは極めて難しい問題である。
本稿では,この問題に対処するために,コントラスト学習を用いた新しいアプローチを提案する。
高レベルのコンピュータビジョンタスクで使用されるコントラスト学習の成功に触発されて、我々はこのアイデアを低レベルの認知タスクに持ち込みます。
この目的を達成するために,ノイズの多い画像やクリーンな画像の情報を活用するために,新たにDCR(Denoising contrastive regularization)を導入する。
特徴空間において、dcrは分断された画像をクリーンな画像に近づけ、ノイズの多い画像から遠く離れさせる。
さらに,高頻度情報抽出に有効なwnetと呼ばれる新機能組込みネットワークを構築した。
月のない晴れた夜に撮影された静止画像を0.6ミリルクスで撮影し、starlight (no moon present, <0.001 lux) の下で動画を撮影する。
その結果,既存の手法と比較してPSNRが向上し,視覚品質が向上することが示唆された。 Image/video denoising in low-light scenes is an extremely challenging problem due to limited photon count and high noise. In this paper, we propose a novel approach with contrastive learning to address this issue. Inspired by the success of contrastive learning used in some high-level computer vision tasks, we bring in this idea to the low-level denoising task. In order to achieve this goal, we introduce a new denoising contrastive regularization (DCR) to exploit the information of noisy images and clean images. In the feature space, DCR makes the denoised image closer to the clean image and far away from the noisy image. In addition, we build a new feature embedding network called Wnet, which is more effective to extract high-frequency information. We conduct the experiments on a real low-light dataset that captures still images taken on a moonless clear night in 0.6 millilux and videos under starlight (no moon present, <0.001 lux). The results show that our method can achieve a higher PSNR and better visual quality compared with existing methods | 翻訳日:2023-05-08 14:48:16 公開日:2023-05-05 |
# プロトタイプ学習による葉の品種識別 Leaf Cultivar Identification via Prototype-enhanced Learning ( http://arxiv.org/abs/2305.03351v1 ) ライセンス: Link先を確認 | Yiyi Zhang, Zhiwen Ying, Ying Zheng, Cuiling Wu, Nannan Li, Jun Wang, Xianzhong Feng, Xiaogang Xu | (参考訳) 植物葉の識別は生物多様性の保護と保全に不可欠であり,近年,学界の注目を集めている。
異なる品種間の相似性が高いため、葉の認識は超微細な視覚分類(UFGVC)課題とも考えられており、大きな課題に直面している。
実際には、インスタンスは、UFGVCデータセットにおいて、複数の種類を様々な程度に関連付けることができる。
しかし、1ホットラベルで訓練されたディープラーニング手法は、カテゴリ間で共有されるパターンを反映しないため、このタスクでは不十分である。
この問題に対処するために,クラス間類似情報と統合したソフトターゲットを生成する。
具体的には、各カテゴリの原型的特徴を継続的に更新し、インスタンスとプロトタイプの類似度スコアをキャプチャします。
元のワンホットラベルと類似度スコアが組み込まれ、強化ラベルが得られる。
原型強化ソフトラベルは、もともとの1ホットラベル情報だけでなく、カテゴリ間セマンティックアソシエーション情報も豊富に導入し、ディープモデルトレーニングのためのより効果的な監視を提供する。
公開データセットの広範な実験結果から,本手法は葉品種識別のufgvcタスクの性能を著しく向上できることが示された。 Plant leaf identification is crucial for biodiversity protection and conservation and has gradually attracted the attention of academia in recent years. Due to the high similarity among different varieties, leaf cultivar recognition is also considered to be an ultra-fine-grained visual classification (UFGVC) task, which is facing a huge challenge. In practice, an instance may be related to multiple varieties to varying degrees, especially in the UFGVC datasets. However, deep learning methods trained on one-hot labels fail to reflect patterns shared across categories and thus perform poorly on this task. To address this issue, we generate soft targets integrated with inter-class similarity information. Specifically, we continuously update the prototypical features for each category and then capture the similarity scores between instances and prototypes accordingly. Original one-hot labels and the similarity scores are incorporated to yield enhanced labels. Prototype-enhanced soft labels not only contain original one-hot label information, but also introduce rich inter-category semantic association information, thus providing more effective supervision for deep model training. Extensive experimental results on public datasets show that our method can significantly improve the performance on the UFGVC task of leaf cultivar identification. | 翻訳日:2023-05-08 14:47:57 公開日:2023-05-05 |
# マルチクラスニューラルネットワークによるトレーニングデータの再構成 Reconstructing Training Data from Multiclass Neural Networks ( http://arxiv.org/abs/2305.03350v1 ) ライセンス: Link先を確認 | Gon Buzaglo, Niv Haim, Gilad Yehudai, Gal Vardi and Michal Irani | (参考訳) トレーニングされたニューラルネットワークのトレーニングセットからサンプルを再構成することは、プライバシの大きな懸念である。
Haim et al. (2022) は、勾配法の暗黙バイアスに関する理論的結果に基づいて、ニューラルネットワークバイナリ分類器からトレーニングサンプルを再構築可能であることを示した。
この作業では、前回の作業に対するいくつかの改善と新たな洞察を提示します。
主な改善点として,多クラス設定ではトレーニングデータ再構成が可能であり,二分分類の場合よりも再構築品質がさらに高いことを示す。
さらに,トレーニング中に重み付けを使用すると,サンプル再構成の脆弱性が増大することを示した。
最後に、前回の作業では、トレーニングセットのサイズは10ドルクラスから1,000ドル以上でしたが、100ドルクラスから5000ドルサンプルでトレーニングされたモデルから再構築できることの予備的な証拠を示します。 Reconstructing samples from the training set of trained neural networks is a major privacy concern. Haim et al. (2022) recently showed that it is possible to reconstruct training samples from neural network binary classifiers, based on theoretical results about the implicit bias of gradient methods. In this work, we present several improvements and new insights over this previous work. As our main improvement, we show that training-data reconstruction is possible in the multi-class setting and that the reconstruction quality is even higher than in the case of binary classification. Moreover, we show that using weight-decay during training increases the vulnerability to sample reconstruction. Finally, while in the previous work the training set was of size at most $1000$ from $10$ classes, we show preliminary evidence of the ability to reconstruct from a model trained on $5000$ samples from $100$ classes. | 翻訳日:2023-05-08 14:47:37 公開日:2023-05-05 |
# 次の近接イジングモデルにおけるニューラルネットワーク量子状態の教師付きトレーニング Supervised Training of Neural-Network Quantum States for the Next Nearest Neighbor Ising model ( http://arxiv.org/abs/2305.03394v1 ) ライセンス: Link先を確認 | Zheyu Wu, Remmy Zen, Heitor P. Casagrande, St\'ephane Bressan, Dario Poletti | (参考訳) ニューラルネットワークは量子状態を表現するために使用できる。
本稿では,多層パーセプトロンの教師あり学習戦略について検討・比較する。
特に、平均二乗誤差と重なりと呼ばれる2つの異なる損失関数を考察し、異なる位相における波動関数の性能をテストする。
そこで本研究では,その基底状態が相異なるため,次のアレスト近傍のIsingモデルを考える。
これらの相のうち, 常磁性, 強磁性, 対反強磁性相に焦点をあてる一方, 訓練では, バッチサイズ, サンプル数, ニューラルネットワークのサイズについて検討した。
重なり損失関数によって、ニューラルネットワークをリスケールすれば、すべてのフェーズでモデルをよりよくトレーニングすることができます。 Neural networks can be used to represent quantum states. Here we explore and compare different strategies for supervised learning of multilayer perceptrons. In particular, we consider two different loss functions which we refer to as mean-squared error and overlap, and we test their performance for the wave function in different phases of matter. For this, we consider the next-nearest neighbor Ising model because its ground state can be in various different phases. Of these phases, we focus on the paramagnetic, ferromagnetic, and pair-antiferromagnetic phases, while for the training we study the role of batch size, number of samples, and size of the neural network. We observe that the overlap loss function allows us to train the model better across all phases, provided one rescales the neural network. | 翻訳日:2023-05-08 14:42:27 公開日:2023-05-05 |
# テーブル構造認識のための最適化テーブルトークン化 Optimized Table Tokenization for Table Structure Recognition ( http://arxiv.org/abs/2305.03393v1 ) ライセンス: Link先を確認 | Maksym Lysak, Ahmed Nassar, Nikolaos Livathinos, Christoph Auer, Peter Staar | (参考訳) ドキュメントからテーブルを抽出することは、どんなドキュメント変換パイプラインでも重要なタスクです。
近年, 変換器を用いたモデルでは, Image-to-Markup-Sequence (Im2Seq) を用いてテーブル構造を精度良く認識できることが示されている。
テーブルのイメージのみを用いて、そのようなモデルはテーブルの構造を表すトークンのシーケンス(例えばHTML、LaTeX)を予測する。
テーブル構造のトークン表現は,任意のIm2Seqモデルの精度と実行時間性能に大きな影響を及ぼすので,テーブル構造表現の最適化について検討する。
本稿では,最小限の語彙と特定の規則を持つテーブル構造言語(OTSL)を提案する。
OTSLの利点は、トークンの数を5に減らし(HTMLは28以上必要)、シーケンスの長さを平均で半分に短縮することである。
その結果、モデル精度は向上し、推論時間はHTMLベースのモデルに比べて半減し、予測テーブル構造は常に構文的に正しい。
これにより、ほとんどの後処理の必要性がなくなる。 Extracting tables from documents is a crucial task in any document conversion pipeline. Recently, transformer-based models have demonstrated that table-structure can be recognized with impressive accuracy using Image-to-Markup-Sequence (Im2Seq) approaches. Taking only the image of a table, such models predict a sequence of tokens (e.g. in HTML, LaTeX) which represent the structure of the table. Since the token representation of the table structure has a significant impact on the accuracy and run-time performance of any Im2Seq model, we investigate in this paper how table-structure representation can be optimised. We propose a new, optimised table-structure language (OTSL) with a minimized vocabulary and specific rules. The benefits of OTSL are that it reduces the number of tokens to 5 (HTML needs 28+) and shortens the sequence length to half of HTML on average. Consequently, model accuracy improves significantly, inference time is halved compared to HTML-based models, and the predicted table structures are always syntactically correct. This in turn eliminates most post-processing needs. | 翻訳日:2023-05-08 14:42:13 公開日:2023-05-05 |
# グラフ中心性に基づくフィルタプルーニングによる音声cnn圧縮 Compressing audio CNNs with graph centrality based filter pruning ( http://arxiv.org/abs/2305.03391v1 ) ライセンス: Link先を確認 | James A King, Arshdeep Singh, Mark D. Plumbley | (参考訳) 畳み込みニューラルネットワーク(CNN)は、音声分類のような現実世界の多くの問題に対する高性能なソリューションにおいて一般的な場所である。
CNNには多くのパラメータとフィルタがあり、一部は他のものよりもパフォーマンスに大きな影響を与えている。
つまり、ネットワークには多くの不要なフィルタが含まれ、cnnの計算とメモリ要件を増加させながら、性能上のメリットも限定される。
CNNをより効率的にするために、最も高い「共通性」を持つフィルタを除去するプルーニングフレームワークを提案する。
この共通性は、グラフ理論の「中央性」の概念を用いて測定する。
ネットワークの性能に大きな影響を与えることなく,共通性を表現し,他のフィルタに置き換えることができるため,集中度の高いフィルタは排除されるべきであると仮定する。
音響シーン分類と音響タグ付けについて,提案手法の実験的検討を行った。
提案手法は,dcase 2021タスク1aベースラインネットワークにおいて,推定当たりの計算量を 71 % 削減し,50 % のパラメータを元のネットワークと比較して2 %未満の精度で削減する。
音声タグ付け用に設計されたPANNなどの大規模CNNでは,少ないパラメータで推論当たり24 %の計算を削減し,性能をわずかに向上させる。 Convolutional neural networks (CNNs) are commonplace in high-performing solutions to many real-world problems, such as audio classification. CNNs have many parameters and filters, with some having a larger impact on the performance than others. This means that networks may contain many unnecessary filters, increasing a CNN's computation and memory requirements while providing limited performance benefits. To make CNNs more efficient, we propose a pruning framework that eliminates filters with the highest "commonality". We measure this commonality using the graph-theoretic concept of "centrality". We hypothesise that a filter with a high centrality should be eliminated as it represents commonality and can be replaced by other filters without affecting the performance of a network much. An experimental evaluation of the proposed framework is performed on acoustic scene classification and audio tagging. On the DCASE 2021 Task 1A baseline network, our proposed method reduces computations per inference by 71\% with 50\% fewer parameters at less than a two percentage point drop in accuracy compared to the original network. For large-scale CNNs such as PANNs designed for audio tagging, our method reduces 24\% computations per inference with 41\% fewer parameters at a slight improvement in performance. | 翻訳日:2023-05-08 14:41:55 公開日:2023-05-05 |
# QAOAによる継続的最適化問題の解決においてPUBOがQUBOを上回っている証拠 Evidence that PUBO outperforms QUBO when solving continuous optimization problems with the QAOA ( http://arxiv.org/abs/2305.03390v1 ) ライセンス: Link先を確認 | Jonas Stein, Farbod Chamanian, Maximilian Zorn, Jonas N\"u{\ss}lein, Sebastian Zielinski, Michael K\"olle and Claudia Linnhoff-Popien | (参考訳) 量子コンピューティングは、特定の最適化タスクにおいて確立された古典的解法よりも優れる強力なアルゴリズムツールを提供する。
量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)のような既知の量子アルゴリズムによる最適化問題の解法は、問題の定式化である。
量子最適化は歴史的に擬似非制約最適化(QUBO)問題を中心に研究されてきたが、最近の研究では、TSPのような多くの組合せ問題は、それらの固有多項式非制約最適化(PUBO)形式でより効率的に解けることが示されている。
実際に多くの最適化問題が連続変数を含むため、PUBOとQUBOの定式化における連続最適化問題の解法におけるQAOAの性能について検討する。
適切なベンチマーク関数を広範囲に評価した結果,puboの定式化は一般的により良い結果をもたらすが,キュービットは少ない。
PUBO変種に必要なマルチキュービットの相互作用は、現在利用可能なハードウェアゲート、すなわち、シングルキュービットゲートと2キュービットゲートを使って分解する必要があるため、PUBOアプローチの回路深さは、目的関数の順にほぼ線形にQUBOの代替品をオーバースケールする。
しかし,グローバル・モルマー・ソレンソンゲートなどのネイティブなマルチキュービットゲートの追加が計画されていることから,PUBOはQUBOよりも高次連続最適化に優れていたことが示唆された。 Quantum computing provides powerful algorithmic tools that have been shown to outperform established classical solvers in specific optimization tasks. A core step in solving optimization problems with known quantum algorithms such as the Quantum Approximate Optimization Algorithm (QAOA) is the problem formulation. While quantum optimization has historically centered around Quadratic Unconstrained Optimization (QUBO) problems, recent studies show, that many combinatorial problems such as the TSP can be solved more efficiently in their native Polynomial Unconstrained Optimization (PUBO) forms. As many optimization problems in practice also contain continuous variables, our contribution investigates the performance of the QAOA in solving continuous optimization problems when using PUBO and QUBO formulations. Our extensive evaluation on suitable benchmark functions, shows that PUBO formulations generally yield better results, while requiring less qubits. As the multi-qubit interactions needed for the PUBO variant have to be decomposed using the hardware gates available, i.e., currently single- and two-qubit gates, the circuit depth of the PUBO approach outscales its QUBO alternative roughly linearly in the order of the objective function. However, incorporating the planned addition of native multi-qubit gates such as the global Molmer-Sorenson gate, our experiments indicate that PUBO outperforms QUBO for higher order continuous optimization problems in general. | 翻訳日:2023-05-08 14:41:34 公開日:2023-05-05 |
# AsConvSR: 集合的畳み込みを伴う高速軽量超解法ネットワーク AsConvSR: Fast and Lightweight Super-Resolution Network with Assembled Convolutions ( http://arxiv.org/abs/2305.03387v1 ) ライセンス: Link先を確認 | Jiaming Guo, Xueyi Zou, Yuyi Chen, Yi Liu, Jia Hao, Jianzhuang Liu, Youliang Yan | (参考訳) 近年、テレビ、携帯電話、VRなどのディスプレイデバイスでは、720p (HD)、1080p (FHD)、および4K (UHD)解像度のビデオや画像が普及している。
しかし、これらの高解像度画像は、インターネット帯域幅の制限により、期待される視覚効果を達成できず、超高解像度ネットワークがリアルタイム性能を達成するための大きな課題をもたらす。
この課題に続き、画素アンシャッフル、繰り返しアップスケーリング、ローカルスキップ接続除去といった複数の効率的なネットワーク設計を検討し、高速で軽量な超解像ネットワークを提案する。
さらに,超解像における分割・畳み込みの概念の適用性を解析することにより,入力特徴に応じて畳み込みカーネルを適応できる組込み畳み込みを提案する。
実験により,本手法はすべての高効率超解像モデルより優れ,実行時間と品質の面で最適な結果が得られることが示唆された。
さらに、ntire 2023 real-time super- resolutiontrack 1 (\times$2) で1位を獲得している。
コードはhttps://gitee.com/mindspore/models/tree/master/research/cv/AsConvSRで入手できる。 In recent years, videos and images in 720p (HD), 1080p (FHD) and 4K (UHD) resolution have become more popular for display devices such as TVs, mobile phones and VR. However, these high resolution images cannot achieve the expected visual effect due to the limitation of the internet bandwidth, and bring a great challenge for super-resolution networks to achieve real-time performance. Following this challenge, we explore multiple efficient network designs, such as pixel-unshuffle, repeat upscaling, and local skip connection removal, and propose a fast and lightweight super-resolution network. Furthermore, by analyzing the applications of the idea of divide-and-conquer in super-resolution, we propose assembled convolutions which can adapt convolution kernels according to the input features. Experiments suggest that our method outperforms all the state-of-the-art efficient super-resolution models, and achieves optimal results in terms of runtime and quality. In addition, our method also wins the first place in NTIRE 2023 Real-Time Super-Resolution - Track 1 ($\times$2). The code will be available at https://gitee.com/mindspore/models/tree/master/research/cv/AsConvSR | 翻訳日:2023-05-08 14:41:04 公開日:2023-05-05 |
# wwfedcbmir:世界規模のフェデレーションコンテンツに基づく医用画像検索 WWFedCBMIR: World-Wide Federated Content-Based Medical Image Retrieval ( http://arxiv.org/abs/2305.03383v1 ) ライセンス: Link先を確認 | Zahra Tabatabaei, Yuandou Wang, Adri\'an Colomer, Javier Oliver Moll, Zhiming Zhao, Valery Naranjo | (参考訳) 本稿では,federated learning(fl)を活用したfederated content-based medical image retrieval(fedcbmir)プラットフォームを提案する。
cbmirは、従来のがん検出法と比較して、前例における類似の医療画像や関連するパッチを同定することで、より迅速に乳癌の診断を支援する。
しかし、病理学におけるCBMIRは、全スライド画像(WSI)のプールを訓練し、検索エンジンのパフォーマンスを活用する最適な埋め込みベクトルを抽出する必要がある。
医療データセットにおけるデータ共有に関する厳格な規制は、研究やモデル開発を妨げるため、リッチデータセットの収集も困難である。
提案したFedCBMIRは、データセットを共有せずにトレーニングセンターにモデルを配布することで、ローカルトレーニングよりもトレーニング時間を短縮する。
FedCBMIR は BreaKHis と Camelyon17 (CAM17) の3つのシナリオで2つの実験で評価された。
この研究は、FedCBMIR法が4倍の一般化モデルを用いて、各クライアントのF1スコア(F1S)を98%、96%、94%、97%に増加させ、全局所訓練よりも6.30時間短縮できることを示した。
FedCBMIRは、ローカルトレーニングよりも2.49時間少ないトレーニング時間でCAM17の98%の精度を実現しています。
また,FedCBMIRは,先進国と世界規模のFedCBMIRに参加する非先進国に対して,乳がん診断におけるミトーシス測定を容易にするため,同様の画像を提供する。
このシナリオを,異なる倍率を持つ4つの中心に分割して評価する。 The paper proposes a Federated Content-Based Medical Image Retrieval (FedCBMIR) platform that utilizes Federated Learning (FL) to address the challenges of acquiring a diverse medical data set for training CBMIR models. CBMIR assists pathologists in diagnosing breast cancer more rapidly by identifying similar medical images and relevant patches in prior cases compared to traditional cancer detection methods. However, CBMIR in histopathology necessitates a pool of Whole Slide Images (WSIs) to train to extract an optimal embedding vector that leverages search engine performance, which may not be available in all centers. The strict regulations surrounding data sharing in medical data sets also hinder research and model development, making it difficult to collect a rich data set. The proposed FedCBMIR distributes the model to collaborative centers for training without sharing the data set, resulting in shorter training times than local training. FedCBMIR was evaluated in two experiments with three scenarios on BreaKHis and Camelyon17 (CAM17). The study shows that the FedCBMIR method increases the F1-Score (F1S) of each client to 98%, 96%, 94%, and 97% in the BreaKHis experiment with a generalized model of four magnifications and does so in 6.30 hours less time than total local training. FedCBMIR also achieves 98% accuracy with CAM17 in 2.49 hours less training time than local training, demonstrating that our FedCBMIR is both fast and accurate for both pathologists and engineers. In addition, our FedCBMIR provides similar images with higher magnification for non-developed countries where participate in the worldwide FedCBMIR with developed countries to facilitate mitosis measuring in breast cancer diagnosis. We evaluate this scenario by scattering BreaKHis into four centers with different magnifications. | 翻訳日:2023-05-08 14:40:44 公開日:2023-05-05 |
# 拡散モデルにおける初期画像編集によるガイド画像合成 Guided Image Synthesis via Initial Image Editing in Diffusion Model ( http://arxiv.org/abs/2305.03382v1 ) ライセンス: Link先を確認 | Jiafeng Mao, Xueting Wang and Kiyoharu Aizawa | (参考訳) 拡散モデルでは、純ガウスノイズ画像から高品質な画像を生成することができる。
従来の研究は主にノイズ除去過程の調整による画像生成の制御の改善に重点を置いてきたが,本稿では初期雑音を操作して生成画像を制御する新しい方向を提案する。
安定拡散実験により,初期潜在画像中の画素のブロックは特定のコンテンツを生成するのに好適であり,これらのブロックの修正が生成画像に大きな影響を与えることを示した。
特に,初期画像の一部の変更が生成した画像の対応する領域に影響を及ぼし,他の領域に影響を与えないことを示す。
さらに,画素ブロックの生成嗜好は,その位置ではなく,主にその値によって決定されることがわかった。
ユーザ要求のコンテンツを生成する傾向のあるピクセルブロックをユーザ指定領域に移動させることで,レイアウト・画像生成における最先端の性能を実現する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。 Diffusion models have the ability to generate high quality images by denoising pure Gaussian noise images. While previous research has primarily focused on improving the control of image generation through adjusting the denoising process, we propose a novel direction of manipulating the initial noise to control the generated image. Through experiments on stable diffusion, we show that blocks of pixels in the initial latent images have a preference for generating specific content, and that modifying these blocks can significantly influence the generated image. In particular, we show that modifying a part of the initial image affects the corresponding region of the generated image while leaving other regions unaffected, which is useful for repainting tasks. Furthermore, we find that the generation preferences of pixel blocks are primarily determined by their values, rather than their position. By moving pixel blocks with a tendency to generate user-desired content to user-specified regions, our approach achieves state-of-the-art performance in layout-to-image generation. Our results highlight the flexibility and power of initial image manipulation in controlling the generated image. | 翻訳日:2023-05-08 14:40:09 公開日:2023-05-05 |
# ロングテール認識における効果的な協調学習に向けて Towards Effective Collaborative Learning in Long-Tailed Recognition ( http://arxiv.org/abs/2305.03378v1 ) ライセンス: Link先を確認 | Zhengzhuo Xu and Zenghao Chai and Chengyin Xu and Chun Yuan and Haiqin Yang | (参考訳) 実世界のデータは通常、過度な階級不均衡と長い尾の分布に悩まされ、少数派は多数派に比べて著しく過小評価されている。
近年の研究では、専門家の知識、すなわちオンライン蒸留を集約するために協調学習が用いられるマイノリティにおけるモデルの不確実性を緩和するために、マルチエキスパートアーキテクチャを利用するのが好ましい。
本稿では,クラス分布の観点から専門家間の知識伝達が不均衡であり,マイノリティクラスの性能改善が限定されていることを観察する。
そこで本研究では,オンライン蒸留とラベルアノテーションによる2つの分類器の予測を比較して,再加重蒸留損失を提案する。
また, 機能レベルの蒸留はモデル性能を著しく向上し, 機能的堅牢性を高めることも強調した。
最後に,機能品質をさらに向上させるために,対照的なプロキシタスクブランチを統合する効果的な協調学習(ecl)フレームワークを提案する。
4つの標準データセットの定量的および定性的な実験により、ECLが最先端の性能を達成し、詳細なアブレーション研究により、ECLの各コンポーネントの有効性が示された。 Real-world data usually suffers from severe class imbalance and long-tailed distributions, where minority classes are significantly underrepresented compared to the majority ones. Recent research prefers to utilize multi-expert architectures to mitigate the model uncertainty on the minority, where collaborative learning is employed to aggregate the knowledge of experts, i.e., online distillation. In this paper, we observe that the knowledge transfer between experts is imbalanced in terms of class distribution, which results in limited performance improvement of the minority classes. To address it, we propose a re-weighted distillation loss by comparing two classifiers' predictions, which are supervised by online distillation and label annotations, respectively. We also emphasize that feature-level distillation will significantly improve model performance and increase feature robustness. Finally, we propose an Effective Collaborative Learning (ECL) framework that integrates a contrastive proxy task branch to further improve feature quality. Quantitative and qualitative experiments on four standard datasets demonstrate that ECL achieves state-of-the-art performance and the detailed ablation studies manifest the effectiveness of each component in ECL. | 翻訳日:2023-05-08 14:39:44 公開日:2023-05-05 |
# 幽霊を説明する:フェミニスト交叉xaiと地図学 : 目に見えない労働を説明する方法として Explaining the ghosts: Feminist intersectional XAI and cartography as methods to account for invisible labour ( http://arxiv.org/abs/2305.03376v1 ) ライセンス: Link先を確認 | Goda Klumbyte, Hannah Piehl, Claude Draude | (参考訳) 現代のAIによる自動化には、相当量の舞台裏の人間の労働が必要です。
ラベル付けや保守作業を含む目に見えない労働は、現代のAIシステムにとって不可欠な部分であるため、ユーザをその役割に感化させることは依然として重要です。
これは、説明可能なAI(XAI)設計、特にフェミニストの交差点XAIによって実現可能であることを示唆する。
本稿では,フェミニストの交叉研究に端を発するカルトグラフィー手法を提案し,AIのシステム的視点を抽出し,目に見えない労働に関連するAIの次元を含める。 Contemporary automation through AI entails a substantial amount of behind-the-scenes human labour, which is often both invisibilised and underpaid. Since invisible labour, including labelling and maintenance work, is an integral part of contemporary AI systems, it remains important to sensitise users to its role. We suggest that this could be done through explainable AI (XAI) design, particularly feminist intersectional XAI. We propose the method of cartography, which stems from feminist intersectional research, to draw out a systemic perspective of AI and include dimensions of AI that pertain to invisible labour. | 翻訳日:2023-05-08 14:39:12 公開日:2023-05-05 |
# フェミニスト間XAIに向けて:説明可能性から反応能力へ Towards Feminist Intersectional XAI: From Explainability to Response-Ability ( http://arxiv.org/abs/2305.03375v1 ) ライセンス: Link先を確認 | Goda Klumbyte, Hannah Piehl, Claude Draude | (参考訳) 本稿では,交叉型,フェミニスト型,デコロニア型hci,およびai設計のコンピューティングと概念化に対する批判的アプローチを求め,hcxai研究と設計におけるフェミニスト交叉的視点がどのようなものになるのかを問う。
フェミニストの視点からの説明可能性には、AIシステムに対して批判的に評価し、反応する能力である応答能力の育成と、その中心となる限界的な視点が含まれる、と同社は示唆している。 This paper follows calls for critical approaches to computing and conceptualisations of intersectional, feminist, decolonial HCI and AI design and asks what a feminist intersectional perspective in HCXAI research and design might look like. Sketching out initial research directions and implications for explainable AI design, it suggests that explainability from a feminist perspective would include the fostering of response-ability - the capacity to critically evaluate and respond to AI systems - and would centre marginalised perspectives. | 翻訳日:2023-05-08 14:38:52 公開日:2023-05-05 |
# CNNアーキテクチャ設計のための長さ制約の下での進化 Evolution under Length Constraints for CNN Architecture design ( http://arxiv.org/abs/2305.03416v1 ) ライセンス: Link先を確認 | Ousmane Youme, Jean Marie Dembele, Eugene C. Ezin, Christophe Cambier | (参考訳) 近年、進化アルゴリズムによって設計されたcnnアーキテクチャは、専門家が設計した手作りアーキテクチャと競合することが証明されている。
しかし、これらのアルゴリズムには多くの計算能力が必要であり、ほとんどの研究者やエンジニアの能力を超えている。
この問題を解決するために,長さ制約下での進化的アーキテクチャを提案する。
最適な空間を見つけるための探索長戦略と、最適な空間で最適な個人を見つけるための遺伝的アルゴリズムに基づく探索アーキテクチャ戦略の2つのアルゴリズムから構成される。
我々のアルゴリズムは資源コストを大幅に削減し、優れた性能を維持する。
cifar-10データセットでは、ピアコンペティションにおける最小コストの自動進化アルゴリズムよりも1日に最適な-22 gpuに収束するエラーレートが5.12%と4.6 gpuという優れた性能を示す。 In recent years, the CNN architectures designed by evolution algorithms have proven to be competitive with handcrafted architectures designed by experts. However, these algorithms need a lot of computational power, which is beyond the capabilities of most researchers and engineers. To overcome this problem, we propose an evolution architecture under length constraints. It consists of two algorithms: a search length strategy to find an optimal space and a search architecture strategy based on genetic algorithm to find the best individual in the optimal space. Our algorithms reduce drastically resource cost and also keep good performance. On the Cifar-10 dataset, our framework presents outstanding performance with an error rate of 5.12% and only 4.6 GPU a day to converge to the optimal individual -22 GPU a day less than the lowest cost automatic evolutionary algorithm in the peer competition. | 翻訳日:2023-05-08 14:31:47 公開日:2023-05-05 |
# 適応グラフ畳み込みサブスペースクラスタリング Adaptive Graph Convolutional Subspace Clustering ( http://arxiv.org/abs/2305.03414v1 ) ライセンス: Link先を確認 | Lai Wei, Zhengwei Chen, Jun Yin, Changming Zhu, Rigui Zhou, Jin Liu | (参考訳) スペクトル型サブスペースクラスタリングアルゴリズムは多くのサブスペースクラスタリングアプリケーションにおいて優れた性能を示している。
既存のスペクトル型サブスペースクラスタリングアルゴリズムは、再構成係数行列の制約設計や、元のデータサンプルの潜伏した特徴を見つけるための特徴抽出に重点を置いている。
本稿では,グラフ畳み込みネットワークに着想を得たグラフ畳み込み手法を用いて,特徴抽出法と係数行列制約を同時に開発する。
また,提案アルゴリズムでは,グラフ畳み込み演算子を反復的かつ適応的に更新する。
そこで,提案手法を適応グラフ畳み込みサブスペースクラスタリング (AGCSC) と呼ぶ。
AGCSCを用いることで、元のデータサンプルの集合的特徴表現がサブスペースクラスタリングに適しており、係数行列は元のデータセットのサブスペース構造をより忠実に明らかにすることができる。
最後に、多くのサブスペースクラスタリング実験が我々の結論を証明し、AGCSCが関連する手法や深層モデルよりも優れていることを示す。 Spectral-type subspace clustering algorithms have shown excellent performance in many subspace clustering applications. The existing spectral-type subspace clustering algorithms either focus on designing constraints for the reconstruction coefficient matrix or feature extraction methods for finding latent features of original data samples. In this paper, inspired by graph convolutional networks, we use the graph convolution technique to develop a feature extraction method and a coefficient matrix constraint simultaneously. And the graph-convolutional operator is updated iteratively and adaptively in our proposed algorithm. Hence, we call the proposed method adaptive graph convolutional subspace clustering (AGCSC). We claim that by using AGCSC, the aggregated feature representation of original data samples is suitable for subspace clustering, and the coefficient matrix could reveal the subspace structure of the original data set more faithfully. Finally, plenty of subspace clustering experiments prove our conclusions and show that AGCSC outperforms some related methods as well as some deep models. | 翻訳日:2023-05-08 14:31:34 公開日:2023-05-05 |
# 関節構造と拡散MRIによる視床核の領域依存性セグメンテーション Domain-agnostic segmentation of thalamic nuclei from joint structural and diffusion MRI ( http://arxiv.org/abs/2305.03413v1 ) ライセンス: Link先を確認 | Henry F. J. Tregidgo, Sonja Soskic, Mark D. Olchanyi, Juri Althonayan, Benjamin Billot, Chiara Maffei, Polina Golland, Anastasia Yendiki, Daniel C. Alexander, Martina Bocchetta, Jonathan D. Rohrer, and Juan Eugenio Iglesias | (参考訳) ヒトの視床は脳内で高度に結合した皮質下灰白質構造である。
機能と接続性の異なる数十の核から構成されており、疾患によって異なる影響を受ける。
そのため、in vivoでのMRIによる視床核の研究への関心が高まっている。
視床を1mmのT1スキャンから切り離すためのツールもあるが、外側と内側の境界のコントラストは弱く、信頼できるセグメンテーションを生成する。
拡散MRIからの情報をセグメント化に組み込んでこれらの境界を洗練させようとするツールもあるが、拡散MRIの取得ではうまく一般化しない。
本稿では,t1から視床核をセグメンテーションできる最初のcnnと,再訓練や微調整を行わずに任意の解像度の拡散データを示す。
本手法は,最近のベイズ適応セグメンテーションツールを用いて得られた高品質拡散データに基づいて,視床核と銀標準セグメンテーションの公衆組織学的アトラスを構築した。
これらを,訓練中の高速領域ランダム化のための近似分解モデルと組み合わせる。
我々のCNNは入力の解像度に関係なく0.7mm等方分解能のセグメンテーションを生成する。
さらに、各ボクセル(フラクショナル異方性および主固有ベクトル)における拡散信号の擬似モデルを用いて、膨大なレガシデータを含む任意の方向とb値の組と互換性がある。
多数の異なるスキャナー上で得られた3つの異種データセットに対して提案手法の結果を示す。
このメソッドの実装はhttps://freesurfer.net/fswiki/ThalamicNucleiDTIで公開されている。 The human thalamus is a highly connected subcortical grey-matter structure within the brain. It comprises dozens of nuclei with different function and connectivity, which are affected differently by disease. For this reason, there is growing interest in studying the thalamic nuclei in vivo with MRI. Tools are available to segment the thalamus from 1 mm T1 scans, but the contrast of the lateral and internal boundaries is too faint to produce reliable segmentations. Some tools have attempted to incorporate information from diffusion MRI in the segmentation to refine these boundaries, but do not generalise well across diffusion MRI acquisitions. Here we present the first CNN that can segment thalamic nuclei from T1 and diffusion data of any resolution without retraining or fine tuning. Our method builds on a public histological atlas of the thalamic nuclei and silver standard segmentations on high-quality diffusion data obtained with a recent Bayesian adaptive segmentation tool. We combine these with an approximate degradation model for fast domain randomisation during training. Our CNN produces a segmentation at 0.7 mm isotropic resolution, irrespective of the resolution of the input. Moreover, it uses a parsimonious model of the diffusion signal at each voxel (fractional anisotropy and principal eigenvector) that is compatible with virtually any set of directions and b-values, including huge amounts of legacy data. We show results of our proposed method on three heterogeneous datasets acquired on dozens of different scanners. An implementation of the method is publicly available at https://freesurfer.net/fswiki/ThalamicNucleiDTI. | 翻訳日:2023-05-08 14:31:18 公開日:2023-05-05 |
# 自律システムの信頼性評価 Assessing Trustworthiness of Autonomous Systems ( http://arxiv.org/abs/2305.03411v1 ) ライセンス: Link先を確認 | Gregory Chance and Dhaminda B. Abeywickrama and Beckett LeClair and Owen Kerr and Kerstin Eder | (参考訳) 社会において、自律システム(AS)がよりユビキタスになり、より安全とそれとの相互作用に責任を負うようになり、それらが信頼に値することが不可欠である。
ASの信頼性を評価することは、検証と開発コミュニティにとって必須の課題である。
これは、現在および将来の幅広いアプリケーションにおいて、ASの信頼性を客観的かつ相対的に判断するのに役立つ適切な標準と適切なメトリクスを必要とします。
信頼度」というメタ表現は、文献でこの用語を構成する関連する性質を捉えるという文脈で検討される。
自律システムの保証をサポートする標準とフレームワークの最近の進展を概観する。
コミュニティにとって重要な課題のリストが特定され、ASの信頼性評価フレームワークとして使用できるプロセスの概要を示す。 As Autonomous Systems (AS) become more ubiquitous in society, more responsible for our safety and our interaction with them more frequent, it is essential that they are trustworthy. Assessing the trustworthiness of AS is a mandatory challenge for the verification and development community. This will require appropriate standards and suitable metrics that may serve to objectively and comparatively judge trustworthiness of AS across the broad range of current and future applications. The meta-expression `trustworthiness' is examined in the context of AS capturing the relevant qualities that comprise this term in the literature. Recent developments in standards and frameworks that support assurance of autonomous systems are reviewed. A list of key challenges are identified for the community and we present an outline of a process that can be used as a trustworthiness assessment framework for AS. | 翻訳日:2023-05-08 14:30:56 公開日:2023-05-05 |
# 2次元原子空洞系における高次トポロジカルピエルス絶縁体 Higher-order topological Peierls insulator in a two-dimensional atom-cavity system ( http://arxiv.org/abs/2305.03409v1 ) ライセンス: Link先を確認 | Joana Fraxanet, Alexandre Dauphin, Maciej Lewenstein, Luca Barbiero and Daniel Gonz\'alez-Cuadra | (参考訳) 本研究では,光キャビティ内の超低温ボソニック原子の二次元系を調査し,光子相互作用が原子基底状態においてプラーペット秩序の結合パターンをいかに生み出すかを示す。
後者は2次元ピエルス転移に対応し、1D Su-Schrieffer-Heeger (SSH) モデルにおけるフォノン-電子相互作用によって誘導される自発的な結合二量体化を一般化する。
ここで原子のボソニック性は相を生成する上で重要な役割を果たすが、フェルミオン性物質との類似した一般化はプラーペット構造を導くことはない。
SSHモデルと同様に、このパターンが2Dの非自明な位相ギャップを開き、多体位相不変量とエンタングルメント構造によって特徴付けられる高次位相ホストコーナー状態をもたらすことを示す。
最後に, この高次位相パイエルス絶縁体が, 断熱プロトコルを用いて原子実験で容易に作成できることを示す。
そこで本研究では, 原子量子シミュレータを用いて, 天然物質以外の新しい強相関型トポロジカル現象を解明する。 In this work, we investigate a two-dimensional system of ultracold bosonic atoms inside an optical cavity, and show how photon-mediated interactions give rise to a plaquette-ordered bond pattern in the atomic ground state. The latter corresponds to a 2D Peierls transition, generalizing the spontaneous bond dimmerization driven by phonon-electron interactions in the 1D Su-Schrieffer-Heeger (SSH) model. Here the bosonic nature of the atoms plays a crucial role to generate the phase, as similar generalizations with fermionic matter do not lead to a plaquette structure. Similar to the SSH model, we show how this pattern opens a non-trivial topological gap in 2D, resulting in a higher-order topological phase hosting corner states, that we characterize by means of a many-body topological invariant and through its entanglement structure. Finally, we demonstrate how this higher-order topological Peierls insulator can be readily prepared in atomic experiments through adiabatic protocols. Our work thus shows how atomic quantum simulators can be harnessed to investigate novel strongly-correlated topological phenomena beyond those observed in natural materials. | 翻訳日:2023-05-08 14:30:43 公開日:2023-05-05 |
# トランスフォーマーと自然言語処理を用いたオンラインジェスチャー認識 Online Gesture Recognition using Transformer and Natural Language Processing ( http://arxiv.org/abs/2305.03407v1 ) ライセンス: Link先を確認 | G.C.M. Silvestre, F. Balado, O. Akinremi and M. Ramo | (参考訳) トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンライン手書きジェスチャのための強力な機械変換フレームワークを提供する。
アテンションメカニズムは、エンド・ツー・エンドエンコーダ・デコーダモデルの潜在表現の作成に成功し、複数のレベルのセグメンテーションを解決し、言語の特徴や構文規則も学習する。
学習バイトペアエンコーディング(bpe)を用いた大きなデコーディング空間の追加使用は、アブレーションされた入力と構文規則に堅牢性をもたらすことが示されている。
エンコーダスタックに直接時空間のデータトークンが供給され、無限大の入力語彙を形成する可能性がある。
エンコーダ転送学習能力は、より高速な最適化と共有パラメータをもたらす複数の言語で実証される。
汎用手書き認識タスクに適したオンライン手書きジェスチャーの新しい教師付きデータセットを使用して、小さなトランスフォーマーモデルを英語やドイツ語の文で平均96%、フランス語で94%の精度でトレーニングした。 The Transformer architecture is shown to provide a powerful machine transduction framework for online handwritten gestures corresponding to glyph strokes of natural language sentences. The attention mechanism is successfully used to create latent representations of an end-to-end encoder-decoder model, solving multi-level segmentation while also learning some language features and syntax rules. The additional use of a large decoding space with some learned Byte-Pair-Encoding (BPE) is shown to provide robustness to ablated inputs and syntax rules. The encoder stack was directly fed with spatio-temporal data tokens potentially forming an infinitely large input vocabulary, an approach that finds applications beyond that of this work. Encoder transfer learning capabilities is also demonstrated on several languages resulting in faster optimisation and shared parameters. A new supervised dataset of online handwriting gestures suitable for generic handwriting recognition tasks was used to successfully train a small transformer model to an average normalised Levenshtein accuracy of 96% on English or German sentences and 94% in French. | 翻訳日:2023-05-08 14:30:22 公開日:2023-05-05 |
# 高忠実度rydberg量子シミュレータにおける消去変換 Erasure conversion in a high-fidelity Rydberg quantum simulator ( http://arxiv.org/abs/2305.03406v1 ) ライセンス: Link先を確認 | Pascal Scholl, Adam L. Shaw, Richard Bing-Shiun Tsai, Ran Finkelstein, Joonhee Choi, Manuel Endres | (参考訳) エラーの最小化と理解は、ノイズの多い中間スケール量子(NISQ)デバイスとフォールトトレラント量子計算への探求の両方において、量子科学にとって重要である。
Rydberg配列はこの文脈で顕著なプラットフォームとして現れ、システムサイズと提案は、エラー訂正しきい値が、単一原子分解能によるリークエラーを検出することで、どのように大幅に改善できるかを示唆している。
しかし、ライドバーグ原子配列の2量子絡み合いは競合に遅れており、このタイプの消去変換は一般に物質ベースの量子ビットでは実現されていない。
ここでは、rydberg量子シミュレータを用いて、消去変換と高忠実度ベル状態生成の両方を実証する。
我々は,準安定状態にある原子を不安定に残し,最終量子ビット読み出しに依存しない付加情報を得るアルカリ-地球原子の高速イメージングによる消去変換を実現する。
観測された消去誤差のあるデータを抽出すると、${\geq} 0.9971^{+10}_{-13}$のベル状態生成忠実性が低くなり、残りの状態準備誤差の補正時に${\geq}0.9985^{+7}_{-12}$に改善される。
さらに, 量子相転移における長距離秩序の準断熱的準備のための量子シミュレーション実験において, 消去変換とライドバーグ崩壊の誤差を明確に区別する。
我々は,これらの誤りがシミュレーション結果に与える影響を,消去と最終読み出しの相関や消去そのものを評価することによって明らかにする。
我々の研究は、Rydbergベースのエンタングルメントが${\sim} 0.999$レジームの忠実度に達する能力を示し、高い忠実度は技術的改善の問題であり、NISQデバイスでどのように消去変換を利用できるかを示している。 Minimizing and understanding errors is critical for quantum science, both in noisy intermediate scale quantum (NISQ) devices and for the quest towards fault-tolerant quantum computation. Rydberg arrays have emerged as a prominent platform in this context with impressive system sizes and proposals suggesting how error-correction thresholds could be significantly improved by detecting leakage errors with single-atom resolution, a form of erasure error conversion. However, two-qubit entanglement fidelities in Rydberg atom arrays have lagged behind competitors and this type of erasure conversion is yet to be realized for matter-based qubits in general. Here we demonstrate both erasure conversion and high-fidelity Bell state generation using a Rydberg quantum simulator. We implement erasure conversion via fast imaging of alkaline-earth atoms, which leaves atoms in a metastable state unperturbed and yields additional information independent of the final qubit readout. When excising data with observed erasure errors, we achieve a lower-bound for the Bell state generation fidelity of ${\geq} 0.9971^{+10}_{-13}$, which improves to ${\geq}0.9985^{+7}_{-12}$ when correcting for remaining state preparation errors. We further demonstrate erasure conversion in a quantum simulation experiment for quasi-adiabatic preparation of long-range order across a quantum phase transition, where we explicitly differentiate erasure conversion of preparation and Rydberg decay errors. We unveil the otherwise hidden impact of these errors on the simulation outcome by evaluating correlations between erasures and the final readout as well as between erasures themselves. Our work demonstrates the capability for Rydberg-based entanglement to reach fidelities in the ${\sim} 0.999$ regime, with higher fidelities a question of technical improvements, and shows how erasure conversion can be utilized in NISQ devices. | 翻訳日:2023-05-08 14:30:00 公開日:2023-05-05 |
# 半自動データサイエンスのためのGPT:文脈対応機能工学のためのCAAFEの導入 GPT for Semi-Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering ( http://arxiv.org/abs/2305.03403v1 ) ライセンス: Link先を確認 | Noah Hollmann, Samuel M\"uller and Frank Hutter | (参考訳) 自動機械学習(AutoML)の分野が進むにつれて、これらのシステムにドメイン知識を含めることがますます重要になる。
本稿では,大規模言語モデル(LLM)のパワーを利用する手法を提案する。
具体的には、LCMを利用した表層データセットの機能工学手法である文脈認識自動特徴工学(CAAFE)を導入し、その記述に基づいて、表層データセットに意味論的に意味のある機能を追加する。
このメソッドは、新しい機能を作成するためのPythonコードと、生成された機能のユーティリティの説明の両方を生成する。
方法論的に単純であるにも関わらず、CAAFEは14データセット中11データセットのパフォーマンス向上、2と1のルーズ – 平均ROC AUCパフォーマンスをすべてのデータセットで0.798から0.822に向上させる。
評価されたデータセットでは、この改善はロジスティック回帰(AUC 0.754)の代わりにランダム森林(AUC 0.782)を使うことで達成される平均的な改善と似ている。
さらに,本手法は,生成した各特徴についてテキストによる説明を提供することにより,生成した特徴の背景にある理論的根拠について貴重な知見を提供する。
CAAFEは、データサイエンスタスクにおけるより広範な(半自動)自動化の道を開き、AutoMLシステムの範囲を広げられるコンテキスト対応ソリューションの重要性を強調している。
再現性のために、コードと簡単なデモをリリースします。 As the field of automated machine learning (AutoML) advances, it becomes increasingly important to include domain knowledge within these systems. We present an approach for doing so by harnessing the power of large language models (LLMs). Specifically, we introduce Context-Aware Automated Feature Engineering (CAAFE), a feature engineering method for tabular datasets that utilizes an LLM to generate additional semantically meaningful features for tabular datasets based on their descriptions. The method produces both Python code for creating new features and explanations for the utility of the generated features. Despite being methodologically simple, CAAFE enhances performance on 11 out of 14 datasets, ties on 2 and looses on 1 - boosting mean ROC AUC performance from 0.798 to 0.822 across all datasets. On the evaluated datasets, this improvement is similar to the average improvement achieved by using a random forest (AUC 0.782) instead of logistic regression (AUC 0.754). Furthermore, our method offers valuable insights into the rationale behind the generated features by providing a textual explanation for each generated feature. CAAFE paves the way for more extensive (semi-)automation in data science tasks and emphasizes the significance of context-aware solutions that can extend the scope of AutoML systems. For reproducability, we release our code and a simple demo. | 翻訳日:2023-05-08 14:29:21 公開日:2023-05-05 |
# 正確に解けるSO($n$)スピン鎖における対称性保護位相、共形臨界、双対性 Symmetry-protected topological phases, conformal criticalities, and duality in exactly solvable SO($n$) spin chains ( http://arxiv.org/abs/2305.03398v1 ) ライセンス: Link先を確認 | Sreejith Chulliparambil, Hua-Chen Zhang, Hong-Hao Tu | (参考訳) so($n$) 対称スピン鎖の族を導入し、n=1$ で横場イジング鎖を一般化する。
これらのスピン鎖はガンマ行列で定義され、静的な$\mathbb{z}_2$ゲージ場に結合されたイテナントマヨルアナフェルミオンのn$種にマッピングすることで正確に解くことができる。
それらの位相図には、SO($n$)$_1$ Wess-Zumino-Wittenモデルで記述された臨界点と、2つの異なる位相がある。
ギャップ位相の1つは自明な位相であり、もう1つは$n \geq 2$ のとき対称性保護位相を実現する。
この2つの位相は、クラマース=ワニエ双対性によって互いに関連があることが証明されている。
さらに、無限次元のオンザガー代数のような横場イジング連鎖の他のエレガントな構造も我々のモデルに受け継がれる。 We introduce a family of SO($n$)-symmetric spin chains which generalize the transverse-field Ising chain for $n=1$. These spin chains are defined with Gamma matrices and can be exactly solved by mapping to $n$ species of itinerant Majorana fermions coupled to a static $\mathbb{Z}_2$ gauge field. Their phase diagrams include a critical point described by the SO($n$)$_1$ Wess-Zumino-Witten model as well as two distinct gapped phases. We show that one of the gapped phases is a trivial phase and the other realizes a symmetry-protected topological phase when $n \geq 2$. These two gapped phases are proved to be related to each other by a Kramers-Wannier duality. Furthermore, other elegant structures in the transverse-field Ising chain, such as the infinite-dimensional Onsager algebra, also carry over to our models. | 翻訳日:2023-05-08 14:28:57 公開日:2023-05-05 |
# 潜伏二変数と正規化フローを持つベイズ型ニューラルネットワーク Sparsifying Bayesian neural networks with latent binary variables and normalizing flows ( http://arxiv.org/abs/2305.03395v1 ) ライセンス: Link先を確認 | Lars Skaaret-Lund, Geir Storvik, Aliaksandr Hubin | (参考訳) 人工知能(anns)は、顔認識、機械翻訳、がん診断など、現代の多くのアプリケーションで使用されている強力な機械学習手法である。
ANNの一般的な問題は、通常は数百万から数十億のトレーニング可能なパラメータを持ち、したがってトレーニングデータに過度に適合する傾向があることだ。
これは、信頼性の高い不確実性の推定が重要であるアプリケーションでは特に問題となる。
ベイズニューラルネットワーク(BNN)はパラメータの不確実性を含むため、この問題を改善することができる。
さらに、LBBNN(Latent binary Bayesian Neural Network)は、重みをオンまたはオフにすることで構造上の不確実性を考慮しており、重みと構造の結合空間における推論を可能にしている。
本稿では, LBBNN法の2つの拡張について考察する: まず, LRT(Local Reparametrization trick)を用いて隠れたユニットを直接サンプリングすることにより, より計算効率の良いアルゴリズムを得る。
より重要なことに、lbbnnパラメータの変分後分布の正規化フローを用いて、ネットワークは平均場ガウス値よりも柔軟な変分後分布を学習する。
実験の結果, LBBNN法に比べて予測能力が向上し, より疎ネットワークが得られることがわかった。
2つのシミュレーション研究を行う。
最初の研究では、より柔軟な変動分布がより良い結果をもたらすロジスティック回帰設定における変数選択について考察する。
本研究では,2次元ガウス分布から得られたデータに基づいて予測の不確かさを比較する。
ここではベイズ的手法が予測の不確実性のより現実的な推定につながることを論じる。 Artificial neural networks (ANNs) are powerful machine learning methods used in many modern applications such as facial recognition, machine translation, and cancer diagnostics. A common issue with ANNs is that they usually have millions or billions of trainable parameters, and therefore tend to overfit to the training data. This is especially problematic in applications where it is important to have reliable uncertainty estimates. Bayesian neural networks (BNN) can improve on this, since they incorporate parameter uncertainty. In addition, latent binary Bayesian neural networks (LBBNN) also take into account structural uncertainty by allowing the weights to be turned on or off, enabling inference in the joint space of weights and structures. In this paper, we will consider two extensions to the LBBNN method: Firstly, by using the local reparametrization trick (LRT) to sample the hidden units directly, we get a more computationally efficient algorithm. More importantly, by using normalizing flows on the variational posterior distribution of the LBBNN parameters, the network learns a more flexible variational posterior distribution than the mean field Gaussian. Experimental results show that this improves predictive power compared to the LBBNN method, while also obtaining more sparse networks. We perform two simulation studies. In the first study, we consider variable selection in a logistic regression setting, where the more flexible variational distribution leads to improved results. In the second study, we compare predictive uncertainty based on data generated from two-dimensional Gaussian distributions. Here, we argue that our Bayesian methods lead to more realistic estimates of predictive uncertainty. | 翻訳日:2023-05-08 14:28:38 公開日:2023-05-05 |
# 位相安定定在波を用いた閉じ込めイオン量子ビットの絡み込みゲート速度限界の破れ Breaking the entangling gate speed limit for trapped-ion qubits using a phase-stable standing wave ( http://arxiv.org/abs/2305.03450v1 ) ライセンス: Link先を確認 | S. Saner, O. B\u{a}z\u{a}van, M. Minder, P. Drmota, D. J. Webb, G. Araneda, R. Srinivas, D. M. Lucas, C. J. Ballance | (参考訳) 捕捉イオン量子ビットに対するレーザー駆動の全ての絡み込み操作は光場の光位相を制御せず、キャリアの独立なチューニングと運動結合を妨げている。
相対的な位置が約\lambda/100$に制御された$\lambda=674$ nmの定在波に$^{88}$sr$^+$ イオンを配置することで、キャリア結合を18ドルの係数で抑制し、スピン-モーションカップリングをコヒーレントに向上させる。
我々は,従来の移動波M{\o}lmer-S{\o}rensenゲートに対して,共振キャリア結合が速度制限を課すことを実験的に実証した。 All laser-driven entangling operations for trapped-ion qubits have hitherto been performed without control of the optical phase of the light field, which precludes independent tuning of the carrier and motional coupling. By placing $^{88}$Sr$^+$ ions in a $\lambda=674$ nm standing wave, whose relative position is controlled to $\approx\lambda/100$, we suppress the carrier coupling by a factor of $18$, while coherently enhancing the spin-motion coupling. We experimentally demonstrate that the off-resonant carrier coupling imposes a speed limit for conventional traveling-wave M{\o}lmer-S{\o}rensen gates; we use the standing wave to surpass this limit and achieve a gate duration of $15\ \mu$s, restricted by the available laser power. | 翻訳日:2023-05-08 14:22:34 公開日:2023-05-05 |
# ボソニック・ネバンリンナ分析継続 Bosonic Nevanlinna Analytic Continuation ( http://arxiv.org/abs/2305.03449v1 ) ライセンス: Link先を確認 | Kosuke Nogaki and Hiroshi Shinaoka | (参考訳) 解析的継続(AC)は理論計算と実験的に測定可能な量とを結びつける。
最近提案されたNevanlinna AC法は、応答関数の因果性を維持しつつ、高周波数でスペクトル関数の鋭い特徴を正確に再現することができる。
しかし、現在ではフェルミオンに限られている。
本稿では,この手法を双曲的接点法を用いてボソンに拡張することにより,ボソンをNevanlinna解析継続を適用可能な補助フェルミオンに変換する。 Analytical continuation (AC) connects theoretical calculations and experimentally measurable quantities. The recently proposed Nevanlinna AC method is capable of accurately reproducing the sharp features of spectral functions at high frequencies while maintaining the causality of the response function. However, their use is currently limited to fermions. Here, we present an extension of this method to bosons using the hyperbolic tangent trick, allowing us to transform bosons into auxiliary fermions to which the Nevanlinna analytic continuation can be applied. | 翻訳日:2023-05-08 14:22:14 公開日:2023-05-05 |
# lmsの基盤--言語モデルによるフィギュラティブ言語解釈における具体化の効果の検討 LMs stand their Ground: Investigating the Effect of Embodiment in Figurative Language Interpretation by Language Models ( http://arxiv.org/abs/2305.03445v1 ) ライセンス: Link先を確認 | Philipp Wicke | (参考訳) 表現言語は、その解釈は、従来の順序や意味から逸脱するような言葉の使用に基づいているため、言語モデルの課題である。
しかし、人間がメタファー、シミュレート、イディオムを理解し解釈することは容易にできる。
言語は具体化の代名詞であり、比喩が従来的かつ語彙化された場合、体のないシステムが具体化概念を理解するのが容易になる。
しかし, 言語モデルに関する具体的言語解釈の文脈において, 具体化と具体性や獲得年齢といった特徴との関係は研究されていない。
そこで本研究では,比喩文の動作がより具体化されている場合に,より大きな言語モデルが比喩文の解釈にいかに優れているかを示す。
この分析は、他の特徴(単語の長さや具体性など)と多行性を規定し、より大きな言語モデルが具体的言語理解を促進する程度まで具体的概念を概念化するという最初の証拠を提供する。 Figurative language is a challenge for language models since its interpretation is based on the use of words in a way that deviates from their conventional order and meaning. Yet, humans can easily understand and interpret metaphors, similes or idioms as they can be derived from embodied metaphors. Language is a proxy for embodiment and if a metaphor is conventional and lexicalised, it becomes easier for a system without a body to make sense of embodied concepts. Yet, the intricate relation between embodiment and features such as concreteness or age of acquisition has not been studied in the context of figurative language interpretation concerning language models. Hence, the presented study shows how larger language models perform better at interpreting metaphoric sentences when the action of the metaphorical sentence is more embodied. The analysis rules out multicollinearity with other features (e.g. word length or concreteness) and provides initial evidence that larger language models conceptualise embodied concepts to a degree that facilitates figurative language understanding. | 翻訳日:2023-05-08 14:22:05 公開日:2023-05-05 |
# 非平衡量子温度測定の侵入性 Invasiveness of non-equilibrium quantum thermometry ( http://arxiv.org/abs/2305.03436v1 ) ライセンス: Link先を確認 | Francesco Albarelli, Matteo G. A. Paris, Bassano Vacchini, Andrea Smirne | (参考訳) 量子プローブを温度計として使用する際の主な利点は、非侵襲性、すなわち熱試料に対する不可解な摂動である。
しかし、侵襲性は明確に研究されることはめったにない。
ここでは、ボソニック試料中の純脱落スピンプローブに着目し、量子プローブによって得られる温度情報と相互作用による試料の吸収熱との間には、非自明な関係があることを示す。
探索時間、すなわち時間最適探索スキームを考慮した最適化は、実験の各ショットで試料が吸収する熱を制限する効果も有することを示す。
このような時間最適プロトコルの場合、この方法では結合強度とともに精度が直線的に向上する一方、ショット当たりの熱量は有限値となるため、非常に強いプローブ-サンプルカップリングを持つことが有利であることを示す。
純劣化モデルでは、吸収熱はプローブと試料を結合して分離するために必要な外的作業に対応するため、我々の結果は量子温度測定の熱力学的およびエネルギー的コストの分析への第一歩でもある。 One of the main advantages expected from using quantum probes as thermometers is non invasiveness, i.e., a negligible perturbation to the thermal sample. However, invasiveness is rarely investigated explicitly. Here, focusing on a pure-dephasing spin probe in a bosonic sample, we show that there is a non-trivial relation between the information on the temperature gained by a quantum probe and the heat absorbed by the sample due to the interaction. We show that optimizing over the probing time, i.e. considering a time-optimal probing scheme, also has the benefit of limiting the heat absorbed by the sample in each shot of the experiment. For such time-optimal protocols, we show that it is advantageous to have very strong probe-sample coupling, since in this regime the accuracy increases linearly with the coupling strength, while the amount of heat per shot saturates to a finite value. Since in pure-dephasing models the absorbed heat corresponds to the external work needed to couple and decouple the probe and the sample, our results also represent a first step towards the analysis of the thermodynamic and energetic cost of quantum thermometry. | 翻訳日:2023-05-08 14:21:47 公開日:2023-05-05 |
# ラジオ画像立方体の分類の進歩 Advances on the classification of radio image cubes ( http://arxiv.org/abs/2305.03435v1 ) ライセンス: Link先を確認 | Steven Ndung'u, Trienko Grobler, Stefan J. Wijnholds, Dimka Karastoyanova, George Azzopardi | (参考訳) 現代の電波望遠鏡は、Square Kilometre Array (SKA)のようなシステムのために、毎日エクサバイト規模のデータセットを生成する。
巨大なデータセットは未知の天体物理現象の源であり、発見につながる。
それにもかかわらず、これは人間支援および伝統的な統計手法を補完する集中機械知能の活用によってのみ可能となる。
近年, 電波天文学における人工知能の利用に着目した科学出版物が急増しており, 情報源抽出, 形態分類, 異常検出などの課題に対処している。
本研究は, 電波画像へのマシンインテリジェンス技術の応用に関する簡潔かつ包括的考察であり, 電波銀河の形態的分類に重点を置いている。
本研究の目的は, 電波天文学におけるデータ複雑性, データ前処理, 方法論的新規性に基づいて, 文献を要約した詳細な論文の合成を行うことである。
電波天文学におけるコンピュータインテリジェンスの急速な進歩と応用は、急激なデータプロセスの自動化における革命と新たなパラダイムシフトをもたらした。
しかし、電波天文学における人工知能の最適活用は、注釈付きデータセットの作成における継続的な協力を求めるものである。
さらに、類似または異種な物理特性を持つ電波銀河を素早く発見するためには、特定された電波源をインデックス化する必要がある。
それにもかかわらず、この問題は文献に適切に取り扱われておらず、さらなる研究のためのオープンエリアとなっている。 Modern radio telescopes will daily generate data sets on the scale of exabytes for systems like the Square Kilometre Array (SKA). Massive data sets are a source of unknown and rare astrophysical phenomena that lead to discoveries. Nonetheless, this is only plausible with the exploitation of intensive machine intelligence to complement human-aided and traditional statistical techniques. Recently, there has been a surge in scientific publications focusing on the use of artificial intelligence in radio astronomy, addressing challenges such as source extraction, morphological classification, and anomaly detection. This study presents a succinct, but comprehensive review of the application of machine intelligence techniques on radio images with emphasis on the morphological classification of radio galaxies. It aims to present a detailed synthesis of the relevant papers summarizing the literature based on data complexity, data pre-processing, and methodological novelty in radio astronomy. The rapid advancement and application of computer intelligence in radio astronomy has resulted in a revolution and a new paradigm shift in the automation of daunting data processes. However, the optimal exploitation of artificial intelligence in radio astronomy, calls for continued collaborative efforts in the creation of annotated data sets. Additionally, in order to quickly locate radio galaxies with similar or dissimilar physical characteristics, it is necessary to index the identified radio sources. Nonetheless, this issue has not been adequately addressed in the literature, making it an open area for further study. | 翻訳日:2023-05-08 14:21:28 公開日:2023-05-05 |
# 授業におけるパワフルな大規模AIモデルの適用に向けて--機会と課題と展望 Towards Applying Powerful Large AI Models in Classroom Teaching: Opportunities, Challenges and Prospects ( http://arxiv.org/abs/2305.03433v1 ) ライセンス: Link先を確認 | Kehui Tan, Tianqi Pang, and Chenyou Fan | (参考訳) 本稿では,対話型自動補完,知識とスタイルの伝達,AI生成コンテンツの評価など,人工知能(AI)を利用した授業内容の充実を図った対話型シナリオを提案する。
近年のLarge Language Models (LLMs) の発展を活用して,教師と学生の対話を増強・強化し,教育の質を向上させるAIの可能性を探る。
私たちのゴールは、教師と学生の間で革新的な有意義な会話を創造し、評価基準を作成し、AI教育イニシアチブの有効性を改善することです。
第3節では、既存のLCMを活用して教育タスクを効果的に完了させることの課題について論じ、多様な教育データセットに対処し、長い会話を処理し、より下流のタスクをよりよく達成するために情報を凝縮するための統一的な枠組みを提示する。
第4節では、教師-学生対話オートコンプリート、エキスパート・ラーニング・ナレッジ、スタイル・トランスファー、AIGC(AI-Generated Content)などのピボットタスクを要約し、今後の研究の道筋を明らかにする。
第5節では、人道支援と強化学習を通じて生成されたコンテンツを改善するために、外部および調整可能なLCMの使用についても検討する。
最終的に本稿は、AIが教育分野を支援し、さらなる探索を促進する可能性を明らかにすることを目的とする。 This perspective paper proposes a series of interactive scenarios that utilize Artificial Intelligence (AI) to enhance classroom teaching, such as dialogue auto-completion, knowledge and style transfer, and assessment of AI-generated content. By leveraging recent developments in Large Language Models (LLMs), we explore the potential of AI to augment and enrich teacher-student dialogues and improve the quality of teaching. Our goal is to produce innovative and meaningful conversations between teachers and students, create standards for evaluation, and improve the efficacy of AI-for-Education initiatives. In Section 3, we discuss the challenges of utilizing existing LLMs to effectively complete the educated tasks and present a unified framework for addressing diverse education dataset, processing lengthy conversations, and condensing information to better accomplish more downstream tasks. In Section 4, we summarize the pivoting tasks including Teacher-Student Dialogue Auto-Completion, Expert Teaching Knowledge and Style Transfer, and Assessment of AI-Generated Content (AIGC), providing a clear path for future research. In Section 5, we also explore the use of external and adjustable LLMs to improve the generated content through human-in-the-loop supervision and reinforcement learning. Ultimately, this paper seeks to highlight the potential for AI to aid the field of education and promote its further exploration. | 翻訳日:2023-05-08 14:21:08 公開日:2023-05-05 |
# ChatGPT大言語モデルによるH.P.ラブクラフトホラー文学のシミュレーション Simulating H.P. Lovecraft horror literature with the ChatGPT large language model ( http://arxiv.org/abs/2305.03429v1 ) ライセンス: Link先を確認 | Eduardo C. Garrido-Merch\'an, Jos\'e Luis Arroyo-Barrig\"uete, Roberto Gozalo-Brihuela | (参考訳) 本稿では,ChatGPT大言語モデル,特にGPT-4アーキテクチャを用いて,H.P. Lovecraftのホラー文学をシミュレートするための新しいアプローチを提案する。
本研究の目的は,lovecraftの独特な文体やテーマを模倣したテキスト生成と,モデルの出力誘導における工学的手法の有効性を検討することである。
そこで我々は,いくつかの専門文献参照を含むプロンプトをキュレートし,高度なプロンプト工学手法を適用した。
大学生のサンプルに対して調査を行い,生成したテキストについて経験的評価を行った。
統計的仮説テストを用いて,本モデルが生み出した本作品と本モデルによる本作品の識別能力を評価した。
以上の結果から,GPT-4モデルの有効性と,ラブクラフトの文芸スタイルをエミュレートする上での迅速な工学的手法の有効性が示唆された。
本論文は,GPTモデルの能力に加えて,その基盤となるアーキテクチャを包括的に記述し,デネットのような他の著名な著者や哲学者をシミュレートする関連研究との比較分析を行う。
本研究は,文学的エミュレーションの文脈における大規模言語モデルの可能性を探究することにより,様々な創造的領域におけるこれらのモデルの適用と限界に関する研究に寄与する。 In this paper, we present a novel approach to simulating H.P. Lovecraft's horror literature using the ChatGPT large language model, specifically the GPT-4 architecture. Our study aims to generate text that emulates Lovecraft's unique writing style and themes, while also examining the effectiveness of prompt engineering techniques in guiding the model's output. To achieve this, we curated a prompt containing several specialized literature references and employed advanced prompt engineering methods. We conducted an empirical evaluation of the generated text by administering a survey to a sample of undergraduate students. Utilizing statistical hypothesis testing, we assessed the students ability to distinguish between genuine Lovecraft works and those generated by our model. Our findings demonstrate that the participants were unable to reliably differentiate between the two, indicating the effectiveness of the GPT-4 model and our prompt engineering techniques in emulating Lovecraft's literary style. In addition to presenting the GPT model's capabilities, this paper provides a comprehensive description of its underlying architecture and offers a comparative analysis with related work that simulates other notable authors and philosophers, such as Dennett. By exploring the potential of large language models in the context of literary emulation, our study contributes to the body of research on the applications and limitations of these models in various creative domains. | 翻訳日:2023-05-08 14:20:43 公開日:2023-05-05 |
# gaanet:暗いところでさまざまなサイズのドローンを検出するゴーストオートアンカーネットワーク GAANet: Ghost Auto Anchor Network for Detecting Varying Size Drones in Dark ( http://arxiv.org/abs/2305.03425v1 ) ライセンス: Link先を確認 | Misha Urooj Khan, Maham Misbah, Zeeshan Kaleem, Yansha Deng, Abbas Jamalipour | (参考訳) ドローンの利用は、軍から工業まで、さまざまな分野で著しく増加している。
それらが提供するすべてのメリットにもかかわらず、その誤用は不幸を引き起こし、特に夜はサイズが小さく、視認性が低いため、それらに取り組むことがより困難になる。
このような制約を克服し、夜間の検知精度を向上させるため、赤外線画像に対するゴーストオートアンカーネットワーク(GAANet)と呼ばれる物体検出器を提案する。
この検出器はYOLOv5コアを使用して、赤外線画像の物体検出の課題に対処する。
性能向上のため,オートアンカー計算を行い,従来の畳み込みブロックをゴースト畳み込みに変更し,入力チャネルサイズを調整し,adamwオプティマイザを用いた。
マルチスケールの小型物体認識の精度を高めるために,さらに小型物体特徴抽出器と検出器を導入した。
複数のクラス(鳥、ドローン、飛行機、ヘリコプター)を持つカスタムIRデータセットの実験結果によると、GAANetは最先端の検出器と比較して改善されている。
GhostNet-YOLOv5と比較して、GAANetは総平均平均精度(mAP@50)、リコール、精度はそれぞれ2.5\%、2.3\%、1.4\%である。
この論文のデータセットとコードはhttps://github.com/ZeeshanKaleem/GhostAutoAnchorNetでオープンソースとして公開されている。 The usage of drones has tremendously increased in different sectors spanning from military to industrial applications. Despite all the benefits they offer, their misuse can lead to mishaps, and tackling them becomes more challenging particularly at night due to their small size and low visibility conditions. To overcome those limitations and improve the detection accuracy at night, we propose an object detector called Ghost Auto Anchor Network (GAANet) for infrared (IR) images. The detector uses a YOLOv5 core to address challenges in object detection for IR images, such as poor accuracy and a high false alarm rate caused by extended altitudes, poor lighting, and low image resolution. To improve performance, we implemented auto anchor calculation, modified the conventional convolution block to ghost-convolution, adjusted the input channel size, and used the AdamW optimizer. To enhance the precision of multiscale tiny object recognition, we also introduced an additional extra-small object feature extractor and detector. Experimental results in a custom IR dataset with multiple classes (birds, drones, planes, and helicopters) demonstrate that GAANet shows improvement compared to state-of-the-art detectors. In comparison to GhostNet-YOLOv5, GAANet has higher overall mean average precision (mAP@50), recall, and precision around 2.5\%, 2.3\%, and 1.4\%, respectively. The dataset and code for this paper are available as open source at https://github.com/ZeeshanKaleem/GhostAutoAnchorNet. | 翻訳日:2023-05-08 14:20:18 公開日:2023-05-05 |
# エンティティマッチングにChatGPTを使用する Using ChatGPT for Entity Matching ( http://arxiv.org/abs/2305.03423v1 ) ライセンス: Link先を確認 | Ralph Peeters, Christian Bizer | (参考訳) エンティティマッチングは、2つのエンティティ記述が同じ現実世界のエンティティを指すかどうかを決定するタスクである。
最先端エンティティマッチング手法は、BERTやRoBERTaのような微調整トランスフォーマーモデルに依存することが多い。
エンティティマッチングにこれらのモデルを使用する際の2つの大きな欠点は、
(i)モデルの性能向上には大量の微調整データが必要である。
(ii) 細調整されたモデルは分布外エンティティに関して堅牢ではない。
本稿では,従来のトランスフォーマーモデルに代えて,より堅牢で訓練的なデータ効率向上のためのChatGPTについて検討する。
3次元で実験を行います
(i)一般プロンプトデザイン
(ii)文脈内学習、及び
(iii)高度なマッチング知識の提供。
我々は,ChatGPTが微調整されたRoBERTaモデルと競合し,RoBERTaが2000のトレーニング例を必要とする課題に対して,平均83% F1のゼロショット性能に達することを示す。
プロンプトにコンテキスト内デモを追加することで、20個の手書きサンプルの小さなセットだけでF1をさらに最大5%改善する。
最後に、上位のマッチングルールを述べることでゼロショットモデルを導くことは、文脈内例と同様の利益をもたらすことを示す。 Entity Matching is the task of deciding if two entity descriptions refer to the same real-world entity. State-of-the-art entity matching methods often rely on fine-tuning Transformer models such as BERT or RoBERTa. Two major drawbacks of using these models for entity matching are that (i) the models require significant amounts of fine-tuning data for reaching a good performance and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. In this paper, we investigate using ChatGPT for entity matching as a more robust, training data-efficient alternative to traditional Transformer models. We perform experiments along three dimensions: (i) general prompt design, (ii) in-context learning, and (iii) provision of higher-level matching knowledge. We show that ChatGPT is competitive with a fine-tuned RoBERTa model, reaching an average zero-shot performance of 83% F1 on a challenging matching task on which RoBERTa requires 2000 training examples for reaching a similar performance. Adding in-context demonstrations to the prompts further improves the F1 by up to 5% even using only a small set of 20 handpicked examples. Finally, we show that guiding the zero-shot model by stating higher-level matching rules leads to similar gains as providing in-context examples. | 翻訳日:2023-05-08 14:19:52 公開日:2023-05-05 |
# 連続可変量子鍵分布におけるシリコンフォトニクス集積時間領域平衡ホモダイン検出器 Silicon photonics-integrated time-domain balanced homodyne detector in continuous-variable quantum key distribution ( http://arxiv.org/abs/2305.03419v1 ) ライセンス: Link先を確認 | Yanxiang Jia, Xuyang Wang, Xiao Hu, Xin Hua, Yu Zhang, Xubo Guo, Shengxiang Zhang, Xi Xiao, Shaohua Yu, Jun Zou, and Yongmin Li | (参考訳) 我々は、光学部が1.5mm×0.4mmのシリコンフォトニクス集積時間領域平衡ホモダイン検出器(TBHD)の設計と実験を行った。
検出器の自動的かつ正確にバランスをとるために、新しい可変光減衰器を用い、86.9dbの共通モード拒絶率を達成した。
量子トモグラフィー実験では、コヒーレント状態の密度行列とウィグナー関数を99.97%の忠実度で再構成した。
連続可変量子鍵分布(CVQKD)システムにおけるこのTBHDの実現可能性も示した。
これにより、TBHDを用いたシリコンフォトニクスチップ上のGG02プロトコルに基づくCVQKDシステムの光回路の統合が容易になる。 We designed and experimentally demonstrated a silicon photonics-integrated time-domain balanced homodyne detector (TBHD), whose optical part has dimensions of 1.5 mm * 0.4 mm. To automatically and accurately balance the detector, new variable optical attenuators were used, and a common mode rejection ratio of 86.9 dB could be achieved. In the quantum tomography experiment, the density matrix and Wigner function of a coherent state were reconstructed with 99.97 % fidelity. The feasibility of this TBHD in a continuous-variable quantum key distribution (CVQKD) system was also demonstrated. This facilitates the integration of the optical circuits of the CVQKD system based on the GG02 protocol on the silicon photonics chip using TBHD. | 翻訳日:2023-05-08 14:19:32 公開日:2023-05-05 |
# 多体環境下で回転する分子のオールカップリングアングロンの理論 Theory of all-coupling angulon for molecules rotating in many-body environment ( http://arxiv.org/abs/2305.03473v1 ) ライセンス: Link先を確認 | Yi-Yan Liu, Yu Cui, Xiao-Zhe Zhang, Ran-Bo Yang, Zhi-Qing Li, and Zi-Wu Wang | (参考訳) 量子多体場に回転するローター(分子または不純物)から生じるアングロンの形成は、準粒子族に新たなメンバーを加え、複数の研究分野において集中的に興味を喚起した。
しかし, ロータとホスティング環境との結合強度の解析は, 理論上, 実験上, 依然として困難な課題である。
ここでは, ヘリウムナノ滴内の異なる分子の回転定数の再正規化を再現するユニタリ変換を導入することにより, アングロンの全カップリング理論を開発し, 過去数十年間に収集された実験データと良好な一致を得た。
さらに, 分子-ヘリウムカップリングの強度と, 分子ロータと共に共回転する溶解殻の有効半径を定性的に推定した。
このモデルは、フォノン環境における分子の回転分光分析に重要な啓発を与えるだけでなく、アングロンフレームにおけるフォノン角運動量の移動を研究する新しい方法も提供する。 The formation of angulon, stemming from the rotor (molecule or impurity) rotating in the quantum many-body field, adds a new member in the quasiparticle's family and has aroused intensively interests in multiple research fields. However, the analysis of the coupling strength between the rotor and its hosting environment remains a challenging task both in theory and experiment. Here, we develop the all-coupling theory of the angulon by introducing an unitary transformation, where the renormalization of the rotational constants for different molecules in the helium nanodroplets are reproduced, getting excellent agreement with the collected experimental data during the past decades. Moreover, the strength of molecule-helium coupling and the effective radius of the solvation shell corotating along with the molecular rotor could be estimated qualitatively. This model not only provides the significant enlightenment for analyzing the rotational spectroscopy of molecules in the phononic environment, but also provides a new method to study the transfer of the phonon angular momentum in angulon frame. | 翻訳日:2023-05-08 14:12:38 公開日:2023-05-05 |
# 生成性ステガノグラフィ拡散 Generative Steganography Diffusion ( http://arxiv.org/abs/2305.03472v1 ) ライセンス: Link先を確認 | Ping Wei, Qing Zhou, Zichi Wang, Zhenxing Qian, Xinpeng Zhang, Sheng Li | (参考訳) Generative steganography (GS)はシークレットデータから直接ステゴ画像を生成する新しい技術である。
GANやFlowに基づく様々なGS手法が近年開発されている。
しかし,既存のGANベースのGS手法では,ネットワークの可逆性が欠如しているため,隠れた秘密データを完全に復元することはできず,フローベースの手法では各モジュールの厳密な可逆性制限により画質が低下する。
この問題に対処するため,我々は「StegoDiffusion」という非可逆拡散モデルを開発することにより,GSD(Generative Steganography Diffusion)と呼ばれる新しいGSスキームを提案する。
リアルなステゴ画像を生成するだけでなく、隠れた秘密データの100対%の回復を可能にする。
提案するステゴジフフュージョンモデルは,非マルコフ連鎖を高速サンプリング技術で活用し,効率的なステゴ画像生成を実現する。
ステゴジフフュージョンにおける生成過程の遷移確率に基づく常微分方程式(ode)を構築することにより、ode -- オイラー反復公式の近似解法により秘密データとステゴ画像とを変換でき、可逆だがより表現力に富むネットワーク構造を用いてモデル可逆性を達成することができる。
提案したGSDは可逆性と高い性能の両方の利点があり,既存のGS手法よりも優れた性能を発揮する。 Generative steganography (GS) is an emerging technique that generates stego images directly from secret data. Various GS methods based on GANs or Flow have been developed recently. However, existing GAN-based GS methods cannot completely recover the hidden secret data due to the lack of network invertibility, while Flow-based methods produce poor image quality due to the stringent reversibility restriction in each module. To address this issue, we propose a novel GS scheme called "Generative Steganography Diffusion" (GSD) by devising an invertible diffusion model named "StegoDiffusion". It not only generates realistic stego images but also allows for 100\% recovery of the hidden secret data. The proposed StegoDiffusion model leverages a non-Markov chain with a fast sampling technique to achieve efficient stego image generation. By constructing an ordinary differential equation (ODE) based on the transition probability of the generation process in StegoDiffusion, secret data and stego images can be converted to each other through the approximate solver of ODE -- Euler iteration formula, enabling the use of irreversible but more expressive network structures to achieve model invertibility. Our proposed GSD has the advantages of both reversibility and high performance, significantly outperforming existing GS methods in all metrics. | 翻訳日:2023-05-08 14:12:22 公開日:2023-05-05 |
# 個人データアクセス要求の合理化: 妨害手順から自動化されたWebワークフローへ Streamlining personal data access requests: From obstructive procedures to automated web workflows ( http://arxiv.org/abs/2305.03471v1 ) ライセンス: Link先を確認 | Nicola Leschke and Florian Kirsten and Frank Pallas and Elias Gr\"unewald | (参考訳) 透明性とデータのポータビリティは、GDPRのような現代的なプライバシー法の基本原則である。
規制の観点からは、個人(データサブジェクト)にデータへのアクセスを提供することが、これらの実装の主要なビルディングブロックである。
しかし、他のプライバシー原則やそれぞれの規制条項とは違って、このデータアクセスの権利は限界的な技術的反映しか見られていない。
したがって、データ主体アクセス要求(DSAR)の実行に関連するプロセスは、依然として手動で実行され、データアクセスの概念が、その潜在能力を最大限に広げることを妨げる。
この問題に対処するために,Web自動化の現代技術を活用したDSARの自動実行手法を提案する。
特に、汎用DSARワークフローモデル、異なるサービスプロバイダ(コントローラ)の特定のワークフローを表現するための対応する形式言語、パブリックアクセス可能で拡張可能なワークフローリポジトリ、ブラウザベースの実行エンジンを提案する。
当社のアプローチと技術的概念を検証するため,広く使用されている15のサービスプロバイダのDSARワークフローを調べ,形式化し,公開しているブラウザエクステンションで実行エンジンを実装する。
これにより、当社は、自動データアクセス要求の道を開き、その後のさまざまな技術的手段の基礎を築き、Webユーザが異なるサービスプロバイダへのプライバシー関連の露出をよりよく理解できるようにする。 Transparency and data portability are two core principles of modern privacy legislations such as the GDPR. From the regulatory perspective, providing individuals (data subjects) with access to their data is a main building block for implementing these. Different from other privacy principles and respective regulatory provisions, however, this right to data access has so far only seen marginal technical reflection. Processes related to performing data subject access requests (DSARs) are thus still to be executed manually, hindering the concept of data access from unfolding its full potential. To tackle this problem, we present an automated approach to the execution of DSARs, employing modern techniques of web automation. In particular, we propose a generic DSAR workflow model, a corresponding formal language for representing the particular workflows of different service providers (controllers), a publicly accessible and extendable workflow repository, and a browser-based execution engine, altogether providing ``one-click'' DSARs. To validate our approach and technical concepts, we examine, formalize and make publicly available the DSAR workflows of 15 widely used service providers and implement the execution engine in a publicly available browser extension. Altogether, we thereby pave the way for automated data subject access requests and lay the groundwork for a broad variety of subsequent technical means helping web users to better understand their privacy-related exposure to different service providers. | 翻訳日:2023-05-08 14:12:00 公開日:2023-05-05 |
# 多目的進化強化学習に基づくロードバランサによる金融クラウドのアイドルネス低減 Reducing Idleness in Financial Cloud via Multi-objective Evolutionary Reinforcement Learning based Load Balancer ( http://arxiv.org/abs/2305.03463v1 ) ライセンス: Link先を確認 | Peng Yang, Laoming Zhang, Haifeng Liu, Guiying Li | (参考訳) 近年,さまざまな企業が,従来のデータセンタからクラウドへの移行に着手している。
主な動機の1つは、クラウドの弾力性による運用コストの削減である。
本稿では,サーバ側から切り離すことなく,ユーザ接続の少ないアイドルサーバを削減するための金融サービスの必要性について論じる。
本稿では、このニーズを双方向のオンライン負荷分散問題と考える。
ニューラルネットワークベースのスケーラブルポリシは、柔軟性のために、ユーザ要求をさまざまなサーバにルーティングするように設計されている。
政策の重み付けを最適化するために,進化的多目的学習フレームワークを提案する。
従来の産業ソリューションよりもアイドルネスの新たな目的が130%以上削減されるだけでなく、当初の負荷バランスの目標もわずかに改善されている。
広範なシミュレーションは金融サービスにおけるアイドルネスの低減という新たな問題に対する提案手法の詳細な適用可能性を明らかにするのに役立つ。 In recent years, various companies started to shift their data services from traditional data centers onto cloud. One of the major motivations is to save operation costs with the aid of cloud elasticity. This paper discusses an emerging need from financial services to reduce idle servers retaining very few user connections, without disconnecting them from the server side. This paper considers this need as a bi-objective online load balancing problem. A neural network based scalable policy is designed to route user requests to varied numbers of servers for elasticity. An evolutionary multi-objective training framework is proposed to optimize the weights of the policy. Not only the new objective of idleness is reduced by over 130% more than traditional industrial solutions, but the original load balancing objective is slightly improved. Extensive simulations help reveal the detailed applicability of the proposed method to the emerging problem of reducing idleness in financial services. | 翻訳日:2023-05-08 14:11:36 公開日:2023-05-05 |
# 一般神経ゲージ場 General Neural Gauge Fields ( http://arxiv.org/abs/2305.03462v1 ) ライセンス: Link先を確認 | Fangneng Zhan, Lingjie Liu, Adam Kortylewski, Christian Theobalt | (参考訳) 近年のニューラル・ラディアンス・フィールドのようなニューラル・フィールドの進歩は、シーン表現学習の境界を大きく押し上げている。
3Dシーンの計算効率とレンダリング品質を高めるために、人気のある研究のラインは、3D座標系を別の測定系、例えば2次元多様体とハッシュテーブルにマッピングして、ニューラルネットワークをモデル化する。
座標系の変換は一般にゲージ変換と呼ばれ、通常、直交射影や空間ハッシュ関数のような事前定義された写像関数である。
エンドツーエンドでニューラルネットワークとともに、望ましいゲージ変換を直接学べるのか?
本研究では,この問題を離散的および連続的なケースの分類法を用いて一般的なパラダイムに拡張し,ゲージ変換と神経場を共同で最適化するエンドツーエンド学習フレームワークを開発した。
ゲージ変換の学習が容易に崩壊する問題に対処するために、ゲージ変換中の情報保存の原理から一般的な正規化機構を導出する。
正規化によるゲージ学習における高い計算コストを回避するために,シーン情報を本質的に保存し,優れた性能が得られる情報不変ゲージ変換を直接導出する。 The recent advance of neural fields, such as neural radiance fields, has significantly pushed the boundary of scene representation learning. Aiming to boost the computation efficiency and rendering quality of 3D scenes, a popular line of research maps the 3D coordinate system to another measuring system, e.g., 2D manifolds and hash tables, for modeling neural fields. The conversion of coordinate systems can be typically dubbed as gauge transformation, which is usually a pre-defined mapping function, e.g., orthogonal projection or spatial hash function. This begs a question: can we directly learn a desired gauge transformation along with the neural field in an end-to-end manner? In this work, we extend this problem to a general paradigm with a taxonomy of discrete & continuous cases, and develop an end-to-end learning framework to jointly optimize the gauge transformation and neural fields. To counter the problem that the learning of gauge transformations can collapse easily, we derive a general regularization mechanism from the principle of information conservation during the gauge transformation. To circumvent the high computation cost in gauge learning with regularization, we directly derive an information-invariant gauge transformation which allows to preserve scene information inherently and yield superior performance. | 翻訳日:2023-05-08 14:11:22 公開日:2023-05-05 |
# 談話におけるジェネリックキャラクタリゼーションのセマンティクスを活用した細粒度視覚概念の対話的獲得 Interactive Acquisition of Fine-grained Visual Concepts by Exploiting Semantics of Generic Characterizations in Discourse ( http://arxiv.org/abs/2305.03461v1 ) ライセンス: Link先を確認 | Jonghyuk Park, Alex Lascarides, Subramanian Ramamoorthy | (参考訳) 対話型タスク学習(ITL)は、人間のユーザとの自然な対話を通じて、予期せぬドメイン概念について学ぶ。
学習者は、予期せぬ概念を示す新しい言葉が導入された直後に、具体的な信念を更新することが期待されているため、オンライン、インクリメンタル、および少数ショットであるべきである。
本稿では, ITL が課す制約を伴って, 非常に類似したオブジェクトクラスを識別する, タスクの基盤となる挑戦的なシンボルについて検討する。
我々は、教師の総称文(例えば「Xは属性Zを持っている」)の真理条件と、その文脈における不備(例えば「XとYは違うのか?」の答えとして、Yは属性Zを欠いていると推測する)を活用することによって、よりデータ効率のよい基礎となる結果が実証的に証明された。 Interactive Task Learning (ITL) concerns learning about unforeseen domain concepts via natural interactions with human users. The learner faces a number of significant constraints: learning should be online, incremental and few-shot, as it is expected to perform tangible belief updates right after novel words denoting unforeseen concepts are introduced. In this work, we explore a challenging symbol grounding task--discriminating among object classes that look very similar--within the constraints imposed by ITL. We demonstrate empirically that more data-efficient grounding results from exploiting the truth-conditions of the teacher's generic statements (e.g., "Xs have attribute Z.") and their implicatures in context (e.g., as an answer to "How are Xs and Ys different?", one infers Y lacks attribute Z). | 翻訳日:2023-05-08 14:11:04 公開日:2023-05-05 |
# ハイブリッド数値推論問題に対する多視点グラフ表現学習 Multi-View Graph Representation Learning for Answering Hybrid Numerical Reasoning Question ( http://arxiv.org/abs/2305.03458v1 ) ライセンス: Link先を確認 | Yifan Wei, Fangyu Lei, Yuanzhe Zhang, Jun Zhao, Kang Liu | (参考訳) 財務報告に対するハイブリッド質問応答(HybridQA)は、テキストデータと表データの両方を含み、数値推論タスクの適切な証拠を選択する必要がある。
エンコーダ-デコーダフレームワークに基づく既存の手法では,数値推論問題の解法として式木デコーダを用いる。
しかし、エンコーダは、テーブルのシリアライズとテキストスプライシングを入力として、テーブルとテキスト間の粒度関係とテーブル自体の空間構造情報を損なう、マシンリーディング理解(mrc)メソッドに依存しています。
これらの問題を解決するため,本稿では,多視点グラフ(mvg)エンコーダを提案する。
MVGEをモジュールとして利用することにより,ハイブリッドデータの本来の特性を維持することを目的とした,タブラルビュー,リレービュー,数値ビューを考察する。
我々は,テーブル・テキスト・ハイブリッドQAベンチマーク(TAT-QA)で本モデルを検証し,最先端のモデルより優れていることを示す。 Hybrid question answering (HybridQA) over the financial report contains both textual and tabular data, and requires the model to select the appropriate evidence for the numerical reasoning task. Existing methods based on encoder-decoder framework employ a expression tree-based decoder to solve numerical reasoning problems. However, encoders rely more on Machine Reading Comprehension (MRC) methods, which take table serialization and text splicing as input, damaging the granularity relationship between table and text as well as the spatial structure information of table itself. In order to solve these problems, the paper proposes a Multi-View Graph (MVG) Encoder to take the relations among the granularity into account and capture the relations from multiple view. By utilizing MVGE as a module, we constuct Tabular View, Relation View and Numerical View which aim to retain the original characteristics of the hybrid data. We validate our model on the publicly available table-text hybrid QA benchmark (TAT-QA) and outperform the state-of-the-art model. | 翻訳日:2023-05-08 14:10:43 公開日:2023-05-05 |
# 周波数領域量子ゲートの並列化:21ghzシリコンマイクロ共振器による周波数絡み光子対の操作と分布 Parallelization of frequency domain quantum gates: manipulation and distribution of frequency-entangled photon pairs generated by a 21 GHz silicon micro-resonator ( http://arxiv.org/abs/2305.03457v1 ) ライセンス: Link先を確認 | Antoine Henry, Dario Fioretto, Lorenzo M. Procopio, St\'ephane Monfray, Fr\'ed\'eric Boeuf, Laurent Vivien, Eric Cassan, Carlos Ramos, Kamel Bencheikh, Isabelle Zaquine, Nadia Belabas | (参考訳) 集積フォトニクスにおける周波数次元の調和は、スケーラビリティ、ノイズレジリエンス、並列化、テレコム多重化技術との互換性において重要な利点をもたらす。
集積リング共振器は、自発4波混合により周波数絡み状態を生成するために用いられる。
しかし、最先端の統合共振器は、大きさのトレードオフ、周波数モードの数、スペクトル分離によって制限される。
我々は0.05mm2以下のフットプリントを持つシリコンリング共振器を開発し、21GHzで70以上の周波数チャネルを分離した。
我々は狭い周波数分離を利用して34個の単一量子ゲートをオフザシェル電気光学デバイスで独立に制御する。
これにより、量子状態トモグラフィーによって17個の周波数ビンの最大絡み合った量子ビット対を完全に特徴づけることができる。
周波数領域で完全に接続された5ユーザ量子ネットワークを初めて実演する。
これらの結果は、スケーラブルなシリコンフォトニクス技術で実装された新しい世代の量子回路へのステップであり、量子コンピューティングとセキュアな通信への応用である。 Harnessing the frequency dimension in integrated photonics offers key advantages in terms of scalability, noise resilience, parallelization and compatibility with telecom multiplexing techniques. Integrated ring resonators have been used to generate frequency-entangled states through spontaneous four-wave-mixing. However, state-of-the-art integrated resonators are limited by trade-offs in size, number of frequency modes and spectral separation. We have developed silicon ring resonators with a foot-print below 0.05 mm2 providing more than 70 frequency channels separated by 21 GHz. We exploit the narrow frequency separation to parallelize and independently control 34 single qubit-gates with off-the-shelf electro-optic devices. This allows to fully characterize 17 frequency-bin maximally-entangled qubit pairs by performing quantum state tomography. We demonstrate for the first time a fully connected 5-user quantum network in the frequency domain. These results are a step towards a new generation of quantum circuits implemented with scalable silicon photonics technology, for applications in quantum computing and secure communications. | 翻訳日:2023-05-08 14:10:23 公開日:2023-05-05 |
# T-SciQ:科学質問応答のための大規模言語モデル信号によるマルチモーダル連鎖推論の指導 T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering ( http://arxiv.org/abs/2305.03453v1 ) ライセンス: Link先を確認 | Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen | (参考訳) 大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
彼らはまた、複雑な問題を解決するためにチェーン・オブ・ソート(CoT)推論を行う能力を示した。
最近の研究は、高品質な人間注釈付きCoT論理を用いた微調整マルチモーダルモデルにより、科学質問応答タスクのような複雑なマルチモーダルシナリオにおけるCoT推論を探索している。
しかし、高品質なCOT論理の収集は通常、時間と費用がかかる。
さらに、注釈付き論理は、重複情報や欠落する必須情報のために、ほとんど正確ではない。
そこで本研究では,llm信号を用いた科学的な質問応答の指導を目的とした新しい手法である \emph{t-sciq} を提案する。
T-SciQアプローチは、教示信号として高品質なCoT論理を生成し、より小さなモデルを訓練して複雑なモダリティでCoT推論を行うよう進歩している。
さらに,単純で複雑な質問応答問題に対して,より効果的なデータサンプルを作成するための新しいデータ混合戦略を提案する。
その結果,ScienceQAベンチマークにおけるT-SciQ法は96.18%の精度で新しい最先端性能を実現した。
さらに,本手法は最強の微調整ベースラインを4.5%向上させる。 Large Language Models (LLMs) have recently demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. They have also shown the ability to perform chain-of-thought (CoT) reasoning to solve complex problems. Recent studies have explored CoT reasoning in complex multimodal scenarios, such as the science question answering task, by fine-tuning multimodal models with high-quality human-annotated CoT rationales. However, collecting high-quality COT rationales is usually time-consuming and costly. Besides, the annotated rationales are hardly accurate due to the redundant information involved or the essential information missed. To address these issues, we propose a novel method termed \emph{T-SciQ} that aims at teaching science question answering with LLM signals. The T-SciQ approach generates high-quality CoT rationales as teaching signals and is advanced to train much smaller models to perform CoT reasoning in complex modalities. Additionally, we introduce a novel data mixing strategy to produce more effective teaching data samples for simple and complex science question answer problems. Extensive experimental results show that our T-SciQ method achieves a new state-of-the-art performance on the ScienceQA benchmark, with an accuracy of 96.18%. Moreover, our approach outperforms the most powerful fine-tuned baseline by 4.5%. | 翻訳日:2023-05-08 14:10:08 公開日:2023-05-05 |
# 解釈性のための双線型層に関する技術ノート A technical note on bilinear layers for interpretability ( http://arxiv.org/abs/2305.03452v1 ) ライセンス: Link先を確認 | Lee Sharkey | (参考訳) ニューロンよりも多くの特徴を表現するニューラルネットワークの能力は、それらの解釈を困難にする。
この現象は重ね合わせ(superposition)として知られ、活性化関数を持つ標準多層パーセプトロン(MLP)よりも解釈可能なアーキテクチャを見つける努力を刺激している。
本稿では,従来のMLPよりも優れた性能を保ちながら,数学的に解析が容易なMPP層の一種である双線形層について検討する。
これらは入力の非線形関数であるが、双線型層は線形演算と三階テンソルだけで表現できることを実証する。
この表現を、それまで注目のみの変換器に限られていた変換器回路の数学的枠組みに組み込むことができる。
これらの結果は、バイリニア層が現在のアーキテクチャよりも数学的に解析しやすいことを示し、ニューラルネットワークの回路についてより正式に話すことによって、より深い安全性の洞察に役立てることを示唆している。
さらに、双線型層は、大きなモデルにおいて(潜在的に指数関数的に)多数の特徴を列挙するのではなく、特徴構築のメカニズムを理解することによって、機械的解釈可能性の代替経路を提供することができる。 The ability of neural networks to represent more features than neurons makes interpreting them challenging. This phenomenon, known as superposition, has spurred efforts to find architectures that are more interpretable than standard multilayer perceptrons (MLPs) with elementwise activation functions. In this note, I examine bilinear layers, which are a type of MLP layer that are mathematically much easier to analyze while simultaneously performing better than standard MLPs. Although they are nonlinear functions of their input, I demonstrate that bilinear layers can be expressed using only linear operations and third order tensors. We can integrate this expression for bilinear layers into a mathematical framework for transformer circuits, which was previously limited to attention-only transformers. These results suggest that bilinear layers are easier to analyze mathematically than current architectures and thus may lend themselves to deeper safety insights by allowing us to talk more formally about circuits in neural networks. Additionally, bilinear layers may offer an alternative path for mechanistic interpretability through understanding the mechanisms of feature construction instead of enumerating a (potentially exponentially) large number of features in large models. | 翻訳日:2023-05-08 14:09:44 公開日:2023-05-05 |
# 画像における感情認識のための高レベルコンテキスト表現 High-Level Context Representation for Emotion Recognition in Images ( http://arxiv.org/abs/2305.03500v1 ) ライセンス: Link先を確認 | Willams de Lima Costa, Estefania Talavera Martinez, Lucas Silva Figueiredo, Veronica Teichrieb | (参考訳) 感情認識は、人々の知覚的感情を分類するタスクである。
以前の作品では、様々な非言語的手がかりを用いて画像から特徴を抽出し、感情に関連付けてきた。
これらの手がかりのうち、状況的文脈は人の感情に直接影響を与えるため、感情知覚において特に重要である。
本稿では,画像からハイレベルなコンテキスト表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つの手がかりと1つのエンコーディングストリームに依存している。
私たちのモデルは最新技術と競合し、エモティックなデータセット上で0.3002のマップを実現し、消費者レベルのハードウェアでも毎秒約90フレームで実行できます。
全体として、我々のアプローチは従来のモデルよりも効率的であり、感情認識に関する現実の問題に対処するために容易に展開できる。 Emotion recognition is the task of classifying perceived emotions in people. Previous works have utilized various nonverbal cues to extract features from images and correlate them to emotions. Of these cues, situational context is particularly crucial in emotion perception since it can directly influence the emotion of a person. In this paper, we propose an approach for high-level context representation extraction from images. The model relies on a single cue and a single encoding stream to correlate this representation with emotions. Our model competes with the state-of-the-art, achieving an mAP of 0.3002 on the EMOTIC dataset while also being capable of execution on consumer-grade hardware at approximately 90 frames per second. Overall, our approach is more efficient than previous models and can be easily deployed to address real-world problems related to emotion recognition. | 翻訳日:2023-05-08 14:02:52 公開日:2023-05-05 |
# 触媒は有界絡みを克服できない Catalysis cannot overcome bound entanglement ( http://arxiv.org/abs/2305.03489v1 ) ライセンス: Link先を確認 | Ludovico Lami, Bartosz Regula, Alexander Streltsov | (参考訳) 触媒として知られる共役量子系の使用は、局所的な操作と古典的通信の下での絡み合い変換の能力を高めることが知られている。
しかし、そのような利点の限界は定まっておらず、特にそのような支援が非漸近変換率の既知の制限を克服できるかどうかは分かっていない。
ここでは, 触媒が関心の系と相関し, パーミッシブな自由操作の選択の下でも, 触媒変換が有界な絡み合い状態からの絡み合いの蒸留を許さないことを示す。
このことは、触媒が絡み合い理論を漸近的に可逆的にできる可能性を妨げる。
本手法は, 連関触媒による蒸留性エンタングルメントとエンタングルメントコストの新しい漸近境界に基づいている。
この手法を絡み合い理論を超えて拡張すると、触媒は量子コヒーレンスの操作において可逆性を持たず、この資源理論における漸近的触媒変換に対するより強い制限を確立することができる。 The use of ancillary quantum systems known as catalysts is known to be able to enhance the capabilities of entanglement transformations under local operations and classical communication. However, the limits of such advantages have not been determined, and in particular it is not known if such assistance can overcome the known restrictions on asymptotic transformation rates - notably the existence of bound entangled (undistillable) states. Here we establish a general limitation of entanglement catalysis: we show that catalytic transformations can never allow for the distillation of entanglement from a bound entangled state, even if the catalyst may become correlated with the system of interest, and even under permissive choices of free operations. This precludes the possibility that catalysis can make entanglement theory asymptotically reversible. Our methods are based on new asymptotic bounds for the distillable entanglement and entanglement cost assisted by correlated catalysts. Extending our methods beyond entanglement theory, we show that catalysts also cannot enable reversibility in the manipulation of quantum coherence, establishing even stronger restrictions on asymptotic catalytic transformations in this resource theory. | 翻訳日:2023-05-08 14:01:57 公開日:2023-05-05 |
# 量子エンタングルメントの触媒的および漸近的等価性 Catalytic and asymptotic equivalence for quantum entanglement ( http://arxiv.org/abs/2305.03488v1 ) ライセンス: Link先を確認 | Ray Ganardi, Tulja Varun Kondra, Alexander Streltsov | (参考訳) 絡み合いは量子情報処理の基本的な資源であるが、その操作と変換を理解することは依然として困難である。
多くのタスクは、非常に絡み合った純粋な状態に依存しているが、ノイズがあるため、そのような状態を取得することはしばしば困難である。
典型的には、状態の漸近的に多くのコピーを含む絡み合い操作手順がこの問題を克服すると考えられている。
これらの手順は、ノイズの多い状態から非常に絡み合った純状態の蒸留を可能にし、量子テレポーテーションや量子暗号などの幅広い応用を可能にする。
一つのコピーレベルでエンタングル量子システムを操作する場合、エンタングル状態を触媒として使用することで、達成可能な変換の範囲を大幅に広げることができる。
化学における触媒という概念と同様に、エンタングル触媒は状態操作手順の終了時に変化しない。
以上の結果から, 漸近的および触媒的設定の明らかな概念的相違にもかかわらず, 蒸留可能な全ての状態に対して強く結合し, 完全に等価であることが示された。
本手法は, 異なるコピー間の相関関係を確立できるマルチコピーの絡み合い操作手順の解析に依拠する。
重要な結果として, エンタングル触媒を用いると, 蒸留可能な量子状態の漸近的一重項蒸留速度が向上しないことを示した。
本研究は,エンタングル状態の触媒的および漸近的状態変換の能力と限界を包括的に理解し,これらの過程における相関の重要性を強調した。 Entanglement is a fundamental resource in quantum information processing, yet understanding its manipulation and transformation remains a challenge. Many tasks rely on highly entangled pure states, but obtaining such states is often challenging due to the presence of noise. Typically, entanglement manipulation procedures involving asymptotically many copies of a state are considered to overcome this problem. These procedures allow for distilling highly entangled pure states from noisy states, which enables a wide range of applications, such as quantum teleportation and quantum cryptography. When it comes to manipulating entangled quantum systems on a single copy level, using entangled states as catalysts can significantly broaden the range of achievable transformations. Similar to the concept of catalysis in chemistry, the entangled catalyst is returned unchanged at the end of the state manipulation procedure. Our results demonstrate that despite the apparent conceptual differences between the asymptotic and catalytic settings, they are actually strongly connected and fully equivalent for all distillable states. Our methods rely on the analysis of many-copy entanglement manipulation procedures which may establish correlations between different copies. As an important consequence, we demonstrate that using an entangled catalyst cannot enhance the asymptotic singlet distillation rate of a distillable quantum state. Our findings provide a comprehensive understanding of the capabilities and limitations of both catalytic and asymptotic state transformations of entangled states, and highlight the importance of correlations in these processes. | 翻訳日:2023-05-08 14:01:37 公開日:2023-05-05 |
# hd2reg: ポイントクラウド登録のための階層ディスクリプタと検出器 HD2Reg: Hierarchical Descriptors and Detectors for Point Cloud Registration ( http://arxiv.org/abs/2305.03487v1 ) ライセンス: Link先を確認 | Canhui Tang, Yiheng Li, Shaoyi Du, Guofa Wang, and Zhiqiang Tian | (参考訳) 特徴ディスクリプタと検出器は、機能ベースのポイントクラウド登録の主要な2つのコンポーネントである。
しかし、記述子や検出器の学習において、局所的および大域的意味論の明示的な表現にはほとんど注意が向けられていない。
本稿では,デュアルレベルディスクリプタと検出器を明示的に抽出し,粗粒度マッチングを行うフレームワークを提案する。
まず,局所的意味論と大域的意味論を明示的に学習するために,階層的対比学習戦略を提案し,高レベル記述子の強固なマッチング能力を訓練し,低レベル記述子を用いて局所的特徴空間を洗練する。
さらに、2つの異なる感覚でキーポイントの2つのグループを抽出する2レベル・サリエンシマップの学習を提案する。
本稿では,二項一致性ラベルの弱い監督を克服するため,キーポイントの重要ランク付けをラベル付けするランキング戦略を提案し,よりきめ細かい監視信号を提供する。
最後に、3dmatch と kitti odometry データセットを用いた定量的な実験により,本手法がロバストで正確なポイントクラウド登録を達成し,近年のkeypoint ベースの手法を上回っていることを示す。 Feature Descriptors and Detectors are two main components of feature-based point cloud registration. However, little attention has been drawn to the explicit representation of local and global semantics in the learning of descriptors and detectors. In this paper, we present a framework that explicitly extracts dual-level descriptors and detectors and performs coarse-to-fine matching with them. First, to explicitly learn local and global semantics, we propose a hierarchical contrastive learning strategy, training the robust matching ability of high-level descriptors, and refining the local feature space using low-level descriptors. Furthermore, we propose to learn dual-level saliency maps that extract two groups of keypoints in two different senses. To overcome the weak supervision of binary matchability labels, we propose a ranking strategy to label the significance ranking of keypoints, and thus provide more fine-grained supervision signals. Finally, we propose a global-to-local matching scheme to obtain robust and accurate correspondences by leveraging the complementary dual-level features.Quantitative experiments on 3DMatch and KITTI odometry datasets show that our method achieves robust and accurate point cloud registration and outperforms recent keypoint-based methods. | 翻訳日:2023-05-08 14:01:12 公開日:2023-05-05 |
# zoo guide to network embedded (英語) Zoo Guide to Network Embedding ( http://arxiv.org/abs/2305.03474v1 ) ライセンス: Link先を確認 | Anthony Baptista, Rub\'en J. S\'anchez-Garc\'ia, Ana\"is Baudot, Ginestra Bianconi | (参考訳) ネットワークはデータと複雑なシステムの非常に成功したモデルを提供してきた。
しかし、組合せ対象として、ネットワークは一般に内在座標を持たず、一般には周囲の空間に存在しない。
ネットワークに埋め込み空間を割り当てるプロセスは、過去数十年で多くの関心を集め、リンク予測、ノード分類、コミュニティ検出といったネットワーク推論の根本的な問題に効率的に適用されてきた。
本稿では,本分野における文献と現在のトレンドを組み込んだネットワークのユーザフレンドリなガイドについて紹介し,これらの課題に対する活発な研究活動から生まれる手法やアプローチの複雑な景観を読者がナビゲートできるようにする。 Networks have provided extremely successful models of data and complex systems. Yet, as combinatorial objects, networks do not have in general intrinsic coordinates and do not typically lie in an ambient space. The process of assigning an embedding space to a network has attracted lots of interest in the past few decades, and has been efficiently applied to fundamental problems in network inference, such as link prediction, node classification, and community detection. In this review, we provide a user-friendly guide to the network embedding literature and current trends in this field which will allow the reader to navigate through the complex landscape of methods and approaches emerging from the vibrant research activity on these subjects. | 翻訳日:2023-05-08 14:00:49 公開日:2023-05-05 |
# カーネルグラディエントDescent Learningにおけるランダムな平滑化 Random Smoothing Regularization in Kernel Gradient Descent Learning ( http://arxiv.org/abs/2305.03531v1 ) ライセンス: Link先を確認 | Liang Ding, Tianyang Hu, Jiahang Jiang, Donghao Li, Wenjia Wang, Yuan Yao | (参考訳) ランダムスムーズなデータ拡張は、入力データにノイズを導入することで過度な適合を防止し、より一般化された特徴を学ぶようモデルに促す、ユニークな形式である。
様々な応用で成功したにもかかわらず、ランダムな平滑化の正則化能力に関する体系的な研究は乏しい。
本稿では,古典ソボレフ空間に属する幅広い基底真理関数を適応的かつ効果的に学習できるランダム平滑化正規化の枠組みを提案することにより,このギャップを埋めることを目的とする。
具体的には、D$次元ユークリッド空間のソボレフ空間や、特別の場合の低次元部分多様体のソボレフ空間を含む低内在次元のソボレフ空間と、テンソル構造を持つ混合滑らかなソボレフ空間である。
ランダムな平滑化正規化を新しい畳み込みに基づく平滑化カーネルとして使用することにより、早期停止または重み劣化を伴うカーネル勾配勾配アルゴリズムを用いて、これらの場合の最適収束率を得ることができる。
我々の推定器は、基礎となるデータの構造的仮定に適応し、次元の呪いを避けることができる。
これは、ガウス、ラプラス、一般多項式ノイズなどの様々なノイズ分布の注入によって達成され、上記のデータの構造的仮定に広く適応することができる。
収束速度は有効次元のみに依存し、実際のデータ次元よりもかなり小さい可能性がある。
シミュレーションデータの数値実験を行い,理論結果の検証を行った。 Random smoothing data augmentation is a unique form of regularization that can prevent overfitting by introducing noise to the input data, encouraging the model to learn more generalized features. Despite its success in various applications, there has been a lack of systematic study on the regularization ability of random smoothing. In this paper, we aim to bridge this gap by presenting a framework for random smoothing regularization that can adaptively and effectively learn a wide range of ground truth functions belonging to the classical Sobolev spaces. Specifically, we investigate two underlying function spaces: the Sobolev space of low intrinsic dimension, which includes the Sobolev space in $D$-dimensional Euclidean space or low-dimensional sub-manifolds as special cases, and the mixed smooth Sobolev space with a tensor structure. By using random smoothing regularization as novel convolution-based smoothing kernels, we can attain optimal convergence rates in these cases using a kernel gradient descent algorithm, either with early stopping or weight decay. It is noteworthy that our estimator can adapt to the structural assumptions of the underlying data and avoid the curse of dimensionality. This is achieved through various choices of injected noise distributions such as Gaussian, Laplace, or general polynomial noises, allowing for broad adaptation to the aforementioned structural assumptions of the underlying data. The convergence rate depends only on the effective dimension, which may be significantly smaller than the actual data dimension. We conduct numerical experiments on simulated data to validate our theoretical results. | 翻訳日:2023-05-08 13:52:58 公開日:2023-05-05 |
# 制御可能なシンボリック音楽生成のためのソフトマスキング言語モデリングの検討 Exploring Softly Masked Language Modelling for Controllable Symbolic Music Generation ( http://arxiv.org/abs/2305.03530v1 ) ライセンス: Link先を確認 | Nicolas Jonason, Bob L.T. Sturm | (参考訳) 本論文は,SMLM(Softly Masked Language Modelling)を記号的音楽生成に適用する初期の研究について述べる。
SMLMはマスク言語モデリング(MLM)の一般化と見なすことができ、入力集合の各要素が既知のか未知である代わりに、要素が部分的に知られている。
変換器エンコーダアーキテクチャを用いた制約付きシンボリック音楽生成にSMLMを適用した結果を示す。
いくつかのオーディオサンプルがhttps://erl-j.github.io/smlm-web-supplement/で入手できる。 This document presents some early explorations of applying Softly Masked Language Modelling (SMLM) to symbolic music generation. SMLM can be seen as a generalisation of masked language modelling (MLM), where instead of each element of the input set being either known or unknown, elements can be partly known. We demonstrate some results of applying SMLM to constrained symbolic music generation using a transformer encoder architecture. Several audio examples are available at https://erl-j.github.io/smlm-web-supplement/ | 翻訳日:2023-05-08 13:52:32 公開日:2023-05-05 |
# ResQNets:量子ニューラルネットワークにおけるバレン高原の緩和のための残留的アプローチ ResQNets: A Residual Approach for Mitigating Barren Plateaus in Quantum Neural Networks ( http://arxiv.org/abs/2305.03527v1 ) ライセンス: Link先を確認 | Muhammad Kashif, Saif Al-kuwari | (参考訳) 量子ニューラルネットワーク(QNN)におけるバレンプラトー問題は、QNNの実践的な成功を妨げる重要な課題である。
本稿では,この問題に対する解決策として,残留量子ニューラルネットワーク(resqnets)を提案する。
resqnetは古典的な残留ニューラルネットワークにインスパイアされ、従来のqnnアーキテクチャを複数の量子ノードに分割し、それぞれが独自のパラメータ化された量子回路を持ち、これらのノード間の残留接続を導入する。
本研究では,従来のQNNと平易な量子ニューラルネットワーク(PlainQNet)の性能を複数のトレーニング実験により比較し,コスト関数のランドスケープを解析することによって,ResQNetの有効性を実証する。
以上の結果から, 残留接続の導入により, トレーニング性能が向上した。
したがって、ResQNetsは、QNNにおける不毛な高原問題を克服し、量子機械学習分野における今後の研究の方向性を示す、有望なソリューションを提供する。 The barren plateau problem in quantum neural networks (QNNs) is a significant challenge that hinders the practical success of QNNs. In this paper, we introduce residual quantum neural networks (ResQNets) as a solution to address this problem. ResQNets are inspired by classical residual neural networks and involve splitting the conventional QNN architecture into multiple quantum nodes, each containing its own parameterized quantum circuit, and introducing residual connections between these nodes. Our study demonstrates the efficacy of ResQNets by comparing their performance with that of conventional QNNs and plain quantum neural networks (PlainQNets) through multiple training experiments and analyzing the cost function landscapes. Our results show that the incorporation of residual connections results in improved training performance. Therefore, we conclude that ResQNets offer a promising solution to overcome the barren plateau problem in QNNs and provide a potential direction for future research in the field of quantum machine learning. | 翻訳日:2023-05-08 13:52:20 公開日:2023-05-05 |
# unsupervised word sense disambiguationにおける文脈認識意味類似度測定 Context-Aware Semantic Similarity Measurement for Unsupervised Word Sense Disambiguation ( http://arxiv.org/abs/2305.03520v1 ) ライセンス: Link先を確認 | Jorge Martinez-Gil | (参考訳) 単語感覚の曖昧さの問題は、自然言語処理において、この課題に直面するために機械学習モデルを供給するための注釈付きデータが不足しているために、大きな課題となっている。
そのため、注釈付きデータに頼らずにこの課題を克服するために、教師なしの単語認識曖昧化手法が開発されている。
本研究は、文脈情報を類似度測定プロセスに組み込む柔軟なメカニズムを提供する、教師なし単語感覚曖昧化に対する新しい文脈認識アプローチを提案する。
提案手法を評価するために,人気のあるベンチマークデータセットを用いて実験を行い,その性能を教師なし語義不曖昧化手法と比較した。
実験結果から,本手法は曖昧さの精度を大幅に向上させ,既存技術の性能をはるかに上回ることを示す。
本研究は,意味的類似度測定における文脈情報の統合の重要性を明らかにし,教師なしシナリオにおける単語感覚の曖昧さを効果的に管理する。 The issue of word sense ambiguity poses a significant challenge in natural language processing due to the scarcity of annotated data to feed machine learning models to face the challenge. Therefore, unsupervised word sense disambiguation methods have been developed to overcome that challenge without relying on annotated data. This research proposes a new context-aware approach to unsupervised word sense disambiguation, which provides a flexible mechanism for incorporating contextual information into the similarity measurement process. We experiment with a popular benchmark dataset to evaluate the proposed strategy and compare its performance with state-of-the-art unsupervised word sense disambiguation techniques. The experimental results indicate that our approach substantially enhances disambiguation accuracy and surpasses the performance of several existing techniques. Our findings underscore the significance of integrating contextual information in semantic similarity measurements to manage word sense ambiguity in unsupervised scenarios effectively. | 翻訳日:2023-05-08 13:52:04 公開日:2023-05-05 |
# グラディエントDescentを用いた決定木学習 Learning Decision Trees with Gradient Descent ( http://arxiv.org/abs/2305.03515v1 ) ライセンス: Link先を確認 | Sascha Marton and Stefan L\"udtke and Christian Bartelt and Heiner Stuckenschmidt | (参考訳) 決定木(DT)は、高い解釈可能性のために多くの機械学習タスクに一般的に使用される。
しかし、DTをデータから学習することは、非凸で微分不可能であるため、難しい最適化問題である。
したがって、共通のアプローチは各内部ノードの局所的な不純物を最小化する欲望成長アルゴリズムを用いてdtsを学ぶ。
残念なことに、この欲望の手順は最適でない木に繋がる可能性がある。
本稿では,勾配勾配の強い軸方向のDTを学習するための新しい手法を提案する。
提案手法では, 直進演算子を高密度DT表現上でバックプロパゲーションし, 全木パラメータを協調的に最適化する。
提案手法は,バイナリ分類ベンチマークの既存手法を上回り,マルチクラスタスクの競合結果を得る。 Decision Trees (DTs) are commonly used for many machine learning tasks due to their high degree of interpretability. However, learning a DT from data is a difficult optimization problem, as it is non-convex and non-differentiable. Therefore, common approaches learn DTs using a greedy growth algorithm that minimizes the impurity locally at each internal node. Unfortunately, this greedy procedure can lead to suboptimal trees. In this paper, we present a novel approach for learning hard, axis-aligned DTs with gradient descent. The proposed method uses backpropagation with a straight-through operator on a dense DT representation to jointly optimize all tree parameters. Our approach outperforms existing methods on binary classification benchmarks and achieves competitive results for multi-class tasks. | 翻訳日:2023-05-08 13:50:56 公開日:2023-05-05 |
# 多視点ニューラル画像合成のための画素のプルーニング法 Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis ( http://arxiv.org/abs/2305.03572v1 ) ライセンス: Link先を確認 | Marta Milovanovi\'c, Enzo Tartaglione, Marco Cagnazzo, F\'elix Henry | (参考訳) 画像ベースのレンダリング技術は、複数の入力画像の集合から新しいビューを生成するため、ユーザにとって没入感のある体験の中核に立つ。
客観的な品質と主観的な品質で優れたパフォーマンスを示しているため、研究コミュニティは改善に多大な努力を捧げています。
しかし、受信側のレンダリングに必要な大量のデータが、限られた帯域幅環境でのアプリケーションを妨げるか、リアルタイムアプリケーションでの雇用を妨げている。
本稿では,各画素の描画ビューに対する重要性を検証し,無関係な画素の使用を避けるために,入力画素のプルーニング手法であるLeHoPPを提案する。
画像ベースのレンダリングネットワークを再トレーニングしなくても,合成品質と画素レートのトレードオフは良好である。
一般的なニューラルレンダリングフレームワークでテストすると、他のプルーニングベースラインと比較して、LeHoPPは平均で0.9$dBから3.6$dBになる。 Image-based rendering techniques stand at the core of an immersive experience for the user, as they generate novel views given a set of multiple input images. Since they have shown good performance in terms of objective and subjective quality, the research community devotes great effort to their improvement. However, the large volume of data necessary to render at the receiver's side hinders applications in limited bandwidth environments or prevents their employment in real-time applications. We present LeHoPP, a method for input pixel pruning, where we examine the importance of each input pixel concerning the rendered view, and we avoid the use of irrelevant pixels. Even without retraining the image-based rendering network, our approach shows a good trade-off between synthesis quality and pixel rate. When tested in the general neural rendering framework, compared to other pruning baselines, LeHoPP gains between $0.9$ dB and $3.6$ dB on average. | 翻訳日:2023-05-08 13:44:37 公開日:2023-05-05 |
# 確率的政策勾配による意味コミュニケーションのモデルフリー強化学習 Model-free Reinforcement Learning of Semantic Communication by Stochastic Policy Gradient ( http://arxiv.org/abs/2305.03571v1 ) ライセンス: Link先を確認 | Edgar Beck, Carsten Bockelmann and Armin Dekorsy | (参考訳) 無線通信における機械学習ツールの成功により、1949年のWeaverによる意味コミュニケーションのアイデアが注目されている。
シャノンの古典的なデザインパラダイムは、正確なバージョンではなくメッセージの意味(意味論)を伝達することであり、情報レートの節約を可能にしている。
本研究では,確率的政策勾配 (spg) を拡張学習による意味的コミュニケーションシステムの設計に適用し,実際の展開に向けた重要なステップとして,既知の,あるいは微分可能なチャネルモデルを必要としないことを提案する。
さらに、受信変数と対象変数の相互情報の最大化から、古典的および意味的コミュニケーションにおけるSPGの利用を動機づける。
数値計算の結果,コンバージェンス率の低下にもかかわらず,再パラメータ化手法に基づくモデル認識手法に匹敵する性能が得られた。 Motivated by the recent success of Machine Learning tools in wireless communications, the idea of semantic communication by Weaver from 1949 has gained attention. It breaks with Shannon's classic design paradigm by aiming to transmit the meaning, i.e., semantics, of a message instead of its exact version, allowing for information rate savings. In this work, we apply the Stochastic Policy Gradient (SPG) to design a semantic communication system by reinforcement learning, not requiring a known or differentiable channel model - a crucial step towards deployment in practice. Further, we motivate the use of SPG for both classic and semantic communication from the maximization of the mutual information between received and target variables. Numerical results show that our approach achieves comparable performance to a model-aware approach based on the reparametrization trick, albeit with a decreased convergence rate. | 翻訳日:2023-05-08 13:44:19 公開日:2023-05-05 |
# ベクトル量子化マスマスキングオートエンコーダによる音声視覚音声の感情認識 A vector quantized masked autoencoder for audiovisual speech emotion recognition ( http://arxiv.org/abs/2305.03568v1 ) ライセンス: Link先を確認 | Samir Sadok, Simon Leglaive, Renaud S\'eguier | (参考訳) 完全な教師付きモデルが音声視覚音声感情認識(ser)に有効であることが示されているが、ラベル付きデータの可用性の制限はこの分野において依然として大きな課題である。
この問題に対処するために、マスク付きオートエンコーダ(maes)のような自己教師付き学習アプローチが潜在的なソリューションとして人気を集めている。
本稿では,音声の自己教師付き表現学習のためのベクトル量子化maeであるvq-mae-avモデルを提案する。
既存のマルチモーダルmaesとは異なり、提案手法では2つの事前学習されたベクトル量子化変分オートエンコーダによって学習された離散音声と視覚音声表現に基づく自己教師付きパラダイムを用いる。
実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整されている。 While fully-supervised models have been shown to be effective for audiovisual speech emotion recognition (SER), the limited availability of labeled data remains a major challenge in the field. To address this issue, self-supervised learning approaches, such as masked autoencoders (MAEs), have gained popularity as potential solutions. In this paper, we propose the VQ-MAE-AV model, a vector quantized MAE specifically designed for audiovisual speech self-supervised representation learning. Unlike existing multimodal MAEs that rely on the processing of the raw audiovisual speech data, the proposed method employs a self-supervised paradigm based on discrete audio and visual speech representations learned by two pre-trained vector quantized variational autoencoders. Experimental results show that the proposed approach, which is pre-trained on the VoxCeleb2 database and fine-tuned on standard emotional audiovisual speech datasets, outperforms the state-of-the-art audiovisual SER methods. | 翻訳日:2023-05-08 13:44:04 公開日:2023-05-05 |
# 金融機関の幾何学 ---wasserstein clustering of financial data The geometry of financial institutions -- Wasserstein clustering of financial data ( http://arxiv.org/abs/2305.03565v1 ) ライセンス: Link先を確認 | Lorenz Riess, Mathias Beiglb\"ock, Johannes Temme, Andreas Wolf, Julio Backhoff | (参考訳) 様々な関心対象の粒度やビッグデータの利用可能化が進み、この情報を代表的で分かりやすい地図に凝縮する手法を開発する必要がある。
金融規制は、このニーズを実証する分野であり、規制当局はその活動を監視し評価するために、金融機関から多様かつしばしば非常に細かいデータを必要とする。
しかしながら、これらのデータの処理と分析は、特に値の欠如や、特定の特徴に基づいたクラスタの識別といった課題を考えると、大変な作業になり得る。
これらの課題に対処するために、ロイドのアルゴリズムの変種を確率分布に適用し、一般化されたwaserstein barycentersを用いて、様々な対象の与えられたデータを凝縮形式で表現する計量空間を構築する。
本手法を金融規制の文脈に適用することにより,規制当局が直面する課題に対処する上での有用性を示す。
我々は、より一般的に、大規模で複雑なデータセットを簡潔な形式で表現する必要がある他の分野にも適用できると考えている。 The increasing availability of granular and big data on various objects of interest has made it necessary to develop methods for condensing this information into a representative and intelligible map. Financial regulation is a field that exemplifies this need, as regulators require diverse and often highly granular data from financial institutions to monitor and assess their activities. However, processing and analyzing such data can be a daunting task, especially given the challenges of dealing with missing values and identifying clusters based on specific features. To address these challenges, we propose a variant of Lloyd's algorithm that applies to probability distributions and uses generalized Wasserstein barycenters to construct a metric space which represents given data on various objects in condensed form. By applying our method to the financial regulation context, we demonstrate its usefulness in dealing with the specific challenges faced by regulators in this domain. We believe that our approach can also be applied more generally to other fields where large and complex data sets need to be represented in concise form. | 翻訳日:2023-05-08 13:43:45 公開日:2023-05-05 |
# 超伝導共振器の補間結合 : qudit-qudit絡みの高速・高忠実化 Collateral coupling between superconducting resonators: Fast and high fidelity generation of qudit-qudit entanglement ( http://arxiv.org/abs/2305.03564v1 ) ライセンス: Link先を確認 | Pedro Rosario, Alan C. Santos, Celso Jorge Villas-Boas, Romain Bachelard | (参考訳) 超伝導回路は量子状態を操作するための高度に制御可能なプラットフォームであり、量子情報処理に特に有望である。
ここでは,マイクロ波共振器間の距離非依存相互作用の存在が,量子ビットを介して容量的に結合していることを示す。
この相互作用は共振器間のアイドリング点を誘導することができ、その状態依存性により共振器間の情報の流れを制御することができる。
このスキームの利点は、共振器間の高忠実NOON状態の生成を通じて、従来のスキームよりも少ない演算数で示される。
超伝導回路以外では、例えば光共振器内のクロック遷移を伴う原子格子にも応用できる。 Superconducting circuits are highly controllable platforms to manipulate quantum states, which make them particularly promising for quantum information processing. We here show how the existence of a distance-independent interaction between microwave resonators coupled capacitively through a qubit offers a new control parameter toward this goal. This interaction is able to induce an idling point between resonant resonators, and its state-dependent nature allows one to control the flow of information between the resonators. The advantage of this scheme over previous one is demonstrated through the generation of high-fidelity NOON states between the resonators, with a lower number of operations than previous schemes. Beyond superconducting circuits, our proposal could also apply to atomic lattices with clock transitions in optical cavities, for example. | 翻訳日:2023-05-08 13:43:27 公開日:2023-05-05 |
# 曲率空間におけるコントラストグラフクラスタリング Contrastive Graph Clustering in Curvature Spaces ( http://arxiv.org/abs/2305.03555v1 ) ライセンス: Link先を確認 | Li Sun, Feiyang Wang, Junda Ye, Hao Peng, Philip S. Yu | (参考訳) グラフクラスタリングは長年の研究トピックであり、近年ではディープラーニング手法で大きな成功を収めている。
しかしながら、いくつかの重要な問題がほとんど未解決のままである。
一方で、幾何学的な観点からのグラフクラスタリングは魅力的だが、幾何学的クラスタリングに有望な空間がないため、これまで触れられることは稀である。
一方、対照的な学習は、ディープグラフのクラスタリングを促進するが、通常、グラフ増強またはハードサンプルマイニングに苦労する。
このギャップを埋めるために、幾何学的観点からグラフクラスタリングの問題を再考し、私たちの知識の最大限に活用するために、グラフクラスタリング問題に不均一な曲率空間を導入する最初の試みを行う。
対応するグラフクラスタリングモデルであるCONGREGATEについて,リッチ曲率を用いた幾何グラフクラスタリングについて述べる。
幾何学的クラスタリングをサポートするため、提案する完全リーマングラフ畳み込みネットの積を通じて深い表現が生成される理論的に接地した不均質な曲率空間を構築する。
その後、グラフクラスタを拡張自由な再重み付きコントラストアプローチでトレーニングし、曲率空間における強陰性と強正の両方により注意を払う。
実世界のグラフにおける実証的な結果は、我々のモデルは最先端の競合より優れていることを示している。 Graph clustering is a longstanding research topic, and has achieved remarkable success with the deep learning methods in recent years. Nevertheless, we observe that several important issues largely remain open. On the one hand, graph clustering from the geometric perspective is appealing but has rarely been touched before, as it lacks a promising space for geometric clustering. On the other hand, contrastive learning boosts the deep graph clustering but usually struggles in either graph augmentation or hard sample mining. To bridge this gap, we rethink the problem of graph clustering from geometric perspective and, to the best of our knowledge, make the first attempt to introduce a heterogeneous curvature space to graph clustering problem. Correspondingly, we present a novel end-to-end contrastive graph clustering model named CONGREGATE, addressing geometric graph clustering with Ricci curvatures. To support geometric clustering, we construct a theoretically grounded Heterogeneous Curvature Space where deep representations are generated via the product of the proposed fully Riemannian graph convolutional nets. Thereafter, we train the graph clusters by an augmentation-free reweighted contrastive approach where we pay more attention to both hard negatives and hard positives in our curvature space. Empirical results on real-world graphs show that our model outperforms the state-of-the-art competitors. | 翻訳日:2023-05-08 13:43:14 公開日:2023-05-05 |
# 集積超伝導原子チップ上の光およびマイクロ波光子のコヒーレント界面 Coherent interface between optical and microwave photons on an integrated superconducting atom chip ( http://arxiv.org/abs/2305.03550v1 ) ライセンス: Link先を確認 | David Petrosyan, J\'ozsef Fort\'agh, Gershon Kurizki | (参考訳) 原子のサブ波長配列は、コリメーテッド指向性放射や集団共鳴周波数付近の光のほぼ完全な反射のような位相アレーアンテナのものと類似した優れた光学特性を示す。
超伝導コプレーナー導波路共振器における伝搬光子とマイクロ波光子のコヒーレントな界面を実現するために、原子の単シートサブ波長アレイを切換ミラーとして用いることを提案する。
提案した構成では、原子アレイはマイクロ波共振器と光導波路を含む集積超伝導チップの表面付近に位置する。
駆動レーザーは励起原子状態を強いマイクロ波遷移でライドバーグ状態に結合する。
超伝導キャビティにおけるマイクロ波光子の存在または欠如は、原子配列を適切な周波数と有限帯域の入射光パルスに対して透明または反射させる。 Sub-wavelength arrays of atoms exhibit remarkable optical properties, analogous to those of phased array antennas, such as collimated directional emission or nearly perfect reflection of light near the collective resonance frequency. We propose to use a single-sheet sub-wavelength array of atoms as a switchable mirror to achieve a coherent interface between propagating optical photons and microwave photons in a superconducting coplanar waveguide resonator. In the proposed setup, the atomic array is located near the surface of the integrated superconducting chip containing the microwave cavity and optical waveguide. A driving laser couples the excited atomic state to Rydberg states with strong microwave transition. Then the presence or absence of a microwave photon in the superconducting cavity makes the atomic array transparent or reflective to the incoming optical pulses of proper frequency and finite bandwidth. | 翻訳日:2023-05-08 13:42:52 公開日:2023-05-05 |
# 限られた電力とプライバシー予算によるオーバーエアフェデレーション平均化 Over-the-Air Federated Averaging with Limited Power and Privacy Budgets ( http://arxiv.org/abs/2305.03547v1 ) ライセンス: Link先を確認 | Na Yan, Kezhi Wang, Cunhua Pan, Kok Keong Chai, Feng Shu, and Jiangzhou Wang | (参考訳) 本稿では,無線フェデレーション学習(FL)の通信ボトルネックとプライバシリークを共同で克服するため,差分的にプライベートなオーバーザエアフェデレーション平均化(DP-OTA-FedAvg)システムについて検討する。
DP-OTA-FedAvgでは、勾配はアライメント係数で整列され、空気上に集約され、プライバシーを保護するためにチャネルノイズが使用される。
本研究の目的は,デバイススケジューリング,アライメント係数,フェデレーション平均化ラウンド数(FedAvg)の合計電力とプライバシ制約を考慮した共同設計を行うことによる学習性能の向上である。
まず、差分プライバシー(DP)に基づくプライバシ分析を行い、各通信ラウンドにおけるアライメント係数がプライバシ保護に与える影響を定量化する。
さらに,デバイススケジューリング,アライメント係数,グローバルアグリゲーションの数が学習プロセスにどのように影響するかを検討するために,凸損失関数や非凸損失関数の場合のdp-ota-fedavgの収束解析を行う。
これらの分析結果をもとに, dp-ota-fedavgの最適性ギャップを最小化するための最適化問題を定式化する。
この問題は2つの部分問題に分解することで解決される。
通信ラウンドの数を考えると、スケジュールされたデバイス数とアライメント係数の関係を結論づけ、デバイススケジューリングの潜在的な最適解対とアライメント係数のセットを提供する。
探索空間の削減により、最適解を効率的に得ることができる。
提案手法の有効性をシミュレーションにより検証した。 To jointly overcome the communication bottleneck and privacy leakage of wireless federated learning (FL), this paper studies a differentially private over-the-air federated averaging (DP-OTA-FedAvg) system with a limited sum power budget. With DP-OTA-FedAvg, the gradients are aligned by an alignment coefficient and aggregated over the air, and channel noise is employed to protect privacy. We aim to improve the learning performance by jointly designing the device scheduling, alignment coefficient, and the number of aggregation rounds of federated averaging (FedAvg) subject to sum power and privacy constraints. We first present the privacy analysis based on differential privacy (DP) to quantify the impact of the alignment coefficient on privacy preservation in each communication round. Furthermore, to study how the device scheduling, alignment coefficient, and the number of the global aggregation affect the learning process, we conduct the convergence analysis of DP-OTA-FedAvg in the cases of convex and non-convex loss functions. Based on these analytical results, we formulate an optimization problem to minimize the optimality gap of the DP-OTA-FedAvg subject to limited sum power and privacy budgets. The problem is solved by decoupling it into two sub-problems. Given the number of communication rounds, we conclude the relationship between the number of scheduled devices and the alignment coefficient, which offers a set of potential optimal solution pairs of device scheduling and the alignment coefficient. Thanks to the reduced search space, the optimal solution can be efficiently obtained. The effectiveness of the proposed policy is validated through simulations. | 翻訳日:2023-05-08 13:42:37 公開日:2023-05-05 |
# 乳癌の免疫組織化学的画像生成 : ベンチマークデータセットとチャレンジレビュー Breast Cancer Immunohistochemical Image Generation: a Benchmark Dataset and Challenge Review ( http://arxiv.org/abs/2305.03546v1 ) ライセンス: Link先を確認 | Chuang Zhu, Shengjie Liu, Feng Xu, Zekuan Yu, Arpit Aggarwal, Germ\'an Corredor, Anant Madabhushi, Qixun Qu, Hongwei Fan, Fangda Li, Yueheng Li, Xianchao Guan, Yongbing Zhang, Vivek Kumar Singh, Farhan Akram, Md. Mostafa Kamal Sarker, Zhongyue Shi, Mulan Jin | (参考訳) 浸潤乳癌では、免疫組織化学(ihc)技術が乳腺組織におけるヒト上皮成長因子受容体(her2)の発現レベルを検出し、正確な治療計画を作成するためにしばしば用いられる。
人力, 材料, 時間的コストの面では, ヘマトキシリンおよびエオシン(H&E)染色画像から直接IHC染色画像を生成することは, 貴重な研究方向である。
そこで我々は,病理画像生成における深層学習技術の新たなアイデアを探求し,この分野の研究を促進するために,乳癌免疫組織化学画像生成課題を行った。
この課題は、登録されたH&EとIHCステインイメージペアを提供し、参加者はこれらのイメージを使用して、対応するH&EステインイメージからIHCステインイメージを直接生成できるモデルをトレーニングする必要がある。
我々は,PSNRとSSIMの指標に基づいて,上位5つの手法を選択し,レビューし,対応するパイプラインと実装の概要を示した。
本稿では、乳がんの免疫組織化学的画像生成領域における現在の限界を更に分析し、この領域の今後の発展を予測する。
リリースされたデータセットと課題によって、より多くの学者が、高品質なIHCによる画像生成を共同で研究できることを期待しています。 For invasive breast cancer, immunohistochemical (IHC) techniques are often used to detect the expression level of human epidermal growth factor receptor-2 (HER2) in breast tissue to formulate a precise treatment plan. From the perspective of saving manpower, material and time costs, directly generating IHC-stained images from hematoxylin and eosin (H&E) stained images is a valuable research direction. Therefore, we held the breast cancer immunohistochemical image generation challenge, aiming to explore novel ideas of deep learning technology in pathological image generation and promote research in this field. The challenge provided registered H&E and IHC-stained image pairs, and participants were required to use these images to train a model that can directly generate IHC-stained images from corresponding H&E-stained images. We selected and reviewed the five highest-ranking methods based on their PSNR and SSIM metrics, while also providing overviews of the corresponding pipelines and implementations. In this paper, we further analyze the current limitations in the field of breast cancer immunohistochemical image generation and forecast the future development of this field. We hope that the released dataset and the challenge will inspire more scholars to jointly study higher-quality IHC-stained image generation. | 翻訳日:2023-05-08 13:42:08 公開日:2023-05-05 |
# 次世代手術ナビゲーション:多視点マーカーレス6DoFによる手術器具の計測 Next-generation Surgical Navigation: Multi-view Marker-less 6DoF Pose Estimation of Surgical Instruments ( http://arxiv.org/abs/2305.03535v1 ) ライセンス: Link先を確認 | Jonas Hein, Nicola Cavalcanti, Daniel Suter, Lukas Zingg, Fabio Carrillo, Mazda Farshad, Marc Pollefeys, Nassir Navab, and Philipp F\"urnstahl | (参考訳) 従来のコンピュータビジョンの最先端の研究は、外科領域でますます活用されている。
コンピュータ支援手術における特に焦点は、計器位置決めのためのマーカーベースのトラッキングシステムを、純粋な画像ベースの6DoFポーズ推定に置き換えることである。
しかし、術式は外科ナビゲーションに必要な精度にはまだ達していない。
そこで本研究では,高忠実度マーカーレス光学追跡システムを提案する。
静的カメラとモバイルカメラからなるマルチビューカメラのセットアップを開発し,専用同期・データ融合方式を用いた大規模rgb-dビデオデータセットを収集した。
さまざまな最先端ポーズ推定手法をディープラーニングパイプラインに統合し,複数のカメラ構成で評価した。
さらに,入力モードやカメラ位置の違いによるパフォーマンスへの影響,および純粋合成データに対するトレーニングについて比較した。
最良のモデルは、手術用ドリルの平均位置と方向誤差を1.3mmと1.0{\deg}、スクリュードライバーを3.8mmと5.2{\deg}とした。
これらの結果は文献中の関連する方法を大幅に上回っており,臨床的に適度な精度に近く,既存のマーカーベースのシステムに対するマーカーレス追跡が実現可能な選択肢になりつつあることを示す。 State-of-the-art research of traditional computer vision is increasingly leveraged in the surgical domain. A particular focus in computer-assisted surgery is to replace marker-based tracking systems for instrument localization with pure image-based 6DoF pose estimation. However, the state of the art has not yet met the accuracy required for surgical navigation. In this context, we propose a high-fidelity marker-less optical tracking system for surgical instrument localization. We developed a multi-view camera setup consisting of static and mobile cameras and collected a large-scale RGB-D video dataset with dedicated synchronization and data fusions methods. Different state-of-the-art pose estimation methods were integrated into a deep learning pipeline and evaluated on multiple camera configurations. Furthermore, the performance impacts of different input modalities and camera positions, as well as training on purely synthetic data, were compared. The best model achieved an average position and orientation error of 1.3 mm and 1.0{\deg} for a surgical drill as well as 3.8 mm and 5.2{\deg} for a screwdriver. These results significantly outperform related methods in the literature and are close to clinical-grade accuracy, demonstrating that marker-less tracking of surgical instruments is becoming a feasible alternative to existing marker-based systems. | 翻訳日:2023-05-08 13:41:44 公開日:2023-05-05 |
# 微分プライベートトポロジカルデータ解析 Differentially Private Topological Data Analysis ( http://arxiv.org/abs/2305.03609v1 ) ライセンス: Link先を確認 | Taegyu Kang, Sehwan Kim, Jinwon Sohn, Jordan Awan | (参考訳) 本稿では, 微分プライベート(DP)トポロジカルデータ解析 (TDA) を初めて試み, ほぼ最適なプライベート永続図を作成する。
ボトルネック距離の観点から永続性図形の感度を解析し, 一般的に用いられる \v{C}ech 錯体は, サンプルサイズが$n$増加するにつれて低下しない感度を持つことを示した。
これにより、v{C}ech錯体の永続図式を民営化するのが困難になる。
代替として、DTM(DTM)測定のための$L^1$-distanceによって得られた持続図は、感度$O(1/n)$であることを示す。
感度解析に基づいて, $l^1$-dtm パーシステンスダイアグラムのボトルネック距離からユーティリティ関数を定義する指数関数機構を用いることを提案する。
また、プライバシ機構の精度の上限を上下に導出し、得られた境界は、機構のプライバシエラーがほぼ最適であることを示している。
シミュレーションと実際のデータセットによる人間の動きの追跡により,民営化された永続化図の性能を実証する。 This paper is the first to attempt differentially private (DP) topological data analysis (TDA), producing near-optimal private persistence diagrams. We analyze the sensitivity of persistence diagrams in terms of the bottleneck distance, and we show that the commonly used \v{C}ech complex has sensitivity that does not decrease as the sample size $n$ increases. This makes it challenging for the persistence diagrams of \v{C}ech complexes to be privatized. As an alternative, we show that the persistence diagram obtained by the $L^1$-distance to measure (DTM) has sensitivity $O(1/n)$. Based on the sensitivity analysis, we propose using the exponential mechanism whose utility function is defined in terms of the bottleneck distance of the $L^1$-DTM persistence diagrams. We also derive upper and lower bounds of the accuracy of our privacy mechanism; the obtained bounds indicate that the privacy error of our mechanism is near-optimal. We demonstrate the performance of our privatized persistence diagrams through simulations as well as on a real dataset tracking human movement. | 翻訳日:2023-05-08 13:34:20 公開日:2023-05-05 |
# 適応学習に基づく制御障壁関数の最適性、安定性、実現可能性について On the Optimality, Stability, and Feasibility of Control Barrier Functions: An Adaptive Learning-Based Approach ( http://arxiv.org/abs/2305.03608v1 ) ライセンス: Link先を確認 | Alaa Eddine Chriat and Chuangchuang Sun | (参考訳) 安全性は、現実世界のアプリケーションに学習ベースのアプローチを配置する上で重要な問題である。
この問題に対処するため、制御バリア機能(cbf)とその変種は安全クリティカルな制御に広く注目を集めている。
しかし、CBFの筋電図的な一段階の性質とクラス-$\mathcal{K}$関数を設計する原理的な方法の欠如により、現在のCBFには、最適性、安定性、実現可能性という根本的な制限がある。
本稿では,ニューラルネットワークを用いてクラス-$\mathcal{k}$関数をパラメータ化し,強化学習ポリシーとともに学習する適応型多段階制御障壁関数(am-cbf)を用いて,これらの制約に対処するための新しい統一的手法を提案する。
さらに, 筋覚特性を緩和するために, 単段凸二次プログラムを解き続けるcbfを遠視化するために, 新たな \textit{multi-step training and single-step execution}パラダイムを提案する。
提案手法は,従来のCBFよりも質的,定量的に優れる,様々なシナリオにおいて,第1次および第2次システムで評価される。 Safety has been a critical issue for the deployment of learning-based approaches in real-world applications. To address this issue, control barrier function (CBF) and its variants have attracted extensive attention for safety-critical control. However, due to the myopic one-step nature of CBF and the lack of principled methods to design the class-$\mathcal{K}$ functions, there are still fundamental limitations of current CBFs: optimality, stability, and feasibility. In this paper, we proposed a novel and unified approach to address these limitations with Adaptive Multi-step Control Barrier Function (AM-CBF), where we parameterize the class-$\mathcal{K}$ function by a neural network and train it together with the reinforcement learning policy. Moreover, to mitigate the myopic nature, we propose a novel \textit{multi-step training and single-step execution} paradigm to make CBF farsighted while the execution remains solving a single-step convex quadratic program. Our method is evaluated on the first and second-order systems in various scenarios, where our approach outperforms the conventional CBF both qualitatively and quantitatively. | 翻訳日:2023-05-08 13:34:02 公開日:2023-05-05 |
# 視覚言語ナビゲーションのためのsemantic-aware recurrent global-adaptive network A Dual Semantic-Aware Recurrent Global-Adaptive Network For Vision-and-Language Navigation ( http://arxiv.org/abs/2305.03602v1 ) ライセンス: Link先を確認 | Liuyi Wang, Zongtao He, Jiagui Tang, Ronghao Dang, Naijia Wang, Chengju Liu, Qijun Chen | (参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定する必要がある現実的だが困難なタスクである。
1) 視覚と言語の両方に隠された重要な案内的意味論の明示的な情報マイニングはいまだ未発見であり, (2) 以前構築された地図法は,来訪したノードの平均的歴史的外観を提供する一方で, 様々な画像の独特な寄与や, 推論過程における強力な情報保持を無視する。
本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
まず、DSRGは、視覚と言語の意味学習を強化するために、命令誘導言語モジュール(IGL)と外観意味視覚モジュール(ASV)を提案する。
メモリ機構には、明示的なパノラマ観察融合のためにグローバル適応アグリゲーションモジュール(GAA)が考案され、暗黙の時間的隠蔽状態を供給するためにリカレントメモリ融合モジュール(RMF)が導入された。
r2rとreverieデータセットの広範な実験結果から,本手法は既存の手法よりも優れた性能を得られることが示された。 Vision-and-Language Navigation (VLN) is a realistic but challenging task that requires an agent to locate the target region using verbal and visual cues. While significant advancements have been achieved recently, there are still two broad limitations: (1) The explicit information mining for significant guiding semantics concealed in both vision and language is still under-explored; (2) The previously structured map method provides the average historical appearance of visited nodes, while it ignores distinctive contributions of various images and potent information retention in the reasoning process. This work proposes a dual semantic-aware recurrent global-adaptive network (DSRG) to address the above problems. First, DSRG proposes an instruction-guidance linguistic module (IGL) and an appearance-semantics visual module (ASV) for boosting vision and language semantic learning respectively. For the memory mechanism, a global adaptive aggregation module (GAA) is devised for explicit panoramic observation fusion, and a recurrent memory fusion module (RMF) is introduced to supply implicit temporal hidden states. Extensive experimental results on the R2R and REVERIE datasets demonstrate that our method achieves better performance than existing methods. | 翻訳日:2023-05-08 13:33:38 公開日:2023-05-05 |
# 人間の注意誘導型コンピュータビジョンモデルのための説明可能な人工知能 Human Attention-Guided Explainable Artificial Intelligence for Computer Vision Models ( http://arxiv.org/abs/2305.03601v1 ) ライセンス: Link先を確認 | Guoyang Liu, Jindi Zhang, Antoni B. Chan, Janet H. Hsiao | (参考訳) コンピュータビジョンモデルに人的注意力の知識を相性に基づく説明可能なAI(XAI)手法に組み込むことで、その妥当性と忠実性を高めることができるかどうかを検討した。
画像分類モデルに対する現在の手法を拡張して、オブジェクト固有の説明を生成するために、オブジェクト検出モデルのための勾配に基づく新しいXAI法を開発した。
興味深いことに、これらの勾配に基づく手法は画像分類モデルを説明するのにうまく機能したが、オブジェクト検出モデルを説明するのに使用される場合、結果として得られるサリエンシマップは、同じタスクを行う場合の人間の注意マップよりも信頼度が低い。
次に,人間注意誘導型xai (hag-xai) を開発し,モデルからの説明情報を最善に組み合わせ,学習可能なアクティベーション関数を用いて説明可能性を高めることにより,xaiサリエンシーマップと人間の注意マップとの類似性を最大化する。
画像分類モデルでは、HAG-XAIは忠実さを犠牲にして説明の妥当性を高め、オブジェクト検出モデルでは信頼性と忠実さを同時に向上し、既存の手法よりも優れていた。
学習された関数はモデル固有であり、他のデータベースによく一般化できる。 We examined whether embedding human attention knowledge into saliency-based explainable AI (XAI) methods for computer vision models could enhance their plausibility and faithfulness. We first developed new gradient-based XAI methods for object detection models to generate object-specific explanations by extending the current methods for image classification models. Interestingly, while these gradient-based methods worked well for explaining image classification models, when being used for explaining object detection models, the resulting saliency maps generally had lower faithfulness than human attention maps when performing the same task. We then developed Human Attention-Guided XAI (HAG-XAI) to learn from human attention how to best combine explanatory information from the models to enhance explanation plausibility by using trainable activation functions and smoothing kernels to maximize XAI saliency map's similarity to human attention maps. While for image classification models, HAG-XAI enhanced explanation plausibility at the expense of faithfulness, for object detection models it enhanced plausibility and faithfulness simultaneously and outperformed existing methods. The learned functions were model-specific, well generalizable to other databases. | 翻訳日:2023-05-08 13:33:13 公開日:2023-05-05 |
# NLI4CT : 多証拠自然言語推論による臨床試験報告 NLI4CT: Multi-Evidence Natural Language Inference for Clinical Trial Reports ( http://arxiv.org/abs/2305.03598v1 ) ライセンス: Link先を確認 | Ma\"el Jullien, Marco Valentino, Hannah Frost, Paul O'Regan, Donal Landers, and Andr\'e Freitas | (参考訳) 臨床判断を支援するために 医学的証拠を解釈し 取り出すにはどうすればよいか?
臨床治験報告(CTR)は、パーソナライズド医療の発展に欠かせない情報を含んでいる。
しかし、40万以上の臨床試験報告を手動で検査して、実験的な治療の最良の証拠を見つけることは事実上不可能である。
自然言語推論(NLI)は、テキストエンターメントのスケーラブルな計算を可能にすることにより、この問題に対する潜在的な解決策を提供する。
しかし、既存のNLIモデルはバイオメディカルコーパスでは性能が悪く、以前に発表されたデータセットはCTRに対する推論の完全な複雑さを捉えることができない。
本研究では,CTRの推論のためのNLI研究を進展させる新しい資源を提案する。
リソースには2つの主なタスクが含まれている。
まず、自然言語文とCTRの推論関係を決定する。
第二に、予測関係を正当化する支援事実を検索する。
NLI4CTは2400の文とCTRからなるコーパスで、これらのタスクに注釈を付ける。
このコーパスのベースラインは既存のNLIモデルの限界を明らかにし、6つの最先端NLIモデルは最大F1スコア0.627を達成する。
私たちの知る限りでは、私たちは完全なCTRの解釈をカバーするタスクを最初に設計しました。
この困難なデータセットのさらなる作業を促進するために、コーパス、競合のリーダーボード、webサイト、コードをベースラインの実験を再現する。 How can we interpret and retrieve medical evidence to support clinical decisions? Clinical trial reports (CTR) amassed over the years contain indispensable information for the development of personalized medicine. However, it is practically infeasible to manually inspect over 400,000+ clinical trial reports in order to find the best evidence for experimental treatments. Natural Language Inference (NLI) offers a potential solution to this problem, by allowing the scalable computation of textual entailment. However, existing NLI models perform poorly on biomedical corpora, and previously published datasets fail to capture the full complexity of inference over CTRs. In this work, we present a novel resource to advance research on NLI for reasoning on CTRs. The resource includes two main tasks. Firstly, to determine the inference relation between a natural language statement, and a CTR. Secondly, to retrieve supporting facts to justify the predicted relation. We provide NLI4CT, a corpus of 2400 statements and CTRs, annotated for these tasks. Baselines on this corpus expose the limitations of existing NLI models, with 6 state-of-the-art NLI models achieving a maximum F1 score of 0.627. To the best of our knowledge, we are the first to design a task that covers the interpretation of full CTRs. To encourage further work on this challenging dataset, we make the corpus, competition leaderboard, website and code to replicate the baseline experiments available at: https://github.com/ai-systems/nli4ct | 翻訳日:2023-05-08 13:32:50 公開日:2023-05-05 |
# hscnet++:transformerを用いた視覚定位のための階層的シーン座標分類と回帰 HSCNet++: Hierarchical Scene Coordinate Classification and Regression for Visual Localization with Transformer ( http://arxiv.org/abs/2305.03595v1 ) ライセンス: Link先を確認 | Shuzhe Wang, Zakaria Laskar, Iaroslav Melekhov, Xiaotian Li, Yi Zhao, Giorgos Tolias, Juho Kannala | (参考訳) 視覚のローカライゼーションは、コンピュータビジョンやロボット工学の多くの応用に不可欠である。
単一画像rgbローカライズに対処するため、最先端の機能ベース手法はクエリ画像と予め構築された3dモデルの間のローカルディスクリプタにマッチする。
近年,深層ニューラルネットワークを用いてシーン内の原画素と3次元座標のマッピングを回帰し,前方通過によって暗黙的にマッチングを行うようになっている。
しかし、大規模で曖昧な環境では、そのような回帰タスクを直接学習することは、単一のネットワークで困難である。
そこで本研究では,1つのrgb画像からピクセルシーン座標を粗視的に予測する新しい階層的シーン座標ネットワークを提案する。
提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。
7つのシーン、12のシーン、ケンブリッジのランドマークデータセット、そして屋内のシーンを組み合わせた単一の画像のローカライズのための新しい最新技術を設定する。 Visual localization is critical to many applications in computer vision and robotics. To address single-image RGB localization, state-of-the-art feature-based methods match local descriptors between a query image and a pre-built 3D model. Recently, deep neural networks have been exploited to regress the mapping between raw pixels and 3D coordinates in the scene, and thus the matching is implicitly performed by the forward pass through the network. However, in a large and ambiguous environment, learning such a regression task directly can be difficult for a single network. In this work, we present a new hierarchical scene coordinate network to predict pixel scene coordinates in a coarse-to-fine manner from a single RGB image. The proposed method, which is an extension of HSCNet, allows us to train compact models which scale robustly to large environments. It sets a new state-of-the-art for single-image localization on the 7-Scenes, 12 Scenes, Cambridge Landmarks datasets, and the combined indoor scenes. | 翻訳日:2023-05-08 13:32:24 公開日:2023-05-05 |
# あなたのように聞こえる: デバイス上で個人化された語彙を学ぶ Now It Sounds Like You: Learning Personalized Vocabulary On Device ( http://arxiv.org/abs/2305.03584v1 ) ライセンス: Link先を確認 | Sid Wang, Ashish Shenoy, Pierce Chuang, John Nguyen | (参考訳) 近年,様々な自然言語処理(NLP)タスクの実行能力において,フェデレートラーニング(FL)が著しい進歩を見せている。
本研究は、オンデバイス言語モデリングにパーソナライズされたflを適用することに焦点を当てる。
メモリとレイテンシの制限のため、これらのモデルはサブワードトークン化やビームサーチデコーディングの複雑さをサポートできないため、クローズドボキャブラリ言語モデルをデプロイする決定が下される。
しかし、クローズド・ボキャブラリ・モデルは特定のユーザーに属する外語彙(OOV)を扱えない。
この問題に対処するために,メモリとレイテンシへの影響を最小限に抑えつつ,OOVのカバレッジを改善し,モデル精度を向上させる「OOV拡張」と呼ばれる新しい手法を提案する。
本手法では,知識を中央モデルから効果的に伝達し,単語埋め込みを学習する「oov adapter」を導入する。
OOV拡張は、一連の共通FLベンチマークにおいて標準FLパーソナライズ手法よりも大幅に優れている。 In recent years, Federated Learning (FL) has shown significant advancements in its ability to perform various natural language processing (NLP) tasks. This work focuses on applying personalized FL for on-device language modeling. Due to limitations of memory and latency, these models cannot support the complexity of sub-word tokenization or beam search decoding, resulting in the decision to deploy a closed-vocabulary language model. However, closed-vocabulary models are unable to handle out-of-vocabulary (OOV) words belonging to specific users. To address this issue, We propose a novel technique called "OOV expansion" that improves OOV coverage and increases model accuracy while minimizing the impact on memory and latency. This method introduces a personalized "OOV adapter" that effectively transfers knowledge from a central model and learns word embedding for personalized vocabulary. OOV expansion significantly outperforms standard FL personalization methods on a set of common FL benchmarks. | 翻訳日:2023-05-08 13:32:05 公開日:2023-05-05 |
# 音声表現学習のためのマルチモーダル動的変分オートエンコーダ A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning ( http://arxiv.org/abs/2305.03582v1 ) ライセンス: Link先を確認 | Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud S\'eguier | (参考訳) 本稿では,教師なし音声・視覚的音声表現学習に応用したMDVAE(Multimodal \textit{and} dynamical VAE)を提案する。
潜在空間は、各モジュラリティに特有のものからモダリティの間で共有される潜在力学因子を解離するために構成される。
静的潜伏変数も導入され、音声視覚音声シーケンス内で時間とともに一定となる情報を符号化する。
このモデルは、視聴覚的感情音声データセット上で教師なしの方法で2段階で訓練される。
第1段階では、ベクトル量子化VAE(VQ-VAE)は時間的モデリングなしで各モードごとに独立に学習される。
第2段階は、量子化前のVQ-VAEの中間表現に関するMDVAEモデルを学習することである。
静的・動的・モダリティ固有・モダリティ共通情報の絡み合いは、この第2の訓練段階で起こる。
mdvaeの潜在空間における視聴覚的音声潜在因子の符号化について,広範な実験を行った。
これらの実験には、視聴覚音声の操作、視聴覚画像の発声、視聴覚音声の感情認識が含まれる。
その結果,MDVAEは潜在空間における音声と視覚情報を効果的に組み合わせていることがわかった。
また、学習したオーディオ視覚音声の静的表現は、ラベル付きデータが少ない感情認識に利用でき、オーディオ視覚トランスフォーマーアーキテクチャに基づく一方向ベースラインや最先端教師付きモデルと比較して精度が良いことを示す。 In this paper, we present a multimodal \textit{and} dynamical VAE (MDVAE) applied to unsupervised audio-visual speech representation learning. The latent space is structured to dissociate the latent dynamical factors that are shared between the modalities from those that are specific to each modality. A static latent variable is also introduced to encode the information that is constant over time within an audiovisual speech sequence. The model is trained in an unsupervised manner on an audiovisual emotional speech dataset, in two stages. In the first stage, a vector quantized VAE (VQ-VAE) is learned independently for each modality, without temporal modeling. The second stage consists in learning the MDVAE model on the intermediate representation of the VQ-VAEs before quantization. The disentanglement between static versus dynamical and modality-specific versus modality-common information occurs during this second training stage. Extensive experiments are conducted to investigate how audiovisual speech latent factors are encoded in the latent space of MDVAE. These experiments include manipulating audiovisual speech, audiovisual facial image denoising, and audiovisual speech emotion recognition. The results show that MDVAE effectively combines the audio and visual information in its latent space. They also show that the learned static representation of audiovisual speech can be used for emotion recognition with few labeled data, and with better accuracy compared with unimodal baselines and a state-of-the-art supervised model based on an audiovisual transformer architecture. | 翻訳日:2023-05-08 13:31:48 公開日:2023-05-05 |
# スケーラブルリアルタイム鉄道再スケジュールのためのスコープ制限:探索的研究 Scope Restriction for Scalable Real-Time Railway Rescheduling: An Exploratory Study ( http://arxiv.org/abs/2305.03574v1 ) ライセンス: Link先を確認 | Erik Nygren, Christian Eichenberger, Emma Frejinger | (参考訳) 今後の研究の促進を目的として,鉄道再計画問題の探索的研究について述べる。
芸術の実践と状況において広く用いられているアプローチは、これらの複雑な問題を地理的範囲で分解することである。
代わりに、再スケジュールが必要な列車のみに障害が発生した場合に再スケジュール問題を制限し、時間と空間の両方でスコープを制限するコア問題を定義することを提案する。
この文脈では、障害によって影響を受けるであろう列車サービスのサブセットを予測できるスコープを定義することが困難である。
本稿では,Flatlandシミュレーション環境を用いて,このアイデアの可能性と課題を明らかにする。
フラットランド鉄道環境とAnswer-Set Programmingに基づく,拡張可能なオープンソース実装を提供する。 With the aim to stimulate future research, we describe an exploratory study of a railway rescheduling problem. A widely used approach in practice and state of the art is to decompose these complex problems by geographical scope. Instead, we propose defining a core problem that restricts a rescheduling problem in response to a disturbance to only trains that need to be rescheduled, hence restricting the scope in both time and space. In this context, the difficulty resides in defining a scoper that can predict a subset of train services that will be affected by a given disturbance. We report preliminary results using the Flatland simulation environment that highlights the potential and challenges of this idea. We provide an extensible playground open-source implementation based on the Flatland railway environment and Answer-Set Programming. | 翻訳日:2023-05-08 13:31:24 公開日:2023-05-05 |
# 一貫性を維持したインコンテキスト学習:大規模言語モデルを用いたオンザフライ機械翻訳の検討 In-context Learning as Maintaining Coherency: A Study of On-the-fly Machine Translation Using Large Language Models ( http://arxiv.org/abs/2305.03573v1 ) ライセンス: Link先を確認 | Suzanna Sia, Kevin Duh | (参考訳) 文脈内学習の現象は一般に「例から学ぶ」と考えられている。
本研究は,機械翻訳に焦点をあて,文脈との整合性を維持するために望ましい生成タスクとして,文脈内学習の視点を示す。
まず、4つのドメインにまたがるランダムサンプリングプロンプトを調査し、ドメイン内のプロンプトを表示すると翻訳性能が向上することを示した。
次に,移動ウィンドウからのプロンプト例を用いたドメイン内設定のコヒーレンシについて検討する。
本稿では,従来文献で確認されていた長さ,表面類似度,文章埋め込み類似度などの要因について検討する。
GPTNeo2.7B, Bloom3B, XGLM2.9B) と3つの翻訳方向 (\texttt{en}$\rightarrow$\{\texttt{pt, de, fr}\}) にまたがる結果から,プロンプトとテスト文の長期的一貫性が下流翻訳性能のよい指標であることが示唆された。
そこで本研究では,オンザフライ適応のためのインコンテキスト機械翻訳の有効性を示す。 The phenomena of in-context learning has typically been thought of as "learning from examples". In this work which focuses on Machine Translation, we present a perspective of in-context learning as the desired generation task maintaining coherency with its context, i.e., the prompt examples. We first investigate randomly sampled prompts across 4 domains, and find that translation performance improves when shown in-domain prompts. Next, we investigate coherency for the in-domain setting, which uses prompt examples from a moving window. We study this with respect to other factors that have previously been identified in the literature such as length, surface similarity and sentence embedding similarity. Our results across 3 models (GPTNeo2.7B, Bloom3B, XGLM2.9B), and three translation directions (\texttt{en}$\rightarrow$\{\texttt{pt, de, fr}\}) suggest that the long-term coherency of the prompts and the test sentence is a good indicator of downstream translation performance. In doing so, we demonstrate the efficacy of In-context Machine Translation for on-the-fly adaptation. | 翻訳日:2023-05-08 13:31:14 公開日:2023-05-05 |
# 単光子検出による干渉計の位相同期 Phase-locking an interferometer with single-photon detections ( http://arxiv.org/abs/2305.03641v1 ) ライセンス: Link先を確認 | Bastian Hacker, Kevin G\"unthner, Conrad R\"o{\ss}ler, Christoph Marquardt | (参考訳) 本稿では, 離散単光子検出に基づくファイバベースマッハ・ツェンダー干渉計の位相同期技術について報告する。
干渉計は量子鍵分布用相対位相エンコード光パルス対をデコードし、弱い受信信号に加えてロックレーザーも必要としない。
我々の新しい単純なロック方式は、Ornstein-Uhlenbeck動的に生成し、与えられたカウントレートに対して最適な位相ノイズを達成する。
ドップラーシフト衛星信号の受信時に発生する波長ドリフトの場合、アーム長差は継続的に調整され、干渉計位相を安定させる。 We report on a novel phase-locking technique for fiber-based Mach-Zehnder interferometers based on discrete single-photon detections, and demonstrate this in a setup. Our interferometer decodes relative-phase-encoded optical pulse pairs for quantum key distribution applications and requires no locking laser in addition to the weak received signal. Our new simple locking scheme is shown to produce an Ornstein-Uhlenbeck dynamic and achieve optimal phase noise for a given count rate. In case of wavelength drifts that arise during the reception of Doppler-shifted satellite signals, the arm-length difference gets continuously readjusted to keep the interferometer phase stable. | 翻訳日:2023-05-08 13:25:55 公開日:2023-05-05 |
# グラフミキサーニューラルネットワークを用いた非同期イベントに基づくpanopticセグメンテーション Asynchronous Events-based Panoptic Segmentation using Graph Mixer Neural Network ( http://arxiv.org/abs/2305.03640v1 ) ライセンス: Link先を確認 | Sanket Kachole, Yusra Alkendi, Fariborz Baghaei Naeini, Dimitrios Makris, Yahya Zweiri | (参考訳) ロボットハンドリングの文脈では、オブジェクトのセグメンテーションは、リアルタイム操作、オクルージョン、低い照明、動きのぼやけ、オブジェクトサイズの変化など、動的条件に直面するといくつかの困難に直面する。
これらの課題に対応して,非同期イベント上に形成される3次元イベントグラフに適用可能な,新たな協調的コンテクストミキシング層を含むグラフミキサーニューラルネットワークを提案する。
提案するレイヤは,イベントグラフ内の時空間相関を4つの近接レベルに並列に展開するように設計されている。
提案手法は,オクルージョン,ぼかし,明るさ,軌道,スケール分散,未知の物体のセグメンテーションの5つのユニークな画像劣化課題を含む,イベントベースセグメンテーション(esd)データセットの有効性を評価する。
その結果,提案手法は結合平均交点と画素精度の点で最先端手法よりも優れていることがわかった。
コード提供: https://github.com/sanket0707/gnn-mixer.git In the context of robotic grasping, object segmentation encounters several difficulties when faced with dynamic conditions such as real-time operation, occlusion, low lighting, motion blur, and object size variability. In response to these challenges, we propose the Graph Mixer Neural Network that includes a novel collaborative contextual mixing layer, applied to 3D event graphs formed on asynchronous events. The proposed layer is designed to spread spatiotemporal correlation within an event graph at four nearest neighbor levels parallelly. We evaluate the effectiveness of our proposed method on the Event-based Segmentation (ESD) Dataset, which includes five unique image degradation challenges, including occlusion, blur, brightness, trajectory, scale variance, and segmentation of known and unknown objects. The results show that our proposed approach outperforms state-of-the-art methods in terms of mean intersection over the union and pixel accuracy. Code available at: https://github.com/sanket0707/GNN-Mixer.git | 翻訳日:2023-05-08 13:25:43 公開日:2023-05-05 |
# 非キャラクタリゼーションデバイスを用いた一般化時限量子乱数生成器 Generalized Time-bin Quantum Random Number Generator with Uncharacterized Devices ( http://arxiv.org/abs/2305.03638v1 ) ライセンス: Link先を確認 | Hamid Tebyanian, Mujtaba Zahidy, Ronny M\"uller, S{\o}ren Forchhammer, Davide Bacco, and Leif. K. Oxenl{\o}we | (参考訳) 量子力学に基づくランダム数生成器(RNG)は、擬似ランダム数生成器やハードウェアランダム数生成器などの従来のジェネレータと比較して、そのセキュリティと予測不能のため、降伏している。
本研究は、半デバイス非依存量子rngのクラスにおけるヒルベルト空間次元、状態準備部分空間、あるいは測定部分空間を増加させることで、抽出可能なランダム性の進化を解析し、状態の重なりが準備・測定スキームに基づいて構築されたコア仮定である。
さらに,これらの要因が複雑性に与える影響を議論し,最適なシナリオについて結論を出す。
時間-ビン符号化方式の汎用的な場合を調査し,様々な入力(状態準備)と結果(測定)部分空間を定義し,最大エントロピーを得るための最適シナリオについて考察する。
いくつかのインプット設計を実験的に検証し、結果の整合性について分析した。
デバイスの不完全性,特に後パルス効果と検出器の暗数を考慮し,性能評価を行った。
最後に,本手法によりシステムエントロピーが向上し,より抽出可能なランダム性が得られることを示す。 Random number generators (RNG) based on quantum mechanics are captivating due to their security and unpredictability compared to conventional generators, such as pseudo-random number generators and hardware-random number generators. This work analyzes evolutions in the extractable amount of randomness with increasing the Hilbert space dimension, state preparation subspace, or measurement subspace in a class of semi-device-independent quantum-RNG, where bounding the states' overlap is the core assumption, built on the prepare-and-measure scheme. We further discuss the effect of these factors on the complexity and draw a conclusion on the optimal scenario. We investigate the generic case of time-bin encoding scheme, define various input (state preparation) and outcome (measurement) subspaces, and discuss the optimal scenarios to obtain maximum entropy. Several input designs were experimentally tested and analyzed for their conceivable outcome arrangements. We evaluated their performance by considering the device's imperfections, particularly the after-pulsing effect and dark counts of the detectors. Finally, we demonstrate that this approach can boost the system entropy, resulting in more extractable randomness. | 翻訳日:2023-05-08 13:25:13 公開日:2023-05-05 |
# スケーラブルなマルチエージェントパスフィニングのためのLaCAMの改善 Improving LaCAM for Scalable Eventually Optimal Multi-Agent Pathfinding ( http://arxiv.org/abs/2305.03632v1 ) ライセンス: Link先を確認 | Keisuke Okumura | (参考訳) 本研究では,最近開発されたマルチエージェントパスフィンディング(MAPF)のためのLaCAMアルゴリズムを拡張した。
LaCAMは、遅延後継生成を用いて計画作業を劇的に削減する、サブ最適検索ベースのアルゴリズムである。
私たちは2つの拡張を提示します。
まず、ソリューションコストが累積的なトランジッションコストであるならば、最終的にoptimaに収束するlacam*と呼ばれるanytimeバージョンを提案する。
第2に、初期解を得るために後継生成を改善する。
模擬実験は実用性を実証する。
例えば、LaCAM*はMAPFベンチマークから取得したインスタンスの99%をサブ最適化で解決し、エージェントの数は標準デスクトップPC上で10秒以内に最大1000まで変化した。 This study extends the recently-developed LaCAM algorithm for multi-agent pathfinding (MAPF). LaCAM is a sub-optimal search-based algorithm that uses lazy successor generation to dramatically reduce the planning effort. We present two enhancements. First, we propose its anytime version, called LaCAM*, which eventually converges to optima, provided that solution costs are accumulated transition costs. Second, we improve the successor generation to quickly obtain initial solutions. Exhaustive experiments demonstrate their utility. For instance, LaCAM* sub-optimally solved 99% of the instances retrieved from the MAPF benchmark, where the number of agents varied up to a thousand, within ten seconds on a standard desktop PC, while ensuring eventual convergence to optima; developing a new horizon of MAPF algorithms. | 翻訳日:2023-05-08 13:24:37 公開日:2023-05-05 |
# ロバストツリーアンサンブルの検証可能な学習 Verifiable Learning for Robust Tree Ensembles ( http://arxiv.org/abs/2305.03626v1 ) ライセンス: Link先を確認 | Stefano Calzavara (1), Lorenzo Cazzaro (1), Giulio Ermanno Pibiri (1), Nicola Prezza (1) ((1) Universit\`a Ca' Foscari Venezia, Italy) | (参考訳) テスト時の回避攻撃に対する機械学習モデルの堅牢性を検証することは重要な研究課題である。
残念なことに、この問題は決定木アンサンブルに対してNPハードであることが証明され、従って特定の入力に対して難解となる。
本稿では,多項式時間で動作するセキュリティ検証アルゴリズムを付加した,大規模分散アンサンブルと呼ばれる決定木アンサンブルの制限クラスを同定する。
次に,効率的な検証が可能な制限付きモデルクラスのトレーニングを提唱する,verizable learningと呼ばれる新しいアプローチを提案する。
我々は,ラベル付きデータから大域的な決定木を自動学習する新しい学習アルゴリズムを設計し,多項式時間でセキュリティ検証を可能にすることにより,このアイデアの利点を示す。
公開データセットの実験結果から,我々のアルゴリズムを用いてトレーニングした大域的なアンサンブルを,標準的な商用ハードウェアを用いて数秒で検証できることが確認された。
さらに、大スプレッドアンサンブルは、従来の回避攻撃に対するアンサンブルよりも頑丈であるが、非敵対的な設定では精度の損失が比較的少ないだけである。 Verifying the robustness of machine learning models against evasion attacks at test time is an important research problem. Unfortunately, prior work established that this problem is NP-hard for decision tree ensembles, hence bound to be intractable for specific inputs. In this paper, we identify a restricted class of decision tree ensembles, called large-spread ensembles, which admit a security verification algorithm running in polynomial time. We then propose a new approach called verifiable learning, which advocates the training of such restricted model classes which are amenable for efficient verification. We show the benefits of this idea by designing a new training algorithm that automatically learns a large-spread decision tree ensemble from labelled data, thus enabling its security verification in polynomial time. Experimental results on publicly available datasets confirm that large-spread ensembles trained using our algorithm can be verified in a matter of seconds, using standard commercial hardware. Moreover, large-spread ensembles are more robust than traditional ensembles against evasion attacks, while incurring in just a relatively small loss of accuracy in the non-adversarial setting. | 翻訳日:2023-05-08 13:24:00 公開日:2023-05-05 |
# Conformal Quantile Regression を用いたハイパーパラメータの最適化 Optimizing Hyperparameters with Conformal Quantile Regression ( http://arxiv.org/abs/2305.03623v1 ) ライセンス: Link先を確認 | David Salinas, Jacek Golebiowski, Aaron Klein, Matthias Seeger, Cedric Archambeau | (参考訳) 多くの最先端ハイパーパラメータ最適化(HPO)アルゴリズムは、探索を導くために対象関数の代用モデルを学習するモデルベースのオプティマイザに依存している。
ガウス過程は、不確実性を捉える能力から事実上の代理モデルであるが、実際には保証されない観測ノイズについて強い仮定を行う。
そこで本研究では,観測雑音を最小限に仮定する等化量子レグレッションを利用して,より現実的でロバストな方法で対象関数をモデル化し,より高速なHPO収束を経験的ベンチマーク上で実現することを提案する。
本手法をマルチフィデリティ設定に適用するために,様々な資源レベルにまたがって観測結果を集約し,従来の手法を多くの経験的タスクで上回る,シンプルかつ効果的な手法を提案する。 Many state-of-the-art hyperparameter optimization (HPO) algorithms rely on model-based optimizers that learn surrogate models of the target function to guide the search. Gaussian processes are the de facto surrogate model due to their ability to capture uncertainty but they make strong assumptions about the observation noise, which might not be warranted in practice. In this work, we propose to leverage conformalized quantile regression which makes minimal assumptions about the observation noise and, as a result, models the target function in a more realistic and robust fashion which translates to quicker HPO convergence on empirical benchmarks. To apply our method in a multi-fidelity setting, we propose a simple, yet effective, technique that aggregates observed results across different resource levels and outperforms conventional methods across many empirical tasks. | 翻訳日:2023-05-08 13:23:37 公開日:2023-05-05 |
# デュアルアテンション機構に基づく底部血管画像の分割 Segmentation of fundus vascular images based on a dual-attention mechanism ( http://arxiv.org/abs/2305.03617v1 ) ライセンス: Link先を確認 | Yuanyuan Peng, Pengpeng Luan, Zixu Zhang | (参考訳) 眼疾患の早期スクリーニング,診断,評価には,眼底画像中の血管を正確に分割することが重要である。
しかし、これらの画像における顕著な光の変動と非一様コントラストは、セグメンテーションを非常に困難にしている。
そこで本稿では,トランスフォーマによって構築されたチャネル注意と空間注意機構を組み合わせた注意融合機構を用いて,網膜底面画像から空間的およびチャネル的両方の情報を抽出する。
エンコーダ画像からのノイズを除去するために、スキップ接続に空間的注意機構を導入する。
さらに、ドロップアウト層を用いていくつかのニューロンをランダムに破棄し、ニューラルネットワークの過剰フィットを防止し、その一般化性能を向上させる。
公開データセットであるDERIVE、STARE、CHASEDB1で実験を行った。
その結果,近年の網膜基底画像分割アルゴリズムと比較して良好な結果が得られた。 Accurately segmenting blood vessels in retinal fundus images is crucial in the early screening, diagnosing, and evaluating some ocular diseases. However, significant light variations and non-uniform contrast in these images make segmentation quite challenging. Thus, this paper employ an attention fusion mechanism that combines the channel attention and spatial attention mechanisms constructed by Transformer to extract information from retinal fundus images in both spatial and channel dimensions. To eliminate noise from the encoder image, a spatial attention mechanism is introduced in the skip connection. Moreover, a Dropout layer is employed to randomly discard some neurons, which can prevent overfitting of the neural network and improve its generalization performance. Experiments were conducted on publicly available datasets DERIVE, STARE, and CHASEDB1. The results demonstrate that our method produces satisfactory results compared to some recent retinal fundus image segmentation algorithms. | 翻訳日:2023-05-08 13:23:19 公開日:2023-05-05 |
# 連続手話認識のための条件拡散特徴量補正 Conditional Diffusion Feature Refinement for Continuous Sign Language Recognition ( http://arxiv.org/abs/2305.03614v1 ) ライセンス: Link先を確認 | Leming Guo and Wanli Xue and Qing Guo and Yuxi Zhou and Tiantian Yuan and Shengyong Chen | (参考訳) 本研究は,拡散モデルのデノイジングを活用し,オートエンコーダによる拡散過程として機能改善を定式化することを目的とする。
最先端のcslrフレームワークは、空間モジュール、視覚モジュール、シーケンスモジュール、シーケンス学習関数で構成される。
しかし、このフレームワークは目的関数と小規模なベンチマークによってシーケンスモジュールが過度に適合し、結果としてモデルトレーニングが不十分になった。
過度に適合する問題を克服するために、いくつかのCSLR研究はシーケンスモジュールを強制し、より視覚的な時間的情報を学ぶか、その表現を洗練させるためにより情報的な監督によってガイドされる。
本研究では,符号化-復号化最適化過程をエンドツーエンドに学習することにより,シーケンス表現を洗練し,所望の特性を付与する,新しいオートエンコーダ形式の条件拡散機能改善(ACDR)を提案する。
特に、acdrでは、シーケンス表現に意味的条件を備えたノイズを段階的に付加するノージングエンコーダが提案されている。
また, 雑音列表現を意味的条件で段階的に denoise するデコーダを提案する。
したがって、シーケンス表現は、提供された意味的条件のセマンティクスに組み込むことができる。
さらに、意味的制約を用いて、識別されたシーケンス表現が意味的腐敗を防止する。
本稿では,ACDRの有効性を検証し,最先端の手法を活かし,3つのベンチマークで顕著な利得を得た。 In this work, we are dedicated to leveraging the denoising diffusion models' success and formulating feature refinement as the autoencoder-formed diffusion process. The state-of-the-art CSLR framework consists of a spatial module, a visual module, a sequence module, and a sequence learning function. However, this framework has faced sequence module overfitting caused by the objective function and small-scale available benchmarks, resulting in insufficient model training. To overcome the overfitting problem, some CSLR studies enforce the sequence module to learn more visual temporal information or be guided by more informative supervision to refine its representations. In this work, we propose a novel autoencoder-formed conditional diffusion feature refinement~(ACDR) to refine the sequence representations to equip desired properties by learning the encoding-decoding optimization process in an end-to-end way. Specifically, for the ACDR, a noising Encoder is proposed to progressively add noise equipped with semantic conditions to the sequence representations. And a denoising Decoder is proposed to progressively denoise the noisy sequence representations with semantic conditions. Therefore, the sequence representations can be imbued with the semantics of provided semantic conditions. Further, a semantic constraint is employed to prevent the denoised sequence representations from semantic corruption. Extensive experiments are conducted to validate the effectiveness of our ACDR, benefiting state-of-the-art methods and achieving a notable gain on three benchmarks. | 翻訳日:2023-05-08 13:23:04 公開日:2023-05-05 |
# 部分最小方形を用いた神経進化のための高次元サロゲートモデリングへの初期ステップ Initial Steps Towards Tackling High-dimensional Surrogate Modeling for Neuroevolution Using Kriging Partial Least Squares ( http://arxiv.org/abs/2305.03612v1 ) ライセンス: Link先を確認 | Fergal Stapleton and Edgar Galv\'an | (参考訳) サロゲート支援進化アルゴリズム(SAEA)は、進化計算システムにおける適合関数の近似を目的とし、効率的な計算モデルを使用することを目的としている。
この研究領域は20年以上にわたって活発に行われており、例えば、単一目的最適化や動的かつ定常的な最適化問題など、様々な分野の専門研究コミュニティから大きな注目を集めている。
SAEAsコミュニティからほとんど注目を集めていない、創発的でエキサイティングな領域は、神経進化にある。
これは、人工知能(ANN)アーキテクチャの自動構成、ハイパーパラメータ、および/またはANNのトレーニングにおける進化的アルゴリズムの使用を指す。
しかし、ANNは2つの大きな問題に悩まされている。
(a)高度な計算能力の正しい訓練への利用、及び
b) 優れたネットワークを得るために必要なANNを正しく設定するために必要な高度に専門化された人的専門知識。
この研究は、これらの2つの問題に対処することによって、神経進化におけるSAEAのこの重要な研究ギャップを埋めることを目的としている。
そこで本研究では,よく知られたkriging法と比較して,よく知られた近似サーロゲートモデルの効率的な計算を可能にするkriging部分最小二乗法について述べる。 Surrogate-assisted evolutionary algorithms (SAEAs) aim to use efficient computational models with the goal of approximating the fitness function in evolutionary computation systems. This area of research has been active for over two decades and has received significant attention from the specialised research community in different areas, for example, single and many objective optimisation or dynamic and stationary optimisation problems. An emergent and exciting area that has received little attention from the SAEAs community is in neuroevolution. This refers to the use of evolutionary algorithms in the automatic configuration of artificial neural network (ANN) architectures, hyper-parameters and/or the training of ANNs. However, ANNs suffer from two major issues: (a) the use of highly-intense computational power for their correct training, and (b) the highly specialised human expertise required to correctly configure ANNs necessary to get a well-performing network. This work aims to fill this important research gap in SAEAs in neuroevolution by addressing these two issues. We demonstrate how one can use a Kriging Partial Least Squares method that allows efficient computation of good approximate surrogate models compared to the well-known Kriging method, which normally cannot be used in neuroevolution due to the high dimensionality of the data. | 翻訳日:2023-05-08 13:22:39 公開日:2023-05-05 |
# テキスト対画像生成モデルを用いた画像キャプションのためのデータキュレーション Data Curation for Image Captioning with Text-to-Image Generative Models ( http://arxiv.org/abs/2305.03610v1 ) ライセンス: Link先を確認 | Wenyan Li, Jonas F. Lotz, Chen Qiu, Desmond Elliott | (参考訳) 画像キャプションの最近の進歩は、主に大規模な視覚言語の事前学習によってもたらされ、計算資源とますます大きなマルチモーダルデータセットに大きく依存している。
事前トレーニングデータをスケールアップする代わりに、既存のデータセットのサンプルの品質を改善して、パフォーマンスを改善することができるかどうかを問う。
データキュレーションのアプローチとして,画像とキャプションのミスマッチからいくつかの例を避けるべきだという仮定と,画像を置き換えることでミスマッチに対処できるという仮定と,最先端の安定拡散モデルを使用するという2つのアプローチを追求する。
これらの手法は,MS COCOとFlickr30KのBLIPモデルを用いて,微調整と少数ショット学習の両方で評価される。
我々の単純な効果的なアプローチは、ベースラインを一貫して上回り、既存のリソースをキュレートすることで、より良い画像キャプションモデルをトレーニングできることを示す。
最後に,安定拡散モデルによる誤りを理解するための人間実験を行い,テキスト対画像生成における今後の課題の方向性を強調する。 Recent advances in image captioning are mainly driven by large-scale vision-language pretraining, relying heavily on computational resources and increasingly large multimodal datasets. Instead of scaling up pretraining data, we ask whether it is possible to improve performance by improving the quality of the samples in existing datasets. We pursue this question through two approaches to data curation: one that assumes that some examples should be avoided due to mismatches between the image and caption, and one that assumes that the mismatch can be addressed by replacing the image, for which we use the state-of-the-art Stable Diffusion model. These approaches are evaluated using the BLIP model on MS COCO and Flickr30K in both finetuning and few-shot learning settings. Our simple yet effective approaches consistently outperform baselines, indicating that better image captioning models can be trained by curating existing resources. Finally, we conduct a human study to understand the errors made by the Stable Diffusion model and highlight directions for future work in text-to-image generation. | 翻訳日:2023-05-08 13:22:19 公開日:2023-05-05 |
# ニューラルネットワークの事前近似について On Preimage Approximation for Neural Networks ( http://arxiv.org/abs/2305.03686v1 ) ライセンス: Link先を確認 | Xiyue Zhang, Benjie Wang, Marta Kwiatkowska | (参考訳) ニューラルネットワークの検証は主に局所ロバスト性に着目している。
しかし、与えられたプロパティが入力ドメイン全体に対してグローバルに保持されているかどうかを知ることが重要であり、その場合、そのプロパティのどの割合が真かを知ることが重要である。
正確な前画像生成は、そのような(定量的な)グローバルロバストネス検証を支援するニューラルネットワークの等価表現を構築することができるが、スケールでは難解である。
本研究では,線形緩和に基づくニューラルネットワークの前像の記号下近似を生成するための効率的かつ実用的な時空アルゴリズムを提案する。
我々のアルゴリズムは、入力領域をサブリージョンに分割することでボリューム近似誤差を反復的に最小化する。
さらに,リラクゼーションのパラメータを分割・最適化する領域を優先するために,ボリュームに対するサンプリングおよび微分可能な近似を適用し,より高速に改善し,よりコンパクトな近似を行う。
評価の結果,前画像生成が難解なニューラルネットワークコントローラに対して,精度の高い手法やスケールよりもかなり高速に前画像近似を生成することができた。
また,本手法の定量的グローバル検証への応用を実証する。 Neural network verification mainly focuses on local robustness properties. However, often it is important to know whether a given property holds globally for the whole input domain, and if not then for what proportion of the input the property is true. While exact preimage generation can construct an equivalent representation of neural networks that can aid such (quantitative) global robustness verification, it is intractable at scale. In this work, we propose an efficient and practical anytime algorithm for generating symbolic under-approximations of the preimage of neural networks based on linear relaxation. Our algorithm iteratively minimizes the volume approximation error by partitioning the input region into subregions, where the neural network relaxation bounds become tighter. We further employ sampling and differentiable approximations to the volume in order to prioritize regions to split and optimize the parameters of the relaxation, leading to faster improvement and more compact under-approximations. Evaluation results demonstrate that our approach is able to generate preimage approximations significantly faster than exact methods and scales to neural network controllers for which exact preimage generation is intractable. We also demonstrate an application of our approach to quantitative global verification. | 翻訳日:2023-05-08 13:15:18 公開日:2023-05-05 |
# 「平等なオンライン安全は?」
セキュリティとプライバシー保護に関するアドバイスと行動パターンのジェンダー分析 "Un-Equal Online Safety?" A Gender Analysis of Security and Privacy Protection Advice and Behaviour Patterns ( http://arxiv.org/abs/2305.03680v1 ) ライセンス: Link先を確認 | Kovila P.L. Coopamootoo, Magdalene Ng | (参考訳) 文献には、女性がセキュリティとプライバシ(sp)技術に携わっていないという兆候がある。
この男女格差をよりよく理解するために、spのアドバイスソースの選好とspの手法や技術の使用法を明らかにするため、英国参加者604名を対象にオンライン調査を行った。
不平等なSPアクセスと参加の証拠を見つける。
特に、親密で社会的つながり(ISC)からのアドバイスは女性に多く、オンラインコンテンツは男性に好まれる。
ISCはSP技術の使用と密接な関係はないが、オンライン・フォーラム、レビュー、専門ページ、技術広告といったオンライン・ソースやトレーニングはそうである。
男性はまた、sp技術を使用する可能性を高める複数のアドバイスソースを使用する可能性が高い。
女性は助言者(IT関連の専門知識、経験、信頼性など)に対する認識からICCにアプローチする動機があり、男性はICCにアプローチして選択肢を評価し、自身のプラクティスの安心を求める。
この研究は、オンラインの安全機会のエクイティに関する疑問を提起し、推奨する。 There are indications in literature that women do not engage with security and privacy (SP) technologies, meant to keep them safe online, in the same way as men do. To better understand this gender gap, we conduct an online survey with N=604 U.K. participants, to elicit SP advice source preference and usage of SP methods and technologies. We find evidence of un-equal SP access and participation. In particular, advice from intimate and social connections (ISC) is more prevalent among women, while online content is preferred by men. ISC do not closely associate with nor predict the use of SP technologies, whereas online sources (such as online forums, reviews, specialist pages and technology adverts) and training do. Men are also more likely to use multiple advice sources, that enhances the likelihood of using SP technologies. Women are motivated to approach ISC due to their perceptions of the advisor (such as IT related expertise, experience and trustworthiness) while men approach ISC to evaluate options and seek reassurance for their own practices. This research raises questions about the equity of online safety opportunities and makes recommendations. | 翻訳日:2023-05-08 13:14:59 公開日:2023-05-05 |
# SAM(Segment Anything Model)はどのように医療画像のセグメンテーションを促進するか? How Segment Anything Model (SAM) Boost Medical Image Segmentation? ( http://arxiv.org/abs/2305.03678v1 ) ライセンス: Link先を確認 | Yichi Zhang, Rushi Jiao | (参考訳) プロンプトの柔軟性のため、基盤モデルは自然言語処理と画像生成の領域において支配的な力となっている。
最近のSAM(Segment Anything Model)の導入により、プロンプト駆動のパラダイムがイメージセグメンテーションの領域に入り、これまで探索されていなかったさまざまな機能を実現した。
しかし, 自然画像と医学画像の差が大きいため, 医用画像分割に適用できるのかは明らかでない。
本稿では,経験的ベンチマークと方法論的適応を含む医療画像セグメンテーションタスクにおけるSAMの成功を拡大するための最近の取り組みを要約し,医療画像セグメンテーションにおけるSAMの将来的な方向性について議論する。
また、このトピックの研究を促進するために、文献レビューのコレクションをhttps://github.com/yichizhang98/sam4misで立ち上げました。 Due to the flexibility of prompting, foundation models have become the dominant force in the domains of natural language processing and image generation. With the recent introduction of the Segment Anything Model (SAM), the prompt-driven paradigm has entered the realm of image segmentation, bringing with a range of previously unexplored capabilities. However, it remains unclear whether it can be applicable to medical image segmentation due to the significant differences between natural images and medical images. In this report, we summarize recent efforts to extend the success of SAM to medical image segmentation tasks, including both empirical benchmarking and methodological adaptations, and discuss potential future directions for SAM in medical image segmentation. We also set up a collection of literature reviews to boost the research on this topic at https://github.com/YichiZhang98/SAM4MIS. | 翻訳日:2023-05-08 13:14:40 公開日:2023-05-05 |
# マルチレベルマルチモーダルWebページ理解のための生成タスクスイート A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding ( http://arxiv.org/abs/2305.03668v1 ) ライセンス: Link先を確認 | Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo | (参考訳) Webページは視覚言語と言語のみのタスクのためのリッチでスケーラブルなリソースです。
しかし、画像キャプチャーペア、長いテキスト記事、あるいは生のHTMLなど、すべてのWebページが一箇所に収まることはない。
Webページタスクは、ほとんど注目されず、未使用のイメージテキストデータが構造化されている。
マルチモーダルWebページ理解を研究するために,200万ページのウィキペディアWebページスイート(WikiWeb2M)を紹介する。
ページ記述生成,セクション要約,コンテクスト画像キャプションの3つの生成タスクにおいて,その有用性を検証する。
我々は,最も関連性の高い画像とテキストを,webページの他の部分のコンテクストに対応するためのグローバルトークンとして選択する,新しいアテンション機構プレフィックス・グローバルを設計した。
ページ構造を使ってトークンを分離することで、計算の複雑さが低く、完全な注意力よりもパフォーマンスが向上する。
WikiWeb2Mの新しいアノテーションは、以前の作業のデータと比較してタスクのパフォーマンスを改善する。
また,シーケンス長,入力特徴,モデルサイズに対するアブレーションも含む。 Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size. | 翻訳日:2023-05-08 13:14:20 公開日:2023-05-05 |
# 健康時系列のステージ変数による因果発見 Causal Discovery with Stage Variables for Health Time Series ( http://arxiv.org/abs/2305.03662v1 ) ライセンス: Link先を確認 | Bharat Srikishan and Samantha Kleinberg | (参考訳) 医療などランダムな実験ができない場合には、観察データを使って因果関係を学習することが不可欠である。
時系列の健康データから因果関係を発見することは、重篤な疾患の患者に最も効果のある薬など、疾患の経過とともに関係が変化する場合にさらに困難である。
妊娠の週、病期、hba1cのようなバイオマーカーなどのステージ変数は、患者にとって因果関係が何であるかに影響を与える可能性がある。
しかし、各段階での因果推論は、データ量が限られているためしばしば不可能であり、すべてのデータリスクが不正または欠落した推論と組み合わせられる。
そこで本研究では,ステージ変数を用いて複数の時系列データの重み付けを行い,各ステージの因果関係を考慮に入れたCausal Discovery with Stage Variables(CDSV)を提案する。
シミュレーションデータでは、CDSVはベースラインに比べて偽の発見が少なく、eICUではベースラインよりもFDRが低く、MIMIC-IIIでは高血圧の臨床的に関係のある原因を発見できる。 Using observational data to learn causal relationships is essential when randomized experiments are not possible, such as in healthcare. Discovering causal relationships in time-series health data is even more challenging when relationships change over the course of a disease, such as medications that are most effective early on or for individuals with severe disease. Stage variables such as weeks of pregnancy, disease stages, or biomarkers like HbA1c, can influence what causal relationships are true for a patient. However, causal inference within each stage is often not possible due to limited amounts of data, and combining all data risks incorrect or missed inferences. To address this, we propose Causal Discovery with Stage Variables (CDSV), which uses stage variables to reweight data from multiple time-series while accounting for different causal relationships in each stage. In simulated data, CDSV discovers more causes with fewer false discoveries compared to baselines, in eICU it has a lower FDR than baselines, and in MIMIC-III it discovers more clinically relevant causes of high blood pressure. | 翻訳日:2023-05-08 13:14:04 公開日:2023-05-05 |
# 入院テキストからのcovid-19と肺炎合併症の予測 Predicting COVID-19 and pneumonia complications from admission texts ( http://arxiv.org/abs/2305.03661v1 ) ライセンス: Link先を確認 | Dmitriy Umerenkov, Oleg Cherkashin, Alexander Nesterov, Victor Gombolevskiy, Irina Demko, Alexander Yalunin, Vladimir Kokh | (参考訳) 本稿では,肺炎やCOVID-19に罹患した患者に対する入院報告に基づくリスクアセスメントの新たなアプローチを提案する。
患者に対するリスクスコアを計算するために,入会直後の入会報告やその他のテキストデータに長文ニューラルネットワークを適用した。
複数の欧州の病院の患者データを用いて、我々のアプローチがTransformerベースラインより優れていることを実証した。
実験により, 提案モデルが組織全体にわたって一般化し, 診断を行うことを確認した。
また,本手法には他にもいくつかの利点がある。 In this paper we present a novel approach to risk assessment for patients hospitalized with pneumonia or COVID-19 based on their admission reports. We applied a Longformer neural network to admission reports and other textual data available shortly after admission to compute risk scores for the patients. We used patient data of multiple European hospitals to demonstrate that our approach outperforms the Transformer baselines. Our experiments show that the proposed model generalises across institutions and diagnoses. Also, our method has several other advantages described in the paper. | 翻訳日:2023-05-08 13:13:44 公開日:2023-05-05 |
# OpenAI GPTモデルを用いた検索用胸部X線レポート生成 Retrieval Augmented Chest X-Ray Report Generation using OpenAI GPT models ( http://arxiv.org/abs/2305.03660v1 ) ライセンス: Link先を確認 | Mercy Ranjit, Gopinath Ganapathy, Ranjit Manuel, Tanuja Ganu | (参考訳) 本稿では,入力ラジオグラフィ画像の候補画像とOpenAI テキスト-davinci-003,gpt-3.5-turbo,gpt-4 などの一般領域生成モデルの検索に,比較的に事前訓練された視覚言語モデルからのマルチモーダルな埋め込みを利用した自動ラジオロジーレポート作成のためのアプローチとして,RAG(Retrieval Augmented Generation)を提案する。
このアプローチは、幻覚世代をチェックし続け、これらの生成モデルの能力に従って命令を活用したいフォーマットでレポートコンテンツを生成する機能を提供する。
提案手法はBERTScoreが0.2865({\Delta}+25.88%)、Sembスコアが0.4026({\Delta}+6.31%)である。
本研究のアプローチは, 自動放射線診断レポート生成プロセスに関連性があり, また, 報告生成プロセスの一部として, 利用者の意図や要求をインジェクトし, 生成したレポートの内容やフォーマットを, その臨床環境に適用できるように調整できる能力を有するため, 様々な臨床環境に広く適用することができる。 We propose Retrieval Augmented Generation (RAG) as an approach for automated radiology report writing that leverages multimodally aligned embeddings from a contrastively pretrained vision language model for retrieval of relevant candidate radiology text for an input radiology image and a general domain generative model like OpenAI text-davinci-003, gpt-3.5-turbo and gpt-4 for report generation using the relevant radiology text retrieved. This approach keeps hallucinated generations under check and provides capabilities to generate report content in the format we desire leveraging the instruction following capabilities of these generative models. Our approach achieves better clinical metrics with a BERTScore of 0.2865 ({\Delta}+ 25.88%) and Semb score of 0.4026 ({\Delta}+ 6.31%). Our approach can be broadly relevant for different clinical settings as it allows to augment the automated radiology report generation process with content relevant for that setting while also having the ability to inject user intents and requirements in the prompts as part of the report generation process to modulate the content and format of the generated reports as applicable for that clinical setting. | 翻訳日:2023-05-08 13:13:38 公開日:2023-05-05 |
# 対話生成に対するホワイトボックス多目的攻撃 White-Box Multi-Objective Adversarial Attack on Dialogue Generation ( http://arxiv.org/abs/2305.03655v1 ) ライセンス: Link先を確認 | Yufei Li, Zexin Li, Yingfan Gao, Cong Liu | (参考訳) 事前訓練されたトランスフォーマーは、最先端の対話生成(DG)システムで人気がある。
しかし、このような言語モデルは、テキスト分類などの伝統的なタスクで研究されている様々な敵のサンプルに弱いため、DGシステムの堅牢性に対して我々の好奇心が刺激される。
DGモデルを攻撃する主な課題の1つは、変化のないチャット履歴も意思決定のために考慮されているため、現在の文の摂動は応答精度を低下させることができないことである。
bleuやrougeといったパフォーマンスメトリクスの落とし穴を追究する代わりに、より長い世代のアウトプットを強制するために逆さまのサンプルを作成することは、攻撃効果をもたらすことを観察します。
そこで本研究では,DGSlowと呼ばれるマルチオブジェクト攻撃手法を提案する。
具体的には、DGSlowは、勾配に基づく多目的最適化器を通じて、生成精度と長さの2つの目標をバランスさせ、適応的な探索機構を適用して、少数の修正しか行わない敵のサンプルを反復的に作成する。
4つのベンチマークデータセットに関する総合的な実験は、DGSlowが従来の精度ベースの手法よりも高い成功率で最先端のDGモデルを著しく劣化させることを示した。
また,本文は,他のモデルに対する攻撃にも強い伝達性を示す。 Pre-trained transformers are popular in state-of-the-art dialogue generation (DG) systems. Such language models are, however, vulnerable to various adversarial samples as studied in traditional tasks such as text classification, which inspires our curiosity about their robustness in DG systems. One main challenge of attacking DG models is that perturbations on the current sentence can hardly degrade the response accuracy because the unchanged chat histories are also considered for decision-making. Instead of merely pursuing pitfalls of performance metrics such as BLEU, ROUGE, we observe that crafting adversarial samples to force longer generation outputs benefits attack effectiveness -- the generated responses are typically irrelevant, lengthy, and repetitive. To this end, we propose a white-box multi-objective attack method called DGSlow. Specifically, DGSlow balances two objectives -- generation accuracy and length, via a gradient-based multi-objective optimizer and applies an adaptive searching mechanism to iteratively craft adversarial samples with only a few modifications. Comprehensive experiments on four benchmark datasets demonstrate that DGSlow could significantly degrade state-of-the-art DG models with a higher success rate than traditional accuracy-based methods. Besides, our crafted sentences also exhibit strong transferability in attacking other models. | 翻訳日:2023-05-08 13:13:13 公開日:2023-05-05 |
# オンライン連続学習における等変正規化の有効性について On the Effectiveness of Equivariant Regularization for Robust Online Continual Learning ( http://arxiv.org/abs/2305.03648v1 ) ライセンス: Link先を確認 | Lorenzo Bonicelli, Matteo Boschini, Emanuele Frascaroli, Angelo Porrello, Matteo Pennisi, Giovanni Bellitto, Simone Palazzo, Concetto Spampinato, Simone Calderara | (参考訳) 人間は漸進的に学習できるが、ニューラルネットワークは以前取得した情報を破滅的に忘れる。
継続学習(CL)アプローチは、トレーニング中に以前のタスク(後方移動)と将来のタスク(前方移動)の両方に知識の伝達を促進することによって、このギャップを埋めようとしている。
近年の研究では、多種多様な下流タスクをうまく一般化できる多目的モデルを作成することができることが示されている。
しかし、オンラインCL(OCL)では、一般的な自己監督型学習(CSSL)が限定的に有効である。
OCLは入力データセットの1イテレーションしか許可せず、CSSLの低サンプリング効率は入力データストリームでの使用を妨げる。
本研究では,CSSLの制約を回避し,同変タスクを自己超越に活用するOCLアプローチであるCLER(Continuousal Learning via Equivariant Regularization)を提案する。
本手法は,同変知識をCLと組み合わせた最初の試みであり,既存のOCL手法と容易に統合できる。
広範なアブレーションは、等価なプリテキストタスクがネットワークの情報フローとclダイナミクスに与える影響に光を当てた。 Humans can learn incrementally, whereas neural networks forget previously acquired information catastrophically. Continual Learning (CL) approaches seek to bridge this gap by facilitating the transfer of knowledge to both previous tasks (backward transfer) and future ones (forward transfer) during training. Recent research has shown that self-supervision can produce versatile models that can generalize well to diverse downstream tasks. However, contrastive self-supervised learning (CSSL), a popular self-supervision technique, has limited effectiveness in online CL (OCL). OCL only permits one iteration of the input dataset, and CSSL's low sample efficiency hinders its use on the input data-stream. In this work, we propose Continual Learning via Equivariant Regularization (CLER), an OCL approach that leverages equivariant tasks for self-supervision, avoiding CSSL's limitations. Our method represents the first attempt at combining equivariant knowledge with CL and can be easily integrated with existing OCL methods. Extensive ablations shed light on how equivariant pretext tasks affect the network's information flow and its impact on CL dynamics. | 翻訳日:2023-05-08 13:12:53 公開日:2023-05-05 |
# LLMを用いたRCTレポートからの介入, 成果, 発見の同時抽出 Jointly Extracting Interventions, Outcomes, and Findings from RCT Reports with LLMs ( http://arxiv.org/abs/2305.03642v1 ) ライセンス: Link先を確認 | Somin Wadhwa and Jay DeYoung and Benjamin Nye and Silvio Amir and Byron C. Wallace | (参考訳) ランダム化対照試験(rcts)の結果は、介入の比較効果を確立し、証拠に基づくケアにおいて重要なインプットとなる。
しかし、rctsの結果は、試験の設計、実行、結果を記述する(しばしば非構造化)自然言語記事に提示され、臨床医は、そのような記事から興味のある介入や結果に関する知見を手作業で抽出しなければならない。
この面倒な手作業は、裁判報告から構造化された証拠の抽出(半自動抽出)を動機付けている。
本研究は, 臨床抽象概念から介入, 結果, 比較者(ico要素)を共同抽出し, 関連する結果を推測するために, 命令調整型大規模言語モデル(llms)に基づいて構築したテキスト対テキストモデルを提案し, 評価する。
手動(専門家)と自動評価は、フレーミングエビデンス抽出を条件生成タスクとし、この目的のための微調整LDMは、以前のSOTAよりも相当な(\sim$20point absolute F1 score)ゲインを実現することを示している。
我々は、モデル性能に寄与する側面を評価するためにアブレーションとエラー解析を行い、さらなる改善のための潜在的な方向性を強調する。
このモデルを2022年中頃のrctsのコレクションに適用し、構造化された発見の検索可能なデータベース(現在は匿名)をリリースする。 Results from Randomized Controlled Trials (RCTs) establish the comparative effectiveness of interventions, and are in turn critical inputs for evidence-based care. However, results from RCTs are presented in (often unstructured) natural language articles describing the design, execution, and outcomes of trials; clinicians must manually extract findings pertaining to interventions and outcomes of interest from such articles. This onerous manual process has motivated work on (semi-)automating extraction of structured evidence from trial reports. In this work we propose and evaluate a text-to-text model built on instruction-tuned Large Language Models (LLMs) to jointly extract Interventions, Outcomes, and Comparators (ICO elements) from clinical abstracts, and infer the associated results reported. Manual (expert) and automated evaluations indicate that framing evidence extraction as a conditional generation task and fine-tuning LLMs for this purpose realizes considerable ($\sim$20 point absolute F1 score) gains over the previous SOTA. We perform ablations and error analyses to assess aspects that contribute to model performance, and to highlight potential directions for further improvements. We apply our model to a collection of published RCTs through mid-2022, and release a searchable database of structured findings (anonymously for now): bit.ly/joint-relations-extraction-mlhc | 翻訳日:2023-05-08 13:12:34 公開日:2023-05-05 |
# 医療データ民主化のためのデータエンコーディングと情報漏洩防止 Data Encoding For Healthcare Data Democratisation and Information Leakage Prevention ( http://arxiv.org/abs/2305.03710v1 ) ライセンス: Link先を確認 | Anshul Thakur, Tingting Zhu, Vinayak Abrol, Jacob Armstrong, Yujiang Wang, David A. Clifton | (参考訳) データ民主化の欠如と訓練されたモデルからの情報漏洩は、堅牢なディープラーニングベースのヘルスケアソリューションの開発と受け入れを妨げる。
本稿では、医療データや臨床モデルに課されるプライバシー制約に違反することなく、データの民主化を実現するための効果的な解決策を提供することができると論じる。
理想的な符号化フレームワークは、データを手動や計算検査ができない新しい空間に変換する。
しかし、エンコードされたデータは、ディープラーニングモデルを効果的にトレーニングできるように、元のデータのセマンティクスを保存すべきである。
本稿では、所望の符号化フレームワークの特性を仮定し、ランダム射影とランダム量子エンコーディングを利用して、高密度・縦長・時系列データを実現する。
実験評価では、エンコードされた時系列データでトレーニングされたモデルが情報のボトルネック原理を効果的に保ち、従って訓練されたモデルからの情報漏洩が少ないことを強調する。 The lack of data democratization and information leakage from trained models hinder the development and acceptance of robust deep learning-based healthcare solutions. This paper argues that irreversible data encoding can provide an effective solution to achieve data democratization without violating the privacy constraints imposed on healthcare data and clinical models. An ideal encoding framework transforms the data into a new space where it is imperceptible to a manual or computational inspection. However, encoded data should preserve the semantics of the original data such that deep learning models can be trained effectively. This paper hypothesizes the characteristics of the desired encoding framework and then exploits random projections and random quantum encoding to realize this framework for dense and longitudinal or time-series data. Experimental evaluation highlights that models trained on encoded time-series data effectively uphold the information bottleneck principle and hence, exhibit lesser information leakage from trained models. | 翻訳日:2023-05-08 13:06:42 公開日:2023-05-05 |
# リーフレットの細粒化製品分類 Fine-Grained Product Classification on Leaflet Advertisements ( http://arxiv.org/abs/2305.03706v1 ) ライセンス: Link先を確認 | Daniel Ladwig (1), Bianca Lamm (1 and 2), Janis Keuper (2) ((1) IMLA, Offenburg University, (2) Markant Services International GmbH) | (参考訳) 本稿では,リーフレット画像に基づく,初めて公開された詳細な製品認識データセットについて述べる。
欧州の異なる小売業者から数年にわたって収集された広告用リーフレットを用いて、832のクラスで計41.6kの注釈付き製品画像を提供する。
さらに,このきめ細かい製品分類タスク,画像による分類,テキストによる分類,画像とテキストによる3つの異なるアプローチについて検討する。
テキストによる分類」のアプローチは、リーフレット製品イメージから直接抽出されたテキストを使用する。
入力としての画像とテキストの組み合わせは、製品の識別が難しい視覚的分類を改善することを示す。
最終モデルは96.4%、Top-3スコアは99.2%となる。
コードをhttps://github.com/ladwigd/Leaflet-Product-Classificationでリリースします。 In this paper, we describe a first publicly available fine-grained product recognition dataset based on leaflet images. Using advertisement leaflets, collected over several years from different European retailers, we provide a total of 41.6k manually annotated product images in 832 classes. Further, we investigate three different approaches for this fine-grained product classification task, Classification by Image, by Text, as well as by Image and Text. The approach "Classification by Text" uses the text extracted directly from the leaflet product images. We show, that the combination of image and text as input improves the classification of visual difficult to distinguish products. The final model leads to an accuracy of 96.4% with a Top-3 score of 99.2%. We release our code at https://github.com/ladwigd/Leaflet-Product-Classification. | 翻訳日:2023-05-08 13:06:27 公開日:2023-05-05 |
# LMEye:大規模言語モデルのための対話型知覚ネットワーク LMEye: An Interactive Perception Network for Large Language Models ( http://arxiv.org/abs/2305.03701v1 ) ライセンス: Link先を確認 | Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, and Min Zhang | (参考訳) GPT-4のようなスクラッチからLVLM(Large Visual Language Model)をトレーニングすることはリソース集約である。
本稿では,LVLMにおける画像理解の精度向上を目的とした,LMEyeという,大規模言語モデルのための対話型知覚ネットワークを提案する。
LLMに視覚情報を注入する従来の方法は静的な視覚マッピングネットワークを使用していたが、LLMと視覚情報との動的相互作用は欠如している。
LMEyeは、人間の指示に沿った視覚情報をLLMに組み込むことでこの問題に対処する。
具体的には、LMEyeネットワークは、画像の基本的な認識をLLMに提供する静的な視覚マッピングネットワークで構成されている。
また、LLMからの要求を取得し、画像特徴を分解し、インターリーブされた情報をそれぞれLLMに送信する、追加の線形層も含む。
このようにして、LLMは人間の指示を理解し、それを対話的な知覚ネットワークに送信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。
lmeyeをマルチモーダル質問応答および推論タスクに関する広範囲な実験を通じて評価し,従来の手法と比較して,マルチモーダルタスクにおけるllmsのゼロショット性能が有意に向上することを示す。 Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is resource-intensive. Our paper proposes an alternative method called LMEye, a play-plug-in Interactive Perception Network for Large Language Models (LLMs), aiming to improve the accuracy of image understanding for the LVLM. Previous methods that infuse visual information into LLMs utilize a static visual mapping network, but lack dynamic interaction between the LLMs and visual information. LMEye addresses this issue by allowing the LLM to incorporate the visual information that aligned with human instruction. Specifically, the LMEye network consists of a static visual mapping network to provide the basic perception of an image to LLMs. Then, it also contains additional linear layers responsible for acquiring requests from LLMs, decomposing image features, and transmitting the interleaved information to LLMs, respectively. In this way, LLMs act to be in charge of understanding human instructions, sending it to the interactive perception network, and generating the response based on the interleaved multimodal information. We evaluate LMEye through extensive experiments on multimodal question answering and reasoning tasks, demonstrating that it significantly improves the zero-shot performance of LLMs on multimodal tasks compared to previous methods. | 翻訳日:2023-05-08 13:06:15 公開日:2023-05-05 |
# 暗黒物質波からの信号光子の励起放出 Stimulated emission of signal photons from dark matter waves ( http://arxiv.org/abs/2305.03700v1 ) ライセンス: Link先を確認 | Ankur Agrawal, Akash V. Dixit, Tanay Roy, Srivatsan Chakram, Kevin He, Ravi K. Naik, David I. Schuster, Aaron Chou | (参考訳) 光の量子状態の操作は、暗黒物質探索と重力波検出器 [1-4] の両方において大きな進歩をもたらした。
マイクロ波周波数範囲で動作する現在のダークマターサーチは、ほぼ量子制限増幅器[3, 5, 6]を使用する。
将来の高周波探索は、標準量子限界を回避するために光子計数技術[1]を使用する。
超伝導量子ビットを用いて、非古典的なフォック状態の超伝導マイクロ波空洞を作成し、暗黒物質波からの光子の放出を刺激する信号強調手法を提案する。
キャビティを$|n=4\rangle$ fock状態で初期化することで、信号光子速度を増加させ、したがってダークマター走査率を2.78倍にする量子拡張技術を示す。
この手法を用いて、約$\mathrm{5.965\, ghz \, (24.67\, \mu ev)}$ のバンドでダークフォトン探索を行い、そこで運動混合角 $\epsilon \geq 4.35 \times 10^{-13}$ は $90\%$ の信頼レベルで除外される。 The manipulation of quantum states of light has resulted in significant advancements in both dark matter searches and gravitational wave detectors [1-4]. Current dark matter searches operating in the microwave frequency range use nearly quantum-limited amplifiers [3, 5, 6]. Future high frequency searches will use photon counting techniques [1] to evade the standard quantum limit. We present a signal enhancement technique that utilizes a superconducting qubit to prepare a superconducting microwave cavity in a non-classical Fock state and stimulate the emission of a photon from a dark matter wave. By initializing the cavity in an $|n=4\rangle$ Fock state, we demonstrate a quantum enhancement technique that increases the signal photon rate and hence also the dark matter scan rate each by a factor of 2.78. Using this technique, we conduct a dark photon search in a band around $\mathrm{5.965\, GHz \, (24.67\, \mu eV)}$, where the kinetic mixing angle $\epsilon \geq 4.35 \times 10^{-13}$ is excluded at the $90\%$ confidence level. | 翻訳日:2023-05-08 13:05:52 公開日:2023-05-05 |
# vera:commonsense文の汎用的妥当性推定モデル Vera: A General-Purpose Plausibility Estimation Model for Commonsense Statements ( http://arxiv.org/abs/2305.03695v1 ) ライセンス: Link先を確認 | Jiacheng Liu, Wenya Wang, Dianzhuo Wang, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi | (参考訳) 今日の言語モデルでよく議論されている機能にもかかわらず、彼らはいまだにばかばかしく予期せぬコモンセンスの失敗の傾向にある。
我々は,lm出力の正確性を反映したふりかえり検証手法を検討し,共通認識知識に基づいて宣言文の妥当性を推定する汎用モデル vera を導入する。
19のqaデータセットと2つの大規模知識ベースから作成された約7mのcommonsenseステートメントでトレーニングされ、3つのトレーニング目標を組み合わせたveraは、さまざまなcommonsenseドメインにわたる不正ステートメントとを効果的に分離する汎用モデルである。
検証形式におけるコモンセンス問題の解法に適用した場合、Veraは、コモンセンス検証のために再利用できる既存のモデルを大幅に上回り、未確認タスクへの一般化能力を示し、よく校正された出力を提供する。
Vera は LM 生成したコモンセンス知識のフィルタリングに優れており,ChatGPT などのモデルが生成する誤ったコモンセンス文を実環境で検出するのに有用である。 Despite the much discussed capabilities of today's language models, they are still prone to silly and unexpected commonsense failures. We consider a retrospective verification approach that reflects on the correctness of LM outputs, and introduce Vera, a general-purpose model that estimates the plausibility of declarative statements based on commonsense knowledge. Trained on ~7M commonsense statements created from 19 QA datasets and two large-scale knowledge bases, and with a combination of three training objectives, Vera is a versatile model that effectively separates correct from incorrect statements across diverse commonsense domains. When applied to solving commonsense problems in the verification format, Vera substantially outperforms existing models that can be repurposed for commonsense verification, and it further exhibits generalization capabilities to unseen tasks and provides well-calibrated outputs. We find that Vera excels at filtering LM-generated commonsense knowledge and is useful in detecting erroneous commonsense statements generated by models like ChatGPT in real-world settings. | 翻訳日:2023-05-08 13:05:29 公開日:2023-05-05 |
# 量子ダーウィン主義-エンコード遷移の解法モデル A Solvable Model of Quantum Darwinism-Encoding Transitions ( http://arxiv.org/abs/2305.03694v1 ) ライセンス: Link先を確認 | Beno\^it Fert\'e, Xiangyu Cao | (参考訳) 量子ダーウィン論の解法モデルとして,一元的力学の下での多体系における量子情報の拡散の急激な変化について述べる。
我々は、入力キュービットが参照に絡み合う拡大木上のランダムなクリフォード回路を考える。
このモデルには量子ダーウィン主義フェーズがあり、出力キュービットの任意の小さな分数から参照に関する1つの古典的な情報を取り出すことができ、そのような検索が不可能な符号化フェーズがある。
2つの相は混合相と2つの連続遷移によって分離される。
正確な結果を2レプリカ計算と比較する。
後者は同様の '<annealed'' 位相図を生成し、これはハールランダムなユニタリを持つモデルにも適用される。
提案手法は,エンコードシステム上で環境が盗聴する修正モデルを解くことで,位相遷移(mipts)を計測する手法である。
鋭いMIPTを持ち、環境への完全なアクセスしかできない。 We propose a solvable model of Quantum Darwinism to encoding transitions -- abrupt changes in how quantum information spreads in a many-body system under unitary dynamics. We consider a random Clifford circuit on an expanding tree, whose input qubit is entangled with a reference. The model has a Quantum Darwinism phase, where one classical bit of information about the reference can be retrieved from an arbitrarily small fraction of the output qubits, and an encoding phase where such retrieval is impossible. The two phases are separated by a mixed phase and two continuous transitions. We compare the exact result to a two-replica calculation. The latter yields a similar ``annealed'' phase diagram, which applies also to a model with Haar random unitaries. We relate our approach to measurement induced phase transitions (MIPTs), by solving a modified model where an environment eavesdrops on an encoding system. It has a sharp MIPT only with full access to the environment. | 翻訳日:2023-05-08 13:05:09 公開日:2023-05-05 |
# コールド原子量子メモリにおける暗黒状態ポラリトン崩壊の抑制 Suppression of dark-state polariton collapses in cold-atom quantum memory ( http://arxiv.org/abs/2305.03692v1 ) ライセンス: Link先を確認 | Katja Gosar, Vesna Pirc Jev\v{s}enak, Tadej Me\v{z}nar\v{s}i\v{c}, Samo Begu\v{s}, Tomasz Krehlik, Du\v{s}an Ponikvar, Erik Zupani\v{c}, and Peter Jegli\v{c} | (参考訳) 我々は、磁場中の冷セシウム原子の雲上の電磁誘起透過性に基づく量子記憶における暗黒状態のポラリトン崩壊と再生を観測する。
磁場方向の偏光信号と制御ビームを用いて、伸長したゼーマン状態の1つに原子を偏光させ、制御ビームの周波数減衰を最適化することにより、暗い状態の偏光子崩壊を抑制する。
このようにして、部分的なダークステート・ポラリトン崩壊しか持たない量子メモリを実証し、メモリを任意の記憶時間で使用可能にする。
保存時間は400$\rm{\mu}$s以上で、磁場を放出することで達成できるよりも10倍長い。 We observe dark-state polariton collapses and revivals in a quantum memory based on electromagnetically induced transparency on a cloud of cold cesium atoms in a magnetic field. Using $\sigma^+$ polarized signal and control beams in the direction of the magnetic field, we suppress the dark-state polariton collapses by polarizing the atoms towards one of the stretched Zeeman states and optimizing the frequency detuning of the control beam. In this way, we demonstrate a quantum memory with only partial dark-state polariton collapses, making the memory usable at any storage time, not only at discretized times of revivals. We obtain storage time of more than 400 $\rm{\mu}$s, which is ten times longer than what we can achieve by trying to annul the magnetic field. | 翻訳日:2023-05-08 13:04:53 公開日:2023-05-05 |
# ボロノイ細胞からのバイアス・ターゲットアライメント Mining bias-target Alignment from Voronoi Cells ( http://arxiv.org/abs/2305.03691v1 ) ライセンス: Link先を確認 | R\'emi Nahon and Van-Tam Nguyen and Enzo Tartaglione | (参考訳) 重要な研究努力にもかかわらず、ディープニューラルネットワークは依然としてバイアスに対して脆弱である。
本稿では,ディープニューラルネットワークにおけるバイアスの影響を軽減するバイアス非依存手法を提案する。
従来のデバイアスアプローチとは異なり、ターゲットクラスで `bias alignment/misalignment'' を定量化するためのメトリクスに依存しており、この情報を使用してネットワークを通じたバイアスターゲットアライメント情報の伝播を阻害している。
我々は,いくつかの一般的なデータセットを用いたデバイアス実験を行い,提案手法を教師付きおよびバイアス固有のアプローチと比較した。
提案手法は,同じサンプルに複数のバイアスが存在する場合でもバイアス非依存であるにもかかわらず,最先端の教師付きアプローチと同等の性能が得られることを示す。 Despite significant research efforts, deep neural networks are still vulnerable to biases: this raises concerns about their fairness and limits their generalization. In this paper, we propose a bias-agnostic approach to mitigate the impact of bias in deep neural networks. Unlike traditional debiasing approaches, we rely on a metric to quantify ``bias alignment/misalignment'' on target classes, and use this information to discourage the propagation of bias-target alignment information through the network. We conduct experiments on several commonly used datasets for debiasing and compare our method to supervised and bias-specific approaches. Our results indicate that the proposed method achieves comparable performance to state-of-the-art supervised approaches, although it is bias-agnostic, even in presence of multiple biases in the same sample. | 翻訳日:2023-05-08 13:04:38 公開日:2023-05-05 |
# COLA: 属性でローカライズされたオブジェクトに視覚言語モデルを適用するには? COLA: How to adapt vision-language models to Compose Objects Localized with Attributes? ( http://arxiv.org/abs/2305.03689v1 ) ライセンス: Link先を確認 | Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko | (参考訳) 構成推論は人間の視覚知能の指標であるが、大きな視覚言語モデルのサイズにもかかわらず、オブジェクトと属性を組み合わせることで単純な構成を表現するのに苦労している。
コンポジション能力の欠如を測るため,Attributesで局所化したCompose Objectsに対するテキスト・画像検索ベンチマークであるColaを設計した。
colaをテストベッドとして使用し、事前訓練された視覚言語モデルに、複数のオブジェクトにアタッチされた複数の属性を合理化するためのモデリング設計を探求する。
3つの微調整データセットと2つのテストベンチマーク(Cola と CREPE)を使用して、2つの初等視覚言語モデル上の6つの微調整戦略を探索する。
驚くべきことに、我々の最適微調整戦略は、事前訓練中に画像と言語を不随意にエンコードする151MパラメータCLIPと、事前訓練中にマルチモーダルトランスフォーマーエンコーダを使用して、視覚と言語の両方のモダリティに出席する241MパラメータFLAVAを向上する。
この最適微調整戦略は、事前訓練されたモデルによって生成された画像特徴と言語特徴の両方に共同で参加する軽量なマルチモーダルアダプタである。
我々は、プロンプト/ファインチューニングや、同じ数の非モーダル層をチューニングするといった一般的な戦略よりもうまく機能することを示す。 Compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. Using Cola as a testbed, we explore modeling designs to adapt pre-trained vision-language models to reason compositionally about multiple attributes attached to multiple objects. We explore 6 finetuning strategies on 2 seminal vision-language models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE). Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP, which disjointly encodes image and language during pretraining, to perform as well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder during pretraining to attend over both vision and language modalities. This optimal finetuning strategy is a lightweight multi-modal adapter that jointly attends over both image and language features generated by the pretrained model. We show this works better than common strategies such as prompt/fine-tuning, or tuning a comparable number of unimodal layers. | 翻訳日:2023-05-08 13:04:24 公開日:2023-05-05 |
# DAMO-NLP at SemEval-2023 Task 2: Unified Retrieval-augmented System for Multilingual Named Entity Recognition DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System for Multilingual Named Entity Recognition ( http://arxiv.org/abs/2305.03688v1 ) ライセンス: Link先を確認 | Zeqi Tan, Shen Huang, Zixia Jia, Jiong Cai, Yinghui Li, Weiming Lu, Yueting Zhuang, Kewei Tu, Pengjun Xie, Fei Huang and Yong Jiang | (参考訳) MultiCoNER \RNum{2}共有タスクは、細粒度でノイズの多いシナリオで多言語名付きエンティティ認識(NER)に取り組むことを目的としており、MultiCoNER \RNum{1}タスクの意味的曖昧さと低コンテキスト設定を継承する。
これらの問題に対処するため、MultiCoNER \RNum{1} の以前のトップシステムは知識ベースまたはガゼッタを組み込んでいる。
しかし、彼らはまだ知識不足、コンテキストの長さの制限、単一検索戦略に苦しんでいる。
本稿では,超細粒度多言語nerのための統一検索型システム (u-raner) を提案する。
我々は,先行する上位システムでエラー解析を行い,その性能ボトルネックが不十分な知識にあることを明らかにした。
また,文脈長の制限により,検索知識がモデルに見えなくなることが判明した。
検索コンテキストの強化を目的として,エンティティ中心のwikidata知識ベースを取り入れ,モデルのコンテキスト範囲を広げるインフュージョンアプローチを採用している。
また,様々な検索戦略を探求し,検索知識の質を向上する。
当社のsystem\footnote{We will release the dataset, code, and script of our system at {\small \url{https://github.com/modelscope/AdaSeq/tree/master/examples/U-RaNER}}。
MultiCoNER \RNum{2}共有タスクでは、13トラック中9トラックが勝利する。
さらに,多くのタスクにおいて強力な機能を持つ大規模言語モデルの1つであるChatGPTと比較した。
その結果,ChatGPTの抽出作業にはまだ多くの改善の余地があることが示唆された。 The MultiCoNER \RNum{2} shared task aims to tackle multilingual named entity recognition (NER) in fine-grained and noisy scenarios, and it inherits the semantic ambiguity and low-context setting of the MultiCoNER \RNum{1} task. To cope with these problems, the previous top systems in the MultiCoNER \RNum{1} either incorporate the knowledge bases or gazetteers. However, they still suffer from insufficient knowledge, limited context length, single retrieval strategy. In this paper, our team \textbf{DAMO-NLP} proposes a unified retrieval-augmented system (U-RaNER) for fine-grained multilingual NER. We perform error analysis on the previous top systems and reveal that their performance bottleneck lies in insufficient knowledge. Also, we discover that the limited context length causes the retrieval knowledge to be invisible to the model. To enhance the retrieval context, we incorporate the entity-centric Wikidata knowledge base, while utilizing the infusion approach to broaden the contextual scope of the model. Also, we explore various search strategies and refine the quality of retrieval knowledge. Our system\footnote{We will release the dataset, code, and scripts of our system at {\small \url{https://github.com/modelscope/AdaSeq/tree/master/examples/U-RaNER}}.} wins 9 out of 13 tracks in the MultiCoNER \RNum{2} shared task. Additionally, we compared our system with ChatGPT, one of the large language models which have unlocked strong capabilities on many tasks. The results show that there is still much room for improvement for ChatGPT on the extraction task. | 翻訳日:2023-05-08 13:03:57 公開日:2023-05-05 |
# otter: コンテキスト内命令チューニングを備えたマルチモーダルモデル Otter: A Multi-Modal Model with In-Context Instruction Tuning ( http://arxiv.org/abs/2305.03726v1 ) ライセンス: Link先を確認 | Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu | (参考訳) 大規模言語モデル(LLM)は、GPT-3で実証されたような大量のテキストデータによる事前学習により、様々なタスクにおいて少数/ゼロショットの学習者が有意な普遍性を示した。
本稿では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入することを提案する。
我々は、MultI-Modal In-Context Instruction Tuning (MIMIC-IT)データセットを構築するために、同様のアプローチを採用する。
次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
また、研究者向けのOpenFlamingoの実装を最適化し、必要なトレーニングリソースを1$\times$ A100 GPUから4$\times$ RTX-3090 GPUに民主化し、OpenFlamingoとOtterをHuggingface Transformerに統合して、より多くの研究者がモデルをカスタマイズされたトレーニングと推論パイプラインに組み込むようにしました。 Large language models (LLMs) have demonstrated significant universal capabilities as few/zero-shot learners in various tasks due to their pre-training on vast amounts of text data, as exemplified by GPT-3, which boosted to InstrctGPT and ChatGPT, effectively following natural language instructions to accomplish real-world tasks. In this paper, we propose to introduce instruction tuning into multi-modal models, motivated by the Flamingo model's upstream interleaved format pretraining dataset. We adopt a similar approach to construct our MultI-Modal In-Context Instruction Tuning (MIMIC-IT) dataset. We then introduce Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following ability and in-context learning. We also optimize OpenFlamingo's implementation for researchers, democratizing the required training resources from 1$\times$ A100 GPU to 4$\times$ RTX-3090 GPUs, and integrate both OpenFlamingo and Otter into Huggingface Transformers for more researchers to incorporate the models into their customized training and inference pipelines. | 翻訳日:2023-05-08 12:56:25 公開日:2023-05-05 |
# DualCross:モノクルBEV知覚のためのクロスモーダルクロスドメイン適応 DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception ( http://arxiv.org/abs/2305.03724v1 ) ライセンス: Link先を確認 | Yunze Man, Liang-Yan Gui, Yu-Xiong Wang | (参考訳) トレーニングとデプロイメントの間のドメインギャップを閉鎖し、複数のセンサーモダリティを取り入れることは、自動運転にとって困難な2つのトピックである。
既存の作業は上記のトピックの1つだけに焦点を当てており、現実世界のシナリオに広く存在するドメインとモダリティの同時シフトを見渡している。
ヨーロッパで収集されたマルチセンサーデータでトレーニングされたモデルは、一部の入力センサーが利用可能なアジアで実行する必要がある。
本研究では,より堅牢な単眼鳥眼視(BEV)知覚モデルの学習を容易にするクロスモダリティ・クロスドメイン適応フレームワークであるDualCrossを提案する。
この研究は、野生の単眼3dタスクに対するクロスドメインクロスセンサー知覚と適応の初めてのオープン分析となる。
ドメインシフトの幅の広い大規模データセットに対するアプローチをベンチマークし、さまざまなベースラインに対して最先端の結果を示す。 Closing the domain gap between training and deployment and incorporating multiple sensor modalities are two challenging yet critical topics for self-driving. Existing work only focuses on single one of the above topics, overlooking the simultaneous domain and modality shift which pervasively exists in real-world scenarios. A model trained with multi-sensor data collected in Europe may need to run in Asia with a subset of input sensors available. In this work, we propose DualCross, a cross-modality cross-domain adaptation framework to facilitate the learning of a more robust monocular bird's-eye-view (BEV) perception model, which transfers the point cloud knowledge from a LiDAR sensor in one domain during the training phase to the camera-only testing scenario in a different domain. This work results in the first open analysis of cross-domain cross-sensor perception and adaptation for monocular 3D tasks in the wild. We benchmark our approach on large-scale datasets under a wide range of domain shifts and show state-of-the-art results against various baselines. | 翻訳日:2023-05-08 12:55:58 公開日:2023-05-05 |
# DSPDet3D:3次元小物体検出のための動的空間プラニング DSPDet3D: Dynamic Spatial Pruning for 3D Small Object Detection ( http://arxiv.org/abs/2305.03716v1 ) ライセンス: Link先を確認 | Xiuwei Xu, Zhihao Sun, Ziwei Wang, Hongmin Liu, Jie Zhou, Jiwen Lu | (参考訳) 本稿では,3次元小型物体検出のための新しい検出フレームワークを提案する。
深層学習に基づく3次元物体検出手法は近年は大きな成功を収めているが, 弱幾何情報による小型物体の探索はいまだに困難である。
詳細な研究により,特徴マップの空間分解能の増大は3次元小物体検出の性能を著しく向上させることがわかった。
さらに興味深いことに、計算オーバーヘッドは解像度とともに劇的に増加するが、主にデコーダのアップサンプリング操作によって増大する。
そこで本研究では,DSPDet3Dという動的空間プルーニングを用いた高解像度マルチレベル検出器を提案する。
3D検出器はスパースバウンディングボックスのみを予測する必要があるため、大量の非形式的特徴を刈り取ることは検出性能を劣化させることなく、アップサンプリングの計算コストを大幅に削減する。
このようにして、私たちのDSPDet3Dは、メモリフットプリントと推論時間をさらに少なくしながら、小さなオブジェクト検出において高い精度を達成する。
ScanNet と TO-SCENE のデータセットを用いて,本手法は室内3次元物体の主成分検出手法の推論速度を向上しつつ,小型物体の検出性能を新たなレベルに向上させる。 In this paper, we propose a new detection framework for 3D small object detection. Although deep learning-based 3D object detection methods have achieved great success in recent years, current methods still struggle on small objects due to weak geometric information. With in-depth study, we find increasing the spatial resolution of the feature maps significantly boosts the performance of 3D small object detection. And more interestingly, though the computational overhead increases dramatically with resolution, the growth mainly comes from the upsampling operation of the decoder. Inspired by this, we present a high-resolution multi-level detector with dynamic spatial pruning named DSPDet3D, which detects objects from large to small by iterative upsampling and meanwhile prunes the spatial representation of the scene at regions where there is no smaller object to be detected in higher resolution. As the 3D detector only needs to predict sparse bounding boxes, pruning a large amount of uninformative features does not degrade the detection performance but significantly reduces the computational cost of upsampling. In this way, our DSPDet3D achieves high accuracy on small object detection while requiring even less memory footprint and inference time. On ScanNet and TO-SCENE dataset, our method improves the detection performance of small objects to a new level while achieving leading inference speed among all mainstream indoor 3D object detection methods. | 翻訳日:2023-05-08 12:54:28 公開日:2023-05-05 |
# 在宅健康診断機器における大規模言語モデル--シックル細胞貧血管理を事例として Large Language Models in Ambulatory Devices for Home Health Diagnostics: A case study of Sickle Cell Anemia Management ( http://arxiv.org/abs/2305.03715v1 ) ライセンス: Link先を確認 | Oluwatosin Ogundare, Subuola Sofolahan | (参考訳) 本研究は,他のMLモデルとのケイデンスにLarge Language Models (LLMs) を組み込んだ脳卒中患者の貧血重症度をリアルタイムに評価する装置の可能性について検討した。
この装置は、貧血の重症度を評価するために血管原性物質レベルを測定するセンサーデータに依存し、患者や臨床医にリアルタイム情報を提供し、貧血の早期発見による血管閉塞性障害の頻度を減少させる。
このような装置を開発する上での大きな課題は、血管新生レベルアセスメントのための信頼性の高い非侵襲ツールの作成、生体物理学モデル、そして無力患者のために救急隊員と通信するLSMの実践的考察である。
可能なシステムを提案し,このアプローチの限界について考察した。 This study investigates the potential of an ambulatory device that incorporates Large Language Models (LLMs) in cadence with other specialized ML models to assess anemia severity in sickle cell patients in real time. The device would rely on sensor data that measures angiogenic material levels to assess anemia severity, providing real-time information to patients and clinicians to reduce the frequency of vaso-occlusive crises because of the early detection of anemia severity, allowing for timely interventions and potentially reducing the likelihood of serious complications. The main challenges in developing such a device are the creation of a reliable non-invasive tool for angiogenic level assessment, a biophysics model and the practical consideration of an LLM communicating with emergency personnel on behalf of an incapacitated patient. A possible system is proposed, and the limitations of this approach are discussed. | 翻訳日:2023-05-08 12:54:04 公開日:2023-05-05 |
# アバターフィンガープリントによる音声合成ビデオの利用 Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos ( http://arxiv.org/abs/2305.03713v1 ) ライセンス: Link先を確認 | Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo | (参考訳) 現代のジェネレータは、フォトリアリズムの印象的なレベルでトークヘッドビデオをレンダリングし、制限された帯域幅の予算の下でビデオ会議のような新しいユーザー体験をもたらす。
しかし、彼らの安全な採用には、レンダリングされたビデオが信頼できるかどうかを検証するメカニズムが必要である。
例えば、ビデオ会議では、合成ビデオのポートレートが、同意なしに個人の外観を使用するケースを識別しなければならない。
これをアバターフィンガープリントと呼ぶ。
各人物固有の顔の動きシグネチャを活用することを提案する。
具体的には、1つのアイデンティティの動作シグネチャがグループ化され、合成ビデオの外観に関わらず、他のアイデンティティのシグネチャから切り離される埋め込みを学習する。
アバターの指紋認証アルゴリズムは、対話ヘッドジェネレータがよりユビキタスになるにつれて重要になるが、この新しいタスクには大規模なデータセットは存在しない。
そこで,本研究では,台本や即興の短いモノローグを制作する人たちの膨大なデータセットと,他者の顔の表情を用いて映像をレンダリングする合成動画をコントリビュートした。
プロジェクトページ: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/ Modern generators render talking-head videos with impressive levels of photorealism, ushering in new user experiences such as videoconferencing under constrained bandwidth budgets. Their safe adoption, however, requires a mechanism to verify if the rendered video is trustworthy. For instance, for videoconferencing we must identify cases in which a synthetic video portrait uses the appearance of an individual without their consent. We term this task avatar fingerprinting. We propose to tackle it by leveraging facial motion signatures unique to each person. Specifically, we learn an embedding in which the motion signatures of one identity are grouped together, and pushed away from those of other identities, regardless of the appearance in the synthetic video. Avatar fingerprinting algorithms will be critical as talking head generators become more ubiquitous, and yet no large scale datasets exist for this new task. Therefore, we contribute a large dataset of people delivering scripted and improvised short monologues, accompanied by synthetic videos in which we render videos of one person using the facial appearance of another. Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/. | 翻訳日:2023-05-08 12:53:47 公開日:2023-05-05 |
# 公正監査のための統計的推論 Statistical Inference for Fairness Auditing ( http://arxiv.org/abs/2305.03712v1 ) ライセンス: Link先を確認 | John J. Cherian, Emmanuel J. Cand\`es | (参考訳) ブラックボックスモデルを高精細な問題に展開する前には、センシティブなサブポピュレーションでモデルの性能を評価することが重要である。
例えば、レシディズム予測タスクでは、予測モデルが認識不能な高い偽陽性率を持つ人口集団を識別したり、そのようなグループは存在しないことを証明したりします。
本稿では,複数の仮説テストの観点から,このタスクを「フェアネス監査」と呼ぶことが多い。
統計的保証のあるグループ群に対して,ブートストラップを用いて性能格差を同時にバインドする方法を示す。
本手法は,モデルアンダーパフォーマンスの影響を受けるサブポピュレーションのフラグ付けや,モデルが適切に機能するサブポピュレーションの認証に利用できる。
当社の監査はモデルに依存しないものであり、ほぼすべてのパフォーマンス指標やグループフェアネス基準に適用可能です。
私たちのメソッドは、サブポピュレーションのコレクションも非常にリッチで、無限でもあります。
さらに, ある分布シフトに対する性能評価方法を示すことで, サブポピュレーションを超えて一般化する。
提案手法を予測的推論とアルゴリズムフェアネスのベンチマークデータセット上で検証し,監査が解釈可能かつ信頼性の高い保証を提供できることを確認した。 Before deploying a black-box model in high-stakes problems, it is important to evaluate the model's performance on sensitive subpopulations. For example, in a recidivism prediction task, we may wish to identify demographic groups for which our prediction model has unacceptably high false positive rates or certify that no such groups exist. In this paper, we frame this task, often referred to as "fairness auditing," in terms of multiple hypothesis testing. We show how the bootstrap can be used to simultaneously bound performance disparities over a collection of groups with statistical guarantees. Our methods can be used to flag subpopulations affected by model underperformance, and certify subpopulations for which the model performs adequately. Crucially, our audit is model-agnostic and applicable to nearly any performance metric or group fairness criterion. Our methods also accommodate extremely rich -- even infinite -- collections of subpopulations. Further, we generalize beyond subpopulations by showing how to assess performance over certain distribution shifts. We test the proposed methods on benchmark datasets in predictive inference and algorithmic fairness and find that our audits can provide interpretable and trustworthy guarantees. | 翻訳日:2023-05-08 12:53:26 公開日:2023-05-05 |
# データセット凝縮は医療データ共有の銀の弾丸か? Is dataset condensation a silver bullet for healthcare data sharing? ( http://arxiv.org/abs/2305.03711v1 ) ライセンス: Link先を確認 | Yujiang Wang, Anshul Thakur, Mingzhi Dong, Pingchuan Ma, Stavros Petridis, Li Shang, Tingting Zhu, David Clifton | (参考訳) 個人情報の保護は、医療データ共有にとって重要な課題だ。
我々は、AI研究のための医療データ共有において、近年のディープラーニングの出現、データセット凝縮(DC)の展望を調査し、その結果が期待できる。
凝縮されたデータはオリジナルの記録を抽象化し、個々のレベルの知識を不可逆的に隠蔽し、自由な共有を可能にするボナフェイドの非識別を実現する。
さらに、元のディープラーニングユーティリティは圧縮体積と加速モデル収束を伴う凝縮データによく保存されている。
physionet-2012では、20のサンプルからなる凝縮されたデータセットは、死亡予測の80.3%のテストauc(5120のオリジナルレコードのうち85.8%)を達成する深層モデルの向き付けが可能である。
我々はまた、理論分析と実証的な証拠を通じてdcのプライバシー保護を解釈する。
Dataset Condensationは、AI研究のための医療データを複数の望ましい特徴で共有する新たな門を開く。 Safeguarding personal information is paramount for healthcare data sharing, a challenging issue without any silver bullet thus far. We study the prospect of a recent deep-learning advent, dataset condensation (DC), in sharing healthcare data for AI research, and the results are promising. The condensed data abstracts original records and irreversibly conceals individual-level knowledge to achieve a bona fide de-identification, which permits free sharing. Moreover, the original deep-learning utilities are well preserved in the condensed data with compressed volume and accelerated model convergences. In PhysioNet-2012, a condensed dataset of 20 samples can orient deep models attaining 80.3% test AUC of mortality prediction (versus 85.8% of 5120 original records), an inspiring discovery generalised to MIMIC-III and Coswara datasets. We also interpret the inhere privacy protections of DC through theoretical analysis and empirical evidence. Dataset condensation opens a new gate to sharing healthcare data for AI research with multiple desirable traits. | 翻訳日:2023-05-08 12:53:09 公開日:2023-05-05 |
# 音声テキストクロスモーダル表現の教師なし改善 Unsupervised Improvement of Audio-Text Cross-Modal Representations ( http://arxiv.org/abs/2305.01864v2 ) ライセンス: Link先を確認 | Zhepei Wang, Cem Subakan, Krishna Subramani, Junkai Wu, Tiago Tavares, Fabio Ayres, Paris Smaragdis | (参考訳) 言語モデルを用いてモーダルな音声テキスト表現を得る手法の進歩は,事前定義されたラベルを用いた従来の訓練手法の限界を克服している。
これによってコミュニティはゼロショット分類のようなタスクを前進させることができたが、そうでなければ不可能だった。
しかし、そのような表現を学習するには、大量の人間の注釈付き音声テキストペアが必要である。
本稿では,教師なしのテキストと音声による表現の学習フレームワークを改善するための教師なしアプローチについて検討する。
ドメイン固有およびドメイン固有のキュレーション手法を探索し、モデルをさらに改善するために使用する音声テキストペアを作成する。
また,ソフトラベルのコントラスト損失とともにドメイン固有キュレーションを用いた場合,下流の音響イベント分類や音響シーン分類タスクにおいて,ゼロショット分類性能の点で有意な改善が得られた。 Recent advances in using language models to obtain cross-modal audio-text representations have overcome the limitations of conventional training approaches that use predefined labels. This has allowed the community to make progress in tasks like zero-shot classification, which would otherwise not be possible. However, learning such representations requires a large amount of human-annotated audio-text pairs. In this paper, we study unsupervised approaches to improve the learning framework of such representations with unpaired text and audio. We explore domain-unspecific and domain-specific curation methods to create audio-text pairs that we use to further improve the model. We also show that when domain-specific curation is used in conjunction with a soft-labeled contrastive loss, we are able to obtain significant improvement in terms of zero-shot classification performance on downstream sound event classification or acoustic scene classification tasks. | 翻訳日:2023-05-08 10:42:14 公開日:2023-05-05 |
# pysrとsymbolregression.jlを用いた解釈可能な機械学習 Interpretable Machine Learning for Science with PySR and SymbolicRegression.jl ( http://arxiv.org/abs/2305.01582v3 ) ライセンス: Link先を確認 | Miles Cranmer (Princeton University and Flatiron Institute) | (参考訳) PySRは、人間の解釈可能な記号モデルを見つけることを目的とした機械学習の一種で、実用的な記号回帰のためのオープンソースのライブラリである。
PySRは科学の象徴的回帰を民主化し普及させるために開発され、高性能な分散バックエンド、フレキシブルな検索アルゴリズム、深層学習パッケージとのインタフェース上に構築されている。
pysrの内部探索アルゴリズムは、新しく発見された経験的表現における未知スカラー定数の最適化のために設計された、一意な進化単純化最適化ループからなる多集団進化アルゴリズムである。
PySRのバックエンドは、非常に最適化されたJuliaライブラリであるSymbolicRegression.jlである。
実行時にユーザ定義のオペレータをsimdカーネルに融合し、自動微分を実行し、クラスタ全体の数千のコアに表現の集団を分散することができる。
また,このソフトウェアについて述べる際に,シンボリック回帰アルゴリズムの適用性を定量化する新しいベンチマーク「empiricalbench」を導入する。
このベンチマークは、オリジナルのデータセットと合成データセットから過去の経験方程式を復元する。 PySR is an open-source library for practical symbolic regression, a type of machine learning which aims to discover human-interpretable symbolic models. PySR was developed to democratize and popularize symbolic regression for the sciences, and is built on a high-performance distributed back-end, a flexible search algorithm, and interfaces with several deep learning packages. PySR's internal search algorithm is a multi-population evolutionary algorithm, which consists of a unique evolve-simplify-optimize loop, designed for optimization of unknown scalar constants in newly-discovered empirical expressions. PySR's backend is the extremely optimized Julia library SymbolicRegression.jl, which can be used directly from Julia. It is capable of fusing user-defined operators into SIMD kernels at runtime, performing automatic differentiation, and distributing populations of expressions to thousands of cores across a cluster. In describing this software, we also introduce a new benchmark, "EmpiricalBench," to quantify the applicability of symbolic regression algorithms in science. This benchmark measures recovery of historical empirical equations from original and synthetic datasets. | 翻訳日:2023-05-08 10:42:01 公開日:2023-05-05 |
# Search-in-the-Chain:知識集約型タスクのための精度、信頼性、トレース可能な大規模言語モデルを目指して Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks ( http://arxiv.org/abs/2304.14732v3 ) ライセンス: Link先を確認 | Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-seng Chua | (参考訳) ChatGPTのような大規模言語モデル(LLM)の幅広い応用により、特に複雑な知識集約的なタスクにおいて、LLMによって生成されたコンテンツを正確かつ信頼性の高いものにする方法が非常に重要になる。
本稿では,複雑な知識集約タスクであるマルチホップ質問応答のためのllm生成コンテンツの精度,信頼性,トレーサビリティを向上させるための,search-in-the-chain(searchain)と呼ばれる新しいフレームワークを提案する。
SearChainはLLMと情報検索(IR)を深く統合したフレームワークである。
SearChainでは、LLMはマルチホップ問題の分解であるクエリの連鎖を構成する。
チェーンの各ノードは、IR指向のクエリと、このクエリのためにLLMが生成した回答からなるクエリ-問合せペアである。
IRはチェーンの各ノードの情報を確認し、完了し、追跡し、LCMを誘導して正しいチェーン・オブ・クエリを構築し、最後にマルチホップの質問に答える。
SearChainは、マルチホップ問題に直面した場合のクエリーチェーン構築の試みに対する回答から、LLMの変更を可能にし、知識推論能力を刺激し、LLMの推論プロセスに深く関与するIRのインターフェースを提供する。
IRはLLMのチェーン・オブ・クエリの各ノードと相互作用する。
ノードの情報を検証し、llmに未知の知識を提供することで、llmが応答を生成するプロセスにおいて、チェーン全体の正確性を保証する。
また、LCMがユーザに返したコンテンツは、最終回答だけでなく、問合せ、すなわち、チェーンの各ノードに対してIRによって検索されたクエリとサポートドキュメントの推論プロセスも含み、LCMが生成したコンテンツの信頼性とトレーサビリティを向上させる。
実験の結果、SearChainは4つのマルチホップ質問応答データセットのベースラインよりも優れていた。 With the wide application of Large Language Models (LLMs) such as ChatGPT, how to make the contents generated by LLM accurate and credible becomes very important, especially in complex knowledge-intensive tasks. In this paper, we propose a novel framework called Search-in-the-Chain (SearChain) to improve the accuracy, credibility and traceability of LLM-generated content for multi-hop question answering, which is a typical complex knowledge-intensive task. SearChain is a framework that deeply integrates LLM and information retrieval (IR). In SearChain, LLM constructs a chain-of-query, which is the decomposition of the multi-hop question. Each node of the chain is a query-answer pair consisting of an IR-oriented query and the answer generated by LLM for this query. IR verifies, completes, and traces the information of each node of the chain, so as to guide LLM to construct the correct chain-of-query, and finally answer the multi-hop question. SearChain makes LLM change from trying to give a answer to trying to construct the chain-of-query when faced with the multi-hop question, which can stimulate the knowledge-reasoning ability and provides the interface for IR to be deeply involved in reasoning process of LLM. IR interacts with each node of chain-of-query of LLM. It verifies the information of the node and provides the unknown knowledge to LLM, which ensures the accuracy of the whole chain in the process of LLM generating the answer. Besides, the contents returned by LLM to the user include not only the final answer but also the reasoning process for the question, that is, the chain-of-query and the supporting documents retrieved by IR for each node of the chain, which improves the credibility and traceability of the contents generated by LLM. Experimental results show SearChain outperforms related baselines on four multi-hop question-answering datasets. | 翻訳日:2023-05-08 10:41:43 公開日:2023-05-05 |
# ワイルドフェイスのアンチスプーフィングチャレンジ2023:ベンチマークと結果 Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results ( http://arxiv.org/abs/2304.05753v3 ) ライセンス: Link先を確認 | Dong Wang, Jia Guo, Qiqi Shao, Haochi He, Zhian Chen, Chuanbao Xiao, Ajian Liu, Sergio Escalera, Hugo Jair Escalante, Zhen Lei, Jun Wan, Jiankang Deng | (参考訳) 顔認証システム(FAS)は、顔認識システムの完全性を保護するための重要なメカニズムである。
大幅な進歩にもかかわらず、現実のアプリケーションに対する既存のアプローチの一般化は依然として困難である。
この制限は、公開利用可能なfasデータセットの不足と多様性の欠如に起因する可能性がある。
量に関して言えば、被験者の数は臨界決定要因である。
ほとんどのデータセットは2000人未満の被験者で構成されている。
多様性に関して、データセットの大部分は、反復的な機械的プロセスを使用して制御された環境で収集されたスプーフサンプルから成っている。
このデータ収集手法は、均質化されたサンプルとシナリオの多様性の欠如をもたらす。
これらの欠点に対処するために、制約のない環境で収集された大規模で多様なFASデータセットであるWFASデータセット(Wild Face Anti-Spoofing)を導入する。
本データセットは,321,751人の被験者の853,729枚の画像と,148,169人の生きた被験者の529,571枚の画像を含む。
さらに当社のデータセットは,インターネットから取得したspoofデータと,2dと3dの両方を包含する17のプレゼンテーションアタック(pas)を含む,幅広いシナリオとさまざまな商業センサを包含する。
この新たなデータ収集戦略は、fasデータ多様性を著しく向上させる。
WFASデータセットとプロトコル1(Known-Type)を活用して、CVPR2023ワークショップでWild Face Anti-Spoofing Challengeを開催します。
さらに,Protocol 1 とProtocol 2 (Unknown-Type) を用いた代表メソッドの評価を行った。
チャレンジ結果とベンチマーク基準を詳細に検討し,洞察に富んだ分析を行い,今後の研究への道筋を示唆する。
データセットはInsightfaceでリリースされている。 Face anti-spoofing (FAS) is an essential mechanism for safeguarding the integrity of automated face recognition systems. Despite substantial advancements, the generalization of existing approaches to real-world applications remains challenging. This limitation can be attributed to the scarcity and lack of diversity in publicly available FAS datasets, which often leads to overfitting during training or saturation during testing. In terms of quantity, the number of spoof subjects is a critical determinant. Most datasets comprise fewer than 2,000 subjects. With regard to diversity, the majority of datasets consist of spoof samples collected in controlled environments using repetitive, mechanical processes. This data collection methodology results in homogenized samples and a dearth of scenario diversity. To address these shortcomings, we introduce the Wild Face Anti-Spoofing (WFAS) dataset, a large-scale, diverse FAS dataset collected in unconstrained settings. Our dataset encompasses 853,729 images of 321,751 spoof subjects and 529,571 images of 148,169 live subjects, representing a substantial increase in quantity. Moreover, our dataset incorporates spoof data obtained from the internet, spanning a wide array of scenarios and various commercial sensors, including 17 presentation attacks (PAs) that encompass both 2D and 3D forms. This novel data collection strategy markedly enhances FAS data diversity. Leveraging the WFAS dataset and Protocol 1 (Known-Type), we host the Wild Face Anti-Spoofing Challenge at the CVPR2023 workshop. Additionally, we meticulously evaluate representative methods using Protocol 1 and Protocol 2 (Unknown-Type). Through an in-depth examination of the challenge outcomes and benchmark baselines, we provide insightful analyses and propose potential avenues for future research. The dataset is released under Insightface. | 翻訳日:2023-05-08 10:41:10 公開日:2023-05-05 |
# ロバストネスを考慮したコアセット選択による効率よい対人コントラスト学習 Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset Selection ( http://arxiv.org/abs/2302.03857v3 ) ライセンス: Link先を確認 | Xilie Xu, Jingfeng Zhang, Feng Liu, Masashi Sugiyama, Mohan Kankanhalli | (参考訳) ACL(Adversarial contrastive Learning)は、高価なデータアノテーションを必要としないが、敵攻撃に耐える堅牢な表現を出力し、幅広い下流タスクに一般化する。
しかし、ACLは、すべてのトレーニングデータの逆の変種を生成するために、膨大な実行時間を必要とします。
ACLを高速化するために,ロバストネス対応コアセット選択法(RCS)を提案する。
RCSはラベル情報を必要とせず、自然なデータとその仮想逆数との表現の距離である表現の発散を最小限に抑える情報的サブセットを検索する。
すべての可能な部分集合をトラバースするRCSのバニラ解は計算的に禁じられている。
そこで, 理論上はrcsをサブモジュラー最大化のサロゲート問題に変換し, グリーディ探索は元の問題に対して最適性を保証する効率的な解である。
実験的な結果から、RCSはロバスト性伝達性を著しく損なうことなく、大きなマージンでACLを高速化できることを示す。
特に,我々の知る限りでは,大規模な ImageNet-1K データセット上で ACL を効率的に実行し,RCS による効率的なロバスト表現を実現するのは初めてである。 Adversarial contrastive learning (ACL) does not require expensive data annotations but outputs a robust representation that withstands adversarial attacks and also generalizes to a wide range of downstream tasks. However, ACL needs tremendous running time to generate the adversarial variants of all training data, which limits its scalability to large datasets. To speed up ACL, this paper proposes a robustness-aware coreset selection (RCS) method. RCS does not require label information and searches for an informative subset that minimizes a representational divergence, which is the distance of the representation between natural data and their virtual adversarial variants. The vanilla solution of RCS via traversing all possible subsets is computationally prohibitive. Therefore, we theoretically transform RCS into a surrogate problem of submodular maximization, of which the greedy search is an efficient solution with an optimality guarantee for the original problem. Empirically, our comprehensive results corroborate that RCS can speed up ACL by a large margin without significantly hurting the robustness transferability. Notably, to the best of our knowledge, we are the first to conduct ACL efficiently on the large-scale ImageNet-1K dataset to obtain an effective robust representation via RCS. | 翻訳日:2023-05-08 10:40:41 公開日:2023-05-05 |
# 格子ゲージ理論におけるロバスト量子多体スカー Robust quantum many-body scars in lattice gauge theories ( http://arxiv.org/abs/2203.08828v5 ) ライセンス: Link先を確認 | Jad C. Halimeh, Luca Barbiero, Philipp Hauke, Fabian Grusdt, Annabelle Bohrdt | (参考訳) 量子多体スカーリング(quantum many-body scarring)は、低エンタングルメントエントロピーを持つ特別な非熱多体固有状態の存在によって生じる弱いエルゴード性破壊のパラダイムである。
傷跡はゲージ理論と密接な関係にあることが示されているが、そのような実験的に関連するモデルにおけるその安定性はまだ未解決の問題であり、一般的には微調整された条件下でのみ存在すると考えられている。
本研究では, ゲージ対称性生成器の線形項や, $\mathrm{U}(1)$および$\mathbb{Z}_2$ゲージゲージ理論の簡易擬似生成器を用いて, 実験誤差の存在下で量子多体傷を堅牢にすることができることを示す。
我々の発見は量子ゼノダイナミクスの概念によって説明される。
実験で実現可能な手法は、既存の大規模超低温量子シミュレータやライドバーグ原子の光学トワイザーによるセットアップに容易に実装できる。 Quantum many-body scarring is a paradigm of weak ergodicity breaking arising due to the presence of special nonthermal many-body eigenstates that possess low entanglement entropy, are equally spaced in energy, and concentrate in certain parts of the Hilbert space. Though scars have been shown to be intimately connected to gauge theories, their stability in such experimentally relevant models is still an open question, and it is generally considered that they exist only under fine-tuned conditions. In this work, we show through Krylov-based time-evolution methods how quantum many-body scars can be made robust in the presence of experimental errors through utilizing terms linear in the gauge-symmetry generator or a simplified pseudogenerator in $\mathrm{U}(1)$ and $\mathbb{Z}_2$ lattice gauge theories. Our findings are explained by the concept of quantum Zeno dynamics. Our experimentally feasible methods can be readily implemented in existing large-scale ultracold-atom quantum simulators and setups of Rydberg atoms with optical tweezers. | 翻訳日:2023-05-08 10:40:19 公開日:2023-05-05 |
# 微分プライベートトレーニングにおけるデータ選択と評価のための勾配由来メトリクスの活用 Leveraging gradient-derived metrics for data selection and valuation in differentially private training ( http://arxiv.org/abs/2305.02942v2 ) ライセンス: Link先を確認 | Dmitrii Usynin, Daniel Rueckert, Georgios Kaissis | (参考訳) 機械学習モデルの協調トレーニングのための高品質なデータを得ることは、a)規制上の懸念とb)参加意欲の欠如のために難しい課題である。
プライバシ強化技術(pet: privacy enhancement technologies)は、最も頻繁に使用されるもののひとつで、差分プライベート(diffially private、dp)トレーニングである。
2つ目の課題は、モデルトレーニングにどのデータポイントが有用かを特定し、データ共有にデータ所有者に報奨を与えることである。
しかし、深層学習におけるdpは典型的には非定型的(しばしば有益な)データサンプルに悪影響を及ぼすため、個々の貢献の有用性を評価することは困難である。
本研究では,個人の学習環境に関心のあるトレーニングサンプルを特定するために,勾配情報を活用する方法について検討する。
最も厳格なプライバシー設定でも、クライアントに原則的なデータ選択ツールを提供することのできる技術があることを実証する。 Obtaining high-quality data for collaborative training of machine learning models can be a challenging task due to A) the regulatory concerns and B) lack of incentive to participate. The first issue can be addressed through the use of privacy enhancing technologies (PET), one of the most frequently used one being differentially private (DP) training. The second challenge can be addressed by identifying which data points can be beneficial for model training and rewarding data owners for sharing this data. However, DP in deep learning typically adversely affects atypical (often informative) data samples, making it difficult to assess the usefulness of individual contributions. In this work we investigate how to leverage gradient information to identify training samples of interest in private training settings. We show that there exist techniques which are able to provide the clients with the tools for principled data selection even in strictest privacy settings. | 翻訳日:2023-05-08 10:33:46 公開日:2023-05-05 |
# 2つの静的非結合トランスモン量子ビット間の垂直パラメトリックカップリング Versatile parametric coupling between two statically decoupled transmon qubits ( http://arxiv.org/abs/2305.02907v2 ) ライセンス: Link先を確認 | X. Y. Jin, K. Cicak, Z. Parrott, S. Kotler, F. Lecocq, J. Teufel, J. Aumentado, E. Kapit and R. W. Simmonds | (参考訳) パラメトリックカップリングはマイクロ波トーンのみを用いて超伝導回路間の可変相互作用を生成する強力な技術である。
本稿では,残余の$zz$結合の除去や,駆動スワップやスワップフリー制御-$z$ (c$z$) ゲートの実装など,複数の用途に使用可能な2つのトランスモンキュービットを用いて,高度に柔軟なパラメトリック結合スキームを提案する。
我々の完全統合型カプラ設計は、弱い磁束調整のみ可能であり、量子ビット間の静的線形結合をキャンセルし、内部カプラダイナミクスや励起を回避し、rfパルスで動作する。
パラメトリックな分散トーンで残余の$ZZ$結合を5.5kHzの実験的不確実性まで低減できることを示す。
さらにランダム化ベンチマークでは、パラメトリックスワップc$z$ゲートが60 nsのゲート持続時間で99.4%、分散パラメトリックスワップフリーc$z$ゲートがわずか30 nsで99.5%の忠実性を達成することが示されている。
これは、オンチップパラメトリック結合でこれまで達成された、最速で最高の忠実度ゲートであると考えています。
さらに,p-スワップおよびp-スワップフリーc$Z$ゲートのゲート長に対するゲート忠実度依存性について検討し,これらのゲートの誤差源について考察する。
全体として,従来のパラメトリックアプローチでは見られない汎用性,精度,速度,高性能を示す。
最後に、我々の設計は超伝導量子ビットのより大きなモジュラーシステムを作る新しい可能性を開く。 Parametric coupling is a powerful technique for generating tunable interactions between superconducting circuits using only microwave tones. Here, we present a highly flexible parametric coupling scheme demonstrated with two transmon qubits, which can be employed for multiple purposes, including the removal of residual $ZZ$ coupling and the implementation of driven swap or swap-free controlled-$Z$ (c$Z$) gates. Our fully integrated coupler design is only weakly flux tunable, cancels static linear coupling between the qubits, avoids internal coupler dynamics or excitations, and operates with rf-pulses. We show that residual $ZZ$ coupling can be reduced with a parametric dispersive tone down to an experimental uncertainty of 5.5 kHz. Additionally, randomized benchmarking reveals that the parametric swap c$Z$ gate achieves a fidelity of 99.4% in a gate duration of 60 ns, while the dispersive parametric swap-free c$Z$ gate attains a fidelity of 99.5% in only 30 ns. We believe this is the fastest and highest fidelity gate achieved with on-chip parametric coupling to date. We further explore the dependence of gate fidelity on gate duration for both p-swap and p-swap-free c$Z$ gates, providing insights into the possible error sources for these gates. Overall, our findings demonstrate a versatility, precision, speed, and high performance not seen in previous parametric approaches. Finally, our design opens up new possibilities for creating larger, modular systems of superconducting qubits. | 翻訳日:2023-05-08 10:33:30 公開日:2023-05-05 |
# スケーラブルグラフ学習のための階層変換器 Hierarchical Transformer for Scalable Graph Learning ( http://arxiv.org/abs/2305.02866v2 ) ライセンス: Link先を確認 | Wenhao Zhu, Tianyu Wen, Guojie Song, Xiaojun Ma, Liang Wang | (参考訳) グラフトランスフォーマーは機械学習の分野で注目を集めており、グラフ表現学習のベンチマークで最先端のパフォーマンスを示している。
しかし、グラフ変換器の現在の実装は、主に小規模グラフの学習表現に焦点を当てているため、グローバルな自己認識機構の二次的な複雑さは、より大きなグラフに適用した場合に、フルバッチトレーニングの課題となる。
さらに、従来のサンプリングベースの手法では、必要な高レベルのコンテキスト情報をキャプチャできないため、性能が著しく低下する。
本稿では,これらの課題に対する解決策として階層型スケーラブルグラフトランスフォーマ(hsgt)を提案する。
HSGTはTransformerアーキテクチャを大規模グラフ上でノード表現学習タスクに拡張し、高い性能を維持する。
粗大化技術によって構築されたグラフ階層を利用することで、HSGTはノード埋め込みにおけるマルチスケール情報を効率よく更新し、保存する。
サンプリングベースのトレーニング手法とともに、HSGTはTransformerブロックのみを使用して階層グラフ上のマルチレベル情報を効果的にキャプチャし集約する。
実験的な評価では、HSGTは数百万のノードを高い効率で含むグラフを持つ大規模ベンチマークで最先端のパフォーマンスを達成する。 Graph Transformer is gaining increasing attention in the field of machine learning and has demonstrated state-of-the-art performance on benchmarks for graph representation learning. However, as current implementations of Graph Transformer primarily focus on learning representations of small-scale graphs, the quadratic complexity of the global self-attention mechanism presents a challenge for full-batch training when applied to larger graphs. Additionally, conventional sampling-based methods fail to capture necessary high-level contextual information, resulting in a significant loss of performance. In this paper, we introduce the Hierarchical Scalable Graph Transformer (HSGT) as a solution to these challenges. HSGT successfully scales the Transformer architecture to node representation learning tasks on large-scale graphs, while maintaining high performance. By utilizing graph hierarchies constructed through coarsening techniques, HSGT efficiently updates and stores multi-scale information in node embeddings at different levels. Together with sampling-based training methods, HSGT effectively captures and aggregates multi-level information on the hierarchical graph using only Transformer blocks. Empirical evaluations demonstrate that HSGT achieves state-of-the-art performance on large-scale benchmarks with graphs containing millions of nodes with high efficiency. | 翻訳日:2023-05-08 10:33:00 公開日:2023-05-05 |
# Cuttlefish: チューニング不要の低ランクモデルトレーニング Cuttlefish: Low-Rank Model Training without All the Tuning ( http://arxiv.org/abs/2305.02538v2 ) ライセンス: Link先を確認 | Hongyi Wang, Saurabh Agarwal, Pongsakorn U-chupala, Yoshiki Tanaka, Eric P. Xing, Dimitris Papailiopoulos | (参考訳) 近年の研究では、低ランクニューラルネットワークのトレーニングにより、予測精度を犠牲にすることなく、トレーニング可能なパラメータの総数を効果的に削減できることが示されている。
しかし、低ランクモデルトレーニングでは、各層における因子化のランクなど、いくつかの追加の因子化ハイパーパラメータを調整する必要がある。
本稿では,因子化ハイパーパラメータのチューニングを不要にする低ランク自動トレーニング手法であるcuttlefishを導入することで,この課題に挑戦する。
カトルフィッシュは、フルランクトレーニングのいくつかのエポックの後、各層の安定なランク(すなわち、真のランクの近似)が一定値で安定化するという観察を利用する。
クトルフィッシュは全ての層の安定なランクが収束すると、フルランクからローランクのトレーニングに切り替え、それぞれの因子分解の次元を対応する安定なランクに設定する。
この結果から,Cuttlefishはフルランクモデルよりも最大5.6倍のモデルを生成し,最大1.2倍高速なエンドツーエンドトレーニングプロセスを実現するとともに,同等の精度を維持した。
さらに、クトルフィッシュは最先端の低ランクモデルのトレーニング方法や他の顕著なベースラインよりも優れています。
私たちの実装のソースコードは、https://github.com/hwang595/Cuttlefish.com/。 Recent research has shown that training low-rank neural networks can effectively reduce the total number of trainable parameters without sacrificing predictive accuracy, resulting in end-to-end speedups. However, low-rank model training necessitates adjusting several additional factorization hyperparameters, such as the rank of the factorization at each layer. In this paper, we tackle this challenge by introducing Cuttlefish, an automated low-rank training approach that eliminates the need for tuning factorization hyperparameters. Cuttlefish leverages the observation that after a few epochs of full-rank training, the stable rank (i.e., an approximation of the true rank) of each layer stabilizes at a constant value. Cuttlefish switches from full-rank to low-rank training once the stable ranks of all layers have converged, setting the dimension of each factorization to its corresponding stable rank. Our results show that Cuttlefish generates models up to 5.6 times smaller than full-rank models, and attains up to a 1.2 times faster end-to-end training process while preserving comparable accuracy. Moreover, Cuttlefish outperforms state-of-the-art low-rank model training methods and other prominent baselines. The source code for our implementation can be found at: https://github.com/hwang595/Cuttlefish. | 翻訳日:2023-05-08 10:32:40 公開日:2023-05-05 |
# コード長最小化によるパノラマ映像の走査パス予測 Scanpath Prediction in Panoramic Videos via Expected Code Length Minimization ( http://arxiv.org/abs/2305.02536v2 ) ライセンス: Link先を確認 | Mu Li, Kanglong Fan, Kede Ma | (参考訳) パノラマビデオの探索における人間の走査パスの予測は、球面形状と入力の多モード性、出力の固有の不確かさと多様性のために難しい課題である。
これまでのほとんどの手法ではこれらの特性を完全に扱えないため、エラーを起こしやすい。
本稿では,損失データ圧縮の原理に基づくスカンパス予測のための簡易な新しい基準を提案する。
この基準は、トレーニングセットにおける量子化されたスキャンパスの期待コード長を最小化することを提案している。
特に、確率モデルは、変形還元された視覚入力としてのビューポートシーケンスと、各ビューポートにアライメントパス入力として投影された相対的歴史走査パスのセットの2つのモードで条件付けされる。
確率モデルは離散ガウス混合モデルの積によってパラメータ化され、異なるユーザからのスカンパスの不確実性と多様性を捉える。
最も重要なことは、確率モデルのトレーニングは、模倣学習のための「地下真実」スキャンパスの仕様に頼らないことである。
また、学習確率モデルから現実的な人間様スキャンパスを生成するために、比例積分微分(PID)コントローラベースのサンプリングも導入する。
実験結果から,提案手法は予測精度(推定した「地下構造」と比較)と知覚現実性(機械識別)を幅広い予測地平線上で一貫した定量的なスキャパス結果が得られることが示された。
さらに,形式的心理物理学実験による知覚的リアリズムの改善と,未認識のパノラマ映像データセットの一般化による改善を検証した。 Predicting human scanpaths when exploring panoramic videos is a challenging task due to the spherical geometry and the multimodality of the input, and the inherent uncertainty and diversity of the output. Most previous methods fail to give a complete treatment of these characteristics, and thus are prone to errors. In this paper, we present a simple new criterion for scanpath prediction based on principles from lossy data compression. This criterion suggests minimizing the expected code length of quantized scanpaths in a training set, which corresponds to fitting a discrete conditional probability model via maximum likelihood. Specifically, the probability model is conditioned on two modalities: a viewport sequence as the deformation-reduced visual input and a set of relative historical scanpaths projected onto respective viewports as the aligned path input. The probability model is parameterized by a product of discretized Gaussian mixture models to capture the uncertainty and the diversity of scanpaths from different users. Most importantly, the training of the probability model does not rely on the specification of "ground-truth" scanpaths for imitation learning. We also introduce a proportional-integral-derivative (PID) controller-based sampler to generate realistic human-like scanpaths from the learned probability model. Experimental results demonstrate that our method consistently produces better quantitative scanpath results in terms of prediction accuracy (by comparing to the assumed "ground-truths") and perceptual realism (through machine discrimination) over a wide range of prediction horizons. We additionally verify the perceptual realism improvement via a formal psychophysical experiment and the generalization improvement on several unseen panoramic video datasets. | 翻訳日:2023-05-08 10:32:19 公開日:2023-05-05 |
# 交通信号分類器の多重性向上:ExoMinerの多重性ブーストを用いた69個の新しい太陽系外惑星の検証 Multiplicity Boost Of Transit Signal Classifiers: Validation of 69 New Exoplanets Using The Multiplicity Boost of ExoMiner ( http://arxiv.org/abs/2305.02470v2 ) ライセンス: Link先を確認 | Hamed Valizadegan, Miguel J. S. Martinho, Jon M. Jenkins, Douglas A. Caldwell, Joseph D. Twicken, Stephen T. Bryson | (参考訳) 既存の太陽系外惑星のほとんどは、補完的な観測によって確認されるのではなく、検証技術を用いて発見されている。
これらの手法は、その信号に関連する情報(xで表される)を与えられた外惑星(y(x)=外惑星)である遷移信号の確率であるスコアを生成する。
多重度情報を用いてこれらの確率スコアを生成するRowe et al. (2014)の検証手法を除いて、既存の検証手法は多重度アップ情報を無視する。
本稿では,既存のトランジット信号vetter (classifier) を与えられた場合,多重性情報による性能向上を前提とした枠組みを提案する。
我々は、このフレームワークを、vespa (Morton et al. 2016), Robovetter (Coughlin et al. 2017), AstroNet (Shallue & Vanderburg 2018), ExoNet (Ansdel et al. 2018), GPC and RFC (Armstrong et al. 2020), ExoMiner (Valizadegan et al. 2022)など、既存の分類器に適用して、このフレームワークが与えられた分類器のパフォーマンスを向上できると主張する。
次に、提案したExoMiner V1.2の多重化促進フレームワークを使用し、元のExoMiner分類器(Valizadegan et al. 2022)の欠点に対処し、ケプラーカタログから複数のKOIを持つ系に対して69個の新しい太陽系外惑星を検証する。 Most existing exoplanets are discovered using validation techniques rather than being confirmed by complementary observations. These techniques generate a score that is typically the probability of the transit signal being an exoplanet (y(x)=exoplanet) given some information related to that signal (represented by x). Except for the validation technique in Rowe et al. (2014) that uses multiplicity information to generate these probability scores, the existing validation techniques ignore the multiplicity boost information. In this work, we introduce a framework with the following premise: given an existing transit signal vetter (classifier), improve its performance using multiplicity information. We apply this framework to several existing classifiers, which include vespa (Morton et al. 2016), Robovetter (Coughlin et al. 2017), AstroNet (Shallue & Vanderburg 2018), ExoNet (Ansdel et al. 2018), GPC and RFC (Armstrong et al. 2020), and ExoMiner (Valizadegan et al. 2022), to support our claim that this framework is able to improve the performance of a given classifier. We then use the proposed multiplicity boost framework for ExoMiner V1.2, which addresses some of the shortcomings of the original ExoMiner classifier (Valizadegan et al. 2022), and validate 69 new exoplanets for systems with multiple KOIs from the Kepler catalog. | 翻訳日:2023-05-08 10:31:50 公開日:2023-05-05 |
# 不協和音検出のためのトランスファーとアクティブラーニング--レアクラス課題への取り組み Transfer and Active Learning for Dissonance Detection: Addressing the Rare-Class Challenge ( http://arxiv.org/abs/2305.02459v2 ) ライセンス: Link先を確認 | Vasudha Varadarajan, Swanie Juhng, Syeda Mahwish, Xiaoran Liu, Jonah Luby, Christian Luhmann, H. Andrew Schwartz | (参考訳) トランスフォーマーベースのシステムではトレーニング例が少ないほど精度が向上しているが、クラスラベルが非常に低い場合(例:サンプルの5%)、データ取得障害はレアクラスのタスクに持続する。
このような課題を緩和するために、アクティブラーニングが一般的に提案されているが、レアクラス例の選択基準である選択戦略の選択は体系的に評価されていない。
さらに、トランスフォーマーは反復的なトランスファー学習アプローチを可能にする。
本研究では,近縁課題に学習したモデルを活用した不協和音検出の希少クラス問題に対する伝達・能動的学習ソリューションの提案と検討を行い,提案手法を含む獲得戦略の評価を行った。
我々はこれらの実験を,ソーシャルメディアから認知不協和の言語サンプルを収集する,特定の稀なクラス問題に対して実施する。
prcはアノテーションを導き、最終的にモデルの精度を向上させるためのシンプルで効果的な戦略であると同時に、トランスファーラーニングは学習者のコールドスタート性能を改善することができるが、アクティブラーニングの反復には効果がない。 While transformer-based systems have enabled greater accuracies with fewer training examples, data acquisition obstacles still persist for rare-class tasks -- when the class label is very infrequent (e.g. < 5% of samples). Active learning has in general been proposed to alleviate such challenges, but choice of selection strategy, the criteria by which rare-class examples are chosen, has not been systematically evaluated. Further, transformers enable iterative transfer-learning approaches. We propose and investigate transfer- and active learning solutions to the rare class problem of dissonance detection through utilizing models trained on closely related tasks and the evaluation of acquisition strategies, including a proposed probability-of-rare-class (PRC) approach. We perform these experiments for a specific rare class problem: collecting language samples of cognitive dissonance from social media. We find that PRC is a simple and effective strategy to guide annotations and ultimately improve model accuracy while transfer-learning in a specific order can improve the cold-start performance of the learner but does not benefit iterations of active learning. | 翻訳日:2023-05-08 10:31:16 公開日:2023-05-05 |
# 言語的複雑なテキストからの画像検索のためのニューラルディバイド・アンド・コンクェリ推論フレームワーク A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from Linguistically Complex Text ( http://arxiv.org/abs/2305.02265v2 ) ライセンス: Link先を確認 | Yunxin Li, Baotian Hu, Yuxin Ding, Lin Ma, and Min Zhang | (参考訳) VLM(Pretrained Vision-Language Models)は,テキストからの画像検索において顕著な性能を発揮する。
しかし、理解に苦しむ言語的に複雑なテキストに直面すると、そのパフォーマンスは大きく低下する。
本稿では,複数の単純な命題文からなる複合命題テキストとして言語的に複雑なテキストを考察し,NDCRと呼ばれるエンドツーエンドのニューラルディバイド・アンド・コンカー推論フレームワークを提案する。
主な構成要素は3つある。
1)分割:命題生成器は、複合命題テキストを単純な命題文に分割し、対応する表現を生成する。
2)提案文と画像の相互作用は,VLMによる事前学習による視覚言語対話によって実現される。
3) 組み合わせ: ニューラルシンボリック推論は、上記の推論状態を組み合わせて、ニューラルネットワーク推論アプローチを介して最終解を得る。
双対過程理論によれば、視覚言語相互作用系と神経記号推論系は類似推論系1と論理推論系2と見なすことができる。
本研究では,文脈記述データセットから挑戦的な画像検索を行う。
実験結果と解析結果から,NDCRは複雑な画像テキスト推論問題の性能を著しく向上させることが示された。
コードリンク: https://github.com/yunxinli/ndcr。 Pretrained Vision-Language Models (VLMs) have achieved remarkable performance in image retrieval from text. However, their performance drops drastically when confronted with linguistically complex texts that they struggle to comprehend. Inspired by the Divide-and-Conquer algorithm and dual-process theory, in this paper, we regard linguistically complex texts as compound proposition texts composed of multiple simple proposition sentences and propose an end-to-end Neural Divide-and-Conquer Reasoning framework, dubbed NDCR. It contains three main components: 1) Divide: a proposition generator divides the compound proposition text into simple proposition sentences and produces their corresponding representations, 2) Conquer: a pretrained VLMs-based visual-linguistic interactor achieves the interaction between decomposed proposition sentences and images, 3) Combine: a neural-symbolic reasoner combines the above reasoning states to obtain the final solution via a neural logic reasoning approach. According to the dual-process theory, the visual-linguistic interactor and neural-symbolic reasoner could be regarded as analogical reasoning System 1 and logical reasoning System 2. We conduct extensive experiments on a challenging image retrieval from contextual descriptions data set. Experimental results and analyses indicate NDCR significantly improves performance in the complex image-text reasoning problem. Code link: https://github.com/YunxinLi/NDCR. | 翻訳日:2023-05-08 10:30:54 公開日:2023-05-05 |
# 視覚シーングラフから画像キャプションへの変換 Transforming Visual Scene Graphs to Image Captions ( http://arxiv.org/abs/2305.02177v3 ) ライセンス: Link先を確認 | Xu Yang, Jiawei Peng, Zihua Wang, Haiyang Xu, Qinghao Ye, Chenliang Li, Ming Yan, Fei Huang, Zhangzikang Li and Yu Zhang | (参考訳) 我々は,Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。
tsgでは,シーングラフ埋め込みのためのグラフニューラルネットワーク(gnn)の設計にマルチヘッドアテンション(mha)を適用する。
埋め込み後、異なるグラフ埋め込みは、異なるパーシャル・オブ・スパイチを持つ単語を生成するための様々な特定の知識を含んでいる。
そこで我々は,mha上で各専門家が構築するmixed-of-expert(moe)ベースのデコーダを設計し,グラフ埋め込みを識別することで,異なる種類の単語を生成する。
エンコーダとデコーダはどちらもMHAに基づいて構築されているため、通常はFully-Connected-based GNNとLSTM-based Decoderを応用した異種エンコーダと異なり、同種エンコーダデコーダを構築する。
均質なアーキテクチャによって、ヘテロジニアスパイプラインのようにさまざまなサブネットワークのトレーニング戦略を指定せずに、モデル全体のトレーニング構成を統一することが可能になります。
TSGの有効性をMS-COCOキャプションベンチマークで検証した。
コードは:https://anonymous.4open.science/r/ACL23_TSG。 We propose to Transform Scene Graphs (TSG) into more descriptive captions. In TSG, we apply multi-head attention (MHA) to design the Graph Neural Network (GNN) for embedding scene graphs. After embedding, different graph embeddings contain diverse specific knowledge for generating the words with different part-of-speech, e.g., object/attribute embedding is good for generating nouns/adjectives. Motivated by this, we design a Mixture-of-Expert (MOE)-based decoder, where each expert is built on MHA, for discriminating the graph embeddings to generate different kinds of words. Since both the encoder and decoder are built based on the MHA, as a result, we construct a homogeneous encoder-decoder unlike the previous heterogeneous ones which usually apply Fully-Connected-based GNN and LSTM-based decoder. The homogeneous architecture enables us to unify the training configuration of the whole model instead of specifying different training strategies for diverse sub-networks as in the heterogeneous pipeline, which releases the training difficulty. Extensive experiments on the MS-COCO captioning benchmark validate the effectiveness of our TSG. The code is in: https://anonymous.4open.science/r/ACL23_TSG. | 翻訳日:2023-05-08 10:30:30 公開日:2023-05-05 |
# 『マトリックスのグリッチ!』:コンテンツ駆動型オーディオ映像偽造検出と位置推定のための大規模ベンチマーク "Glitch in the Matrix!": A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization ( http://arxiv.org/abs/2305.01979v2 ) ライセンス: Link先を確認 | Zhixi Cai, Shreya Ghosh, Abhinav Dhall, Tom Gedeon, Kalin Stefanov, Munawar Hayat | (参考訳) ほとんどのディープフェイク検出方法は、顔属性の空間的および/または時空間的変化を検出することに焦点を当てている。
これは、利用可能なベンチマークデータセットに主に視覚のみの変更が含まれているためである。
しかし、洗練されたディープフェイクには、コンテンツの意味を完全に変えることができるオーディオまたはオーディオ視覚操作の小さな部分が含まれるかもしれない。
このギャップに対処するために,我々は,戦略的コンテンツ駆動型オーディオ,ビジュアルおよびオーディオビジュアル操作からなる,新たなデータセットであるlocalized audio visual deepfake (lav-df)を提案し,ベンチマークを行った。
提案手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は,マルチモーダル操作を効率的に捉える3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
さらに,バックボーンをマルチスケールビジョン変換器に置き換え,コントラスト,フレーム分類,バウンダリマッチング,マルチモーダル境界マッチング損失関数を用いてトレーニングプロセスを導出することにより,ベースライン法をさらに改良する(BA-TFD+)。
この定量分析は,新たに提案したデータセットを含むいくつかのベンチマークデータセットを用いて,時間的偽造位置推定および深度検出タスクにおけるBA-TFD+の優位性を示す。
データセット、モデル、コードはhttps://github.com/controlnet/lav-dfで入手できる。 Most deepfake detection methods focus on detecting spatial and/or spatio-temporal changes in facial attributes. This is because available benchmark datasets contain mostly visual-only modifications. However, a sophisticated deepfake may include small segments of audio or audio-visual manipulations that can completely change the meaning of the content. To addresses this gap, we propose and benchmark a new dataset, Localized Audio Visual DeepFake (LAV-DF), consisting of strategic content-driven audio, visual and audio-visual manipulations. The proposed baseline method, Boundary Aware Temporal Forgery Detection (BA-TFD), is a 3D Convolutional Neural Network-based architecture which efficiently captures multimodal manipulations. We further improve (i.e. BA-TFD+) the baseline method by replacing the backbone with a Multiscale Vision Transformer and guide the training process with contrastive, frame classification, boundary matching and multimodal boundary matching loss functions. The quantitative analysis demonstrates the superiority of BA- TFD+ on temporal forgery localization and deepfake detection tasks using several benchmark datasets including our newly proposed dataset. The dataset, models and code are available at https://github.com/ControlNet/LAV-DF. | 翻訳日:2023-05-08 10:30:09 公開日:2023-05-05 |