このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221203となっている論文です。

PDF登録状況(公開日: 20221203)

TitleAuthorsAbstract論文公表日・翻訳日
# Sachdev-Ye-Kitaevモデルとそれを超える:非フェルミ液体への窓

Sachdev-Ye-Kitaev Models and Beyond: A Window into Non-Fermi Liquids ( http://arxiv.org/abs/2109.05037v6 )

ライセンス: Link先を確認
Debanjan Chowdhury, Antoine Georges, Olivier Parcollet, Subir Sachdev(参考訳) 本稿では、準粒子励起のない圧縮可能な量子多体系のSachdev-Ye-Kitaev(SYK)モデルと、凝縮物質物理学における非フェルミ液体の様々な理論的研究との関係について述べる。 このレビューは、相関電子材料に関する数多くの実験的な観察の文脈に置かれている。 金属中の強い相関は、電子間の局所クーロン反発によって生成される絶縁体へのモット転移にしばしば関係している。 我々は、ランダムスピン交換相互作用の存在下での動的平均場理論を用いて、そのような局所電子相関の多くのモデルの位相図を探索する。 再正規化群法と大きなスピン縮退の展開を用いた数値解析と解析解は、syk物理を示す臨界領域へと繋がる。 研究されたモデルには、1バンドのHubbardモデル、$t$-$J$モデル、ランダムなスピン交換相互作用の存在下での2バンドのKondo-Heisenbergモデルが含まれる。 また,各SYKモデルとランダムな4フェミオン相互作用を多軌道原子とし,SYK-原子を無限格子に配置することによって得られる非フェルミ液体についても検討した。 空間的障害のない低エネルギー準粒子を伴わない鋭いフェルミ曲面の理論は、フェルミ液体とギャップのないボーソンを結合して得られるが、そのような臨界フェルミ曲面とsyk特性の体系的な大きなn$理論は、ランダムなボーソン-フェルミ粒子カップリングを持つ理論のアンサンブル上で平均化することによって得られる。 最後に、SYKモデルと量子重力の関係を概観し、オープンな問題に対する展望を示す。

We present a review of the Sachdev-Ye-Kitaev (SYK) model of compressible quantum many-body systems without quasiparticle excitations, and its connections to various theoretical studies of non-Fermi liquids in condensed matter physics. The review is placed in the context of numerous experimental observations on correlated electron materials. Strong correlations in metals are often associated with their proximity to a Mott transition to an insulator created by the local Coulomb repulsion between the electrons. We explore the phase diagrams of a number of models of such local electronic correlation, employing a dynamical mean field theory in the presence of random spin exchange interactions. Numerical analyses and analytical solutions, using renormalization group methods and expansions in large spin degeneracy, lead to critical regions which display SYK physics. The models studied include the single-band Hubbard model, the $t$-$J$ model and the two-band Kondo-Heisenberg model in the presence of random spin exchange interactions. We also examine non-Fermi liquids obtained by considering each SYK model with random four-fermion interactions to be a multi-orbital atom, with the SYK-atoms arranged in an infinite lattice. We connect to theories of sharp Fermi surfaces without any low-energy quasiparticles in the absence of spatial disorder, obtained by coupling a Fermi liquid to a gapless boson; a systematic large $N$ theory of such a critical Fermi surface, with SYK characteristics, is obtained by averaging over an ensemble of theories with random boson-fermion couplings. Finally, we present an overview of the links between the SYK model and quantum gravity and end with an outlook on open questions.
翻訳日:2023-03-15 11:38:06 公開日:2022-12-03
# 人工知能法におけるリスクマネジメント

Risk management in the Artificial Intelligence Act ( http://arxiv.org/abs/2212.03109v1 )

ライセンス: Link先を確認
Jonas Schuett(参考訳) 提案されているEU AI Actは、主要な管轄区域でAIを規制する最初の包括的な試みである。 この記事は、ai法の主要なリスク管理規定である9条を分析します。 第9条の背景にある規制概念の概要は、その目的と適用範囲を決定し、特定のリスク管理要件を包括的に解釈し、要件の実施方法について概説する。 本条は、リスクの高いシステム提供者が第9条に定める要件を満たすのを支援することを目的としている。 さらに、AI法律の現行の草案の改訂や、AIリスク管理に関する調和した標準の開発も行う。

The proposed EU AI Act is the first comprehensive attempt to regulate AI in a major jurisdiction. This article analyses Article 9, the key risk management provision in the AI Act. It gives an overview of the regulatory concept behind Article 9, determines its purpose and scope of application, offers a comprehensive interpretation of the specific risk management requirements, and outlines ways in which the requirements can be enforced. This article is written with the aim of helping providers of high-risk systems comply with the requirements set out in Article 9. In addition, it can inform revisions of the current draft of the AI Act and efforts to develop harmonised standards on AI risk management.
翻訳日:2023-02-19 12:52:16 公開日:2022-12-03
# ラ・ユニオン・アゴ市におけるコンピュータサイエンス大学におけるコンピュータとインターネットリテラシーコース

Computer and Internet Literacy Course of the College of Computer Science for the Municipality of Agoo, La Union ( http://arxiv.org/abs/2212.01569v1 )

ライセンス: Link先を確認
Clarisa V. Albarillo, Emely A. Munar, Maria Concepcion M. Balcita(参考訳) この研究の主な目的は、ラユニオン州アグオのバランゲイ役人にICTの認識、リテラシー、スキル開発を提供することである。 具体的には、以下の目的を掲げた。 1) コンピュータ利用時の個人情報,教育的背景,コンピュータ単位の可用性及び背景から,回答者のプロファイルを決定すること。 2)cilcの有効性を、提供されたサービス、サービスのタイムライン、及び研修生のコンピュータおよびインターネット知識の改善の観点から決定する。 3) cilcのトレーニングセッションの妥当性のレベルを決定する。 その研究は記述的な設計を使った。 調査票を用いてデータを収集し,周波数数,パーセンテージ,平均といった統計処理を用いて分析した。 研修生のプロフィールでは、ほとんどの研修生が女性(88%)であり、84%が結婚しており、56%が30歳から39歳の年齢層である。 教育的背景としては、多くは高校卒(n=17; 68%)である。 さらに、その大半(84%)がコンピュータのバックグラウンドを持っている。 また、CILCはサービス提供の面で高い効率(4.67)であり、その関連性という点ではより関連性が高い(4.45)ことも示している。

The main objective of the study is to provide ICT awareness, literacy and skills development to the barangay officials of Agoo, La Union. Specifically, it aimed the following objectives: 1) to determine the profile of the respondents in terms of personal information, educational background and availability of computer unit and background in using computer; 2) to determine the effectiveness of the CILC in terms of services delivered, timeliness of the service, and improvement on the computer and internet knowledge of the trainees; and 3) to determine the level of relevance of the training sessions of the CILC. The study used a descriptive design. Data were gathered by using survey questionnaire and were analyzed by using statistical treatments such as frequency count, percentage and mean. As to the profile of the trainees, the study found that most of the trainees are female (88%); 84% are married, and 56% of them are at the age bracket of 30-39 years old. In terms of educational background, many are high school graduate (n= 17; 68%). In addition, most of them (84%) have background in computer. The result also shows that the CILC is at the high level of effectiveness (4.67) in terms of services delivered and is much relevant (4.45) in terms of its relevance.
翻訳日:2023-02-19 12:50:07 公開日:2022-12-03
# 知識グラフにおける関係バイアスの緩和

Mitigating Relational Bias on Knowledge Graphs ( http://arxiv.org/abs/2211.14489v2 )

ライセンス: Link先を確認
Yu-Neng Chuang, Kwei-Herng Lai, Ruixiang Tang, Mengnan Du, Chia-Yuan Chang, Na Zou and Xia Hu(参考訳) 知識グラフデータは実世界のアプリケーションで広く利用されており、知識グラフ表現学習には知識グラフニューラルネットワーク(KGNN)が不可欠である。 KGNNは知識グラフの構造情報を効果的にモデル化するが、これらのフレームワークは特定のグループや個人に対する差別につながる基礎となるデータバイアスを増幅する。 さらに、既存の偏見のアプローチは、主にエンティティの偏見に焦点を当てているため、知識グラフに広く存在しているマルチホップ関係バイアスを排除することは、未解決の問題である。 しかし、知識グラフのバイアスと非線形近接構造を生成する経路のスパース性のため、関係バイアスを排除することは極めて困難である。 この課題に対処するため,知識グラフにおけるエンティティ・ツー・リレーションの近接情報を保持するKGNNフレームワークであるFair-KGNNを提案する。 提案するフレームワークは、KGNNのあらゆるタイプの関係バイアスを軽減するために一般化可能である。 ジェンダー占有とナショナリティ・サリーバイアスを軽減するために,2つの最先端KGNNモデル(RCCNとCompGCN)を組み込んだFair-KGNNの2例を開発した。 3つのベンチマークナレッジグラフデータセットで行った実験は、fair-kgnnが表現学習中の不公平な状況を効果的に軽減し、kgnnモデルの予測性能を維持していることを示している。

Knowledge graph data are prevalent in real-world applications, and knowledge graph neural networks (KGNNs) are essential techniques for knowledge graph representation learning. Although KGNN effectively models the structural information from knowledge graphs, these frameworks amplify the underlying data bias that leads to discrimination towards certain groups or individuals in resulting applications. Additionally, as existing debiasing approaches mainly focus on the entity-wise bias, eliminating the multi-hop relational bias that pervasively exists in knowledge graphs remains an open question. However, it is very challenging to eliminate relational bias due to the sparsity of the paths that generate the bias and the non-linear proximity structure of knowledge graphs. To tackle the challenges, we propose Fair-KGNN, a KGNN framework that simultaneously alleviates multi-hop bias and preserves the proximity information of entity-to-relation in knowledge graphs. The proposed framework is generalizable to mitigate the relational bias for all types of KGNN. We develop two instances of Fair-KGNN incorporating with two state-of-the-art KGNN models, RGCN and CompGCN, to mitigate gender-occupation and nationality-salary bias. The experiments carried out on three benchmark knowledge graph datasets demonstrate that the Fair-KGNN can effectively mitigate unfair situations during representation learning while preserving the predictive performance of KGNN models.
翻訳日:2023-02-19 12:39:59 公開日:2022-12-03
# サイバー戦争に退屈する: ロシアとウクライナのサイバー戦争における市民参加の役割を探る

Getting Bored of Cyberwar: Exploring the Role of Civilian Participation in the Russia-Ukraine Cyber Conflict ( http://arxiv.org/abs/2208.10629v3 )

ライセンス: Link先を確認
Anh V. Vu, Daniel R. Thomas, Ben Collier, Alice Hutchings, Richard Clayton, Ross Anderson(参考訳) サイバー攻撃、ハックティビスト、およびロシアとウクライナのサイバー紛争における民間人参加の役割については、多くの論評がある。 さまざまなデータソースを参考に、サイバー犯罪集団と結びついた民間人やボランティアの「ハックティビスト」が戦うサイバー戦争に関する広く支持されている物語は誤解を招くと論じている。 攻撃の2か月前と4カ月後に,281kのwebデファクトメント攻撃,1.7mのddos攻撃,441の(58k応答を伴う)ボランティアハッキングディスカッショングループによる発表を収集した。 定量的な理解を深めるために,我々はロシアとウクライナで攻撃活動を行っていたwebサイトデファイヤーとインタビューを行った。 以上の結果から,この紛争は低レベルのサイバー犯罪コミュニティの注意を一時的に引いたものの,脱顔とDDoS攻撃の両方の地理的分布に顕著な変化が見られた。 しかし、いわゆるサイバー戦争におけるこれらのプレイヤーの役割は軽微であり、人気のある犯罪学の証言で想像される「ハックティビスト」とは似ていない。 初期の関心の波は攻撃キャンペーンにより多くのデファサーが参加したが、重要なインフラを標的にするのではなく、「.ru」と「.ua」のランダムなウェブサイトに対する大規模な攻撃があった。 一般的な物語によって仮説された種類の顕著な行動の証拠は見つからない。 ウクライナのit軍」のコーディネーショングループの役割は多岐にわたるが、彼らが推進した標的はddos攻撃を受けることが多かったが、ほとんど軽視されることはなかった。 私たちのおもな発見は、数週間後にデファクトやddos攻撃を行うことに対する関心が明らかに失われていることです。 専門家の予測とは対照的に、紛争における民間人やボランティアの「ハックティビスト」の関与は軽微で短命であり、それ以上にエスカレートする可能性は低い。

There has been substantial commentary on the role of cyberattacks, hacktivists, and civilian participation in the Russia-Ukraine cyber conflict. Drawing on a range of data sources, we argue that the widely-held narrative of a cyberwar fought by committed civilians and volunteer 'hacktivists' linked to cybercrime groups is misleading. We collected 281k web defacement attacks, 1.7M reflected DDoS attacks, and 441 announcements (with 58k replies) of a volunteer hacking discussion group for two months before and four months after the invasion. To enrich our quantitative understanding, we conducted interviews with website defacers who were active in attacking sites in Russia and Ukraine during the period. Our findings indicate that the conflict briefly but significantly caught the attention of the low-level cybercrime community, with notable shifts in the geographical distribution of both defacement and DDoS attacks. However, the role of these players in so-called cyberwarfare is minor, and they do not resemble the 'hacktivists' imagined in popular criminological accounts. Initial waves of interest led to more defacers participating in attack campaigns, but rather than targeting critical infrastructure, there were mass attacks against random websites within '.ru' and '.ua'. We can find no evidence of high-profile actions of the kind hypothesised by the prevalent narrative. The much-vaunted role of the 'IT Army of Ukraine' co-ordination group is mixed; the targets they promoted were seldom defaced although they were often subjected to DDoS attacks. Our main finding is that there was a clear loss of interest in carrying out defacements and DDoS attacks after just a few weeks. Contrary to some expert predictions, the involvement of civilian and volunteer `hacktivists' in the conflict appears to have been minor and short-lived; it is unlikely to escalate further.
翻訳日:2023-02-19 10:40:05 公開日:2022-12-03
# 混合離散変数ガウス状態

Mixed discrete variable Gaussian states ( http://arxiv.org/abs/2204.07042v4 )

ライセンス: Link先を確認
Nicolae Cotfas(参考訳) 有限次元ヒルベルト空間を持つ量子系にはいくつかの応用があり、理論的および実験的に研究されている。 これらの系の数学的記述は、通常の無限次元の場合と類似している。 連続体で使われる要素のほとんどについて有限バージョンが存在するが、(我々の知る限り)混合ガウス状態に対応する有限バージョンは存在しない。 私たちの目標はこのギャップを埋めることです。 混合離散ガウス状態について提案する定義は、純粋離散変数ガウス状態において得られる明示的な公式に基づいている。

The quantum systems with finite-dimensional Hilbert space have several applications and are intensively explored theoretically and experimentally. The mathematical description of these systems follows the analogy with the usual infinite-dimensional case. There exist finite versions for most of the elements used in the continuous case, but (to our knowledge) there does not exist a finite version corresponding to the mixed Gaussian states. Our aim is to fill this gap. The definition we propose for the mixed discrete Gaussian states is based on the explicit formulas we have obtained in the case of pure discrete variable Gaussian states.
翻訳日:2023-02-17 05:16:13 公開日:2022-12-03
# 散逸開量子系における作用素成長とクリロフ構成

Operator growth and Krylov construction in dissipative open quantum systems ( http://arxiv.org/abs/2207.05347v3 )

ライセンス: Link先を確認
Aranya Bhattacharya, Pratik Nandy, Pingal Pratyush Nath, and Himanshu Sahu(参考訳) 普遍作用素成長仮説に着想を得て、マルコフ浴場に接続された散逸開量子系におけるクリロフ構成の形式性を拡張する。 この構成は、適切なリンドブラジアンによるリウヴィリアン超作用素の修正に基づいており、ベクトル化ランチョスアルゴリズムとアルノルディの反復に従う。 これは環境による非エルミート効果の取り込みにより、十分に正当化されている。 境界振幅減衰とバルクデファスメントのための横磁場イジングモデル(積分限界とカオス限界)におけるランチョス係数の成長について検討した。 ランツォスアルゴリズムの直接実装は物理的に有意義な結果を与えることができないが、アルノルディ反復は可積分性とカオスの一般的な性質を保ち、また、散逸性環境を含めても、別の係数の集合(アルノルディ係数)を通して非ハーミティティーの符号を保持する。 その結果、アルノルディの反復はオープンシステムを扱う上で有意義でより適切であることが示唆された。

Inspired by the universal operator growth hypothesis, we extend the formalism of Krylov construction in dissipative open quantum systems connected to a Markovian bath. Our construction is based upon the modification of the Liouvillian superoperator by the appropriate Lindbladian, thereby following the vectorized Lanczos algorithm and the Arnoldi iteration. This is well justified due to the incorporation of non-Hermitian effects due to the environment. We study the growth of Lanczos coefficients in the transverse field Ising model (integrable and chaotic limits) for boundary amplitude damping and bulk dephasing. Although the direct implementation of the Lanczos algorithm fails to give physically meaningful results, the Arnoldi iteration retains the generic nature of the integrability and chaos as well as the signature of non-Hermiticity through separate sets of coefficients (Arnoldi coefficients) even after including the dissipative environment. Our results suggest that the Arnoldi iteration is meaningful and more appropriate in dealing with open systems.
翻訳日:2023-02-05 09:46:25 公開日:2022-12-03
# 非局所散逸を伴うスピン系における持続振動の同期

Synchronization of persistent oscillations in spin systems with non-local dissipations ( http://arxiv.org/abs/2207.06860v2 )

ライセンス: Link先を確認
Xingli Li, Yan Li, Jiasen Jin(参考訳) 非局所散逸を伴うスピンの量子小体系における同期現象を探索する。 外部駆動がなければ、システムはリウヴィリアンの純粋に想像上の固有値の出現を伴う長時間ダイナミクスにおいて安定な振動挙動を示すことができる。 さらに、次のアネレスト近傍のスピンの振動は、確率的シュル{\"o}ディンガー方程式内の量子軌道解析によって完全に同期化される。 クラスター平均場近似による無限大格子における長時間振動の出現の可能性についても論じる。

We explore the synchronization phenomenon in the quantum few-body system of spins with the non-local dissipation. Without the external driving, we find that the system can exhibit stable oscillatory behaviors in the long-time dynamics accompanied by the appearance of the purely imaginary eigenvalues of the Liouvillian. Moreover, the oscillations of the next-nearest-neighboring spins are completely synchronized revealed by the quantum trajectory analysis within the stochastic Schr{\"o}dinger equation. The possibility of the appearance of the long-time oscillations in infinite-size lattice by means of cluster mean-field approximation is also discussed.
翻訳日:2023-02-05 01:30:38 公開日:2022-12-03
# 非固有メカニカル発振器間の遠隔絡み合いの非相互強化

Nonreciprocal enhancement of remote entanglement between nonidentical mechanical oscillators ( http://arxiv.org/abs/2208.10001v2 )

ライセンス: Link先を確認
Ya-Feng Jiao, Jing-Xue Liu, Ying Li, Ronghua Yang, Le-Man Kuang, Hui Jing(参考訳) 遠方の巨大機械振動子間の絡み合いは、分散量子情報処理における潜在的な応用のため、量子対応デバイスに特に関心がある。 本稿では,2つの共振器を共振ファイバーを介して間接的に結合するカスケードオプテメカニカル構成において,空間的に分離された2つの機械振動子間の非相互的リモート絡み合わせを実現する方法を提案する。 光学共振器を選択的に回転させることにより、サニャック効果によりこの化合物系の時間反転対称性を破り、よりエキサイティングに、各光学共振器における光-運動相互作用の個別最適化を通じて機械振動器間の間接結合を強化することができることを示す。 この能力により、遠隔機械振動子間の非相互の絡み合い、すなわち、この絡み合いは、ある特定の入力方向からシステムを動かすことでのみ達成できるが、他方では実現できない。 また、2つの周波数ミスマッチメカニカル発振器の場合、生成した非逆エンタングルメントの程度は、単調駆動レーザを用いた静的カスケード系では耐えられない反逆発振器と比較すると直観的に向上することが分かった。 我々の研究は、現在の実験能力の実現可能性の範囲内にあり、遠方の巨大物体間の非古典的相関を探求する新たな機会を提供し、量子情報処理から量子センシングまで、様々な新しい量子技術を促進する。

Entanglement between distant massive mechanical oscillators is of particular interest in quantum-enabled devices due to its potential applications in distributed quantum information processing. Here we propose how to achieve nonreciprocal remote entanglement between two spatially separated mechanical oscillators within a cascaded optomechanical configuration, where the two optomechanical resonators are indirectly coupled through a telecommunication fiber. We show that by selectively spinning the optomechanical resonators, one can break the time reversal symmetry of this compound system via Sagnac effect, and more excitingly, enhance the indirect couplings between the mechanical oscillators via the individual optimizations of light-motion interaction in each optomechanical resonator. This ability allows us to generate and manipulate nonreciprocal entanglement between distant mechanical oscillators, that is, the entanglement could be achieved only through driving the system from one specific input direction but not the other. Moreover, in the case of two frequency-mismatched mechanical oscillators, it is also found that the degree of the generated nonreciprocal entanglement is counterintuitively enhanced in comparison with its reciprocal counterparts, which are otherwise unattainable in static cascaded systems with a single-tone driving laser. Our work, which is well within the feasibility of current experimental capabilities, provides an enticing new opportunity to explore the nonclassical correlations between distant massive objects and facilitates a variety of emerging quantum technologies ranging from quantum information processing to quantum sensing.
翻訳日:2023-01-30 05:08:39 公開日:2022-12-03
# 量子モンテカルロ法による3次元クーロン錯体の研究 : トリオンと二励起子、水素分子とイオン、水素化ヘリウムカチオン、陽電子およびミューオン錯体

Quantum Monte Carlo study of three-dimensional Coulomb complexes: trions and biexcitons; hydrogen molecules and ions; helium hydride cations; and positronic and muonic complexes ( http://arxiv.org/abs/2209.13522v2 )

ライセンス: Link先を確認
F Marsusi, E. Mostaani and N. D. Drummond(参考訳) 3次元エキシトン錯体はバルク半導体の光電子特性に影響を与える。 より一般的には、相互にクーロンポテンシャルによって結合された無相関の粒子分子とイオンは、物理学や化学の様々な分野において基本的な役割を果たす。 統計学的に厳密な拡散量子モンテカルロ計算に基づいて、バルク3d半導体における励起子3体および4体錯体(トリチウムおよびバイエクシトン)と、原子核が電子と等しい基底上で量子粒子として扱われる小さな分子とイオンの範囲を研究した。 バルク半導体または自由空間におけるこれらの錯体の結合エネルギーを予測する補間公式を提案する。 量子モンテカルロシミュレーションにおける対分布関数の評価により、小分子における高調波および無調和振動効果の重要性について検討する。

Three-dimensional (3D) excitonic complexes influence the optoelectronic properties of bulk semiconductors. More generally, correlated few-particle molecules and ions, held together by pairwise Coulomb potentials, play a fundamental role in a variety of fields in physics and chemistry. Based on statistically exact diffusion quantum Monte Carlo calculations, we have studied excitonic three- and four-body complexes (trions and biexcitons) in bulk 3D semiconductors as well as a range of small molecules and ions in which the nuclei are treated as quantum particles on an equal footing with the electrons. We present interpolation formulas that predict the binding energies of these complexes either in bulk semiconductors or in free space. By evaluating pair distribution functions within quantum Monte Carlo simulations, we examine the importance of harmonic and anharmonic vibrational effects in small molecules.
翻訳日:2023-01-26 06:59:05 公開日:2022-12-03
# Frenkel-Kontorova模型のクエンチ力学における位相欠陥の注入と核化

Injection and nucleation of topological defects in the quench dynamics of the Frenkel-Kontorova model ( http://arxiv.org/abs/2210.14904v3 )

ライセンス: Link先を確認
Oksana Chelpanova, Shane P. Kelly, Giovanna Morigi, Ferdinand Schmidt-Kaler and Jamir Marino(参考訳) 一次元のフレンケル・コントロワ鎖におけるC-IC遷移のダイナミクスを探求する。 トラップ電位の周期と粒子間距離の平均の間の不均等比は、ポテンシャルのミニマからずれた位置を占有する構成において原子の再配置を引き起こす。 非平衡力学における遷移鏡は、鎖の端から段階的に入ってくる原子散逸を離散的に注入する機構を持つことを示す。 さらに、系がc-ic遷移の境界近くでクエンチされた場合、量子揺らぎはダイナミックスに深く影響し、結果として、チェーンのコンメンシュレートおよびアンコンメンシュレート配置の重ね合わせによって特徴づけられる。 解離運動は、チェーンに沿って移動するソリトン力学に正確にマッピングすることができ、モデル内の離散注入と位相構造の核化のメカニズムを探索することができる。 また、トラップイオン実験において、これらのトポロジカル欠陥のダイナミクスを実装するための具体的な視点を提供する。

We explore the dynamics of a commensurate-incommensurate (C-IC) transition in a one-dimensional Frenkel-Kontorova chain. An incommensurate ratio between the period of the trapping potential and the average inter-particle distance, triggers a rearrangement of the atoms in a configuration where they occupy positions dislocated from the potential minima. We show that the transition mirrors in non-equilibrium dynamics with a mechanism of discrete injection of atomic discommensurations, which enter from the edges of the chain in a stepwise fashion. Furthermore, when the system is quenched close to the boundary of the C-IC transition, quantum fluctuations can have deep impact on dynamics resulting in a response characterized by the superposition of commensurate and incommensurate configurations of the chain. The motion of discommensurations can be exactly mapped to the dynamics of solitons travelling along the chain, allowing us to explore mechanisms for discrete injection and nucleation of topological structures in our model. We also offer concrete perspectives for implementing the dynamics of these topological defects in trapped ions experiments.
翻訳日:2023-01-21 13:04:51 公開日:2022-12-03
# 質量独立大空間量子重ね合わせに対する重力-磁気力

Gravito-diamagnetic forces for mass independent large spatial quantum superpositions ( http://arxiv.org/abs/2211.08435v2 )

ライセンス: Link先を確認
Run Zhou, Ryan J. Marshman, Sougato Bose, Anupam Mazumdar(参考訳) エンタングルメントによって実験室で重力の量子的性質を試験するには、質量と重ね合わせが 10^{-15}-10^{-14}$ kg と $\delta x \sim 10-100~\mu {\rm m}$ であるような巨大な空間的量子重ね合わせ、すなわち schr\"odinger cat state を作成する必要がある。 このような巨大な空間量子重ね合わせを作ることは、驚くべき挑戦である。 これまで用いられてきた手法は、ウェーブパックの膨張や、例えば単一スピン依存力など、質量と逆スケール(単位時間当たりの力は比例的に増大する必要がある)に依存する。 本稿では, 反磁性反発を伴う重力加速度は, 比較的短時間に発生する大きな空間重ね合わせの過程において, 完全な「解放」および「キャッチ」干渉法を実現することができることを示す。 最初に1~\mu {\rm m}$(例えば、stern-gerlach)という控えめな初期空間重ね合わせ(例えば、stern-gerlachを用いて)を作成した後、地球の重力加速度を用いて0.034$ s の波動パケット間での空間重ね合わせ($1~{\rm \mu m}\rightarrow 965~\mu {\rm m}$)に対して$\sim 10^{3}$が達成できることを示し、ナノ結晶の反磁性反発散乱は物体質量に依存しないことを示した。 実際、我々はStern-Gerlach装置で干渉計を閉じる前に、ウェーブパックをほぼゼロの速度まで減速させることができる。

Testing the quantum nature of gravity in a laboratory via entanglement requires us to create a massive spatial quantum superposition, i.e. the Schr\"odinger cat state, where the mass and the superposition ought to be around $10^{-15}-10^{-14}$ kg and $\Delta x \sim 10-100~\mu {\rm m}$. Creating such a massive spatial quantum superposition pose incredible challenges. The methods employed so far rely either on wavepacket expansion or on a quantum ancilla, e.g. single spin dependent forces, scale inversely with mass (e.g. force per unit time has to be proportionately enhanced). In this paper, we will show that gravitational acceleration along with the diamagnetic repulsion can achieve a complete "release" and "catch" interferometry in the course of which a large spatial superposition in generated in a relatively short time. After first creating a modest initial spatial superposition $1~\mu {\rm m}$ (e.g. using Stern-Gerlach), we will show that we can achieve an $\sim 10^{3}$ fold improvement to the spatial superposition ($1~{\rm \mu m}\rightarrow 965~\mu {\rm m}$) between the wave packets in just $0.034$ s by using the Earth's gravitational acceleration and then the diamagnetic repulsive scattering of the nanocrystal, neither of which depend on the object mass. In fact, we will be able to slow down the wavepackets to almost zero velocities before we can capture them in the Stern-Gerlach apparatus to close the interferometer.
翻訳日:2023-01-19 12:31:03 公開日:2022-12-03
# 絡み合い強化同期差分比較

Entanglement-enhanced Synchronous differential comparison ( http://arxiv.org/abs/2211.12788v2 )

ライセンス: Link先を確認
Deshui Yu, Jingbiao Chen, Shougang Zhang(参考訳) 量子エンタングルメントは、量子投影ノイズとフォトンショットノイズによって課される標準量子限界を超える精度の測定と周波数計測を可能にする。 本稿では,同期微分計測における絡み合った原子を用いて空間シフト検出の感度を高めることを提案する。 絡み合った原子を2つの方法で設計する。 エンタングル原子雲内の2つのピクセル間の同期比較は、標準量子限界よりも1.4の感度向上率をもたらす。 原子数を増加させると感度が向上しない。 対照的に、絡み合った原子から個別に構成される2つの独立画素の同期比較は、例えば、各画素における9.7と10^{3}$の絡み合った原子の係数による強い感度向上を可能にし、平均的な時間を約10^{2}$の係数で減少させる。 大きな原子番号は感度をさらに高めることができる。 我々の研究は, 重力赤方偏移のエンタングルメントによる検出への道のりを, \emph{in situ} イメージング分光法を用いて明らかにしている。

The quantum entanglement enables the precision measurement and frequency metrology beyond the standard quantum limit that is imposed by the quantum projection noise and photon shot noise. Here we propose employing the entangled atoms in the synchronous differential measurement to enhance the sensitivity of the spatial-shift detection. Two ways of engineering the entangled atoms are studied. The synchronous comparison between two pixels within an entangled atomic cloud leads to a sensitivity enhancement factor of 1.4 over the standard quantum limit. Increasing the atom number hardly further improves the sensitivity. In contrast, the synchronous comparison between two independent pixels that are individually composed of entangled atoms allows for a strong sensitivity enhancement by a factor of, for example, 9.7 with $10^{3}$ entangled atoms in each pixel, corresponding to a reduction of the averaging time by a factor of about $10^{2}$. A large atom number may further elevate the sensitivity. Our work paves the way towards the entanglement-enhanced detection of the gravitational redshift by means of the \emph{in situ} imaging spectroscopy.
翻訳日:2023-01-19 01:41:09 公開日:2022-12-03
# 共有マイクロ波駆動による超伝導量子ビットのベースバンド制御

Baseband control of superconducting qubits with shared microwave drives ( http://arxiv.org/abs/2211.06833v2 )

ライセンス: Link先を確認
Peng Zhao, Ruixia Wang, Mengjun Hu, Teng Ma, Peng Xu, Yirong Jin, and Haifeng Yu(参考訳) 量子ビットの正確な制御は、機能量子プロセッサを構築するための中心的な要件である。 現在の超伝導量子プロセッサでは、量子ビットの高忠実度制御は主に独立に校正されたマイクロ波パルスに基づいており、周波数、振幅、位相で異なる可能性がある。 この制御戦略では、特に大規模量子プロセッサへのスケールアップを考えると、必要な物理ソースが困難になる可能性がある。 ここでは、スピンベース量子コンピューティングの提案に触発され、超伝導量子ビットのベースバンドフラックス制御の可能性について理論的に検討する。 我々の戦略では、クビットはシステムアイドル期間中にドライブから切り離され、クビットリードアウトとベースバンドフラックス制御された2ビットゲートは、常時オンの駆動から最小限の影響で実現できる。 対照的に、作業期間中に駆動と共振してキュービットを調整し、単一キュービットゲートを実現することができる。 したがって、ベースバンドフラックスパルスと常時オンの共有マイクロ波ドライブだけで普遍的な量子ビット制御を実現することができる。 この戦略を、可変キュービットが可変カプラを介して結合されるキュービットアーキテクチャに適用し、高忠実度キュービット制御が可能であることを示す。 さらに、ベースバンド制御戦略は電子制御や低温システムにおける冷却電力などの物理的資源をマイクロ波制御よりも少なくする。 さらに重要なことは、ベースバンドフラックス制御の柔軟性は超伝導量子ビットの非均一性問題に対処するために利用することができ、多重化とクロスバー技術の実現を可能にし、制御ラインが少なく多数の量子ビットを制御することができる。 したがって、共有マイクロ波ドライブによるベースバンド制御は、大規模な超伝導量子プロセッサの構築に役立つと期待する。

Accurate control of qubits is the central requirement for building functional quantum processors. For the current superconducting quantum processor, high-fidelity control of qubits is mainly based on independently calibrated microwave pulses, which could differ from each other in frequencies, amplitudes, and phases. With this control strategy, the needed physical source could be challenging, especially when scaling up to large-scale quantum processors is considered. Inspired by Kane's proposal for spin-based quantum computing, here, we explore theoretically the possibility of baseband flux control of superconducting qubits with only shared and always-on microwave drives. In our strategy, qubits are by default far detuned from the drive during system idle periods, qubit readout and baseband flux-controlled two-qubit gates can thus be realized with minimal impacts from the always-on drive. By contrast, during working periods, qubits are tuned on resonance with the drive and single-qubit gates can be realized. Therefore, universal qubit control can be achieved with only baseband flux pulses and always-on shared microwave drives. We apply this strategy to the qubit architecture where tunable qubits are coupled via a tunable coupler, and the analysis shows that high-fidelity qubit control is possible. Besides, the baseband control strategy needs fewer physical resources, such as control electronics and cooling power in cryogenic systems, than that of microwave control. More importantly, the flexibility of baseband flux control could be employed for addressing the non-uniformity issue of superconducting qubits, potentially allowing the realization of multiplexing and cross-bar technologies and thus controlling large numbers of qubits with fewer control lines. We thus expect that baseband control with shared microwave drives can help build large-scale superconducting quantum processors.
翻訳日:2023-01-18 07:35:07 公開日:2022-12-03
# 非エルミート電気回路におけるサイズ依存境界効果の観察

Observation of size-dependent boundary effects in non-Hermitian electric circuits ( http://arxiv.org/abs/2211.07225v2 )

ライセンス: Link先を確認
Luhong Su, Cui-Xian Guo, Yongliang Wang, Li Li, Xinhui Ruan, Yanjing Du, Shu Chen, and Dongning Zheng(参考訳) 非エルミート皮膚効果(NHSE)を持つ非エルミート系は、与えられた境界条件と格子サイズに非常に敏感であり、サイズに依存しない非エルミート皮膚効果をもたらす。 本稿では,回路プラットフォームに基づく一方向ホッピングモデルにおいて,異なる境界条件と異なる格子サイズを持つNHSEの実験的検討を行った。 回路アドミタンススペクトルと対応する固有状態は境界の存在に非常に敏感である。 一方, 実験結果から, 格子の大きさと境界条件がNHSEの強度に与える影響が示された。 したがって、我々の電気回路は、非エルミート系におけるサイズ依存境界効果を観測するための優れたプラットフォームを提供する。

The non-Hermitian systems with the non-Hermitian skin effect (NHSE) are very sensitive to the imposed boundary conditions and lattice size, which leads to size-dependent non-Hermitian skin effects. Here, we report the experimental observation of NHSE with different boundary conditions and different lattice size in a unidirectional hopping model based on a circuit platform. The circuit admittance spectra and corresponding eigenstates are very sensitive to the presence of the boundary. Meanwhile, our experimental results show how the lattice size and boundary terms together affect the strength of NHSE. Therefore, our electric circuit provides a good platform to observe size-dependent boundary effects in non-Hermitian systems.
翻訳日:2023-01-18 07:09:29 公開日:2022-12-03
# 非同軸光学における超対称ヘルムホルツ方程式

Supersymmetric Helmholtz equation in nonparaxial optics ( http://arxiv.org/abs/2212.01608v1 )

ライセンス: Link先を確認
Bijan Bagchi, Rahul Ghosh, Sauvik Sen(参考訳) 我々は、プランク長さ $l_p$ と次元のない定数 $\alpha$ で解釈された修正の不確実性原理に対処する。 我々は、スカラー・ヘルムホルツ方程式から導かれる一貫したスキームを設定し、その上に下界を与えることで$\alpha$を推定できる。 その後、ヘルムホルツ方程式をsch\"{r}odinger形式にマッピングできる$\mathcal{pt}$光学構造の問題に目を向ける。 Sch\"{r}odinger 方程式を超ポテンシャルの観点から解釈し、超対称性の文脈で$n$のパートナーを決定する。 屈折率プロファイルの新たな解析解を図示的に提示する。

We address a modified uncertainty principle interpreted in terms of the Planck length $l_P$ and a dimensionless constant $\alpha$. We set up a consistent scheme derived from the scalar Helmholtz equation that allows estimating $\alpha$ by providing a lower bound on it. Subsequently we turn to the issue of a $\mathcal{PT}$ optical structure where the Helmholtz equation could be mapped to the Sch\"{r}odinger form with the refractive index distribution $n$ admitting variation in the longitudinal direction only. Interpreting the Sch\"{r}odinger equation in terms of a superpotential we determine partners for $n$ in the supersymmetry context. New analytical solutions for the refractive index profiles are presented which are graphically illustrated.
翻訳日:2023-01-09 23:06:51 公開日:2022-12-03
# NOMAシステムのためのコヒーレントイジングマシンを用いた高速資源配分アルゴリズム

High-Speed Resource Allocation Algorithm Using a Coherent Ising Machine for NOMA Systems ( http://arxiv.org/abs/2212.01578v1 )

ライセンス: Link先を確認
Teppei Otsuka, Aohan Li, Hiroki Takesue, Kensuke Inaba, Kazuyuki Aihara, Mikio Hasegawa(参考訳) 非直交多重アクセス(NOMA)技術は次世代無線通信において高いデータレートを達成する上で重要である。 NOMA技術の有効性を十分に活用する上で重要な課題は、リソース割り当て(RA)、例えばチャネルと電力の最適化である。 しかしながら、このra最適化問題はnpハードであり、計算複雑性の低い解のよい近似を得ることは容易ではない。 この問題を解決するために,NOMAシステムにおけるチャネル割り当てのためのコヒーレントIsing Machine(CIM)に基づく最適化手法を提案する。 CIMは、相互接続されたフォトニックニューラルネットワークに基づく最適化アルゴリズムを演算することにより、組合せ最適化問題の近似解を高速(ミリ秒)で提供できるIsingシステムである。 CIMのシミュレーションモデルを用いて提案手法の性能評価を行った。 提案手法の性能をシミュレートアニーリング,従来手法のペアリングスキーム,ディープq学習に基づくスキーム,徹底的な探索スキームと比較した。 シミュレーションの結果,提案手法は速度と最適解の点で優れていることがわかった。

Non-orthogonal multiple access (NOMA) technique is important for achieving a high data rate in next-generation wireless communications. A key challenge to fully utilizing the effectiveness of the NOMA technique is the optimization of the resource allocation (RA), e.g., channel and power. However, this RA optimization problem is NP-hard, and obtaining a good approximation of a solution with a low computational complexity algorithm is not easy. To overcome this problem, we propose the coherent Ising machine (CIM) based optimization method for channel allocation in NOMA systems. The CIM is an Ising system that can deliver fair approximate solutions to combinatorial optimization problems at high speed (millisecond order) by operating optimization algorithms based on mutually connected photonic neural networks. The performance of our proposed method was evaluated using a simulation model of the CIM. We compared the performance of our proposed method to simulated annealing, a conventional-NOMA pairing scheme, deep Q learning based scheme, and an exhaustive search scheme. Simulation results indicate that our proposed method is superior in terms of speed and the attained optimal solutions.
翻訳日:2023-01-09 22:48:38 公開日:2022-12-03
# 電力ネットワーク最適化 : 量子的アプローチ

Power network optimization: a quantum approach ( http://arxiv.org/abs/2212.01625v1 )

ライセンス: Link先を確認
Giuseppe Colucci, Stan van der Linde, Frank Phillipson(参考訳) 電力余剰の最適化は、電力網のコストを削減し、利用可能な電力をネットワーク全体で効率的に利用するための重要な要素である。 本稿では,量子アニールを用いたネットワークの最適化について述べる。 まず、ネットワーク分割におけるQUBO問題を定義し、純粋に量子およびハイブリッドアーキテクチャの実装をテストする。 次に、d-wave hybrid cqmとbqmソルバと、azure quantum cloudで利用可能な古典的なソルバで問題を解決します。 最後に, 量子解の目的関数の値が, 様々な問題サイズをまたいだ古典的アプローチよりも常に低いことが判明し, 解の質の観点からは, ハイブリッドアプローチが古典的手法を圧倒することを示した。

Optimization of electricity surplus is a crucial element for transmission power networks to reduce costs and efficiently use the available electricity across the network. In this paper we showed how to optimize such a network with quantum annealing. First, we define the QUBO problem for the partitioning of the network, and test the implementation on purely quantum and hybrid architectures. We then solve the problem on the D-Wave hybrid CQM and BQM solvers, as well as on classical solvers available on Azure Quantum cloud. Finally, we show that the hybrid approaches overperform the classical methods in terms of quality of the solution, as the value of the objective function of the quantum solutions is found to be always lower than with the classical approaches across a set of different problem size.
翻訳日:2023-01-09 22:48:11 公開日:2022-12-03
# 量子場理論における量子スカー

Quantum Scars in Quantum Field Theory ( http://arxiv.org/abs/2212.01637v1 )

ライセンス: Link先を確認
Jordan Cotler, Annie Y. Wei(参考訳) 我々は、量子場の量子スカーの理論を発展させる。 ヘラーとボゴモニーの定式化を小体量子力学から量子場へ一般化することにより、場の方程式の不安定な周期的古典解がエネルギー固有関数のバンドに正確にインプリントされることが分かる。 これは、ある種のエネルギースケールにおける熱化の分解を、半古典学によって特徴づけられる方法で示している。 明示的な例として、複素スカラー場理論における時間周期非位相ソリトンを考える。 我々は、Q-cloudsと呼ばれる不安定なQ-ballの変種が量子障害を引き起こすことを発見した。 私たちの研究の技術的貢献には、場の理論における周期軌道のモジュライ空間を特徴づける手法が含まれており、これは量子スカー公式の定式化に必須である。 さらに、Rydberg原子配列における量子多体傷の潜在的な関連について論じる。

We develop the theory of quantum scars for quantum fields. By generalizing the formalisms of Heller and Bogomolny from few-body quantum mechanics to quantum fields, we find that unstable periodic classical solutions of the field equations imprint themselves in a precise manner on bands of energy eigenfunctions. This indicates a breakdown of thermalization at certain energy scales, in a manner that can be characterized via semiclassics. As an explicit example, we consider time-periodic non-topological solitons in complex scalar field theories. We find that an unstable variant of Q-balls, called Q-clouds, induce quantum scars. Some technical contributions of our work include methods for characterizing moduli spaces of periodic orbits in field theories, which are essential for formulating our quantum scar formula. We further discuss potential connections with quantum many-body scars in Rydberg atom arrays.
翻訳日:2023-01-09 22:47:59 公開日:2022-12-03
# テンソルのサブランクの隙間

A Gap in the Subrank of Tensors ( http://arxiv.org/abs/2212.01668v1 )

ライセンス: Link先を確認
Matthias Christandl and Fulvio Gesmundo and Jeroen Zuiddam(参考訳) テンソルのサブランク(英: subrank of tensor)とは、テンソルがどれだけ「対角化」できるかの尺度である。 このパラメータは、代数的複雑性理論における高速行列乗法アルゴリズムの研究のためにストラッセンによって導入され、多くの中央テンソルパラメータ(スライスランク、パーティションランク、分析ランク、幾何ランク、G安定ランクなど)と、組合せ論、計算機科学、量子情報理論の問題に密接に関係している。 strassen (j. reine angew. math., 1988) は、テンソル積の下で大きなパワーを取るとき、サブランクにギャップがあることを証明した。 本稿では、任意の順序のテンソルに対するこの定数を正確に決定する。 さらに、次数 3 のテンソルに対して、成長の可能な速度に第二のギャップがあることを証明できる。 我々の結果はコスタとダライの最近の業績(J. Comb. Theory, Ser. A, 2021)を強化し、スライス階の類似のギャップを証明した。 この部分ランク上の定理は、スライスランクだけでなく任意の ``normalized monotone''' に対してもそのようなギャップを暗示することでより広い応用が可能となる。 主な結果を証明するために、テンソルが軌道閉包に非常に構造化されたテンソル(wテンソル)を持つときに特徴付ける。 我々の方法には、独立した関心を持つかもしれない草虫類の退化が含まれる。

The subrank of tensors is a measure of how much a tensor can be ''diagonalized''. This parameter was introduced by Strassen to study fast matrix multiplication algorithms in algebraic complexity theory and is closely related to many central tensor parameters (e.g. slice rank, partition rank, analytic rank, geometric rank, G-stable rank) and problems in combinatorics, computer science and quantum information theory. Strassen (J. Reine Angew. Math., 1988) proved that there is a gap in the subrank when taking large powers under the tensor product: either the subrank of all powers is at most one, or it grows as a power of a constant strictly larger than one. In this paper, we precisely determine this constant for tensors of any order. Additionally, for tensors of order three, we prove that there is a second gap in the possible rates of growth. Our results strengthen the recent work of Costa and Dalai (J. Comb. Theory, Ser. A, 2021), who proved a similar gap for the slice rank. Our theorem on the subrank has wider applications by implying such gaps not only for the slice rank, but for any ``normalized monotone''. In order to prove the main result, we characterize when a tensor has a very structured tensor (the W-tensor) in its orbit closure. Our methods include degenerations in Grassmanians, which may be of independent interest.
翻訳日:2023-01-09 22:47:45 公開日:2022-12-03
# 非自己随伴ハミルトニアンに対するハイゼンベルク力学:対称性と導出

Heisenberg dynamics for non self-adjoint Hamiltonians: symmetries and derivations ( http://arxiv.org/abs/2212.01671v1 )

ライセンス: Link先を確認
Fabio Bagarello(参考訳) 近年の文献では、非自己随伴ハミルトニアンである$h\neq h^\dagger$ の役割はしばしばゲイン損失系と関連していると考えられている。 これらの系の動力学は、多くの場合、シュル=オディンガー方程式(schr\"odinger equation)によって与えられる。 本稿では, 量子力学のハイゼンベルク的図像に注目し, 自己随伴ハミルトニアンによって駆動される系の標準ハイゼンベルク図に関して, (few) 類似性と (多くの) 差異を強調した。 特に、対称性、*-微分、運動の積分の役割について議論する。

In some recent literature the role of non self-adjoint Hamiltonians, $H\neq H^\dagger$, is often considered in connection with gain-loss systems. The dynamics for these systems is, most of the times, given in terms of a Schr\"odinger equation. In this paper we rather focus on the Heisenberg-like picture of quantum mechanics, stressing the (few) similarities and the (many) differences with respected to the standard Heisenberg picture for systems driven by self-adjoint Hamiltonians. In particular, the role of the symmetries, *-derivations and integrals of motion is discussed.
翻訳日:2023-01-09 22:47:17 公開日:2022-12-03
# rydbergマクロダイマー:ミクロメートルスケールの2原子分子

Rydberg Macrodimers: Diatomic molecules on the micrometer scale ( http://arxiv.org/abs/2212.01673v1 )

ライセンス: Link先を確認
Simon Hollerith, Johannes Zeiher(参考訳) 単一原子レベルで分子結合を制御することは、量子化学の聖杯の一つである。 rydbergマクロダイマー(高励起rydberg原子間の結合状態)は、この方向の新しい視点を提供する。 Rydberg状態の強い長距離相互作用によって形成される結合ポテンシャルにより、Rydbergマクロ二量体はマイクロメーター状態において結合長を特徴付け、従来の分子よりも桁違いに長い。 量子ガス顕微鏡における単一原子制御を用いて、これらのエキゾチックな状態の特異な性質は、磁場に対する応答や光結合における光の偏光など、前例のない制御で研究することができる。 マクロダイマーの分光学的研究で達成された高い精度は、rydberg相互作用をベンチマークするための理想的なテストベッドであり、量子コンピューティングや情報プロトコルに直接関係している。 このレビューは歴史的概要を提供し、Rydbergマクロダイマーの分野における最近の知見を要約する。 さらに、マクロダイマー間の相互作用に関する新たなデータを示し、分子レベルでのrydbergブロックに似た現象をもたらし、超長距離rydberg分子の多体系の研究への道を開いた。

Controlling molecular binding at the level of single atoms is one of the holy grails of quantum chemistry. Rydberg macrodimers -- bound states between highly excited Rydberg atoms -- provide a novel perspective in this direction. Resulting from binding potentials formed by the strong, long-range interactions of Rydberg states, Rydberg macrodimers feature bond lengths in the micrometer regime, exceeding those of conventional molecules by orders of magnitude. Using single-atom control in quantum gas microscopes, the unique properties of these exotic states can be studied with unprecedented control, including the response to magnetic fields or the polarization of light in their photoassociation. The high accuracy achieved in spectroscopic studies of macrodimers makes them an ideal testbed to benchmark Rydberg interactions, with direct relevance to quantum computing and information protocols where these are employed. This review provides a historic overview and summarizes the recent findings in the field of Rydberg macrodimers. Furthermore, it presents new data on interactions between macrodimers, leading to a phenomenon analogous to Rydberg blockade at the level of molecules, opening the path towards studying many-body systems of ultralong-range Rydberg molecules.
翻訳日:2023-01-09 22:47:04 公開日:2022-12-03
# 効率的な絡み合い分布のための量子オーバーレイネットワーク

A Quantum Overlay Network for Efficient Entanglement Distribution ( http://arxiv.org/abs/2212.01694v1 )

ライセンス: Link先を確認
Shahrooz Pouryousef, Nitish K. Panigrahy, Don Towsley(参考訳) 長距離における量子絡み合いの分散は、グローバルスケールの量子インターネットの実現に不可欠である。 以前の作業や提案のほとんどは、ネットワークリソースのアンダーユーティライズに繋がる、オンデマンドな分散を前提としている。 本稿では,量子ネットワークにおける効率的な絡み合い分布のための量子オーバーレイネットワーク(QON)を提案する。 エンド・ツー・エンドのユーザ絡み合いの要求が低ければ、qonはネットワークの特定のオーバーレイストレージノードに最大絡み合ったベルペア(eprペア)を生成して保存することができる。 その後、ピーク要求の間、リクエストは、ネットワークからの直接パス上またはストレージノードを使ったパス上でエンタングルメントスワップを実行することで処理できる。 集中最適化フレームワークを用いたQONにおけるリンク絡みとストレージリソース割り当ての問題を解決する。 広範囲なシミュレーション実験により,様々な環境下でのネットワークトポロジ上でのQONアーキテクチャの性能評価を行った。 以上の結果から,QONは従来の非オーバーレイ提案と比較して,会議の急激な増加や需要の変化に対して40%の値打ちを達成できた。 qonsはまた、非オーバーレイアプローチに対する平均絡み合い要求サービス遅延の観点からも大幅に改善している。

Distributing quantum entanglements over long distances is essential for the realization of a global scale quantum Internet. Most of the prior work and proposals assume an on-demand distribution of entanglements which may result in significant network resource under-utilization. In this work, we introduce Quantum Overlay Networks (QONs) for efficient entanglement distribution in quantum networks. When the demand to create end-to-end user entanglements is low, QONs can generate and store maximally entangled Bell pairs (EPR pairs) at specific overlay storage nodes of the network. Later, during peak demands, requests can be served by performing entanglement swaps either over a direct path from the network or over a path using the storage nodes. We solve the link entanglement and storage resource allocation problem in such a QON using a centralized optimization framework. We evaluate the performance of our proposed QON architecture over a wide number of network topologies under various settings using extensive simulation experiments. Our results demonstrate that QONs fare well by a factor of 40% with respect to meeting surge and changing demands compared to traditional non-overlay proposals. QONs also show significant improvement in terms of average entanglement request service delay over non-overlay approaches.
翻訳日:2023-01-09 22:46:41 公開日:2022-12-03
# 場の量子揺らぎと応力テンソル

Quantum Fluctuations of Fields and Stress Tensors ( http://arxiv.org/abs/2212.01520v1 )

ライセンス: Link先を確認
L. H. Ford(参考訳) 本稿では、電場と応力テンソル作用素の量子揺らぎとその物理効果に関する最近の研究を概観する。 電場の真空ゆらぎの確率分布はガウス的であるが、エネルギー密度のような二次作用素の場合、より緩やかに減少し、大きなゆらぎの確率が増大する。 この効果は測定方法の詳細に非常に敏感である。 これらの大きな変動によるいくつかの物理効果について論じる。

This is a review of recent work on quantum fluctuations of the electric field and of stress tensor operators and their physical effects. The probability distribution for vacuum fluctuations of the electric field is Gaussian, but that for quadratic operators, such as the energy density, can have a more slowly decreasing tail, leading to an enhanced probability of large fluctuations. This effect is very sensitive to the details of how the measurement is performed. Some possible physical effects of these large fluctuations will be discussed.
翻訳日:2023-01-09 22:37:53 公開日:2022-12-03
# 離散確率分布の特性推定のための統一量子アルゴリズムフレームワーク

A Unified Quantum Algorithm Framework for Estimating Properties of Discrete Probability Distributions ( http://arxiv.org/abs/2212.01571v1 )

ライセンス: Link先を確認
Tongyang Li, Xinzhao Wang, Shengyu Zhang(参考訳) 統計特性の推定は統計学と計算機科学の基本である。 本稿では,r\'enyiエントロピーを具体例として,離散確率分布の特性を推定するための統一量子アルゴリズムフレームワークを提案する。 In particular, given a quantum oracle that prepares an $n$-dimensional quantum state $\sum_{i=1}^{n}\sqrt{p_{i}}|i\rangle$, for $\alpha>1$ and $0<\alpha<1$, our algorithm framework estimates $\alpha$-R\'enyi entropy $H_{\alpha}(p)$ to within additive error $\epsilon$ with probability at least $2/3$ using $\widetilde{\mathcal{O}}(n^{1-\frac{1}{2\alpha}}/\epsilon + \sqrt{n}/\epsilon^{1+\frac{1}{2\alpha}})$ and $\widetilde{\mathcal{O}}(n^{\frac{1}{2\alpha}}/\epsilon^{1+\frac{1}{2\alpha}})$ queries, respectively. これにより$\epsilon$の最もよく知られた依存が向上し、$n$と$/\epsilon$のジョイント依存が向上する。 技術的には、量子特異値変換、量子アニーリング、可変時間振幅推定を組み合わせた量子アルゴリズムである。 アルゴリズムフレームワークは一般的な関心事であり、幅広い応用があると考えている。

Estimating statistical properties is fundamental in statistics and computer science. In this paper, we propose a unified quantum algorithm framework for estimating properties of discrete probability distributions, with estimating R\'enyi entropies as specific examples. In particular, given a quantum oracle that prepares an $n$-dimensional quantum state $\sum_{i=1}^{n}\sqrt{p_{i}}|i\rangle$, for $\alpha>1$ and $0<\alpha<1$, our algorithm framework estimates $\alpha$-R\'enyi entropy $H_{\alpha}(p)$ to within additive error $\epsilon$ with probability at least $2/3$ using $\widetilde{\mathcal{O}}(n^{1-\frac{1}{2\alpha}}/\epsilon + \sqrt{n}/\epsilon^{1+\frac{1}{2\alpha}})$ and $\widetilde{\mathcal{O}}(n^{\frac{1}{2\alpha}}/\epsilon^{1+\frac{1}{2\alpha}})$ queries, respectively. This improves the best known dependence in $\epsilon$ as well as the joint dependence between $n$ and $1/\epsilon$. Technically, our quantum algorithms combine quantum singular value transformation, quantum annealing, and variable-time amplitude estimation. We believe that our algorithm framework is of general interest and has wide applications.
翻訳日:2023-01-09 22:37:45 公開日:2022-12-03
# 初期熱状態からの宇宙論的複雑性

Cosmological Complexity from initial thermal state ( http://arxiv.org/abs/2212.01512v1 )

ライセンス: Link先を確認
Jincheng Wang, Hongwei Yu and Puxun Wu(参考訳) 宇宙温度は非常に高いため、宇宙論的スカラー摂動はインフレーション開始時の熱分布を満たすべきである。 本稿では,フビニ・スタディ法を用いて,宇宙論的複雑性である$\mathcal{c}_{fs}$ の進化に対するパラメータ$\kappa_{0}$ を特徴とする熱寄与の効果について検討する。 熱効果が考慮されると、まず宇宙はデ・シッター (ds) 相の地平線から発するスカラー摂動のモードの後に宇宙の膨張と共に「分解」し、$\mathcal{c}_{fs}$ は少なくとも$\pi/4$である。 もし$\mathcal{C}_{FS}$ が dS 時代に最小値に達することができ、これは小さな$\kappa_0$ または大きな$\kappa_0$ に対して大きな e-folding number を必要とする場合、それは増大するために跳ね返り、ユニバースが dS 1 から放射が支配する (RD) 位相に入ると、$\mathcal{C}_{FS}$ が減少し、再び最小値を超え、モードが地平線に再入射するまで増加する。 十分に大きな$\kappa_0$, $\mathcal{C}_{FS}$が減少するが、dS期には最小値に達しず、dS相からRD相への遷移後に増加し始める。 RD時代にモードが地平線に戻ると、宇宙の複雑さはおよそ$\kappa_{0}$で振動する。 これらの特徴は、初期ゼロ温度の場合とは異なり、dS相の間に宇宙学的複雑さが増加し、モードが地平線に戻るまでRD年代が減少する。 以上の結果から,熱効果は宇宙複雑性の進化的挙動を質的に変化させることが示唆された。

The cosmological scalar perturbations should satisfy the thermal distribution at the beginning of inflation since the cosmic temperature is presumably very high. In this paper, we investigate, by the Fubini-study method, the effect of this thermal contribution, which is characterized by a parameter $\kappa_{0}$, on the evolution of the cosmological complexity $\mathcal{C}_{FS}$ . We find that when the thermal effect is considered, the Universe would ``decomplex" firstly with the cosmic expansion after the mode of the scalar perturbations exiting the horizon in the de Sitter (dS) phase and $\mathcal{C}_{FS}$ has a minimum about $\pi/4$. If $\mathcal{C}_{FS}$ can reach its minimum during the dS era, which requires a small $\kappa_0$ or a large e-folding number for a large $\kappa_0$, it will bounce back to increase, and after the Universe enters the radiation dominated (RD) phase from the dS one, $\mathcal{C}_{FS}$ will decrease, pass its minimum again, and then increase till the mode reenters the horizon. For the case of a large enough $\kappa_0$, $\mathcal{C}_{FS}$ decreases but does not reach its minimum during the dS era, and it begins to increase after the transition from the dS phase to the RD one. When the mode reenters the horizon during the RD era, the cosmological complexity will oscillate around about $\kappa_{0}$. These features are different from that of the initial zero-temperature case, i.e., the cosmological complexity increases during the dS phase and decreases in the RD era till the mode reenters the horizon. Our results therefore suggest that the thermal effect changes qualitatively the evolutionary behavior of the cosmological complexity.
翻訳日:2023-01-09 20:12:02 公開日:2022-12-03
# シンプレクティック対称性を有するマイクロ波ネットワーク用ウィグナー反応行列の吸収存在下での分布

Distributions of the Wigner reaction matrix for microwave networks with symplectic symmetry in the presence of absorption ( http://arxiv.org/abs/2212.01566v1 )

ライセンス: Link先を確認
Michal Lawniczak, Afshin Akhshani, Omer Farooq, Malgorzata Bialous, Szymon Bauch, Barbara Dietz, and Leszek Sirko(参考訳) 本研究では, 反射係数の分布と, シンプレクティック対称性と吸収の大きさの異なるオープンマイクロ波ネットワークを用いたウィグナー反応(K)行列の虚部および実部について実験的に検討した。 その結果,ランダム行列理論(RMT)の枠組みにおける単一チャネル散乱の場合の解析的予測と比較した。 さらに,開量子カオス系の散乱(s)およびk行列に対するハイデルベルク法とs行列要素の2点相関関数に基づくモンテカルロシミュレーションを行った。 解析結果とモンテカルロシミュレーションは吸収の大きさに依存する。 これを検証するために,マイクロ波ネットワークを用いた各種吸収強度実験を行った。 我々は、対応する閉量子グラフのスペクトル特性で観測されたRTT予測からの偏差が、非ユニバーサル短周期軌道の存在によるものであり、対応する開量子グラフに付随する反射係数とKおよびS行列の分布に何の影響も与えていないことを示す。

We report on experimental studies of the distribution of the reflection coefficients, and the imaginary and real parts of Wigner's reaction (K) matrix employing open microwave networks with symplectic symmetry and varying size of absorption. The results are compared to analytical predictions derived for the single-channel scattering case within the framework of random matrix theory (RMT). Furthermore, we performed Monte Carlo simulations based on the Heidelberg approach for the scattering (S) and K matrix of open quantum-chaotic systems and the two-point correlation function of the S-matrix elements. The analytical results and the Monte Carlo simulations depend on the size of absorption. To verify them, we performed experiments with microwave networks for various absorption strengths. We show that deviations from RMT predictions observed in the spectral properties of the corresponding closed quantum graph, and attributed to the presence of nonuniversal short periodic orbits, does not have any visible effects on the distributions of the reflection coefficients and the K and S matrices associated with the corresponding open quantum graph.
翻訳日:2023-01-09 20:11:21 公開日:2022-12-03
# 超低減衰エピタキシャルY3Fe5O12薄膜を用いた2ケルビン強オンチップマイクロ波光子-マグノン結合

Strong On-Chip Microwave Photon-Magnon Coupling Using Ultra-low Damping Epitaxial Y3Fe5O12 Films at 2 Kelvin ( http://arxiv.org/abs/2212.01708v1 )

ライセンス: Link先を確認
Side Guo, Daniel Russell, Joseph Lanier, Haotian Da, P. Chris Hammel, and Fengyuan Yang(参考訳) Y3Fe5O12は、非常に低い減衰のため、おそらくマグノン量子情報科学(QIS)にとって最高の磁性材料である。 希土類元素を含むY3Sc2Ga3O12基板上に成長したエピタキシャルY3Fe5O12薄膜の2Kで超低減衰を報告した。 これらの極低減衰YIG膜を用いて,超伝導Nb共振器におけるYIG薄膜とマイクロ波光子との強い結合を初めて実証した。 この結果は、超伝導マイクロ波共振器、YIG膜マグノンコンディット、超伝導量子ビットをオンチップQISデバイスに統合するスケーラブルなハイブリッド量子システムへの道を開く。

Y3Fe5O12 is arguably the best magnetic material for magnonic quantum information science (QIS) because of its extremely low damping. We report ultralow damping at 2 K in epitaxial Y3Fe5O12 thin films grown on a diamagnetic Y3Sc2Ga3O12 substrate that contains no rare-earth elements. Using these ultralow damping YIG films, we demonstrate for the first time strong coupling between magnons in patterned YIG thin films and microwave photons in a superconducting Nb resonator. This result paves the road towards scalable hybrid quantum systems that integrate superconducting microwave resonators, YIG film magnon conduits, and superconducting qubits into on-chip QIS devices.
翻訳日:2023-01-09 20:11:02 公開日:2022-12-03
# 確率電磁力学と非相対論的量子電磁力学の類似性について

On the analogy between stochastic electrodynamics and nonrelativistic quantum electrodynamics ( http://arxiv.org/abs/2212.03077v1 )

ライセンス: Link先を確認
Emilio Santos(参考訳) 私はワイル・ウィグナー表現で非相対論的量子電磁力学を公開する。 したがって、プランク定数の1次近似が、ランダムな放射充填空間に浸漬された荷電粒子の古典的電磁力学である確率電磁力学(SED)と形式的に類似していることを証明する。 このアナロジーは、sedが座標とモーメントで二次的な粒子ハミルトンの量子論と一致する理由を解明するが、そうでなければ失敗する。

I expose nonrelativistic quantum electrodynamics in the Weyl-Wigner representation. Hence I prove that an approximation to first order in Planck constant has formal analogy with stochastic electrodynamics (SED), that is classical electrodynamics of charged particles immersed in a random radiation filling space. The analogy elucidates why SED agrees with quantum theory for particle Hamiltonians quadratic in coordinates and momenta, but fails otherwise.
翻訳日:2023-01-09 19:52:10 公開日:2022-12-03
# フィードバック制御による計測に基づく量子熱機械

Measurement-based quantum thermal machines with feedback control ( http://arxiv.org/abs/2212.01502v1 )

ライセンス: Link先を確認
Bibek Bhandari, Robert Czupryniak, Paolo Andrea Erdman and Andrew N. Jordan(参考訳) 量子計測とフィードバックを用いた結合量子ビット型熱機械について検討する。 マシンの2つの異なるバージョンを考えます 1) 結合量子ビット系が分離可能な単一共有浴に接続された量子マックスウェルのデーモン 2)結合キュービット方式が熱冷浴と対向する測定補助冷凍機。 量子マックスウェルの悪魔の場合、離散的および連続的な測定の両方について議論する。 1つのqubitベースのデバイスから出力される電力は、それを2番目のqubitに結合することで改善できる。 さらに,両キュービットの同時測定により,単一キュービットのみを並列に操作する2つの設定に比べて高い純熱抽出が可能となることを見出した。 冷凍機の場合、連続測定とユニタリ演算を用いて結合量子ビット型冷凍機を駆動する。 スワップ操作で作動する冷蔵庫の冷却能力は,適切な測定を行うことで向上できることがわかった。

We investigate coupled-qubit-based thermal machines powered by quantum measurements and feedback. We consider two different versions of the machine: 1) a quantum Maxwell's demon where the coupled-qubit system is connected to a detachable single shared bath, and 2) a measurement-assisted refrigerator where the coupled-qubit system is in contant with a hot and cold bath. In the quantum Maxwell's demon case we discuss both discrete and continuous measurements. We find that the power output from a single qubit-based device can be improved by coupling it to the second qubit. We further find that the simultaneous measurement of both qubits can produce higher net heat extraction compared to two setups operated in parallel where only single-qubit measurements are performed. In the refrigerator case, we use continuous measurement and unitary operations to power the coupled-qubit-based refrigerator. We find that the cooling power of a refrigerator operated with swap operations can be enhanced by performing suitable measurements.
翻訳日:2023-01-09 19:36:08 公開日:2022-12-03
# ギャップを心に留めて - スーパーグローバーによる量子スピードアップの実現

Mind the gap: Achieving a super-Grover quantum speedup by jumping to the end ( http://arxiv.org/abs/2212.01513v1 )

ライセンス: Link先を確認
Alexander M. Dalzell, Nicola Pancotti, Earl T. Campbell, Fernando G. S. L. Brand\~ao(参考訳) 我々は、二分最適化問題(qubo)、スピングラスのイジング(p$-spinモデル)、k$ローカル制約満足度問題(k$-csp)など、いくつかの二分最適化問題に対して厳密な実行時保証を持つ量子アルゴリズムを提案する。 どちらかに示すのは (a)このアルゴリズムは、グロバーのアルゴリズムに対して、n$非依存定数$c$、$2^{cn}$の利点に対して、時間$o^*(2^{(0.5-c)n})$の最適解を見つける。 (b) 古典的ランダムな推定が$(1-\eta)$の近似を任意に小さな$\eta$を選択するための準指数時間における最適コスト値に生成するような、十分に多くの低コストの解が存在する。 さらに、$k$-spinモデルからのランダムインスタンスのごく一部と、完全に満足できる、あるいは少しフラストレーションのある$k$-csp公式のステートメントを示す。 (a)がそうである。 このアルゴリズムとその解析はHastingsのショートパスアルゴリズム [$\textit{Quantum}$ $\textbf{2}$ (2018) 78] に大きく影響を受けている。

We present a quantum algorithm that has rigorous runtime guarantees for several families of binary optimization problems, including Quadratic Unconstrained Binary Optimization (QUBO), Ising spin glasses ($p$-spin model), and $k$-local constraint satisfaction problems ($k$-CSP). We show that either (a) the algorithm finds the optimal solution in time $O^*(2^{(0.5-c)n})$ for an $n$-independent constant $c$, a $2^{cn}$ advantage over Grover's algorithm; or (b) there are sufficiently many low-cost solutions such that classical random guessing produces a $(1-\eta)$ approximation to the optimal cost value in sub-exponential time for arbitrarily small choice of $\eta$. Additionally, we show that for a large fraction of random instances from the $k$-spin model and for any fully satisfiable or slightly frustrated $k$-CSP formula, statement (a) is the case. The algorithm and its analysis is largely inspired by Hastings' short-path algorithm [$\textit{Quantum}$ $\textbf{2}$ (2018) 78].
翻訳日:2023-01-09 19:35:56 公開日:2022-12-03
# 臨床におけるレーダを用いた高忠実度バイタルサイン推定のためのeulerian phase-based motion magnification

Eulerian Phase-based Motion Magnification for High-Fidelity Vital Sign Estimation with Radar in Clinical Settings ( http://arxiv.org/abs/2212.04923v1 )

ライセンス: Link先を確認
Md Farhan Tasnim Oshim, Toral Surti, Stephanie Carreiro, Deepak Ganesan, Suren Jayasuriya, Tauhidur Rahman(参考訳) バイタルサインモニタリングに必要なノイズの多い環境下で発生する微妙な動きを効率よく正確に検出することは困難であるが、倍率で大幅に改善することができる。 空間波長レベルの異なる位相を増幅して運動を拡大し,基本周波数推定のための1次元運動信号を抽出する複雑なガバーフィルタに基づく分解法を開発した。 位相ベースの複雑なGaborフィルタ出力は処理され、呼吸と心拍をより正確に予測する機械学習モデルをトレーニングするために使用される。 提案手法は, 睡眠実験室や救急所などの臨床環境において, 従来の時間的FFT法よりも, 各種の姿勢において優れた性能を示すことを示す。

Efficient and accurate detection of subtle motion generated from small objects in noisy environments, as needed for vital sign monitoring, is challenging, but can be substantially improved with magnification. We developed a complex Gabor filter-based decomposition method to amplify phases at different spatial wavelength levels to magnify motion and extract 1D motion signals for fundamental frequency estimation. The phase-based complex Gabor filter outputs are processed and then used to train machine learning models that predict respiration and heart rate with greater accuracy. We show that our proposed technique performs better than the conventional temporal FFT-based method in clinical settings, such as sleep laboratories and emergency departments, as well for a variety of human postures.
翻訳日:2022-12-18 18:58:34 公開日:2022-12-03
# マルチラベルプロジェクションによる高速オンラインハッシュ

Fast Online Hashing with Multi-Label Projection ( http://arxiv.org/abs/2212.03112v1 )

ライセンス: Link先を確認
Wenzhe Jia, Yuan Cao, Junwei Liu, Jie Gui(参考訳) ハッシュ化はその時間とストレージの優位性から、大規模に近似する近接探索問題を解くために広く研究されている。 近年,新しいストリームデータに適応して動的検索を実現するため,ハッシュ関数を更新できるオンラインハッシュ手法が数多く登場している。 しかし、既存のオンラインハッシュ方式では、クエリが到着するとデータベース全体を最新のハッシュ関数で更新する必要があるため、ストリームデータの継続的な増加とともに検索効率が低下する。 一方、これらの手法は、特にマルチラベルの場合、例間の監督関係を無視している。 本稿では,データベースの小さな部分のバイナリコードのみを更新する新しいFast Online Hashing(FOH)手法を提案する。 具体的には、まず、各中央点の最も近い近傍が記録されるクエリプールを構築します。 新しいクエリが到着すると、対応する潜在的隣人のバイナリコードのみが更新される。 さらに,マルチラベルデータ間の類似性をさらに保存するために,マルチラベル監視情報を考慮し,マルチラベル投影損失を考慮に入れた類似度行列を作成する。 2つの共通ベンチマークによる実験結果から、提案されたFOHは、競合する検索精度を持つ最先端のベースラインよりも6.28秒少ないクエリ時間で劇的な優位性を達成できることが示された。

Hashing has been widely researched to solve the large-scale approximate nearest neighbor search problem owing to its time and storage superiority. In recent years, a number of online hashing methods have emerged, which can update the hash functions to adapt to the new stream data and realize dynamic retrieval. However, existing online hashing methods are required to update the whole database with the latest hash functions when a query arrives, which leads to low retrieval efficiency with the continuous increase of the stream data. On the other hand, these methods ignore the supervision relationship among the examples, especially in the multi-label case. In this paper, we propose a novel Fast Online Hashing (FOH) method which only updates the binary codes of a small part of the database. To be specific, we first build a query pool in which the nearest neighbors of each central point are recorded. When a new query arrives, only the binary codes of the corresponding potential neighbors are updated. In addition, we create a similarity matrix which takes the multi-label supervision information into account and bring in the multi-label projection loss to further preserve the similarity among the multi-label data. The experimental results on two common benchmarks show that the proposed FOH can achieve dramatic superiority on query time up to 6.28 seconds less than state-of-the-art baselines with competitive retrieval accuracy.
翻訳日:2022-12-07 18:10:38 公開日:2022-12-03
# 脳セグメンテーションにおけるロバストな消失を伴う半教師付き学習

Semi-supervised Learning with Robust Loss in Brain Segmentation ( http://arxiv.org/abs/2212.03082v1 )

ライセンス: Link先を確認
Hedong Zhang, Anand A. Joshi(参考訳) 本研究では,脳MRI画像のセグメント化が可能な深層学習モデルの訓練に半教師付き学習法を用いた。 半教師付きモデルはラベル付きデータが少なく、性能はラベル付きデータを持つ教師付きモデルと競合する。 このフレームワークはMRI画像のラベル付けコストを削減できる。 また,半教師付き学習で発生する不正確なラベルのノイズ効果を低減するために,ロバスト損失を導入した。

In this work, we used a semi-supervised learning method to train deep learning model that can segment the brain MRI images. The semi-supervised model uses less labeled data, and the performance is competitive with the supervised model with full labeled data. This framework could reduce the cost of labeling MRI images. We also introduced robust loss to reduce the noise effects of inaccurate labels generated in semi-supervised learning.
翻訳日:2022-12-07 17:43:28 公開日:2022-12-03
# 最長共通部分列の解法サービスにおける最長共通部分文字列:新しい超ヒューリスティック

Longest Common Substring in Longest Common Subsequence's Solution Service: A Novel Hyper-Heuristic ( http://arxiv.org/abs/2212.03178v1 )

ライセンス: Link先を確認
Alireza Abdi, Masih Hajsaeedi, Mohsen Hooshmand(参考訳) 最も長い共通部分列(Longest Common Subsequence、LCS)は、すべての文字列に共通であり、最も長い2つの性質を持つ文字列の集合の列を見つける問題である。 LCSは計算生物学やテキスト編集など多くの分野に応用されている。 一般的な最長共通部分列のnp硬さのため、様々な文字列集合に対して最良解を与えるために多くのヒューリスティックアルゴリズムと解法が提案されている。 いずれも,すべてのタイプのセットに対して最高のパフォーマンスを持っていません。 さらに、与えられた文字列のセットの型を指定するメソッドは存在しない。 さらに、利用可能なハイパーヒューリスティックは、現実世界のアプリケーションでこの問題を解決するのに十分な効率的で高速ではない。 本稿では,その類似性に基づいて文字列の集合を分類する新しい基準を用いて,最も長い共通部分列問題の解法を提案する。 これを実現するために、与えられた文字列の集合の型を識別するための一般的な確率的枠組みを提供する。 次に、集合の型を2つに分割するフレームワークに基づいて、セットの類似度ディコトマイザ(s^2d$)アルゴリズムを導入する。 このアルゴリズムは,本論文で初めて紹介され,現在の lcs ソルバを超越する新しい方法が提案されている。 次に、S^2D$と集合の内部特性を利用して、一組のヒューリスティックの中で最良のマッチングヒューリスティックを選択する新しい超ヒューリスティックを提案する。 ベンチマークデータセットの結果を最高のヒューリスティックとハイパーヒューリスティックと比較する。 その結果,提案するハイパーヒューリスティックは,ソリューションの品質と実行時間因子の両方において高い性能を示した。

The Longest Common Subsequence (LCS) is the problem of finding a subsequence among a set of strings that has two properties of being common to all and is the longest. The LCS has applications in computational biology and text editing, among many others. Due to the NP-hardness of the general longest common subsequence, numerous heuristic algorithms and solvers have been proposed to give the best possible solution for different sets of strings. None of them has the best performance for all types of sets. In addition, there is no method to specify the type of a given set of strings. Besides that, the available hyper-heuristic is not efficient and fast enough to solve this problem in real-world applications. This paper proposes a novel hyper-heuristic to solve the longest common subsequence problem using a novel criterion to classify a set of strings based on their similarity. To do this, we offer a general stochastic framework to identify the type of a given set of strings. Following that, we introduce the set similarity dichotomizer ($S^2D$) algorithm based on the framework that divides the type of sets into two. This algorithm is introduced for the first time in this paper and opens a new way to go beyond the current LCS solvers. Then, we present a novel hyper-heuristic that exploits the $S^2D$ and one of the internal properties of the set to choose the best matching heuristic among a set of heuristics. We compare the results on benchmark datasets with the best heuristics and hyper-heuristics. The results show a higher performance of our proposed hyper-heuristic in both quality of solutions and run time factors.
翻訳日:2022-12-07 16:41:40 公開日:2022-12-03
# 本質多様体の平均等級

Average degree of the essential variety ( http://arxiv.org/abs/2212.01596v1 )

ライセンス: Link先を確認
Paul Breiding and Samantha Fairchild and Pierpaola Santarsiero and Elima Shehu(参考訳) 本質多様体は、実射影空間 $\mathbb{R}\mathrm{P}^{8}$ における次元 5$ の代数的部分多様体であり、2つのキャリブレーションされたピンホールカメラの相対的なポーズを符号化する。 コンピュータビジョンにおける5$ポイントのアルゴリズムは、必須多様体の交叉における実点を5$の余次元の線型空間で計算する。 本質多様体の次数は10$なので、この交叉は一般に10の複素点からなる。 線形空間がランダムであるとき、実交叉点の期待数を計算する。 線形空間に対する2つの確率分布に注目した。 最初の分布は、直交群 $\mathrm{o}(9)$ の作用の下で不変であり、線型空間上の作用は $\mathbb{r}\mathrm{p}^{8}$ である。 この場合、期待される実交点数は4ドルである。 第2の分布はコンピュータビジョンから動機づけられ、ランダムに画像平面 $\mathbb{r}\mathrm{p}^2\times \mathbb{r}\mathrm{p}^2$ で5点対応を選択することで定義される。 モンテカルロの計算によれば、高い確率で期待値は$(3.95 - 0.05,\ 3.95 + 0.05)$である。

The essential variety is an algebraic subvariety of dimension $5$ in real projective space $\mathbb{R}\mathrm{P}^{8}$ which encodes the relative pose of two calibrated pinhole cameras. The $5$-point algorithm in computer vision computes the real points in the intersection of the essential variety with a linear space of codimension $5$. The degree of the essential variety is $10$, so this intersection consists of 10 complex points in general. We compute the expected number of real intersection points when the linear space is random. We focus on two probability distributions for linear spaces. The first distribution is invariant under the action of the orthogonal group $\mathrm{O}(9)$ acting on linear spaces in $\mathbb{R}\mathrm{P}^{8}$. In this case, the expected number of real intersection points is equal to $4$. The second distribution is motivated from computer vision and is defined by choosing 5 point correspondences in the image planes $\mathbb{R}\mathrm{P}^2\times \mathbb{R}\mathrm{P}^2$ uniformly at random. A Monte Carlo computation suggests that with high probability the expected value lies in the interval $(3.95 - 0.05,\ 3.95 + 0.05)$.
翻訳日:2022-12-06 19:31:07 公開日:2022-12-03
# 散逸性サドルフローダイナミクスによる拘束強化学習

Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics ( http://arxiv.org/abs/2212.01505v1 )

ライセンス: Link先を確認
Tianqi Zheng, Pengcheng You, and Enrique Mallada(参考訳) 制約強化学習(C-RL)において、エージェントは、二次累積報酬制約の最小要件を満たしつつ、期待累積報酬を最大化するポリシーを環境から学ぼうとする。 サンプルベースの原始双対法に根ざしたいくつかのアルゴリズムが、ポリシー空間でこの問題を解決するために最近提案されている。 しかし、このような手法は、アルゴリズムの歴史に依存する混合出力段階の後にのみ軌道が最適ポリシーに接続される確率勾配勾配上昇アルゴリズムに基づいている。 その結果,行動政策と最適政策との間には不一致が生じている。 本研究では,制約付きRLに対して,これらの制約を伴わない新しいアルゴリズムを提案する。 正規化サドルフロー力学の最近の成果を利用して、軌道が最適ポリシーにほぼ確実に収束する確率勾配降下勾配アルゴリズムを開発した。

In constrained reinforcement learning (C-RL), an agent seeks to learn from the environment a policy that maximizes the expected cumulative reward while satisfying minimum requirements in secondary cumulative reward constraints. Several algorithms rooted in sampled-based primal-dual methods have been recently proposed to solve this problem in policy space. However, such methods are based on stochastic gradient descent ascent algorithms whose trajectories are connected to the optimal policy only after a mixing output stage that depends on the algorithm's history. As a result, there is a mismatch between the behavioral policy and the optimal one. In this work, we propose a novel algorithm for constrained RL that does not suffer from these limitations. Leveraging recent results on regularized saddle-flow dynamics, we develop a novel stochastic gradient descent-ascent algorithm whose trajectories converge to the optimal policy almost surely.
翻訳日:2022-12-06 19:29:28 公開日:2022-12-03
# 特性関数を用いたreluニューラルネットワークの確率的検証

Probabilistic Verification of ReLU Neural Networks via Characteristic Functions ( http://arxiv.org/abs/2212.01544v1 )

ライセンス: Link先を確認
Joshua Pilipovsky, Vignesh Sivaramakrishnan, Meeko M. K. Oishi, Panagiotis Tsiotras(参考訳) 所望のパフォーマンス仕様を達成するためにニューラルネットワークの入出力関係を検証することは、多くのエンジニアリングアプリケーションでニューラルネットワークが多用されているため、難しいが重要な問題である。 我々は、周波数領域における確率理論のアイデアを用いて、ReLUニューラルネットワークの確率論的検証保証を提供する。 具体的には、(深い)フィードフォワードニューラルネットワークを、初期状態の分布を形作る有限地平線上の離散力学系として解釈し、特性関数を用いて入力データのネットワークを介した分布を伝播する。 逆フーリエ変換を用いて出力集合の対応する累積分布関数を求め,入力集合から任意のランダム点が与えられた場合,ネットワークが期待通りに動作しているかどうかを確認する。 提案手法では, 適切に定義されたモーメントやモーメント生成関数を持たなくてもよい。 提案手法を2つの例で示し,その性能を関連する手法と比較した。

Verifying the input-output relationships of a neural network so as to achieve some desired performance specification is a difficult, yet important, problem due to the growing ubiquity of neural nets in many engineering applications. We use ideas from probability theory in the frequency domain to provide probabilistic verification guarantees for ReLU neural networks. Specifically, we interpret a (deep) feedforward neural network as a discrete dynamical system over a finite horizon that shapes distributions of initial states, and use characteristic functions to propagate the distribution of the input data through the network. Using the inverse Fourier transform, we obtain the corresponding cumulative distribution function of the output set, which can be used to check if the network is performing as expected given any random point from the input set. The proposed approach does not require distributions to have well-defined moments or moment generating functions. We demonstrate our proposed approach on two examples, and compare its performance to related approaches.
翻訳日:2022-12-06 19:29:15 公開日:2022-12-03
# DACOM:マルチエージェント強化学習のための遅延認識学習

DACOM: Learning Delay-Aware Communication for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2212.01619v1 )

ライセンス: Link先を確認
Tingting Yuan, Hwei-Ming Chung, Jie Yuan, Xiaoming Fu(参考訳) 協調型マルチエージェント強化学習(marl)では,コミュニケーションがマルチエージェント協調と全体的なパフォーマンスを改善することが期待されている。 しかし、既存の通信方式は通信のオーバーヘッド(例えば通信遅延)を無視しているため、こうした改善は一般的に制限されている。 本稿では,コミュニケーション遅延の無視がコラボレーション,特に自動運転などの遅延に敏感なタスクに悪影響を及ぼすことを実証する。 この影響を軽減するために,遅延対応マルチエージェント通信モデル(DACOM)を設計し,遅延に適応する。 具体的には、DACOMがTimeNetというコンポーネントを導入し、遅延に関連する不確実性に対処できるように、他のエージェントからメッセージを受け取るエージェントの待ち時間を調整する。 実験の結果,DACOMは通信の利点とメッセージ待ちコストとのトレードオフを良好にすることで,他のメカニズムよりも非無視的な性能向上を実現していることがわかった。

Communication is supposed to improve multi-agent collaboration and overall performance in cooperative Multi-agent reinforcement learning (MARL). However, such improvements are prevalently limited in practice since most existing communication schemes ignore communication overheads (e.g., communication delays). In this paper, we demonstrate that ignoring communication delays has detrimental effects on collaborations, especially in delay-sensitive tasks such as autonomous driving. To mitigate this impact, we design a delay-aware multi-agent communication model (DACOM) to adapt communication to delays. Specifically, DACOM introduces a component, TimeNet, that is responsible for adjusting the waiting time of an agent to receive messages from other agents such that the uncertainty associated with delay can be addressed. Our experiments reveal that DACOM has a non-negligible performance improvement over other mechanisms by making a better trade-off between the benefits of communication and the costs of waiting for messages.
翻訳日:2022-12-06 19:28:57 公開日:2022-12-03
# オイラー特性曲線とプロファイル: ビッグデータ問題に対する安定な形状不変量

Euler Characteristic Curves and Profiles: a stable shape invariant for big data problems ( http://arxiv.org/abs/2212.01666v1 )

ライセンス: Link先を確認
Pawe{\l} D{\l}otko and Davide Gurnari(参考訳) トポロジカルデータ解析のツールは、考慮されたデータの形状をカプセル化した安定した要約を提供する。 永続ホモロジー(Persistent homology)は、最も標準的でよく研究されているデータ要約であり、その計算は配布が困難であり、マルチフィルタに一般化することは困難であり、大規模データセットでは計算が禁じられている。 本稿では,1つのパラメータフィルタに対するオイラー特性曲線と,マルチパラメータフィルタに対するオイラー特性曲線の概念について検討する。 1次元においてより弱い不変量である一方、オイラー特性に基づくアプローチは永続ホモロジーのハンディキャップを持たないことを示し、分散方法でそれらを計算する効率的なアルゴリズム、マルチフィルタリングへの一般化、ビッグデータ問題に対する実用的な適用性を示す。 さらに、オイラー曲線とプロファイルはある種の安定性を享受し、データ分析においてロバストなツールとなることを示す。 最後に、実用性を示すために、複数のユースケースを検討する。

Tools of Topological Data Analysis provide stable summaries encapsulating the shape of the considered data. Persistent homology, the most standard and well studied data summary, suffers a number of limitations; its computations are hard to distribute, it is hard to generalize to multifiltrations and is computationally prohibitive for big data-sets. In this paper we study the concept of Euler Characteristics Curves, for one parameter filtrations and Euler Characteristic Profiles, for multi-parameter filtrations. While being a weaker invariant in one dimension, we show that Euler Characteristic based approaches do not possess some handicaps of persistent homology; we show efficient algorithms to compute them in a distributed way, their generalization to multifiltrations and practical applicability for big data problems. In addition we show that the Euler Curves and Profiles enjoys certain type of stability which makes them robust tool in data analysis. Lastly, to show their practical applicability, multiple use-cases are considered.
翻訳日:2022-12-06 19:28:43 公開日:2022-12-03
# コントラスト的自己監督的表現によるドメイン固有の知覚基準:自然・医用画像への応用

A Domain-specific Perceptual Metric via Contrastive Self-supervised Representation: Applications on Natural and Medical Images ( http://arxiv.org/abs/2212.01577v1 )

ライセンス: Link先を確認
Hongwei Bran Li, Chinmay Prabhakar, Suprosanna Shit, Johannes Paetzold, Tamaz Amiranashvili, Jianguo Zhang, Daniel Rueckert, Juan Eugenio Iglesias, Benedikt Wiestler and Bjoern Menze(参考訳) 2つの画像の知覚的類似性を定量化することは、低レベルのコンピュータビジョンにおける長年の問題である。 自然画像領域は一般に教師付き学習(例えば事前訓練されたVGG)に依存して潜在表現を得る。 しかし、ドメインシフトのため、自然画像領域からの事前訓練されたモデルは、医用画像のような他の画像領域には適用されない可能性がある。 特に、医療画像では、知覚的類似性の評価は、様々な医療分野で広く訓練された専門家によってのみ行われる。 したがって、医療画像はタスク固有の客観的な知覚手段を欠いている。 知覚的類似性を測定する効果的な表現を得るためには、教師付き学習に頼る必要があるか、あるいは自己監督が十分か? 最近のコントラスト型自己監督表現(CSR)が救世主となるかどうかを理解するため、自然画像から始まり、CSRを多くの現代建築やタスクのメトリクスとして体系的に評価し、それらを既存の手法と比較する。 自然画像領域では、CSRはいくつかの知覚的テストにおいて指標として監督されたものと同等の振る舞いを示し、医療領域では、CSRは専門家の評価に関する知覚的類似性をより正確に測定する。 また、csrは2つの画像合成タスクにおいて画像品質を著しく改善できることを実証する。 最後に,認識性はCSRの創発的特性であり,アノテーションを必要とせずに多くの画像領域に適応できることを示す。

Quantifying the perceptual similarity of two images is a long-standing problem in low-level computer vision. The natural image domain commonly relies on supervised learning, e.g., a pre-trained VGG, to obtain a latent representation. However, due to domain shift, pre-trained models from the natural image domain might not apply to other image domains, such as medical imaging. Notably, in medical imaging, evaluating the perceptual similarity is exclusively performed by specialists trained extensively in diverse medical fields. Thus, medical imaging remains devoid of task-specific, objective perceptual measures. This work answers the question: Is it necessary to rely on supervised learning to obtain an effective representation that could measure perceptual similarity, or is self-supervision sufficient? To understand whether recent contrastive self-supervised representation (CSR) may come to the rescue, we start with natural images and systematically evaluate CSR as a metric across numerous contemporary architectures and tasks and compare them with existing methods. We find that in the natural image domain, CSR behaves on par with the supervised one on several perceptual tests as a metric, and in the medical domain, CSR better quantifies perceptual similarity concerning the experts' ratings. We also demonstrate that CSR can significantly improve image quality in two image synthesis tasks. Finally, our extensive results suggest that perceptuality is an emergent property of CSR, which can be adapted to many image domains without requiring annotations.
翻訳日:2022-12-06 19:19:41 公開日:2022-12-03
# 属性デコードによる解釈可能なノード表現

Interpretable Node Representation with Attribute Decoding ( http://arxiv.org/abs/2212.01682v1 )

ライセンス: Link先を確認
Xiaohui Chen, Xi Chen, Liping Liu(参考訳) 変分グラフオートエンコーダ(VGAE)は、グラフデータからノード表現を教師なし学習するための強力なモデルである。 本研究では,vgaeにおけるノード属性のモデル化を体系的に分析し,ノード表現学習において属性復号が重要であることを示す。 さらに,新たな学習モデルであるNOde Representation with Attribute Decoding (NORAD)を提案する。 このモデルは、解釈可能なアプローチでノード表現をエンコードする。 ノード表現は、グラフ内のコミュニティ構造と、コミュニティとノード属性の関係をキャプチャする。 さらに,孤立音符のノード表現を洗練し,それらのノード表現の品質を向上させるための整流手順を提案する。 実験結果は,グラフデータを解釈可能な手法で学習する場合,提案モデルの利点を示す。

Variational Graph Autoencoders (VGAEs) are powerful models for unsupervised learning of node representations from graph data. In this work, we systematically analyze modeling node attributes in VGAEs and show that attribute decoding is important for node representation learning. We further propose a new learning model, interpretable NOde Representation with Attribute Decoding (NORAD). The model encodes node representations in an interpretable approach: node representations capture community structures in the graph and the relationship between communities and node attributes. We further propose a rectifying procedure to refine node representations of isolated notes, improving the quality of these nodes' representations. Our empirical results demonstrate the advantage of the proposed model when learning graph data in an interpretable approach.
翻訳日:2022-12-06 19:05:22 公開日:2022-12-03
# LDL: ラベルベースのメンバシップ推論攻撃の防御

LDL: A Defense for Label-Based Membership Inference Attacks ( http://arxiv.org/abs/2212.01688v1 )

ライセンス: Link先を確認
Arezoo Rajabi, Dinuka Sahabandu, Luyao Niu, Bhaskar Ramasubramanian, Radha Poovendran(参考訳) 医療や金融といったアプリケーションでディープニューラルネットワーク(DNN)モデルをトレーニングするために使用されるデータは、一般的に機密情報を含んでいる。 DNNモデルは過度に適合する可能性がある。 過度に適合したモデルは、メンバーシップ推論攻撃(mias)のようなクエリベースの攻撃に影響を受けやすいことが示されている。 MIAは、サンプルが分類器(メンバー)を訓練するために使用されるデータセットに属するかどうか(非メンバー)を決定することを目的としている。 近年,新たなラベルベースのmias (lab mias) が提案され,サンプルのラベルを予測した知識のみを敵に持つことが求められた。 再訓練できないDNNモデル上でLAB MIAを実行する敵に対する防御を開発することは、未解決の問題である。 LDL は LAB MIA に対する軽度防御である。 LDLは、サンプルの(ノイズの多い)変種に対してモデル決定が変更されないように、クエリされたサンプルの周りに高次元の球体を構築することで機能する。 このラベル不変性の領域はあいまいさを生じさせ、クエリの敵がサンプルがメンバーか非メンバーかを正しく判断できないようにする。 LDL の実施時に LAB MIA を実行する相手の成功率を解析的に特徴付け,実験結果と整合性を示す。 トレーニングデータのサイズによって,CIFAR-10,CIFAR-100,GTSRB,Face,Purchase,Location,Texasの7つのデータセットでLCLを評価した。 これらのデータセットはすべてSOTA LAB MIAによって使用されている。 実験の結果, LDL は各事例において LAB MIA を実行する相手の成功率を低下させることが示された。 DNN モデルの再訓練を必要とする LAB MIA に対する LDL の防御効果を実証的に比較し,DNN モデルの再訓練を必要とせずに LDL が好適に動作することを示す。

The data used to train deep neural network (DNN) models in applications such as healthcare and finance typically contain sensitive information. A DNN model may suffer from overfitting. Overfitted models have been shown to be susceptible to query-based attacks such as membership inference attacks (MIAs). MIAs aim to determine whether a sample belongs to the dataset used to train a classifier (members) or not (nonmembers). Recently, a new class of label based MIAs (LAB MIAs) was proposed, where an adversary was only required to have knowledge of predicted labels of samples. Developing a defense against an adversary carrying out a LAB MIA on DNN models that cannot be retrained remains an open problem. We present LDL, a light weight defense against LAB MIAs. LDL works by constructing a high-dimensional sphere around queried samples such that the model decision is unchanged for (noisy) variants of the sample within the sphere. This sphere of label-invariance creates ambiguity and prevents a querying adversary from correctly determining whether a sample is a member or a nonmember. We analytically characterize the success rate of an adversary carrying out a LAB MIA when LDL is deployed, and show that the formulation is consistent with experimental observations. We evaluate LDL on seven datasets -- CIFAR-10, CIFAR-100, GTSRB, Face, Purchase, Location, and Texas -- with varying sizes of training data. All of these datasets have been used by SOTA LAB MIAs. Our experiments demonstrate that LDL reduces the success rate of an adversary carrying out a LAB MIA in each case. We empirically compare LDL with defenses against LAB MIAs that require retraining of DNN models, and show that LDL performs favorably despite not needing to retrain the DNNs.
翻訳日:2022-12-06 19:05:12 公開日:2022-12-03
# iEnhancer-ELM:エンハンサー言語モデルに基づくマルチスケール文脈情報抽出によるエンハンサー識別の改善

iEnhancer-ELM: Improve Enhancer Identification by Extracting Multi-scale Contextual Information based on Enhancer Language Models ( http://arxiv.org/abs/2212.01495v1 )

ライセンス: Link先を確認
Jiahao Li, Zhourun Wu, Wenhao Lin, Jiawei Luo, Jun Zhang, Qingcai Chen and Junjie Chen(参考訳) モチベーション:エンハンサーは、幅広い生物学的機能を制御し、標的遺伝子の転写を促進する重要なシス調節要素である。 エンハンサーを効率的に識別するために多くの最先端計算手法が提案されているが、グローバルな文脈的特徴の学習は依然として計算手法の課題の1つである。 生物配列と自然言語文の類似性について,タンパク質機能・構造予測などの様々な計算生物学タスクにおける複雑な文脈的特徴の抽出にbertを用いた新しい言語手法が適用されている。 エンハンサー識別の研究を高速化するため,BERTに基づくエンハンサー言語モデルの構築が急務である。 結果: 本論文では,k-merヌクレオチドからなる自然言語文としてエンハンサー列を扱うエンハンサー言語モデルに基づくマルチスケールエンハンサー識別法(iEnhancer-ELM)を提案する。 iEnhancer-ELMは、生のエンハンサー配列から位置を持つマルチスケールkマーのコンテキスト情報を抽出することができる。 マルチスケールでの k-mers の相補的情報から, エンハンサー同定を改善するために4つのiEnhancer-ELMモデルを組み込んだ。 ベンチマークの結果,我々のモデルは最先端手法よりも優れていた。 解釈可能な注意機構により、40パーセント(12/30)が広く使われているモチーフツール(STREME)と一般的なデータセット(JASPAR)によって検証され、このモデルがエンハンサーの生物学的メカニズムを明らかにする可能性を実証する。 ソースコードはhttps://github.com/chen-bioinfo/ienhancer-elm contact: junjiechen@hit.edu.cn and junjie.chen.hit@gmail.comで入手できる。

Motivation: Enhancers are important cis-regulatory elements that regulate a wide range of biological functions and enhance the transcription of target genes. Although many state-of-the-art computational methods have been proposed in order to efficiently identify enhancers, learning globally contextual features is still one of the challenges for computational methods. Regarding the similarities between biological sequences and natural language sentences, the novel BERT-based language techniques have been applied to extracting complex contextual features in various computational biology tasks such as protein function/structure prediction. To speed up the research on enhancer identification, it is urgent to construct a BERT-based enhancer language model. Results: In this paper, we propose a multi-scale enhancer identification method (iEnhancer-ELM) based on enhancer language models, which treat enhancer sequences as natural language sentences that are composed of k-mer nucleotides. iEnhancer-ELM can extract contextual information of multi-scale k-mers with positions from raw enhancer sequences. Benefiting from the complementary information of k-mers in multi-scale, we ensemble four iEnhancer-ELM models for improving enhancer identification. The benchmark comparisons show that our model outperforms state-of-the-art methods. By the interpretable attention mechanism, we finds 30 biological patterns, where 40% (12/30) are verified by a widely used motif tool (STREME) and a popular dataset (JASPAR), demonstrating our model has a potential ability to reveal the biological mechanism of enhancer. Availability: The source code are available at https://github.com/chen-bioinfo/iEnhancer-ELM Contact: junjiechen@hit.edu.cn and junjie.chen.hit@gmail.com; Supplementary information: Supplementary data are available at Bioinformatics online.
翻訳日:2022-12-06 18:54:17 公開日:2022-12-03
# 連続SE(3)軌道上のアクティブターゲット追跡のためのポリシー学習

Policy Learning for Active Target Tracking over Continuous SE(3) Trajectories ( http://arxiv.org/abs/2212.01498v1 )

ライセンス: Link先を確認
Pengzhi Yang, Shumon Koga, Arash Asgharivaskasi, Nikolay Atanasov(参考訳) 本稿では,移動ロボットを用いた動的目標追跡のための新しいモデルベースポリシー勾配アルゴリズムを提案する。 課題は,目標分布エントロピーによって測定された対象状態の不確実性を低減するセンサ計測を,移動ロボットが収集するための連続制御ポリシーを得ることである。 我々は、ロボットの$SE(3)$ poseと、入力層とアテンション層として結合対象分布の平均ベクトルと情報行列を用いてニューラルネットワーク制御ポリシーを設計し、ターゲットの変動数を処理する。 また、ネットワークパラメータに対する対象エントロピーの勾配を明示的に導出し、効率的なモデルに基づくポリシー勾配最適化を可能にした。

This paper proposes a novel model-based policy gradient algorithm for tracking dynamic targets using a mobile robot, equipped with an onboard sensor with limited field of view. The task is to obtain a continuous control policy for the mobile robot to collect sensor measurements that reduce uncertainty in the target states, measured by the target distribution entropy. We design a neural network control policy with the robot $SE(3)$ pose and the mean vector and information matrix of the joint target distribution as inputs and attention layers to handle variable numbers of targets. We also derive the gradient of the target entropy with respect to the network parameters explicitly, allowing efficient model-based policy gradient optimization.
翻訳日:2022-12-06 18:53:36 公開日:2022-12-03
# フーリエ特徴量を用いたクープマン演算子のオンライン推定

Online Estimation of the Koopman Operator Using Fourier Features ( http://arxiv.org/abs/2212.01503v1 )

ライセンス: Link先を確認
Tahiya Salam, Alice Kate Li, M. Ani Hsieh(参考訳) 転送作用素は非線形力学系の線形表現と大域的、物理的に意味のある特徴を提供する。 クープマン作用素のような転送演算子の発見には、動的系の状態に作用する可観測性の注意深く作られた辞書が必要である。 これはアドホックで、評価には完全なデータセットが必要です。 本稿では,観測者とクープマン演算子をオンラインデータで共同学習するための最適化手法を提案する。 以上の結果から,複雑な力学系の大域的特徴を再現し,進化を表現できることを示した。

Transfer operators offer linear representations and global, physically meaningful features of nonlinear dynamical systems. Discovering transfer operators, such as the Koopman operator, require careful crafted dictionaries of observables, acting on states of the dynamical system. This is ad hoc and requires the full dataset for evaluation. In this paper, we offer an optimization scheme to allow joint learning of the observables and Koopman operator with online data. Our results show we are able to reconstruct the evolution and represent the global features of complex dynamical systems.
翻訳日:2022-12-06 18:53:24 公開日:2022-12-03
# 複雑度に対するヘッジ:パラメトリック近似を用いた分布ロバスト最適化

Hedging against Complexity: Distributionally Robust Optimization with Parametric Approximation ( http://arxiv.org/abs/2212.01518v1 )

ライセンス: Link先を確認
Garud Iyengar, Henry Lam, Tianyu Wang(参考訳) 経験的リスク最小化(ERM)と分散ロバスト最適化(DRO)は、運用管理や機械学習に現れる確率的最適化問題を解決するための一般的なアプローチである。 これらの手法の既存の一般化誤差境界は、コスト関数の複雑さや不確実なパラメータの次元に依存するため、これらの手法の性能は、高複雑性な目的関数を持つ高次元問題では不十分である。 本研究では,不確定パラメータの分布をパラメトリック分布系を用いて近似する手法を提案する。 これは両方の複雑さの原因を緩和するが、しかしながら、モデルのミススペクテーションエラーをもたらす。 この新たな誤差源は適切なDRO定式化によって制御可能であることを示す。 提案手法は,既存のEMM/DRO法とパラメトリックEMRを用いた多種多様な設定における一般化境界を大幅に改善した。 本手法は分布シフトにおいて特に有効である。 また、合成および実データポートフォリオ最適化と回帰タスクの両方において、我々のアプローチの優れた性能を示す。

Empirical risk minimization (ERM) and distributionally robust optimization (DRO) are popular approaches for solving stochastic optimization problems that appear in operations management and machine learning. Existing generalization error bounds for these methods depend on either the complexity of the cost function or dimension of the uncertain parameters; consequently, the performance of these methods is poor for high-dimensional problems with objective functions under high complexity. We propose a simple approach in which the distribution of uncertain parameters is approximated using a parametric family of distributions. This mitigates both sources of complexity; however, it introduces a model misspecification error. We show that this new source of error can be controlled by suitable DRO formulations. Our proposed parametric DRO approach has significantly improved generalization bounds over existing ERM / DRO methods and parametric ERM for a wide variety of settings. Our method is particularly effective under distribution shifts. We also illustrate the superior performance of our approach on both synthetic and real-data portfolio optimization and regression tasks.
翻訳日:2022-12-06 18:53:17 公開日:2022-12-03
# gluefl: 帯域効率のよい連合学習のためのクライアントサンプリングとモデルマスクの調整

GlueFL: Reconciling Client Sampling and Model Masking for Bandwidth Efficient Federated Learning ( http://arxiv.org/abs/2212.01523v1 )

ライセンス: Link先を確認
Shiqi He, Qifan Yan, Feijie Wu, Lanjun Wang, Mathias L\'ecuyer and Ivan Beschastnikh(参考訳) フェデレートラーニング(FL)は、マシンラーニングトレーニングにおいて、クライアントプライバシを保持しながらエッジデバイスを直接巻き込む効果的なテクニックである。 しかしながら、flの実質的な通信オーバーヘッドは、エッジデバイスがネットワーク帯域幅が限られている場合にトレーニングを困難にする。 FL帯域幅を最適化するための既存の作業は、下流の送信を見落とし、FLクライアントのサンプリングを考慮しない。 本稿では,新しいクライアントサンプリングとモデル圧縮アルゴリズムを組み込んだフレームワークであるGlueFLを提案する。 glueflは、最近使われているクライアントを優先し、各ラウンドの圧縮マスクにおける変更位置の数を制限する。 一般的なflデータセット3つと最先端戦略3つを通じて、glueflはダウンストリームクライアントの帯域幅を平均27%削減し、トレーニング時間を平均29%削減する。

Federated learning (FL) is an effective technique to directly involve edge devices in machine learning training while preserving client privacy. However, the substantial communication overhead of FL makes training challenging when edge devices have limited network bandwidth. Existing work to optimize FL bandwidth overlooks downstream transmission and does not account for FL client sampling. In this paper we propose GlueFL, a framework that incorporates new client sampling and model compression algorithms to mitigate low download bandwidths of FL clients. GlueFL prioritizes recently used clients and bounds the number of changed positions in compression masks in each round. Across three popular FL datasets and three state-of-the-art strategies, GlueFL reduces downstream client bandwidth by 27% on average and reduces training time by 29% on average.
翻訳日:2022-12-06 18:53:02 公開日:2022-12-03
# 多視点深層学習に基づく分子設計と構造最適化はSARS-CoV-2インヒビター発見を加速する

Multi-view deep learning based molecule design and structural optimization accelerates the SARS-CoV-2 inhibitor discovery ( http://arxiv.org/abs/2212.01575v1 )

ライセンス: Link先を確認
Chao Pang, Yu Wang, Yi Jiang, Ruheng Wang, Ran Su, and Leyi Wei(参考訳) 本研究では,分子生成,構造最適化,SARS-CoV-2インヒビターディスコモームのためのMulti-viEw Deep生成モデルであるMEDICOを提案する。 私たちの知る限り、MEDICOはターゲット分子の構造に似た分子グラフを生成できる最初のグラフ生成モデルであり、ターゲット分子トポロジーと幾何学から包括的構造意味論を十分にかつ適応的に学習するための多視点表現学習フレームワークである。 当科のメディコは,ベンチマーク比較において有効,ユニーク,新規な分子生成において最先端の手法を著しく上回っている。 特に,多視点深層学習モデルを用いて,対象分子と構造的に類似する分子だけでなく,所望の化学的特性を持つ分子を生成できることを示した。 さらに,SARS-CoV-2主プロテアーゼ(Mpro)の標的分子生成に関するケーススタディでは,分子ドッキングをケミカルプライオリとしてモデルに組み込むことで,Mproに望まれる薬物様特性を持つ新規な小分子を生成できることが示唆された。 さらに,3種類のMpro阻害剤(N3,11a,GC376)の構造最適化にMEDICOを適用し,その結合親和性を約88%向上させ,SARS-CoV-2感染治療薬の開発に本モデルの有効性を実証した。

In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
翻訳日:2022-12-06 18:52:47 公開日:2022-12-03
# 因果発生の原因:不確実性の再分配

The Cause of Causal Emergence: Redistribution of Uncertainty ( http://arxiv.org/abs/2212.01551v1 )

ライセンス: Link先を確認
Liye Jia, Cong Zhou, Ka Lok Man, Sheng-Uei Guan, Jeremy Smith, Yutao Yue(参考訳) 複雑なシステムの効果的な情報表現を構築するためには,適切なスケールを選択することが不可欠である。 科学者は実験のスケールを慎重に選び、システムの因果関係を記述する変数を抽出します。 彼らは、粗いスケール(macro)は、多パラメータ観測(micro)よりも因果的かつ情報的であることを発見した。 粗粒化によって因果性が出現する現象を因果発生(ce)と呼ぶ。 情報理論に基づいて、最近の多くの研究は、CEがマクロにマイクロモデルを粗粒化しながら実際に起こることを定量的に示した。 しかし、既存の作品ではceがなぜいつ起こるのかという疑問は議論されていない。 粗粒化のための不確かさの再分布を定量的に解析し,不確かさの再分布が原因であることが示唆された。 さらに、CEの発生の有無を決定するしきい値を分析する。 離散系の遷移確率行列(TPM)の正則性から、モデル特性の数学的表現が導出される。 異なる演算に対するしきい値の値は計算される。 その結果,CEの重要かつ特異な条件は,適切な粗粒化操作を選択する上で有用であると考えられた。 結果はまた、因果関係と因果発生の性質をよりよく理解する新しい方法も提供した。

It is crucial to choose the appropriate scale in order to build an effective and informational representation of a complex system. Scientists carefully choose the scales for their experiments to extract the variables that describe the causalities in the system. They found that the coarse scale(macro) is sometimes more causal and informative than the numerous-parameter observations(micro). The phenomenon that the causality emerges by coarse-graining is called Causal Emergence(CE). Based on information theory, a number of recent works quantitatively showed that CE indeed happens while coarse-graining a micro model to the macro. However, the existing works have not discussed the question of why and when the CE happens. We quantitatively analyze the redistribution of uncertainties for coarse-graining and suggest that the redistribution of uncertainties is the cause of causal emergence. We further analyze the thresholds that determine if CE happens or not. From the regularity of the transition probability matrix(TPM) of discrete systems, the mathematical expressions of the model properties are derived. The values of thresholds for different operations are computed. The results provide the critical and specific conditions of CE as helpful suggestions for choosing the proper coarse-graining operation. The results also provided a new way to better understand the nature of causality and causal emergence.
翻訳日:2022-12-06 18:45:56 公開日:2022-12-03
# ブラインド超解像のための学習ディテール構造代替最適化

Learning Detail-Structure Alternative Optimization for Blind Super-Resolution ( http://arxiv.org/abs/2212.01624v1 )

ライセンス: Link先を確認
Feng Li, Yixuan Wu, Huihui Bai, Weisi Lin, Runmin Cong, and Yao Zhao(参考訳) 既存の畳み込みニューラルネットワーク(CNN)ベースの画像超解像(SR)法は,実世界のアプリケーションで未知の劣化を処理できないバイキュービックカーネルにおいて,優れた性能を達成した。 近年のブラインドSR法では,カーネル推定によるSR像の再構成が提案されている。 しかし、それらの結果は依然として可視的アーティファクトと推定誤差による詳細歪みのままである。 これらの問題を緩和するため,本稿では,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。 具体的には、DSSRにおいて、画像の詳細と構造の相互作用と協調を利用するための詳細構造変調モジュール(DSMM)を構築している。 DSMMはディテール復元ユニット(DRU)と構造変調ユニット(SMU)の2つのコンポーネントで構成されている。 前者は、LR構造的文脈から中間HR詳細再構成を回帰することを目的としており、後者は、HRとLR空間の両方で学習された詳細マップに条件付き構造的文脈変調を行う。 さらに、DSMMの出力を隠蔽状態とし、繰り返し畳み込みニューラルネットワーク(RCNN)ビューからDSSRアーキテクチャを設計する。 このようにして、ネットワークは画像の詳細と構造的コンテキストを最適化し、時間をかけて協調最適化を達成できる。 さらに,リカレント接続を備えたdssrでは,前回のhrの詳細やコンテキストをアンロール時間毎に観察することにより,低レベルおよび高レベルの特徴表現を補完することができる。 合成データセットと実世界の画像に関する大規模な実験により,本手法が既存の手法に対して最先端の手法を実現することを示す。 ソースコードはhttps://github.com/Arcananana/DSSRにある。

Existing convolutional neural networks (CNN) based image super-resolution (SR) methods have achieved impressive performance on bicubic kernel, which is not valid to handle unknown degradations in real-world applications. Recent blind SR methods suggest to reconstruct SR images relying on blur kernel estimation. However, their results still remain visible artifacts and detail distortion due to the estimation errors. To alleviate these problems, in this paper, we propose an effective and kernel-free network, namely DSSR, which enables recurrent detail-structure alternative optimization without blur kernel prior incorporation for blind SR. Specifically, in our DSSR, a detail-structure modulation module (DSMM) is built to exploit the interaction and collaboration of image details and structures. The DSMM consists of two components: a detail restoration unit (DRU) and a structure modulation unit (SMU). The former aims at regressing the intermediate HR detail reconstruction from LR structural contexts, and the latter performs structural contexts modulation conditioned on the learned detail maps at both HR and LR spaces. Besides, we use the output of DSMM as the hidden state and design our DSSR architecture from a recurrent convolutional neural network (RCNN) view. In this way, the network can alternatively optimize the image details and structural contexts, achieving co-optimization across time. Moreover, equipped with the recurrent connection, our DSSR allows low- and high-level feature representations complementary by observing previous HR details and contexts at every unrolling time. Extensive experiments on synthetic datasets and real-world images demonstrate that our method achieves the state-of-the-art against existing methods. The source code can be found at https://github.com/Arcananana/DSSR.
翻訳日:2022-12-06 18:38:02 公開日:2022-12-03
# Blind Image Super-Resolutionのための劣化モデルによるブリッジコンポーネント学習

Bridging Component Learning with Degradation Modelling for Blind Image Super-Resolution ( http://arxiv.org/abs/2212.01628v1 )

ライセンス: Link先を確認
Yixuan Wu, Feng Li, Huihui Bai, Weisi Lin, Runmin Cong, and Yao Zhao(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく画像超解像(SR)は、既知の劣化した低分解能(LR)画像に顕著な成功を収めた。 しかし, 劣化過程が不明な場合には, 実用シナリオで性能を維持することは困難である。 この問題を解決するために既存のブラインドSR法が提案されているが、知覚品質と再現精度はまだ不十分である。 本稿では, 画像固有成分からの高分解能(HR)画像の劣化を, 劣化に基づく定式化モデルに基づいて解析する。 視覚障害者のためのコンポーネント分解・協調最適化ネットワーク(CDCN)を提案する。 まず、CDCNは入力LR画像を特徴空間の構造と詳細成分に分解する。 そして、両者の関係を利用するために相互協調ブロック(mcb)が提示される。 このようにして、ディテールコンポーネントは構造コンテキストを豊かにするための有益な機能を提供し、構造コンポーネントは相互補完的な方法で詳細を明らかにするために構造コンテキストを運ぶことができる。 その後、HR画像の詳細と構造復元過程を共同で監督するための劣化駆動学習戦略を提案する。 最後に,マルチスケール核融合モジュールとアップサンプリング層は,構造と細部を融合し,sr再構成を行うように設計されている。 このような分解に基づくコンポーネント分解、協調、相互最適化を活用して、コンポーネント学習とブラインドSRの分解モデリングの相関関係を橋渡しし、より正確なテクスチャでSR結果を生成する。 合成SRデータセットと実世界の画像の両方に対する大規模な実験により,提案手法が既存手法と比較して最先端性能を実現することが示された。

Convolutional Neural Network (CNN)-based image super-resolution (SR) has exhibited impressive success on known degraded low-resolution (LR) images. However, this type of approach is hard to hold its performance in practical scenarios when the degradation process is unknown. Despite existing blind SR methods proposed to solve this problem using blur kernel estimation, the perceptual quality and reconstruction accuracy are still unsatisfactory. In this paper, we analyze the degradation of a high-resolution (HR) image from image intrinsic components according to a degradation-based formulation model. We propose a components decomposition and co-optimization network (CDCN) for blind SR. Firstly, CDCN decomposes the input LR image into structure and detail components in feature space. Then, the mutual collaboration block (MCB) is presented to exploit the relationship between both two components. In this way, the detail component can provide informative features to enrich the structural context and the structure component can carry structural context for better detail revealing via a mutual complementary manner. After that, we present a degradation-driven learning strategy to jointly supervise the HR image detail and structure restoration process. Finally, a multi-scale fusion module followed by an upsampling layer is designed to fuse the structure and detail features and perform SR reconstruction. Empowered by such degradation-based components decomposition, collaboration, and mutual optimization, we can bridge the correlation between component learning and degradation modelling for blind SR, thereby producing SR results with more accurate textures. Extensive experiments on both synthetic SR datasets and real-world images show that the proposed method achieves the state-of-the-art performance compared to existing methods.
翻訳日:2022-12-06 18:37:30 公開日:2022-12-03
# MaRF:火星をニューラルラジアンス場として表現

MaRF: Representing Mars as Neural Radiance Fields ( http://arxiv.org/abs/2212.01672v1 )

ライセンス: Link先を確認
Lorenzo Giusti, Josue Garcia, Steven Cozine, Darrick Suen, Christina Nguyen, Ryan Alimo(参考訳) この研究の目的は、ローバーカメラからの画像の集合を用いて火星環境を合成できる新しいフレームワークであるMARFを導入することである。 火星の表面の3dシーンを生成し、惑星の地質学、シミュレートされた航法、形状分析といった惑星表面探査の重要な課題に対処する。 火星の表面を3dで再現する方法はいくつか存在するが、それらはレコンストラクションプロセス中に大量の計算リソースを発生させる古典的なコンピュータグラフィックス技術に依存しており、レコンストラクションの一般化は見えないシーンへの一般化とローバーカメラからの新たな画像への適応に制限がある。 提案フレームワークは,画像のスパース集合を用いて連続的なボリュームシーン関数を最適化することにより複雑なシーンを合成するNeRF(Neural Radiance Fields)を利用して,上記の制限を解決する。 学習過程を高速化するために,我々は,ローバー画像の粗い集合をニューラルネットワークプリミティブ(NGP)に置き換えた。 実験では、curiosity rover、perseverance rover、ingenuity helicopterが撮影した実際の火星データセットから生成された環境をデモし、これらすべてがplanetary data system (pds)で利用可能である。

The aim of this work is to introduce MaRF, a novel framework able to synthesize the Martian environment using several collections of images from rover cameras. The idea is to generate a 3D scene of Mars' surface to address key challenges in planetary surface exploration such as: planetary geology, simulated navigation and shape analysis. Although there exist different methods to enable a 3D reconstruction of Mars' surface, they rely on classical computer graphics techniques that incur high amounts of computational resources during the reconstruction process, and have limitations with generalizing reconstructions to unseen scenes and adapting to new images coming from rover cameras. The proposed framework solves the aforementioned limitations by exploiting Neural Radiance Fields (NeRFs), a method that synthesize complex scenes by optimizing a continuous volumetric scene function using a sparse set of images. To speed up the learning process, we replaced the sparse set of rover images with their neural graphics primitives (NGPs), a set of vectors of fixed length that are learned to preserve the information of the original images in a significantly smaller size. In the experimental section, we demonstrate the environments created from actual Mars datasets captured by Curiosity rover, Perseverance rover and Ingenuity helicopter, all of which are available on the Planetary Data System (PDS).
翻訳日:2022-12-06 18:37:05 公開日:2022-12-03
# 自己教師あり音声モデルを用いたasrの教師なし微調整データ選択

Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised Speech Models ( http://arxiv.org/abs/2212.01661v1 )

ライセンス: Link先を確認
Reem Gody and David Harwath(参考訳) 自己教師付き学習(SSL)は、少数の書き起こされた音声データにのみアクセス可能な場合、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。 しかし、これは、利用可能な未ラベルデータのサブセットが転写のために選択されるべきかどうかという疑問を提起する。 本研究は,限られた転写予算の下でHuBERTモデルを微調整するための教師なしデータ選択手法について検討する。 話者の多様性,性別バイアス,話題の多様性が,下流ASRの性能に及ぼす影響について検討した。 また、損失に基づくデータ選択の事前学習と、バイトペア符号化クラスタリングユニット(PBPE)の難易度という2つの新しい手法を考案し、これらの手法が純粋なランダムデータ選択と比較する方法について述べる。 最後に、選択された微調整部分集合の固有特性とそれらの特徴と結果の単語誤り率との相関について解析する。 WERの観点からは,トークンの多様性,話者の多様性,話題の多様性の重要性が示される。

Self-supervised learning (SSL) has been able to leverage unlabeled data to boost the performance of automatic speech recognition (ASR) models when we have access to only a small amount of transcribed speech data. However, this raises the question of which subset of the available unlabeled data should be selected for transcription. Our work investigates different unsupervised data selection techniques for fine-tuning the HuBERT model under a limited transcription budget. We investigate the impact of speaker diversity, gender bias, and topic diversity on the downstream ASR performance. We also devise two novel techniques for unsupervised data selection: pre-training loss based data selection and the perplexity of byte pair encoded clustered units (PBPE) and we show how these techniques compare to pure random data selection. Finally, we analyze the correlations between the inherent characteristics of the selected fine-tuning subsets as well as how these characteristics correlate with the resultant word error rate. We demonstrate the importance of token diversity, speaker diversity, and topic diversity in achieving the best performance in terms of WER.
翻訳日:2022-12-06 18:27:01 公開日:2022-12-03
# 自律型リンゴ果実サイズとコンピュータビジョンによる成長速度追跡

Autonomous Apple Fruitlet Sizing and Growth Rate Tracking using Computer Vision ( http://arxiv.org/abs/2212.01506v1 )

ライセンス: Link先を確認
Harry Freeman, Mohamad Qadri, Abhisesh Silwal, Paul O'Connor, Zachary Rubinstein, Daniel Cooley, and George Kantor(参考訳) リンゴの果実の成長速度を測定することは、収穫を最適化するために作物に化学薄型化を施すタイミングを決定することができるため重要である。 成長率を得ることの現在の習慣は、数日間にわたって果物の粒度を記録するためにキャリパーを使うことである。 大きさが必要なフルーツレットの数のため、この方法には手間がかかり、時間がかかり、人的ミスが生じる。 本稿では,リンゴ果実の大きさと成長率を測定するためのコンピュータビジョン手法を提案する。 ハンドヘルドステレオカメラによって収集された画像により、このシステムはエリプスをフルーツレットに当てて直径を計測する。 成長率を測定するために,アテンショナルグラフニューラルネットワークを用いて,異なる日間でフルーツレットを関連付ける。 我々は,リンゴ果樹園で収集したデータについて定量的な結果を提供するとともに,本手法の3%以内の短縮率を7倍の速度で予測でき,かつ手作業も大幅に削減できることを示す。 さらに、現場でロボットが捉えた画像について結果を提示し、プロセスを完全に自律化する次のステップについて論じる。

Measuring growth rates of apple fruitlets is important because it allows apple growers to determine when to apply chemical thinners to their crops to optimize yield. The current practice of obtaining growth rates involves using calipers to record sizes of fruitlets across multiple days. Due to the number of fruitlets needed to be sized, this method is laborious, time-consuming, and prone to human error. In this paper, we present a computer vision approach to measure the sizes and growth rates of apple fruitlets. With images collected by a hand-held stereo camera, our system detects, segments, and fits ellipses to fruitlets to measure their diameters. To measure growth rates, we utilize an Attentional Graph Neural Network to associate fruitlets across different days. We provide quantitative results on data collected in an apple orchard, and demonstrate that our system is able to predict abscise rates within 3% of the current method with a 7 times improvement in speed, while requiring significantly less manual effort. Moreover, we provide results on images captured by a robotic system in the field, and discuss the next steps to make the process fully autonomous.
翻訳日:2022-12-06 18:26:04 公開日:2022-12-03
# PartSLIP: 事前訓練画像言語モデルによる3次元点雲の低ショット部分分割

PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models ( http://arxiv.org/abs/2212.01558v1 )

ライセンス: Link先を確認
Minghua Liu, Yinhao Zhu, Hong Cai, Shizhong Han, Zhan Ling, Fatih Porikli, Hao Su(参考訳) 汎用的な3d部分セグメンテーションは重要だが、ビジョンとロボティクスでは難しい。 従来の教師あり手法による深層モデルのトレーニングには,粒度の細かい部分アノテーションを備えた大規模3dデータセットが必要となる。 本稿では,事前学習した画像言語モデルであるGLIPを利用して,3次元点群を低ショットで分割する手法を提案する。 我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。 また,マルチビュー3Dプリエントと数発のプロンプトチューニングを利用して性能を著しく向上する。 partnetとpartnet-mobilityデータセットの広範な評価により,ゼロショット3dセグメンテーションが可能となった。 私たちの少数ショットバージョンは、既存の少数ショットアプローチを大きなマージンで上回るだけでなく、完全に監督されたアプローチと比べて非常に競争力のある結果も得られます。 さらに,本手法をiphoneでスキャンしたポイントクラウドに直接適用できることを実証した。

Generalizable 3D part segmentation is important but challenging in vision and robotics. Training deep models via conventional supervised methods requires large-scale 3D datasets with fine-grained part annotations, which are costly to collect. This paper explores an alternative way for low-shot part segmentation of 3D point clouds by leveraging a pretrained image-language model, GLIP, which achieves superior performance on open-vocabulary 2D detection. We transfer the rich knowledge from 2D to 3D through GLIP-based part detection on point cloud rendering and a novel 2D-to-3D label lifting algorithm. We also utilize multi-view 3D priors and few-shot prompt tuning to boost performance significantly. Extensive evaluation on PartNet and PartNet-Mobility datasets shows that our method enables excellent zero-shot 3D part segmentation. Our few-shot version not only outperforms existing few-shot approaches by a large margin but also achieves highly competitive results compared to the fully supervised counterpart. Furthermore, we demonstrate that our method can be directly applied to iPhone-scanned point clouds without significant domain gaps.
翻訳日:2022-12-06 18:25:43 公開日:2022-12-03
# スパース・リワード下におけるミスマッチ課題からの証明による強化学習

Reinforcement learning with Demonstrations from Mismatched Task under Sparse Reward ( http://arxiv.org/abs/2212.01509v1 )

ライセンス: Link先を確認
Yanjiang Guo, Jingyue Gao, Zheng Wu, Chengming Shi, Jianyu Chen(参考訳) 強化学習は、現実世界のロボティクス問題においてスパース報酬の問題に悩まされることが多い。 learning from demonstration(lfd)は、オンライン学習を支援するために収集された専門家データを活用する、この問題を解決する効果的な方法である。 事前の作業では、学習エージェントと専門家が同じタスクを達成するために新しいタスクごとに新しいデータを集める必要があると仮定することが多い。 本稿では,対象タスクと専門家のタスクが一致していない場合について考察する。 このような設定は困難であり、既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的にガイドできないことがわかった。 本稿では,評価値関数を用いてスパース報酬を形作るデモ(CRSfD)の保守的報酬形成を提案する。 学習プロセスを加速するために、CRSfDはエージェントにデモを保守的に探索するよう誘導する。 ロボット操作タスクの実験結果から,本手法は1つのタスクで収集したデモを他のタスクに転送する際に,ベースラインのLfD手法よりも優れていた。

Reinforcement learning often suffer from the sparse reward issue in real-world robotics problems. Learning from demonstration (LfD) is an effective way to eliminate this problem, which leverages collected expert data to aid online learning. Prior works often assume that the learning agent and the expert aim to accomplish the same task, which requires collecting new data for every new task. In this paper, we consider the case where the target task is mismatched from but similar with that of the expert. Such setting can be challenging and we found existing LfD methods can not effectively guide learning in mismatched new tasks with sparse rewards. We propose conservative reward shaping from demonstration (CRSfD), which shapes the sparse rewards using estimated expert value function. To accelerate learning processes, CRSfD guides the agent to conservatively explore around demonstrations. Experimental results of robot manipulation tasks show that our approach outperforms baseline LfD methods when transferring demonstrations collected in a single task to other different but similar tasks.
翻訳日:2022-12-06 18:19:39 公開日:2022-12-03
# DIONYSUSを用いた低データ化学データセットにおける確率モデルの校正と一般化可能性

Calibration and generalizability of probabilistic models on low-data chemical datasets with DIONYSUS ( http://arxiv.org/abs/2212.01574v1 )

ライセンス: Link先を確認
Gary Tom, Riley J. Hickman, Anizet Zinzuwadia, Afshan Mohajeri, Benjamin Sanchez-Lengeling, Alan Aspuru-Guzik(参考訳) 大規模なデータセットを利用するディープラーニングモデルは、しばしば分子特性のモデリングの最先端である。 データセットがより小さい(<2000分子)場合、ディープラーニングアプローチが正しいモデリングツールであることは明らかではない。 本研究では,小型ケミカルデータセットを用いた確率的機械学習モデルのキャリブレーションと一般化可能性に関する詳細な研究を行う。 異なる分子表現とモデルを用いて、様々なタスク(バイナリ、レグレッション)とデータセットにおける予測と不確実性の品質を分析する。 また,(1)ベイズ最適化による分子設計,(2)クラスター分割による分散データの推定,という2つのシミュレーション実験を行った。 我々は、新しい化学実験でよく見られるシナリオである小さな化学データセットのモデリングのために、モデルと特徴の選択に関する実践的な洞察を提供する。 私たちは分析結果をdionysusリポジトリにパッケージしました。dionysusは、新しいデータセットの再現性と拡張を支援するためにオープンソースです。

Deep learning models that leverage large datasets are often the state of the art for modelling molecular properties. When the datasets are smaller (< 2000 molecules), it is not clear that deep learning approaches are the right modelling tool. In this work we perform an extensive study of the calibration and generalizability of probabilistic machine learning models on small chemical datasets. Using different molecular representations and models, we analyse the quality of their predictions and uncertainties in a variety of tasks (binary, regression) and datasets. We also introduce two simulated experiments that evaluate their performance: (1) Bayesian optimization guided molecular design, (2) inference on out-of-distribution data via ablated cluster splits. We offer practical insights into model and feature choice for modelling small chemical datasets, a common scenario in new chemical experiments. We have packaged our analysis into the DIONYSUS repository, which is open sourced to aid in reproducibility and extension to new datasets.
翻訳日:2022-12-06 18:19:22 公開日:2022-12-03
# AI駆動のモバイルアプリ: 調査研究

AI-driven Mobile Apps: an Explorative Study ( http://arxiv.org/abs/2212.01635v1 )

ライセンス: Link先を確認
Yinghua Li, Xueqi Dang, Haoye Tian, Tiezhu Sun, Zhijie Wang, Lei Ma, Jacques Klein, Tegawende F. Bissyande(参考訳) 近年、AI技術を利用したモバイルアプリケーションの進化が驚くべき爆発的成長を遂げている。 AIフレームワークの急速な成長により、モバイルデバイスへのAIテクノロジの移行が可能になり、スマートフォンデバイスにおけるAIアプリ(つまり、その機能にAIを統合するアプリ)の採用が著しく促進される。 本稿では,データセットの特徴,開発課題,ユーザフィードバックとプライバシという3つの視点から,56,682のaiアプリについて,最も広範な実証研究を行う。 この目的のために、自動AIアプリ識別ツールであるAI Discriminatorを構築し、7,259,232のモバイルアプリから該当するAIアプリを検出する。 まず、データセット分析を行い、AIアプリとそのコア特性を特定するために、AndroZooの大規模リポジトリを調査します。 その後、AIアプリ開発(モデル保護など)における重要な問題を指摘します。 最後に,ユーザレビューとユーザのプライバシ保護に注目する。 論文には注目すべき点がいくつかある。 重要なことは、モデル暗号化の欠如を示し、ユーザプライバシデータが漏洩するリスクを示すことによって、モデル保護の不十分な問題を明らかにすることである。 われわれの大規模なAIアプリデータセットを公開し、今後の研究を刺激した。

Recent years have witnessed an astonishing explosion in the evolution of mobile applications powered by AI technologies. The rapid growth of AI frameworks enables the transition of AI technologies to mobile devices, significantly prompting the adoption of AI apps (i.e., apps that integrate AI into their functions) among smartphone devices. In this paper, we conduct the most extensive empirical study on 56,682 published AI apps from three perspectives: dataset characteristics, development issues, and user feedback and privacy. To this end, we build an automated AI app identification tool, AI Discriminator, that detects eligible AI apps from 7,259,232 mobile apps. First, we carry out a dataset analysis, where we explore the AndroZoo large repository to identify AI apps and their core characteristics. Subsequently, we pinpoint key issues in AI app development (e.g., model protection). Finally, we focus on user reviews and user privacy protection. Our paper provides several notable findings. Some essential ones involve revealing the issue of insufficient model protection by presenting the lack of model encryption, and demonstrating the risk of user privacy data being leaked. We published our large-scale AI app datasets to inspire more future research.
翻訳日:2022-12-06 18:19:07 公開日:2022-12-03
# ロボット支援手術におけるトランスフォーマーモデルを用いた手術動作の認識と予測

Recognition and Prediction of Surgical Gestures and Trajectories Using Transformer Models in Robot-Assisted Surgery ( http://arxiv.org/abs/2212.01683v1 )

ライセンス: Link先を確認
Chang Shi, Yi Zheng, Ann Majewicz Fey(参考訳) 手術活動の認識と予測は、遠隔操作中の手術進捗監視と推定、手術スキル評価、共有制御戦略など、多くのロボット支援手術(ras)アプリケーションにおいて重要な文脈を提供する。 トランスフォーマーモデルはまず自然言語処理(NLP)のためにワードシーケンスをモデル化するために開発され、間もなく一般的なシーケンスモデリングタスクで人気を博した。 本稿では, ジェスチャー認識, ジェスチャー予測, 軌道予測の3つのタスクに対して, トランスフォーマーモデルを用いた新しい手法を提案する。 手術ロボットエンドエフェクタの現在の運動データのみを用いて,現在のジェスチャシーケンス,将来のジェスチャシーケンス,将来の軌跡シーケンス推定を生成できるように,元のトランスフォーマーアーキテクチャを変更した。 JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS) で提案したモデルを評価し、Leave-One-User-Out (LOUO) クロスバリデーションを用いて結果の一般化性を保証する。 我々のモデルは最大89.3\%のジェスチャー認識精度、84.6\%のジェスチャー予測精度(1秒前)、2.71mmの軌道予測誤差(1秒前)を達成する。 我々のモデルは、キネマティックなデータチャネルのみを使用しながら、最先端の手法よりも優れています。 このアプローチは、ほぼリアルタイムの手術活動の認識と予測を可能にする。

Surgical activity recognition and prediction can help provide important context in many Robot-Assisted Surgery (RAS) applications, for example, surgical progress monitoring and estimation, surgical skill evaluation, and shared control strategies during teleoperation. Transformer models were first developed for Natural Language Processing (NLP) to model word sequences and soon the method gained popularity for general sequence modeling tasks. In this paper, we propose the novel use of a Transformer model for three tasks: gesture recognition, gesture prediction, and trajectory prediction during RAS. We modify the original Transformer architecture to be able to generate the current gesture sequence, future gesture sequence, and future trajectory sequence estimations using only the current kinematic data of the surgical robot end-effectors. We evaluate our proposed models on the JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS) and use Leave-One-User-Out (LOUO) cross-validation to ensure the generalizability of our results. Our models achieve up to 89.3\% gesture recognition accuracy, 84.6\% gesture prediction accuracy (1 second ahead) and 2.71mm trajectory prediction error (1 second ahead). Our models are comparable to and able to outperform state-of-the-art methods while using only the kinematic data channel. This approach can enable near-real time surgical activity recognition and prediction.
翻訳日:2022-12-06 18:18:50 公開日:2022-12-03
# 企業間マッチングのノイズラベルに基づくハイパフォーマンス抽出のためのラベルセマンティクスの調和

Harnessing label semantics to extract higher performance under noisy label for Company to Industry matching ( http://arxiv.org/abs/2212.01685v1 )

ライセンス: Link先を確認
Apoorva Jaiswal, Abhishek Mitra(参考訳) 企業に対して適切な業界タグを割り当てることは、様々な金融機関に影響を及ぼすため、金融機関にとって重要な課題である。 しかし、これはまだ複雑な作業である。 通常、そのような業界タグは、業界定義に反する企業のビジネスラインを評価した後、課題専門専門家(SME)によって割り当てられる。 企業が新たなビジネスを追加し続け、新たな業界定義が形成されるにつれ、さらに困難になる。 タスクの周期性を考えると、AI(Artificial Intelligent)エージェントが効率的に実行できるように開発できると仮定することは合理的である。 これはエキサイティングな見通しであるが、こうしたタグ割り当て(あるいはラベル付け)の歴史的パターンの必要性から課題が現れる。 ラベル付けは、中小企業や手作業に依存するため、機械学習(ML)で最も高価なタスクとみなされることが多い。 そのため、エンタープライズでは、しばしば、MLプロジェクトがノイズや依存するラベルに遭遇する。 このようなラベルは、堅牢なタグ割り当てを生成するために、ML Modelsの技術的障害を生成する。 本稿では,ラベル類似度行列と最小ラベル戦略を併用しながら,意味的類似度マッチングをマルチラベルテキスト分類の代替として利用するMLパイプラインを提案する。 このパイプラインがノイズを大幅に改善し、堅牢な予測能力を示すことを示す。

Assigning appropriate industry tag(s) to a company is a critical task in a financial institution as it impacts various financial machineries. Yet, it remains a complex task. Typically, such industry tags are to be assigned by Subject Matter Experts (SME) after evaluating company business lines against the industry definitions. It becomes even more challenging as companies continue to add new businesses and newer industry definitions are formed. Given the periodicity of the task it is reasonable to assume that an Artificial Intelligent (AI) agent could be developed to carry it out in an efficient manner. While this is an exciting prospect, the challenges appear from the need of historical patterns of such tag assignments (or Labeling). Labeling is often considered the most expensive task in Machine Learning (ML) due its dependency on SMEs and manual efforts. Therefore, often, in enterprise set up, an ML project encounters noisy and dependent labels. Such labels create technical hindrances for ML Models to produce robust tag assignments. We propose an ML pipeline which uses semantic similarity matching as an alternative to multi label text classification, while making use of a Label Similarity Matrix and a minimum labeling strategy. We demonstrate this pipeline achieves significant improvements over the noise and exhibit robust predictive capabilities.
翻訳日:2022-12-06 18:18:25 公開日:2022-12-03
# 不均一人工知能ワークロードの高精度エネルギー消費測定

Precise Energy Consumption Measurements of Heterogeneous Artificial Intelligence Workloads ( http://arxiv.org/abs/2212.01698v1 )

ライセンス: Link先を確認
Ren\'e Caspart, Sebastian Ziegler, Arvid Weyrauch, Holger Obermaier, Simon Raffeiner, Leon Pascal Schuhmacher, Jan Scholtyssek, Darya Trofimova, Marco Nolden, Ines Reinartz, Fabian Isensee, Markus G\"otz, Charlotte Debus(参考訳) 近年のAIの台頭とモデルの複雑さの増大により、計算リソースの需要の増加は大きな課題を呈し始めている。 より強力な計算能力の必要性は、ますます強力な加速器と大規模な計算クラスタの利用で満たされている。 しかし、分散および加速システムで訓練された大規模モデルによる予測精度の上昇は、エネルギー需要の大幅な増加の代償となり、研究者はそのような大規模ai手法の環境親和性に疑問を呈し始めた。 その結果、エネルギー効率はAIモデル開発者やインフラオペレーターにとって重要な役割を果たす。 AIワークロードのエネルギー消費は、モデルの実装と利用ハードウェアに依存します。 したがって、異なるタイプの計算ノード上でのAIワークフローのパワードローの正確な測定は、アルゴリズムの改善と将来の計算クラスタとハードウェアの設計の鍵となる。 そこで本研究では、異なる種類の計算ノード上での2つの典型的なディープラーニングモデルのエネルギー消費量の測定を行う。 私たちの結果は 1. 実行時から直接エネルギーを消費することは正確ではないが、その構成について計算ノードの消費を考慮する必要がある。 2. 混合ノード上での加速器ハードウェアの無視は、エネルギー消費に関する過度な非効率をもたらす。 3. モデルトレーニングと推論のエネルギー消費は別々に考慮すべきである。gpuでのトレーニングは、ランタイムとエネルギー消費の両方に関して他の全てのノードタイプを上回っているが、cpuノードでの推論は比較的に効率的である。 このアプローチの利点の1つは、エネルギー消費に関する情報がスーパーコンピュータの全ユーザーに利用可能であり、エネルギー消費のユーザ意識の向上とともに、他のワークロードへの簡単な転送を可能にすることである。

With the rise of AI in recent years and the increase in complexity of the models, the growing demand in computational resources is starting to pose a significant challenge. The need for higher compute power is being met with increasingly more potent accelerators and the use of large compute clusters. However, the gain in prediction accuracy from large models trained on distributed and accelerated systems comes at the price of a substantial increase in energy demand, and researchers have started questioning the environmental friendliness of such AI methods at scale. Consequently, energy efficiency plays an important role for AI model developers and infrastructure operators alike. The energy consumption of AI workloads depends on the model implementation and the utilized hardware. Therefore, accurate measurements of the power draw of AI workflows on different types of compute nodes is key to algorithmic improvements and the design of future compute clusters and hardware. To this end, we present measurements of the energy consumption of two typical applications of deep learning models on different types of compute nodes. Our results indicate that 1. deriving energy consumption directly from runtime is not accurate, but the consumption of the compute node needs to be considered regarding its composition; 2. neglecting accelerator hardware on mixed nodes results in overproportional inefficiency regarding energy consumption; 3. energy consumption of model training and inference should be considered separately - while training on GPUs outperforms all other node types regarding both runtime and energy consumption, inference on CPU nodes can be comparably efficient. One advantage of our approach is that the information on energy consumption is available to all users of the supercomputer, enabling an easy transfer to other workloads alongside a raise in user-awareness of energy consumption.
翻訳日:2022-12-06 18:18:08 公開日:2022-12-03
# ガウス過程力学モデルと知識伝達を用いた電池劣化長期予測

Battery Degradation Long-term Forecast Using Gaussian Process Dynamical Models and Knowledge Transfer ( http://arxiv.org/abs/2212.01609v1 )

ライセンス: Link先を確認
Ziyang Zhang, Akeel Shah, Wei W. Xing(参考訳) 電池は現代のエネルギーエコシステムにおいて重要な役割を担い、携帯電話や電気自動車といった日常的な用途で広く利用されている。 多くのアプリケーションにとって、バッテリーの健康状態は、効率的なメンテナンスとオンタイム交換を示すことによって、システムの性能に重要な役割を果たす。 物理規則に基づく計算モデルを用いて個々のバッテリーを直接モデル化することは、そのようなモデルを構築するのが困難であり、特にエッジ上でのチューニングと実行の計算労力の観点から、低効率である。 センサー技術(システムに関するさらなる洞察を提供するために)と機械学習(高速なモデルを構築するために)の迅速な開発により、過去のバッテリーデータ(おそらくローカルとリモート)から収集したデータを用いて、バッテリーの健康状態のデータを直接構築し、将来、ローカルなバッテリーの健康状態を正確に予測することが可能になった。 それでも、ほとんどのデータ駆動手法は、ローカルバッテリーデータに基づいてトレーニングされ、他のリモートバッテリーの寿命において、世代や劣化といった共通の特性を抽出する能力が欠如している。 本稿では,GPDM(Gaussian Process Dynamical Model)を用いて,データ駆動型バッテリ状態モデルを構築し,すべてのバッテリ寿命における共通特性を抽出し,バッテリ状態を局所バッテリから抽出した特徴の有無で正確に予測する知識伝達手法を提案する。 現代のベンチマーク問題において,提案手法は,精度の面では最先端手法よりも優れており,再生過程を精度良く予測できる。

Batteries plays an essential role in modern energy ecosystem and are widely used in daily applications such as cell phones and electric vehicles. For many applications, the health status of batteries plays a critical role in the performance of the system by indicating efficient maintenance and on-time replacement. Directly modeling an individual battery using a computational models based on physical rules can be of low-efficiency, in terms of the difficulties in build such a model and the computational effort of tuning and running it especially on the edge. With the rapid development of sensor technology (to provide more insights into the system) and machine learning (to build capable yet fast model), it is now possible to directly build a data-riven model of the battery health status using the data collected from historical battery data (being possibly local and remote) to predict local battery health status in the future accurately. Nevertheless, most data-driven methods are trained based on the local battery data and lack the ability to extract common properties, such as generations and degradation, in the life span of other remote batteries. In this paper, we utilize a Gaussian process dynamical model (GPDM) to build a data-driven model of battery health status and propose a knowledge transfer method to extract common properties in the life span of all batteries to accurately predict the battery health status with and without features extracted from the local battery. For modern benchmark problems, the proposed method outperform the state-of-the-art methods with significant margins in terms of accuracy and is able to accuracy predict the regeneration process.
翻訳日:2022-12-06 18:10:55 公開日:2022-12-03
# ゼロサムマルコフゲームのための平滑化ポリシーイテレーション

Smoothing Policy Iteration for Zero-sum Markov Games ( http://arxiv.org/abs/2212.01623v1 )

ライセンス: Link先を確認
Yangang Ren, Yao Lyu, Wenxuan Wang, Shengbo Eben Li, Zeyang Li, Jingliang Duan(参考訳) ゼロサムマルコフゲーム(MGs)はマルチエージェントシステムとロバスト制御のための効率的なフレームワークであり、均衡ポリシーを解決するためにミニマックス問題を構築している。 現在、この定式化は、最大演算子を主かつ正確に解き、最悪の値関数を計算するための表形式でよく研究されている。 しかし、このような手法を複雑なタスクを扱うように拡張するのは簡単ではない。 本稿では、ゼロサムMGを近似的に解くためのスムージングポリシー反復(SPI)アルゴリズムを提案し、最大演算子は重み付きLogSumExp(WLSE)関数に置き換えられ、ほぼ最適な平衡ポリシを得る。 特に, 作用空間上の効率的なサンプリングを可能にする重み関数として, SPIの収束を証明し, 縮合写像定理に基づいて, 近似誤差を$\infty -$normで解析する。 さらに,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。 WLSE関数に関する目標値をサンプルトラジェクトリで評価し,その値関数を最適化するために平均2乗誤差を構築し,また,この勾配-進-進法を併用して,対角法と対向法を併用する。 さらに,モデルベース勾配バックプロパゲーションにおける再パラメータ化手法を取り入れ,確率政策からのサンプリングによる勾配の消失を防止する。 本アルゴリズムを表と関数の近似設定の両方で検証する。 その結果,SPIは最悪値関数を高い精度で近似することができ,SACはトレーニングプロセスを安定させ,対向ロバスト性を大きく向上させることができることがわかった。

Zero-sum Markov Games (MGs) has been an efficient framework for multi-agent systems and robust control, wherein a minimax problem is constructed to solve the equilibrium policies. At present, this formulation is well studied under tabular settings wherein the maximum operator is primarily and exactly solved to calculate the worst-case value function. However, it is non-trivial to extend such methods to handle complex tasks, as finding the maximum over large-scale action spaces is usually cumbersome. In this paper, we propose the smoothing policy iteration (SPI) algorithm to solve the zero-sum MGs approximately, where the maximum operator is replaced by the weighted LogSumExp (WLSE) function to obtain the nearly optimal equilibrium policies. Specially, the adversarial policy is served as the weight function to enable an efficient sampling over action spaces.We also prove the convergence of SPI and analyze its approximation error in $\infty -$norm based on the contraction mapping theorem. Besides, we propose a model-based algorithm called Smooth adversarial Actor-critic (SaAC) by extending SPI with the function approximations. The target value related to WLSE function is evaluated by the sampled trajectories and then mean square error is constructed to optimize the value function, and the gradient-ascent-descent methods are adopted to optimize the protagonist and adversarial policies jointly. In addition, we incorporate the reparameterization technique in model-based gradient back-propagation to prevent the gradient vanishing due to sampling from the stochastic policies. We verify our algorithm in both tabular and function approximation settings. Results show that SPI can approximate the worst-case value function with a high accuracy and SaAC can stabilize the training process and improve the adversarial robustness in a large margin.
翻訳日:2022-12-06 18:10:28 公開日:2022-12-03
# ADMMを超えて: クライアント分散を再現した適応的フェデレーション学習フレームワーク

Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated Learning Framework ( http://arxiv.org/abs/2212.01519v1 )

ライセンス: Link先を確認
Shuai Wang, Yanqing Xu, Zhiguo Wang, Tsung-Hui Chang, Tony Q. S. Quek, and Defeng Sun(参考訳) 新たな分散学習パラダイムとして、フェデレートラーニング(FL)は、異種データ分散と計算および通信資源で巨大なクライアントを扱う上で、深刻な課題に直面している。 FLのロバスト性を改善するため,様々なクライアント分散還元方式とクライアントサンプリング方式が導入された。 中でも、メソッド乗算器の交互方向(ADMM)のような原始双対アルゴリズムは、データ分布に耐性があり、原始のみのFLアルゴリズムよりも優れていた。 しかし、その理由はまだ謎のままである。 本稿では,連合型ADMMが本質的にクライアント分散推論アルゴリズムであることを示す。 これは、連合ADMMの本質的な堅牢性を説明するが、そのバニラバージョンはクライアントの不均一性の度合いに適応する能力に欠ける。 さらに、クライアントサンプリング下のサーバのグローバルモデルは偏りがあり、実際的な収束が遅くなる。 ADMMを超えるために、我々はFedVRAと呼ばれる新しい原始双対FLアルゴリズムを提案し、このアルゴリズムにより、グローバルモデルの分散還元レベルと偏りを適応的に制御できる。 さらに、FedVRAはFedVRAの特別な例であるか、それに近いという意味で、いくつかの代表FLアルゴリズムを統合する。 半教師なし学習へのFedVRAの拡張も紹介されている。 半)教師付き画像分類タスクに基づく実験は、巨大な異種クライアントとクライアントサンプリングを用いた学習シナリオにおける既存のスキームよりもfeedvraが優れていることを示している。

As a novel distributed learning paradigm, federated learning (FL) faces serious challenges in dealing with massive clients with heterogeneous data distribution and computation and communication resources. Various client-variance-reduction schemes and client sampling strategies have been respectively introduced to improve the robustness of FL. Among others, primal-dual algorithms such as the alternating direction of method multipliers (ADMM) have been found being resilient to data distribution and outperform most of the primal-only FL algorithms. However, the reason behind remains a mystery still. In this paper, we firstly reveal the fact that the federated ADMM is essentially a client-variance-reduced algorithm. While this explains the inherent robustness of federated ADMM, the vanilla version of it lacks the ability to be adaptive to the degree of client heterogeneity. Besides, the global model at the server under client sampling is biased which slows down the practical convergence. To go beyond ADMM, we propose a novel primal-dual FL algorithm, termed FedVRA, that allows one to adaptively control the variance-reduction level and biasness of the global model. In addition, FedVRA unifies several representative FL algorithms in the sense that they are either special instances of FedVRA or are close to it. Extensions of FedVRA to semi/un-supervised learning are also presented. Experiments based on (semi-)supervised image classification tasks demonstrate superiority of FedVRA over the existing schemes in learning scenarios with massive heterogeneous clients and client sampling.
翻訳日:2022-12-06 18:00:15 公開日:2022-12-03
# cotmix:temporal mixupによる時系列のコントラスト領域適応

CoTMix: Contrastive Domain Adaptation for Time-Series via Temporal Mixup ( http://arxiv.org/abs/2212.01555v1 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh and Xiaoli Li(参考訳) Unsupervised Domain Adaptation (UDA) は、ラベル付きソースドメインからシフトしたラベル付きターゲットドメインへの知識転送を通じて、ドメインシフト問題の強力な解決策として登場した。 ビジュアルアプリケーションでUDAが普及しているにもかかわらず、時系列アプリケーションでは調査が比較的少ない。 本稿では,時系列データに対するcotmixと呼ばれる新しい軽量コントラストドメイン適応フレームワークを提案する。 統計的距離法や逆境法を用いる既存のアプローチとは異なり、異なる領域にまたがる分布シフトを緩和するためだけにコントラスト学習を利用する。 具体的には、ソースとターゲットドメインに対する2つの中間的な拡張ビューを生成するための、新しい時間混合戦略を提案する。 その後、コントラスト学習を利用して、各ドメインと対応する拡張ビューとの類似性を最大化する。 生成されたビューは、2つのドメイン間のセマンティクスを継承しながら、適応プロセス中の時系列データの時間的ダイナミクスを考える。 したがって、両領域を共通の中間空間へ徐々に押し上げ、それらの間の分布シフトを緩和する。 4つの実世界の時系列データセットで実施された大規模な実験は、我々のアプローチが最先端のUDA手法を著しく上回っていることを示している。 CoTMix の実装コードは \href{https://github.com/emadeldeen24/CoTMix}{github.com/emadeldeen24/CoTMix} で公開されている。

Unsupervised Domain Adaptation (UDA) has emerged as a powerful solution for the domain shift problem via transferring the knowledge from a labeled source domain to a shifted unlabeled target domain. Despite the prevalence of UDA for visual applications, it remains relatively less explored for time-series applications. In this work, we propose a novel lightweight contrastive domain adaptation framework called CoTMix for time-series data. Unlike existing approaches that either use statistical distances or adversarial techniques, we leverage contrastive learning solely to mitigate the distribution shift across the different domains. Specifically, we propose a novel temporal mixup strategy to generate two intermediate augmented views for the source and target domains. Subsequently, we leverage contrastive learning to maximize the similarity between each domain and its corresponding augmented view. The generated views consider the temporal dynamics of time-series data during the adaptation process while inheriting the semantics among the two domains. Hence, we gradually push both domains towards a common intermediate space, mitigating the distribution shift across them. Extensive experiments conducted on four real-world time-series datasets show that our approach can significantly outperform all state-of-the-art UDA methods. The implementation code of CoTMix is available at \href{https://github.com/emadeldeen24/CoTMix}{github.com/emadeldeen24/CoTMix}.
翻訳日:2022-12-06 17:59:51 公開日:2022-12-03
# 部分領域適応のための変分推論を用いた領域不変特徴アライメント

Domain-Invariant Feature Alignment Using Variational Inference For Partial Domain Adaptation ( http://arxiv.org/abs/2212.01590v1 )

ライセンス: Link先を確認
Sandipan Choudhuri, Suli Adeniye, Arunabha Sen, Hemanth Venkateswara(参考訳) 標準閉集合領域適応アプローチは、同一ラベル集合を共有するという制約の下で、2つの領域間の分布の相違を緩和しようとする。 しかし、現実的なシナリオでは、同じラベル空間を持つ最適なソースドメインを見つけることは難しい課題である。 部分領域適応は、同じラベル空間の仮定でラベル付きデータセットを調達するこの問題を軽減し、ソースラベルセットがターゲットラベルセットを消費するより実用的なシナリオに対処する。 しかし、これは適応中のいくつかの追加の障害を示している。 ソースドメインにプライベートなカテゴリを持つサンプルは、関連する知識伝達を妨げ、モデルパフォーマンスを低下させる。 本研究では,変分情報と逆学習を疑似ラベル法で結合し,クラス分布のアライメントを強制し,ソースサンプルからの超流動情報の伝達を最小化する手法を提案する。 多数のクロスドメイン分類タスクにおける実験結果から,提案手法が既存の手法に匹敵する精度を示している。

The standard closed-set domain adaptation approaches seek to mitigate distribution discrepancies between two domains under the constraint of both sharing identical label sets. However, in realistic scenarios, finding an optimal source domain with identical label space is a challenging task. Partial domain adaptation alleviates this problem of procuring a labeled dataset with identical label space assumptions and addresses a more practical scenario where the source label set subsumes the target label set. This, however, presents a few additional obstacles during adaptation. Samples with categories private to the source domain thwart relevant knowledge transfer and degrade model performance. In this work, we try to address these issues by coupling variational information and adversarial learning with a pseudo-labeling technique to enforce class distribution alignment and minimize the transfer of superfluous information from the source samples. The experimental findings in numerous cross-domain classification tasks demonstrate that the proposed technique delivers superior and comparable accuracy to existing methods.
翻訳日:2022-12-06 17:59:29 公開日:2022-12-03
# ADMMを用いたQoS予測のためのテンソル法の潜在因子化

An ADMM-Incorporated Latent Factorization of Tensors Method for QoS Prediction ( http://arxiv.org/abs/2212.01606v1 )

ライセンス: Link先を確認
Jiajia Mi, Hao Wu(参考訳) インターネットが急速に発展するにつれて、幅広い候補から適切なWebサービスを選択することが重要である。 Quality of Service(QoS)は、サービス消費者が要求するサービスに関して、Webサービスのパフォーマンスを動的に記述します。 さらに, テンソルの潜在因子化は, 高次元およびスパーステンソルにおける時間的パターンの発見に非常に有効である。 しかし、現在のLFTモデルは低い収束率に悩まされており、外乱の影響をほとんど考慮していない。 上記の問題に対処するため,本論文では,テンソルモデルにおける乗算器(admm)に基づく非負の非負因数分解の交互方向法を提案する。 ADMM最適化フレームワークを用いて拡張ラグランジアン関数を構築することにより、モデルの非負性を維持する。 さらに、コーシー関数はモデルトレーニングへの影響を減らすための計量関数として取られる。 2つの動的qosデータセットに関する実証研究は,提案手法がより高速に収束し,予測精度が向上することを示す。

As the Internet developed rapidly, it is important to choose suitable web services from a wide range of candidates. Quality of service (QoS) describes the performance of a web service dynamically with respect to the service requested by the service consumer. Moreover, the latent factorization of tenors (LFT) is very effective for discovering temporal patterns in high dimensional and sparse (HiDS) tensors. However, current LFT models suffer from a low convergence rate and rarely account for the effects of outliers. To address the above problems, this paper proposes an Alternating direction method of multipliers (ADMM)-based Outlier-Resilient Nonnegative Latent-factorization of Tensors model. We maintain the non-negativity of the model by constructing an augmented Lagrangian function with the ADMM optimization framework. In addition, the Cauchy function is taken as the metric function to reduce the impact on the model training. The empirical work on two dynamic QoS datasets shows that the proposed method has faster convergence and better performance on prediction accuracy.
翻訳日:2022-12-06 17:59:12 公開日:2022-12-03
# エージェントモデルとしての言語モデル

Language Models as Agent Models ( http://arxiv.org/abs/2212.01681v1 )

ライセンス: Link先を確認
Jacob Andreas(参考訳) 言語モデル(LM)は、外部の世界で特定の目標を達成するために、個々の人間のエージェントによって書かれた文書の集合に基づいて訓練される。 訓練中、LMはこれらの文書のテキストにのみアクセスでき、それらを生み出したエージェントの内部状態の直接的な証拠はない。 テキストで訓練されたLMは、言語と使用の関係について、まったく学べるだろうか? LMは、特定の狭義の意図的なコミュニケーションのモデルである、と私は主張する。 テキストコンテキストが与えられた次の単語予測を行う場合、LMはそのコンテキストを生成する可能性のあるエージェントの特性を推論し、表現することができる。 これらの表現は、エージェントのコミュニケーション意図が彼らの言語に影響を与えるのと同じように、後続のlm生成に影響を与えることができる。 私は最近の文献から、今日の非ロバストおよびエラーを起こしやすいモデルでさえ、きめ細かいコミュニケーション意図とより抽象的な信念と目標の表現を lms が推論し使用していることが分かる。 トレーニングデータの性質は限られているものの、故意に通信し行動するシステムのビルディングブロックとして機能することができる。

Language models (LMs) are trained on collections of documents, written by individual human agents to achieve specific goals in an outside world. During training, LMs have access only to text of these documents, with no direct evidence of the internal states of the agents that produced them -- a fact often used to argue that LMs are incapable of modeling goal-directed aspects of human language production and comprehension. Can LMs trained on text learn anything at all about the relationship between language and use? I argue that LMs are models of intentional communication in a specific, narrow sense. When performing next word prediction given a textual context, an LM can infer and represent properties of an agent likely to have produced that context. These representations can in turn influence subsequent LM generation in the same way that agents' communicative intentions influence their language. I survey findings from the recent literature showing that -- even in today's non-robust and error-prone models -- LMs infer and use representations of fine-grained communicative intentions and more abstract beliefs and goals. Despite the limited nature of their training data, they can thus serve as building blocks for systems that communicate and act intentionally.
翻訳日:2022-12-06 17:50:25 公開日:2022-12-03
# 自然言語表現の導入による未認識領域への複数オブジェクト追跡の一般化

Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation ( http://arxiv.org/abs/2212.01568v1 )

ライセンス: Link先を確認
En Yu, Songtao Liu, Zhuoling Li, Jinrong Yang, Zeming li, Shoudong Han, Wenbing Tao(参考訳) 既存のマルチオブジェクトトラッキング(mot)アルゴリズムは様々なベンチマークで競合性能を得ているが、ほとんどが同じドメインでモデルのトレーニングと検証を行っている。 MOTの領域一般化問題はほとんど研究されていない。 このギャップを埋めるために,まず,自然言語に含まれる高レベル情報は異なる追跡領域に不変な領域であることを示す。 そこで本研究では,視覚的MOTモデルに自然言語表現を導入し,ドメインの一般化能力を高めることを提案する。 しかし、すべての追跡対象をテキスト記述でラベル付けすることは不可能である。 この問題に対処するために、視覚コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。 具体的には、VCPは入力フレームに基づいて視覚的なプロンプトを生成する。 VLMは生成された視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトを結合して、異なるトラッキングシーンとドメイン不変のインスタンスレベルの擬似テキスト記述を得る。 MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することがわかった。

Although existing multi-object tracking (MOT) algorithms have obtained competitive performance on various benchmarks, almost all of them train and validate models on the same domain. The domain generalization problem of MOT is hardly studied. To bridge this gap, we first draw the observation that the high-level information contained in natural language is domain invariant to different tracking domains. Based on this observation, we propose to introduce natural language representation into visual MOT models for boosting the domain generalization ability. However, it is infeasible to label every tracking target with a textual description. To tackle this problem, we design two modules, namely visual context prompting (VCP) and visual-language mixing (VLM). Specifically, VCP generates visual prompts based on the input frames. VLM joints the information in the generated visual prompts and the textual prompts from a pre-defined Trackbook to obtain instance-level pseudo textual description, which is domain invariant to different tracking scenes. Through training models on MOT17 and validating them on MOT20, we observe that the pseudo textual descriptions generated by our proposed modules improve the generalization performance of query-based trackers by large margins.
翻訳日:2022-12-06 17:08:09 公開日:2022-12-03
# Box2Mask:レベルセット進化によるボックス管理インスタンスセグメンテーション

Box2Mask: Box-supervised Instance Segmentation via Level-set Evolution ( http://arxiv.org/abs/2212.01579v1 )

ライセンス: Link先を確認
Wentong Li, Wenyu Liu, Jianke Zhu, Miaomiao Cui, Risheng Yu, Xiansheng Hua, Lei Zhang(参考訳) ピクセルワイズマスクラベルを用いた完全教師付き手法とは対照的に、ボックス教師付きインスタンスセグメンテーションは単純なボックスアノテーションを利用しており、近年研究の注目を集めている。 本稿では、従来のレベルセット進化モデルをディープニューラルネットワーク学習に統合し、バウンディングボックスのみによる正確なマスク予測を実現する、新しいシングルショットインスタンスセグメンテーションアプローチ、box2maskを提案する。 具体的には、入力画像と深い特徴の両方を用いてレベルセット曲線を暗黙的に発展させ、ピクセル親和性カーネルに基づく局所的一貫性モジュールを用いて局所的文脈と空間的関係をマイニングする。 CNNベースのフレームワークとトランスフォーマーベースのフレームワークという2つのタイプのシングルステージフレームワークが、ボックス管理インスタンスセグメンテーションのレベルセット進化を促進するために開発され、各フレームワークは3つの必須コンポーネント(インスタンス認識デコーダ、ボックスレベルのマッチング割り当て、レベルセット進化)で構成されている。 レベルセットエネルギー関数を最小化することで、各インスタンスのマスクマップを境界ボックスアノテーション内で反復的に最適化することができる。 一般的なシーン,リモートセンシング,医用テキスト画像およびシーンテキスト画像をカバーする5つのテストベッドの実験結果は,ボックス教師付きインスタンスセグメンテーションに対するbox2maskアプローチの優れた性能を示している。 特に、Swin-Transformerの大きなバックボーンでは、Box2MaskはCOCO上で42.4%のマスクAPを取得しており、これは最近開発された完全なマスク管理手法と同等である。 コードはhttps://github.com/liwentomng/boxlevelsetで入手できる。

In contrast to fully supervised methods using pixel-wise mask labels, box-supervised instance segmentation takes advantage of simple box annotations, which has recently attracted increasing research attention. This paper presents a novel single-shot instance segmentation approach, namely Box2Mask, which integrates the classical level-set evolution model into deep neural network learning to achieve accurate mask prediction with only bounding box supervision. Specifically, both the input image and its deep features are employed to evolve the level-set curves implicitly, and a local consistency module based on a pixel affinity kernel is used to mine the local context and spatial relations. Two types of single-stage frameworks, i.e., CNN-based and transformer-based frameworks, are developed to empower the level-set evolution for box-supervised instance segmentation, and each framework consists of three essential components: instance-aware decoder, box-level matching assignment and level-set evolution. By minimizing the level-set energy function, the mask map of each instance can be iteratively optimized within its bounding box annotation. The experimental results on five challenging testbeds, covering general scenes, remote sensing, medical and scene text images, demonstrate the outstanding performance of our proposed Box2Mask approach for box-supervised instance segmentation. In particular, with the Swin-Transformer large backbone, our Box2Mask obtains 42.4% mask AP on COCO, which is on par with the recently developed fully mask-supervised methods. The code is available at: https://github.com/LiWentomng/boxlevelset.
翻訳日:2022-12-06 17:07:50 公開日:2022-12-03
# BlendGAN:空間像密度条件による単一画像の内部分布の学習とブレンディング

BlendGAN: Learning and Blending the Internal Distributions of Single Images by Spatial Image-Identity Conditioning ( http://arxiv.org/abs/2212.01589v1 )

ライセンス: Link先を確認
Idan Kligvasser, Tamar Rott Shaham, Noa Alkobi and Tomer Michaeli(参考訳) 近年,単一の画像上で生成モデルを訓練することが注目されている。 単一画像生成法は、複数のスケールで単一の自然な画像の内部パッチ分布を学習するために設計されている。 これらのモデルは、トレーニングイメージにセマンティックに類似した多様なサンプルの描画や、その画像を含む多くの画像編集および復元タスクの解決に使用することができる。 本稿では,空間的に変化する画像同一性条件付き単一モデルを用いて,複数の画像の内部分布を同時に学習できる拡張フレームワークを提案する。 私たちのBlendGANは、モーフィング、溶接、および2つ以上の任意の画像間の構造・テクスチャ融合を含む、単一イメージモデルでサポートされていないアプリケーションへの扉を開く。

Training a generative model on a single image has drawn significant attention in recent years. Single image generative methods are designed to learn the internal patch distribution of a single natural image at multiple scales. These models can be used for drawing diverse samples that semantically resemble the training image, as well as for solving many image editing and restoration tasks that involve that particular image. Here, we introduce an extended framework, which allows to simultaneously learn the internal distributions of several images, by using a single model with spatially varying image-identity conditioning. Our BlendGAN opens the door to applications that are not supported by single-image models, including morphing, melding, and structure-texture fusion between two or more arbitrary images.
翻訳日:2022-12-06 17:07:22 公開日:2022-12-03
# RepVGGを再び大きくする:量子化を意識したアプローチ

Make RepVGG Greater Again: A Quantization-aware Approach ( http://arxiv.org/abs/2212.01593v1 )

ライセンス: Link先を確認
Xiangxiang Chu and Liang Li and Bo Zhang(参考訳) パフォーマンスと推論速度のトレードオフは、実用的なアプリケーションにとって重要です。 アーキテクチャの再パラメータ化はより良いトレードオフを獲得し、現代の畳み込みニューラルネットワークでますます人気が高まっている。 それでも、int8推論が必要な場合、その量子化性能は、通常、デプロイに乏しい(例えば、imagenetのtop-1精度低下の20%以上)。 本稿では,本手法が量子化誤差を必然的に増大させるこの障害のメカニズムについて考察する。 我々は,再パラメータ化の利点を享受できる量子化フレンドリな構造を実現するために,シンプルで堅牢で効果的な治療法を提案する。 提案手法は,RepVGGにおけるINT8とFP32の精度のギャップを大きく埋める。 ベルとホイッスルがなければ、imagenetのtop-1精度低下は、標準的なトレーニング後の量子化によって2\%以内に削減される。

The tradeoff between performance and inference speed is critical for practical applications. Architecture reparameterization obtains better tradeoffs and it is becoming an increasingly popular ingredient in modern convolutional neural networks. Nonetheless, its quantization performance is usually too poor to deploy (e.g. more than 20% top-1 accuracy drop on ImageNet) when INT8 inference is desired. In this paper, we dive into the underlying mechanism of this failure, where the original design inevitably enlarges quantization error. We propose a simple, robust, and effective remedy to have a quantization-friendly structure that also enjoys reparameterization benefits. Our method greatly bridges the gap between INT8 and FP32 accuracy for RepVGG. Without bells and whistles, the top-1 accuracy drop on ImageNet is reduced within 2\% by standard post-training quantization.
翻訳日:2022-12-06 17:07:08 公開日:2022-12-03
# StegaNeRF: ニューラルラジアンスフィールドに見えない情報を埋め込む

StegaNeRF: Embedding Invisible Information within Neural Radiance Fields ( http://arxiv.org/abs/2212.01602v1 )

ライセンス: Link先を確認
Chenxin Li, Brandon Y. Feng, Zhiwen Fan, Panwang Pan, Zhangyang Wang(参考訳) ニューラルレンダリングの最近の進歩は、NeRFモデル重みを共有することで、広範な視覚データ分布の未来を示唆している。 しかし、一般的なビジュアルデータ(画像やビデオ)は、所有権や著作権情報を明示的にあるいは微妙に埋め込むための標準的なアプローチを持っているが、新たなNeRFフォーマットでは未検討のままである。 我々は、NeRFレンダリングにステガノグラフィー情報を埋め込む方法であるStegaNeRFを提案する。 我々は、NeRFで描画された画像から正確な隠れ情報抽出が可能な最適化フレームワークを設計する。 本手法は,いくつかの潜在的な展開シナリオで実験的評価を行い,分析結果から得られた知見について検討する。 StegaNeRFは、NeRFレンダリングにカスタマイズ可能で、認識不能で、回復不能な情報を注入するという、レンダリング画像への影響を最小限に抑えて、新しい問題に対する最初の調査である。 プロジェクトページ: https://xggnet.github.io/StegaNeRF/。

Recent advances in neural rendering imply a future of widespread visual data distributions through sharing NeRF model weights. However, while common visual data (images and videos) have standard approaches to embed ownership or copyright information explicitly or subtly, the problem remains unexplored for the emerging NeRF format. We present StegaNeRF, a method for steganographic information embedding in NeRF renderings. We design an optimization framework allowing accurate hidden information extractions from images rendered by NeRF, while preserving its original visual quality. We perform experimental evaluations of our method under several potential deployment scenarios, and we further discuss the insights discovered through our analysis. StegaNeRF signifies an initial exploration into the novel problem of instilling customizable, imperceptible, and recoverable information to NeRF renderings, with minimal impact to rendered images. Project page: https://xggnet.github.io/StegaNeRF/.
翻訳日:2022-12-06 17:06:55 公開日:2022-12-03
# VLG:Webテキスト知識による一般的なビデオ認識

VLG: General Video Recognition with Web Textual Knowledge ( http://arxiv.org/abs/2212.01638v1 )

ライセンス: Link先を確認
Jintao Lin, Zhaoyang Liu, Wenhai Wang, Wayne Wu, Limin Wang(参考訳) オープンでダイナミックな世界におけるビデオ認識は、クローズセット、ロングテール、少数ショット、オープンセットなど、さまざまな設定を扱う必要があるため、非常に難しい。 インターネットからクロールされたノイズの多いテキスト記述から意味的知識を活用することで、統一されたフレームワーク内で異なる認識タスクを解決する一般ビデオ認識(gvr)の問題に焦点をあてる。 本論文の核となる貢献は2つある。 まず、Kinetics-GVRの総合的なビデオ認識ベンチマークを構築し、前述の設定をカバーする4つのサブタスクデータセットを含む。 gvrの研究を容易にするために,インターネットから外部のテキスト知識を活用し,すべてのアクションクラスに対してマルチソーステキスト記述を提供することを提案する。 第2に,言語表現の柔軟性に触発されて,効果的な2段階学習パラダイムによってGVRの問題を解決する統一視覚言語フレームワーク(VLG)を提案する。 当社のvlgは、まずビデオと言語データセットを使って共有機能空間を学習し、その後、さまざまな設定でハイレベルな意味概念を協調するために、柔軟なバイモーダルな注意を向ける。 以上の結果から,VLGは4つの条件で最先端の性能を得ることができた。 優れた性能は,提案フレームワークの有効性と一般化能力を示す。 私たちの研究が一般的なビデオ認識への一歩を踏み出し、将来の研究のベースラインになることを期待しています。 コードとモデルはhttps://github.com/MCG-NJU/VLGで入手できる。

Video recognition in an open and dynamic world is quite challenging, as we need to handle different settings such as close-set, long-tail, few-shot and open-set. By leveraging semantic knowledge from noisy text descriptions crawled from the Internet, we focus on the general video recognition (GVR) problem of solving different recognition tasks within a unified framework. The core contribution of this paper is twofold. First, we build a comprehensive video recognition benchmark of Kinetics-GVR, including four sub-task datasets to cover the mentioned settings. To facilitate the research of GVR, we propose to utilize external textual knowledge from the Internet and provide multi-source text descriptions for all action classes. Second, inspired by the flexibility of language representation, we present a unified visual-linguistic framework (VLG) to solve the problem of GVR by an effective two-stage training paradigm. Our VLG is first pre-trained on video and language datasets to learn a shared feature space, and then devises a flexible bi-modal attention head to collaborate high-level semantic concepts under different settings. Extensive results show that our VLG obtains the state-of-the-art performance under four settings. The superior performance demonstrates the effectiveness and generalization ability of our proposed framework. We hope our work makes a step towards the general video recognition and could serve as a baseline for future research. The code and models will be available at https://github.com/MCG-NJU/VLG.
翻訳日:2022-12-06 17:06:39 公開日:2022-12-03
# スマート教室に関する調査研究:概念・技術・顔の感情認識への応用

A survey of smart classroom: Concept, technologies and facial emotions recognition application ( http://arxiv.org/abs/2212.01675v1 )

ライセンス: Link先を確認
Rajae Amimi, Amina radgui, and Ibn el haj el hassane(参考訳) デジタル学習ツールを教室に組み込むことで、生徒がより効率的に学習する機会が得られ、教師がより簡単に知識を伝達できるようになる。 近年,スマート教室に多くの改良が加えられている。 例えば、顔の感情認識システム(FER)の統合は、教室をマシンインテリジェンスとIoTの力を使って感情に敏感な領域に変えた。 本稿では、スマート教室のコンセプトにおける最先端技術に関する総合的な調査を行い、FERシステムの応用がいかにしてこの概念を次のレベルに導くかを示す。

Technology has transformed traditional educational systems around the globe; integrating digital learning tools into classrooms offers students better opportunities to learn efficiently and allows the teacher to transfer knowledge more easily. In recent years, there have been many improvements in smart classrooms. For instance, the integration of facial emotion recognition systems (FER) has transformed the classroom into an emotionally aware area using the power of machine intelligence and IoT. This paper provides a consolidated survey of the state-of-the-art in the concept of smart classrooms and presents how the application of FER systems significantly takes this concept to the next level
翻訳日:2022-12-06 17:06:15 公開日:2022-12-03
# 適応型タスクベース優先順位付けを用いたアクティブラーニング

Active learning using adaptable task-based prioritisation ( http://arxiv.org/abs/2212.01703v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Jo\~ao Ramalhinho, Mark Pinnock, Ziyi Shen, Yunguan Fu, Nina Monta\~na-Brown, Ester Bonmati, Dean C. Barratt, Stephen P. Pereira, Brian Davidson, Matthew J. Clarkson, Yipeng Hu(参考訳) 監視された機械学習ベースの医療画像コンピューティングアプリケーションは、専門家のラベルのキュレーションを必要とする。 アクティブラーニング手法は、ラベル効率のよいモデルトレーニングのためのエキスパートアノテーションのために利用可能な画像データのサブセットを優先することを目的としている。 マルチクラスセグメンテーションタスクのためのバッチモードアクティブラーニングのように、バッチのシーケンスにおける画像の優先度を測定する制御ニューラルネットワークを開発した。 コントローラは、タスク予測器を最適化するマルコフ決定プロセス(mdp)環境内で、ポジティブなタスク固有のパフォーマンスゲインを報奨することにより最適化される。 この作業では、タスク予測器はセグメンテーションネットワークである。 メタ強化学習アルゴリズムは、複数のMDPを用いて提案され、事前訓練されたコントローラは、異なる機関からのデータを含む新しいMDPに適合し、または/または腹部内の異なる臓器や構造のセグメンテーションを必要とする。 そこで本研究では,9つの異なる腹部臓器のセグメンテーションタスクを伴い,1000名以上の患者から得られたctデータを用いて,学習優先制御機能とその交叉およびクロスオルガン適応性の有効性を実証した。 提案する適応性優先順位付け指標は,他のヒューリスティック・ランダム・優先順位付け指標で要求されるラベルの約40~60\%を用いて,訓練中未熟な新しい腎臓の分別精度を収束させる。 限られたサイズの臨床データセットでは、ランダムな優先順位付けと代替のアクティブサンプリング戦略と比較して、diceスコアの22.6\%と10.2\%の性能改善が提案されている。

Supervised machine learning-based medical image computing applications necessitate expert label curation, while unlabelled image data might be relatively abundant. Active learning methods aim to prioritise a subset of available image data for expert annotation, for label-efficient model training. We develop a controller neural network that measures priority of images in a sequence of batches, as in batch-mode active learning, for multi-class segmentation tasks. The controller is optimised by rewarding positive task-specific performance gain, within a Markov decision process (MDP) environment that also optimises the task predictor. In this work, the task predictor is a segmentation network. A meta-reinforcement learning algorithm is proposed with multiple MDPs, such that the pre-trained controller can be adapted to a new MDP that contains data from different institutes and/or requires segmentation of different organs or structures within the abdomen. We present experimental results using multiple CT datasets from more than one thousand patients, with segmentation tasks of nine different abdominal organs, to demonstrate the efficacy of the learnt prioritisation controller function and its cross-institute and cross-organ adaptability. We show that the proposed adaptable prioritisation metric yields converging segmentation accuracy for the novel class of kidney, unseen in training, using between approximately 40\% to 60\% of labels otherwise required with other heuristic or random prioritisation metrics. For clinical datasets of limited size, the proposed adaptable prioritisation offers a performance improvement of 22.6\% and 10.2\% in Dice score, for tasks of kidney and liver vessel segmentation, respectively, compared to random prioritisation and alternative active sampling strategies.
翻訳日:2022-12-06 17:06:05 公開日:2022-12-03
# IDMS:マルチスケールモノクロ3Dオブジェクト検出のためのインスタンス深さ

IDMS: Instance Depth for Multi-scale Monocular 3D Object Detection ( http://arxiv.org/abs/2212.01528v1 )

ライセンス: Link先を確認
Chao Hu, Liqiang Zhu, Weibing Qiu, Weijie Wu(参考訳) 画像の深度情報の欠如とモノクロ3次元物体検出における検出精度の低下により,マルチスケールモノクロ3次元物体検出手法のインスタンス深度を提案した。 まず、異なるスケール対象に対するモデルの処理能力を高めるために、拡張畳み込みに基づくマルチスケール知覚モジュールを設計し、異なるスケールの特徴地図間の不整合を考慮した空間的・水路的方向の両方からマルチスケール情報を含む深度特徴を改良する。 まず,拡張畳み込みに基づくマルチスケール知覚モジュールを設計し,異なるスケールターゲットに対するモデルの処理能力を向上させる。 マルチスケール情報を含む深度特徴は、異なるスケールの特徴マップ間の不整合を考慮した空間方向とチャネル方向から再定義する。 次に,モデルがより優れた3次元知覚を得るために,3次元対象の空間的深さ特性を高めるための補助学習タスクとしてインスタンス深さ情報を使用し,スパースインスタンス深さを用いて補助タスクを監督することを提案した。 最後に,kittiテストセットおよび評価セット上で提案アルゴリズムを検証することにより,提案手法をベースライン法と比較し,車種別ap40における5.27\%改善し,単眼3次元物体検出アルゴリズムの検出性能を効果的に向上することを示す。

Due to the lack of depth information of images and poor detection accuracy in monocular 3D object detection, we proposed the instance depth for multi-scale monocular 3D object detection method. Firstly, to enhance the model's processing ability for different scale targets, a multi-scale perception module based on dilated convolution is designed, and the depth features containing multi-scale information are re-refined from both spatial and channel directions considering the inconsistency between feature maps of different scales. Firstly, we designed a multi-scale perception module based on dilated convolution to enhance the model's processing ability for different scale targets. The depth features containing multi-scale information are re-refined from spatial and channel directions considering the inconsistency between feature maps of different scales. Secondly, so as to make the model obtain better 3D perception, this paper proposed to use the instance depth information as an auxiliary learning task to enhance the spatial depth feature of the 3D target and use the sparse instance depth to supervise the auxiliary task. Finally, by verifying the proposed algorithm on the KITTI test set and evaluation set, the experimental results show that compared with the baseline method, the proposed method improves by 5.27\% in AP40 in the car category, effectively improving the detection performance of the monocular 3D object detection algorithm.
翻訳日:2022-12-06 16:57:35 公開日:2022-12-03
# 自己教師型勾配合成による多分解能単分子深度マップ融合

Multi-resolution Monocular Depth Map Fusion by Self-supervised Gradient-based Composition ( http://arxiv.org/abs/2212.01538v1 )

ライセンス: Link先を確認
Yaqiao Dai, Renjiao Yi, Chenyang Zhu, Hongjun He and Kai Xu(参考訳) 単眼深度推定は、ディープニューラルネットワークが大きな可能性を証明した難しい問題である。 しかしながら、既存の深層モデルによって予測される深層マップは、畳み込み操作とネットワークのダウンサンプリングのため、通常は細かな詳細を欠いている。 入力解像度の増大は局所的な情報保存に役立つが,低解像度での推定は世界規模でより正確である。 そこで本研究では,マルチレゾリューション入力と推定の利点を組み合わせた新しい深度マップ融合モジュールを提案する。 低分解能および高分解能推定を等しく融合させる代わりに、ポアソン融合のコアアイデアを採用し、高分解能深さの勾配領域を低分解能深さに埋め込もうとする。 古典的なポアソン・フュージョンではフュージョンマスクを監督する必要があるが、ガイド画像フィルタリングに基づく自己監視フレームワークを提案する。 この勾配に基づく組成は,最先端の深度マップ融合法に比べ,ノイズ耐性に優れることが示された。 軽量な奥行き融合はワンショットでリアルタイムに動作し,最先端の奥行き融合法よりも80倍高速である。 定量的評価により,提案手法は,多くの完全畳み込み単眼深度推定バックボーンに統合でき,その性能向上が期待できることがわかった。

Monocular depth estimation is a challenging problem on which deep neural networks have demonstrated great potential. However, depth maps predicted by existing deep models usually lack fine-grained details due to the convolution operations and the down-samplings in networks. We find that increasing input resolution is helpful to preserve more local details while the estimation at low resolution is more accurate globally. Therefore, we propose a novel depth map fusion module to combine the advantages of estimations with multi-resolution inputs. Instead of merging the low- and high-resolution estimations equally, we adopt the core idea of Poisson fusion, trying to implant the gradient domain of high-resolution depth into the low-resolution depth. While classic Poisson fusion requires a fusion mask as supervision, we propose a self-supervised framework based on guided image filtering. We demonstrate that this gradient-based composition performs much better at noisy immunity, compared with the state-of-the-art depth map fusion method. Our lightweight depth fusion is one-shot and runs in real-time, making our method 80X faster than a state-of-the-art depth fusion method. Quantitative evaluations demonstrate that the proposed method can be integrated into many fully convolutional monocular depth estimation backbones with a significant performance boost, leading to state-of-the-art results of detail enhancement on depth maps.
翻訳日:2022-12-06 16:57:09 公開日:2022-12-03
# 長文学習における特徴と分類器間の角情報活用--予測再編成アプローチ

Leveraging Angular Information Between Feature and Classifier for Long-tailed Learning: A Prediction Reformulation Approach ( http://arxiv.org/abs/2212.01565v1 )

ライセンス: Link先を確認
Haoxuan Wang and Junchi Yan(参考訳) ディープニューラルネットワークは、長い尾のイメージデータセットに苦戦している。その理由の1つは、カテゴリ間のトレーニングデータの不均衡が、トレーニングされたモデルパラメータの不均衡につながることである。 頭部クラスにおいて,訓練された分類器がより大きな重量規範をもたらすという経験的知見に動機づけられ,分類器重みを再バランスすることなく,包含角度を通じて認識確率を再構成することを提案する。 具体的には,データ特徴量とクラス別分類器重みの角度を計算し,角度に基づく予測結果を得る。 予測形式改革の性能向上と広く使われている2段階学習フレームワークの卓越した性能に触発されて,この角度予測の異なる特性を探求し,フレームワーク内の異なるコンポーネントのパフォーマンスを改善するための新しいモジュールを提案する。 CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。 ソースコードは公開される予定だ。

Deep neural networks still struggle on long-tailed image datasets, and one of the reasons is that the imbalance of training data across categories leads to the imbalance of trained model parameters. Motivated by the empirical findings that trained classifiers yield larger weight norms in head classes, we propose to reformulate the recognition probabilities through included angles without re-balancing the classifier weights. Specifically, we calculate the angles between the data feature and the class-wise classifier weights to obtain angle-based prediction results. Inspired by the performance improvement of the predictive form reformulation and the outstanding performance of the widely used two-stage learning framework, we explore the different properties of this angular prediction and propose novel modules to improve the performance of different components in the framework. Our method is able to obtain the best performance among peer methods without pretraining on CIFAR10/100-LT and ImageNet-LT. Source code will be made publicly available.
翻訳日:2022-12-06 16:56:46 公開日:2022-12-03
# AdaCM: リアルタイムユニバーサルフォトリアリスティックスタイル転送のための適応型カラーMLP

AdaCM: Adaptive ColorMLP for Real-Time Universal Photo-realistic Style Transfer ( http://arxiv.org/abs/2212.01567v1 )

ライセンス: Link先を確認
Tianwei Lin, Honglin Lin, Fu Li, Dongliang He, Wenhao Wu, Meiling Wang, Xin Li, Yong Liu(参考訳) フォトリアリスティックなスタイル転送は、芸術的スタイルを模範的なスタイルからコンテンツイメージに移行し、空間的歪みや非現実的アーティファクトのない結果画像を生成することを目的としている。 最近の深層モデルでは印象的な結果が得られている。 しかし、ディープニューラルネットワークベースの手法は、リアルタイムに実行するには高価すぎる。 一方、双方向グリッドベースの手法はより高速であるが、過剰露光のようなアーティファクトを含んでいる。 本研究では,フォトリアリスティックなスタイル転送のための効率的かつ効率的なフレームワークであるtextbf{Adaptive ColorMLP (AdaCM)}を提案する。 まず、入力領域と対象領域の間の複雑な非線形色マッピングを、小さな多層パーセプトロン(colormlp)モデルによって効率的にモデル化できることを示す。 次に,textbf{AdaCM}ではCNNエンコーダを採用し,各入力内容とスタイル画像対に条件付きColorMLPのパラメータを適応的に予測する。 実験の結果,adacmは鮮明で高品質なスタイライゼーション結果を生成することができた。 一方、AdaCMは超高速で、1つのV100 GPU上で6msで4K解像度の画像を処理できます。

Photo-realistic style transfer aims at migrating the artistic style from an exemplar style image to a content image, producing a result image without spatial distortions or unrealistic artifacts. Impressive results have been achieved by recent deep models. However, deep neural network based methods are too expensive to run in real-time. Meanwhile, bilateral grid based methods are much faster but still contain artifacts like overexposure. In this work, we propose the \textbf{Adaptive ColorMLP (AdaCM)}, an effective and efficient framework for universal photo-realistic style transfer. First, we find the complex non-linear color mapping between input and target domain can be efficiently modeled by a small multi-layer perceptron (ColorMLP) model. Then, in \textbf{AdaCM}, we adopt a CNN encoder to adaptively predict all parameters for the ColorMLP conditioned on each input content and style image pair. Experimental results demonstrate that AdaCM can generate vivid and high-quality stylization results. Meanwhile, our AdaCM is ultrafast and can process a 4K resolution image in 6ms on one V100 GPU.
翻訳日:2022-12-06 16:56:27 公開日:2022-12-03
# THOR -- 7.29G TSOP$^2$/mm$^2$Jsエネルギー消費効率を有するニューロモルフィックプロセッサ

THOR -- A Neuromorphic Processor with 7.29G TSOP$^2$/mm$^2$Js Energy-Throughput Efficiency ( http://arxiv.org/abs/2212.01696v1 )

ライセンス: Link先を確認
Mayank Senapati, Manil Dev Gomony, Sherif Eissa, Charlotte Frenkel, and Henk Corporaal(参考訳) 生物学的にインスパイアされたスパイクニューラルネットワーク(snn)を用いたニューロモルフィックコンピューティングは、エッジコンピューティングデバイスに必要なエネルギスルー(et)効率を満たす有望なソリューションである。 snnをアナログ/混合信号領域でエミュレートするニューロモルフィックなハードウェアアーキテクチャは、全デジタルアーキテクチャよりも桁違いに高エネルギー効率を実現するために提案されているが、拡張性、ノイズ感受性、複雑な検証、柔軟性の低下を犠牲にしている。 一方、最先端のディジタルニューロモルフィックアーキテクチャは高エネルギー効率(ジュール/シナプス演算(SOP))かスループット効率(SOP/秒/領域)に重点を置いており、ET効率は低い。 本稿では、エネルギー消費とスループットのボトルネックに対処する新しいメモリ階層とニューロン更新アーキテクチャを備えた全デジタルニューロモルフィックプロセッサTHORを提案する。 我々は28nm FDSOI CMOS技術でTHORを実装し,そのET効率を7.29G $\text{TSOP}^2/\text{mm}^2\text{Js}$ at 0.9V, 400 MHzで実証した。

Neuromorphic computing using biologically inspired Spiking Neural Networks (SNNs) is a promising solution to meet Energy-Throughput (ET) efficiency needed for edge computing devices. Neuromorphic hardware architectures that emulate SNNs in analog/mixed-signal domains have been proposed to achieve order-of-magnitude higher energy efficiency than all-digital architectures, however at the expense of limited scalability, susceptibility to noise, complex verification, and poor flexibility. On the other hand, state-of-the-art digital neuromorphic architectures focus either on achieving high energy efficiency (Joules/synaptic operation (SOP)) or throughput efficiency (SOPs/second/area), resulting in poor ET efficiency. In this work, we present THOR, an all-digital neuromorphic processor with a novel memory hierarchy and neuron update architecture that addresses both energy consumption and throughput bottlenecks. We implemented THOR in 28nm FDSOI CMOS technology and our post-layout results demonstrate an ET efficiency of 7.29G $\text{TSOP}^2/\text{mm}^2\text{Js}$ at 0.9V, 400 MHz, which represents a 3X improvement over state-of-the-art digital neuromorphic processors.
翻訳日:2022-12-06 16:47:33 公開日:2022-12-03
# 知的言語学習システムにおけるドメインモデルの表現としての言語構成

Linguistic Constructs as the Representation of the Domain Model in an Intelligent Language Tutoring System ( http://arxiv.org/abs/2212.01711v1 )

ライセンス: Link先を確認
Anisia Katinskaia, Jue Hou, Anh-Duc Vu, Roman Yangarber(参考訳) 本稿では,AIを用いた言語学習プラットフォームRevitaの開発について述べる。 低中間レベルから上級レベルまで、複数の言語の学習者をサポートするために開発された。 いくつかの大学の何百人もの学生がパイロットで利用しており、フィードバックとニーズが開発を形作っている。 Revitaの主な特徴の1つは、ドメイン知識の表現としての言語構造体系の導入である。 構成体系は言語教育の専門家と緊密に連携して開発されている。 構成は、エクササイズの種類、フィードバックの内容を定義し、学習進捗の詳細なモデリングと評価を可能にする。

This paper presents the development of an AI-based language learning platform Revita. It is a freely available intelligent online tutor, developed to support learners of multiple languages, from low-intermediate to advanced levels. It has been in pilot use by hundreds of students at several universities, whose feedback and needs are shaping the development. One of the main emerging features of Revita is the introduction of a system of linguistic constructs as the representation of domain knowledge. The system of constructs is developed in close collaboration with experts in language teaching. Constructs define the types of exercises, the content of the feedback, and enable the detailed modeling and evaluation of learning progress.
翻訳日:2022-12-06 16:41:39 公開日:2022-12-03
# 注文は望ましくない - 動的ディープグラフ畳み込みネットワークによるパーソナリティ検出

Orders Are Unwanted: Dynamic Deep Graph Convolutional Network for Personality Detection ( http://arxiv.org/abs/2212.01515v1 )

ライセンス: Link先を確認
Tao Yang, Jinghao Deng, Xiaojun Quan, Qifan Wang(参考訳) オンライン投稿に基づくパーソナリティ特性の予測は,ソーシャルネットワーク分析など多くの分野で重要な課題となっている。 このタスクの課題の1つは、さまざまな投稿から情報をユーザ毎のプロフィールにまとめることである。 以前の多くのソリューションは、ポストを長いドキュメントにまとめ、シーケンシャルまたは階層的なモデルで文書をエンコードするだけであったが、ポストに不整合な順序を導入し、それがモデルを誤解させる可能性がある。 本稿では,この制限を克服するための動的ディープグラフ畳み込みネットワーク(D-DGCN)を提案する。 具体的には、決定論的構造の代わりに動的マルチホップ構造を採用し、DGCNモジュールと組み合わせてポスト間の接続を自動的に学習する学習・接続方式を設計する。 ポストエンコーダ、ラーニング・トゥ・コネクション、DGCNのモジュールはエンドツーエンドで共同で訓練される。 KaggleとPandoraのデータセットの実験結果は、D-DGCNの最先端ベースラインよりも優れたパフォーマンスを示している。 私たちのコードはhttps://github.com/djz233/d-dgcnで利用可能です。

Predicting personality traits based on online posts has emerged as an important task in many fields such as social network analysis. One of the challenges of this task is assembling information from various posts into an overall profile for each user. While many previous solutions simply concatenate the posts into a long document and then encode the document by sequential or hierarchical models, they introduce unwarranted orders for the posts, which may mislead the models. In this paper, we propose a dynamic deep graph convolutional network (D-DGCN) to overcome the above limitation. Specifically, we design a learn-to-connect approach that adopts a dynamic multi-hop structure instead of a deterministic structure, and combine it with a DGCN module to automatically learn the connections between posts. The modules of post encoder, learn-to-connect, and DGCN are jointly trained in an end-to-end manner. Experimental results on the Kaggle and Pandora datasets show the superior performance of D-DGCN to state-of-the-art baselines. Our code is available at https://github.com/djz233/D-DGCN.
翻訳日:2022-12-06 16:31:58 公開日:2022-12-03
# WMT2022効率タスクのためのRoyalFlushシステム

The RoyalFlush System for the WMT 2022 Efficiency Task ( http://arxiv.org/abs/2212.01543v1 )

ライセンス: Link先を確認
Bo Qin, Aixin Jia, Qiang Wang, Jianning Lu, Shuqin Pan, Haibo Wang, Ming Chen(参考訳) 本稿では、WMT 2022翻訳効率タスクのためのRoyalFlushニューラルマシン翻訳システムの提出について述べる。 一般的な自己回帰翻訳システムとは異なり, 自己回帰翻訳の利点と非自己回帰翻訳の利点を組み合わせるため, ハイブリッド回帰翻訳(hrt)と呼ばれる二段階翻訳パラダイムを採用した。 具体的には、HRTは最初、不連続なシーケンス(例えば、$k$トークン毎、$k>1$)を自動回帰的に生成し、その後、非自己回帰的な方法で一度にスキップされたトークンをすべて埋める。 したがって、$k$を調整することで、翻訳の質とスピードを簡単に交換できる。 さらに、他のモデリング技術(例えば、シーケンシャルレベルの知識蒸留とディープエンコーダ・シャロー・デコーダ層割り当て戦略)と多くのエンジニアリングの取り組みを統合することで、HRTは80%の推論速度を改善し、同じ容量のATと同等の翻訳性能を達成する。 われわれの最速のシステムはGPUレイテンシ設定で6k+ワード/秒に達し、昨年の勝者より約3.1倍速いと見積もられている。

This paper describes the submission of the RoyalFlush neural machine translation system for the WMT 2022 translation efficiency task. Unlike the commonly used autoregressive translation system, we adopted a two-stage translation paradigm called Hybrid Regression Translation (HRT) to combine the advantages of autoregressive and non-autoregressive translation. Specifically, HRT first autoregressively generates a discontinuous sequence (e.g., make a prediction every $k$ tokens, $k>1$) and then fills in all previously skipped tokens at once in a non-autoregressive manner. Thus, we can easily trade off the translation quality and speed by adjusting $k$. In addition, by integrating other modeling techniques (e.g., sequence-level knowledge distillation and deep-encoder-shallow-decoder layer allocation strategy) and a mass of engineering efforts, HRT improves 80\% inference speed and achieves equivalent translation performance with the same-capacity AT counterpart. Our fastest system reaches 6k+ words/second on the GPU latency setting, estimated to be about 3.1x faster than the last year's winner.
翻訳日:2022-12-06 16:31:39 公開日:2022-12-03
# 数発医療テキスト分類のためのメタラーニング

Meta Learning for Few-Shot Medical Text Classification ( http://arxiv.org/abs/2212.01552v1 )

ライセンス: Link先を確認
Pankaj Sharma, Imran Qureshi, and Minh Tran(参考訳) 医療専門家は、しばしばデータ制約のある環境で働き、ユニークな人口統計に関する洞察を提供する。 例えば、いくつかの医学的観察は患者の診断と治療を知らせる。 これは、新しいタスクでモデルを簡単に学習し、他の方法では到達できない洞察を提供するメタラーニングのユニークな設定を示唆する。 ベンチマークテキストと医療データの幅広いコーパスにおけるメタラーニングとロバストネス技術の利用について検討する。 そこで我々は,新たなデータパイプラインを開発し,言語モデルとメタラーニングアプローチを組み合わせて,最悪のケース損失を最小限に抑えるために,既存のメタラーニングアルゴリズムを拡張した。 テキスト上でのメタラーニングはテキストベースのデータに適したフレームワークであり、データ効率が向上し、数発の言語モデルに匹敵するパフォーマンスが得られ、医療ノートデータにうまく適用できる。 さらに、DROと組み合わせたメタラーニングモデルは、疾患コード間の最悪のケース損失を改善することができる。

Medical professionals frequently work in a data constrained setting to provide insights across a unique demographic. A few medical observations, for instance, informs the diagnosis and treatment of a patient. This suggests a unique setting for meta-learning, a method to learn models quickly on new tasks, to provide insights unattainable by other methods. We investigate the use of meta-learning and robustness techniques on a broad corpus of benchmark text and medical data. To do this, we developed new data pipelines, combined language models with meta-learning approaches, and extended existing meta-learning algorithms to minimize worst case loss. We find that meta-learning on text is a suitable framework for text-based data, providing better data efficiency and comparable performance to few-shot language models and can be successfully applied to medical note data. Furthermore, meta-learning models coupled with DRO can improve worst case loss across disease codes.
翻訳日:2022-12-06 16:31:18 公開日:2022-12-03
# ニューラルペアワイズ条件付確率場を用いた超微細エンティティ型付けのためのラベル相関のモデル化

Modeling Label Correlations for Ultra-Fine Entity Typing with Neural Pairwise Conditional Random Field ( http://arxiv.org/abs/2212.01581v1 )

ライセンス: Link先を確認
Chengyue Jiang, Yong Jiang, Weiqi Wu, Pengjun Xie, Kewei Tu(参考訳) ウルトラファインエンティティタイピング(UFET)は、ある文に言及されているエンティティのカテゴリを正しく記述する幅広いタイプのフレーズを予測することを目的としている。 最近の研究のほとんどは、それぞれのエンティティタイプを独立して推測し、例えば、あるエンティティが大統領として推測される場合、それは政治家でありリーダーであるべきです。 この目的のために、我々はペアワイズ条件付きランダムフィールド(PCRF)と呼ばれる非方向性のグラフィカルモデルを用いてUFET問題を定式化し、型変数は入力によって不適切に影響されるだけでなく、他のすべての型変数とペアワイズに関連付けられる。 我々は、エンティティ型付けに様々な現代的なバックボーンを用いて一意ポテンシャルを計算し、事前のセマンティック情報をキャプチャし、加速推論を促進する型句表現からペアワイズポテンシャルを導出する。 我々は、非常に大きな型集合に対する効率的な型推論に平均場変分推論を使用し、それをニューラルネットワークモジュールとして展開し、エンドツーエンドのトレーニングを可能にする。 UFETの実験では、Neural-PCRFは背骨よりもコストが低く、何千倍も高速でありながら、クロスエンコーダベースのSOTAと競合する性能を示している。 また、より小さな型セットで広く使われているエンティティ型付けデータセットに対して、Neural-PCRFが有効であることを示す。 Neural-PCRFを複数ラベルの型分類器に簡単にプラグインできるネットワークモジュールとしてパッケージ化し、https://github.com/modelscope/adaseq/tree/master/examples/NPCRFでリリースします。

Ultra-fine entity typing (UFET) aims to predict a wide range of type phrases that correctly describe the categories of a given entity mention in a sentence. Most recent works infer each entity type independently, ignoring the correlations between types, e.g., when an entity is inferred as a president, it should also be a politician and a leader. To this end, we use an undirected graphical model called pairwise conditional random field (PCRF) to formulate the UFET problem, in which the type variables are not only unarily influenced by the input but also pairwisely relate to all the other type variables. We use various modern backbones for entity typing to compute unary potentials, and derive pairwise potentials from type phrase representations that both capture prior semantic information and facilitate accelerated inference. We use mean-field variational inference for efficient type inference on very large type sets and unfold it as a neural network module to enable end-to-end training. Experiments on UFET show that the Neural-PCRF consistently outperforms its backbones with little cost and results in a competitive performance against cross-encoder based SOTA while being thousands of times faster. We also find Neural- PCRF effective on a widely used fine-grained entity typing dataset with a smaller type set. We pack Neural-PCRF as a network module that can be plugged onto multi-label type classifiers with ease and release it in https://github.com/modelscope/adaseq/tree/master/examples/NPCRF.
翻訳日:2022-12-06 16:31:00 公開日:2022-12-03
# CoP: 優先度制御によるFactual Unconsistency Detection

CoP: Factual Inconsistency Detection by Controlling the Preference ( http://arxiv.org/abs/2212.01611v1 )

ライセンス: Link先を確認
Shuaijie She, Xiang Geng, Shujian Huang, Jiajun Chen(参考訳) 抽象要約は、文書を入力として与えられた要約を生成する過程である。 かなりの進展があったが、文書と生成された要約との間の現実的な矛盾は、その実用的応用を制限している。 前回の研究では、生成モデルによって割り当てられた確率は、結果整合性の選好、言語や知識の選好など、生成された要約に対する選好を反映していることがわかった。 事実整合性の選好を分離するために,プロンプトの助けを借りて生成モデルの選好を制御し,教師なしフレームワークCoPを提案する。 より具体的には、このフレームワークは追加の入力としてテキストプロンプトが導入される追加の推論ステップを実行する。 このように、別の選好は、この余分な推論プロセスの生成確率によって記述される。 上記の2つの選好の違い、すなわち確率の差は、事実的不一致を検出するための測定として使用できる。 興味深いことに、適切に設計されたプロンプトによって、我々のフレームワークは特定の嗜好を評価し、エンティティ関連不整合、コア参照関連不整合など、きめ細かい不整合のカテゴリを計測できることがわかった。 さらに、当社のフレームワークは、ラベル付きデータからより良いプロンプトを学ぶために、教師付き設定に拡張することも可能です。 実験の結果,3つの非一貫性検出タスクにおいて新たなsota結果が得られた。

Abstractive summarization is the process of generating a summary given a document as input. Although significant progress has been made, the factual inconsistency between the document and the generated summary still limits its practical applications. Previous work found that the probabilities assigned by the generation model reflect its preferences for the generated summary, including the preference for factual consistency, and the preference for the language or knowledge prior as well. To separate the preference for factual consistency, we propose an unsupervised framework named CoP by controlling the preference of the generation model with the help of prompt. More specifically, the framework performs an extra inference step in which a text prompt is introduced as an additional input. In this way, another preference is described by the generation probability of this extra inference process. The difference between the above two preferences, i.e. the difference between the probabilities, could be used as measurements for detecting factual inconsistencies. Interestingly, we found that with the properly designed prompt, our framework could evaluate specific preferences and serve as measurements for fine-grained categories of inconsistency, such as entity-related inconsistency, coreference-related inconsistency, etc. Moreover, our framework could also be extended to the supervised setting to learn better prompt from the labeled data as well. Experiments show that our framework achieves new SOTA results on three factual inconsistency detection tasks.
翻訳日:2022-12-06 16:30:29 公開日:2022-12-03
# マルチモーダル検索による名前付きエンティティと関係抽出

Named Entity and Relation Extraction with Multi-Modal Retrieval ( http://arxiv.org/abs/2212.01612v1 )

ライセンス: Link先を確認
Xinyu Wang, Jiong Cai, Yong Jiang, Pengjun Xie, Kewei Tu, Wei Lu(参考訳) マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は,関連画像情報を活用してNERとREの性能向上を目指す。 既存の取り組みのほとんどは、画像(ピクセルレベルの特徴、識別されたオブジェクト、関連するキャプションなど)から潜在的に有用な情報を直接抽出することに焦点を当てていた。 しかし、そのような抽出プロセスは知識を意識していない可能性があり、非常に関連性のない情報をもたらす。 本稿では,新しいマルチモーダル検索ベースフレームワーク(more)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。 次に、予測のために検索結果をテキストモデルとビジュアルモデルにそれぞれ送信する。 最後に、Mixture of Experts (MoE)モジュールは、2つのモデルからの予測を組み合わせて最終的な決定を行う。 実験により,我々のテキストモデルと視覚モデルの両方が,4つのマルチモーダルnerデータセットと1つのマルチモーダルreデータセットで最先端のパフォーマンスを達成できることを示した。 MoEでは、モデルの性能をさらに向上することができ、本分析は、このようなタスクにテキストと視覚の両方を統合する利点を実証する。

Multi-modal named entity recognition (NER) and relation extraction (RE) aim to leverage relevant image information to improve the performance of NER and RE. Most existing efforts largely focused on directly extracting potentially useful information from images (such as pixel-level features, identified objects, and associated captions). However, such extraction processes may not be knowledge aware, resulting in information that may not be highly relevant. In this paper, we propose a novel Multi-modal Retrieval based framework (MoRe). MoRe contains a text retrieval module and an image-based retrieval module, which retrieve related knowledge of the input text and image in the knowledge corpus respectively. Next, the retrieval results are sent to the textual and visual models respectively for predictions. Finally, a Mixture of Experts (MoE) module combines the predictions from the two models to make the final decision. Our experiments show that both our textual model and visual model can achieve state-of-the-art performance on four multi-modal NER datasets and one multi-modal RE dataset. With MoE, the model performance can be further improved and our analysis demonstrates the benefits of integrating both textual and visual cues for such tasks.
翻訳日:2022-12-06 16:30:07 公開日:2022-12-03
# t-star: amrグラフを中間表現とする真理的なスタイル転送

T-STAR: Truthful Style Transfer using AMR Graph as Intermediate Representation ( http://arxiv.org/abs/2212.01667v1 )

ライセンス: Link先を確認
Anubhav Jangra, Preksha Nema, Aravindan Raghuveer(参考訳) テキストスタイル転送(TST)モデルをトレーニングするための並列コーパスの有用性は、非常に難しいが一般的なシナリオである。 また、TSTモデルは、ソース文をターゲットスタイルに変換しながら、暗黙的にコンテンツを保存する必要がある。 これらの問題に対処するために、原文の意味を保ちながら、スタイルを欠いた中間表現が構築されることがしばしばある。 本研究では,抽象的意味表現(AMR)グラフを中間形式非依存表現としての有用性について検討する。 AMRのような意味的表記は、中間表現の自然な選択であると仮定する。 そこで本研究では,テキスト対amrエンコーダとamr対テキストデコーダという2つのコンポーネントからなるモデルであるt-starを提案する。 生成したAMRのスタイル非依存性を高めるために,いくつかのモデリング改善を提案する。 我々の知る限り、T-STARは、TSTの中間表現としてAMRを使用する最初の作品です。 徹底的な実験評価により,T-STARは平均15.2%高いコンテンツ保存率(3%の精度)を達成し,その性能を著しく向上させることを示した。 また,90,000点の詳細な評価により,T-STARはアートTSTモデルと比較して最大50%の幻覚率を示した。

Unavailability of parallel corpora for training text style transfer (TST) models is a very challenging yet common scenario. Also, TST models implicitly need to preserve the content while transforming a source sentence into the target style. To tackle these problems, an intermediate representation is often constructed that is devoid of style while still preserving the meaning of the source sentence. In this work, we study the usefulness of Abstract Meaning Representation (AMR) graph as the intermediate style agnostic representation. We posit that semantic notations like AMR are a natural choice for an intermediate representation. Hence, we propose T-STAR: a model comprising of two components, text-to-AMR encoder and a AMR-to-text decoder. We propose several modeling improvements to enhance the style agnosticity of the generated AMR. To the best of our knowledge, T-STAR is the first work that uses AMR as an intermediate representation for TST. With thorough experimental evaluation we show T-STAR significantly outperforms state of the art techniques by achieving on an average 15.2% higher content preservation with negligible loss (3% approx.) in style accuracy. Through detailed human evaluation with 90,000 ratings, we also show that T-STAR has up to 50% lesser hallucinations compared to state of the art TST models.
翻訳日:2022-12-06 16:29:46 公開日:2022-12-03
# 医学文書要約に関する調査研究

A Survey on Medical Document Summarization ( http://arxiv.org/abs/2212.01669v1 )

ライセンス: Link先を確認
Raghav Jain, Anubhav Jangra, Sriparna Saha, Adam Jatowt(参考訳) インターネットは医療業界に劇的な影響を与えており、文書をデジタルで保存、共有、管理することができる。 これにより、重要なデータを見つけ、共有しやすくなり、患者のケアを改善し、医学研究の機会を増やした。 医師や患者にもアクセス可能なデータが豊富にあるため,近年,深層学習やトランスフォーマーベースのネットワークの導入によって,データの要約の必要性が高まっている。 本稿では,医療要約における現在の技術と動向を包括的に調査する。

The internet has had a dramatic effect on the healthcare industry, allowing documents to be saved, shared, and managed digitally. This has made it easier to locate and share important data, improving patient care and providing more opportunities for medical studies. As there is so much data accessible to doctors and patients alike, summarizing it has become increasingly necessary - this has been supported through the introduction of deep learning and transformer-based networks, which have boosted the sector significantly in recent years. This paper gives a comprehensive survey of the current techniques and trends in medical summarization
翻訳日:2022-12-06 16:29:26 公開日:2022-12-03
# 構文的多変量プロンプトを用いたロバストNLGバイアス評価に向けて

Towards Robust NLG Bias Evaluation with Syntactically-diverse Prompts ( http://arxiv.org/abs/2212.01700v1 )

ライセンス: Link先を確認
Arshiya Aggarwal, Jiao Sun, Nanyun Peng(参考訳) 自然言語生成(NLG)システムにおけるバイアス評価のための頑健な方法論を提案する。 以前の作品では、バイアス分析のために継続を生成するモデルを促すために、様々な人口統計グループに言及する固定された手作りのプレフィックステンプレートを使用している。 これらの固定された接頭辞テンプレートは、スタイルや言語構造の観点から独自のものになり得るため、様々なプロンプトからの一般的な傾向を表わさない信頼できない公平な結論につながる可能性がある。 この問題を解析するために,異なる構文構造でプロンプトを言い換え,これらを用いてNLGシステムにおける人口統計バイアスを評価する。 以上の結果から,全体のバイアス傾向は類似しているが,いくつかの構文構造は過去の研究と矛盾する結論を導いた。 我々の方法論はより堅牢であり、いくつかの構文構造はより有毒なコンテンツをもたらし、他の構造はより偏りの少ない生成をもたらす可能性がある。 これは、固定された構文構造に依存しず、トーン不変プロンプトを使用することの重要性を示唆する。 構文的に異なるプロンプトを導入することで、より堅牢な NLG (bias) 評価が可能になる。

We present a robust methodology for evaluating biases in natural language generation(NLG) systems. Previous works use fixed hand-crafted prefix templates with mentions of various demographic groups to prompt models to generate continuations for bias analysis. These fixed prefix templates could themselves be specific in terms of styles or linguistic structures, which may lead to unreliable fairness conclusions that are not representative of the general trends from tone varying prompts. To study this problem, we paraphrase the prompts with different syntactic structures and use these to evaluate demographic bias in NLG systems. Our results suggest similar overall bias trends but some syntactic structures lead to contradictory conclusions compared to past works. We show that our methodology is more robust and that some syntactic structures prompt more toxic content while others could prompt less biased generation. This suggests the importance of not relying on a fixed syntactic structure and using tone-invariant prompts. Introducing syntactically-diverse prompts can achieve more robust NLG (bias) evaluation.
翻訳日:2022-12-06 16:29:18 公開日:2022-12-03
# 回転不変モデルにおける多層推定のための近似メッセージパッシング

Approximate Message Passing for Multi-Layer Estimation in Rotationally Invariant Models ( http://arxiv.org/abs/2212.01572v1 )

ライセンス: Link先を確認
Yizhou Xu, TianQi Hou, ShanSuo Liang and Marco Mondelli(参考訳) 回転不変重み行列を持つ多層ネットワークからの観測から信号と隠れ変数を再構成する問題を考察する。 深層生成前駆から推定される多層構造モデルと、重みに課される回転不変性は、応用に典型的な複素相関構造を可能にすることによって、i.i.d.\ gaussian仮定を一般化する。 本稿では,新しい近似メッセージパッシング(amp)アルゴリズムのクラスを示し,その性能を大規模システム限界で正確に特徴付ける状態進化再帰を与える。 既存の多層VAMP (ML-VAMP) アプローチとは対照的に,提案するAMPは,ガウス的設計を超越した自然な一般化を実現し,ガウス的 AMP を特殊ケースとして回収する。 さらに、ML-RI-GAMPは、計算集約的な特異値分解が設計行列のモーメントの推定に置き換えられるため、ML-VAMPよりもかなり低い複雑性を示す。 最後に, 計算結果から, この複雑性の増大はアルゴリズムの性能にほとんどか全くかからないことがわかった。

We consider the problem of reconstructing the signal and the hidden variables from observations coming from a multi-layer network with rotationally invariant weight matrices. The multi-layer structure models inference from deep generative priors, and the rotational invariance imposed on the weights generalizes the i.i.d.\ Gaussian assumption by allowing for a complex correlation structure, which is typical in applications. In this work, we present a new class of approximate message passing (AMP) algorithms and give a state evolution recursion which precisely characterizes their performance in the large system limit. In contrast with the existing multi-layer VAMP (ML-VAMP) approach, our proposed AMP -- dubbed multi-layer rotationally invariant generalized AMP (ML-RI-GAMP) -- provides a natural generalization beyond Gaussian designs, in the sense that it recovers the existing Gaussian AMP as a special case. Furthermore, ML-RI-GAMP exhibits a significantly lower complexity than ML-VAMP, as the computationally intensive singular value decomposition is replaced by an estimation of the moments of the design matrices. Finally, our numerical results show that this complexity gain comes at little to no cost in the performance of the algorithm.
翻訳日:2022-12-06 16:21:29 公開日:2022-12-03
# fedrolex: ローリングサブモデル抽出によるモデルヘテロジェンスフェデレーション学習

FedRolex: Model-Heterogeneous Federated Learning with Rolling Sub-Model Extraction ( http://arxiv.org/abs/2212.01548v1 )

ライセンス: Link先を確認
Samiul Alam, Luyang Liu, Ming Yan, Mi Zhang(参考訳) ほとんどのクロスデバイスフェデレーション学習(fl)の研究は、グローバルサーバモデルとローカルクライアントモデルが同一であるモデル均質の設定に焦点を当てている。 しかしながら、このような制約は、モデルトレーニングにユニークな貢献をするローエンドクライアントを除外するだけでなく、デバイス上のリソースボトルネックによる大規模モデルのトレーニングをクライアントに制限する。 本研究では,モデルヘテロジェンスflを可能にし,最大のクライアントモデルよりも大きなグローバルサーバモデルをトレーニングできる部分トレーニング(pt)ベースの手法であるfederlexを提案する。 中心となるのが,グローバルサーバモデルのさまざまな部分を均等にトレーニング可能な,ローリングなサブモデル抽出スキームである。個々のクライアントモデルとサーバモデルアーキテクチャの矛盾によるクライアントドリフトの軽減だ。 我々は,FedRolexがPTに基づくモデル不均一FL法(フェデレート・ドロップアウトなど)よりも優れ,モデル不均質FLとモデル不均質FLのギャップを小さくすることを示す。 さらに,フェデレート・ドロップアウトよりもその利点を理論的に統計的に解析し,実世界のエミュレートされたデバイス分布におけるフェデロレックスの評価を行い,フェデロレックスがflの包括性を高め,flの利益を得られないローエンド・デバイスの性能を高めることを示した。 私たちのコードはhttps://github.com/MSU-MLSys-Lab/FedRolexで利用可能です。

Most cross-device federated learning (FL) studies focus on the model-homogeneous setting where the global server model and local client models are identical. However, such constraint not only excludes low-end clients who would otherwise make unique contributions to model training but also restrains clients from training large models due to on-device resource bottlenecks. In this work, we propose FedRolex, a partial training (PT)-based approach that enables model-heterogeneous FL and can train a global server model larger than the largest client model. At its core, FedRolex employs a rolling sub-model extraction scheme that allows different parts of the global server model to be evenly trained, which mitigates the client drift induced by the inconsistency between individual client models and server model architectures. We show that FedRolex outperforms state-of-the-art PT-based model-heterogeneous FL methods (e.g. Federated Dropout) and reduces the gap between model-heterogeneous and model-homogeneous FL, especially under the large-model large-dataset regime. In addition, we provide theoretical statistical analysis on its advantage over Federated Dropout and evaluate FedRolex on an emulated real-world device distribution to show that FedRolex can enhance the inclusiveness of FL and boost the performance of low-end devices that would otherwise not benefit from FL. Our code is available at https://github.com/MSU-MLSys-Lab/FedRolex.
翻訳日:2022-12-06 16:12:16 公開日:2022-12-03
# 音声ビデオに基づく車両速度推定のためのデータセット

A dataset for audio-video based vehicle speed estimation ( http://arxiv.org/abs/2212.01651v1 )

ライセンス: Link先を確認
Slobodan Djukanovi\'c, Nikola Bulatovi\'c, Ivana \v{C}avor(参考訳) 道路車両の正確な速度推定はいくつかの理由から重要である。 一つは速度制限の執行であり、交通事故と死者を減らす重要なツールである。 他の研究領域や領域と比較して、車速推定のための利用可能なデータセットの数は依然として非常に限られている。 本報告では,車載クルーズ制御によって安定に保たれた,カメラを通した単一車両のオンロード音声録画のデータセットについて述べる。 データセットには13台の車両が含まれており、製造、生産年、エンジンタイプ、電力、伝送の点で可能な限り多様であり、総計400ドルの注釈付きオーディオビデオ録画が可能である。 データセットは完全に利用可能であり、オーディオビデオ車両の速度推定の研究を容易にする公開ベンチマークとして意図されている。 このデータセットに加えて,車両速度推定のための機械学習モデルで使用可能な相互評価戦略を提案する。 データセットのトレーニング検証分割に対する2つのアプローチを提案する。

Accurate speed estimation of road vehicles is important for several reasons. One is speed limit enforcement, which represents a crucial tool in decreasing traffic accidents and fatalities. Compared with other research areas and domains, the number of available datasets for vehicle speed estimation is still very limited. We present a dataset of on-road audio-video recordings of single vehicles passing by a camera at known speeds, maintained stable by the on-board cruise control. The dataset contains thirteen vehicles, selected to be as diverse as possible in terms of manufacturer, production year, engine type, power and transmission, resulting in a total of $ 400 $ annotated audio-video recordings. The dataset is fully available and intended as a public benchmark to facilitate research in audio-video vehicle speed estimation. In addition to the dataset, we propose a cross-validation strategy which can be used in a machine learning model for vehicle speed estimation. Two approaches to training-validation split of the dataset are proposed.
翻訳日:2022-12-06 16:11:48 公開日:2022-12-03
# 進化的多目的最適化のための一般化スカラー化法

A Generalized Scalarization Method for Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2212.01545v1 )

ライセンス: Link先を確認
Ruihao Zheng and Zhenkun Wang(参考訳) 分解に基づく多目的進化アルゴリズム(MOEA/D)は、多目的最適化問題(MOP)を協調最適化のための単目的サブプロブレムの集合に変換する。 サブプロブレムとソリューションのミスマッチは、MOEA/Dの大幅な性能劣化を引き起こす可能性がある。 既存のミスマッチ対応戦略のほとんどは、$L_{\infty}$ scalarizationを使用する場合にのみ有効である。 L_{p}$スカラー化を利用できるミスマッチ対応戦略は、非凸パレートフロントのMOPに面しても、MOEA/Dにとって非常に重要である。 本稿では,グローバル置換(GR)をバックボーンとして使用する。 我々は、$L_{\infty}$が別の$L_{p}$に$p\in [1,\infty)$に置き換えられ、$L_p$ベースの1\leq p<\infty$)サブプロブレムが矛盾なく大きな嗜好領域を持つとき、GRがもはやミスマッチを避けることができないかを分析する。 p$ が小さい値に設定されると、いくつかの中間部分問題は非常に小さな選好領域を持つため、その方向ベクトルは対応する選好領域を通過できない。 したがって、サブプロブレムの方向ベクトルがその優先領域を通過することを保証するために、一般化された$L_p$(G$L_p$)スカラー化を提案する。 理論解析により、任意の$p\geq 1$に対してg$l_p$スカラー化を使用する場合、grは常にミスマッチを回避できることが示された。 種々のMOPに関する実験的研究は理論解析に適合する。

The decomposition-based multi-objective evolutionary algorithm (MOEA/D) transforms a multi-objective optimization problem (MOP) into a set of single-objective subproblems for collaborative optimization. Mismatches between subproblems and solutions can lead to severe performance degradation of MOEA/D. Most existing mismatch coping strategies only work when the $L_{\infty}$ scalarization is used. A mismatch coping strategy that can use any $L_{p}$ scalarization, even when facing MOPs with non-convex Pareto fronts, is of great significance for MOEA/D. This paper uses the global replacement (GR) as the backbone. We analyze how GR can no longer avoid mismatches when $L_{\infty}$ is replaced by another $L_{p}$ with $p\in [1,\infty)$, and find that the $L_p$-based ($1\leq p<\infty$) subproblems having inconsistently large preference regions. When $p$ is set to a small value, some middle subproblems have very small preference regions so that their direction vectors cannot pass through their corresponding preference regions. Therefore, we propose a generalized $L_p$ (G$L_p$) scalarization to ensure that the subproblem's direction vector passes through its preference region. Our theoretical analysis shows that GR can always avoid mismatches when using the G$L_p$ scalarization for any $p\geq 1$. The experimental studies on various MOPs conform to the theoretical analysis.
翻訳日:2022-12-06 16:04:04 公開日:2022-12-03
# AIの天文学への応用

Applications of AI in Astronomy ( http://arxiv.org/abs/2212.01493v1 )

ライセンス: Link先を確認
S. G. Djorgovski, A. A. Mahabal, M. J. Graham, K. Polsterer, and A. Krone-Martins(参考訳) 我々は、天文学、天体物理学、宇宙論における機械学習(ML)およびその他のAI手法の使用について、簡潔かつ必然的に不完全な概要を提供する。 天文学は1990年代初頭に初めてデジタルスカイサーベイを行い、その結果得られたテラスケールデータセットは、数百次元の何十億もの特徴ベクトルを持つ星-銀河分離のような多くのデータ処理と分析タスクの自動化を必要とした。 指数関数的なデータ増加は、シンオプティカルスカイサーベイと時間領域天文学の台頭とともに続き、ペタスケールのデータストリームとリアルタイム処理、分類、意思決定の必要性が生じた。 これらのタスクには、様々な分類とクラスタリング手法が適用されており、非常に活発な研究分野である。 過去10年間で、さまざまなML/AIアプリケーションを含む天文学文献が指数関数的に増加し、複雑さと洗練が増している。 MLとAIは現在、天文学ツールキットの標準部分となっている。 データの複雑さが増し続ければ、協力的な人間-AI発見へのさらなる進歩が期待できる。

We provide a brief, and inevitably incomplete overview of the use of Machine Learning (ML) and other AI methods in astronomy, astrophysics, and cosmology. Astronomy entered the big data era with the first digital sky surveys in the early 1990s and the resulting Terascale data sets, which required automating of many data processing and analysis tasks, for example the star-galaxy separation, with billions of feature vectors in hundreds of dimensions. The exponential data growth continued, with the rise of synoptic sky surveys and the Time Domain Astronomy, with the resulting Petascale data streams and the need for a real-time processing, classification, and decision making. A broad variety of classification and clustering methods have been applied for these tasks, and this remains a very active area of research. Over the past decade we have seen an exponential growth of the astronomical literature involving a variety of ML/AI applications of an ever increasing complexity and sophistication. ML and AI are now a standard part of the astronomical toolkit. As the data complexity continues to increase, we anticipate further advances leading towards a collaborative human-AI discovery.
翻訳日:2022-12-06 16:03:35 公開日:2022-12-03
# 時間と空間におけるロボットのハグ動作の学習

Learning and Blending Robot Hugging Behaviors in Time and Space ( http://arxiv.org/abs/2212.01507v1 )

ライセンス: Link先を確認
Michael Drolet, Joseph Campbell, Heni Ben Amor(参考訳) 複数の相互作用の重畳を含む複雑な相互作用において、適切なロボット応答を予測できる模倣学習に基づく物理ロボットインタラクションアルゴリズムを提案する。 提案するアルゴリズムはベイズ相互作用プリミティブ(b-bip)をブレンドすることで,複雑なハグシナリオにおいて応答性のあるインタラクションを実現する。 本手法は,先行研究の一般化であり,本手法は単一インタラクションの特定の場合に限定し,広範なユーザ実験と実験実験を通じて評価する。 本アルゴリズムは,既存の手法と比較して,精度,応答性,タイミングに関して,定量的予測誤差と好適な参加者応答を有意に改善する。

We introduce an imitation learning-based physical human-robot interaction algorithm capable of predicting appropriate robot responses in complex interactions involving a superposition of multiple interactions. Our proposed algorithm, Blending Bayesian Interaction Primitives (B-BIP) allows us to achieve responsive interactions in complex hugging scenarios, capable of reciprocating and adapting to a hugs motion and timing. We show that this algorithm is a generalization of prior work, for which the original formulation reduces to the particular case of a single interaction, and evaluate our method through both an extensive user study and empirical experiments. Our algorithm yields significantly better quantitative prediction error and more-favorable participant responses with respect to accuracy, responsiveness, and timing, when compared to existing state-of-the-art methods.
翻訳日:2022-12-06 16:03:17 公開日:2022-12-03
# 予算制約を考慮したオンライン最適化のための学習支援アルゴリズム

Learning-Assisted Algorithm Unrolling for Online Optimization with Budget Constraints ( http://arxiv.org/abs/2212.01689v1 )

ライセンス: Link先を確認
Jianyi Yang, Shaolei Ren(参考訳) 複数の予算制約によるオンライン最適化は、短い時間軸でのオンライン決定が厳格な在庫制約によって結合されるため、困難である。 既存の手動設計アルゴリズムは、コンバージェンスのために多くの時間ステップを必要とする場合や、在庫制約に違反する可能性があるため、この設定で十分な平均性能を達成できない。 本稿では、オンライン決定パイプラインをアンロールし、ラグランジアン乗算器をオンラインで更新するためのMLモデルを利用する、LAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる機械学習支援アンロール手法を提案する。 バックプロパゲーションによる効率的なトレーニングでは、時間とともに決定パイプラインの勾配を導き出します。 また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。 最後に,LAAUが既存のベースラインより優れていることを示す数値結果を示す。

Online optimization with multiple budget constraints is challenging since the online decisions over a short time horizon are coupled together by strict inventory constraints. The existing manually-designed algorithms cannot achieve satisfactory average performance for this setting because they often need a large number of time steps for convergence and/or may violate the inventory constraints. In this paper, we propose a new machine learning (ML) assisted unrolling approach, called LAAU (Learning-Assisted Algorithm Unrolling), which unrolls the online decision pipeline and leverages an ML model for updating the Lagrangian multiplier online. For efficient training via backpropagation, we derive gradients of the decision pipeline over time. We also provide the average cost bounds for two cases when training data is available offline and collected online, respectively. Finally, we present numerical results to highlight that LAAU can outperform the existing baselines.
翻訳日:2022-12-06 16:03:04 公開日:2022-12-03
# 共通汚職下におけるマルチエクイットモデルのロバスト性理解

Understanding the Robustness of Multi-Exit Models under Common Corruptions ( http://arxiv.org/abs/2212.01562v1 )

ライセンス: Link先を確認
Akshay Mehra, Skyler Seto, Navdeep Jaitly, Barry-John Theobald(参考訳) マルチエクイットモデル(MEM)は、サンプルを最終層の前にネットワークから脱出させることで、ディープニューラルネットワーク(DNN)の精度と効率を改善するために、早期エクイット戦略を使用する。 しかし, 分布シフトの存在下でのMEMsの有効性は未解明のままである。 本稿では, 画像劣化による分布変化がMEMの精度・効率に与える影響について検討する。 共通の腐敗の下では、最初の正しい出口での早期出動は推論コストを削減し、最終層での出入口よりも高い精度(10%)を提供する。 しかし、正確な出口に関する知識を想定しない現実的なアーリーイグジット戦略では、memsは推論コストを削減しつつも、最終層でのイグジットよりも精度を限界的に向上させる(1%)。 さらに,分布シフトの存在は,MEMの最大分類精度と実効初期戦略とのギャップを,分布内データとのギャップと比較して平均で5%拡大する。 実験分析の結果,分布シフトによるキャリブレーションの欠如は早期退去戦略の早期退去の可能性を高め,誤分類率を増大させることが示された。 さらに、キャリブレーションの欠如は、エグジット間のモデルの予測の不整合を増加させ、非効率な推論と、分散データの評価よりも誤分類の両方をもたらす。 最後に,分散シフト下での実用的アーリーエクイット戦略の異なる行動の定量化と,memsの実用的有用性向上への洞察を提供する2つの指標を提案する。

Multi-Exit models (MEMs) use an early-exit strategy to improve the accuracy and efficiency of deep neural networks (DNNs) by allowing samples to exit the network before the last layer. However, the effectiveness of MEMs in the presence of distribution shifts remains largely unexplored. Our work examines how distribution shifts generated by common image corruptions affect the accuracy/efficiency of MEMs. We find that under common corruptions, early-exiting at the first correct exit reduces the inference cost and provides a significant boost in accuracy ( 10%) over exiting at the last layer. However, with realistic early-exit strategies, which do not assume knowledge about the correct exits, MEMs still reduce inference cost but provide a marginal improvement in accuracy (1%) compared to exiting at the last layer. Moreover, the presence of distribution shift widens the gap between an MEM's maximum classification accuracy and realistic early-exit strategies by 5% on average compared with the gap on in-distribution data. Our empirical analysis shows that the lack of calibration due to a distribution shift increases the susceptibility of such early-exit strategies to exit early and increases misclassification rates. Furthermore, the lack of calibration increases the inconsistency in the predictions of the model across exits, leading to both inefficient inference and more misclassifications compared with evaluation on in-distribution data. Finally, we propose two metrics, underthinking and overthinking, that quantify the different behavior of practical early-exit strategy under distribution shifts, and provide insights into improving the practical utility of MEMs.
翻訳日:2022-12-06 15:57:00 公開日:2022-12-03
# グループクリッピングによる微分プライベート深層学習の限界を探る

Exploring the Limits of Differentially Private Deep Learning with Group-wise Clipping ( http://arxiv.org/abs/2212.01539v1 )

ライセンス: Link先を確認
Jiyan He, Xuechen Li, Da Yu, Huishuai Zhang, Janardhan Kulkarni, Yin Tat Lee, Arturs Backurs, Nenghai Yu, Jiang Bian(参考訳) 異なるプライベートなディープラーニングは、最近、計算効率とプライバシユーティリティのトレードオフの進歩を目撃している。 2つの軸に沿ってさらなる改善が可能かどうかを考察し,2つのemph{group-wise clipping}のインスタンス化を利用した肯定的回答を提供する。 プライベートラーニングの計算時間オーバーヘッドを低減するため,各ニューラルネットワーク層の勾配を別々にクリッピングした \emph{per-layer clipping} は,差分プライベート最適化におけるバックプロパゲーションと連動してクリッピングを行うことができることを示した。 その結果、プライベートな学習は、メモリ効率が良く、トレーニング更新あたりの速度は、多くのワークフローに対するプライベートな学習と同程度になる。 一定の閾値を持つ層ごとのクリッピングは標準的な平坦なクリッピングを過小評価する傾向にあるが、アダプティブしきい値を持つ層ごとのクリッピングは、与えられた訓練エポック制約の下でフラットなクリッピングと一致したり、より優れたタスク性能を壁時間以下で達成する。 差分的にプライベートなディープラーニングにおけるスケーリング(事前学習)モデルの限界を探るため,我々は175億パラメータのGPT-3をプライベートに微調整した。 ホストデバイス上で各モデルピースの勾配を別々にクリップする \emph{per-device clipping} を用いて,複数のデバイスに分散するクリッピング勾配に関するスケーリングの課題を回避する。 デバイス毎のクリッピングでプライベートに微調整されたGPT-3は、要約タスクで最大のGPT-2を非プライベートに微調整することで達成できるものよりも$\epsilon=1$のタスク性能を達成する。

Differentially private deep learning has recently witnessed advances in computational efficiency and privacy-utility trade-off. We explore whether further improvements along the two axes are possible and provide affirmative answers leveraging two instantiations of \emph{group-wise clipping}. To reduce the compute time overhead of private learning, we show that \emph{per-layer clipping}, where the gradient of each neural network layer is clipped separately, allows clipping to be performed in conjunction with backpropagation in differentially private optimization. This results in private learning that is as memory-efficient and almost as fast per training update as non-private learning for many workflows of interest. While per-layer clipping with constant thresholds tends to underperform standard flat clipping, per-layer clipping with adaptive thresholds matches or outperforms flat clipping under given training epoch constraints, hence attaining similar or better task performance within less wall time. To explore the limits of scaling (pretrained) models in differentially private deep learning, we privately fine-tune the 175 billion-parameter GPT-3. We bypass scaling challenges associated with clipping gradients that are distributed across multiple devices with \emph{per-device clipping} that clips the gradient of each model piece separately on its host device. Privately fine-tuning GPT-3 with per-device clipping achieves a task performance at $\epsilon=1$ better than what is attainable by non-privately fine-tuning the largest GPT-2 on a summarization task.
翻訳日:2022-12-06 15:46:53 公開日:2022-12-03
# 視覚表現のための確率的自己回帰画像モデリングの探索

Exploring Stochastic Autoregressive Image Modeling for Visual Representation ( http://arxiv.org/abs/2212.01610v1 )

ライセンス: Link先を確認
Yu Qi, Fan Yang, Yousong Zhu, Yufei Liu, Liwei Wu, Rui Zhao, Wei Li(参考訳) 自己回帰型言語モデリング(ALM)は、自然言語処理(NLP)における自己教師付き事前学習に成功している。 しかし、このパラダイムはコンピュータビジョンにおける他の自己教師ありアプローチ(例:コントラスト学習、マスク画像モデリング)と同等の結果を得られていない。 本稿では,視覚タスクにおいて自己回帰的モデリングがうまく機能しない理由を見いだそうとする。 そこで我々は,視覚的自己回帰手法の限界を十分に解析し,その2つの簡単な設計法により,新しい確率的自己回帰画像モデリング(SAIM)を提案する。 まず,視覚タスクに不可欠な効果的でロバストな画像コンテキストを生成するために,確率的置換戦略を用いる。 第二に、エンコーダが標準的な視覚変換器と同じような役割を果たす並列エンコーダデコーダトレーニングプロセスを作成し、その一方でデコーダは現在の位置の内容を予測し、エンコーダとデコーダが相互に強化できるようにする。 確率予測と並列エンコーダデコーダを導入することにより、SAIMは自己回帰画像モデリングの性能を大幅に向上させる。 提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。 下流タスクにおける転送性能は、我々のモデルが競合性能を達成することを示す。

Autoregressive language modeling (ALM) have been successfully used in self-supervised pre-training in Natural language processing (NLP). However, this paradigm has not achieved comparable results with other self-supervised approach in computer vision (e.g., contrastive learning, mask image modeling). In this paper, we try to find the reason why autoregressive modeling does not work well on vision tasks. To tackle this problem, we fully analyze the limitation of visual autoregressive methods and proposed a novel stochastic autoregressive image modeling (named SAIM) by the two simple designs. First, we employ stochastic permutation strategy to generate effective and robust image context which is critical for vision tasks. Second, we create a parallel encoder-decoder training process in which the encoder serves a similar role to the standard vision transformer focus on learning the whole contextual information, and meanwhile the decoder predicts the content of the current position, so that the encoder and decoder can reinforce each other. By introducing stochastic prediction and the parallel encoder-decoder, SAIM significantly improve the performance of autoregressive image modeling. Our method achieves the best accuracy (83.9%) on the vanilla ViT-Base model among methods using only ImageNet-1K data. Transfer performance in downstream tasks also show that our model achieves competitive performance.
翻訳日:2022-12-06 15:38:20 公開日:2022-12-03
# GANにおける燃焼モード崩壊のための分布フィッティング

Distribution Fitting for Combating Mode Collapse in GANs ( http://arxiv.org/abs/2212.01521v1 )

ライセンス: Link先を確認
Yanxiang Gong, Zhiwei Xie, Guozhen Duan, Zheng Ma, Mei Xie(参考訳) モード崩壊は、生成的敵ネットワークにおける主要な未解決問題である。 本研究では,モード崩壊の原因を新たな視点から分析する。 トレーニングプロセスにおける非一様サンプリングのため、サンプリングデータ中にいくつかのサブディストリビューションを見逃すことができる。 したがって、GANの目的は、生成した分布が実分布と同じでない場合に最小値に達することができる。 この問題を軽減するために、ペナルティ項によるグローバル分散フィッティング(GDF)手法を提案し、生成されたデータ分布を制約する。 GAN目標のグローバルな最小値を変更しないため、GDFは、生成した分布が実値と同じでない場合に、最小値に到達するのを難しくする。 また,実分布が不明な状況に対処するための局所分布フィッティング法(LDF)を提案する。 いくつかのベンチマーク実験では, GDF と LDF の有効性と競争性能が示された。

Mode collapse is still a major unsolved problem in generative adversarial networks. In this work, we analyze the causes of mode collapse from a new perspective. Due to the nonuniform sampling in the training process, some sub-distributions can be missed while sampling data. Therefore, the GAN objective can reach the minimum when the generated distribution is not the same as the real one. To alleviate the problem, we propose a global distribution fitting (GDF) method by a penalty term to constrain generated data distribution. On the basis of not changing the global minimum of the GAN objective, GDF will make it harder to reach the minimum value when the generated distribution is not the same as the real one. Furthermore, we also propose a local distribution fitting (LDF) method to cope with the situation that the real distribution is unknown. Experiments on several benchmarks demonstrate the effectiveness and competitive performance of GDF and LDF.
翻訳日:2022-12-06 15:36:24 公開日:2022-12-03
# トラヒック時系列インプテーションのためのラプラシアン畳み込み表現

Laplacian Convolutional Representation for Traffic Time Series Imputation ( http://arxiv.org/abs/2212.01529v1 )

ライセンス: Link先を確認
Xinyu Chen and Zhanhong Cheng and Nicolas Saunier and Lijun Sun(参考訳) 時空間的トラヒックデータインプテーションは、インテリジェントな輸送システムとデータ駆動意思決定プロセスにおいて非常に重要である。 一部観測されたトラヒックデータの正確な再構成を行うため,トラヒック時系列におけるグローバルトレンドとローカルトレンドの両方を特徴付けることの重要性を主張する。 文献では,交通データの低ランク特性を行列/テンソル補完モデルで活用する効果が実証されている。 本研究では,まず,循環的畳み込みの形で定式化できる交通時系列の局所的傾向を特徴付けるための時間的正則化にラプラシア核を導入する。 次に,循環行列の核ノルムとラプラシアン時間正規化を併用することにより,低ランクなラプラシアン畳み込み表現(LCR)モデルを開発する。 いくつかのトラフィックデータセットに関する広範な実験を通じて、様々な時系列行動(例えば、データノイズと強い/弱い周期性)のトラフィック時系列を出力するLCRの優位性を実証する。 提案するlcrモデルは,既存のベースラインモデルに対する大規模トラヒックデータインプテーションに対して効率的かつ効果的なソリューションである。 適応データセットとPythonの実装はhttps://github.com/xinychen/transdim.comで公開されている。

Spatiotemporal traffic data imputation is of great significance in intelligent transportation systems and data-driven decision-making processes. To make an accurate reconstruction on partially observed traffic data, we assert the importance of characterizing both global and local trends in traffic time series. In the literature, substantial prior works have demonstrated the effectiveness of utilizing low-rankness property of traffic data by matrix/tensor completion models. In this study, we first introduce a Laplacian kernel to temporal regularization for characterizing local trends in traffic time series, which can be formulated in the form of circular convolution. Then, we develop a low-rank Laplacian convolutional representation (LCR) model by putting the nuclear norm of a circulant matrix and the Laplacian temporal regularization together, which is proved to meet a unified framework that takes a fast Fourier transform solution in a relatively low time complexity. Through extensive experiments on some traffic datasets, we demonstrate the superiority of LCR for imputing traffic time series of various time series behaviors (e.g., data noises and strong/weak periodicity). The proposed LCR model is an efficient and effective solution to large-scale traffic data imputation over the existing baseline models. The adapted datasets and Python implementation are publicly available at https://github.com/xinychen/transdim.
翻訳日:2022-12-06 15:36:11 公開日:2022-12-03
# 中間エンティティベーススパース解釈型表現学習

Intermediate Entity-based Sparse Interpretable Representation Learning ( http://arxiv.org/abs/2212.01641v1 )

ライセンス: Link先を確認
Diego Garcia-Olano, Yasumasa Onoe, Joydeep Ghosh, Byron C. Wallace(参考訳) 解釈可能なエンティティ表現(iers)は、次元がきめ細かなエンティティタイプに対応し、与えられたエンティティが対応する型である確率が予測されるような「人間の読みやすい」埋め込みである。 これらの方法はゼロショットと低い監督設定でうまく機能する。 標準的な高密度ニューラルネットワークと比較して、そのような解釈可能な表現は解析とデバッグを可能にする。 しかしながら、微調整されたスパースで解釈可能な表現は下流タスクの精度を向上させるが、事前トレーニングで強制された次元のセマンティクスを破壊する。 下流タスクにおける予測性能を改善しながら、IERが持つ解釈可能なセマンティクスを維持できるだろうか? この目的に向けて,中間エンティティベーススパース解釈表現学習(itsirl)を提案する。 itirlは、概して「解釈可能性」と特にモデルデバッグをサポートする能力を維持しながら、生物医学タスクにおける以前のiasよりもパフォーマンスが向上することを実現する。 後者は、私たちが本書で検討している"カントリーファクト"なエンティティ型操作を実行する機能によって、部分的に有効になっている。 最後に,本モデルで学習したクラスのグローバルセマンティクス特性を明らかにするために,エンティティ型に基づくクラスプロトタイプを構築する手法を提案する。

Interpretable entity representations (IERs) are sparse embeddings that are "human-readable" in that dimensions correspond to fine-grained entity types and values are predicted probabilities that a given entity is of the corresponding type. These methods perform well in zero-shot and low supervision settings. Compared to standard dense neural embeddings, such interpretable representations may permit analysis and debugging. However, while fine-tuning sparse, interpretable representations improves accuracy on downstream tasks, it destroys the semantics of the dimensions which were enforced in pre-training. Can we maintain the interpretable semantics afforded by IERs while improving predictive performance on downstream tasks? Toward this end, we propose Intermediate enTity-based Sparse Interpretable Representation Learning (ItsIRL). ItsIRL realizes improved performance over prior IERs on biomedical tasks, while maintaining "interpretability" generally and their ability to support model debugging specifically. The latter is enabled in part by the ability to perform "counterfactual" fine-grained entity type manipulation, which we explore in this work. Finally, we propose a method to construct entity type based class prototypes for revealing global semantic properties of classes learned by our model.
翻訳日:2022-12-06 15:28:43 公開日:2022-12-03
# 長期文書処理のためのグローバルメモリ変換器

Global memory transformer for processing long documents ( http://arxiv.org/abs/2212.01650v1 )

ライセンス: Link先を確認
Arij Al Adel(参考訳) トランスフォーマーの変種は、翻訳、読解、要約といった様々な自然言語処理タスクにおいて最先端である。 本論文は,入力に汎用メモリスロットを付加し,これらのスロットを付加した結果について検討する方向にある。 本稿では,従来の研究で提案したモデルの入力に追加された一般的なメモリスロットルールについて検討する。 1)マスク言語モデリングを用いた事前学習タスクと,(b)HotpotQAを用いた微調整タスクの2つがある。 本研究の目的は,提案モデルのチャンクを,ベースモデルと比較したチャンクのように処理する能力を検証することである。 ベースラインとしてT5トランスを使用しました。 各入力チャンクに拡張されたメモリスロットのルールを調査し,セレクタを使わずにモデル性能を調べた。 入力チャンクにメモリを追加することで、特定のトレーニングパラメータを持つマスキング言語モデリングタスクのベースラインを克服できることがわかった。 アブレーション実験により,圧縮された入力チャンクを性能劣化で使用できることが明らかになった。

Transformer variants dominate the state-of-the-art in different natural language processing tasks such as translation, reading comprehension and summarization. Our paper is more directed to use general memory slots added to the inputs and studying the results of adding these slots. This paper is a go on study of general memory slots rule that were added to the input of the proposed model in previous work. We have two main tasks;1) pretraining task using masked language modeling and b) fine tuning task using HotpotQA . This study aims to verify the ability of the proposed model to handle chunks as if they were one chunk comparing with the base model. As baseline we used T5 transformer. We studied the rule of memory slots augmented to each input chunk and studied the model performance without selector. We found that adding memory to input chunks helped the proposed model to overcome the baseline on Masked language modeling task with specific training parameters. Ablation study reveals the ability of using the compressed input chunks with a degradation in performance.
翻訳日:2022-12-06 15:28:25 公開日:2022-12-03
# 別の視点から見る視覚的質問:CLEVRのメンタルローテーションテスト

Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests ( http://arxiv.org/abs/2212.01639v1 )

ライセンス: Link先を確認
Christopher Beckham, Martin Weiss, Florian Golemo, Sina Honari, Derek Nowrouzezahrai, Christopher Pal(参考訳) 心理学において、人間の視覚的推論と知覚を理解するために様々な種類の精神回転テストが広く用いられている。 オブジェクトや視覚的なシーンが他の視点からどう見えるかを理解することは、単一のイメージから実行しなければならない場合、さらに難しい問題になります。 そのシーンが他の視点から観察された場合、シーンの特性について質問を行う制御された設定を探索する。 そのために私たちは,CLEVRメンタルローテーションテスト(CLEVR-MRT)と呼ばれる,CLEVRデータセットの新バージョンを作成しました。 CLEVR-MRTを用いて、標準的な手法を検証し、どのように不足するかを示し、シーンのボリューム表現を推論する新しいニューラルネットワークを探索する。 これらのボリュームは、カメラコンディション変換によって、質問に答えるために操作することができる。 異なるモデルの有効性を厳密なアブレーションにより検証し,体積表現の有効性を示す。

Different types of mental rotation tests have been used extensively in psychology to understand human visual reasoning and perception. Understanding what an object or visual scene would look like from another viewpoint is a challenging problem that is made even harder if it must be performed from a single image. We explore a controlled setting whereby questions are posed about the properties of a scene if that scene was observed from another viewpoint. To do this we have created a new version of the CLEVR dataset that we call CLEVR Mental Rotation Tests (CLEVR-MRT). Using CLEVR-MRT we examine standard methods, show how they fall short, then explore novel neural architectures that involve inferring volumetric representations of a scene. These volumes can be manipulated via camera-conditioned transformations to answer the question. We examine the efficacy of different model variants through rigorous ablations and demonstrate the efficacy of volumetric representations.
翻訳日:2022-12-06 15:20:31 公開日:2022-12-03
# rho (\rho$):知識基盤を持つオープンドメイン対話における幻覚の軽減

RHO ($\rho$): Reducing Hallucination in Open-domain Dialogues with Knowledge Grounding ( http://arxiv.org/abs/2212.01588v1 )

ライセンス: Link先を確認
Ziwei Ji, Zihan Liu, Nayeon Lee, Tiezheng Yu, Bryan Wilie, Min Zeng, Pascale Fung(参考訳) 対話システムは、大きな事前学習された言語モデルと知識を活用し、滑らかで情報に富んだ応答を生成することができる。 しかし、これらのモデルはまだ入力元がサポートしていない幻覚反応を生じやすいため、その応用は著しく阻害される。 外部知識と対話コンテキストの異質性は学習とソース統合を表現し、さらに不信感に寄与する。 この課題に対処し、より忠実な応答を生成するために、知識グラフ(KG)からリンクされたエンティティと関係述語を表現したRHO(\rho$)を提示する。 本稿では,(1)テキスト埋め込みと対応するKG埋め込みを組み合わせるための局所知識基盤,(2)注目機構を介してRHOにマルチホップ推論能力を持たせるためのグローバル知識基盤を提案する。 さらに,KGサブグラフのウォーキングに基づく応答再分類手法を考案し,会話推論の精度向上を図る。 OpenDialKGによる実験結果から,特に幻覚減少(17.54%)において,我々のアプローチは,自動評価と人的評価の両方において,最先端の手法を著しく上回っていることが明らかとなった。

Dialogue systems can leverage large pre-trained language models and knowledge to generate fluent and informative responses. However, these models are still prone to produce hallucinated responses not supported by the input source, which greatly hinders their application. The heterogeneity between external knowledge and dialogue context challenges representation learning and source integration, and further contributes to unfaithfulness. To handle this challenge and generate more faithful responses, this paper presents RHO ($\rho$) utilizing the representations of linked entities and relation predicates from a knowledge graph (KG). We propose (1) local knowledge grounding to combine textual embeddings with the corresponding KG embeddings; and (2) global knowledge grounding to equip RHO with multi-hop reasoning abilities via the attention mechanism. In addition, we devise a response re-ranking technique based on walks over KG sub-graphs for better conversational reasoning. Experimental results on OpenDialKG show that our approach significantly outperforms state-of-the-art methods on both automatic and human evaluation by a large margin, especially in hallucination reduction (17.54% in FeQA).
翻訳日:2022-12-06 15:18:47 公開日:2022-12-03
# CrossSplit: データ分割によるラベルノイズ記憶の軽減

CrossSplit: Mitigating Label Noise Memorization through Data Splitting ( http://arxiv.org/abs/2212.01674v1 )

ライセンス: Link先を確認
Jihye Kim, Aristide Baratin, Yan Zhang, Simon Lacoste-Julien(参考訳) 本稿では,ラベルノイズの存在下でのディープラーニングアルゴリズムの堅牢性向上の問題にアプローチする。 既存のラベル補正と共同学習手法に基づいて、データセットの2つの非結合部分でトレーニングされた2つのニューラルネットワークを使用する、CrossSplitと呼ばれるノイズラベルの記憶を緩和する新たなトレーニング手順を提案する。 CrossSplitは2つの主要な材料を組み合わせています。 (i)クロススプリットラベル補正。 データの一方でトレーニングされたモデルは、他方から例ラベルペアを記憶できないので、ピアネットワークの予測を用いて各ネットワークに提示されるトレーニングラベルをスムーズに調整することができる。 (ii)クロススプリット半監督訓練。 データの一部でトレーニングされたネットワークは、他の部分のラベルのない入力も使用する。 CIFAR-10, CIFAR-100, Tiny-ImageNet, および mini-WebVision データセットの大規模な実験により, 本手法は最先端のノイズ比を最大90%まで上回ることができることを示した。

We approach the problem of improving robustness of deep learning algorithms in the presence of label noise. Building upon existing label correction and co-teaching methods, we propose a novel training procedure to mitigate the memorization of noisy labels, called CrossSplit, which uses a pair of neural networks trained on two disjoint parts of the dataset. CrossSplit combines two main ingredients: (i) Cross-split label correction. The idea is that, since the model trained on one part of the data cannot memorize example-label pairs from the other part, the training labels presented to each network can be smoothly adjusted by using the predictions of its peer network; (ii) Cross-split semi-supervised training. A network trained on one part of the data also uses the unlabeled inputs of the other part. Extensive experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet and mini-WebVision datasets demonstrate that our method can outperform the current state-of-the-art up to 90% noise ratio.
翻訳日:2022-12-06 15:10:52 公開日:2022-12-03
# コンテキストにないものは何か? Informative Demonstrations を用いたFew-shot学習者の評価

What is Not in the Context? Evaluation of Few-shot Learners with Informative Demonstrations ( http://arxiv.org/abs/2212.01692v1 )

ライセンス: Link先を確認
Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik(参考訳) 大規模言語モデルでは、少数のインプット・アウトプット・デモから新しいタスクを学習する能力を示す。 しかし、近年の研究では、モデルは主に新しいタスクの仕組みではなく、新しいタスクの分散を模倣することを学ぶことが示されている。 ランダムなインコンテキスト・デモの選び方を利用した少数ショット・モデルの一般的な評価設定は、新しいタスクの入力と出力の分布を露呈する以上の予測には役に立たないため、デモから新しいスキルを学習するモデルの能力を阻害することができない。 そこで本研究では,予測したサンプルと特定の有意義な概念を共有する実演を抽出し,学習者の文脈内学習から得られる数少ない学習者の利得を解消する評価手法を提案する。 モデルのサイズに関わらず、既存の数発の学習者は、デモでそのような情報的概念を観察することの恩恵を受けることができない。 また,学習過程における有意義な実演を露出させることで,そのような能力は自明に得られない可能性があり,真に文脈内学習者の訓練の課題は残されている。

Large language models demonstrate an emergent ability to learn a new task from a small number of input-output demonstrations, referred to as in-context few-shot learning. However, recent work shows that in such settings, models mainly learn to mimic the new task distribution, instead of the mechanics of the new task. We argue that the commonly-used evaluation settings of few-shot models utilizing a random selection of in-context demonstrations is not able to disentangle models' ability to learn new skills from demonstrations, as most of the such-selected demonstrations are not informative for prediction beyond exposing the new task's input and output distribution. Therefore, we introduce an evaluation technique that disentangles few-shot learners' gain from in-context learning by picking the demonstrations sharing a specific, informative concept with the predicted sample, in addition to the performance reached by mainly non-informative samples. We find that regardless of the model size, existing few-shot learners are not able to benefit from observing such informative concepts in demonstrations. We also find that such ability may not be obtained trivially by exposing the informative demonstrations in the training process, leaving the challenge of training true in-context learners open.
翻訳日:2022-12-06 15:01:23 公開日:2022-12-03