このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221021となっている論文です。

PDF登録状況(公開日: 20221021)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダムサンプリング理論に基づく損失耐性量子鍵分布の有限鍵解析

Finite-key analysis of loss-tolerant quantum key distribution based on random sampling theory ( http://arxiv.org/abs/2101.12603v2 )

ライセンス: Link先を確認
Guillermo Curr\'as-Lorenzo, \'Alvaro Navarrete, Margarida Pereira, Kiyoshi Tamaki(参考訳) 量子鍵分布(QKD)のセキュリティ証明の核心は、秘密鍵を蒸留するためにユーザーが適用しなければならないプライバシー増幅の量を決定するパラメータを推定することである。 このパラメータを観測データを用いて推定するには,ランダムサンプリング理論や吾妻の不等式などの濃度不等式を適用する必要がある。 後者は、損失耐性(LT)プロトコルなど、相互にバイアスのない符号化ベースに依存しないものを含む、より広範なQKDプロトコルで簡単に使用できる。 しかし、実寿命の有限長qkd実験に適用すると、吾妻の不等式は極端に低い秘密鍵率となる。 本稿では,一般攻撃に対するLTプロトコルの代替セキュリティ解析を,ランダムサンプリング理論に基づくその準備・測定・測定・デバイス非依存バージョンに対して提案する。 その結果,吾妻の不等式に基づく従来の有限鍵解析よりも高い秘密鍵レートが得られた。 この研究は、ランダムサンプリング理論を用いて他のQKDプロトコルの代替セキュリティ証明を提供する可能性を開く。

The core of security proofs of quantum key distribution (QKD) is the estimation of a parameter that determines the amount of privacy amplification that the users need to apply in order to distill a secret key. To estimate this parameter using the observed data, one needs to apply concentration inequalities, such as random sampling theory or Azuma's inequality. The latter can be straightforwardly employed in a wider class of QKD protocols, including those that do not rely on mutually unbiased encoding bases, such as the loss-tolerant (LT) protocol. However, when applied to real-life finite-length QKD experiments, Azuma's inequality typically results in substantially lower secret-key rates. Here, we propose an alternative security analysis of the LT protocol against general attacks, for both its prepare-and-measure and measure-device-independent versions, that is based on random sampling theory. Consequently, our security proof provides considerably higher secret-key rates than the previous finite-key analysis based on Azuma's inequality. This work opens up the possibility of using random sampling theory to provide alternative security proofs for other QKD protocols.
翻訳日:2023-04-13 08:51:09 公開日:2022-10-21
# 新型コロナウイルスのパンデミックによる買い物代行からオンラインショッピングへの移行

Transition from physical to online shopping alternatives due to the COVID-19 pandemic ( http://arxiv.org/abs/2104.04061v2 )

ライセンス: Link先を確認
Claudia Andruetto, Elisa Bin, Yusak Susilo and Anna Pernest{\aa}l(参考訳) 本研究は、オンラインアンケートから得られた530件の回答を用いて、新型コロナウイルスのパンデミック期間の第1波における、物理的なショッピング代替品からオンラインショッピングへの移行を個別レベルで調査することを目的とする。 研究の焦点はスウェーデンとイタリアであり、対極的な予防措置を講じた2つのヨーロッパ諸国である。 本研究は、パンデミックがショッピング行動に与える影響を分析し、最も行動を変えた回答者のうち、どのように異なるショッピング戦略を採用したか、イタリアとスウェーデンの反応の主な違いは何か、そして人口密度が行動の変化に与える影響を識別する。 線形および二項ロジスティック回帰と多項ロジットモデルを含む多変量統計解析を用いてデータセットを解析した。 その結果, イタリアとスウェーデンの違いは, 社会的分散対策, 社会構造, 技術的準備性の観点から確認された。 また,パンデミック期第1波における買い物行動の変化の量と方向性に影響を与える要因として,社会デミックと世帯構造がみられた。 本研究の成果は、コントラスト政策が市民に与える影響と、異なる状況に適応可能な政策を持つことの重要性を強調している。

By using 530 responses from an online questionnaire, this study aims to investigate the transition from physical to online shopping alternatives during the first wave of the COVID-19 pandemic period at the individual level. The focus areas of the study are Sweden and Italy, two European countries that implemented contrasting prevention measures. This study analyses the impacts of the pandemic to the shopping behaviour and identifies, among the respondents, who have changed the behaviour the most, how respondents have adopted different shopping strategies, what the main differences between Italian and Swedish responses are and the influence of population density on the behavioural change. Multivariate statistical analyses, including linear and binary logistic regressions and multinomial logit models were used to analyse the dataset. The results confirm the differences between Italy and Sweden in terms of social distancing measures, social structures and technology readiness. Moreover, the socio-demographic and household structures of the respondents were found instrumental in influencing the amount and the direction of change in shopping behaviour during the first wave of the pandemic period. The output of this study highlights the impact that contrasting policies have on citizens, and also the importance of having policies that are adaptable to different situations.
翻訳日:2023-04-06 21:16:51 公開日:2022-10-21
# 多体ヒルベルト空間における計測駆動ナビゲーション:能動分解ステアリング

Measurement-driven navigation in many-body Hilbert space: Active-decision steering ( http://arxiv.org/abs/2111.09306v3 )

ライセンス: Link先を確認
Yaroslav Herasymenko, Igor Gornyi, Yuval Gefen(参考訳) 指定された状態でシステムを作成するという課題は、様々な量子力学の側面にまたがる。 量子状態を操るこのタスクを完了させるためには、システムを対象の状態へ向ける一般化された測定のシーケンスを通して量子制御を行うことができる。 このプロトコルのアクティブバージョンでは、得られた測定読み出しを使用してプロトコルをオンザゴーに調整する。 これにより、アクティブな調整を含まないプロトコルのパッシブバージョンに対するスポンジアップのパフォーマンスが実現される。 本研究では,多体量子システムの難解な場合に適用できるようなアクティブな計測駆動ステアリングについて考察する。 有用な意思決定戦略のために、我々はナビゲーションで使われるものと同等のヒルベルト空間指向技術を提供する。 1つ目は、アクティブ決定プロトコルを目標状態の忠実度などのコスト関数のグリーディ蓄積に結びつけることである。 我々は,この欲張りなアプローチを行列積の状態ターゲットの幅広いファミリーに適用することで,大幅なスピードアップの可能性を示す。 ここで考慮されたシステムサイズでは、このファミリー全体でのスピードアップ係数の平均値は20ドル程度で、一部のターゲットは数千ドルにも達する。 また、Matrix Product Stateターゲットのサブクラスを特定し、システムサイズに応じて$f$の値が増加する。 グリーディアプローチに加えて、第2のwayfindingテクニックは、利用可能な測定アクションを量子状態マシンにマップすることだ。 意思決定プロトコルは、半古典的ヒューリスティックスを用いて、そのような表現に基づいてもよい。 このState Machineベースのアプローチは、より制限されたターゲットセットに適用することができる。 この方法で加速されるw状態生成の例として、$f\simeq3.5$を示し、このターゲットのgreedyプロトコルを上回っている。

The challenge of preparing a system in a designated state spans diverse facets of quantum mechanics. To complete this task of steering quantum states, one can employ quantum control through a sequence of generalized measurements which direct the system towards the target state. In an active version of this protocol, the obtained measurement readouts are used to adjust the protocol on-the-go. This enables a sped-up performance relative to the passive version of the protocol, where no active adjustments are included. In this work, we consider such active measurement-driven steering as applied to the challenging case of many-body quantum systems. For helpful decision-making strategies, we offer Hilbert-space-orientation techniques, comparable to those used in navigation. The first one is to tie the active-decision protocol to the greedy accumulation of the cost function, such as the target state fidelity. We show the potential of a significant speedup, employing this greedy approach to a broad family of Matrix Product State targets. For system sizes considered here, an average value of the speedup factor $f$ across this family settles about $20$, for some targets even reaching a few thousands. We also identify a subclass of Matrix Product State targets, for which the value of $f$ increases with system size. In addition to the greedy approach, the second wayfinding technique is to map out the available measurement actions onto a Quantum State Machine. A decision-making protocol can be based on such a representation, using semiclassical heuristics. This State Machine-based approach can be applied to a more restricted set of targets, sometimes offering advantages over the cost function-based method. We give an example of a W-state preparation which is accelerated with this method by $f\simeq3.5$, outperforming the greedy protocol for this target.
翻訳日:2023-03-07 21:38:13 公開日:2022-10-21
# 有機ポラリトンの効率的多体非マルコフダイナミクス

Efficient many-body non-Markovian dynamics of organic polaritons ( http://arxiv.org/abs/2112.09003v3 )

ライセンス: Link先を確認
Piper Fowler-Wright and Brendon W. Lovett and Jonathan Keeling(参考訳) 我々は、多くの振動モードへの強い結合と1つの光子モードへの集合結合の両方を持つ多くの分子のモデルをシミュレートする方法を示す。 プロセステンソル行列積作用素法と平均場近似を組み合わせることでこの問題を解決し、問題の次元を減少させる。 非コヒーレントポンピング下でのモデルの定常状態を分析し, ポラリトン発振閾値のキャビティデチューニング, 光マッター結合強度, 環境温度依存性について検討した。 さらに, 2時間相関測定により, 平均場に関する2次ゆらぎを調べ, 発光スペクトルを計算する。 提案手法は,複数の環境に強く結合した多体系をシミュレートし,静的特性と動的特性の両方を抽出する。

We show how to simulate a model of many molecules with both strong coupling to many vibrational modes and collective coupling to a single photon mode. We do this by combining process tensor matrix product operator methods with a mean-field approximation which reduces the dimension of the problem. We analyze the steady-state of the model under incoherent pumping to determine the dependence of the polariton lasing threshold on cavity detuning, light-matter coupling strength, and environmental temperature. Moreover, by measuring two-time correlations, we study quadratic fluctuations about the mean-field to calculate the photoluminescence spectrum. Our method enables one to simulate many-body systems with strong coupling to multiple environments, and to extract both static and dynamical properties.
翻訳日:2023-03-04 09:31:18 公開日:2022-10-21
# 失語症におけるオペレーターの絡み合いの上昇と減少、そして再び緩やかに上昇

Rise and fall, and slow rise again, of operator entanglement under dephasing ( http://arxiv.org/abs/2201.05099v2 )

ライセンス: Link先を確認
David Wellnitz, Guillermo Preisser, Vincenzo Alba, Jerome Dubail, Johannes Schachenmayer(参考訳) 作用素空間エンタングルメントエントロピー(英: operator space entanglement entropy、略称: OE)は、量子作用素の複雑さと、行列積演算子(英語版)(MPO)による近似可能性の指標である。 拡散進化中の1次元多体モデルの密度行列のOEについて検討した。 一次クエンチ力学を思い起こさせる最初の線形成長の後、系が単純な定常状態に進化するにつれて、散逸過程によってOEを抑制すべきである。 驚くべきことに、このシナリオは最も基本的な散逸的なメカニズムの1つに分解される。 強調すると、最初の「日の出と落下」の後、OEは再び上昇し、長い時間に対数的に増加する。 無限長鎖に対するmpoシミュレーションと強い強調に有効な解析的議論の組み合わせを用いて、この成長は u(1)$ 保存則に固有のものであることを示す。 XXZ スピンモデルとボース・ハッバードモデルでは、OE は長い時間で $\frac{1}{4} \log_2 t$ として、フェルミ・ハッバードモデルに対して $\frac{1}{2} \log_2 t$ として普遍的に成長する。 この挙動を異常な古典的拡散過程にさかのぼる。

The operator space entanglement entropy, or simply 'operator entanglement' (OE), is an indicator of the complexity of quantum operators and of their approximability by Matrix Product Operators (MPO). We study the OE of the density matrix of 1D many-body models undergoing dissipative evolution. It is expected that, after an initial linear growth reminiscent of unitary quench dynamics, the OE should be suppressed by dissipative processes as the system evolves to a simple stationary state. Surprisingly, we find that this scenario breaks down for one of the most fundamental dissipative mechanisms: dephasing. Under dephasing, after the initial 'rise and fall' the OE can rise again, increasing logarithmically at long times. Using a combination of MPO simulations for chains of infinite length and analytical arguments valid for strong dephasing, we demonstrate that this growth is inherent to a $U(1)$ conservation law. We argue that in an XXZ spin-model and a Bose-Hubbard model the OE grows universally as $\frac{1}{4} \log_2 t$ at long times, and as $\frac{1}{2} \log_2 t$ for a Fermi-Hubbard model. We trace this behavior back to anomalous classical diffusion processes.
翻訳日:2023-03-01 06:37:50 公開日:2022-10-21
# 古典的な交換可能な操作

Classically Replaceable Operations ( http://arxiv.org/abs/2203.14244v2 )

ライセンス: Link先を確認
Guoding Liu, Xingjian Zhang, Xiongfeng Ma(参考訳) 量子情報科学は古典物理学の範囲を超えて強力な技術を提供する。 実際、量子演算の正確な制御は、現在の量子デバイスでは難しい課題である。 高忠実性とマルチ量子ビットの量子演算の実装は大量のリソースを消費し、ノイズと戦うために複雑なハードウェア設計を必要とする。 この問題を緩和するためのアプローチは、量子演算を古典的処理に置き換えることである。 このアプローチの一般的な実践にもかかわらず、与えられた量子演算が古典的に置換可能であるかどうかを決定する厳密な基準は依然として欠落している。 本研究では,従来の置き換え可能な操作を4つの一般的なシナリオで定義する。 各シナリオにおいて、必要な十分な基準を提供し、対応する古典的処理を指摘します。 ユニタリ古典的置換可能演算の実質的に好都合な場合に対し、置き換えられた古典的処理は決定論的であることを示す。 さらに、古典的処理による量子演算の非可換性を量子資源とみなし、非局所的なゲームにおけるチャネルのパフォーマンスと関連付け、堅牢性尺度で示される。

Quantum information science provides powerful technologies beyond the scope of classical physics. In practice, accurate control of quantum operations is a challenging task with current quantum devices. The implementation of high fidelity and multi-qubit quantum operations consumes massive resources and requires complicated hardware design to fight against noise. An approach to alleviating this problem is to replace quantum operations with classical processing. Despite the common practice of this approach, rigorous criteria to determine whether a given quantum operation is replaceable classically are still missing. In this work, we define the classically replaceable operations in four general scenarios. In each scenario, we provide their necessary and sufficient criteria and point out the corresponding classical processing. For a practically favorable case of unitary classically replaceable operations, we show that the replaced classical processing is deterministic. Beyond that, we regard the irreplaceability of quantum operations by classical processing as a quantum resource and relate it to the performance of a channel in a non-local game, as manifested in a robustness measure.
翻訳日:2023-02-20 17:08:56 公開日:2022-10-21
# 米国における自動運転車による最終マイル配送のエンドユーザー受け入れ調査

Investigating End-user Acceptance of Last-mile Delivery by Autonomous Vehicles in the United States ( http://arxiv.org/abs/2205.14282v3 )

ライセンス: Link先を確認
Antonios Saravanos (1), Olivia Verni (1), Ian Moore (1), Sall Aboubacar (1), Jen Arriaza (1), Sabrina Jivani (1), Audrey Bennett (1), Siqi Li (1), Dongnanzi Zheng (1), Stavros Zervoudakis (1) ((1) New York University)(参考訳) 本稿では,米国内の自動運転車が実施するラストマイル配送のエンドユーザー受け入れについて検討する。 296名の被験者がこの技術に関する情報を提示し、受諾に関する行動意図を評価するために、自身の知覚に関するアンケートを完了するよう求めた。 部分最小二乗フレーバー(pls-sem)の構造方程式モデルを用いて分析を行った。 その結果, エンドユーザーによる受諾決定において, 技術の有用性が最大の役割を担い, 他者の影響を受け, 技術との相互作用によって得られる楽しみが認められた。 さらに、ラストマイル配達に自動運転車を使用することによるリスクの認識は、受け入れの減少につながった。 しかし、ほとんどの参加者は、この技術が危険であると考えることはなかった。 この論文は、我々の研究成果が各利害関係者に与える影響を要約し、この研究領域における次のステップを提案する。

This paper investigates the end-user acceptance of last-mile delivery carried out by autonomous vehicles within the United States. A total of 296 participants were presented with information on this technology and then asked to complete a questionnaire on their perceptions to gauge their behavioral intention concerning acceptance. Structural equation modeling of the partial least squares flavor (PLS-SEM) was employed to analyze the collected data. The results indicated that the perceived usefulness of the technology played the greatest role in end-user acceptance decisions, followed by the influence of others, and then the enjoyment received by interacting with the technology. Furthermore, the perception of risk associated with using autonomous delivery vehicles for last-mile delivery led to a decrease in acceptance. However, most participants did not perceive the use of this technology to be risky. The paper concludes by summarizing the implications our findings have on the respective stakeholders and proposing the next steps in this area of research.
翻訳日:2023-02-19 17:17:17 公開日:2022-10-21
# 大規模言語モデルのデトックス化のためのドメイン適応トレーニングの限界を探る

Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models ( http://arxiv.org/abs/2202.04173v3 )

ライセンス: Link先を確認
Boxin Wang, Wei Ping, Chaowei Xiao, Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Bo Li, Anima Anandkumar, Bryan Catanzaro(参考訳) 事前訓練された言語モデル(LM)は、有害な言語を容易に生成できることが示されている。 本研究では,言語モデルの毒性を軽減するためのドメイン適応トレーニングを体系的に検討する。 本研究は,トレーニングコーパス,モデルサイズ,パラメータ効率の3次元について行った。 トレーニングコーパスでは, LMの生成能力を活用し, 非有害なデータセットを生成し, 被曝バイアスを軽減し, キュレートされた事前学習コーパスよりもデータ効率が高いことを示す。 自己生成法は,3分の1のトレーニングコーパスを用いた場合であっても,自動評価と人的評価の両方において,既存のベースラインを一貫して上回ることを示す。 次に, 従来研究されてきたスケールである, 126Mから530B(GPT-3より3倍大きい)までのパラメータサイズで, 除毒膜を包括的に研究した。 私たちはそれを見つけ 一 大型のLMは、同じ訓練前のコーパスを与えられた小さいものと同様の毒性レベルを有する 二 大きなLMは、解毒により多くの努力を必要とする。 また,デトキシ化のためのパラメータ効率のトレーニング手法についても検討する。 LMにおけるアダプタのみのレイヤーの追加とトレーニングは、多くのパラメータを節約するだけでなく、大規模モデルに対するモデル全体の適応よりも毒性とパープレキシティのトレードオフが優れていることを示す。

Pre-trained language models (LMs) are shown to easily generate toxic language. In this work, we systematically explore domain-adaptive training to reduce the toxicity of language models. We conduct this study on three dimensions: training corpus, model size, and parameter efficiency. For the training corpus, we propose to leverage the generative power of LMs and generate nontoxic datasets for domain-adaptive training, which mitigates the exposure bias and is shown to be more data-efficient than using a curated pre-training corpus. We demonstrate that the self-generation method consistently outperforms the existing baselines across various model sizes on both automatic and human evaluations, even when it uses a 1/3 smaller training corpus. We then comprehensively study detoxifying LMs with parameter sizes ranging from 126M up to 530B (3x larger than GPT-3), a scale that has never been studied before. We find that i) large LMs have similar toxicity levels as smaller ones given the same pre-training corpus, and ii) large LMs require more endeavor to detoxify. We also explore parameter-efficient training methods for detoxification. We demonstrate that adding and training adapter-only layers in LMs not only saves a lot of parameters but also achieves a better trade-off between toxicity and perplexity than whole model adaptation for the large-scale models.
翻訳日:2023-02-19 14:47:13 公開日:2022-10-21
# Rogue Protocol: NFTロイヤリティトークン化のためのフレームワーク

Rogue Protocol: A Framework For NFT Royalties Tokenisation ( http://arxiv.org/abs/2211.00063v1 )

ライセンス: Link先を確認
\v{S}ar\=unas Barauskas, Roberto Ripamonti and Emanuele Ragnoli(参考訳) 暗号通貨エコシステムは、ベンチャー資金を調達するための強力なチャネルへと進化してきた。 新たな資金流入の波は、ICO、DAO、NFTといった新しいタイプの投資車両によってエピトミー化されている。 これらのパラダイムはいずれも、効率的な資本市場の柱である投資家保護の問題に対処しようとはしなかった。 さらに、新しい投資家を惹きつけるためにマーケティングのみに焦点を当て、経済的な収益を生み出しようとしたプロジェクトはごくわずかであった。 収益がなければ価格の発見は不可能であり、投資家は粗利な引き金から保護されることはなかった。 これにより、規制当局はエコシステムへのハードラインアプローチを迫られ、特定のトークンが意図していない場合の証券であると裁定された。 規制当局は、Ethereumのような真に分散化されたアクティビティを持つ暗号通貨にその扉を開いている。 私たちは、多くの分散プロジェクトがこの規制例外の恩恵を受けると信じています。 プロジェクト収益が自動的に財務プールに向けられ、トークンの価格が所定の結合曲線に従って計算されるシステムは、効率的に資本を調達することができ、投資家はプロジェクトの成功に公正な参加が保証される。 このような枠組みにより、創業者はハイプではなく価値を生み出す分散プロジェクトを設計するようインセンティブを与え、証券法の適用は厳格さや必要度を低下させる。 特にNFTロイヤリティは、関連するトークンの価値を支えるために使用されるキャッシュフローを生成する分散経済活動の一例である。 本稿では,トークンの価格と分散化活動の成功を結びつけ,トークンの公平な流通を保証する暗号システムを提案する。

The crypto ecosystem has evolved into a formidable channel for raising venture capital. Each new wave of capital inflows has been epitomized by a new type of investment vehicle, may it be ICOs, DAOs, or NFTs. Regrettably, none of these paradigms tried to address the issue of investor protection, a pillar of efficient capital markets. Moreover, very few projects tried to generate economic revenue, focusing instead on marketing alone to attract new investors. Without revenues, price discovery was impossible, while investors were left without any protection against rug pulls. This has forced regulators to take a hard-line approach to the ecosystem, and rule that certain tokens are securities when they are not intended to be. Regulators have left the door open to cryptocurrencies with truly decentralised activity like Ethereum, most notably the SEC in its interpretation of the Howey test for digital assets. We believe that a great number of decentralised projects could benefit from this regulatory exception. A system where project revenue is automatically directed to a treasury pool, and the price of tokens is computed following a predetermined bonding curve, would allow to efficiently raise capital, while investors would have automatic guarantees of fair participation in the success of the project. Such a framework would incentivise founders to design decentralised projects that create value instead of hype, while making the application of securities laws less stringent or even needed. NFT royalties in particular are an example of decentralised economic activity that generates cash flows, used to back the value of associated tokens. We propose a cryptographic system that ties the price of tokens to the success of a decentralised activity, guarantees the fair distribution of tokens, and rewards founders and participants in the system in line with the amount of risk they are taking.
翻訳日:2023-02-19 12:10:05 公開日:2022-10-21
# 技術とCOVID-19 : テクノロジーに関する社会とは何か

Technology and COVID-19: How Reliant is Society on Technology? ( http://arxiv.org/abs/2211.00062v1 )

ライセンス: Link先を確認
Afsana Rahman, Dr. Ruhul Amin(参考訳) ソーシャルメディアとメッセージングプラットフォームは、新型コロナウイルス(covid-19)を恐れる人々のサポートシステムとなりつつあり、同時に、憎しみや不正確な表現、虚偽の現実を広める根本原因となっている。 テクノロジーが日々のタスクや行動のコモディティへと変化していくにつれ、テクノロジーが社会に与える影響を理解することに興味を持つすべての年齢やバックグラウンドの人々にとって、この記事は有用かもしれない。

Social media and messaging platforms have become a support system for those in fear of COVID-19 while, at the same time, becoming the root cause of spreading hate, inaccurate representations, and false realities. As technology has morphed into a commodity for daily tasks and actions, this article may be useful for people of all ages and backgrounds who are interested in understanding the impact of technology on society.
翻訳日:2023-02-19 12:09:36 公開日:2022-10-21
# グローバルステアリング機構によるDeGrootに基づく意見形成

DeGroot-based opinion formation under a global steering mechanism ( http://arxiv.org/abs/2210.12274v1 )

ライセンス: Link先を確認
Ivan Conjeaud and Philipp Lorenz-Spreen and Argyris Kalogeratos(参考訳) 本稿では,インタラクションエージェントがコンセンサスや偏光状態にどのように到達するかを検討する。 具体的には,グローバルステアリング機構(GSM)の効果下での意見形成過程について検討する。 我々は,GSMがエージェントの意見をネットワークレベルで集約し,グローバル情報の一形態として送り返すと考えている。 GSM-DeGrootモデルを提案する。エージェント間局所相互作用とGSMの操舵効果の結合ダイナミクスを捉える2層エージェントベースの意見形成モデルである。 このようにして、エージェントはDeGrootのようなローカルな意見伝達の影響を受け、また、ニュースフィード、報道報道、世論調査、選挙など、彼らの意見に影響を与える可能性のある、多種多様な情報を集約する。 標準のDeGrootモデルとは対照的に、偏光を発生させることができるモデルの基本的特徴は、エージェントがグローバルな情報に反応する微分方法である。 合成データのシミュレーションを用いて,モデル力学を用いて定性的に異なる振る舞いのシステマティクスを求める。 さらに,抗議運動や社会運動,長期にわたる地政学的紛争のエスカレーションなど,実際の話題のダイナミックスに合わせることで,我々のモデルに挑戦し,大衆の注目を惹きつけ,Twitterに記録した。 実験の結果,提案モデルは説明力を有しており,比較的小さなパラメータセットで実際の意見形成ダイナミクスを捉えていることが明らかとなった。

In this paper we investigate how interacting agents arrive to a consensus or a polarized state. More specifically, we study the opinion formation process under the effect of a global steering mechanism (GSM). We consider that the GSM aggregates agents' opinions at the network level and feeds back to them a form of global information. We propose the GSM-DeGroot model, a new two-layer agent-based opinion formation model that captures the coupled dynamics between agent-to-agent local interactions and the GSM's steering effect. This way, agents are subject to the effects of a DeGroot-like local opinion propagation, as well as to a wide variety of possible aggregated information that can affect their opinions, such as trending news feeds, press coverage, polls, elections, etc. The cornerstone feature of our model that, contrary to the standard DeGroot model, allows polarization to emerge, is the differential way in which agents react to the global information. We explore numerically the model dynamics to find regimes of qualitatively different behavior, using simulations on synthetic data. Moreover, we challenge our model by fitting it to the dynamics of real topics, related to protests, social movements, and the escalation of a long geopolitical conflict to a war, which attracted the public attention and were recorded on Twitter. Our experiments show that the proposed model holds explanatory power, as it evidently captures real opinion formation dynamics via a relatively small set of interpretable parameters.
翻訳日:2023-02-19 11:59:19 公開日:2022-10-21
# 仮想現実における高精度3次元描画における入力モダリティとタスク幾何の検討

Investigating Input Modality and Task Geometry on Precision-first 3D Drawing in Virtual Reality ( http://arxiv.org/abs/2210.12270v1 )

ライセンス: Link先を確認
Chen Chen, Matin Yarmand, Zhuoqun Xu, Varun Singh, Yang Zhang, Nadir Weibel(参考訳) 没入型バーチャルリアリティ(VR)において、正確な平面でない3D曲線を正確に描画することは、多くの正確な3Dタスクにとって不可欠である。 しかし, 物理的支援の欠如, 深度知覚の制限, 3次元曲線の非平面的性質などにより, 高精度な空中ストロークの調整が困難である。 新しいインタラクション技術を作成する代わりに、市販のvrヘッドセットにおける3dターゲット追跡に焦点を当てたintra-subject study (n = 12)において、タスク幾何形状と入力モダリティが精度優先の描画性能にどのように影響するかを調査した。 その結果、手やVRコントローラー、ペンを使う場合に比べて精度が30%近く向上し、大きな曲率、前後方向、左右方向のタスクが最適であることがわかりました。 3次元描画のための斬新なインタラクション技術を設計する機会について論じる。 われわれの研究は、正確な3D描画のためのツールボックスを作成することを目的とした将来の研究に役立つと信じている。

Accurately drawing non-planar 3D curves in immersive Virtual Reality (VR) is indispensable for many precise 3D tasks. However, due to lack of physical support, limited depth perception, and the non-planar nature of 3D curves, it is challenging to adjust mid-air strokes to achieve high precision. Instead of creating new interaction techniques, we investigated how task geometric shapes and input modalities affect precision-first drawing performance in a within-subject study (n = 12) focusing on 3D target tracing in commercially available VR headsets. We found that compared to using bare hands, VR controllers and pens yield nearly 30% of precision gain, and that the tasks with large curvature, forward-backward or left-right orientations perform best. We finally discuss opportunities for designing novel interaction techniques for precise 3D drawing. We believe that our work will benefit future research aiming to create usable toolboxes for precise 3D drawing.
翻訳日:2023-02-19 11:58:55 公開日:2022-10-21
# 都市社会技術システム:自律性とモビリティの観点から

Urban Socio-Technical Systems: An Autonomy and Mobility Perspective ( http://arxiv.org/abs/2210.12181v1 )

ライセンス: Link先を確認
Weizi Li(参考訳) 人類の未来は都市である。 世界の人口は2050年までに2.5億人増加し、都市部に住むことが予想されている。 これにより、今日の55%から30年以内に70%へと都市人口の割合が増加し、情報・交通・社会経済発展の拠点としての都市の役割がさらに強化される。 人類史上の他の時代とは異なり、自律性とマシンインテリジェンスの増加は、都市をもはや人間の集合体ではなく、人間、機械、アルゴリズムの融合による集団決定、すなわち複雑な社会技術システムへと変えつつある。 本書は,都市の自律性とモビリティの観点から,都市社会技術システムの開発に向けた私の取り組みをまとめたものである。

The future of the human race is urban. The world's population is projected to grow an additional 2.5 billion by 2050, with all expected to live in urban areas. This will increase the percentage of urban population from 55% today to 70% within three decades and further strengthen the role of cities as the hub for information, transportation, and overall socio-economic development. Unlike any other time in human history, the increasing levels of autonomy and machine intelligence are transforming cities to be no longer just human agglomerations but a fusion of humans, machines, and algorithms making collective decisions, thus complex socio-technical systems. This manuscript summarizes and discusses my efforts from the urban autonomy and mobility perspective to develop the urban socio-technical system.
翻訳日:2023-02-19 11:58:38 公開日:2022-10-21
# コンテンツ管理システムは無料コンテンツサイトのセキュリティに影響を及ぼすか? 相関解析

Do Content Management Systems Impact the Security of Free Content Websites? A Correlation Analysis ( http://arxiv.org/abs/2210.12083v1 )

ライセンス: Link先を確認
Mohammed Alaqdhi and Abdulrahman Alabduljabbar and Kyle Thomas and Saeed Salem and DaeHun Nyang and David Mohaisen(参考訳) 本稿では、リスクや悪意に対処する無料コンテンツウェブサイトの脆弱性の潜在的な原因について検討する。 1500以上のウェブサイトに無料コンテンツとプレミアムコンテンツを組み合わせて、コンテンツ管理システム(CMS)と悪意のある属性を識別する。 コンテンツ(本、ゲーム、映画、音楽、ソフトウェア)のカテゴリごとに頻度分析を行い、パッチされていない脆弱性、全体的な脆弱性、悪意のある数、パーセンタイルを利用して、cms{'s}の使用状況と悪意の傾向、およびそれらのwebサイトへの貢献を明らかにする。 さらに、多数のカスタムコードWebサイトがあるにも関わらず、CMS{'s}の使用は広範に行われており、タイプやカテゴリの傾向は様々である。 最後に、人気のあるCMS{'s}の少数の未パッチの脆弱性でさえ、重大な悪意のある原因になり得ることを発見した。

This paper investigates the potential causes of the vulnerabilities of free content websites to address risks and maliciousness. Assembling more than 1,500 websites with free and premium content, we identify their content management system (CMS) and malicious attributes. We use frequency analysis at both the aggregate and per category of content (books, games, movies, music, and software), utilizing the unpatched vulnerabilities, total vulnerabilities, malicious count, and percentiles to uncover trends and affinities of usage and maliciousness of CMS{'s} and their contribution to those websites. Moreover, we find that, despite the significant number of custom code websites, the use of CMS{'s} is pervasive, with varying trends across types and categories. Finally, we find that even a small number of unpatched vulnerabilities in popular CMS{'s} could be a potential cause for significant maliciousness.
翻訳日:2023-02-19 11:58:23 公開日:2022-10-21
# ブロックチェーンエネルギー・環境フットプリント研究におけるリグールの推進 : 体系的文献レビュー

Promoting Rigour in Blockchains Energy & Environmental Footprint Research: A Systematic Literature Review ( http://arxiv.org/abs/2210.11664v1 )

ライセンス: Link先を確認
Ashish Rajendra Sai and Harald Vranken(参考訳) デジタル通貨のエネルギーと環境のフットプリント、特にBitcoinやEthereumのような暗号通貨に対する理解への関心が高まっている。 これらの暗号通貨は、地理的に分散した計算ノードのネットワークによって運用されるため、エネルギー消費量を正確に推定することは困難である。 既存の研究は、学界と産業の両方で、しばしば、使用中のハードウェアや計算ノードの地理的分布に関する多くの仮定に基づいて、暗号通貨のエネルギー消費をモデル化しようと試みている。 これらの研究の多くは、設計の選択とエネルギー使用の過度または過小評価について、既に広く批判されている。 本研究では,社会エネルギー科学や情報システムなどのブロックチェーン分野の既存の科学文献を活用して,先行モデルと推定モデルの信頼性を評価する。 まず,既存の研究に基づく品質評価フレームワークを設計し,これらの課題に対処するための共通の課題と潜在的方法を示す科学的・非学術文献の体系的なレビューを行う。 本論文の目的は,Blockchainのエネルギーフットプリントに着目した研究において,科学的厳格化を促進することによって,分野を前進させることである。 この目的のために我々は, 定量的エネルギーモデリング, 文献レビュー, データ分析 \&統計, ケーススタディ, 実験という, 最も広く利用されている5つの研究方法論に対して, 新たな行動規範を提供する。 これらの行動規範は、ブロックチェーンベースのシステムのエネルギーと環境フットプリントに着目した研究の設計と評価の標準化に役立ちます。

There is a growing interest in understanding the energy and environmental footprint of digital currencies, specifically in cryptocurrencies such as Bitcoin and Ethereum. These cryptocurrencies are operated by a geographically distributed network of computing nodes, making it hard to accurately estimate their energy consumption. Existing studies, both in academia and industry, attempt to model the cryptocurrencies energy consumption often based on a number of assumptions for instance about the hardware in use or geographic distribution of the computing nodes. A number of these studies has already been widely criticized for their design choices and subsequent over or under-estimation of the energy use. In this study, we evaluate the reliability of prior models and estimates by leveraging existing scientific literature from fields cognizant of blockchain such as social energy sciences and information systems. We first design a quality assessment framework based on existing research, we then conduct a systematic literature review examining scientific and non-academic literature demonstrating common issues and potential avenues of addressing these issues. Our goal with this article is to to advance the field by promoting scientific rigor in studies focusing on Blockchain's energy footprint. To that end, we provide a novel set of codes of conduct for the five most widely used research methodologies: quantitative energy modeling, literature reviews, data analysis \& statistics, case studies, and experiments. We envision that these codes of conduct would assist in standardizing the design and assessment of studies focusing on blockchain-based systems' energy and environmental footprint.
翻訳日:2023-02-19 11:58:07 公開日:2022-10-21
# 誤情報に対する脆弱性の特定へのアプローチ:研究アジェンダ

Approaches to Identify Vulnerabilities to Misinformation: A Research Agenda ( http://arxiv.org/abs/2210.11647v1 )

ライセンス: Link先を確認
Nattapat Boonprakong, Benjamin Tag, Tilman Dingler(参考訳) オンライン誤報の頻度と認知能力の不足を踏まえると、インターネット利用者はそのような情報にしばしば被害を受けることが示されている。 誤情報を信じたり、共有したりしやすいような心理的要因について調査する研究もあるが、現在進行中の研究では、いつ、どのユーザーが誤情報に弱いのかを客観的に特定することで、これらの発見をさらに実践している。 本稿では,認知バイアスの検出と誤情報スプレッダーの探索という,脆弱なユーザを特定するための2つの研究方法を紹介する。 脆弱性のあるユーザのコホートをより多く発見し、適切なユーザグループにもっと効果的に対処するための介入を促す。 最後に,誤情報脆弱性研究の背景を,今後の研究の機会として挙げる。

Given the prevalence of online misinformation and our scarce cognitive capacity, Internet users have been shown to frequently fall victim to such information. As some studies have investigated psychological factors that make people susceptible to believe or share misinformation, some ongoing research further put these findings into practice by objectively identifying when and which users are vulnerable to misinformation. In this position paper, we highlight two ongoing avenues of research to identify vulnerable users: detecting cognitive biases and exploring misinformation spreaders. We also discuss the potential implications of these objective approaches: discovering more cohorts of vulnerable users and prompting interventions to more effectively address the right group of users. Lastly, we point out two of the understudied contexts for misinformation vulnerability research as opportunities for future research.
翻訳日:2023-02-19 11:57:42 公開日:2022-10-21
# 5G対応スマートグリッドにおけるゼロトラストアーキテクチャの実現

Enabling a Zero Trust Architecture in a 5G-enabled Smart Grid ( http://arxiv.org/abs/2210.01739v2 )

ライセンス: Link先を確認
Mohammad Ali Alipour, Saeid Ghasemshirazi, Ghazaleh Shirvani(参考訳) IoTの最も有望なアプリケーションの1つは、スマートグリッド(SG)である。 sgのデータ通信ネットワークを電力網に統合することで、電力線、配電局、エンドユーザからの情報を収集および分析することができる。 スマートグリッド(SG)は、IoTを通じてリアルタイム監視を提供するために、迅速で信頼性の高い接続を必要とする。 したがって、5Gは既存の電力グリッドシステムのアップグレードの触媒と見なすことができる。 それでも、情報インフラのさらなる攻撃面は、5Gにおけるユビキタス接続の普及によってもたらされ、スマートグリッドの典型的な情報セキュリティシステムはすぐには対応できない。 したがって、脅威に満ちた絶えず変化する環境でネットワークのプライバシーとセキュリティを保証するには、従来の静的なセキュリティ対策の制限を超えた画期的なアーキテクチャが必要となる。 原文(投稿日:2019/01/14)へのリンク “Continuous Identity Authentication and Dynamic Access Control”を基盤として、IoTの電力システムに特有のZero Trust(ZT)アーキテクチャを分析し、その知識を使ってセキュリティ保護アーキテクチャを開発する。

One of the most promising applications of the IoT is the Smart Grid (SG). Integrating SG's data communications network into the power grid allows gathering and analyzing information from power lines, distribution power stations, and end users. A smart grid (SG) requires a prompt and dependable connection to provide real-time monitoring through the IoT. Hence 5G could be considered a catalyst for upgrading the existing power grid systems. Nonetheless, the additional attack surface of information infrastructure has been brought about by the widespread adoption of ubiquitous connectivity in 5G, to which the typical information security system in the smart grid cannot respond promptly. Therefore, guaranteeing the Privacy and Security of a network in a threatening, ever-changing environment requires groundbreaking architectures that go well beyond the limitations of traditional, static security measures. With "Continuous Identity Authentication and Dynamic Access Control" as its foundation, this article analyzes the Zero Trust (ZT) architecture specific to the power system of IoT and uses that knowledge to develop a security protection architecture.
翻訳日:2023-02-19 11:29:06 公開日:2022-10-21
# React Nativeによるデジタルヘルスショッピングアシスタント - 複雑な健康問題に対するシンプルな技術ソリューション

Digital health shopping assistant with React Native: a simple technological solution to a complex health problem ( http://arxiv.org/abs/2208.04761v2 )

ライセンス: Link先を確認
Alina Govoruhina, Anastasija Nikiforova(参考訳) 今日では、不安に近い単純な反応からアナフィラキシーショックまで、アレルギーを報告する人が増えている。 他の人はアレルギーではないかもしれないが、個人的な理由から特定の食品を避けている。 これらの人々の日常的な食生活は、望ましくない食材がどんな食材にも隠されることで妨げられ、すべてを見つけることは困難である。 本稿では,既存の食生活と自己定義の具体的要求に応じて,消費に適した製品かどうかを判断しやすくすることを目的として,デジタルヘルスショッピングアシスタント「ダイエットヘルパー」を提案する。 これは、アプリから受信した成分ラベルを入力としてキャプチャし、アプリの分析を行い、取得したラベルをテキストに変換し、利用者が不寛容なアレルゲンまたは製品として避けるべき望ましくない成分をフィルターすることで、ユーザーが消費に適した製品かどうかを判断するのに役立つ。 これにより、1日あたりの食料品の買い物は、より正確で単純化された商品選択を数秒で提供し、特に新型コロナウイルスの影響を受けやすい食料品店で過ごす時間を削減できる。 このアプリはreact native frameworkとgoogle firebaseプラットフォームを使用して開発されており、このようなソリューションの開発、使用、拡張が容易になるため、ウェルビービングを改善するソリューションを積極的に開発することを促す。

Today, more and more people are reporting allergies, which can range from simple reactions close to discomfort to anaphylactic shocks. Other people may not be allergic but avoid certain foods for personal reasons. Daily food shopping of these people is hampered by the fact that unwanted ingredients can be hidden in any food, and it is difficult to find them all. The paper presents a digital health shopping assistant called "Diet Helper", aimed to make life easier for such people by making it easy to determine whether a product is suitable for consumption, according to the specific dietary requirements of both types - existing diet and self-defined. This is achieved by capturing ingredient label, received by the app as an input, which the app analyses, converting the captured label to text, and filters out unwanted ingredients that according to the user should be avoided as either allergens or products to which the consumer is intolerant etc, helping the user decide if the product is suitable for consumption. This should make daily grocery shopping easier by providing the user with more accurate and simplified product selection in seconds, reducing the total time spent in the grocery stores, which is especially relevant in light of COVID-19, although it was and will remain out of it due to the busy schedules and active rhythm of life of modern society. The app is developed using the React Native framework and Google Firebase platform, which makes it easy to develop, use and extend such solutions thereby encouraging to start actively developing solutions that could improve wellbeing.
翻訳日:2023-02-19 10:29:39 公開日:2022-10-21
# 米国における再分権分析と評価のためのシミュレートされた再分権計画

Simulated redistricting plans for the analysis and evaluation of redistricting in the United States ( http://arxiv.org/abs/2206.10763v2 )

ライセンス: Link先を確認
Cory McCartan, Christopher T. Kenny, Tyler Simko, George Garcia III, Kevin Wang, Melissa Wu, Shiro Kuriwaki, and Kosuke Imai(参考訳) 本稿では,アルゴリズム支援再帰方法論(alarm)プロジェクトによって開発された50statesimulations(50statesimulations)について紹介する。 50stateSimulationsは、アメリカ合衆国で制定されたその他の議会再編成計画の評価を可能にする。 再限定型シミュレーションアルゴリズムの使用は学術研究や裁判所のケースでは標準となっているが、シミュレーション分析には複数のデータセットを組み合わせて、状態固有の再限定基準を特定し、複雑なシミュレーションアルゴリズムを実装し、シミュレーションの出力を要約し、視覚化する非自明な努力が必要である。 我々は、50州全選挙区のシミュレーションに基づく再分断分析のプロセス全体を補助する完全なワークフローを開発した。 その結果得られた50のシミュレーションには、2020年の議会再編成計画と必要なレプリケーションデータが含まれている。 また、分析をカスタマイズするためのテンプレートとして機能する基盤となるコードも提供します。 すべてのデータとコードは無料で公開されています。 この記事では、データの設計、作成、検証について詳述する。

This article introduces the 50stateSimulations, a collection of simulated congressional districting plans and underlying code developed by the Algorithm-Assisted Redistricting Methodology (ALARM) Project. The 50stateSimulations allow for the evaluation of enacted and other congressional redistricting plans in the United States. While the use of redistricting simulation algorithms has become standard in academic research and court cases, any simulation analysis requires non-trivial efforts to combine multiple data sets, identify state-specific redistricting criteria, implement complex simulation algorithms, and summarize and visualize simulation outputs. We have developed a complete workflow that facilitates this entire process of simulation-based redistricting analysis for the congressional districts of all 50 states. The resulting 50stateSimulations include ensembles of simulated 2020 congressional redistricting plans and necessary replication data. We also provide the underlying code, which serves as a template for customized analyses. All data and code are free and publicly available. This article details the design, creation, and validation of the data.
翻訳日:2023-02-19 09:22:51 公開日:2022-10-21
# t^{3}$スケーリングを用いた原子干渉法によるクロックレートの普遍性テスト

Universality-of-Clock-Rates Test using Atom Interferometry with $T^{3}$ Scaling ( http://arxiv.org/abs/2204.02156v2 )

ライセンス: Link先を確認
Fabio Di Pumpo, Alexander Friedrich, Christian Ufrecht, Enno Giese(参考訳) 重力の計量的記述は、今日の確立された理論としての一般相対性理論のうち、アインシュタイン同値原理(epp)にまとめられた仮定に基づいている。 その違反は未知の物理学を示唆し、量子重力の発展のレバレッジとなる可能性がある。 原子時計は、(適切な)時間に接続されたEPPの側面を探査するための優れたシステムであり、局所的な位置不変性(LPI)をテストするための作業馬に進化した。 時間の操作的定義は局所化と理想化のクロックを必要とするが、原子のような量子系は本質的に非局所化される空間的重ね合わせを可能にする。 量子実験はEPPの他の側面を試験しているが、LPIの競合試験は行われていない。 我々は、クロックレート(LPIの1面)の普遍性をテストするための概念を、非局在量子時計を生成する原子干渉計に拡張する。 提案されたテストは適切な時間と適切なスケーリングに依存しており、ファウンテンクロックとは対照的に初期条件や反動効果に対して頑健である。 これは光学周波数を可能にし、投影された感度は最先端のローカライズクロックの1つを超える。 これらの結果は、古典的および局所的な哲学から切り離された時間の概念を拡張している。

Metric descriptions of gravitation, among them general relativity as today's established theory, are founded on assumptions summarized in the Einstein equivalence principle (EPP). Its violation would hint at unknown physics and could be a leverage for the development of quantum gravity. Atomic clocks are excellent systems to probe aspects of EPP connected to (proper) time and have evolved into a working horse for tests of local position invariance (LPI). Even though the operational definition of time requires localized and idealized clocks, quantum systems like atoms allow for spatial superpositions that are inherently delocalized. While quantum experiments have tested other aspects of EPP, no competitive test of LPI has been performed or proposed allowing for an intrinsic delocalization. We extend the concepts for tests of the universality of clock rates (one facet of LPI) to atom interferometry generating delocalized quantum clocks. The proposed test depends on proper time with a favorable scaling and is, in contrast to fountain clocks, robust against initial conditions and recoil effects. It enables optical frequencies so that the projected sensitivity exceeds the one of state-of-the-art localized clocks. These results extend our notion of time, detached from classical and localized philosophies.
翻訳日:2023-02-18 05:38:10 公開日:2022-10-21
# 適応ベイズ戦略を用いた最適寒冷原子温度測定

Optimal cold atom thermometry using adaptive Bayesian strategies ( http://arxiv.org/abs/2204.11816v3 )

ライセンス: Link先を確認
Jonas Glatthard, Jes\'us Rubio, Rahul Sawant, Thomas Hewitt, Giovanni Barontini, Luis A. Correa(参考訳) 少数の超低温原子系の精密温度測定は、量子技術において最重要であるが、非常に資源集約的である。 本稿では,冷間原子温度推定の性能を大幅に向上させる適応型ベイズフレームワークを提案する。 具体的には,光学式ツイーザのマイクロケルビン領域に冷却された少数のカリウム原子について,実・模擬放出・捕獲熱量測定実験を行い,情報ゲインを最大化するために放出・回収時間を適応的に選択することで,推定値が最終読解に収束するために必要な測定回数を大幅に減少させることを示した。 従来の方法とは異なり,提案手法では不正なデータの捕捉と処理を体系的に避ける。 また,すべての事前情報を利用する単純な非適応的手法が競争的な結果をもたらすことを見出し,実実験データを用いて実験を行った。 さらに、測定されたデータが乏しくノイズの多い場合には、より信頼性の高い推定値を生成することができ、漸近的限界において実際の温度に収束する。 重要なことに、基盤となるベイズフレームワークはプラットフォーム固有のものではなく、他の設定での精度を高めるために適応できるため、量子温度測定において新たな道を開くことができる。

Precise temperature measurements on systems of few ultracold atoms is of paramount importance in quantum technologies, but can be very resource-intensive. Here, we put forward an adaptive Bayesian framework that substantially boosts the performance of cold atom temperature estimation. Specifically, we process data from real and simulated release--recapture thermometry experiments on few potassium atoms cooled down to the microkelvin range in an optical tweezer. From simulations, we demonstrate that adaptively choosing the release--recapture times to maximise information gain does substantially reduce the number of measurements needed for the estimate to converge to a final reading. Unlike conventional methods, our proposal systematically avoids capturing and processing uninformative data. We also find that a simpler non-adaptive method exploiting all the a priori information can yield competitive results, and we put it to the test on real experimental data. Furthermore, we are able to produce much more reliable estimates, especially when the measured data are scarce and noisy, and they converge faster to the real temperature in the asymptotic limit. Importantly, the underlying Bayesian framework is not platform-specific and can be adapted to enhance precision in other setups, thus opening new avenues in quantum thermometry.
翻訳日:2023-02-15 17:42:13 公開日:2022-10-21
# AutoComm:分散量子プログラムにおける効率的な通信を実現するフレームワーク

AutoComm: A Framework for Enabling Efficient Communication in Distributed Quantum Programs ( http://arxiv.org/abs/2207.11674v2 )

ライセンス: Link先を確認
Anbang Wu, Hezi Zhang, Gushu Li, Alireza Shabani, Yuan Xie, Yufei Ding(参考訳) 分散量子コンピューティング(DQC)は、短期量子デバイスの計算能力を拡張するための有望なアプローチである。 しかし、量子デバイス間の非局所量子通信は、各量子デバイス内の局所量子通信よりもはるかに高価でエラーを起こしやすい。 従来のDQC通信最適化の研究は、個々の非局所ゲートの通信プロトコルの最適化に重点を置いており、その後、ローカルなマルチキュービットゲート(制御xやCXゲートなど)のために単一の量子コンピュータで設計された量子コンパイル設計を採用する。 分散量子プログラムの通信パターンはまだ十分に研究されておらず、最適でない通信コストをもたらす。 本稿では,多くの分散プログラムに広く存在する,通信オーバーヘッド最適化のガイドとして活用可能な,特定の量子ノード通信パターンであるburst communicationを同定する。 次に、まず入力プログラムからバースト通信パターンを抽出し、次に検出したバースト通信の通信ステップを最適化する自動コンパイラフレームワークであるAutoCommを提案する。 実験の結果,提案するAutoCommは,通信リソース消費量とプログラム遅延をそれぞれ平均75.6%,71.4%削減できることがわかった。

Distributed quantum computing (DQC) is a promising approach to extending the computational power of near-term quantum devices. However, the non-local quantum communication between quantum devices is much more expensive and error-prone than the local quantum communication within each quantum device. Previous work on the DQC communication optimization focus on optimizing the communication protocol for each individual non-local gate and then adopt quantum compilation designs which are designed for local multi-qubit gates (such as controlled-x or CX gates) in a single quantum computer. The communication patterns in distributed quantum programs are not yet well studied, leading to a far-from-optimal communication cost. In this paper, we identify burst communication, a specific qubit-node communication pattern that widely exists in many distributed programs and can be leveraged to guide communication overhead optimization. We then propose AutoComm, an automatic compiler framework to first extract the burst communication patterns from the input programs, and then optimize the communication steps of burst communication discovered. Experimental results show that our proposed AutoComm can reduce the communication resource consumption and the program latency by 75.6% and 71.4% on average, respectively.
翻訳日:2023-02-03 22:15:22 公開日:2022-10-21
# 輸送性原子重力計を用いた小型単座モジュール型レーザーシステム

Compact single-seed, module-based laser system on a transportable high-precision atomic gravimeter ( http://arxiv.org/abs/2208.04174v2 )

ライセンス: Link先を確認
Fong En Oon and Rainer Dumke(参考訳) 単一シードのモジュールベースのコンパクトレーザーシステムは、輸送可能な$^{87}\text{rb}$-based high-precision atomic gravimeterで実証される。 原子干渉計に必要なレーザー周波数はすべて、自由空間光変調器(AOM)と共振電気光学位相変調器(EOM)によって提供される。 同一レーザ由来の2つの光路間の光位相同期ループは、それぞれaomとeomを用いて6.835ghzの超微細周波数で分離された2つのレーザ周波数間の簡単な周波数操作を提供する。 本手法は,直接eom変調方式(超微細構造分割の周波数で直接制御される)に存在する寄生ラマン遷移を回避し,重力測定の精度に悪影響を及ぼす。 光位相同期ループはまた、ラマンレーザーの位相オフセットによる振動補償の便利な方法を提供する。 さらに、モジュラーデザインアプローチにより、個々の光学モジュールのプラグアンドプレイ性が実現され、光学システムの機械的安定性も向上する。 我々は17.8$\mu\text{Gal}$平均時間250秒以上、2.5$\mu\text{Gal}$平均時間2時間以上で高精度な重力測定を実証した。

A single-seed, module-based compact laser system is demonstrated on a transportable $^{87}\text{Rb}$-based high-precision atomic gravimeter. All the required laser frequencies for the atom interferometry are provided by free-space acousto-optic modulators (AOMs) and resonant electro-optic phase modulators (EOMs). The optical phase-locked loop between the two optical paths derived from the same laser provides an easy frequency manipulation between two laser frequencies separated by the hyperfine frequency of 6.835 GHz using an AOM and an EOM, respectively. Our scheme avoids parasite Raman transitions present in the direct EOM modulation scheme (modulating directly at the frequency of the hyperfine splitting), which have detrimental effects on the accuracy of the gravity measurements. The optical phase-locked loop also provides a convenient way for vibration compensation through the Raman lasers' phase offset. Furthermore, the modular design approach allows plug-and-play nature on each individual optic module and also increases the mechanical stability of the optical systems. We demonstrate high-precision gravity measurements with 17.8 $\mu\text{Gal}$ stability over 250 seconds averaging time and 2.5 $\mu\text{Gal}$ stability over 2 h averaging time.
翻訳日:2023-02-01 21:41:47 公開日:2022-10-21
# 情報処理における生物効率

Biological efficiency in processing information ( http://arxiv.org/abs/2209.11054v2 )

ライセンス: Link先を確認
Dorje C. Brody and Anthony J. Trewavas(参考訳) シグナル伝達(英: Signal transduction)または信号処理能力(英: signal-processing capabilities)は、量子的挙動から生物まで、様々なスケールのシステムに普遍的に現れる自然の基本的な性質である。 これには、特に量子システムと植物の両方の挙動に関連する環境手がかりの検出が含まれており、シグナルを意図的に伝達するエージェントも、目的的に構築された通信チャネルも存在しない。 信号検出とトランスダクションによって駆動されるシステムの動的挙動を特徴付けるため、将来の統計を予測するために、情報の流れをモデル化するのに十分である。 これは、システムによって処理される情報の量に対する推定を提供する。 生物計算の効率は、エネルギー消費とその後の熱生産を測定することで推測できる。

Signal transduction, or signal-processing capability, is a fundamental property of nature that manifests universally across systems of different scales -- from quantum behaviour to the biological. This includes the detection of environmental cues, particularly relevant to behaviours of both quantum systems and green plants, where there is neither an agent purposely transmitting the signal nor a purposefully built communication channel. To characterise the dynamical behaviours of such systems driven by signal detection followed by transduction, and thus to predict future statistics, it suffices to model the flow of information. This, in turn, provides estimates for the quantity of information processed by the system. The efficiency of biological computation can then be inferred by measuring energy consumption and subsequent heat production.
翻訳日:2023-01-27 20:49:30 公開日:2022-10-21
# 多層パーセプトロンニューラルネットワークを用いたバイオメディカルペーパーの臨床引用数予測

Predicting the clinical citation count of biomedical papers using multilayer perceptron neural network ( http://arxiv.org/abs/2210.06346v3 )

ライセンス: Link先を確認
Xin Li, Xuli Tang, Qikai Cheng(参考訳) 臨床ガイドラインや臨床試験から得られた臨床引用の数は、バイオメディカルペーパーの臨床的影響を定量化する最も適切な指標の1つと考えられている。 したがって, バイオメディカルペーパーの臨床引用回数の早期予測は, 研究評価, 資源配分, 臨床翻訳などの生物医学における科学的活動にとって重要である。 本研究では,1985年から2005年にかけて発行された9,822,620のバイオメディカルペーパーを用いて,将来的なバイオメディカルペーパーの臨床引用数を予測する4層多層パーセプトロンニューラルネットワーク(MPNN)モデルを設計した。 モデルの入力として3次元から9次元の紙特徴を抽出し,紙次元の21特徴,参照次元の35特徴,引用紙次元の35特徴を抽出した。 各次元において、特徴は、引用関連特徴、臨床翻訳関連特徴、話題関連特徴の3つのカテゴリに分類することができる。 また, 論文次元においては, これまで研究論文の引用数と関連づけられた特徴についても考察した。 その結果,MPNNモデルが他の5つのベースラインモデルよりも優れており,基準次元の特徴が最も重要であることがわかった。

The number of clinical citations received from clinical guidelines or clinical trials has been considered as one of the most appropriate indicators for quantifying the clinical impact of biomedical papers. Therefore, the early prediction of the clinical citation count of biomedical papers is critical to scientific activities in biomedicine, such as research evaluation, resource allocation, and clinical translation. In this study, we designed a four-layer multilayer perceptron neural network (MPNN) model to predict the clinical citation count of biomedical papers in the future by using 9,822,620 biomedical papers published from 1985 to 2005. We extracted ninety-one paper features from three dimensions as the input of the model, including twenty-one features in the paper dimension, thirty-five in the reference dimension, and thirty-five in the citing paper dimension. In each dimension, the features can be classified into three categories, i.e., the citation-related features, the clinical translation-related features, and the topic-related features. Besides, in the paper dimension, we also considered the features that have previously been demonstrated to be related to the citation counts of research papers. The results showed that the proposed MPNN model outperformed the other five baseline models, and the features in the reference dimension were the most important.
翻訳日:2023-01-27 15:23:24 公開日:2022-10-21
# チャネル間の位数1の量子ワッサーシュタイン距離

Quantum Wasserstein distance of order 1 between channels ( http://arxiv.org/abs/2210.03483v3 )

ライセンス: Link先を確認
Rocco Duvenhage and Mathumo Mapaya(参考訳) 作用素代数的フレームワークにおいて、位数 1 の量子ワッサーシュタイン距離に関する一般理論を定め、最近の有限次元の研究を拡張した。 さらに、この理論は状態だけでなくチャネルにも適用され、ある複合系から他の合成系へのチャネルの集合の計量を与える。 この計量の加法性と安定性について研究する。

We set up a general theory for a quantum Wasserstein distance of order 1 in an operator algebraic framework, extending recent work in finite dimensions. In addition, this theory applies not only to states, but also to channels, giving a metric on the set of channels from one composite system to another. The additivity and stability properties of this metric are studied.
翻訳日:2023-01-23 08:04:44 公開日:2022-10-21
# ランダム近似$t$-デザインのためのランダム行列モデル

A random matrix model for random approximate $t$-designs ( http://arxiv.org/abs/2210.07872v2 )

ライセンス: Link先を確認
Piotr Dulian and Adam Sawicki(参考訳) 量子ゲートのハール確率集合 $\mathcal{s}\subset u(d)$ に対して、一様測度 $\nu_\mathcal{s}$ を考える。 測度 $\nu_\mathcal{S}$ は $\delta(\nu_\mathcal{S},t)$-approximate $t$-design, $t\in\mathbb{Z}_+$ とみなすことができる。 任意の$t$に対して$\delta(\nu_\mathcal{S},t)$の確率分布を記述することを目的としたランダム行列モデルを提案する。 我々のモデルはブロックが独立なブロック対角行列によって与えられ、ガウスあるいはジニブレのアンサンブルによって与えられ、それらの数、サイズ、型は$t$で決定される。 この行列の作用素ノルム $\delta({t})$ は、$\sqrt{|\mathcal{s}|}\delta(\nu_\mathcal{s},t)$ の要素数が無限大に成長するとき分布収束する確率変数である。 さらに、我々のモデルは、任意の$\epsilon>0$に対して、テール確率 $\mathbb{P}(\delta(t)>2+\epsilon)$ に明示的な境界を与える。 また、我々のモデルがいわゆるスペクトルギャップ予想を満たすこと、すなわち、1ドルの確率で$t\in\mathbb{z}_+$ が存在して$\sup_{k\in\mathbb{z}_{+}}\delta(k)=\delta(t)$ となることを証明する。 数値シミュレーションは、提案されたモデルが実際に$\mathcal{S}$の任意の濃度に対してほぼ正確であることを示す証拠を与える。 この現象のヒューリスティックな説明は、我々は、テール確率 $\mathbb{P}(\sqrt{\mathcal{S}}\delta(\nu_\mathcal{S},t)>2+\epsilon)$ が、我々のランダム行列モデルのテール確率 $\mathbb{P}(\delta(t)>2+\epsilon)$ によって上から有界であると推測する。 特に我々の予想は、ハール確率集合 $\mathcal{S}\subset U(d)$ がスペクトルギャップ予想を確率 $1$ を満たすことを示唆している。

For a Haar random set $\mathcal{S}\subset U(d)$ of quantum gates we consider the uniform measure $\nu_\mathcal{S}$ whose support is given by $\mathcal{S}$. The measure $\nu_\mathcal{S}$ can be regarded as a $\delta(\nu_\mathcal{S},t)$-approximate $t$-design, $t\in\mathbb{Z}_+$. We propose a random matrix model that aims to describe the probability distribution of $\delta(\nu_\mathcal{S},t)$ for any $t$. Our model is given by a block diagonal matrix whose blocks are independent, given by Gaussian or Ginibre ensembles, and their number, size and type is determined by $t$. We prove that, the operator norm of this matrix, $\delta({t})$, is the random variable to which $\sqrt{|\mathcal{S}|}\delta(\nu_\mathcal{S},t)$ converges in distribution when the number of elements in $\mathcal{S}$ grows to infinity. Moreover, we characterize our model giving explicit bounds on the tail probabilities $\mathbb{P}(\delta(t)>2+\epsilon)$, for any $\epsilon>0$. We also show that our model satisfies the so-called spectral gap conjecture, i.e. we prove that with the probability $1$ there is $t\in\mathbb{Z}_+$ such that $\sup_{k\in\mathbb{Z}_{+}}\delta(k)=\delta(t)$. Numerical simulations give convincing evidence that the proposed model is actually almost exact for any cardinality of $\mathcal{S}$. The heuristic explanation of this phenomenon, that we provide, leads us to conjecture that the tail probabilities $\mathbb{P}(\sqrt{\mathcal{S}}\delta(\nu_\mathcal{S},t)>2+\epsilon)$ are bounded from above by the tail probabilities $\mathbb{P}(\delta(t)>2+\epsilon)$ of our random matrix model. In particular our conjecture implies that a Haar random set $\mathcal{S}\subset U(d)$ satisfies the spectral gap conjecture with the probability $1$.
翻訳日:2023-01-22 14:22:00 公開日:2022-10-21
# 強い結合条件下での集合光学応答による解離減速

Dissociation slowdown by collective optical response under strong coupling conditions ( http://arxiv.org/abs/2210.10943v2 )

ライセンス: Link先を確認
Maxim Sukharev, Joseph Subotnik, Abraham Nitzan(参考訳) 我々は, 強い結合条件下で光共振器に共鳴結合した二原子分子のアンサンブルについて検討する。 光解離ダイナミクスは、結合されたマクスウェル・シュロディンガー方程式と分子ロ振動の自由度を明示的に考慮した直接数値積分によって検討される。 系が極性周波数で駆動されるとき、解離は著しく影響を受ける(減速)ことが示されている。 観察された効果は過渡的な性質を示し、古典的なアナログを持たない。 偏光周波数における解離減速の直観的な説明を提案する。

We consider an ensemble of diatomic molecules resonantly coupled to an optical cavity under strong coupling conditions at normal incidence. Photodissociation dynamics is examined via direct numerical integration of the coupled Maxwell-Schrodinger equations with molecular ro-vibrational degrees of freedom explicitly taken into account. It is shown that the dissociation is significantly affected (slowed down) when the system is driven at its polaritonic frequencies. The observed effect is demonstrated to be of transient nature and has no classical analog. An intuitive explanation of the dissociation slowdown at polaritonic frequencies is proposed.
翻訳日:2023-01-18 20:27:34 公開日:2022-10-21
# 量子ステアリングによる2量子状態のロバスト片面自己検定

Robust one-sided self-testing of two-qubit states via quantum steering ( http://arxiv.org/abs/2210.11243v2 )

ライセンス: Link先を確認
Yukun Wang, Xinjian Liu, Shaoxuan Wang, Haoying Zhang, and Yunguang Han(参考訳) 絡み合った2量子状態は、量子通信ネットワークを構築するためのコアビルディングブロックである。 その正確な検証は、特に信頼できないネットワークにおいて、ネットワークの動作に不可欠である。 本研究では,2ビットの絡み合った状態のステアリング不等式による自己検定を行い,ノイズに対するロバスト性解析を行った。 より正確には、ステアリングの不等式は傾いたクレーター・ホーネ・シモニー・ホルトの不等式とその一般形から構成され、一般的な2量子交絡状態を検証する。 この研究は、局所抽出写像と数値半定値プログラミング法の両方を用いて、優れたロバスト性バウンドを提供する。 特に、最適局所抽出写像は解析法で構築され、理論的に最適ロバスト性境界が得られる。 片面自己テストのロバスト性をさらに向上するために,3つの測定設定のステアリング不平等のファミリーを提案する。 その結果, 3段階のステアリング不等式は, 2段階のステアリング不等式よりもノイズを伴う頑健な自己試験に有利であることが示唆された。 さらに,実用的検証プロトコルを構築するために,一方のデバイス非依存シナリオにおけるプロトコルのサンプル効率を明らかにする。

Entangled two-qubit states are the core building blocks for constructing quantum communication networks. Their accurate verification is crucial to the functioning of the networks, especially for untrusted networks. In this work we study the self-testing of two-qubit entangled states via steering inequalities, with robustness analysis against noise. More precisely, steering inequalities are constructed from the tilted Clauser-Horne-Shimony-Holt inequality and its general form, to verify the general two-qubit entangled states. The study provides a good robustness bound, using both local extraction map and numerical semidefinite-programming methods. In particular, optimal local extraction maps are constructed in the analytical method, which yields the theoretical optimal robustness bound. To further improve the robustness of one-sided self-testing, we propose a family of three measurement settings steering inequalities. The result shows that three-setting steering inequality demonstrates an advantage over two-setting steering inequality on robust self-testing with noise. Moreover, to construct a practical verification protocol, we clarify the sample efficiency of our protocols in the one-sided device-independent scenario.
翻訳日:2023-01-18 20:23:13 公開日:2022-10-21
# 地質破壊ネットワークのための量子アルゴリズム

Quantum Algorithms for Geologic Fracture Networks ( http://arxiv.org/abs/2210.11685v1 )

ライセンス: Link先を確認
Jessie M. Henderson, Marianna Podzorova, M. Cerezo, John K. Golden, Leonard Gleyzer, Hari S. Viswanathan, Daniel O'Malley(参考訳) 大きな方程式系を解くことは、地下の流れをシミュレートするなどの自然現象をモデル化するための課題である。 現行のコンピュータでは難解なシステムを避けるためには,粗粒化と呼ばれる,小規模な情報無視が求められることが多い。 多孔質で均質な物質の流れのような多くの実用用途において、粗粒化は溶液の十分な正確な近似を提供する。 残念なことに、破壊されたシステムは、パーコレーションしきい値を越えてネットワークをプッシュできるトポロジを含む、最小スケールのネットワークトポロジが存在するため、正確に粗粒化することはできない。 そのため, 重要な破壊システムを正確にモデル化するための新しい手法が求められている。 線形系の解法に関する量子アルゴリズムは, 古典的解法に比べて理論的に指数関数的に改善され, 本研究では破砕流れに対する2つの量子アルゴリズムを導入する。 最初のアルゴリズムは、エラーなく動作する未来の量子コンピュータ向けに設計されており、大きな可能性を秘めているが、現在のハードウェアは十分な性能にはうるさすぎることを実証する。 第2のアルゴリズムは,小中規模の問題 (10から1000ノードのオーダー) に対してすでに有効であり,実験的に検証し,理論的に説明できる。 量子エラー軽減とプレコンディショニングを活用することで、さらなる改善が期待できる。

Solving large systems of equations is a challenge for modeling natural phenomena, such as simulating subsurface flow. To avoid systems that are intractable on current computers, it is often necessary to neglect information at small scales, an approach known as coarse-graining. For many practical applications, such as flow in porous, homogenous materials, coarse-graining offers a sufficiently-accurate approximation of the solution. Unfortunately, fractured systems cannot be accurately coarse-grained, as critical network topology exists at the smallest scales, including topology that can push the network across a percolation threshold. Therefore, new techniques are necessary to accurately model important fracture systems. Quantum algorithms for solving linear systems offer a theoretically-exponential improvement over their classical counterparts, and in this work we introduce two quantum algorithms for fractured flow. The first algorithm, designed for future quantum computers which operate without error, has enormous potential, but we demonstrate that current hardware is too noisy for adequate performance. The second algorithm, designed to be noise resilient, already performs well for problems of small to medium size (order 10 to 1000 nodes), which we demonstrate experimentally and explain theoretically. We expect further improvements by leveraging quantum error mitigation and preconditioning.
翻訳日:2023-01-18 19:55:51 公開日:2022-10-21
# 非線形フリップフロップ量子ウォークはポテンシャル障壁を通過する

Nonlinear flip-flop quantum walks through potential barriers ( http://arxiv.org/abs/2210.11661v1 )

ライセンス: Link先を確認
F. S. Passos and A. R. C. Buarque(参考訳) 振幅依存性位相シフトを有する非線形フリップフロップ量子ウォークの動的性質について検討した。 均一な局所摂動と媒体のカーライクな非線形性の間の調整により、我々はリッチな動的プロファイルを見つける。 我々は、移動ソリトンのような構造や自己追跡状態を持つものを含む、異なるアダマール量子ウォーキング体制の存在を示す。 後者は主に、$\varphi\rightarrow \pi/2$ の振幅を持つ摂動である。 このシステムでは、量子ビットはポテンシャル障壁の振幅を増加させると異常な振る舞いを示し、非線形パラメータに対する自己トラップ$\varphi_c$ の単調な減少を示す。 カオス的な状態は中間的非線形性値に対して支配的になる。 さらに、量子コイン(\theta$)を非自明なダイナミクスに変えることで、パウリXに近いコインがソリトンのような支配的な構造を持つ体制へとシステムを駆動し、カオス的な振る舞いは$\chi$-$\varphi$平面の狭い領域に制限されることを示す。 我々は,このモデルを統合フォトニックシステムで実装し,観測することが可能であると信じている。

The dynamics of nonlinear flip-flop quantum walk with amplitude-dependent phase shifts with pertubing potential barrier is investigated. Through the adjustment between uniform local perturbations and a Kerrlike nonlinearity of the medium we find a rich set of dynamic profiles. We will show the existence of different Hadamard quantum walking regimes, including those with mobile soliton-like structures or self-trapped states. The latter is predominant for perturbations with amplitudes that tend to $\varphi\rightarrow \pi/2$. In this system, the qubit shows an unusual behavior as we increase the amplitudes of the potential barriers, and displays a monotonic decrease in the self-trapping $\varphi_c$ with respect to the nonlinear parameter. A chaotic-like regime becomes predominant for intermediate nonlinearity values. Furthermore, we show that by changing the quantum coins ($\theta$) a non-trivial dynamic arises, where coins close to Pauli-X drives the system to a regime with predominant soliton-like structures, while the chaotic behavior are restricted to a narrow region in the $\chi$-$\varphi$ plane. We believe that is possible to implement and observe the proprieties of this model in a integrated photonic system.
翻訳日:2023-01-18 19:55:29 公開日:2022-10-21
# 超伝導ナノワイヤ検出器による1550nm単一光子の高速検出

High-speed detection of 1550 nm single photons with superconducting nanowire detectors ( http://arxiv.org/abs/2210.11644v1 )

ライセンス: Link先を確認
Ioana Craiciu, Boris Korzh, Andrew D. Beyer, Andrew Mueller, Jason P. Allmaras, Lautaro Narv\'aez, Maria Spiropulu, Bruce Bumble, Thomas Lehner, Emma E. Wollman and Matthew D. Shaw(参考訳) 超伝導ナノワイヤ単一光子検出器は、高効率、低タイミングジッタ、低暗度計数のため、量子情報と科学の重要な技術である。 本研究では,最大78%の検出効率を有する単一1550nm光子の検出器,50psfwhm以下のタイミングジッタ,158カウント/秒のダークカウント率,および3db圧縮時の最大1.5ギガカウント/秒という世界有数の最大カウントレートを示す。 PEACOQ検出器(Performance-Enhanced Array for Counting Optical Quanta)は、光ファイバのモードにまたがる32本の直線超伝導窒化ニオブナノワイヤからなる線形配列を含む。 この設計は、検出効率とタイミングジッタの最小限のペナルティで高いカウントレートをサポートする。 これらのトレードオフは,ナノワイヤ毎に独立して読み出しを行い,時間的歩行補正技術を用いて,カウントレート依存タイミングジッタを削減することで緩和できることを示す。 これらの検出器は10GHzのクロックで量子通信を実用化する。

Superconducting nanowire single photon detectors are a key technology for quantum information and science due to their high efficiency, low timing jitter, and low dark counts. In this work, we present a detector for single 1550 nm photons with up to 78% detection efficiency, timing jitter below 50 ps FWHM, 158 counts/s dark count rate - as well as a world-leading maximum count rate of 1.5 giga-counts/s at 3 dB compression. The PEACOQ detector (Performance-Enhanced Array for Counting Optical Quanta) comprises a linear array of 32 straight superconducting niobium nitride nanowires which span the mode of an optical fiber. This design supports high count rates with minimal penalties for detection efficiency and timing jitter. We show how these trade-offs can be mitigated by implementing independent read-out for each nanowire and by using a temporal walk correction technique to reduce count-rate dependent timing jitter. These detectors make quantum communication practical on a 10 GHz clock.
翻訳日:2023-01-18 19:55:10 公開日:2022-10-21
# 長時間キャビティ伝送を用いた量子ビットノイズ特性評価の理論

Theory of qubit noise characterization using the long-time cavity transmission ( http://arxiv.org/abs/2210.11891v1 )

ライセンス: Link先を確認
Philipp M. Mutter and Guido Burkard(参考訳) ノイズ誘起デコヒーレンスは、大規模量子計算における主要な脅威の1つである。 量子ビットに影響を及ぼすノイズを評価する試みでは、システムの記述に動的ノイズを含めることで、入力出力理論において量子ビット結合キャビティを介して伝送の標準的な定常解を超える。 量子ランジュバン方程式を無ノイズ系に対して正確に解き、ノイズを摂動として扱う。 長い時間制限では、補正は外部制御パラメータに依存する積分カーネルとのノイズパワースペクトル密度の畳み込みの和として記述することができる。 畳み込み定理を用いて、補正を反転させ、可測量に対する積分としてノイズスペクトル密度の関係を得る。 さらに, 分散状態において, ノイズを正確に扱い, パワースペクトル密度を含む畳み込みにおいて, ノイズ特性を長時間伝送中にインプリントすることを見出す。

Noise induced decoherence is one of the main threats to large-scale quantum computation. In an attempt to assess the noise affecting a qubit we go beyond the standard steady-state solution of the transmission through a qubit-coupled cavity in input-output theory by including dynamical noise in the description of the system. We solve the quantum Langevin equations exactly for a noise-free system and treat the noise as a perturbation. In the long-time limit the corrections may be written as a sum of convolutions of the noise power spectral density with an integration kernel that depends on external control parameters. Using the convolution theorem, we invert the corrections and obtain relations for the noise spectral density as an integral over measurable quantities. Additionally, we treat the noise exactly in the dispersive regime, and again find that noise characteristics are imprinted in the long-time transmission in convolutions containing the power spectral density.
翻訳日:2023-01-18 19:47:38 公開日:2022-10-21
# Goldilocks から Twin Peaks へ:乱れたネットワークにおける量子輸送の最適条件

From Goldilocks to Twin Peaks: multiple optimal regimes for quantum transport in disordered networks ( http://arxiv.org/abs/2210.11875v1 )

ライセンス: Link先を確認
Alexandre R. Coates, Brendon W. Lovett and Erik M Gauger(参考訳) 量子系におけるエネルギー移動の理解は、自然界における光ハーベスティングの理解と新しい量子テクノロジーの創造に不可欠である。 オープン量子システム理論は、環境ノイズ支援量子輸送(ENAQT)の存在を生物学的および人工システムで発生する広範な現象として予測するために成功している。 この研究は、主に様々な次元の単純な鎖、環、結晶から、よく研究された光調和錯体まで、いくつかの「カノニカル」な構造に焦点が当てられている。 これらの特定のシステムを研究することは、エネルギー輸送を改善する単一の理想的な環境結合率の概念を含む、ENAQTに関する特定の仮定を生み出している。 本稿では、物理的にモデル化された輸送ネットワークの一貫したサブセットが、その定常輸送効率において少なくとも2つのENAQTピークを持つことを示す。

Understanding energy transport in quantum systems is crucial for an understanding of light-harvesting in nature, and for the creation of new quantum technologies. Open quantum systems theory has been successfully applied to predict the existence of environmental noise-assisted quantum transport (ENAQT) as a widespread phenomenon occurring in biological and artificial systems. That work has been primarily focused on several 'canonical' structures, from simple chains, rings and crystals of varying dimensions, to well-studied light-harvesting complexes. Studying those particular systems has produced specific assumptions about ENAQT, including the notion of a single, ideal, range of environmental coupling rates that improve energy transport. In this paper we show that a consistent subset of physically modelled transport networks can have at least two ENAQT peaks in their steady state transport efficiency.
翻訳日:2023-01-18 19:47:24 公開日:2022-10-21
# フェルミオンガウス状態間のトレース距離の切断法

A truncation method for trace distance between fermionic Gaussian states ( http://arxiv.org/abs/2210.11865v1 )

ライセンス: Link先を確認
Jiaju Zhang and M. A. Rajabpour(参考訳) フェルミオン系における2つのガウス状態間のトレース距離を計算するための切断法を開発した。 ガウス状態は対応する相関行列によって完全に決定される。 2つのガウス状態間のトレース距離を計算するために、フォン・ノイマンのエントロピーと2つの相関行列の差に応じて対応する相関行列を切断する。 メソッドが動作するケースのクラスが2つあります。 最初のクラスは、二つの状態のフォン・ノイマンエントロピーがそれほど大きくなく、2つの対応する相関行列がほぼ可換である場合である。 他のクラスは、2つの状態が相関行列差の正準値によって特徴づけられる方法でほぼ直交している場合である。 本手法はIsing と XX スピン鎖の固有状態のサブシステムの例に適用し、その方法が機能すると、かなり大きなサブシステムサイズを持つサブシステムトレース距離を得る。

We develop a truncation method to calculate the trace distance between two Gaussian states in fermionic systems. The Gaussian states are fully determined by their corresponding correlation matrices. To calculate the trace distance between two Gaussian states, we truncate the corresponding correlation matrices according to the von Neumann entropies and the difference of the two correlation matrices. We find two classes of cases for which the method works. The first class are the cases that the von Neumann entropies of the two states are not too large and the two corresponding correlation matrices nearly commute. The other class are the cases that the two states are nearly orthogonal in the way that are characterized by the canonical values of the correlation matrix difference. We apply the method to examples of subsystems in eigenstates of Ising and XX spin chains, and when the method works we obtain the subsystem trace distances with considerably large subsystem sizes.
翻訳日:2023-01-18 19:47:11 公開日:2022-10-21
# 量子データ学習のためのユニバーサルアルゴリズム

Universal algorithms for quantum data learning ( http://arxiv.org/abs/2210.11850v1 )

ライセンス: Link先を確認
Marco Fanizza, Michalis Skotiniotis, John Calsamiglia, Ramon Mu\~noz-Tapia, and Gael Sent\'is(参考訳) 量子センサーと量子コンピュータを運用することで、純粋に量子処理が可能な量子状態の形でデータを作成でき、物理プロセスの研究と量子技術の認定のための新たな道を開くことができる。 本稿では,製品状態の形で与えられる量子データセットの構造的性質を明らかにする一連の測定結果について考察する。 これらのアルゴリズムは普遍的であり、その性能はデータセットが提供された参照フレームに依存しない。 普遍性を必要とすることは、群表現論による最適測定の特徴づけを意味する。

Operating quantum sensors and quantum computers would make data in the form of quantum states available for purely quantum processing, opening new avenues for studying physical processes and certifying quantum technologies. In this Perspective, we review a line of works dealing with measurements that reveal structural properties of quantum datasets given in the form of product states. These algorithms are universal, meaning that their performances do not depend on the reference frame in which the dataset is provided. Requiring the universality property implies a characterization of optimal measurements via group representation theory.
翻訳日:2023-01-18 19:46:54 公開日:2022-10-21
# 線形光学と時間周波数符号化を用いた任意単一量子ゲートの並列合成

Parallelizable Synthesis of Arbitrary Single-Qubit Gates with Linear Optics and Time-Frequency Encoding ( http://arxiv.org/abs/2210.11830v1 )

ライセンス: Link先を確認
Antoine Henry, Ravi Raghunathan, Guillaume Ricard, Baptiste Lefaucher, Filippo Miatto, Nadia Belabas, Isabelle Zaquine and Romain All\'eaume(参考訳) 本稿では,時間ビンと周波数ビンの両方の符号化を考慮した単一量子ユニタリの正確な合成法を提案する。 提案手法は、電気光学位相変調器と位相のみプログラム可能なフィルタ(パルス整形器)からなるスペクトル線形光学量子計算(S-LOQC)プラットフォームで実験的に実装可能である。 両符号化において、任意のゲート生成のための2つの最も単純な3成分構成の忠実度と確率を考慮し、EOMの単一音波周波数(RF)駆動を用いて、時間ビン符号化において任意の単一ビットユニタリを合成するための正確な解析解を与える。 さらに、スペクトル符号化と時間符号化の両面において、コンパクトな実験装置による任意の単一量子ビットゲートの並列化について検討する。 我々は,変調器を駆動するトーン数を条件とするrf帯域幅の影響と,異なるターゲットゲートに対するエンコーディングの選択を体系的に評価し,議論する。 さらに,高忠実度アダマールゲートを並列に合成できる数を定量化し,現実的なシステムでrf音を駆動する資源を最小化・増加させる。 解析では、スペクトルs-loqcを超並列単一量子ビット演算を行う有望なプラットフォームと位置づけ、量子計測や量子トモグラフィへの応用の可能性を示した。

We propose novel methods for the exact synthesis of single-qubit unitaries with high success probability and gate fidelity, considering both time-bin and frequency-bin encodings. The proposed schemes are experimentally implementable with a spectral linear-optical quantum computation (S- LOQC) platform, composed of electro-optic phase modulators and phase-only programmable filters (pulse shapers). We assess the performances in terms of fidelity and probability of the two simplest 3-components configurations for arbitrary gate generation in both encodings and give an exact analytical solution for the synthesis of an arbitrary single-qubit unitary in the time-bin encoding, using a single-tone Radio Frequency (RF) driving of the EOMs. We further investigate the parallelization of arbitrary single-qubit gates over multiple qubits with a compact experimental setup, both for spectral and temporal encodings. We systematically evaluate and discuss the impact of the RF bandwidth - that conditions the number of tones driving the modulators - and of the choice of encoding for different targeted gates. We moreover quantify the number of high fidelity Hadamard gates that can be synthesized in parallel, with minimal and increasing resources in terms of driving RF tones in a realistic system. Our analysis positions spectral S-LOQC as a promising platform to conduct massively parallel single qubit operations, with potential applications to quantum metrology and quantum tomography.
翻訳日:2023-01-18 19:46:45 公開日:2022-10-21
# 指数関数的に少ない量子ビットによる最適化問題の解法に関する比較研究

A Comparative Study On Solving Optimization Problems With Exponentially Fewer Qubits ( http://arxiv.org/abs/2210.11823v1 )

ライセンス: Link先を確認
David Winderl, Nicola Franco, Jeanette Miriam Lorenz(参考訳) 変分量子最適化アルゴリズム、例えば変分量子固有ソルバ(vqe)や量子近似最適化アルゴリズム(qaoa)は、最も研究されている量子アルゴリズムの一つである。 本研究では,QAOAに比べて指数的に少ない量子ビットを用いたVQEに基づくアルゴリズムの評価と改良を行った。 本稿では,問題を変分アンザッツにエンコードして発生する数値的不安定性を強調し,より少ないイテレーションでアンザッツの基底状態を求める古典的な最適化手法を提案する。 さらに,二分最適化とグラフ分割問題において,この変分アンサッツに対する古典最適化法を比較した。

Variational Quantum optimization algorithms, such as the Variational Quantum Eigensolver (VQE) or the Quantum Approximate Optimization Algorithm (QAOA), are among the most studied quantum algorithms. In our work, we evaluate and improve an algorithm based on VQE, which uses exponentially fewer qubits compared to the QAOA. We highlight the numerical instabilities generated by encoding the problem into the variational ansatz and propose a classical optimization procedure to find the ground-state of the ansatz in less iterations with a better or similar objective. Furthermore, we compare classical optimizers for this variational ansatz on quadratic unconstrained binary optimization and graph partitioning problems.
翻訳日:2023-01-18 19:46:18 公開日:2022-10-21
# 量子算術関数のための量子ルックアップテーブルのQ#実装

A Q# Implementation of a Quantum Lookup Table for Quantum Arithmetic Functions ( http://arxiv.org/abs/2210.11786v1 )

ライセンス: Link先を確認
Rajiv Krishnakumar, Mathias Soeken, Martin Roetteler and William J. Zeng(参考訳) 本稿では,ルックアップテーブル(luts)に基づくゲート型量子コンピュータの任意の一変数不動点演算のためのq#実装を提案する。 一般に、これは関数を実装するための非効率な方法である。 しかし、入力領域が有界であり、出力に何らかのエラー許容性(どちらも実際はそうである)がある場合、ある量子演算関数の量子 LUT の実装は、対応する可逆算術の実装よりも効率的である。 本稿では,Q\#を用いたLUTの実装とその近似誤差について論じる。 次に、LUTを用いて量子演算関数を実装する方法の例を示し、実装に必要なリソースを、一般的な演算関数の現在の最先端のbespoke実装と比較する。 LUTの実装は、エンドツーエンドの量子アルゴリズムを実装する際に、実践者が使用するように設計されている。 さらに、そのよく定義された近似誤差を考えると、LUTの実装は、好ましくない量子演算回路の効率を評価するための明確なベンチマークとなる。

In this paper, we present Q# implementations for arbitrary single-variabled fixed-point arithmetic operations for a gate-based quantum computer based on lookup tables (LUTs). In general, this is an inefficent way of implementing a function since the number of inputs can be large or even infinite. However, if the input domain can be bounded and there can be some error tolerance in the output (both of which are often the case in practical use-cases), the quantum LUT implementation of certain quantum arithmetic functions can be more efficient than their corresponding reversible arithmetic implementations. We discuss the implementation of the LUT using Q\# and its approximation errors. We then show examples of how to use the LUT to implement quantum arithmetic functions and compare the resources required for the implementation with the current state-of-the-art bespoke implementations of some commonly used arithmetic functions. The implementation of the LUT is designed for use by practitioners to use when implementing end-to-end quantum algorithms. In addition, given its well-defined approximation errors, the LUT implementation makes for a clear benchmark for evaluating the efficiency of bespoke quantum arithmetic circuits .
翻訳日:2023-01-18 19:46:06 公開日:2022-10-21
# ソース不完全性に頑健な改良BB84量子鍵分布プロトコル

Modified BB84 quantum key distribution protocol robust to source imperfections ( http://arxiv.org/abs/2210.11754v1 )

ライセンス: Link先を確認
Margarida Pereira, Guillermo Curr\'as-Lorenzo, \'Alvaro Navarrete, Akihiro Mizutani, Go Kato, Marcos Curty, Kiyoshi Tamaki(参考訳) Bennett-Brassard 1984 (BB84) プロトコルは最も広く実装されている量子鍵分布(QKD)方式である。 しかし、過去数十年の膨大な理論的、実験的努力にもかかわらず、このプロトコルの不完全なソースによるセキュリティはまだ厳格に確立されていない。 本稿では, トロイの木馬攻撃やモード依存性, 放射パルス間の古典的相関など, 状態準備欠陥やサイドチャネルなど, 複数ソースの不完全性が存在する場合のbb84プロトコルのこの欠点と安全性について述べる。 そこで本稿では,この方式の標準的なセキュリティ解析においてしばしば破棄されるミスマッチイベントをベースとしたBB84プロトコルを改良し,QKDのセキュリティ解析におけるソース不完全性に対応するための強力な数学的ツールである参照手法を用いる。 さらに,修正BB84プロトコルの達成可能なシークレットキーレートと3状態ロストレラントプロトコルのシークレットキーレートを比較し,理想的な条件下では冗長な第4状態の追加は,ソース不完全性の有無による漏洩情報の推定を大幅に改善し,性能が向上することを示す。 本研究は,実装セキュリティの保証におけるbb84プロトコルの妥当性を実証し,qkdの理論と実践のギャップを埋めるための一歩を踏み出した。

The Bennett-Brassard 1984 (BB84) protocol is the most widely implemented quantum key distribution (QKD) scheme. However, despite enormous theoretical and experimental efforts in the past decades, the security of this protocol with imperfect sources has not yet been rigorously established. In this work, we address this shortcoming and prove the security of the BB84 protocol in the presence of multiple source imperfections, including state preparation flaws and side channels, such as Trojan-horse attacks, mode dependencies and classical correlations between the emitted pulses. To do so, we consider a modified BB84 protocol that exploits the basis mismatched events, which are often discarded in standard security analyses of this scheme; and employ the reference technique, a powerful mathematical tool to accommodate source imperfections in the security analysis of QKD. Moreover, we compare the achievable secret-key rate of the modified BB84 protocol with that of the three-state loss-tolerant protocol, and show that the addition of a fourth state, while redundant in ideal conditions, significantly improves the estimation of the leaked information in the presence of source imperfections, resulting in a better performance. This work demonstrates the relevance of the BB84 protocol in guaranteeing implementation security, taking us a step further towards closing the existing gap between theory and practice of QKD.
翻訳日:2023-01-18 19:45:01 公開日:2022-10-21
# ブロードバンド完全磁性導体メタマテリアルを用いた真空中カシミールナノ粒子浮上

Casimir nanoparticle levitation in vacuum with broadband perfect magnetic conductor metamaterials ( http://arxiv.org/abs/2210.12094v1 )

ライセンス: Link先を確認
Adrian E. Rubio Lopez, Vincenzo Giannini(参考訳) ナノ粒子の浮上は様々な研究分野において不可欠である。 カシミール力はそれに取り組むための自然な候補であるが、ブロードバンドメタマテリアルの欠如は、真空中の反発力を妨げる。 真空中におけるサブミクロンナノ粒子の浮揚は、ブロードバンドメタマテリアル完全磁性導体表面の設計に基づいており、その力は主に(量子)零点寄与によって与えられる。 質量力学の中心の調和状態では、特性周波数はナノ粒子の体積に依存しながらプランクの定数$\hbar$に線形に依存する。

The levitation of nanoparticles is essential in various branches of research. Casimir forces are natural candidates to tackle it but the lack of broadband metamaterials precluded repulsive forces in vacuum. We show sub-micron nanoparticle levitation in vacuum only based on the design of a broadband metamaterial perfect magnetic conductor surface, where the force is mostly given by the (quantum) zero-point contribution. In the harmonic regime of the center of mass dynamics, the characteristic frequency depends linearly on Planck's constant $\hbar$ while independent of the nanoparticle's volume.
翻訳日:2023-01-18 19:38:07 公開日:2022-10-21
# 低エネルギーQCDにおける最小絡み合いと創発対称性

Minimal Entanglement and Emergent Symmetries in Low-energy QCD ( http://arxiv.org/abs/2210.12085v1 )

ライセンス: Link先を確認
Qiaofeng Liu, Ian Low, Thomas Mehen(参考訳) 量子情報科学の観点からスピン1/2バリオンの低エネルギー散乱の研究を行い、絡み合い最小化と偶発的対称性の出現の相関に着目した。 SU(3)フレーバー対称性の下でオクテットとしてバリオン変換し、ピオン閾値以下の相互作用は、QCDの有効場理論(EFT)において接触作用素によって記述される。 2-to-2散乱には64のチャネルがあるにもかかわらず、EFT内の6つの独立演算子のみがSU(3)によって予測される。 我々は, SU(3) 対称チャネルにおける連続的絡み合い最小化が, EFT においてますます大きな励起対称性と相関していることを示す。 特に, 絡み込み抑制がSu(6), SO(8), SU(8) および SU(16) 対称性を示す散乱チャネルを同定した。 また,非相対論的共形不変性の出現を非自然に大きな散乱長を持つチャネルで観測した。 格子シミュレーションによる精度の向上は、低エネルギーQCDにおける絡み合い抑制の度合い、結果として偶然対称性の量を決定するのに役立つ。

We study low-energy scattering of spin-1/2 baryons from the perspective of quantum information science, focusing on the correlation between entanglement minimization and the appearance of accidental symmetries. The baryon transforms as an octet under the SU(3) flavor symmetry and its interactions below the pion threshold are described by contact operators in an effective field theory (EFT) of QCD. Despite there being 64 channels in the 2-to-2 scattering, only 6 independent operators in the EFT are predicted by SU(3). We show that successive entanglement minimization in SU(3)-symmetric channels are correlated with increasingly large emergent symmetries in the EFT. In particular, we identify scattering channels whose entanglement suppression are indicative of emergent SU(6), SO(8), SU(8) and SU(16) symmetries. We also observe the appearance of non-relativistic conformal invariance in channels with unnaturally large scattering lengths. Improved precision from lattice simulations could help determine the degree of entanglement suppression, and consequently the amount of accidental symmetry, in low-energy QCD.
翻訳日:2023-01-18 19:37:56 公開日:2022-10-21
# Rb87の2つの超微粒基底状態間の経時的人口移動

Tailoring population transfer between two hyperfine ground states of Rb87 ( http://arxiv.org/abs/2210.12011v1 )

ライセンス: Link先を確認
Aleksandra Sierant, Marek Kopciuch and Szymon Pustelny(参考訳) 本稿では, 複雑な多層原子系のコヒーレント制御を, 刺激されたラマン断熱路 (STIRAP) を用いて検討する。 ルビジウム-87原子の例に基づいて、D1線で円偏光を励起し、光線と独立に相互作用する3層と4層のサブシステムに分解する能力を示す。 4段階のシステムに着目して、追加の励起状態の存在がシステムの進化のダイナミクスに大きく影響することを実証する。 具体的には、光ビームの適切な調整により、転送チャネルのいくつかをブロックすることができ、システムに対する制御性が向上することが示されている。 また,この効果は不均質な広がり(ドップラー効果など)のない媒体において最も重要であり,そのような広がりが存在すると劣化することを示した。 例えば、原子の運動は転送の効率と選択性の両方に影響を与える。

In this paper, we investigate the coherent control over a complex multi-level atomic system using the stimulated Raman adiabatic passage (STIRAP). Based on the example of rubidium-87 atoms, excited with circularly-polarized light at the D1 line, we demonstrate the ability to decompose the system into three- and four-level subsystems independently interacting with light beams. Focusing on the four-level system, we demonstrate that the presence of an additional excited state significantly affects the dynamics of the system evolution. Specifically, it is shown that, through the appropriate tuning of the light beams, some of the transfer channels can be blocked, which leads to better control over the system. We also demonstrate that this effect is most significant in media free from inhomogeneous broadening (e.g., Doppler effect) and deteriorates if such broadening is present. For instance, motion of atoms affects both the efficiency and selectivity of the transfer.
翻訳日:2023-01-18 19:37:28 公開日:2022-10-21
# フェルミオンのglauber-sudarshan p表現

Glauber-Sudarshan P-representations for fermions ( http://arxiv.org/abs/2210.11980v1 )

ライセンス: Link先を確認
Stephen M. Barnett and Bryan J. Dalton(参考訳) グラウバー・スダルシャンP表現は量子光学においてよく知られており、光子統計に関する問題に広く応用されている。 おそらくあまり知られていないのはフェルミオン剤だろう。 ボソニック分布とフェルミオン分布の双方を導出し, 2つの異なるフェルミオン形式が存在する理由とそれらの関係を示す。 多くのモードを持つ単一モード系と多粒子系の両方を考える。 単純さのため、1種類のボソンまたはフェルミオンのみが考慮される。

The Glauber-Sudarshan P-representation is well-known within quantum optics, and is widely applied to problems involving photon statistics. Less familiar, perhaps, is its fermionic counterpart. We present a derivation of both the bosonic and fermionic distributions and, in doing so, demonstrate the reason for the existence of two distinct fermionic forms and the relationship between these. We consider both single mode systems and also multiparticle systems with many modes. For simplicity only one type of boson or fermion will be considered.
翻訳日:2023-01-18 19:37:13 公開日:2022-10-21
# 量子衝突モデルによるマルコフから非マルコフ遷移の解法

Unveiling the Markovian to non-Markovian transition with quantum collision models ( http://arxiv.org/abs/2210.11976v1 )

ライセンス: Link先を確認
Willames F. Magalh\~aes, Carlos O. A. Ribeiro Neto, and Bert\'ulio de Lima Bernardo(参考訳) オープン量子システムにおける非マルコフ性の概念は、伝統的に環境からシステムへの情報バックフローの存在と関連している。 一方、そのような逆流が発生するメカニズムはいまだ議論の対象となっている。 本研究では,システム・アンシラ相互作用を考慮した数個のアンシラからなる熱浴と接触するキュービット系のダイナミクスにおける記憶効果を,衝突モデルを用いて研究する。 単一アンシラ制限の場合、システムバス情報フローは相互作用確率に依存するカオス的および規則的な振動挙動の興味深い混合を示す。 また, マルコビアンから非マルコフ遷移の性質に光を当てる新たなアンシラを浴槽に加えると, 情報逆流が減少することが明らかとなった。

The concept of non-Markovianity in open quantum systems is traditionally associated with the existence of information backflows from the environment to the system. Meanwhile, the mechanisms through which such backflows emerge are still a subject of debate. In this work, we use collision models to study memory effects in the dynamics of a qubit system in contact with a thermal bath made up of few ancillas, in which system-ancilla and ancilla-ancilla interactions are considered. In the single-ancilla limit case, we show that the system-bath information flow exhibits an interesting mixture of chaotic and regular oscillatory behavior, which depends on the interaction probabilities. In parallel, our results clearly indicate that the information backflows decrease when new ancillas are added to the bath, which sheds light on the nature of the Markovian to non-Markovian transition.
翻訳日:2023-01-18 19:37:05 公開日:2022-10-21
# $(d+1)$次元安定化回路における測定誘起相転移

Measurement-induced phase transitions in $(d+1)$-dimensional stabilizer circuits ( http://arxiv.org/abs/2210.11957v1 )

ライセンス: Link先を確認
Piotr Sierant, Marco Schir\`o, Maciej Lewenstein, Xhek Turkeshi(参考訳) ユニタリダイナミクスと局所量子測定の相互作用は、非伝統的な非ユニタリダイナミクスの位相と遷移をもたらす。 本稿では,$(d+1)$-dimensional hybrid stabilizer回路のダイナミックスを,$d=1,2,3$で検討する。 エンタングルメント測度, 浄化ダイナミクス, 波動関数構造に着目した大規模数値シミュレーションにより, 測定誘起相とその遷移を特徴付ける。 以上より,$(d+1)$空間次元における測定誘起遷移は共形的であり,$(d+1)$空間次元におけるパーコレーション遷移に近いことが示された。

The interplay between unitary dynamics and local quantum measurements results in unconventional non-unitary dynamical phases and transitions. In this paper we investigate the dynamics of $(d+1)$-dimensional hybrid stabilizer circuits, for $d=1,2,3$. We characterize the measurement-induced phases and their transitions using large-scale numerical simulations focusing on entanglement measures, purification dynamics, and wave-function structure. Our findings demonstrate the measurement-induced transition in $(d+1)$ spatiotemporal dimensions is conformal and close to the percolation transition in $(d+1)$ spatial dimensions.
翻訳日:2023-01-18 19:36:52 公開日:2022-10-21
# 非エルミタンフリーフェルミオン鎖における体積-面積法の絡み合い遷移

Volume-to-Area Law Entanglement Transition in a non-Hermitian Free Fermionic Chain ( http://arxiv.org/abs/2210.11937v1 )

ライセンス: Link先を確認
Youenn Le Gal, Xhek Turkeshi, Marco Schir\`o(参考訳) 我々は,非エルミート的Su-Schrieffer-Heegerモデルの力学を,2つの亜格子上で粒子と孔を測定する連続監視自由フェルミオン鎖の無クリック限界として考える。 このモデルは$\mathcal{PT}$-対称性を持ち、測定バックアクションの強さの関数として自発的に破れ、結果として準粒子がブリルアンゾーンのパッチで有限寿命を得るスペクトル遷移をもたらす。 熱力学的極限における絡み合いエントロピーのダイナミクスを計算し、体積則と面積則スケーリングの絡み合い遷移を解析的に示す。 興味深いことに、絡み合い遷移と$\mathcal{PT}$-対称性の破れは、準粒子の崩壊スペクトル全体がギャップとなるときの前者と一致しない。

We consider the dynamics of the non-Hermitian Su-Schrieffer-Heeger model arising as the no-click limit of a continuously monitored free fermion chain where particles and holes are measured on two sublattices. The model has $\mathcal{PT}$-symmetry, which we show to spontaneously break as a function of the strength of measurement backaction, resulting in a spectral transition where quasiparticles acquire a finite lifetime in patches of the Brillouin zone. We compute the entanglement entropy's dynamics in the thermodynamic limit and demonstrate an entanglement transition between volume-law and area-law scaling, which we characterize analytically. Interestingly we show that the entanglement transition and the $\mathcal{PT}$-symmetry breaking do not coincide, the former occurring when the entire decay spectrum of the quasiparticle becomes gapped.
翻訳日:2023-01-18 19:36:41 公開日:2022-10-21
# リー代数デカップリング法による量子力学の解法

Solving quantum dynamics with a Lie algebra decoupling method ( http://arxiv.org/abs/2210.11894v1 )

ライセンス: Link先を確認
Sofia Qvarfort and Igor Pikovski(参考訳) 量子技術の発達の中心は、個々の量子のレベルでの量子システムの制御である。 数学的には、ハミルトニアンの研究と様々な状態における量子系のダイナミクスの解法によって実現される。 ここでは、リー代数デカップリング定理を用いて量子系の力学を解くための教育的な導入について述べる。 背景として,一般物理学者を対象としたリー群とリー代数の概要を紹介する。 次に定理を証明し、量子光学や関連する分野に頻繁に現れる3つのよく知られた線型および二次ハミルトニアンの例に適用する。 結果は微分方程式の集合であり、一般時間依存の相互作用項を持つすべての線型かつ二次的な単モードハミルトニアンに対して最もガウス力学を記述する。 また、2次ハミルトニアンを超える疎結合定理の使用や開系力学の解法についても論じる。

At the heart of quantum technology development is the control of quantum systems at the level of individual quanta. Mathematically, this is realised through the study of Hamiltonians and the use of methods to solve the dynamics of quantum systems in various regimes. Here, we present a pedagogical introduction to solving the dynamics of quantum systems by the use of a Lie algebra decoupling theorem. As background, we include an overview of Lie groups and Lie algebras aimed at a general physicist audience. We then prove the theorem and apply it to three well-known examples of linear and quadratic Hamiltonian that frequently appear in quantum optics and related fields. The result is a set of differential equations that describe the most Gaussian dynamics for all linear and quadratic single-mode Hamiltonian with generic time-dependent interaction terms. We also discuss the use of the decoupling theorem beyond quadratic Hamiltonians and for solving open-system dynamics.
翻訳日:2023-01-18 19:36:25 公開日:2022-10-21
# 5レベル原子系におけるコヒーレントダイナミクス

Coherent dynamics in a five-level atomic system ( http://arxiv.org/abs/2210.11893v1 )

ライセンス: Link先を確認
Jan Sch\"utz, Alexander Martin, Sanah Laschinger, Gerhard Birkl(参考訳) マルチパーティ量子システムのコヒーレント制御は、最先端の量子情報処理における中心的な前提条件の1つである。 固有の高忠実性検出能力の追加により、準安定希ガス原子のような高エネルギー内部状態の原子量子システムは、基礎的側面と技術応用における量子科学の進歩のための理想的な候補として自己を促進する。 レーザー冷却されたネオン原子を準安定な$^3$P$_2$状態の1s^2 2s^2 2p^5 3s$ (LS-カップリング表記法) (Racah表記法:$^2P_{3/2}\,3s[3/2]_2$) で使用し、すべてのゼーマンサブレベル |m_J> = |+2>, |+1>, |0>, |-1>, |-2> を調製するための実験方法、および5レベルシステム |+2>, |+1>, |-2> における重ね合わせ状態のコヒーレント制御について述べる。 この方法は、最適化された周波数とレーザーパルスシーケンスに基づいている。 状態進化は単純で半古典的なモデルで記述される。 準備状態のコヒーレンス特性をラムゼイ法とスピンエコー法を用いて検討した。

The coherent control of multi-partite quantum systems presents one of the central prerequisites in state-of-the-art quantum information processing. With the added benefit of inherent high-fidelity detection capability, atomic quantum systems in high-energy internal states, such as metastable noble gas atoms, promote themselves as ideal candidates for advancing quantum science in fundamental aspects and technological applications. Using laser-cooled neon atoms in the metastable $^3$P$_2$ state of state $1s^2 2s^2 2p^5 3s$ (LS-coupling notation) (Racah notation: $^2P_{3/2}\,3s[3/2]_2$) with five $m_F$-sublevels, experimental methods for the preparation of all Zeeman sublevels |m_J> = |+2>, |+1>, |0>, |-1>, |-2> as well as the coherent control of superposition states in the five-level system |+2> ... |-2>, in the three-level system |+2>, |+1>, |0>, and in the two-level system |+2>, |+1> are presented. The methods are based on optimized radio frequency and laser pulse sequences. The state evolution is described with a simple, semiclassical model. The coherence properties of the prepared states are studied using Ramsey and spin echo measurements.
翻訳日:2023-01-18 19:36:12 公開日:2022-10-21
# 光ばねを用いた標準量子限界を超える

Surpassing the Standard Quantum Limit using an Optical Spring ( http://arxiv.org/abs/2210.12222v1 )

ライセンス: Link先を確認
Torrey Cullen, Ron Pagano, Jonathan Cripe, Safura Sharifi, Michelle Lollie, Scott Aronson, Henry Cain, Paula Heu, David Follman, Garrett D Cole, Nancy Aggarwal, Thomas Corbitt(参考訳) 量子力学は、物理測定にノイズ制限と感度制限を課す。 望ましくないバックアクションと光学測定の精度のバランスは、干渉計系に標準量子限界(SQL)を課す。 sql以下の感度を実現するためには、バックアクション回避測定手法を活用するか、または検出器における余分なノイズ貢献のキャンセルを利用する必要がある。 %の原理実証実験が実施されたが、最近になってsqlよりも感度の高い実験が実施された。 本研究では,その初期実験を拡張し,従来の測定値の約2倍近いsqlサブ計測感度を実現するとともに,干渉型重力波検出器に適用可能なアーキテクチャを提案する。 実際、この技術はAdvanced LIGOに直接適用でき、信号のリサイクルキャビティで同様の効果を観測できる。 光ばねによって生成された量子相関を利用して、sql 以下の全感度を$\textbf{2.8}$ db で測定し、量子限界以下のノイズパワーの$\textbf{72}\pm\textbf{5.1}$ \% の低減に対応する。 デチューニングされた光学スプリングを使用することで、このノイズ低減は調整可能であり、sqlを下回る所望の周波数範囲を選択できる。 この結果は、LIGOに適用可能な周波数範囲でSQLよりかなり低い感度にアクセスでき、重力波検出器の到達範囲を宇宙に広げる可能性を示している。

Quantum mechanics places noise limits and sensitivity restrictions on physical measurements. The balance between unwanted backaction and the precision of optical measurements impose a standard quantum limit (SQL) on interferometric systems. In order to realize a sensitivity below the SQL, it is necessary to leverage a back-action evading measurement technique, or else exploit cancellations of any excess noise contributions at the detector. %Many proof of principle experiments have been performed, but only recently has an experiment achieved sensitivity below the SQL. In this work, we extend that initial demonstration and realize sub-SQL measurement sensitivity nearly two times better than previous measurements, and with architecture applicable to interferometric gravitational wave detectors. In fact, this technique is directly applicable to Advanced LIGO, which could observe similar effects with a detuned signal recycling cavity. By exploiting quantum correlations created by an optical spring, we measure a total sensitivity below the SQL by $\textbf{2.8}$ dB, corresponding to a reduction in the noise power by $\textbf{72}\pm\textbf{5.1}$ \% below the quantum limit. Through the use of a detuned optical spring, this noise reduction is tunable, allowing us to choose the desired range of frequencies that fall below the SQL. This result demonstrates access to sensitivities well below the SQL at frequencies ranges applicable to LIGO, with the potential to extend the reach of gravitational wave detectors further into the universe.
翻訳日:2023-01-18 19:30:17 公開日:2022-10-21
# 半コヒーレント状態を超えて:単一または複数量子ビット上での最適コヒーレント回転の場状態

Beyond transcoherent states: Field states for effecting optimal coherent rotations on single or multiple qubits ( http://arxiv.org/abs/2210.12167v1 )

ライセンス: Link先を確認
Aaron Z. Goldberg, Aephraim M. Steinberg, Khabat Heshami(参考訳) 半古典的に、レーザーパルスは原子系の任意の変換を実装するために使用され、量子力学的には、残留原子場絡み合いはこの約束を損なう。 トランスコヒーレント状態(transcoherent state)は、初期状態または励起状態において原子の完全なコヒーレンスを生成することにより、完全に量子化された状態においてこの問題を修正する場状態である。 第一に、原子をその基底または励起状態から、残差の原子場が絡み合うことなくブロッホ球上の任意の点へ変換する場状態を導入する。 角度$\theta$ による回転を行うための最も強いパルスは、$\rm{sinc}\theta$ の係数で光子数の分散で圧縮される。 次に、任意の未知の初期状態において原子に$\theta$パルスを課すための最適なガウス場状態が、$\rm{sinc}\tfrac{\theta}{2}$であることを示す。 第3に、これらの研究を複数の原子と同時に相互作用する場に拡張し、全ての原子に$\tfrac{\pi}{2}$のパルスを同時に行うために$\tfrac{\pi}{2}$でスクイーズする数が最適であることを発見し、原子数と光子数の比率の順に小さな補正を加える。 最後に、m$-光子吸収を含む非線形相互作用を通じて、$\theta$ による任意の回転を最もよく行うフィールド状態を見つけ、同じ最適スキーズ係数が $\rm{sinc}\theta$ となる。 したがって、様々な原子-場相互作用におけるバックアクションは、最適量で制御場を絞ることで緩和することができる。

Semiclassically, laser pulses can be used to implement arbitrary transformations on atomic systems; quantum mechanically, residual atom-field entanglement spoils this promise. Transcoherent states are field states that fix this problem in the fully quantized regime by generating perfect coherence in an atom initially in its ground or excited state. We extend this fully quantized paradigm in four directions: First, we introduce field states that transform an atom from its ground or excited state to any point on the Bloch sphere without residual atom-field entanglement. The best strong pulses for carrying out rotations by angle $\theta$ are are squeezed in photon-number variance by a factor of $\rm{sinc}\theta$. Next, we investigate implementing rotation gates, showing that the optimal Gaussian field state for enacting a $\theta$ pulse on an atom in an arbitrary, unknown initial state is number squeezed by less: $\rm{sinc}\tfrac{\theta}{2}$. Third, we extend these investigations to fields interacting with multiple atoms simultaneously, discovering once again that number squeezing by $\tfrac{\pi}{2}$ is optimal for enacting $\tfrac{\pi}{2}$ pulses on all of the atoms simultaneously, with small corrections on the order of the ratio of the number of atoms to the average number of photons. Finally, we find field states that best perform arbitrary rotations by $\theta$ through nonlinear interactions involving $m$-photon absorption, where the same optimal squeezing factor is found to be $\rm{sinc}\theta$. Backaction in a wide variety of atom-field interactions can thus be mitigated by squeezing the control fields by optimal amounts.
翻訳日:2023-01-18 19:29:53 公開日:2022-10-21
# パラメータ化量子回路の等価性検証:変分量子アルゴリズムのコンパイル検証

Equivalence Checking of Parameterized Quantum Circuits: Verifying the Compilation of Variational Quantum Algorithms ( http://arxiv.org/abs/2210.12166v1 )

ライセンス: Link先を確認
Tom Peham, Lukas Burgholzer and Robert Wille(参考訳) 変分量子アルゴリズムは量子古典ハイブリッドアルゴリズムの有望なクラスとして導入され、パラメータ化量子回路を用いて現在利用可能なノイズの多い量子コンピューティングハードウェアで既に使用することができる。 量子回路コンパイルの非自明な性質と量子コンピューティングの微妙さを考えると、これらのパラメータ化回路が正しくコンパイルされていることを検証することが不可欠である。 パラメータフリー回路を扱う等価チェック手順がすでに存在する。 しかし,回路をパラメータで扱える手法はまだ提案されていない。 本研究は、ZX計算に基づく等価チェック手法を用いて、パラメータ化回路の等価性を純粋に象徴的に検証できることを示し、このギャップを埋める。 同時に、パラメータ化回路に固有の自由度を利用して、従来の方法で不等式証明を効率的に得ることができる。 提案手法を実装し,提案手法が完全であることを実証した。 Qiskit氏がベンチマークとして提供するパラメトリックアンサッツ回路ライブラリ全体を使用)実験により,提案手法の有効性が示された。 この実装はオープンソースであり、ミュンヘン量子ツールキット(MQT)の一部である同値チェックツールQCEC(https://github.com/cda-tum/qcec)の一部として公開されている。

Variational quantum algorithms have been introduced as a promising class of quantum-classical hybrid algorithms that can already be used with the noisy quantum computing hardware available today by employing parameterized quantum circuits. Considering the non-trivial nature of quantum circuit compilation and the subtleties of quantum computing, it is essential to verify that these parameterized circuits have been compiled correctly. Established equivalence checking procedures that handle parameter-free circuits already exist. However, no methodology capable of handling circuits with parameters has been proposed yet. This work fills this gap by showing that verifying the equivalence of parameterized circuits can be achieved in a purely symbolic fashion using an equivalence checking approach based on the ZX-calculus. At the same time, proofs of inequality can be efficiently obtained with conventional methods by taking advantage of the degrees of freedom inherent to parameterized circuits. We implemented the corresponding methods and proved that the resulting methodology is complete. Experimental evaluations (using the entire parametric ansatz circuit library provided by Qiskit as benchmarks) demonstrate the efficacy of the proposed approach. The implementation is open source and publicly available as part of the equivalence checking tool QCEC (https://github.com/cda-tum/qcec) which is part of the Munich Quantum Toolkit (MQT).
翻訳日:2023-01-18 19:29:16 公開日:2022-10-21
# Fibonacci anyons を用いたトポロジカル保護されたアダマール門の実験的実現

Experimental realization of a topologically protected Hadamard gate via braiding Fibonacci anyons ( http://arxiv.org/abs/2210.12145v1 )

ライセンス: Link先を確認
Yu-ang Fan, Yingcheng Li, Yuting Hu, Yishan Li, Xinyue Long, Hongfeng Liu, Xiaodong Yang, Xinfang Nie, Jun Li, Tao Xin, Dawei Lu, and Yidun Wan(参考訳) トポロジカル量子計算(TQC)は、フォールトトレラント量子コンピュータを実現する最も印象的なアーキテクチャの一つである。 tqcでは、論理空間と量子ゲートは位相的に保護され、局所外乱に対して頑健である。 しかし、トポロジカルプロテクションは、かなり複雑な格子モデルと操作の難しいダイナミクスを必要とする; 普遍的なTQC(フィボナッチ・アロン系)を実現する最も単純なシステムでさえも、非アベリア・アロンをブレイディングするだけでなく、物理的な実現をもたらす。 本稿では,fibonacci anyonシステムを実現し,fibonacci anyonを用いて位相的に保護された論理空間を構築するディスクモデルを提案する。 フィボナッチをブレイディングすることで、論理空間上に普遍的な量子ゲートを実装できる。 我々の提案はプラットフォームに依存しない。 実証実験として,2ドルの核スピン量子ビットを持つ3つのフィボナッチ・エノンの15ドルのブレイディング操作によって,論理量子ビット上に位相的アダマールゲートを実装する。 ゲート忠実度はランダム化ベンチマークで97.18%に達する。 さらに,論理空間とアダマールゲートが位相的に保護されていることを実験により証明した。 我々の研究はTQCの原理の証明であり、フォールトトレラント量子計算への道を開く。

Topological quantum computation (TQC) is one of the most striking architectures that can realize fault-tolerant quantum computers. In TQC, the logical space and the quantum gates are topologically protected, i.e., robust against local disturbances. The topological protection, however, requires rather complicated lattice models and hard-to-manipulate dynamics; even the simplest system that can realize universal TQC--the Fibonacci anyon system--lacks a physical realization, let alone braiding the non-Abelian anyons. Here, we propose a disk model that can realize the Fibonacci anyon system, and construct the topologically protected logical spaces with the Fibonacci anyons. Via braiding the Fibonacci anyons, we can implement universal quantum gates on the logical space. Our proposal is platform-independent. As a demonstration, we implement a topological Hadamard gate on a logical qubit through a sequence of $15$ braiding operations of three Fibonacci anyons with merely $2$ nuclear spin qubits. The gate fidelity reaches 97.18% by randomized benchmarking. We further prove by experiment that the logical space and Hadamard gate are topologically protected: local disturbances due to thermal fluctuations result in a global phase only. Our work is a proof of principle of TQC and paves the way towards fault-tolerant quantum computation.
翻訳日:2023-01-18 19:28:32 公開日:2022-10-21
# ノイズを用いた量子コンピュータ上のオープン量子システムダイナミクス解法の一アルゴリズム

A quantum algorithm for solving open quantum system dynamics on quantum computers using noise ( http://arxiv.org/abs/2210.12138v1 )

ライセンス: Link先を確認
Juha Lepp\"akangas, Nicolas Vogt, Keith R. Fratus, Kirsten Bark, Jesse A. Vaitkus, Pascal Stadler, Jan-Michael Reiner, Sebastian Zanker, Michael Marthaler(参考訳) 本稿では,ノイズを資源とする量子アルゴリズムを提案する。 量子アルゴリズムの目標は、時間とともに進化するオープン量子システムの演算子平均を計算することである。 選択された低ノイズシステムキュービットとノイズバスキュービットは、オープン量子システムのシステムとバスを表す。 すべての非コヒーレント量子ビットノイズはバススペクトル関数にマッピングできる。 スペクトル関数の形式はデジタル的に調整することができ、有限温度での幅広い開系モデルの時間発展を可能にする。 本研究では,スピンボソンモデルの解法に焦点をあてて本手法の有効性について検討し,減衰とデフォーカスが支配する固有クビット雑音を仮定する。 開量子系のクラスは、アルゴリズムが非常によく機能し、ゲートエラーが最大1%であるにもかかわらず存在する。 一般に、システムとバスの相互作用をネイティブゲートに分解できる場合、量子アルゴリズムが最もよく機能する。

In this paper we present a quantum algorithm that uses noise as a resource. The goal of the quantum algorithm is the calculation of operator averages of an open quantum system evolving in time. Selected low-noise system qubits and noisy bath qubits represent the system and the bath of the open quantum system. All incoherent qubit noise can be mapped to bath spectral functions. The form of the spectral functions can be tuned digitally, allowing for the time evolution of a wide range of open-system models at finite temperature. We study the feasibility of this approach with a focus on the solution of the spin-boson model and assume intrinsic qubit noise that is dominated by damping and dephasing. We find that classes of open quantum systems exist where the algorithm performs very well, even with gate errors as high as 1%. In general the quantum algorithm performs best if the system-bath interactions can be decomposed into native gates.
翻訳日:2023-01-18 19:28:08 公開日:2022-10-21
# squidを伴わないジョセフソン接合アレイのインダクタンスチューニング

Tuning the inductance of Josephson junction arrays without SQUIDs ( http://arxiv.org/abs/2210.12119v1 )

ライセンス: Link先を確認
Roman Kuzmin, Nitish Mehta, Nicholas Grabon, Vladimir E. Manucharyan(参考訳) 磁場可変インダクタの実装には超伝導量子干渉デバイス(SQUID)のアレイを使用するのが一般的である。 ここでは、単一Al/AlOx/Al Josephsonトンネル接合の(SQUIDのない)配列に等価なチューニング性を示す。 接合形状の適切な選択により、垂直に印加された磁場は超伝導体平面に沿って屈曲し、磁化効果によりトンネルバリア領域に集中する。 これにより、Fraunhoffer型超電流干渉によりジョセフソンインダクタンスを効率的に変調することができる。 SQUIDの除去はデバイスの設計と製造を単純化するだけでなく、ジャンクションの密充填を促進し、したがってユニット長あたりのインダクタンスも高くなる。 一例として、抵抗量子$h/(2e)^2 \approx 6.5~\textrm{k}\Omega$の重要な値を中心に、4-8~\textrm{k}\Omega$の範囲でフィールド調整される伝送線路を示す。

It is customary to use arrays of superconducting quantum interference devices (SQUIDs) for implementing magnetic field-tunable inductors. Here, we demonstrate an equivalent tunability in a (SQUID-free) array of single Al/AlOx/Al Josephson tunnel junctions. With the proper choice of junction geometry, a perpendicularly applied magnetic field bends along the plane of the superconductor and focuses into the tunnel barrier region due to a demagnetization effect. Consequently, the Josephson inductance can be efficiently modulated by the Fraunhoffer-type supercurrent interference. The elimination of SQUIDs not only simplifies the device design and fabrication, but also facilitates a denser packing of junctions and, hence, a higher inductance per unit length. As an example, we demonstrate a transmission line, the wave impedance of which is field-tuned in the range of $4-8~\textrm{k}\Omega$, centered around the important value of the resistance quantum $h/(2e)^2 \approx 6.5~\textrm{k}\Omega$.
翻訳日:2023-01-18 19:27:08 公開日:2022-10-21
# 3次元コヒーレント光2光子共鳴断層撮影

Coherent optical two-photon resonance tomographic imaging in three dimensions ( http://arxiv.org/abs/2210.12110v1 )

ライセンス: Link先を確認
Mateusz Mazelanik, Adam Leszczy\'nski, Tomasz Szawe{\l}{\l}o, Micha{\l} Parniak(参考訳) 三次元イメージングは、物体の非侵襲的な検査を可能にする現代科学の重要な道具の1つである。 本稿では,原子アンサンブルに格納されたコヒーレンスの3次元構造を再構成する手法を提案する。 本手法は,コヒーレンスの複雑な3次元形状を,アンサンブルから放射される光の単一の測定値で再構成できる時間・空間分解ヘテロダイン測定に依存する。 トモグラフィ技術は,様々な原子ベースの量子情報プロトコルのためのロバストな診断ツールを提供し,三次元磁気計測,電磁気計測,電磁場のイメージングに応用できる。

Three-dimensional imaging is one of the crucial tools of modern sciences, that allows non-invasive inspection of physical objects. We propose and demonstrate a method to reconstruct a three-dimensional structure of coherence stored in an atomic ensemble. Our method relies on time-and-space resolved heterodyne measurement that allows the reconstruction of a complex three-dimensional profile of the coherence with a single measurement of the light emitted from the ensemble. Our tomographic technique provides a robust diagnostic tool for various atom-based quantum information protocols and could be applied to three-dimensional magnetometry, electrometry and imaging of electromagnetic fields.
翻訳日:2023-01-18 19:26:49 公開日:2022-10-21
# 半直線上の質量を持たないディラック場に対する絡み合いと負性ハミルトニアン

Entanglement and negativity Hamiltonians for the massless Dirac field on the half line ( http://arxiv.org/abs/2210.12109v1 )

ライセンス: Link先を確認
Federico Rottoli and Sara Murciano and Erik Tonni and Pasquale Calabrese(参考訳) 半直線上の無質量ディラックフェルミオンに対するいくつかの不連続区間の基底状態絡み合いハミルトニアンについて検討した。 その構造は局所的な部分と、各点を互いに間隔で互いに結合する双局所的な用語から成り立っている。 双局所作用素は、フェルミオン的キラル性において対角的あるいは混合的であり、境界条件に敏感である。 そのような絡み合いハミルトニアンの知識は、負性ハミルトニアン、すなわち混合状態における部分系の絡み合いの演算的特徴化である部分転置された還元密度行列の対数を評価するための出発点である。 負性ハミルトニアンが対応するエンタングルメントハミルトニアンの構造を継承していることが分かる。 両作用素の連続式が自由フェルミオン鎖の正確な数値計算からどのように回復できるかを示す。

We study the ground-state entanglement Hamiltonian of several disjoint intervals for the massless Dirac fermion on the half-line. Its structure consists of a local part and a bi-local term that couples each point to another one in each other interval. The bi-local operator can be either diagonal or mixed in the fermionic chiralities and it is sensitive to the boundary conditions. The knowledge of such entanglement Hamiltonian is the starting point to evaluate the negativity Hamiltonian, i.e. the logarithm of the partially transposed reduced density matrix, which is an operatorial characterisation of entanglement of subsystems in a mixed states. We find that the negativity Hamiltonian inherits the structure of the corresponding entanglement Hamiltonian. We finally show how the continuum expressions for both these operators can be recovered from exact numerical computations in free-fermion chains.
翻訳日:2023-01-18 19:26:38 公開日:2022-10-21
# 6gスライシングの量子化に向けて

Towards Quantum-Enabled 6G Slicing ( http://arxiv.org/abs/2212.11755v1 )

ライセンス: Link先を確認
Farhad Rezazadeh, Sarang Kahvazadeh, Mohammadreza Mosahebfard(参考訳) qml(quantum machine learning)パラダイムとそのネットワークスライシングとの相乗効果は、異なるサービス要件を満たすための、先進的なテナンシーベースのデジタルユースケースの形でモバイル通信システムが基盤となる第6世代(6g)への参入のカスプの破壊的な技術として想定できる。 ダイナミズムの増加、不均一性、データの量、トレーニング時間の拡張、スライスインスタンスのさまざまなセキュリティレベルなど、大規模なスライス処理の課題を克服するために、分散計算と学習を追求する量子コンピューティングのパワーは、有望な前提条件とみなすことができる。 本稿では,量子深層学習(QDRL)に基づくクラウドネイティブなフェデレーション学習フレームワークを提案する。このフレームワークでは,エッジでマイクロサービスとしてデプロイされた分散決定エージェントと,Kubernetesインフラストラクチャを介してクラウド上にデプロイされた上で,無線アクセスネットワーク(RAN)に動的に接続する。 具体的には、古典的深部強化学習(DRL)アルゴリズムを変分量子回路(VQC)に再成形し、スライス資源の最適協調制御を得る。 最初の数値計算結果から,FQDRL(Federated QDRL)方式はベンチマーク法と同等の性能を示し,パラメータ低減の量子的優位性を示す。 我々の知る限り、6G通信ネットワークにおけるFQDRLアプローチを考慮した最初の探索的研究である。

The quantum machine learning (QML) paradigms and their synergies with network slicing can be envisioned to be a disruptive technology on the cusp of entering to era of sixth-generation (6G), where the mobile communication systems are underpinned in the form of advanced tenancy-based digital use-cases to meet different service requirements. To overcome the challenges of massive slices such as handling the increased dynamism, heterogeneity, amount of data, extended training time, and variety of security levels for slice instances, the power of quantum computing pursuing a distributed computation and learning can be deemed as a promising prerequisite. In this intent, we propose a cloud-native federated learning framework based on quantum deep reinforcement learning (QDRL) where distributed decision agents deployed as micro-services at the edge and cloud through Kubernetes infrastructure then are connected dynamically to the radio access network (RAN). Specifically, the decision agents leverage the remold of classical deep reinforcement learning (DRL) algorithm into variational quantum circuits (VQCs) to obtain the optimal cooperative control on slice resources. The initial numerical results show that the proposed federated QDRL (FQDRL) scheme provides comparable performance than benchmark solutions and reveals the quantum advantage in parameter reduction. To the best of our knowledge, this is the first exploratory study considering an FQDRL approach for 6G communication network.
翻訳日:2023-01-18 19:19:19 公開日:2022-10-21
# ヒルベルト空間の定式化における量子状態は存在するか?

Is the Quantum State Real in the Hilbert Space Formulation? ( http://arxiv.org/abs/2210.13973v1 )

ライセンス: Link先を確認
Mani L. Bhaumik(参考訳) 量子状態の現実に関する絶え間ない議論は、量子情報と量子コンピューティングコミュニティの重要性から、最近軽視されている。 ほとんど全ての議論は、ジョン・フォン・ノイマンの独創的な貢献によって発展した量子力学のエレガントで強力だが抽象的なヒルベルト空間形式主義を用いて行われている。 抽象ベクトル空間における事象の直接的知覚を得ることは困難であるため、現象の進行を追跡することは困難である。 ヒルベルト空間における量子状態の現実を示す多くの最近の試みの中で、プシー=バレット=ルドルフ理論は、その証明について最も認識されている。 しかし、いくつかの仮定は批判されているが、完全に抜け穴のないものではないと考えられている。 単一粒子の波動パケット関数の現実性の直接的な証明は、現在認識されている普遍量子場の基本的な現実に基づいて、より早く発表された。 波のパケットを構成する原子エネルギー準位のような量子状態は、同じ実数であることが示されている。 ここでは、場の現実から引き離された量子状態の現実の曖昧な証明は、ヒルベルト空間における量子状態の現実の明示的なサブストラテレーションを与えることができることを示す。

The persistent debate about the reality of a quantum state has recently come under limelight because of its importance to quantum information and the quantum computing community. Almost all of the deliberations are taking place using the elegant and powerful but abstract Hilbert space formalism of quantum mechanics developed with seminal contributions from John von Neumann. Since it is rather difficult to get a direct perception of the events in an abstract vector space, it is hard to trace the progress of a phenomenon. Among the multitude of recent attempts to show the reality of the quantum state in Hilbert space, the Pusey-Barrett-Rudolph theory gets most recognition for their proof. But some of its assumptions have been criticized, which are still not considered to be entirely loophole free. A straightforward proof of the reality of the wave packet function of a single particle has been presented earlier based on the currently recognized fundamental reality of the universal quantum fields. Quantum states like the atomic energy levels comprising the wave packets have been shown to be just as real. Here we show that an unambiguous proof of reality of the quantum states gleaned from the reality of quantum fields can also provide an explicit substantiation of the reality of quantum states in Hilbert space.
翻訳日:2023-01-18 19:18:19 公開日:2022-10-21
# 多体固有状態熱化仮説の半古典的証明

Semiclassical proof of the many-body eigenstate thermalization hypothesis ( http://arxiv.org/abs/2210.13183v1 )

ライセンス: Link先を確認
Wen-ge Wang(参考訳) 数値シミュレーションによって様々なモデルで検証されたいわゆる固有状態熱化仮説(ETH)は、最終的な熱化を理解する方法を提供し、熱化の過程を理解する上で重要であると考えられている。 しかし、ETHの分析的証明はいまだに欠けている。 この手紙において、eth ansatz は、いわゆるベリー予想が適用可能な、ジェネリック多体量子カオス系における任意のサブシステムの任意の可観測性に対して証明される。 特に、半古典的表現は、eth ansatzの2つの未知の関数に対して導かれる。

The so-called eigenstate thermalization hypothesis (ETH), which has been tested in various models by numerical simulations, supplies a way of understanding eventual thermalization and is believed to be important for understanding processes of thermalization. However, an analytical proof of ETH is still lacking. In this Letter, the ETH ansatz is demonstrated for an arbitrary observable of an arbitrary subsystem in a generic many-body quantum chaotic system, to which the so-called Berry's conjecture is applicable. In particular, semiclassical expressions are derived for two unknown functions in the ETH ansatz.
翻訳日:2023-01-18 19:18:03 公開日:2022-10-21
# 反復ベイズ展開によるスケーラブルな測定誤差軽減

Scalable Measurement Error Mitigation via Iterative Bayesian Unfolding ( http://arxiv.org/abs/2210.12284v1 )

ライセンス: Link先を確認
Siddarth Srinivasan, Bibek Pokharel, Gregory Quiroz, Byron Boots(参考訳) 測定誤差軽減(MEM)技術は、量子コンピュータ(QC)において、系統的な読み出しエラーに対処するための後処理戦略である。 現在使用されているMEM戦略はトレードオフに直面している: 量子ビットの数でうまくスケールするメソッドは負の確率を返すが、有効な確率分布を保証するメソッドはスケーラブルではない。 本稿ではこれらの問題に対処するスキームを提案する。 特に,高エネルギー物理学実験で用いられる標準緩和手法である反復ベイズ展開のスケーラブルな実装を提案する。 我々は,グリーンベルガー・ホルン・ザイリンガー(GHZ)状態の実験調製から最大127キュービットまでのQCデータを緩和し,最大26キュービットのベルンシュタイン・ヴァジラニアルゴリズムを実装した。

Measurement error mitigation (MEM) techniques are postprocessing strategies to counteract systematic read-out errors on quantum computers (QC). Currently used MEM strategies face a tradeoff: methods that scale well with the number of qubits return negative probabilities, while those that guarantee a valid probability distribution are not scalable. Here, we present a scheme that addresses both of these issues. In particular, we present a scalable implementation of iterative Bayesian unfolding, a standard mitigation technique used in high-energy physics experiments. We demonstrate our method by mitigating QC data from experimental preparation of Greenberger-Horne-Zeilinger (GHZ) states up to 127 qubits and implementation of the Bernstein-Vazirani algorithm on up to 26 qubits.
翻訳日:2023-01-18 19:17:54 公開日:2022-10-21
# トポロジカルデータ解析による量子優位性を目指して

Towards quantum advantage via topological data analysis ( http://arxiv.org/abs/2005.02607v5 )

ライセンス: Link先を確認
Casper Gyurik, Chris Cade and Vedran Dunjko(参考訳) 数十年にわたる量子コンピューティング開発の後でも、古典的なアルゴリズムよりも指数的なスピードアップを持つ一般的な量子アルゴリズムの例は少ない。 線形代数型量子機械学習(QML)のための量子アルゴリズムの最近の進歩は、そのような有用な指数関数的改善の潜在的源である。 しかし、予期せぬ発展の中で、最近の一連の "dequantization" の結果は、いくつかのQMLアルゴリズムに対する指数的なスピードアップの約束を、同じように急速に取り除いた。 これは、他の線形代数的QMLアルゴリズムの指数的高速化が持続するかどうかという重要な問題を引き起こす。 本稿では,ロイド,ガーネロン,ザナルディの位相データ解析アルゴリズムの背後にある量子アルゴリズムを,このレンズを通して研究する。 このアルゴリズムによって解決された問題は、古典的なコンピュータでスーパーポリノミカル時間を必要とすると広く信じられている1つのクリーンな量子ビットモデルをシミュレートするのと同じくらい、自然な一般化が難しいことを示し、古典的に難解であることを示す。 この結果に基づき、ランク推定や複雑なネットワーク解析などの問題に対する新しい量子アルゴリズムと、それらの古典的難解性に関する複雑性理論的な証拠を提供する。 さらに,提案する量子アルゴリズムの短期的実装への適合性を解析する。 本研究は,量子コンピューティングのキラーアプリケーションの一つである線形代数qmlの可能性を回復し,古典的手法よりも指数関数的な高速化を保証した,本格的な制限付き量子コンピュータに有用な応用を数多く提供する。

Even after decades of quantum computing development, examples of generally useful quantum algorithms with exponential speedups over classical counterparts are scarce. Recent progress in quantum algorithms for linear-algebra positioned quantum machine learning (QML) as a potential source of such useful exponential improvements. Yet, in an unexpected development, a recent series of "dequantization" results has equally rapidly removed the promise of exponential speedups for several QML algorithms. This raises the critical question whether exponential speedups of other linear-algebraic QML algorithms persist. In this paper, we study the quantum-algorithmic methods behind the algorithm for topological data analysis of Lloyd, Garnerone and Zanardi through this lens. We provide evidence that the problem solved by this algorithm is classically intractable by showing that its natural generalization is as hard as simulating the one clean qubit model -- which is widely believed to require superpolynomial time on a classical computer -- and is thus very likely immune to dequantizations. Based on this result, we provide a number of new quantum algorithms for problems such as rank estimation and complex network analysis, along with complexity-theoretic evidence for their classical intractability. Furthermore, we analyze the suitability of the proposed quantum algorithms for near-term implementations. Our results provide a number of useful applications for full-blown, and restricted quantum computers with a guaranteed exponential speedup over classical methods, recovering some of the potential for linear-algebraic QML to become one of quantum computing's killer applications.
翻訳日:2022-12-06 06:33:45 公開日:2022-10-21
# マルチスケールパッチによるウェーブレット・スカグラム生成による時系列合成

Time Series Synthesis via Multi-scale Patch-based Generation of Wavelet Scalogram ( http://arxiv.org/abs/2211.02620v1 )

ライセンス: Link先を確認
Amir Kazemi, Hadi Meidani(参考訳) 低データレジームの場合の単一サンプルからの学習に基づく合成時系列の無条件生成のための枠組みを提案する。 本フレームワークは,単一画像生成モデルを用いて時系列のウェーブレットシンクログラフィーにおけるパッチの分布を把握し,合成時系列を生成するための現実的なウェーブレット係数を生成することを目的とする。 この枠組みは, 時系列の忠実性と多様性に関して有効であり, 傾向を示さないことが実証された。 また、同じ持続時間(リシャフリング)でサンプルを生成するには、より長いサンプル(リターゲティング)よりもパフォーマンスがより有望である。

A framework is proposed for the unconditional generation of synthetic time series based on learning from a single sample in low-data regime case. The framework aims at capturing the distribution of patches in wavelet scalogram of time series using single image generative models and producing realistic wavelet coefficients for the generation of synthetic time series. It is demonstrated that the framework is effective with respect to fidelity and diversity for time series with insignificant to no trends. Also, the performance is more promising for generating samples with the same duration (reshuffling) rather than longer ones (retargeting).
翻訳日:2022-11-13 23:56:17 公開日:2022-10-21
# 音声分析における微調整事前学習モデルのコントラストと非コントラストの併用

Combining Contrastive and Non-Contrastive Losses for Fine-Tuning Pretrained Models in Speech Analysis ( http://arxiv.org/abs/2211.01964v1 )

ライセンス: Link先を確認
Florian Lux, Ching-Yi Chen, Ngoc Thang Vu(参考訳) 感情的発話のようなドメインで利用可能なトレーニングデータはわずか数時間しかないため、パラ言語特性の埋め込みは難しい課題である。 この問題に対する一つの解決策は、大量のラベルなし音声に対して一般的な自己教師あり音声表現モデルを事前学習することである。 この事前訓練されたモデルは、特定のタスクに微調整される。 しかし、パラ言語特性は高いクラス分散を持つことで知られており、微調整は効果がない。 本稿では,これに対する2段階のアプローチを提案する。 まず、埋め込み空間を改善し、次に、埋め込み空間から分類タスクへのギャップを埋めるためにアダプタをトレーニングします。 クラス不変性を改善するために、クラス不変性を明示的に最適化するために、コントラスト損失と非一貫性損失の組み合わせを使う。 われわれのアプローチは、複数のタスクでエンドツーエンドに調整されたベースラインを一貫して上回り、最先端の感情分類のベンチマークを上回っている。

Embedding paralinguistic properties is a challenging task as there are only a few hours of training data available for domains such as emotional speech. One solution to this problem is to pretrain a general self-supervised speech representation model on large amounts of unlabeled speech. This pretrained model is then finetuned to a specific task. Paralinguistic properties however have notoriously high class variance, making the finetuning ineffective. In this work, we propose a two step approach to this. First we improve the embedding space, then we train an adapter to bridge the gap from the embedding space to a classification task. In order to improve the class invariance we use a combination of contrastive and non-contrastive losses to explicitly optimize for class invariant, yet discriminative features. Our approach consistently outperforms baselines that are finetuned end-to-end on multiple tasks and surpasses a benchmark on state-of-the-art emotion classification.
翻訳日:2022-11-06 15:07:05 公開日:2022-10-21
# レコメンダシステムにおけるラベル補正を用いたオンデバイスモデルファインチューニング

On-Device Model Fine-Tuning with Label Correction in Recommender Systems ( http://arxiv.org/abs/2211.01163v1 )

ライセンス: Link先を確認
Yucheng Ding, Chaoyue Niu, Fan Wu, Shaojie Tang, Chengfei Lyu, Guihai Chen(参考訳) オンラインインテリジェントサービスにおける低レイテンシ、低コスト、優れたプライバシの現実的な要件を満たすため、より多くのディープラーニングモデルがクラウドからモバイルデバイスにオフロードされる。 デバイス間のデータ不均一性に対処するためには、オフロードされたモデルは、リアルタイムの推論に入る前に、個々のユーザのローカルサンプルに微調整する必要がある。 本研究では,レコメンダシステムにおける基本クリックスルー率(ctr)予測タスクに着目し,デバイス上での微調整を効果的かつ効率的に行う方法について検討する。 まず、各ユーザのローカルCTR(例えば、微調整のためのローカルデータセットにおける正のサンプルの割合)がグローバルCTRから逸脱する傾向にあるボトルネック問題(すなわち、初期モデルをトレーニングするためにクラウド上のすべてのユーザの混合データセットにおける正のサンプルの割合)を特定する。 さらに、このようなCTRドリフト問題により、デバイス上での微調整がアイテムランキングに有害であることを示す。 そこで本研究では,各ユーザに対して,オンデバイスでの微調整に先立って,ローカルサンプルのラベルの変更のみを要求できる新しいラベル補正法を提案する。 3つのデータセットと5つのCTR予測モデルに対するオフライン評価結果と、Mobile TaobaoのオンラインA/Bテスト結果は、デバイス上の微調整においてラベル補正の必要性を示し、微調整なしでクラウドベースの学習の改善を明らかにする。

To meet the practical requirements of low latency, low cost, and good privacy in online intelligent services, more and more deep learning models are offloaded from the cloud to mobile devices. To further deal with cross-device data heterogeneity, the offloaded models normally need to be fine-tuned with each individual user's local samples before being put into real-time inference. In this work, we focus on the fundamental click-through rate (CTR) prediction task in recommender systems and study how to effectively and efficiently perform on-device fine-tuning. We first identify the bottleneck issue that each individual user's local CTR (i.e., the ratio of positive samples in the local dataset for fine-tuning) tends to deviate from the global CTR (i.e., the ratio of positive samples in all the users' mixed datasets on the cloud for training out the initial model). We further demonstrate that such a CTR drift problem makes on-device fine-tuning even harmful to item ranking. We thus propose a novel label correction method, which requires each user only to change the labels of the local samples ahead of on-device fine-tuning and can well align the locally prior CTR with the global CTR. The offline evaluation results over three datasets and five CTR prediction models as well as the online A/B testing results in Mobile Taobao demonstrate the necessity of label correction in on-device fine-tuning and also reveal the improvement over cloud-based learning without fine-tuning.
翻訳日:2022-11-06 15:06:08 公開日:2022-10-21
# 新型コロナウイルス(covid-19)の規制決定はどの程度公平だったか? 支配に基づく粗い集合を用いたイギリスにおけるデータ駆動型調査

How fair were COVID-19 restriction decisions? A data-driven investigation of England using the dominance-based rough sets approach ( http://arxiv.org/abs/2211.00056v1 )

ライセンス: Link先を確認
Edward Abel and Sajid Siraj(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、いくつかの国は、透明性の欠如により議論の的となっている縛り付き制限のアプローチを取ってきた。 支配に基づくラフセット手法を用いて、英国政府の規制緩和システムに関連する新型コロナウイルスデータのパターンを特定する。 これらの分析からの洞察は"if-then"タイプのルールに翻訳され、政策立案者によって容易に解釈できる。 異なる地理的領域から抽出された規則の違いは、これらの領域における層配置の不整合を示唆する。 この違いは、イングランドの全体的な北の分断を悪化させたが、この分断は主にロンドンによって推進された。 本研究は,covid-19の規制に関する意思決定の公平性と説明可能性を検討する上で,優越性に基づくラフセット手法の有用性を実証する。 提案されたアプローチと分析は、ローカライズされた公衆衛生規制に対してより透過的なアプローチを提供し、公共の安全規則への適合性を高めるのに役立つ。

During the COVID-19 pandemic, several countries have taken the approach of tiered restrictions which has remained a point of debate due to a lack of transparency. Using the dominance-based rough set approach, we identify patterns in the COVID-19 data pertaining to the UK government's tiered restrictions allocation system. These insights from the analysis are translated into "if-then" type rules, which can easily be interpreted by policy makers. The differences in the rules extracted from different geographical areas suggest inconsistencies in the allocations of tiers in these areas. We found that the differences delineated an overall north south divide in England, however, this divide was driven mostly by London. Based on our analysis, we demonstrate the usefulness of the dominance-based rough sets approach for investigating the fairness and explainabilty of decision making regarding COVID-19 restrictions. The proposed approach and analysis could provide a more transparent approach to localised public health restrictions, which can help ensure greater conformity to the public safety rules.
翻訳日:2022-11-06 15:05:03 公開日:2022-10-21
# 土地利用・交通相互作用モデルを用いた手続き型都市生成へのエージェントベースアプローチ

An agent-based approach to procedural city generation incorporating Land Use and Transport Interaction models ( http://arxiv.org/abs/2211.01959v1 )

ライセンス: Link先を確認
Luiz Fernando Silva Eug\^enio dos Santos, Claus Aranha, Andr\'e Ponce de Leon F de Carvalho(参考訳) 土地利用・交通相互作用モデル(luti)モデルによって確立された都市環境の知識を応用し,現実的な人工都市を計画できるエージェントベースのシステムに対する報奨機能を開発する。 このシステムは、道路網におけるゾーニングやアクセシビリティなど、実際の集落の主要な構成要素をマイクロスケールで再現することを目指している。 さらに,道路グラフと土地の離散モデルとを効率的に結合するエージェント環境の新しい表現法を提案する。 我々のシステムは道路網グラフのみからなる空の地図から始まり、エージェントは住宅地、商業地、工業地、レクリエーションの土地利用を区別しながら、新しい場所を構築して徐々に拡張する。

We apply the knowledge of urban settings established with the study of Land Use and Transport Interaction (LUTI) models to develop reward functions for an agent-based system capable of planning realistic artificial cities. The system aims to replicate in the micro scale the main components of real settlements, such as zoning and accessibility in a road network. Moreover, we propose a novel representation for the agent's environment that efficiently combines the road graph with a discrete model for the land. Our system starts from an empty map consisting only of the road network graph, and the agent incrementally expands it by building new sites while distinguishing land uses between residential, commercial, industrial, and recreational.
翻訳日:2022-11-06 15:04:20 公開日:2022-10-21
# Gappy POD, Extended POD, Generative Adversarial Networks を用いた乱流データ再構成

Data reconstruction of turbulent flows with Gappy POD, Extended POD and Generative Adversarial Networks ( http://arxiv.org/abs/2210.11921v1 )

ライセンス: Link先を確認
Tianyi Li, Michele Buzzicotti, Luca Biferale, Fabio Bonaccorso, Shiyi Chen and Minping Wan(参考訳) 回転下の乱流中の2次元瞬時速度場を再構成するために3つの方法が用いられる。 最初の2つの方法は、Gappy POD (GPOD) とExtended POD (EPOD) の2つの線形固有直交分解 (POD) を使い、3つ目の方法は、GAN (Generative Adversarial Network) に組み込まれた完全な非線形畳み込みニューラルネットワークを用いてフローを再構成する。 まず,次元減少を伴うGPODの特定のギャップに関して,常に最適なモード数が存在することを示す。 さらに、GPODにLasso正規化器を採用することで、同等の再構成結果が得られる。 3つのツールの適用性を体系的に比較するために,サイズ変更時の正方形ギャップを考える。 その結果,POD法と比較すると,GAN再構成の誤差は小さいだけでなく,速度モジュールと速度モジュール勾配の乱流統計の精度も向上した。 これは、ネットワークの非線形性表現の能力とganトレーニング中の逆損失の存在によって引き起こされる。 また,$l_2$誤差と統計特性との妥協を制御する逆比の効果についても検討した。 最後に,ランダムギャップの再構成を評価する。 全ての手法は小・中規模のギャップに対して良好に機能する一方、ギャップが大きくなるとGANはより良く機能する。

Three methods are used to reconstruct two-dimensional instantaneous velocity fields in a turbulent flow under rotation. The first two methods both use the linear proper orthogonal decomposition (POD), which are Gappy POD (GPOD) and Extended POD (EPOD), while the third one reconstructs the flow using a fully non-linear Convolutional Neural Network embedded in a Generative Adversarial Network (GAN). First, we show that there is always an optimal number of modes regarding a specific gap for the GPOD with dimension reduction. Moreover, adopting a Lasso regularizer for GPOD provides comparable reconstruction results. In order to systematically compare the applicability of the three tools, we consider a square gap at changing the size. Results show that compared with POD-based methods, GAN reconstruction not only has a smaller $L_2$ error, but also better turbulent statistics of both the velocity module and the velocity module gradient. This can be attributed to the ability of nonlinearity expression of the network and the presence of adversarial loss during the GAN training. We also investigate effects of the adversarial ratio, which controls the compromising between the $L_2$ error and the statistical properties. Finally, we assess the reconstruction on random gappiness. All methods perform well for small- and medium-size gaps, while GAN works better when the gappiness is large.
翻訳日:2022-10-30 11:54:29 公開日:2022-10-21
# 俺のモデルを盗んでるのか? フィンガープリント深部ニューラルネットワークのサンプル相関

Are You Stealing My Model? Sample Correlation for Fingerprinting Deep Neural Networks ( http://arxiv.org/abs/2210.15427v1 )

ライセンス: Link先を確認
Jiyang Guan, Jian Liang, Ran He(参考訳) 商用サービスとしての市販モデルは、モデル盗難攻撃によって盗まれ、モデル所有者の権利に大きな脅威をもたらす可能性がある。 model fingerprintingは、容疑者モデルが被害者モデルから盗まれているかどうかを検証することを目的としている。 既往の方法は、常に、敵の防御や移動学習のシナリオに敏感なモデル指紋として、転送可能な敵の例を利用する。 そこで本研究では,試料間の対関係について検討し,サンプル相関(sac)に基づく新しい簡易モデル盗み検出法を提案する。 具体的には,正規サンプルをモデル入力として誤って分類し,それらのモデル出力の平均相関を計算するSAC-wを提案する。 トレーニング時間を短縮するために,サロゲートモデルのトレーニングや逆例の生成を必要とせず,モデル入力としてCutMix Augmentedサンプルを選択するSAC-mを開発する。 大規模な結果は、SACが敵のトレーニングや転送学習を含む様々なモデル盗難攻撃に対して成功し、異なるデータセットとモデルアーキテクチャをまたいだAUCで最高のパフォーマンスで盗難モデルを検出することを実証している。 コードはhttps://github.com/guanjiyang/sacで入手できる。

An off-the-shelf model as a commercial service could be stolen by model stealing attacks, posing great threats to the rights of the model owner. Model fingerprinting aims to verify whether a suspect model is stolen from the victim model, which gains more and more attention nowadays. Previous methods always leverage the transferable adversarial examples as the model fingerprint, which is sensitive to adversarial defense or transfer learning scenarios. To address this issue, we consider the pairwise relationship between samples instead and propose a novel yet simple model stealing detection method based on SAmple Correlation (SAC). Specifically, we present SAC-w that selects wrongly classified normal samples as model inputs and calculates the mean correlation among their model outputs. To reduce the training time, we further develop SAC-m that selects CutMix Augmented samples as model inputs, without the need for training the surrogate models or generating adversarial examples. Extensive results validate that SAC successfully defends against various model stealing attacks, even including adversarial training or transfer learning, and detects the stolen models with the best performance in terms of AUC across different datasets and model architectures. The codes are available at https://github.com/guanjiyang/SAC.
翻訳日:2022-10-30 11:53:23 公開日:2022-10-21
# 多層パーセプトロンを持つ点雲からの等相メッシュ生成

Isomorphic mesh generation from point clouds with multilayer perceptrons ( http://arxiv.org/abs/2210.14157v1 )

ライセンス: Link先を確認
Shoko Miyauchi, Ken'ichi Morooka, Ryo Kurazume(参考訳) 本稿では,ノイズや欠落部分を含む点群から同型メッシュを生成する,isomorphic mesh generator (img)と呼ばれる新しいニューラルネットワークを提案する。 任意の対象の同型メッシュは、異なるクラスに属するにもかかわらず、統一メッシュ構造を持つ。 この統一表現により、サーフェスモデルをDNNで処理できる。 さらに、同型メッシュの統一メッシュ構造は、すべての同型メッシュに同じプロセスを適用することを可能にするが、一般的なメッシュモデルの場合、メッシュ構造に依存するプロセスを考慮する必要がある。 したがって、同型メッシュの使用は、一般的なメッシュモデルと比較して効率的なメモリ使用量と計算時間をもたらす。 iMGはデータフリーの手法であるため、iMGの入力データとして使用される対象オブジェクトの点雲を除いて、事前のトレーニングデータとして任意の点雲を作成することは不要である。 さらに、iMGは、基準メッシュを所定の入力ポイントクラウドにマッピングした同型メッシュを出力する。 マッピング関数を安定して推定するために,ステップバイステップマッピング戦略を提案する。 この戦略は参照メッシュの構造を維持しながら柔軟な変形を実現する。 携帯電話を用いたシミュレーションと実験により,入力点雲にノイズや欠落部分が含まれている場合でも,iMGは対象物の異形メッシュを確実に生成できることを確認した。

We propose a new neural network, called isomorphic mesh generator (iMG), which generates isomorphic meshes from point clouds containing noise and missing parts. Isomorphic meshes of arbitrary objects have a unified mesh structure even though the objects belong to different classes. This unified representation enables surface models to be handled by DNNs. Moreover, the unified mesh structure of isomorphic meshes enables the same process to be applied to all isomorphic meshes; although in the case of general mesh models, we need to consider the processes depending on their mesh structures. Therefore, the use of isomorphic meshes leads to efficient memory usage and calculation time compared with general mesh models. As iMG is a data-free method, preparing any point clouds as training data in advance is unnecessary, except a point cloud of the target object used as the input data of iMG. Additionally, iMG outputs an isomorphic mesh obtained by mapping a reference mesh to a given input point cloud. To estimate the mapping function stably, we introduce a step-by-step mapping strategy. This strategy achieves a flexible deformation while maintaining the structure of the reference mesh. From simulation and experiments using a mobile phone, we confirmed that iMG can generate isomorphic meshes of given objects reliably even when the input point cloud includes noise and missing parts.
翻訳日:2022-10-26 15:15:12 公開日:2022-10-21
# MEEV:エゴセントリックビデオのボディメッシュ推定

MEEV: Body Mesh Estimation On Egocentric Video ( http://arxiv.org/abs/2210.14165v1 )

ライセンス: Link先を確認
Nicolas Monet and Dongyoon Wee(参考訳) 本稿では,ECCV 2022のEgoBody Challengeに提案したソリューションMEEVを紹介する。 ヘッドマウントデバイスからキャプチャーされたデータセットは、人間の体の形と対話する人々の動きで構成されている。 egobodyデータセットには、オクルードボディやぼやけた画像などの課題がある。 これらの課題を克服するため、MEEVは豊富な空間情報のためにマルチスケール機能を利用するように設計されている。 さらに、データセットの限られたサイズを克服するために、データセット集約2dおよび3dポーズ推定データセットを事前トレーニングする。 MEEV は MPJPE 82.30 と MPVPE 92.93 を達成し,ECCV 2022 で EgoBody Challenge を受賞し,提案手法の有効性を示した。 コードはhttps://github.com/clovaai/meevで入手できる。

This technical report introduces our solution, MEEV, proposed to the EgoBody Challenge at ECCV 2022. Captured from head-mounted devices, the dataset consists of human body shape and motion of interacting people. The EgoBody dataset has challenges such as occluded body or blurry image. In order to overcome the challenges, MEEV is designed to exploit multiscale features for rich spatial information. Besides, to overcome the limited size of dataset, the model is pre-trained with the dataset aggregated 2D and 3D pose estimation datasets. Achieving 82.30 for MPJPE and 92.93 for MPVPE, MEEV has won the EgoBody Challenge at ECCV 2022, which shows the effectiveness of the proposed method. The code is available at https://github.com/clovaai/meev
翻訳日:2022-10-26 15:14:52 公開日:2022-10-21
# 不確実性を伴う計画--モデルベース強化学習における深い探索

Planning with Uncertainty: Deep Exploration in Model-Based Reinforcement Learning ( http://arxiv.org/abs/2210.13455v1 )

ライセンス: Link先を確認
Yaniv Oren, Matthijs T. J. Spaan and Wendelin B\"ohmer(参考訳) 深層モデルに基づく強化学習(rl)は多くの課題領域において超人的性能を示している。 しかし、サンプル効率の低さと探査の制限は、この分野における主要な障害として残っている。 本稿では,計画木に認識的不確かさを取り入れ,価値学習による不確実性伝播の標準的なアプローチを回避し,モデルベースrlの深い探索を実証する。 我々は,この手法を,アートモデルに基づくRLアルゴリズム MuZero の状況で評価し,そのトレーニングプロセスを拡張して,明示的な探索軌道からの学習を安定化させる。 不確実性を考慮した計画実験では, 標準不確実性推定機構による効率的な深層探査が可能である。

Deep model-based Reinforcement Learning (RL) has shown super-human performance in many challenging domains. Low sample efficiency and limited exploration remain as leading obstacles in the field, however. In this paper, we demonstrate deep exploration in model-based RL by incorporating epistemic uncertainty into planning trees, circumventing the standard approach of propagating uncertainty through value learning. We evaluate this approach with the state of the art model-based RL algorithm MuZero, and extend its training process to stabilize learning from explicitly-exploratory trajectories. In our experiments planning with uncertainty is able to demonstrate effective deep exploration with standard uncertainty estimation mechanisms, and with it significant gains in sample efficiency.
翻訳日:2022-10-26 13:38:28 公開日:2022-10-21
# アクティブプローブと角膜反射を用いたビデオ会議におけるリアルタイムディープフェイクの検出

Detection of Real-time DeepFakes in Video Conferencing with Active Probing and Corneal Reflection ( http://arxiv.org/abs/2210.14153v1 )

ライセンス: Link先を確認
Hui Guo, Xin Wang, Siwei Lyu(参考訳) 新型コロナウイルスのパンデミックは近年、オンラインビデオ通話の普及につながっている。 しかし、ビデオ通話への依存度が高まることで、高度なリアルタイムのDeepFakesを使って詐欺師による新たな偽造攻撃の機会が生まれる。 リアルタイムのDeepFakesは、ビデオ通話中にリアルタイムで実行しなければならない検出方法に、新たな課題を提起する。 本稿では,リアルタイムのDeepFakeを検出するための新しい法医学的手法について述べる。 具体的には、画面上に異なるパターンを表示し、通話参加者の顔の画像から抽出した角膜反射を用いてビデオ通話を認証する。 このパターンは、共有画面に表示される呼び出し参加者によって引き起こされるか、ビデオ通話クライアントに直接統合される。 どちらの場合でも、特殊な撮像や照明ハードウェアは必要ない。 大規模シミュレーションにより,様々な実世界の画像シナリオにおいて,このアプローチの信頼性を評価する。

The COVID pandemic has led to the wide adoption of online video calls in recent years. However, the increasing reliance on video calls provides opportunities for new impersonation attacks by fraudsters using the advanced real-time DeepFakes. Real-time DeepFakes pose new challenges to detection methods, which have to run in real-time as a video call is ongoing. In this paper, we describe a new active forensic method to detect real-time DeepFakes. Specifically, we authenticate video calls by displaying a distinct pattern on the screen and using the corneal reflection extracted from the images of the call participant's face. This pattern can be induced by a call participant displaying on a shared screen or directly integrated into the video-call client. In either case, no specialized imaging or lighting hardware is required. Through large-scale simulations, we evaluate the reliability of this approach under a range in a variety of real-world imaging scenarios.
翻訳日:2022-10-26 13:29:25 公開日:2022-10-21
# 総最小二乗法による単眼ポーズ推定の誤差共分散解析

Error-Covariance Analysis of Monocular Pose Estimation Using Total Least Squares ( http://arxiv.org/abs/2210.12157v1 )

ライセンス: Link先を確認
Saeed Maleki, John Crassidis, Yang Cheng, Matthias Schmid(参考訳) 本研究は, 最小二乗を用いた単分子ポーズ推定問題の理論的構造を示す。 単眼カメラ画像から特徴の単位ベクトルラインオブアイ観察を抽出する。 まず,カメラ中心からのユニットベクトルから抽出した観察ベクトルを画像特徴に向け,ポーズ推定問題に対して最適化フレームワークを定式化する。 導出最適化フレームワークにより得られた姿勢と位置の解は, 姿勢誤差の小さい角度近似の下で, cram\'er-rao 下界に到達できることが証明された。 具体的には、フィッシャー情報行列とクレーダラオ境界を評価し、誤差共分散式の解析的導出と比較し、推定の最適性を厳密に証明する。 計測モデルのセンサデータは一連のベクトル観測により提供され、本体および基準観測データに対して2つの完全人口型ノイズ共分散行列が仮定される。 以前の行列の逆は、コスト関数における一連の重み行列の観点で現れる。 提案手法は1万サンプルのモンテカルロ・フレームワークでシミュレートし,誤差共分散解析を検証した。

This study presents a theoretical structure for the monocular pose estimation problem using the total least squares. The unit-vector line-of-sight observations of the features are extracted from the monocular camera images. First, the optimization framework is formulated for the pose estimation problem with observation vectors extracted from unit vectors from the camera center-of-projection, pointing towards the image features. The attitude and position solutions obtained via the derived optimization framework are proven to reach the Cram\'er-Rao lower bound under the small angle approximation of the attitude errors. Specifically, The Fisher Information Matrix and the Cram\'er-Rao bounds are evaluated and compared to the analytical derivations of the error-covariance expressions to rigorously prove the optimality of the estimates. The sensor data for the measurement model is provided through a series of vector observations, and two fully populated noise-covariance matrices are assumed for the body and reference observation data. The inverse of the former matrices appear in terms of a series of weight matrices in the cost function. The proposed solution is simulated in a Monte-Carlo framework with 10,000 samples to validate the error-covariance analysis.
翻訳日:2022-10-25 21:54:50 公開日:2022-10-21
# 周辺力学微分作用素を用いた偏微分方程式解法のための教師なし潜在/出力物理学インフォームド畳み込み-LSTMネットワーク

An unsupervised latent/output physics-informed convolutional-LSTM network for solving partial differential equations using peridynamic differential operator ( http://arxiv.org/abs/2210.12177v1 )

ライセンス: Link先を確認
A. Mavi, A.C. Bekar, E. Haghighat, E. Madenci(参考訳) 本研究では,部分微分方程式(PDE)を解くために非局所的相互作用を持つ非教師付き畳み込みニューラルネットワーク(NN)アーキテクチャを提案する。 非局所ペリダイナミック微分演算子(PDDO)は、フィールド変数の微分を評価するための畳み込みフィルタとして用いられる。 NNは、エンコーダ・デコーダ層とConvLSTM(Convolutional Long-Short Term Memory)層を挟んで、小さな潜在空間の時間力学をキャプチャする。 ConvLSTMアーキテクチャは、周期的な振る舞いを持つ物理学の学習アーキテクチャの予測能力を改善するために、新しいアクティベーション関数を用いて修正される。 物理学は、NNの出力と潜在(還元)空間における支配方程式の形で呼び出される。 数個のベンチマークPDEを考慮し、この新しいNNアーキテクチャのトレーニング性能と外挿能力について、PNN(Physical Informed Neural Networks)型解法と比較した。 他の既存のアーキテクチャよりも、将来のタイムステップのソリューションを外挿することができる。

This study presents a novel unsupervised convolutional Neural Network (NN) architecture with nonlocal interactions for solving Partial Differential Equations (PDEs). The nonlocal Peridynamic Differential Operator (PDDO) is employed as a convolutional filter for evaluating derivatives the field variable. The NN captures the time-dynamics in smaller latent space through encoder-decoder layers with a Convolutional Long-short Term Memory (ConvLSTM) layer between them. The ConvLSTM architecture is modified by employing a novel activation function to improve the predictive capability of the learning architecture for physics with periodic behavior. The physics is invoked in the form of governing equations at the output of the NN and in the latent (reduced) space. By considering a few benchmark PDEs, we demonstrate the training performance and extrapolation capability of this novel NN architecture by comparing against Physics Informed Neural Networks (PINN) type solvers. It is more capable of extrapolating the solution for future timesteps than the other existing architectures.
翻訳日:2022-10-25 21:53:17 公開日:2022-10-21
# graphnet:ニュートリノ望遠鏡イベントレコンストラクションのためのグラフニューラルネットワーク

GraphNeT: Graph neural networks for neutrino telescope event reconstruction ( http://arxiv.org/abs/2210.12194v1 )

ライセンス: Link先を確認
Andreas S{\o}gaard, Rasmus F. {\O}rs{\o}e, Leon Bozianu, Morten Holm, Kaare Endrup Iversen, Tim Guggenmos, Martin Ha Minh, Philipp Eller and Troels C. Petersen(参考訳) graphnetは、ニュートリノ望遠鏡でグラフニューラルネットワーク(gnns)を使用して再構築タスクを実行するための、高品質でユーザフレンドリーなエンドツーエンド機能を提供する、オープンソースのpythonフレームワークである。 GraphNeTは、任意の検出器構成のために、最先端のパフォーマンスでイベント再構成を提供する複雑なモデルを、従来の再構築技術よりも桁違いに高速な推論時間で、迅速かつ容易に訓練することができる。 GraphNeTのGNNは、アイスキューブ拡張やP-ONEのような将来のプロジェクトを含む全てのニュートリノ望遠鏡のデータに適用できるほど柔軟である。 これは、GNNベースの再構成が、ニュートリノ望遠鏡のほとんどの再建作業、リアルタイムの事象率、実験や物理分析、ニュートリノや天体物理学に大きな影響を与える可能性があることの証明に使用されることを意味する。

GraphNeT is an open-source python framework aimed at providing high quality, user friendly, end-to-end functionality to perform reconstruction tasks at neutrino telescopes using graph neural networks (GNNs). GraphNeT makes it fast and easy to train complex models that can provide event reconstruction with state-of-the-art performance, for arbitrary detector configurations, with inference times that are orders of magnitude faster than traditional reconstruction techniques. GNNs from GraphNeT are flexible enough to be applied to data from all neutrino telescopes, including future projects such as IceCube extensions or P-ONE. This means that GNN-based reconstruction can be used to provide state-of-the-art performance on most reconstruction tasks in neutrino telescopes, at real-time event rates, across experiments and physics analyses, with vast potential impact for neutrino and astro-particle physics.
翻訳日:2022-10-25 21:53:00 公開日:2022-10-21
# コード検索のための表現レベル拡張の探索

Exploring Representation-Level Augmentation for Code Search ( http://arxiv.org/abs/2210.12285v1 )

ライセンス: Link先を確認
Haochen Li, Chunyan Miao, Cyril Leung, Yanxian Huang, Yuan Huang, Hongyu Zhang, Yanlin Wang(参考訳) 自然言語クエリの最も関連性の高いコードフラグメントを取得することを目的としたコード検索は、ソフトウェア開発の実践において一般的な活動である。 近年、対照的な学習は、コード検索研究において広く使われており、ソースコードに対する多くのデータ拡張アプローチ(例えば、意味保存プログラム変換)がより良い表現を学ぶために提案されている。 しかし、これらの拡張は生データレベルであり、前処理段階ではコード解析を追加し、トレーニング段階では追加のトレーニングコストを必要とする。 本稿では,データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリ)を増強する拡張手法について検討し,既存の手法を統一する表現レベル拡張の汎用形式を提案する。 そこで本研究では,汎用形式に基づく3つの拡張手法(線形補間,バイナリ補間,ガウススケーリング)を提案する。 さらに,コード検索における従来のコントラスト学習手法に比べて,提案手法の利点を理論的に分析する。 6つのプログラミング言語からなる大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。 実験の結果,本手法は,検討したコード検索モデルの性能を一貫して向上させることができることがわかった。 ソースコードはhttps://github.com/alex-haochenli/racsで入手できます。

Code search, which aims at retrieving the most relevant code fragment for a given natural language query, is a common activity in software development practice. Recently, contrastive learning is widely used in code search research, where many data augmentation approaches for source code (e.g., semantic-preserving program transformation) are proposed to learn better representations. However, these augmentations are at the raw-data level, which requires additional code analysis in the preprocessing stage and additional training costs in the training stage. In this paper, we explore augmentation methods that augment data (both code and query) at representation level which does not require additional data processing and training, and based on this we propose a general format of representation-level augmentation that unifies existing methods. Then, we propose three new augmentation methods (linear extrapolation, binary interpolation, and Gaussian scaling) based on the general format. Furthermore, we theoretically analyze the advantages of the proposed augmentation methods over traditional contrastive learning methods on code search. We experimentally evaluate the proposed representation-level augmentation methods with state-of-the-art code search models on a large-scale public dataset consisting of six programming languages. The experimental results show that our approach can consistently boost the performance of the studied code search models. Our source code is available at https://github.com/Alex-HaochenLi/RACS.
翻訳日:2022-10-25 21:52:42 公開日:2022-10-21
# 複雑なデータシステム構築における課題のナビゲート:開発哲学

Navigating the challenges in creating complex data systems: a development philosophy ( http://arxiv.org/abs/2210.13191v1 )

ライセンス: Link先を確認
S\"oren Dittmer, Michael Roberts, Julian Gilbey, Ander Biguri, AIX-COVNET Collaboration, Jacobus Preller, James H.F. Rudd, John A.D. Aston, Carola-Bibiane Sch\"onlieb(参考訳) この観点では、過去10年間のデータサイエンスと機械学習のための強力なツールの民主化にもかかわらず、信頼できる効果的なデータサイエンスシステム(dss)のためのコードの開発が難しくなっていると論じている。 逆のインセンティブと広範なソフトウェアエンジニアリング(SE)スキルの欠如は、DSSの再現性における現在のシステム的危機を自然に引き起こす根本原因のひとつです。 SEと大規模複雑なシステムの構築が一般的に難しい理由を分析します。 これらの知見に基づいて、SEがこれらの困難にどのように対処するか、目的に適したDSSを構築するためにSEメソッドを適用し、一般化する方法を同定する。 私たちは2つの重要な開発哲学を提唱しています。つまり、dssを二分的に計画し、構築するのではなく、段階的に成長させ、開発中に常に2つのタイプのフィードバックループを採用すべきだということです。

In this perspective, we argue that despite the democratization of powerful tools for data science and machine learning over the last decade, developing the code for a trustworthy and effective data science system (DSS) is getting harder. Perverse incentives and a lack of widespread software engineering (SE) skills are among many root causes we identify that naturally give rise to the current systemic crisis in reproducibility of DSSs. We analyze why SE and building large complex systems is, in general, hard. Based on these insights, we identify how SE addresses those difficulties and how we can apply and generalize SE methods to construct DSSs that are fit for purpose. We advocate two key development philosophies, namely that one should incrementally grow -- not biphasically plan and build -- DSSs, and one should always employ two types of feedback loops during development: one which tests the code's correctness and another that evaluates the code's efficacy.
翻訳日:2022-10-25 21:43:49 公開日:2022-10-21
# Haplotype Assembly と Viral Quasispecies 再構成のためのニューラルネットワークによるグラフカラー化

Graph Coloring via Neural Networks for Haplotype Assembly and Viral Quasispecies Reconstruction ( http://arxiv.org/abs/2210.12158v1 )

ライセンス: Link先を確認
Hansheng Xue, Vaibhav Rajan, Yu Lin(参考訳) 生物における遺伝的変異を理解することは、環境や人間の健康への影響を解明するために重要である。 ハプロタイプアセンブリー問題(haplotype assembly problem)は、染色体の複数のコピーにまたがる変異をもたらす。 異なる株(準種と呼ばれる)につながる高速に進化するウイルスの変異もまた、同様のアプローチで解読される。 どちらの場合も、ゲノムの大きなノイズフラグメント(読み取り)のオーバーサンプリング混合物を提供する高スループットシークエンシング技術は、構成成分(ハプロタイプまたは準種)を推論するために用いられる。 この問題は、染色体のコピーが2つ以上ある多倍体種にとって難しい。 このNPハード問題を解決する最先端のニューラルアプローチは、入力信号の逆転に重要なリード間の関係を適切にモデル化しない。 我々はグラフ表現学習と組合せ最適化を組み合わせたNeurHapと呼ばれる新しい手法を開発することでこの問題に対処する。 実データおよび合成データセットにおけるNeurHapの性能は,競合するアプローチと比較して有意に向上した。

Understanding genetic variation, e.g., through mutations, in organisms is crucial to unravel their effects on the environment and human health. A fundamental characterization can be obtained by solving the haplotype assembly problem, which yields the variation across multiple copies of chromosomes. Variations among fast evolving viruses that lead to different strains (called quasispecies) are also deciphered with similar approaches. In both these cases, high-throughput sequencing technologies that provide oversampled mixtures of large noisy fragments (reads) of genomes, are used to infer constituent components (haplotypes or quasispecies). The problem is harder for polyploid species where there are more than two copies of chromosomes. State-of-the-art neural approaches to solve this NP-hard problem do not adequately model relations among the reads that are important for deconvolving the input signal. We address this problem by developing a new method, called NeurHap, that combines graph representation learning with combinatorial optimization. Our experiments demonstrate substantially better performance of NeurHap in real and synthetic datasets compared to competing approaches.
翻訳日:2022-10-25 21:28:57 公開日:2022-10-21
# ニューラルネットワークのタスクベース評価:人間の観察信号検出に基づくmri再構成の評価

Task-Based Assessment for Neural Networks: Evaluating Undersampled MRI Reconstructions based on Human Observer Signal Detection ( http://arxiv.org/abs/2210.12161v1 )

ライセンス: Link先を確認
Joshua D. Herman (1), Rachel E. Roca (1), Alexandra G. O'Neill (1), Marcus L. Wong (1), Sajan G. Lingala (2), Angel R. Pineda (1) ((1) Mathematics Department, Manhattan College, NY, (2) Roy J. Carver Department of Biomedical Engineering, University of Iowa, Iowa City)(参考訳) 近年,mri(undersampled magnetic resonance imaging)データをニューラルネットワークを用いて再構成する研究が行われている。 再構成された画像におけるアーティファクトの複雑さのため、画像品質のタスクベースアプローチを開発する必要がある。 正規化ルート平均二乗誤差(NRMSE)や構造類似度(SSIM)などの画像品質を評価するための一般的な指標は、画像の微妙な特徴の影響を平均化するグローバルな指標である。 特定のタスクに微妙な信号を含む画像品質の測定値を使用することで、信号に対するアンダーサンプリングの効果を局所的に評価する画質評価が可能になる。 U-Netを用いて2x, 3x, 4x, 5x fold 1-Dアンダーサンプリングレートでアンダーサンプル画像の再構成を行った。 構造的類似性(SSIM)と平均二乗誤差(MSE)の両方を伴い,500と4000の画像トレーニングセットの交差検証を行った。 4000画像トレーニングセットを用いた画像から微妙な信号(小さなぼやけたディスク)を検出するため,2種類の強制選択(2-afc)オブザーバ実験を行った。 その結果、損失関数とトレーニングセットサイズの両方において、2-AFC研究における人間の観察者性能は2倍アンダーサンプリングを選択したが、SSIMとNRMSEは3倍アンダーサンプリングを選択した。 このために、SSIMとNRMSEは、微妙な病変の検出における人間の観察者のパフォーマンスと比較して、画像品質の急激な低下の前にU-Netを用いた達成可能なアンダーサンプリングを過大評価した。

Recent research has explored using neural networks to reconstruct undersampled magnetic resonance imaging (MRI) data. Because of the complexity of the artifacts in the reconstructed images, there is a need to develop task-based approaches of image quality. Common metrics for evaluating image quality like the normalized root mean squared error (NRMSE) and structural similarity (SSIM) are global metrics which average out impact of subtle features in the images. Using measures of image quality which incorporate a subtle signal for a specific task allow for image quality assessment which locally evaluates the effect of undersampling on a signal. We used a U-Net to reconstruct under-sampled images with 2x, 3x, 4x and 5x fold 1-D undersampling rates. Cross validation was performed for a 500 and a 4000 image training set with both structural similarity (SSIM) and mean squared error (MSE) losses. A two alternative forced choice (2-AFC) observer study was carried out for detecting a subtle signal (small blurred disk) from images with the 4000 image training set. We found that for both loss functions and training set sizes, the human observer performance on the 2-AFC studies led to a choice of a 2x undersampling but the SSIM and NRMSE led to a choice of a 3x undersampling. For this task, SSIM and NRMSE led to an overestimate of the achievable undersampling using a U-Net before a steep loss of image quality when compared to the performance of human observers in the detection of a subtle lesion.
翻訳日:2022-10-25 21:28:39 公開日:2022-10-21
# automlのダークサイド:アーキテクチャのバックドア検索に向けて

The Dark Side of AutoML: Towards Architectural Backdoor Search ( http://arxiv.org/abs/2210.12179v1 )

ライセンス: Link先を確認
Ren Pang, Changjiang Li, Zhaohan Xi, Shouling Ji, Ting Wang(参考訳) ニューラル・アーキテクチャ・サーチ(nas)を新たな攻撃ベクトルとして活用して、これまで不可能だった攻撃を発射することは可能か? 具体的には、nasを利用して固有のバックドアを持つニューラルネットワークを見つけ、入力認識トリガーを使ってそのような脆弱性を悪用する新しい攻撃であるevasを紹介します。 既存の攻撃と比較すると、EVASは多くの興味深い特性を示しています。 (i) 受粉訓練データやモデルパラメータの摂動を必要としない。 (ii)下流の微調整や、スクラッチから再訓練することと無関係である。 (iii)モデルパラメータの検査やトレーニングデータに依存する防御を自然に回避する。 ベンチマークデータセットを広範囲に評価することにより、EVASは高い回避性、転送性、堅牢性を特徴とし、敵の設計スペクトルを拡大することを示す。 我々は,EVASの基盤となるメカニズムを,トリガパターンを認識するアーキテクチャレベルの ``shortcuts'' によって説明することができる。 この研究は、NASの現在の実践に対する懸念を高め、効果的な対策を開発するための潜在的方向性を示す。

This paper asks the intriguing question: is it possible to exploit neural architecture search (NAS) as a new attack vector to launch previously improbable attacks? Specifically, we present EVAS, a new attack that leverages NAS to find neural architectures with inherent backdoors and exploits such vulnerability using input-aware triggers. Compared with existing attacks, EVAS demonstrates many interesting properties: (i) it does not require polluting training data or perturbing model parameters; (ii) it is agnostic to downstream fine-tuning or even re-training from scratch; (iii) it naturally evades defenses that rely on inspecting model parameters or training data. With extensive evaluation on benchmark datasets, we show that EVAS features high evasiveness, transferability, and robustness, thereby expanding the adversary's design spectrum. We further characterize the mechanisms underlying EVAS, which are possibly explainable by architecture-level ``shortcuts'' that recognize trigger patterns. This work raises concerns about the current practice of NAS and points to potential directions to develop effective countermeasures.
翻訳日:2022-10-25 21:28:06 公開日:2022-10-21
# 臨床機械学習モデルにおける不確かさの可視化に関する考察

Considerations for Visualizing Uncertainty in Clinical Machine Learning Models ( http://arxiv.org/abs/2210.12220v1 )

ライセンス: Link先を確認
Caitlin F. Harrigan, Gabriela Morgenshtern, Anna Goldenberg, Fanny Chevalier(参考訳) 臨床医による予測モデルが医療現場でますます存在感を増している。 パフォーマンスメトリクスが成功しても、すべてのモデルに不確実性があります。 我々は,この環境における不確実性を行動可能で信頼できる方法で視覚的に伝達する方法を検討する。 この目的のために,心臓科臨床医との質的研究を行った。 以上の結果から,臨床医の信頼は,不確実性の程度ではなく,不確実性源の可視化の透明性に最も影響している可能性が示唆された。 以上の結果から,特徴解釈可能性と臨床動作性との関連が明らかとなった。

Clinician-facing predictive models are increasingly present in the healthcare setting. Regardless of their success with respect to performance metrics, all models have uncertainty. We investigate how to visually communicate uncertainty in this setting in an actionable, trustworthy way. To this end, we conduct a qualitative study with cardiac critical care clinicians. Our results reveal that clinician trust may be impacted most not by the degree of uncertainty, but rather by how transparent the visualization of what the sources of uncertainty are. Our results show a clear connection between feature interpretability and clinical actionability.
翻訳日:2022-10-25 21:27:50 公開日:2022-10-21
# DL-Corrector-Remapper:データ駆動高解像度世界天気予報のためのグリッドフリーバイアス補正深層学習手法

DL-Corrector-Remapper: A grid-free bias-correction deep learning methodology for data-driven high-resolution global weather forecasting ( http://arxiv.org/abs/2210.12293v1 )

ライセンス: Link先を確認
Tao Ge and Jaideep Pathak and Akshay Subramaniam and Karthik Kashinath(参考訳) FourCastNet(FCN)のようなデータ駆動モデルは、高解像度のグローバル気象予報において模範的な性能を示している。 しかし、この性能は、生の気候観測データ(金標準地上真実)を使わずにメッシュグリッドによる気象データの監視に基づいている。 本研究は,不均一で空間や時間に不均一な観測地真実と直接比較できるように,FCNの一様予測を補正し,再マップし,修正する手法を開発する。 これは、世界中の気象予報センターで定期的に行われる数値気象予報(NWP)のバイアス補正と後処理に似ている。 適応フーリエニューラルオペレータ(AFNO)アーキテクチャは、大気の連続的な表現を学習するためのバックボーンとして使用される。 空間的および時間的非一様出力は、出力クエリの場所を与えられた非一様離散逆フーリエ変換(nuidft)によって評価される。 このネットワークをDLCR(Deep-Learning-Corrector-Remapper)と呼ぶ。 ベースラインの性能に対する金の標準的真実に対するDLCRの性能改善は、観測の監督の下でメッシュグリッドの予測を正し、再マップし、微調整する可能性を示している。

Data-driven models, such as FourCastNet (FCN), have shown exemplary performance in high-resolution global weather forecasting. This performance, however, is based on supervision on mesh-gridded weather data without the utilization of raw climate observational data, the gold standard ground truth. In this work we develop a methodology to correct, remap, and fine-tune gridded uniform forecasts of FCN so it can be directly compared against observational ground truth, which is sparse and non-uniform in space and time. This is akin to bias correction and post-processing of numerical weather prediction (NWP), a routine operation at meteorological and weather forecasting centers across the globe. The Adaptive Fourier Neural Operator (AFNO) architecture is used as the backbone to learn continuous representations of the atmosphere. The spatially and temporally non-uniform output is evaluated by the non-uniform discrete inverse Fourier transform (NUIDFT) given the output query locations. We call this network the Deep-Learning-Corrector-Remapper (DLCR). The improvement in DLCR's performance against the gold standard ground truth over the baseline's performance shows its potential to correct, remap, and fine-tune the mesh-gridded forecasts under the supervision of observations.
翻訳日:2022-10-25 21:27:42 公開日:2022-10-21
# 変圧器と学習可能なリサイザによる高忠実度視覚構造検査

High-Fidelity Visual Structural Inspections through Transformers and Learnable Resizers ( http://arxiv.org/abs/2210.12175v1 )

ライセンス: Link先を確認
Kareem Eltouny, Seyedomid Sajedi, Xiao Liang(参考訳) 視覚検査は公共インフラの状態を評価するための主要な技術である。 無人航空機(UAV)と人工知能の最近の進歩により、視覚検査はより速く、より安全で、より信頼できるものになった。 カメラ付きuavは、人間の検査官のために大量の視覚データを収集することで、業界で新しい標準になりつつある。 一方、セマンティックセグメンテーションを含むディープラーニングアルゴリズムを用いた自律的な視覚検査に関する研究が盛んである。 UAVは建物のfa\c{c} の高解像度画像をキャプチャできるが、高解像度のセグメンテーションは高い計算メモリ要求のために非常に難しい。 通常、画像は局所的な細部を失う価格で一様に縮小される。 逆に、画像を複数の小さなパッチに分割すると、グローバルコンテキストのインフォーメーションが失われる可能性がある。 グローバルセマンティクスとローカルセマンティクスのトレードオフを管理することにより,異なるインスペクションタスクに適応可能なハイブリッド戦略を提案する。 本発明のフレームワークは、注目に基づくセグメンテーションモデルと学習可能なダウンサンプラーアップサンプラーモジュールとを備えた複合的で高解像度のディープラーニングアーキテクチャからなる。 このフレームワークは、縮小することなく高精度の学習を目的とした画像作物のグリッド上に視覚変換器を利用する。 拡張推論技術は、性能を高め、グリッドの刈り取りによるコンテキストの損失を再現するために用いられる。 クエーカーシティデータセットの3次元物理モデルを用いた総合的な実験が実施されている。 提案するフレームワークは,コンポーネントタイプ,コンポーネント損傷状態,大域損傷(ラック,リバー,スポーリング)の3つのセグメンテーションタスクの指標を用いて評価する。

Visual inspection is the predominant technique for evaluating the condition of civil infrastructure. The recent advances in unmanned aerial vehicles (UAVs) and artificial intelligence have made the visual inspections faster, safer, and more reliable. Camera-equipped UAVs are becoming the new standard in the industry by collecting massive amounts of visual data for human inspectors. Meanwhile, there has been significant research on autonomous visual inspections using deep learning algorithms, including semantic segmentation. While UAVs can capture high-resolution images of buildings' fa\c{c}ades, high-resolution segmentation is extremely challenging due to the high computational memory demands. Typically, images are uniformly downsized at the price of losing fine local details. Contrarily, breaking the images into multiple smaller patches can cause a loss of global contextual in-formation. We propose a hybrid strategy that can adapt to different inspections tasks by managing the global and local semantics trade-off. The framework comprises a compound, high-resolution deep learning architecture equipped with an attention-based segmentation model and learnable downsampler-upsampler modules designed for optimal efficiency and in-formation retention. The framework also utilizes vision transformers on a grid of image crops aiming for high precision learning without downsizing. An augmented inference technique is used to boost the performance and re-duce the possible loss of context due to grid cropping. Comprehensive experiments have been performed on 3D physics-based graphics models synthetic environments in the Quake City dataset. The proposed framework is evaluated using several metrics on three segmentation tasks: component type, component damage state, and global damage (crack, rebar, spalling).
翻訳日:2022-10-25 18:59:16 公開日:2022-10-21
# 合成コード切替テキスト生成によるバイリンガルニューラルトランスデューサの最適化

Optimizing Bilingual Neural Transducer with Synthetic Code-switching Text Generation ( http://arxiv.org/abs/2210.12214v1 )

ライセンス: Link先を確認
Thien Nguyen, Nathalie Tran, Liuhui Deng, Thiago Fraga da Silva, Matthew Radzihovsky, Roger Hsiao, Henry Mason, Stefan Braun, Erik McDermott, Dogan Can, Pawel Swietojanski, Lyan Verwimp, Sibel Oyman, Tresi Arvizo, Honza Silovsky, Arnab Ghoshal, Mathieu Martel, Bharat Ram Ambati and Mohamed Ali(参考訳) コードスイッチング(code-switching)とは、複数の言語を同じ文で使用するプラクティスである。 本研究では,ニューラルトランスデューサを用いたバイリンガル自動音声認識(asr)モデルをコードスイッチング音声に最適化する方法を検討する。 教師付きコードスイッチングデータなしでASRモデルを訓練するシナリオに着目し,半教師付きトレーニングと合成コードスイッチングデータにより,コードスイッチング音声におけるバイリンガルASRシステムが改善されることを発見した。 エンコーダ固有のリコール値を計測することにより,各エンコーダのエンコーダがコードスイッチング性能にどのように寄与するかを分析し,昇降データを用いた英語/中国語システムを評価する。 最後のシステムは、英語/中国語のコード切り換えテストセットの25%の混合エラー率(mer)を達成し、単言語テストセットの精度を保ちながら、merを以前の文献と比較して絶対的な2.1%削減した。

Code-switching describes the practice of using more than one language in the same sentence. In this study, we investigate how to optimize a neural transducer based bilingual automatic speech recognition (ASR) model for code-switching speech. Focusing on the scenario where the ASR model is trained without supervised code-switching data, we found that semi-supervised training and synthetic code-switched data can improve the bilingual ASR system on code-switching speech. We analyze how each of the neural transducer's encoders contributes towards code-switching performance by measuring encoder-specific recall values, and evaluate our English/Mandarin system on the ASCEND data set. Our final system achieves 25% mixed error rate (MER) on the ASCEND English/Mandarin code-switching test set -- reducing the MER by 2.1% absolute compared to the previous literature -- while maintaining good accuracy on the monolingual test sets.
翻訳日:2022-10-25 18:51:01 公開日:2022-10-21
# 低リソースマルチリンガルおよびゼロショットマルチスピーカtts

Low-Resource Multilingual and Zero-Shot Multispeaker TTS ( http://arxiv.org/abs/2210.12223v1 )

ライセンス: Link先を確認
Florian Lux, Julia Koch, Ngoc Thang Vu(参考訳) tts(text-to-speech)のニューラルメソッドは、ゼロショット設定でさえも、複数の話者をモデリングする上で大きな進歩を示しているが、これらのアプローチに必要なデータ量は、全世界の6,000以上の言語で一般的には実現不可能である。 本稿では,ゼロショット音声クローンと多言語低リソースttsの課題をまとめる。 言語依存型メタ学習(laml)の手順とttsエンコーダへの修正を用いることで,新たに学習した言語における未知の話者の声を推測する能力を保ちつつ,わずか5分間のトレーニングデータを用いて新たな言語を学習できることを示す。 提案手法の成功を,客観的な指標と人的学習を用いて,対象話者に対する知性,自然性,類似性の観点から示し,オープンソースでコードと訓練されたモデルを提供する。

While neural methods for text-to-speech (TTS) have shown great advances in modeling multiple speakers, even in zero-shot settings, the amount of data needed for those approaches is generally not feasible for the vast majority of the world's over 6,000 spoken languages. In this work, we bring together the tasks of zero-shot voice cloning and multilingual low-resource TTS. Using the language agnostic meta learning (LAML) procedure and modifications to a TTS encoder, we show that it is possible for a system to learn speaking a new language using just 5 minutes of training data while retaining the ability to infer the voice of even unseen speakers in the newly learned language. We show the success of our proposed approach in terms of intelligibility, naturalness and similarity to target speaker using objective metrics as well as human studies and provide our code and trained models open source.
翻訳日:2022-10-25 18:50:44 公開日:2022-10-21
# 運動政策ネットワーク

Motion Policy Networks ( http://arxiv.org/abs/2210.12209v1 )

ライセンス: Link先を確認
Adam Fishman, Adithyavairan Murali, Clemens Eppner, Bryan Peele, Byron Boots, Dieter Fox(参考訳) 未知環境における衝突のないモーション生成は、ロボット操作のコアビルディングブロックである。 このような動きの生成は、複数の目的のために困難であり、解決策が最適であるだけでなく、モーションジェネレータ自体がリアルタイムのパフォーマンスに十分早く、実用的な展開に十分な信頼性を持つ必要がある。 ローカルコントローラからグローバルプランナーまで、様々な方法が提案されており、しばしばそれらの欠点を相殺するために組み合わされる。 我々は,単一深度のカメラ観測から衝突のない滑らかな動きを生成するために,モーション・ポリシー・ネットワーク(m$\pi$nets)と呼ばれるエンドツーエンドのニューラルモデルを提案する。 M$\pi$Netsは、50万以上の環境で300万以上のモーションプランニング問題をトレーニングしている。 実験の結果,M$\pi$Netsはグローバルプランナーよりもはるかに高速であり,動的シーンに対処するために必要な反応性を示した。 従来の神経プランナーよりも46%優れ、局所的な制御ポリシーよりも堅牢である。 M$\pi$Netsはシミュレーションでしか訓練されていないが、ノイズのある部分点の雲を持つ本物のロボットにうまく移行する。 コードとデータはhttps://mpinets.github.ioで公開されている。

Collision-free motion generation in unknown environments is a core building block for robot manipulation. Generating such motions is challenging due to multiple objectives; not only should the solutions be optimal, the motion generator itself must be fast enough for real-time performance and reliable enough for practical deployment. A wide variety of methods have been proposed ranging from local controllers to global planners, often being combined to offset their shortcomings. We present an end-to-end neural model called Motion Policy Networks (M$\pi$Nets) to generate collision-free, smooth motion from just a single depth camera observation. M$\pi$Nets are trained on over 3 million motion planning problems in over 500,000 environments. Our experiments show that M$\pi$Nets are significantly faster than global planners while exhibiting the reactivity needed to deal with dynamic scenes. They are 46% better than prior neural planners and more robust than local control policies. Despite being only trained in simulation, M$\pi$Nets transfer well to the real robot with noisy partial point clouds. Code and data are publicly available at https://mpinets.github.io.
翻訳日:2022-10-25 18:41:44 公開日:2022-10-21
# 構造化世界モデルを用いたサンプル能率ロボット学習

Sample Efficient Robot Learning with Structured World Models ( http://arxiv.org/abs/2210.12278v1 )

ライセンス: Link先を確認
Tuluhan Akbulut, Max Merlin, Shane Parr, Benedict Quartey, Skye Thompson(参考訳) 強化学習は、ロボットが環境内の物体を操作するために使用するものなど、さまざまな連続制御タスクを学習するための柔軟で効果的なアプローチとして証明されている。 しかしロボット工学では、実際のロールアウトはコストがかかり、新しいスキルを学ぶ際にはサンプルの効率が大きな制限要因となる。 ゲーム環境では、特に画像やその他のリッチな観察が提供される場合、サンプリング効率を向上しつつ、優れた性能を保ちながら世界モデルの利用が示されている。 本稿では, 変形可能なロボット操作作業における世界モデルの利用について検討し, シミュレーションで布を折り畳むことを学ぶ際の試料効率への影響を評価する。 我々は,RGB画像観察と,組込み構造(布の構成を表すキーポイント)を利用した特徴空間,ロボット技術学習における共通アプローチを比較し,タスク性能と学習効率に及ぼす世界モデルの有無の影響を比較した。 実験の結果、キーポイントの使用によりタスク上での最良のモデルの性能が50%向上し、一般に学習あるいは構築された機能空間の使用によりタスク性能とサンプル効率が向上した。 我々の世界モデルにおける状態遷移予測器(MDN-RNN)の使用はタスク性能に顕著な影響を与えなかった。

Reinforcement learning has been demonstrated as a flexible and effective approach for learning a range of continuous control tasks, such as those used by robots to manipulate objects in their environment. But in robotics particularly, real-world rollouts are costly, and sample efficiency can be a major limiting factor when learning a new skill. In game environments, the use of world models has been shown to improve sample efficiency while still achieving good performance, especially when images or other rich observations are provided. In this project, we explore the use of a world model in a deformable robotic manipulation task, evaluating its effect on sample efficiency when learning to fold a cloth in simulation. We compare the use of RGB image observation with a feature space leveraging built-in structure (keypoints representing the cloth configuration), a common approach in robot skill learning, and compare the impact on task performance and learning efficiency with and without the world model. Our experiments showed that the usage of keypoints increased the performance of the best model on the task by 50%, and in general, the use of a learned or constructed reduced feature space improved task performance and sample efficiency. The use of a state transition predictor(MDN-RNN) in our world models did not have a notable effect on task performance.
翻訳日:2022-10-25 18:41:27 公開日:2022-10-21
# 記憶消失訓練によるGANのトレーニングサンプル記憶の低減

Reducing Training Sample Memorization in GANs by Training with Memorization Rejection ( http://arxiv.org/abs/2210.12231v1 )

ライセンス: Link先を確認
Andrew Bai, Cho-Jui Hsieh, Wendy Kan, Hsuan-Tien Lin(参考訳) generative adversarial network (gan) は、高世代品質のため、依然として一般的な研究の方向性である。 多くの最先端のGANは、同じ分布からのホールトアウトテストセットよりもトレーニングセットに近いサンプルを生成し、これらのモデルで暗黙的に記憶されていることを示唆している。 この記憶挙動は、生成されたサンプルを既知のサンプルと十分に区別するよう要求する多くのアプリケーションでは好ましくない。 しかし, 生成品質を損なうことなく, 暗記を低減できるかどうかは不明である。 本稿では,トレーニング中のトレーニングサンプルのほぼ重複する生成サンプルを拒否する学習手法である記憶拒絶法を提案する。 我々のスキームは単純で汎用的であり、任意のGANアーキテクチャに直接適用することができる。 複数のデータセットとGANモデルの実験では、記憶の拒絶はトレーニングサンプルの記憶を効果的に減らし、多くの場合、生成品質を犠牲にしない。 実験結果を再現するコードは$\texttt{https://github.com/jybai/mrgan}$で見ることができる。

Generative adversarial network (GAN) continues to be a popular research direction due to its high generation quality. It is observed that many state-of-the-art GANs generate samples that are more similar to the training set than a holdout testing set from the same distribution, hinting some training samples are implicitly memorized in these models. This memorization behavior is unfavorable in many applications that demand the generated samples to be sufficiently distinct from known samples. Nevertheless, it is unclear whether it is possible to reduce memorization without compromising the generation quality. In this paper, we propose memorization rejection, a training scheme that rejects generated samples that are near-duplicates of training samples during training. Our scheme is simple, generic and can be directly applied to any GAN architecture. Experiments on multiple datasets and GAN models validate that memorization rejection effectively reduces training sample memorization, and in many cases does not sacrifice the generation quality. Code to reproduce the experiment results can be found at $\texttt{https://github.com/jybai/MRGAN}$.
翻訳日:2022-10-25 18:06:00 公開日:2022-10-21
# TCAB: 大規模テキスト分類攻撃ベンチマーク

TCAB: A Large-Scale Text Classification Attack Benchmark ( http://arxiv.org/abs/2210.12233v1 )

ライセンス: Link先を確認
Kalyani Asthana, Zhouhang Xie, Wencong You, Adam Noack, Jonathan Brophy, Sameer Singh, Daniel Lowd(参考訳) テキスト分類攻撃ベンチマーク(TCAB)は,テキスト分類に対する敵対的攻撃を分析し,理解し,検出し,ラベル付けするためのデータセットである。 TCABには150万の攻撃インスタンスが含まれており、英語の感情分析と虐待検出のために6つのソースデータセットでトレーニングされた3つの分類器を対象とした12の敵攻撃によって生成される。 標準的なテキスト分類とは異なり、テキスト攻撃は攻撃されているターゲット分類器のコンテキストで理解する必要があるため、ターゲット分類器の特徴も重要である。 TCABには、予測ラベルの反転に成功しているすべてのアタックインスタンスが含まれており、攻撃のサブセットは人間のアノテータによってラベル付けされ、プライマリセマンティクスの保存頻度が決定される。 攻撃生成プロセスは自動化されており、TCABを拡張して新しいテキストアタックとより優れた分類器を組み込むことができる。 攻撃の検出とラベリングの主要なタスクに加えて、Tabは攻撃のローカライゼーション、攻撃対象のラベリング、攻撃特性のキャラクタリゼーションにも使用できる。 tcabコードとデータセットはhttps://react-nlp.github.io/tcab/で入手できる。

We introduce the Text Classification Attack Benchmark (TCAB), a dataset for analyzing, understanding, detecting, and labeling adversarial attacks against text classifiers. TCAB includes 1.5 million attack instances, generated by twelve adversarial attacks targeting three classifiers trained on six source datasets for sentiment analysis and abuse detection in English. Unlike standard text classification, text attacks must be understood in the context of the target classifier that is being attacked, and thus features of the target classifier are important as well. TCAB includes all attack instances that are successful in flipping the predicted label; a subset of the attacks are also labeled by human annotators to determine how frequently the primary semantics are preserved. The process of generating attacks is automated, so that TCAB can easily be extended to incorporate new text attacks and better classifiers as they are developed. In addition to the primary tasks of detecting and labeling attacks, TCAB can also be used for attack localization, attack target labeling, and attack characterization. TCAB code and dataset are available at https://react-nlp.github.io/tcab/.
翻訳日:2022-10-25 18:05:42 公開日:2022-10-21
# 機械学習を用いたX線蛍光基本パラメータを組み込んだオートエンコーダニューラルネットワーク

Auto-Encoder Neural Network Incorporating X-Ray Fluorescence Fundamental Parameters with Machine Learning ( http://arxiv.org/abs/2210.12239v1 )

ライセンス: Link先を確認
Matthew Dirks, David Poole(参考訳) エネルギー分散型X線蛍光法(EDXRF)を,機器パラメータが利用できない場合など,基本パラメータ法が実用的でない場合に適用する。 例えば、採掘用シャベルやコンベアベルトでは、岩は常に移動しており(入射角度や距離の異なる角度に導かれる)、その他の要因(塵など)も考慮されていない可能性がある。 ニューラルネットワークは器用パラメータや基本パラメータを必要としないが、ニューラルネットワークのトレーニングには元素組成をラベル付けしたXRFスペクトルが必要である。 限定されたラベル付きデータから学習し、フォワードモデルを反転させるニューラルネットワークモデルを開発した。 フォワードモデルは、全ての要素とパラメータ化された分布の遷移エネルギーと確率を用いて、他の基本および計測パラメータを近似する。 リチウム鉱山の岩盤データセットにおけるモデルとベースラインモデルを評価し,本手法に適合する元素を同定する。 このモデルは、ラベル付きデータが制限されたノイズの多い環境でニューラルネットワークを校正する可能性を実証する。

We consider energy-dispersive X-ray Fluorescence (EDXRF) applications where the fundamental parameters method is impractical such as when instrument parameters are unavailable. For example, on a mining shovel or conveyor belt, rocks are constantly moving (leading to varying angles of incidence and distances) and there may be other factors not accounted for (like dust). Neural networks do not require instrument and fundamental parameters but training neural networks requires XRF spectra labelled with elemental composition, which is often limited because of its expense. We develop a neural network model that learns from limited labelled data and learns to invert a forward model. The forward model uses transition energies and probabilities of all elements and parameterized distributions to approximate other fundamental and instrument parameters. We evaluate the model and baseline models on a rock dataset from a lithium mine and identify which elements are appropriate for this method. This model demonstrates the potential to calibrate a neural network in a noisy environment where labelled data is limited.
翻訳日:2022-10-25 18:05:23 公開日:2022-10-21
# グラフニューラルネットワークによるGPUとTPU性能のベンチマーク

Benchmarking GPU and TPU Performance with Graph Neural Networks ( http://arxiv.org/abs/2210.12247v1 )

ライセンス: Link先を確認
xiangyang Ju, Yunsong Wang, Daniel Murnane, Nicholas Choma, Steven Farrell, Paolo Calafiura(参考訳) ニューラルネットワークモデルのトレーニングと推論を加速するために、多くの人工知能(AI)デバイスが開発されている。 最も一般的なのはグラフィックス処理ユニット(GPU)とテンソル処理ユニット(TPU)である。 密度データ表現に高度に最適化されている。 しかし、グラフのようなスパース表現は科学を含む多くの領域で一般的である。 したがって、スパースデータ上で利用可能なAIアクセラレータのパフォーマンスを特徴付けることが重要である。 この研究は、現実のパターン認識問題を解決するために開発されたグラフニューラルネットワーク(GNN)を用いてGPUとTPUのパフォーマンストレーニングを分析し、比較する。 スパースデータに作用する新しいモデルのクラスを特徴付けることは、ディープラーニングライブラリと将来のAIアクセラレータの設計を最適化するのに有効である。

Many artificial intelligence (AI) devices have been developed to accelerate the training and inference of neural networks models. The most common ones are the Graphics Processing Unit (GPU) and Tensor Processing Unit (TPU). They are highly optimized for dense data representations. However, sparse representations such as graphs are prevalent in many domains, including science. It is therefore important to characterize the performance of available AI accelerators on sparse data. This work analyzes and compares the GPU and TPU performance training a Graph Neural Network (GNN) developed to solve a real-life pattern recognition problem. Characterizing the new class of models acting on sparse data may prove helpful in optimizing the design of deep learning libraries and future AI accelerators.
翻訳日:2022-10-25 18:05:05 公開日:2022-10-21
# デザイングラフによる効率的な自動機械学習

Efficient Automatic Machine Learning via Design Graphs ( http://arxiv.org/abs/2210.12257v1 )

ライセンス: Link先を確認
Shirley Wu, Jiaxuan You, Jure Leskovec, Rex Ying(参考訳) ディープネットワークとハイパーパラメータのアーキテクチャを含む、最高の設計を見つけることを目的とした自動機械学習(AutoML)の成功にもかかわらず、従来のAutoMLメソッドは計算コストが高く、異なるモデル設計選択の関係についての洞察は得られない。 そこで本研究では,最適なモデル設計を探索する効率的なサンプルベース手法であるfalconを提案する。 我々の重要な洞察は、可能なモデル設計の設計空間を設計グラフとしてモデル化することであり、ノードは設計の選択を表し、エッジは設計の類似性を表す。 FALCONの特徴 1)グラフニューラルネットワーク(GNN)を介してデザイングラフ上でメッセージパッシングを行うタスク非依存モジュール。 2) 設計グラフ上の既知のモデル性能情報のラベル伝搬を行うタスク固有モジュール。 どちらのモジュールも組み合わせて設計空間における設計性能を予測し、探索方向をナビゲートする。 CIFAR-10データセット上で,各種アプリケーション領域の27ノードおよびグラフ分類タスクと画像分類タスクについて広範な実験を行った。 FALCONは,30個の探索ノードのみを用いて,各タスクの良好な性能設計を効率的に得ることを実証的に示す。 具体的には、FALCONはワンショットアプローチと同等の時間コストを持ち、最高のベースラインに比べて平均3.3%の改善を実現している。

Despite the success of automated machine learning (AutoML), which aims to find the best design, including the architecture of deep networks and hyper-parameters, conventional AutoML methods are computationally expensive and hardly provide insights into the relations of different model design choices. To tackle the challenges, we propose FALCON, an efficient sample-based method to search for the optimal model design. Our key insight is to model the design space of possible model designs as a design graph, where the nodes represent design choices, and the edges denote design similarities. FALCON features 1) a task-agnostic module, which performs message passing on the design graph via a Graph Neural Network (GNN), and 2) a task-specific module, which conducts label propagation of the known model performance information on the design graph. Both modules are combined to predict the design performances in the design space, navigating the search direction. We conduct extensive experiments on 27 node and graph classification tasks from various application domains, and an image classification task on the CIFAR-10 dataset. We empirically show that FALCON can efficiently obtain the well-performing designs for each task using only 30 explored nodes. Specifically, FALCON has a comparable time cost with the one-shot approaches while achieving an average improvement of 3.3% compared with the best baselines.
翻訳日:2022-10-25 18:04:53 公開日:2022-10-21
# 階層的潜在変数を用いた群分布ロバスト強化学習

Group Distributionally Robust Reinforcement Learning with Hierarchical Latent Variables ( http://arxiv.org/abs/2210.12262v1 )

ライセンス: Link先を確認
Mengdi Xu, Peide Huang, Yaru Niu, Visak Kumar, Jielin Qiu, Chao Fang, Kuan-Hui Lee, Xuewei Qi, Henry Lam, Bo Li, Ding Zhao(参考訳) マルチタスク強化学習(RL)の実践における重要な課題は,タスクインジケータの欠如である。 ロバスト RL はタスクのあいまいさに対処するために適用されてきたが、過保守なポリシーをもたらす可能性がある。 最悪ケース(ロバスト性)と平均性能のバランスをとるために,潜時混合モデルを用いてタスク群を符号化する柔軟な階層型MDP式であるグループ分散ロバストマルコフ決定プロセス(GDR-MDP)を提案する。 GDR-MDPは、あいまいさセット内のタスクグループに対する最悪の有資格信念の下で、期待されるリターンを最大化する最適なポリシーを特定する。 我々は,GDR-MDPの階層構造が,最悪の結果に正規化を加えることにより,分布のロバスト性を向上させることを示す。 そこで我々は,GDR-MDPにおける値ベースおよびポリシーベースのRL手法の深部RLアルゴリズムを開発した。 Box2Dコントロールタスク、MuJoCoベンチマーク、Googleのフットボールプラットフォームに関する大規模な実験によると、我々のアルゴリズムは、信念の不確実性の下での堅牢性の観点から、様々な環境における古典的な堅牢なトレーニングアルゴリズムよりも優れています。 デモはプロジェクトのページで閲覧できます(\url{https://sites.google.com/view/gdr-rl/home})。

One key challenge for multi-task Reinforcement learning (RL) in practice is the absence of task indicators. Robust RL has been applied to deal with task ambiguity, but may result in over-conservative policies. To balance the worst-case (robustness) and average performance, we propose Group Distributionally Robust Markov Decision Process (GDR-MDP), a flexible hierarchical MDP formulation that encodes task groups via a latent mixture model. GDR-MDP identifies the optimal policy that maximizes the expected return under the worst-possible qualified belief over task groups within an ambiguity set. We rigorously show that GDR-MDP's hierarchical structure improves distributional robustness by adding regularization to the worst possible outcomes. We then develop deep RL algorithms for GDR-MDP for both value-based and policy-based RL methods. Extensive experiments on Box2D control tasks, MuJoCo benchmarks, and Google football platforms show that our algorithms outperform classic robust training algorithms across diverse environments in terms of robustness under belief uncertainties. Demos are available on our project page (\url{https://sites.google.com/view/gdr-rl/home}).
翻訳日:2022-10-25 18:04:30 公開日:2022-10-21
# ターゲットネットワーク間のギャップと機能正規化の橋渡し

Bridging the Gap Between Target Networks and Functional Regularization ( http://arxiv.org/abs/2210.12282v1 )

ライセンス: Link先を確認
Alexandre Piche and Valentin Thomas and Joseph Marino and Rafael Pardinas and Gian Maria Marconi and Christopher Pal and Mohammad Emtiyaz Khan(参考訳) ブートストラップは、Deep Reinforcement Learningの成功の背後にあります。 しかしながら、ブートストラップによる値関数の学習は、目標値の高速変更による不安定なトレーニングにつながることが多い。 ターゲットネットワークは、目標値を推定するために、追加の遅延パラメータセットを使用してトレーニングを安定化するために使用される。 ターゲットネットワークの人気にもかかわらず、最適化に対する効果はまだ誤解されている。 本研究では,暗黙の正規化として作用することを示す。 この正則化器は、非フレキシブルかつ非凸であるなどの欠点がある。 これらの問題を克服するために,関数空間における凸正規化器である明示的な関数正規化を提案する。 提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることで,サンプル効率と性能が向上することを示した。

Bootstrapping is behind much of the successes of Deep Reinforcement Learning. However, learning the value function via bootstrapping often leads to unstable training due to fast-changing target values. Target Networks are employed to stabilize training by using an additional set of lagging parameters to estimate the target values. Despite the popularity of Target Networks, their effect on the optimization is still misunderstood. In this work, we show that they act as an implicit regularizer. This regularizer has disadvantages such as being inflexible and non convex. To overcome these issues, we propose an explicit Functional Regularization that is a convex regularizer in function space and can easily be tuned. We analyze the convergence of our method theoretically and empirically demonstrate that replacing Target Networks with the more theoretically grounded Functional Regularization approach leads to better sample efficiency and performance improvements.
翻訳日:2022-10-25 18:04:06 公開日:2022-10-21
# 最適輸送回帰のためのUltrametric Treesの学習

Learning Ultrametric Trees for Optimal Transport Regression ( http://arxiv.org/abs/2210.12288v1 )

ライセンス: Link先を確認
Samantha Chen, Puoya Tabaghi, Yusu Wang(参考訳) 最適輸送は、確率測度間の相似性を定量化する計量を提供する。 離散距離空間で支持される測度に対して、最適な移動距離を求めることは空間の大きさにおいて立方体の時間複雑性を持つ。 しかし、木に支えられた測度は、線形時間で計算できる閉形式の最適輸送を許容する。 本稿では,与えられた離散距離空間に対する最適木構造を求め,木-ワッセルシュタイン距離を元の空間における最適輸送距離に最も近いものにすることを目的とする。 私たちのキーとなるアイデアの1つは、問題を超測度空間に配置することである。 これは、異なる木構造を定義するのに役立ち、超計量行列の空間上に適度に投影された勾配を通して木構造を最適化できる。 最適化では,階層的最小スパンディングツリーアルゴリズムを用いてパラメータを超メトリック空間に投影する。 実データを用いた実験の結果, 提案手法は, 最適移動距離を近似する従来のアプローチよりも優れていることがわかった。 最後に、地上の真理木から生成された合成データ実験により、我々のアルゴリズムが根底にある木の指標を正確に発見できることが示されている。

Optimal transport provides a metric which quantifies the dissimilarity between probability measures. For measures supported in discrete metric spaces, finding optimal transport distance has cubic time complexity in the size of the space. However, measures supported on trees admit a closed-form optimal transport which can be computed in linear time. In this paper, we aim to find an optimal tree structure for a given discrete metric space, so that the tree-Wasserstein distance can best approximate the optimal transport distance in the original space. One of our key ideas is to cast the problem in ultrametric spaces. This helps define different tree structures and allows us to optimize the tree structure via projected gradient decent over space of ultrametric matrices. During optimization, we project the parameters to the ultrametric space via a hierarchical minimum spanning tree algorithm. Experimental results on real datasets show that our approach outperforms previous approaches in approximating optimal transport distances. Finally, experiments on synthetic data generated on ground truth trees show that our algorithm can accurately uncover the underlying tree metrics.
翻訳日:2022-10-25 18:03:52 公開日:2022-10-21
# 群対称性を用いた連続強化学習

Continual Reinforcement Learning with Group Symmetries ( http://arxiv.org/abs/2210.12301v1 )

ライセンス: Link先を確認
Shiqi Liu, Mengdi Xu, Piede Huang, Yongkang Liu, Kentaro Oguchi, Ding Zhao(参考訳) 連続強化学習(Retinuous reinforcement learning, RL)は、目に見えるタスクを解く能力を維持しつつ、新しいタスクを解くための新しいポリシーを育てながら、一連のタスクを学習することを目的としている。 既存の連続rl法は、あるタスクがローテーションや変換のような単純な群演算の下で等価であることを無視する。 これにより、同等のタスクごとに新しいポリシーを拡張し、スクラッチからポリシーをトレーニングし、結果としてサンプルの複雑さと一般化能力が低下する。 本研究では,一つのタスクではなく,各タスク群に対するポリシーを増大させる群対称性を持つ,新しい連続的なrlフレームワークを提案する。 不変特徴抽出器と,不変特徴に基づく新しいタスクグループ化機構を備えたPPOに基づくRLアルゴリズムを提案する。 我々は,各グループがマップ構成に関連付けられている現実的な自律走行シナリオにおいて,アルゴリズムをテストする。 提案アルゴリズムは,タスクを異なるグループに高い精度で割り当てると共に,一般化能力の点で高いマージンでベースラインを上回ることを示す。

Continual reinforcement learning (RL) aims to learn a sequence of tasks while retaining the capability to solve seen tasks and growing a new policy to solve novel tasks. Existing continual RL methods ignore that some tasks are equivalent under simple group operations, such as rotations or translations. They thus extend a new policy for each equivalent task and train the policy from scratch, resulting in poor sample complexity and generalization capability. In this work, we propose a novel continual RL framework with group symmetries, which grows a policy for each group of equivalent tasks instead of a single task. We introduce a PPO-based RL algorithm with an invariant feature extractor and a novel task grouping mechanism based on invariant features. We test our algorithm in realistic autonomous driving scenarios, where each group is associated with a map configuration. We show that our algorithm assigns tasks to different groups with high accuracy and outperforms baselines in terms of generalization capability by a large margin.
翻訳日:2022-10-25 18:03:36 公開日:2022-10-21
# 文脈的意味軸を用いた人物表現の差異の発見

Discovering Differences in the Representation of People using Contextualized Semantic Axes ( http://arxiv.org/abs/2210.12170v1 )

ライセンス: Link先を確認
Li Lucy, Divya Tadimeti, David Bamman(参考訳) 社会的文脈と時間的文脈にまたがる意味的差異を特定する一般的なパラダイムは、静的な単語埋め込みとその距離である。 特に、過去の研究は2つの反対の概念を表す「意味軸」に対する埋め込みを比較してきた。 このパラダイムをBERT埋め込みに拡張し、Antonymが隣接する表現を持つ落とし穴を緩和する文脈化された軸を構築する。 我々は、これらの軸を2つの人中心のデータセットで検証し、実証する。wikipediaからの職業と、14年以上の男性コミュニティであるextremistのマルチプラットフォームディスカッションである。 両方の研究において、文脈化された意味軸は、同じ単語型のインスタンス間の差異を特徴づけることができる。 後者では,女性への言及や周囲の文脈が時間の経過とともに明らかになりつつあることを示す。

A common paradigm for identifying semantic differences across social and temporal contexts is the use of static word embeddings and their distances. In particular, past work has compared embeddings against "semantic axes" that represent two opposing concepts. We extend this paradigm to BERT embeddings, and construct contextualized axes that mitigate the pitfall where antonyms have neighboring representations. We validate and demonstrate these axes on two people-centric datasets: occupations from Wikipedia, and multi-platform discussions in extremist, men's communities over fourteen years. In both studies, contextualized semantic axes can characterize differences among instances of the same word type. In the latter study, we show that references to women and the contexts around them have become more detestable over time.
翻訳日:2022-10-25 17:55:40 公開日:2022-10-21
# モデル予測制御による明示的ガイダンスの少ない条件拡散

Conditional Diffusion with Less Explicit Guidance via Model Predictive Control ( http://arxiv.org/abs/2210.12192v1 )

ライセンス: Link先を確認
Max W. Shen, Ehsan Hajiramezanali, Gabriele Scalia, Alex Tseng, Nathaniel Diamant, Tommaso Biancalani, Andreas Loukas(参考訳) 条件拡散にどの程度の明確なガイダンスが必要か? 非条件拡散モデルと限定的な明示的ガイダンス(例えば、雑音分類器や条件拡散モデル)を用いて、少数の時間ステップに制限された条件付きサンプリングの問題を考察する。 我々は,無条件拡散をシミュレーションし,明示的な誘導フィードバックをバックプロパゲーションすることにより,近似誘導に対するモデル予測制御(mpc)のようなアプローチを検討する。 mpc近似ガイドは、大きなシミュレーション距離でも実際のガイドと高いコサイン類似性を有する。 MPCステップを追加することで、明示的なガイダンスが5段階に制限された場合、生成品質が向上する。

How much explicit guidance is necessary for conditional diffusion? We consider the problem of conditional sampling using an unconditional diffusion model and limited explicit guidance (e.g., a noised classifier, or a conditional diffusion model) that is restricted to a small number of time steps. We explore a model predictive control (MPC)-like approach to approximate guidance by simulating unconditional diffusion forward, and backpropagating explicit guidance feedback. MPC-approximated guides have high cosine similarity to real guides, even over large simulation distances. Adding MPC steps improves generative quality when explicit guidance is limited to five time steps.
翻訳日:2022-10-25 17:54:31 公開日:2022-10-21
# Just Mix Once: グループ補間による最悪のグループ一般化

Just Mix Once: Worst-group Generalization by Group Interpolation ( http://arxiv.org/abs/2210.12195v1 )

ライセンス: Link先を確認
Giorgio Giannone, Serhii Havrylov, Jordan Massiah, Emine Yilmaz, Yunlong Jiao(参考訳) ディープラーニング理論の進歩は、平均的な一般化がデータの表面パターンに依存することを明らかにしている。 その結果、テスト時のグループ分散のシフトによるパフォーマンスの低下を伴う脆いモデルが実現した。 グループアノテーションが利用可能であれば、この問題に対処するために堅牢な最適化ツールを使用することができます。 しかし、特に大きなデータセットでは、識別とアノテーションは時間がかかります。 最近の研究は、グループアノテーションを使わずに少数グループの一般化を改善するために、自己スーパービジョンとオーバーサンプリングを活用する。 我々は,最悪の集団一般化のために調整されたミックスアップのクラス条件変種を用いて,これらのアプローチを統一し,一般化することを提案する。 我々のアプローチであるJust Mix Once (JM1)は、学習中にサンプルを補間し、トレーニング分布を連続した混合グループで増強する。 JM1はドメインに依存しず、計算的に効率的であり、任意のレベルのグループアノテーションで使用することができ、最悪のグループ一般化の最先端技術よりも同等かそれ以上の性能を持つ。 さらに、JM1がなぜ機能するのかを簡単に説明します。

Advances in deep learning theory have revealed how average generalization relies on superficial patterns in data. The consequences are brittle models with poor performance with shift in group distribution at test time. When group annotation is available, we can use robust optimization tools to tackle the problem. However, identification and annotation are time-consuming, especially on large datasets. A recent line of work leverages self-supervision and oversampling to improve generalization on minority groups without group annotation. We propose to unify and generalize these approaches using a class-conditional variant of mixup tailored for worst-group generalization. Our approach, Just Mix Once (JM1), interpolates samples during learning, augmenting the training distribution with a continuous mixture of groups. JM1 is domain agnostic and computationally efficient, can be used with any level of group annotation, and performs on par or better than the state-of-the-art on worst-group generalization. Additionally, we provide a simple explanation of why JM1 works.
翻訳日:2022-10-25 17:54:21 公開日:2022-10-21
# マルチユーザシステムのための匿名帯域

Anonymous Bandits for Multi-User Systems ( http://arxiv.org/abs/2210.12198v1 )

ライセンス: Link先を確認
Hossein Esfandiari, Vahab Mirrokni, Jon Schneider(参考訳) 本稿では,ユーザ匿名性を提供する複数のユーザを持つシステムにおけるオンライン学習のための新しいフレームワークについて紹介し,検討する。 具体的には、各観察を少なくとも$k$ユーザに対する報酬の集約とすることで、標準の$k$-匿名性制約に従うようにバンドイットの概念を拡張します。 これによって、ユーザの個々の決定を監視せずに、オンライン形式でユーザのクラスタリングを学習できる、シンプルで効果的なフレームワークが提供される。 我々は、匿名のバンディットの研究を開始し、この設定に最初の部分線形後悔アルゴリズムと下限を提供する。

In this work, we present and study a new framework for online learning in systems with multiple users that provide user anonymity. Specifically, we extend the notion of bandits to obey the standard $k$-anonymity constraint by requiring each observation to be an aggregation of rewards for at least $k$ users. This provides a simple yet effective framework where one can learn a clustering of users in an online fashion without observing any user's individual decision. We initiate the study of anonymous bandits and provide the first sublinear regret algorithms and lower bounds for this setting.
翻訳日:2022-10-25 17:54:06 公開日:2022-10-21
# 画像テキスト検索のためのDeep Metric Learning Lossesの分離

Dissecting Deep Metric Learning Losses for Image-Text Retrieval ( http://arxiv.org/abs/2210.13188v1 )

ライセンス: Link先を確認
Hong Xuan, Xi Chen(参考訳) VSE(Visual-Semantic Embedding)は、画像と言語間の共同埋め込み空間を学習し、意味的類似性を保存することで、画像テキスト検索における一般的なアプローチである。 強負の鉱業による三重項損失は、ほとんどのVSE法において事実上の目標となっている。 本稿では,画像領域における深部距離学習(DML)の最近の進歩に触発され,三重項損失を克服する新たな損失関数がもたらされた上で,画像テキストマッチングにおけるVSEのより良い目的を見出すという課題を再考する。 勾配運動に基づく損失の設計の試みにもかかわらず、ほとんどのDML損失は埋め込み空間において経験的に定義される。 本稿では,これらの損失関数を直接適用してモデルパラメータの最適勾配更新に導くのではなく,既存のdml関数における勾配の組み合わせと重み付けを体系的に解析する新しい勾配に基づく客観的解析フレームワークである \textit{goal} を提案する。 この分析フレームワークの助けを借りて、異なる勾配の組み合わせを探索する勾配空間における目的の新しいファミリーを提案する。 勾配が有効な損失関数に積分できない場合、我々は、埋め込み空間の損失ではなく、勾配空間で直接操作するように提案した目的を実装した。 総合的な実験により、新しい目的が、さまざまなビジュアル/テキスト機能とモデルフレームワークのベースラインよりも一貫してパフォーマンスが向上していることが示されました。 また,COCOおよびFlick30K上の画像テキスト検索タスクにおいて,多言語間相互作用を伴う視覚言語モデルを含む3重項家族損失を用いて,GOALフレームワークを他のモデルに拡張することにより,その一般化可能性を示した。

Visual-Semantic Embedding (VSE) is a prevalent approach in image-text retrieval by learning a joint embedding space between the image and language modalities where semantic similarities would be preserved. The triplet loss with hard-negative mining has become the de-facto objective for most VSE methods. Inspired by recent progress in deep metric learning (DML) in the image domain which gives rise to new loss functions that outperform triplet loss, in this paper, we revisit the problem of finding better objectives for VSE in image-text matching. Despite some attempts in designing losses based on gradient movement, most DML losses are defined empirically in the embedding space. Instead of directly applying these loss functions which may lead to sub-optimal gradient updates in model parameters, in this paper we present a novel Gradient-based Objective AnaLysis framework, or \textit{GOAL}, to systematically analyze the combinations and reweighting of the gradients in existing DML functions. With the help of this analysis framework, we further propose a new family of objectives in the gradient space exploring different gradient combinations. In the event that the gradients are not integrable to a valid loss function, we implement our proposed objectives such that they would directly operate in the gradient space instead of on the losses in the embedding space. Comprehensive experiments have demonstrated that our novel objectives have consistently improved performance over baselines across different visual/text features and model frameworks. We also showed the generalizability of the GOAL framework by extending it to other models using triplet family losses including vision-language model with heavy cross-modal interactions and have achieved state-of-the-art results on the image-text retrieval tasks on COCO and Flick30K.
翻訳日:2022-10-25 17:46:55 公開日:2022-10-21
# 多視点光度ステレオとグラディエントSDFによる高画質RGB-D再構成

High-Quality RGB-D Reconstruction via Multi-View Uncalibrated Photometric Stereo and Gradient-SDF ( http://arxiv.org/abs/2210.12202v1 )

ライセンス: Link先を確認
Lu Sang and Bjoern Haefner and Xingxing Zuo and Daniel Cremers(参考訳) 細かな再設計は多くの応用において高い需要がある。 しかし、既存のrgb-d再構成手法のほとんどは、事前計算された正確なカメラに依存しており、異なる量に最適化する際に表面の表現を適応する必要がある詳細な表面形状を復元している。 本稿では,グラデーション符号付き距離場(gradient-sdf)を利用して,カメラのポーズ,照明,アルベド,表面の正常な推定を行うマルチビューrgb-dによる再構成手法を提案する。 提案手法は, 特定の物理モデルを用いてレンダリング過程を定式化し, 実表面近傍にのみ表面量を推定する他の作品とは対照的に, その体積表現を用いて実表面上の表面量を最適化する。 本手法の有効性を検証するため,自然光と点光源の物理画像形成モデルについて検討した。 合成および実世界のデータセットを用いた実験結果から,提案手法は現状よりも高品質な表面形状を復元し,推定カメラポーズの精度を向上できることが示された。

Fine-detailed reconstructions are in high demand in many applications. However, most of the existing RGB-D reconstruction methods rely on pre-calculated accurate camera poses to recover the detailed surface geometry, where the representation of a surface needs to be adapted when optimizing different quantities. In this paper, we present a novel multi-view RGB-D based reconstruction method that tackles camera pose, lighting, albedo, and surface normal estimation via the utilization of a gradient signed distance field (gradient-SDF). The proposed method formulates the image rendering process using specific physically-based model(s) and optimizes the surface's quantities on the actual surface using its volumetric representation, as opposed to other works which estimate surface quantities only near the actual surface. To validate our method, we investigate two physically-based image formation models for natural light and point light source applications. The experimental results on synthetic and real-world datasets demonstrate that the proposed method can recover high-quality geometry of the surface more faithfully than the state-of-the-art and further improves the accuracy of estimated camera poses.
翻訳日:2022-10-25 17:11:44 公開日:2022-10-21
# FIND: 人工膝関節の非教師型インシシット3Dモデル

FIND: An Unsupervised Implicit 3D Model of Articulated Human Feet ( http://arxiv.org/abs/2210.12241v1 )

ライセンス: Link先を確認
Oliver Boyne, James Charles, Roberto Cipolla(参考訳) 本稿では,高い忠実度と明瞭な3次元人足モデルを提案する。 モデルは、形状、テクスチャ、明瞭なポーズの観点で、不連続な潜在コードによってパラメータ化される。 高忠実度モデルは通常、3dキーポイント対応や事前登録といった強い監督の下で作成されますが、アノテーションがほとんどないという難しいケースに焦点を合わせます。 この目的のために、以下の貢献をしている。 (i)フットインシシット・ニューラル・フォーメーション・フィールド・モデル(FIND)を開発し、低出力または高出力のデバイスに対して任意の解像度で明確なメッシュを調整できる。 (二)ポーズカテゴリー等のラベルの増大に伴い、徐々に整合性を高めて、弱監督の様々な態様でモデルを訓練するためのアプローチ。 三 従来の測光やシルエットの損失よりも優れた2次元画像にモデルを適合させるための新規な教師なし部分的損失 (iv)最後に,高精細な3d人足スキャン,foot3dの新しいデータセットをリリースする。 このデータセットでは, モデルが同一データ上でトレーニングされた強力なPCA実装よりも, 形状品質やパート対応の点で優れており, 新規な教師なし部分ベース損失は画像の推測を改善する。

In this paper we present a high fidelity and articulated 3D human foot model. The model is parameterised by a disentangled latent code in terms of shape, texture and articulated pose. While high fidelity models are typically created with strong supervision such as 3D keypoint correspondences or pre-registration, we focus on the difficult case of little to no annotation. To this end, we make the following contributions: (i) we develop a Foot Implicit Neural Deformation field model, named FIND, capable of tailoring explicit meshes at any resolution i.e. for low or high powered devices; (ii) an approach for training our model in various modes of weak supervision with progressively better disentanglement as more labels, such as pose categories, are provided; (iii) a novel unsupervised part-based loss for fitting our model to 2D images which is better than traditional photometric or silhouette losses; (iv) finally, we release a new dataset of high resolution 3D human foot scans, Foot3D. On this dataset, we show our model outperforms a strong PCA implementation trained on the same data in terms of shape quality and part correspondences, and that our novel unsupervised part-based loss improves inference on images.
翻訳日:2022-10-25 17:11:23 公開日:2022-10-21
# 相互情報と最急上昇戦略を用いた特徴選択知的アルゴリズム

Feature selection intelligent algorithm with mutual information and steepest ascent strategy ( http://arxiv.org/abs/2210.12296v1 )

ライセンス: Link先を確認
Elkebir Sarhrouni, Ahmed Hammouch and Driss Aboutajdine(参考訳) リモートセンシングは、データマイニングアプリケーションのための知識を生み出すための高度な技術である。 原理的には、ハイパースペクトル画像(HSI)は、地域を正確に分類するリモートセンシングツールである。 HSIには、GTマップの100枚以上の画像が含まれている。 一部の画像は関連する情報を持っているが、余分な情報を記述しているものもある。 目的はHSIの次元性を減らすことである。 多くの研究は相互情報(mi)または正規化されたmi形式を用いて適切なバンドを選択する。 本稿ではMIにもとづくアルゴリズムを設計し、MIを最も急激な上昇アルゴリズムと組み合わせて、対称不確実性係数に基づく戦略を改善し、HSIの分類のための関連する帯域を選択する。 このアルゴリズムは特徴選択ツールであり、ラッパー戦略である。 HSI AVIRIS 92AV3Cについて検討した。 これは冗長性を制御するための人工知能システムであり、結果のアルゴリズムと人間の決定の違いを明確にしなければならなかった。 指標項 - ハイパースペクトル画像、分類、フェーチャー選択、相互情報、冗長性、最低上昇。 人工知能

Remote sensing is a higher technology to produce knowledge for data mining applications. In principle hyperspectral images (HSIs) is a remote sensing tool that provides precise classification of regions. The HSI contains more than a hundred of images of the ground truth (GT) map. Some images are carrying relevant information, but others describe redundant information, or they are affected by atmospheric noise. The aim is to reduce dimensionality of HSI. Many studies use mutual information (MI) or normalised forms of MI to select appropriate bands. In this paper we design an algorithm based also on MI, and we combine MI with steepest ascent algorithm, to improve a symmetric uncertainty coefficient-based strategy to select relevant bands for classification of HSI. This algorithm is a feature selection tool and a wrapper strategy. We perform our study on HSI AVIRIS 92AV3C. This is an artificial intelligent system to control redundancy; we had to clear the difference of the result's algorithm and the human decision, and this can be viewed as case study which human decision is perhaps different to an intelligent algorithm. Index Terms - Hyperspectral images, Classification, Fea-ture selection, Mutual Information, Redundancy, Steepest Ascent. Artificial Intelligence
翻訳日:2022-10-25 17:11:02 公開日:2022-10-21
# パターン活用トレーニングによる表層推論の強化

Enhancing Tabular Reasoning with Pattern Exploiting Training ( http://arxiv.org/abs/2210.12259v1 )

ライセンス: Link先を確認
Abhilash Reddy Shankarampeta and Vivek Gupta and Shuo Zhang(参考訳) 事前学習された言語モデルに基づく最近の手法は、表データの推論をしながら、正しいエビデンスや入力間の一貫性のない予測を使わずに、表のタスク(例えば表のNLI)よりも優れた性能を示した。 本研究では,事前学習された言語モデルにパターン探索訓練(pet)(戦略的mlm)を用いて,既存の知識と推論能力を強化する。 改良されたモデルでは,現在のベースラインに比べて知識事実や表の推論の理解が優れている。 さらに、これらのモデルはInfoTabs上での表型推論の下流タスクに対してより効果的であることを示す。 さらに,様々な文字と単語レベルの摂動によって生成された逆集合に対するモデルの頑健性を示す。

Recent methods based on pre-trained language models have exhibited superior performance over tabular tasks (e.g., tabular NLI), despite showing inherent problems such as not using the right evidence and inconsistent predictions across inputs while reasoning over the tabular data. In this work, we utilize Pattern-Exploiting Training (PET) (i.e., strategic MLM) on pre-trained language models to strengthen these tabular reasoning models' pre-existing knowledge and reasoning abilities. Our upgraded model exhibits a superior understanding of knowledge facts and tabular reasoning compared to current baselines. Additionally, we demonstrate that such models are more effective for underlying downstream tasks of tabular inference on InfoTabs. Furthermore, we show our model's robustness against adversarial sets generated through various character and word level perturbations.
翻訳日:2022-10-25 15:52:13 公開日:2022-10-21
# 多言語多言語モデルの校正について

On the Calibration of Massively Multilingual Language Models ( http://arxiv.org/abs/2210.12265v1 )

ライセンス: Link先を確認
Kabir Ahuja, Sunayana Sitaram, Sandipan Dandapat, Monojit Choudhury(参考訳) 超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。 これらのモデルをさまざまなタスクや言語でパフォーマンス評価する作業は数多くあったが、予測に対する信頼度に関して、これらのモデルの校正がいかに良好であるかにはほとんど注意が払われていない。 まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語や類型的に英語と異なる言語における誤校正の明確な事例を観察する。 次に,温度スケーリングやラベル平滑化などのキャリブレーション手法がゼロショットシナリオのキャリブレーション改善に適していることを示す。 また、この言語の数少ない例が、キャリブレーションのエラーを減らすのに役立つことも分かっています。 全体として、我々の研究は、それらの誤解の問題を強調し、言語とモデル固有の要因がそれに影響するかを理解し、それを改善するための戦略を指摘することによって、より信頼性の高い多言語モデルの構築に寄与します。

Massively Multilingual Language Models (MMLMs) have recently gained popularity due to their surprising effectiveness in cross-lingual transfer. While there has been much work in evaluating these models for their performance on a variety of tasks and languages, little attention has been paid on how well calibrated these models are with respect to the confidence in their predictions. We first investigate the calibration of MMLMs in the zero-shot setting and observe a clear case of miscalibration in low-resource languages or those which are typologically diverse from English. Next, we empirically show that calibration methods like temperature scaling and label smoothing do reasonably well towards improving calibration in the zero-shot scenario. We also find that few-shot examples in the language can further help reduce the calibration errors, often substantially. Overall, our work contributes towards building more reliable multilingual models by highlighting the issue of their miscalibration, understanding what language and model specific factors influence it, and pointing out the strategies to improve the same.
翻訳日:2022-10-25 15:51:59 公開日:2022-10-21
# ペルソアラビア文字のグラフ化

Graphemic Normalization of the Perso-Arabic Script ( http://arxiv.org/abs/2210.12273v1 )

ライセンス: Link先を確認
Raiomond Doctor and Alexander Gutkin and Cibu Johny and Brian Roark and Richard Sproat(参考訳) 1991年の初登場以来、unicodeのペルソ・アラビア語の文字表現は169から440以上の分離された文字に成長し、標準文字、様々なダイアクリティカルス、原アラビア語やその他の多くの地域の正書法の伝統を表すコードページに広がった。 本稿では,ペルソ・アラビア語がアラビア語やペルシア語などの最良文書言語を超えて提示される課題を,専門家コミュニティによる先行研究に基づいて文書化する。 特に自然言語処理(nlp)の状況に焦点をあて、視覚的に曖昧で標準的でない文字の使用や、異なる正書法からの文字の混合など、しばしば無視される複数の問題に影響を受けている。 寄与する混乱要因には、入力方法の欠如、現代の正書法の不安定さ、識字力の欠如、正書法の伝統の欠如などがある。 ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。 その結果,正規化が適用された場合のすべての言語に対して,ほとんどの条件において,統計的に有意な性能向上が認められた。 地域正書法におけるペルソ・アラビア文字のより良い理解と表現は、特に資源の多様さを持つ言語において、現代計算NLP技術のさらなる進歩に欠かせないものであると論じる。

Since its original appearance in 1991, the Perso-Arabic script representation in Unicode has grown from 169 to over 440 atomic isolated characters spread over several code pages representing standard letters, various diacritics and punctuation for the original Arabic and numerous other regional orthographic traditions. This paper documents the challenges that Perso-Arabic presents beyond the best-documented languages, such as Arabic and Persian, building on earlier work by the expert community. We particularly focus on the situation in natural language processing (NLP), which is affected by multiple, often neglected, issues such as the use of visually ambiguous yet canonically nonequivalent letters and the mixing of letters from different orthographies. Among the contributing conflating factors are the lack of input methods, the instability of modern orthographies, insufficient literacy, and loss or lack of orthographic tradition. We evaluate the effects of script normalization on eight languages from diverse language families in the Perso-Arabic script diaspora on machine translation and statistical language modeling tasks. Our results indicate statistically significant improvements in performance in most conditions for all the languages considered when normalization is applied. We argue that better understanding and representation of Perso-Arabic script variation within regional orthographic traditions, where those are present, is crucial for further progress of modern computational NLP techniques especially for languages with a paucity of resources.
翻訳日:2022-10-25 15:51:43 公開日:2022-10-21
# 模倣ゲームとしてのテキスト編集

Text Editing as Imitation Game ( http://arxiv.org/abs/2210.12276v1 )

ライセンス: Link先を確認
Ning Shi, Bin Tang, Bo Yuan, Longtao Huang, Yewen Pu, Jie Fu, Zhouhan Lin(参考訳) 文法的誤り訂正のようなテキスト編集は、不完全なテキストデータから自然に発生する。 最近のワークフレームテキストの編集は、挿入や置換といった操作をタグのシーケンスとして表現するマルチラウンドシーケンスタグタスクとして行われている。 優れた結果を達成する一方で、すべてのアクションがトークンレベルのタグにバインドされるため、このエンコーディングは柔軟性に制限される。 本研究では,テキスト編集を行動クローニングを用いた模倣ゲームとして再構成する。 具体的には、従来のシーケンスからシーケンスまでのデータを、アクション空間が必要に応じて柔軟になる状態からアクションへのデモンストレーションに変換する。 アクションを一度に生成する代わりに、アクショントークン間の依存関係を保持しながらデコーディングを並列化するデュアルデコーダ構造と、模倣学習がしばしば直面する分散シフトを軽減するための軌道拡張を導入します。 算術式ベンチマークを用いた実験において,本モデルは,性能,効率,ロバスト性の観点から,自己回帰ベースラインを一貫して上回っている。 自然言語処理にシーケンスレベルアクション生成を応用した強化学習の今後の研究に光を当てていきたい。

Text editing, such as grammatical error correction, arises naturally from imperfect textual data. Recent works frame text editing as a multi-round sequence tagging task, where operations -- such as insertion and substitution -- are represented as a sequence of tags. While achieving good results, this encoding is limited in flexibility as all actions are bound to token-level tags. In this work, we reformulate text editing as an imitation game using behavioral cloning. Specifically, we convert conventional sequence-to-sequence data into state-to-action demonstrations, where the action space can be as flexible as needed. Instead of generating the actions one at a time, we introduce a dual decoders structure to parallel the decoding while retaining the dependencies between action tokens, coupled with trajectory augmentation to alleviate the distribution shift that imitation learning often suffers. In experiments on a suite of Arithmetic Equation benchmarks, our model consistently outperforms the autoregressive baselines in terms of performance, efficiency, and robustness. We hope our findings will shed light on future studies in reinforcement learning applying sequence-level action generation to natural language processing.
翻訳日:2022-10-25 15:51:16 公開日:2022-10-21
# 大きな言語モデルは言語以外の何を学ぶのか?

What do Large Language Models Learn beyond Language? ( http://arxiv.org/abs/2210.12302v1 )

ライセンス: Link先を確認
Avinash Madasu, Shashank Srivastava(参考訳) 大規模言語モデル(LM)は、自然言語処理において急速に主流となっている。 これらのモデルは、大量のテキストのトレーニングから豊富な言語知識を得ることが知られている。 本稿では,テキストによる事前学習が,非言語的推論に有用な「帰納的バイアス」を持つモデルについても検討する。 定量的計算、正規表現の認識、文字列の推論を含む19の多様な非言語的タスクについて。 事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を示した。 これは、モデル正規化効果を考慮に入れたパラメータの少ない非事前学習モデルのトレーニング実験においても、なお事実である。 我々は,様々な領域のテキストからモデルを事前学習することにより,lmsに対するテキストドメインの影響をさらに探究する。 実験の結果,多言語テキストやコンピュータコード,合成言語から生成されたテキストにおいても,事前学習の効果が持続することが明らかとなった。 以上より,言語モデルの事前学習能力とインダクティブ学習能力との深い関連が示唆された。

Large language models (LMs) have rapidly become a mainstay in Natural Language Processing. These models are known to acquire rich linguistic knowledge from training on large amounts of text. In this paper, we investigate if pre-training on text also confers these models with helpful `inductive biases' for non-linguistic reasoning. On a set of 19 diverse non-linguistic tasks involving quantitative computations, recognizing regular expressions and reasoning over strings. We find that pretrained models significantly outperform comparable non-pretrained neural models. This remains true also in experiments with training non-pretrained models with fewer parameters to account for model regularization effects. We further explore the effect of text domain on LMs by pretraining models from text from different domains and provenances. Our experiments surprisingly reveal that the positive effects of pre-training persist even when pretraining on multi-lingual text or computer code, and even for text generated from synthetic languages. Our findings suggest a hitherto unexplored deep connection between pre-training and inductive learning abilities of language models.
翻訳日:2022-10-25 15:51:01 公開日:2022-10-21
# 大規模確率ブールネットワークの安定化のための深層強化学習

Deep Reinforcement Learning for Stabilization of Large-scale Probabilistic Boolean Networks ( http://arxiv.org/abs/2210.12229v1 )

ライセンス: Link先を確認
Sotiris Moschoyiannis and Evangelos Chatzaroulas and Vytenis Sliogeris and Yuhu Wu(参考訳) 確率的ブールネットワーク(PBN)を望ましい状態に導く能力は、がん生物学における標的治療などの応用において重要である。 Reinforcement Learning (RL) はマルコフ決定過程のような離散時間最適制御問題を解くフレームワークとして提案されている。 本研究では,制御問題(例えば,制御入力の有無,アトラクタ状態あるいはターゲット領域としての状態空間のサブセット)の異なるフレーバーに対処できるモデルフリーディープRL法を利用した統合的フレームワークに焦点を当てる。 この方法は次の状態の確率分布に依存しないので、確率遷移行列は使用しない。 時間複雑性は、トレーニング中の時間ステップ、またはエージェント(ディープRL)と環境(PBN)の間の相互作用に線形である。 実際、大規模PBNの安定化(セット)に対する深部RLアプローチのスケーラビリティについて検討し、200ノードの転移性メラノーマPBNを含む大規模ネットワークの制御に成功したことを示す。

The ability to direct a Probabilistic Boolean Network (PBN) to a desired state is important to applications such as targeted therapeutics in cancer biology. Reinforcement Learning (RL) has been proposed as a framework that solves a discrete-time optimal control problem cast as a Markov Decision Process. We focus on an integrative framework powered by a model-free deep RL method that can address different flavours of the control problem (e.g., with or without control inputs; attractor state or a subset of the state space as the target domain). The method is agnostic to the distribution of probabilities for the next state, hence it does not use the probability transition matrix. The time complexity is linear on the time steps, or interactions between the agent (deep RL) and the environment (PBN), during training. Indeed, we explore the scalability of the deep RL approach to (set) stabilization of large-scale PBNs and demonstrate successful control on large networks, including a metastatic melanoma PBN with 200 nodes.
翻訳日:2022-10-25 15:43:00 公開日:2022-10-21
# ニューラルモデルによる構文的サブプライズ、しかし過小評価、構文的曖昧性による人間の処理の難しさ

Syntactic Surprisal From Neural Models Predicts, But Underestimates, Human Processing Difficulty From Syntactic Ambiguities ( http://arxiv.org/abs/2210.12187v1 )

ライセンス: Link先を確認
Suhas Arehalli, Brian Dillon, Tal Linzen(参考訳) 人間は庭道の効果を示す: 一時的に構造的に曖昧な文章を読むと、その構造が不明瞭になり、あまり好ましくない選択肢が好まれる。 この発見の顕著な説明であるサプライズ理論(Hale, 2001; Levy, 2008)は、これらの減速はこれらの文で起こる各単語の予測不能に起因することを示唆している。 この仮説に挑戦したvan schijndel & linzen (2021) は、言語モデルに由来する単語予測可能性のコストの見積もりが人間の庭の道の影響の大きさをひどく過小評価していることを発見した。 本研究では、この過小評価が、言語モデルよりも人間の重み付け構文因子が高いという事実によるものであるかを検討する。 本稿では,言語モデルから構文予測可能性を推定し,語彙予測と構文予測のコストを独立に評価する手法を提案する。 構文的予測可能性と語彙的予測可能性とを独立に扱うことで,園路の予測がより大きくなることがわかった。 同時に、統語的予測可能性が独立して重み付けされているとしても、前提は、人間の庭道効果の規模を大幅に過小評価する。 本研究は, 庭道文に付随する処理コストの要因は, 予測可能性だけではないという仮説を支持する。

Humans exhibit garden path effects: When reading sentences that are temporarily structurally ambiguous, they slow down when the structure is disambiguated in favor of the less preferred alternative. Surprisal theory (Hale, 2001; Levy, 2008), a prominent explanation of this finding, proposes that these slowdowns are due to the unpredictability of each of the words that occur in these sentences. Challenging this hypothesis, van Schijndel & Linzen (2021) find that estimates of the cost of word predictability derived from language models severely underestimate the magnitude of human garden path effects. In this work, we consider whether this underestimation is due to the fact that humans weight syntactic factors in their predictions more highly than language models do. We propose a method for estimating syntactic predictability from a language model, allowing us to weigh the cost of lexical and syntactic predictability independently. We find that treating syntactic predictability independently from lexical predictability indeed results in larger estimates of garden path. At the same time, even when syntactic predictability is independently weighted, surprisal still greatly underestimate the magnitude of human garden path effects. Our results support the hypothesis that predictability is not the only factor responsible for the processing cost associated with garden path sentences.
翻訳日:2022-10-25 15:41:10 公開日:2022-10-21
# MixMT 2022におけるGui: コード混合データの翻訳のためのMTアプローチ

Gui at MixMT 2022 : English-Hinglish: An MT approach for translation of code mixed data ( http://arxiv.org/abs/2210.12215v1 )

ライセンス: Link先を確認
Akshat Gahoi, Jayant Duneja, Anshul Padhi, Shivam Mangale, Saransh Rajput, Tanvi Kamble, Dipti Misra Sharma, Vasudeva Varma(参考訳) コード混合機械翻訳は多言語コミュニティにおいて重要な課題となり、これらの言語では機械翻訳のタスクをコード混合データに拡張することが一般的な課題となっている。 WMT 2022の共通タスクでは、英語+ヒンディー語、ヒングリッシュ語、ヒングリッシュ語の両方で同じことを試みています。 第1のタスクはローマ文字とデヴァナガリー文字の両方を扱うものであり、第2のタスクはローマ文字のデータしか持っていなかった。 我々の知る限り、私たちはモノリンガルからコードミクシング機械翻訳の最初のタスクにおいて、ROUGE-LとWERの上位スコアの1つを達成しました。 本稿では,mBARTを特別な前処理と後処理(デバナガリからローマ語への翻訳)に使用すること,およびコード混在のヒングリッシュをモノリンガル英語に翻訳する第2のタスクで実施した実験について論じる。

Code-mixed machine translation has become an important task in multilingual communities and extending the task of machine translation to code mixed data has become a common task for these languages. In the shared tasks of WMT 2022, we try to tackle the same for both English + Hindi to Hinglish and Hinglish to English. The first task dealt with both Roman and Devanagari script as we had monolingual data in both English and Hindi whereas the second task only had data in Roman script. To our knowledge, we achieved one of the top ROUGE-L and WER scores for the first task of Monolingual to Code-Mixed machine translation. In this paper, we discuss the use of mBART with some special pre-processing and post-processing (transliteration from Devanagari to Roman) for the first task in detail and the experiments that we performed for the second task of translating code-mixed Hinglish to monolingual English.
翻訳日:2022-10-25 15:40:45 公開日:2022-10-21
# 教師付き学習によるインプシットオフライン強化学習

Implicit Offline Reinforcement Learning via Supervised Learning ( http://arxiv.org/abs/2210.12272v1 )

ライセンス: Link先を確認
Alexandre Piche, Rafael Pardinas, David Vazquez, Igor Mordatch, Chris Pal(参考訳) オフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。 教師付き学習および行動クローニング(bc)と同じくらい単純であるが、戻り情報を利用する。 同様の専門知識を持つポリシーによって収集されたデータセットでは、暗黙のbcは明示的なbcと一致するか、または上回ることが示されている。 BCを介してロボットスキルを学ぶために暗黙のモデルを使用することの利点にもかかわらず、Supervised LearningアルゴリズムによるオフラインRLは明示的なモデルに限定されている。 我々は,暗黙のモデルが回帰情報を活用し,明示的なアルゴリズムにマッチあるいは超越して,固定データセットからロボットのスキルを身につける方法を示す。 さらに,教師付き学習アルゴリズムを用いて,暗黙的手法と他の人気rlとの密接な関係を示し,統一フレームワークを提供する。 最後に,本手法が高次元操作および移動作業に与える影響を実証する。

Offline Reinforcement Learning (RL) via Supervised Learning is a simple and effective way to learn robotic skills from a dataset collected by policies of different expertise levels. It is as simple as supervised learning and Behavior Cloning (BC), but takes advantage of return information. On datasets collected by policies of similar expertise, implicit BC has been shown to match or outperform explicit BC. Despite the benefits of using implicit models to learn robotic skills via BC, offline RL via Supervised Learning algorithms have been limited to explicit models. We show how implicit models can leverage return information and match or outperform explicit algorithms to acquire robotic skills from fixed datasets. Furthermore, we show the close relationship between our implicit methods and other popular RL via Supervised Learning algorithms to provide a unified framework. Finally, we demonstrate the effectiveness of our method on high-dimension manipulation and locomotion tasks.
翻訳日:2022-10-25 15:24:35 公開日:2022-10-21
# 確率的近距離アルゴリズム

The Stochastic Proximal Distance Algorithm ( http://arxiv.org/abs/2210.12277v1 )

ライセンス: Link先を確認
Haoyu Jiang, Jason Xu(参考訳) 近位法の確率的バージョンは統計学や機械学習で多くの注目を集めている。 これらのアルゴリズムは単純でスケーラブルな形式を認め、暗黙の更新を通じて数値的な安定性を享受する傾向がある。 本研究では,最近提案された近距離アルゴリズムの確率バージョン,すなわち所望の制約付き推定問題をペナルティパラメータ$\rho \rightarrow \infty$として回復する反復最適化手法のクラスを提案し,解析する。 関連する確率的近位法との関係を明らかにし, ペナルティパラメータを学習率として解釈することにより, 近位距離法の実用的証明に用いるヒューリスティックスを正当化し, 収束保証を初めて確立する。 さらに,近年の理論装置を拡張し,有限誤差境界の確立と収束率レジームの完全特徴付けを行った。 また,提案手法が一般的な学習タスクのバッチ版を上回っていることも明らかにしている。

Stochastic versions of proximal methods have gained much attention in statistics and machine learning. These algorithms tend to admit simple, scalable forms, and enjoy numerical stability via implicit updates. In this work, we propose and analyze a stochastic version of the recently proposed proximal distance algorithm, a class of iterative optimization methods that recover a desired constrained estimation problem as a penalty parameter $\rho \rightarrow \infty$. By uncovering connections to related stochastic proximal methods and interpreting the penalty parameter as the learning rate, we justify heuristics used in practical manifestations of the proximal distance method, establishing their convergence guarantees for the first time. Moreover, we extend recent theoretical devices to establish finite error bounds and a complete characterization of convergence rates regimes. We validate our analysis via a thorough empirical study, also showing that unsurprisingly, the proposed method outpaces batch versions on popular learning tasks.
翻訳日:2022-10-25 15:24:21 公開日:2022-10-21
# 有害薬物反応分類のためのテキストおよび薬物埋め込みによるマルチモーダルモデル

Multimodal Model with Text and Drug Embeddings for Adverse Drug Reaction Classification ( http://arxiv.org/abs/2210.13238v1 )

ライセンス: Link先を確認
Andrey Sakhovskiy and Elena Tutubalina(参考訳) 本稿では、有害薬物効果(ADE)や薬物反応(ADR)の潜在的なシグナル源としてのツイートの分類に焦点をあてる。 テキスト表現と薬物構造表現が相補的であるという直感に従って,2成分のマルチモーダルモデルを導入する。 これらのコンポーネントは、言語理解と分子特性予測のための最先端のBERTベースのモデルである。 ソーシャル・メディア・マイニング・フォー・ヘルス・リサーチ・アンド・アプリケーション(#SMM4H)イニシアチブの多言語ベンチマークで実験を行った。 我々のモデルでは,#SMM4H 2021で0.61 F1,#SMM4H 2021で0.57 F1を得た。 SMM4H 2020 Task 1のフランス語ツイートの分類について、我々のアプローチは、芸術の状態を8%の利得で押し上げます。 実験により,ニューラルネットワークから得られた分子情報は従来の分子ディスクリプタよりもade分類に有用であることが示された。 私たちのモデルのソースコードはhttps://github.com/andoree/smm4h_2021_classificationで無料で利用できます。

In this paper, we focus on the classification of tweets as sources of potential signals for adverse drug effects (ADEs) or drug reactions (ADRs). Following the intuition that text and drug structure representations are complementary, we introduce a multimodal model with two components. These components are state-of-the-art BERT-based models for language understanding and molecular property prediction. Experiments were carried out on multilingual benchmarks of the Social Media Mining for Health Research and Applications (#SMM4H) initiative. Our models obtained state-of-the-art results of 0.61 F1 and 0.57 F1 on #SMM4H 2021 Shared Tasks 1a and 2 in English and Russian, respectively. On the classification of French tweets from SMM4H 2020 Task 1, our approach pushes the state of the art by an absolute gain of 8% F1. Our experiments show that the molecular information obtained from neural networks is more beneficial for ADE classification than traditional molecular descriptors. The source code for our models is freely available at https://github.com/Andoree/smm4h_2021_classification.
翻訳日:2022-10-25 15:07:53 公開日:2022-10-21
# 2入力シーケンスパターンを学習・認識する訓練可能なシーケンス学習者

A Trainable Sequence Learner that Learns and Recognizes Two-Input Sequence Patterns ( http://arxiv.org/abs/2210.12193v1 )

ライセンス: Link先を確認
Jan Hohenheim, Zhaoyu Devon Liu, Tommaso Stecconi, Pietro Palopoli(参考訳) 本稿では,2つの入力の時間列を検出するアナログ回路の設計について述べる。 訓練フェーズは、所望のシーケンスを回路に供給することで行われ、訓練が完了した後、訓練されたシーケンスが再び遭遇するたびに、回路は正しい認識信号を発する。 配列は数十ナノ秒の順序である。 最初の設計では、トレーニングされたシーケンスを実行時にリセットできるが、入力の非常に厳密なタイミングを前提としている。 第2の設計は一度しか訓練できないが、入力のタイミングに寛大である。

We present two designs for an analog circuit that can learn to detect a temporal sequence of two inputs. The training phase is done by feeding the circuit with the desired sequence and, after the training is completed, each time the trained sequence is encountered again the circuit will emit a signal of correct recognition. Sequences are in the order of tens of nanoseconds. The first design can reset the trained sequence on runtime but assumes very strict timing of the inputs. The second design can only be trained once but is lenient in the input's timing.
翻訳日:2022-10-25 15:07:33 公開日:2022-10-21
# 正規化マルコフ決定過程におけるブレグマン分岐と値の関係について

On the connection between Bregman divergence and value in regularized Markov decision processes ( http://arxiv.org/abs/2210.12160v1 )

ライセンス: Link先を確認
Brendan O'Donoghue(参考訳) 本稿では, 正規化マルコフ決定過程において, 現在の政策から最適政策へのブレグマン偏差と, 現在の値関数の準最適性との関係を導出する。 この結果は,マルチタスク強化学習,オフライン強化学習,および関数近似による後悔の分析などに影響を及ぼす。

In this short note we derive a relationship between the Bregman divergence from the current policy to the optimal policy and the suboptimality of the current value function in a regularized Markov decision process. This result has implications for multi-task reinforcement learning, offline reinforcement learning, and regret analysis under function approximation, among others.
翻訳日:2022-10-25 15:06:44 公開日:2022-10-21
# 変圧器部分放電の特徴工学と分類モデル

Feature Engineering and Classification Models for Partial Discharge in Power Transformers ( http://arxiv.org/abs/2210.12216v1 )

ライセンス: Link先を確認
Jonathan Wang, Kesheng Wu, Alex Sim, Seongwook Hwangbo(参考訳) 信頼性を確保するため、変圧器故障の症状である部分放電(PD)イベントに対して電力変換器が監視される。 障害は破滅的なカスケードを引き起こす可能性があるため、できるだけ早く先延ばしすることが重要である。 我々の目標は、PDをコロナ、フローティング、粒子、またはヴォイドに分類し、故障箇所の理解を得ることです。 位相分解されたPD信号データを用いて、PDを高精度に分類できる小さな特徴セットを作成する。 この特徴は、全等級、最大等級、最長空バンドの長さからなる。 これらの特徴は単一の位相ではなく信号全体を表すため、特徴集合は固定サイズであり、容易に理解することができる。 ランダムフォレスト法とSVM分類法の両方で99%の分類精度が得られ、位相等級などの位相ベース特徴集合を用いた分類よりもかなり高い値が得られる。 さらに,複数の分類モデルを組み合わせた積み重ねアンサンブルを開発し,精度と分散性の両方で既存手法より優れた性能を示す。

To ensure reliability, power transformers are monitored for partial discharge (PD) events, which are symptoms of transformer failure. Since failures can have catastrophic cascading consequences, it is critical to preempt them as early as possible. Our goal is to classify PDs as corona, floating, particle, or void, to gain an understanding of the failure location. Using phase resolved PD signal data, we create a small set of features, which can be used to classify PDs with high accuracy. This set of features consists of the total magnitude, the maximum magnitude, and the length of the longest empty band. These features represent the entire signal and not just a single phase, so the feature set has a fixed size and is easily comprehensible. With both Random Forest and SVM classification methods, we attain a 99% classification accuracy, which is significantly higher than classification using phase based feature sets such as phase magnitude. Furthermore, we develop a stacking ensemble to combine several classification models, resulting in a superior model that outperforms existing methods in both accuracy and variance.
翻訳日:2022-10-25 15:06:37 公開日:2022-10-21
# 大きなバッチサイズで学習したディープニューラルネットワークの一般化ギャップ理解のための新しい視点

A New Perspective for Understanding Generalization Gap of Deep Neural Networks Trained with Large Batch Sizes ( http://arxiv.org/abs/2210.12184v1 )

ライセンス: Link先を確認
Oyebade K. Oyedotun and Konstantinos Papadopoulos and Djamila Aouada(参考訳) ディープニューラルネットワーク(DNN)は通常、様々な種類のミニバッチ勾配勾配アルゴリズムを用いて最適化される。 ミニバッチ勾配降下の主な動機は、適度に選択されたバッチサイズで、利用可能な計算リソースを(並列化を含む)高速モデルのトレーニングに最適に利用できることである。 しかし、訓練バッチサイズが一定の限界を超えると、モデル一般化の進行的な損失が報告される。 これは一般に一般化ギャップと呼ばれるシナリオである。 一般化ギャップ問題を緩和するための様々な方法が提案されているが、一般化ギャップを理解するための一意的な説明は文献にはまだ欠けている。 最近の研究で、学習率のスケーリングやトレーニング予算の増大といった一般化ギャップ問題に対するいくつかの解決策が実際に解決しないことが示されているため、これは特に重要である。 そこで本稿では,大規模なバッチサイズで訓練されたdnnの一般化損失の発生源について,新たな視点を考察し,提示する。 分析の結果,大規模な訓練バッチサイズは単位のアクティベーション(すなわち出力)テンソルの近距離損失を増大させ,結果としてモデルの最適化と一般化に影響を及ぼすことが示された。 CIFAR-10、CIFAR-100、Fashion-MNIST、MNISTデータセットを用いて、VGG-16、残留ネットワーク(ResNet-56)、LeNet-5などの一般的なDNNモデルの検証を行う。

Deep neural networks (DNNs) are typically optimized using various forms of mini-batch gradient descent algorithm. A major motivation for mini-batch gradient descent is that with a suitably chosen batch size, available computing resources can be optimally utilized (including parallelization) for fast model training. However, many works report the progressive loss of model generalization when the training batch size is increased beyond some limits. This is a scenario commonly referred to as generalization gap. Although several works have proposed different methods for alleviating the generalization gap problem, a unanimous account for understanding generalization gap is still lacking in the literature. This is especially important given that recent works have observed that several proposed solutions for generalization gap problem such learning rate scaling and increased training budget do not indeed resolve it. As such, our main exposition in this paper is to investigate and provide new perspectives for the source of generalization loss for DNNs trained with a large batch size. Our analysis suggests that large training batch size results in increased near-rank loss of units' activation (i.e. output) tensors, which consequently impacts model optimization and generalization. Extensive experiments are performed for validation on popular DNN models such as VGG-16, residual network (ResNet-56) and LeNet-5 using CIFAR-10, CIFAR-100, Fashion-MNIST and MNIST datasets.
翻訳日:2022-10-25 14:48:40 公開日:2022-10-21
# 反事実的説明による拡張 -- 過信な分類器の修正

Augmentation by Counterfactual Explanation -- Fixing an Overconfident Classifier ( http://arxiv.org/abs/2210.12196v1 )

ライセンス: Link先を確認
Sumedha Singla and Nihal Murali and Forough Arabshahi and Sofia Triantafyllou and Kayhan Batmanghelich(参考訳) 正確だが自信過剰なモデルは、医療や自動運転のような重要なアプリケーションへのデプロイに適している。 分類結果は、決定境界に近い不明瞭な分布内サンプルに対する高い不確実性を反映すべきである。 モデルはまた、トレーニング分布から遠く離れたサンプル、遠方分布(far-ood)、またはトレーニング分布(near-ood)に近い新しいクラスからの見えないサンプルについて、自信過剰な決定を行うことを控えるべきである。 本稿では,自信過剰な分類器の修正における反事実的説明の応用を提案する。 具体的には、その予測性能を維持しつつ、その不確かさ特性を修正するために、反現実的説明器(ACE)の強化を用いた事前学習型分類器の微調整を提案する。 遠近法, 近近法, あいまいな試料を検知し, 広範囲にわたる実験を行った。 実験の結果,修正されたモデルでは不確実性対策が改善しており,その性能は最先端の手法と競合していることがわかった。

A highly accurate but overconfident model is ill-suited for deployment in critical applications such as healthcare and autonomous driving. The classification outcome should reflect a high uncertainty on ambiguous in-distribution samples that lie close to the decision boundary. The model should also refrain from making overconfident decisions on samples that lie far outside its training distribution, far-out-of-distribution (far-OOD), or on unseen samples from novel classes that lie near its training distribution (near-OOD). This paper proposes an application of counterfactual explanations in fixing an over-confident classifier. Specifically, we propose to fine-tune a given pre-trained classifier using augmentations from a counterfactual explainer (ACE) to fix its uncertainty characteristics while retaining its predictive performance. We perform extensive experiments with detecting far-OOD, near-OOD, and ambiguous samples. Our empirical results show that the revised model have improved uncertainty measures, and its performance is competitive to the state-of-the-art methods.
翻訳日:2022-10-25 14:48:15 公開日:2022-10-21
# 医用画像における不均衡分類

Imbalanced Classification in Medical Imaging ( http://arxiv.org/abs/2210.12234v1 )

ライセンス: Link先を確認
Le Peng, Yash Travadi, Rui Zhang, Ying Cui, Ju Sun(参考訳) 多数派クラスを小クラスに再分類することで不均衡な分類を行うことを提案する。 この新たなアイデアは、一般的な損失重み付けやクラスリサンプリングメソッドとは大きく異なる。 不均衡医用画像分類に関する予備的な結果から,この自然な考え方は,平均精度(精度のバランスのとれた他の指標よりも不均衡分類を評価するのに適する)によって,分類性能を著しく向上させることができることが示された。

We propose performing imbalanced classification by regrouping majority classes into small classes so that we turn the problem into balanced multiclass classification. This new idea is dramatically different from popular loss reweighting and class resampling methods. Our preliminary result on imbalanced medical image classification shows that this natural idea can substantially boost the classification performance as measured by average precision (approximately area-under-the-precision-recall-curve, or AUPRC), which is more appropriate for evaluating imbalanced classification than other metrics such as balanced accuracy.
翻訳日:2022-10-25 14:47:56 公開日:2022-10-21
# 非等方性ガウス雑音モデルを用いたスコアベースデノイング拡散

Score-based Denoising Diffusion with Non-Isotropic Gaussian Noise Models ( http://arxiv.org/abs/2210.12254v1 )

ライセンス: Link先を確認
Vikram Voleti and Christopher Pal and Adam Oberman(参考訳) ノイズ拡散技術に基づく生成モデルは、神経生成モデルで作成可能な画像の品質と多様性を前例のない増加に導いた。 しかし、現代の最先端の手法のほとんどは標準の等方性ガウス式から導かれる。 本研究では,非等方性ガウス分布を用いる状況について検討する。 基礎となる非等方的ガウス雑音モデルを用いて,非等方的拡散モデルを生成するための重要な数学的導出について述べる。 我々はまた、このより一般的なモデリング手法が高品質なサンプルも得ることを実証的に検証するための初期実験も提供する。

Generative models based on denoising diffusion techniques have led to an unprecedented increase in the quality and diversity of imagery that is now possible to create with neural generative models. However, most contemporary state-of-the-art methods are derived from a standard isotropic Gaussian formulation. In this work we examine the situation where non-isotropic Gaussian distributions are used. We present the key mathematical derivations for creating denoising diffusion models using an underlying non-isotropic Gaussian noise model. We also provide initial experiments to help verify empirically that this more general modelling approach can also yield high-quality samples.
翻訳日:2022-10-25 14:47:44 公開日:2022-10-21
# 分類を超えた校正試験

Calibration tests beyond classification ( http://arxiv.org/abs/2210.13355v1 )

ライセンス: Link先を確認
David Widmann, Fredrik Lindsten, Dave Zachariah(参考訳) 教師付き機械学習タスクのほとんどは、既約予測エラーの対象となる。 確率論的予測モデルは、点推定ではなく、可算目標に対する信念を表す確率分布を提供することによって、この制限に対処する。 そのようなモデルは、モデルアウトプットが有意義で解釈可能であれば、不確実性の下で意思決定において貴重なツールとなる。 校正されたモデルは、確率的予測が過剰でも不確実でもないことを保証する。 機械学習の文献では,分類モデルの校正性を評価するために,様々な測度と統計検査が提案されている。 しかし回帰問題については,実数値目標に対する予測量に基づくキャリブレーションの弱化に着目している。 本稿では,一般的な確率的予測モデルのキャリブレーション評価とテストを統合する最初のフレームワークを提案する。 これは任意の次元の分類や回帰モデルを含む任意のモデルに適用される。 さらに、既存の対策を一般化し、最近提案されたマルチクラス分類のキャリブレーションの枠組みをより直感的に改革する。 特に,スカラー値カーネルを用いたカーネルキャリブレーション誤差,推定値,仮説検定の修正と一般化を行い,実数値回帰問題のキャリブレーション評価を行った。

Most supervised machine learning tasks are subject to irreducible prediction errors. Probabilistic predictive models address this limitation by providing probability distributions that represent a belief over plausible targets, rather than point estimates. Such models can be a valuable tool in decision-making under uncertainty, provided that the model output is meaningful and interpretable. Calibrated models guarantee that the probabilistic predictions are neither over- nor under-confident. In the machine learning literature, different measures and statistical tests have been proposed and studied for evaluating the calibration of classification models. For regression problems, however, research has been focused on a weaker condition of calibration based on predicted quantiles for real-valued targets. In this paper, we propose the first framework that unifies calibration evaluation and tests for general probabilistic predictive models. It applies to any such model, including classification and regression models of arbitrary dimension. Furthermore, the framework generalizes existing measures and provides a more intuitive reformulation of a recently proposed framework for calibration in multi-class classification. In particular, we reformulate and generalize the kernel calibration error, its estimators, and hypothesis tests using scalar-valued kernels, and evaluate the calibration of real-valued regression problems.
翻訳日:2022-10-25 14:38:46 公開日:2022-10-21
# 逐次勾配降下と準ニュートン法による変化点解析

Sequential Gradient Descent and Quasi-Newton's Method for Change-Point Analysis ( http://arxiv.org/abs/2210.12235v1 )

ライセンス: Link先を確認
Xianyang Zhang and Trisha Dawn(参考訳) 変更点を検出する一般的なアプローチのひとつは、変更点の可能な数と場所に対するコスト関数の最小化である。 このフレームワークには、ペナル化可能性や最小記述長など、確立された手順がいくつか含まれている。 このようなアプローチでは、データセットの異なるセグメントに対して繰り返しコスト値を見つける必要があります。 (i)データシーケンスが長いこと 2) コスト値を得るには、非自明な最適化問題を解く必要がある。 本稿では, 勾配降下法 (SeGD) と準ニュートン法 (SeN) とを結合し, コストを効果的に求める新しいシーケンシャル手法 (SE) を提案する。 核となるアイデアは、目的関数を再最適化することなく、以前のステップの情報を使用してコスト値を更新することである。 一般化線形モデルとペナリゼーションモデルにおける変化点検出に新しい手法を適用した。 数値計算により,新しい手法は推定精度を犠牲にすることなく,Pruned Exact Linear Time (PELT)法よりも桁違いに高速であることが示された。

One common approach to detecting change-points is minimizing a cost function over possible numbers and locations of change-points. The framework includes several well-established procedures, such as the penalized likelihood and minimum description length. Such an approach requires finding the cost value repeatedly over different segments of the data set, which can be time-consuming when (i) the data sequence is long and (ii) obtaining the cost value involves solving a non-trivial optimization problem. This paper introduces a new sequential method (SE) that can be coupled with gradient descent (SeGD) and quasi-Newton's method (SeN) to find the cost value effectively. The core idea is to update the cost value using the information from previous steps without re-optimizing the objective function. The new method is applied to change-point detection in generalized linear models and penalized regression. Numerical studies show that the new approach can be orders of magnitude faster than the Pruned Exact Linear Time (PELT) method without sacrificing estimation accuracy.
翻訳日:2022-10-25 14:30:27 公開日:2022-10-21
# 確率モデルと確率シミュレータの不確かさ

Uncertain Evidence in Probabilistic Models and Stochastic Simulators ( http://arxiv.org/abs/2210.12236v1 )

ライセンス: Link先を確認
Andreas Munk, Alexander Mead and Frank Wood(参考訳) 我々は、観測が不確実性を伴う確率モデルにおいて、ベイズ的推論を行うという問題について考察する。 多くの実世界のシナリオでは、そのような不確実性は確率モデルにおける観測可能な量の測定誤差に起因する。 我々は、不確定な証拠を解釈する方法や、潜在変数の推論に関連する適切な解釈の重要性について検討する。 我々は、最近提案された「確率的証拠」法と、ジェフリーの規則と仮想証拠の2つの古い方法を再検討する。 我々は、不確実な証拠を説明するための具体的なガイドラインを考案し、特に一貫性に関する新しい洞察を提供する。 同じ不確定な証拠の異なる解釈の影響を示すために、各解釈に関連付けられた推論結果を比較する実験を行った。

We consider the problem of performing Bayesian inference in probabilistic models where observations are accompanied by uncertainty, referred to as `uncertain evidence'. In many real-world scenarios, such uncertainty stems from measurement errors associated with observable quantities in probabilistic models. We explore how to interpret uncertain evidence, and by extension the importance of proper interpretation as it pertains to inference about latent variables. We consider a recently-proposed method `stochastic evidence' as well as revisit two older methods: Jeffrey's rule and virtual evidence. We devise concrete guidelines on how to account for uncertain evidence and we provide new insights, particularly regarding consistency. To showcase the impact of different interpretations of the same uncertain evidence, we carry out experiments in which we compare inference results associated with each interpretation.
翻訳日:2022-10-25 14:30:10 公開日:2022-10-21
# 一般バイアス分散分解による予測の不確かさ推定

Uncertainty Estimates of Predictions via a General Bias-Variance Decomposition ( http://arxiv.org/abs/2210.12256v1 )

ライセンス: Link先を確認
Sebastian Gruber, Florian Buettner(参考訳) モデルライフサイクル全体を通して予測の不確実性を確実に推定することは、多くの安全クリティカルなアプリケーションにおいて重要である。 この不確実性を測定する最も一般的な方法は、予測された信頼性である。 これはドメイン内のサンプルではうまく機能するが、これらの推定はドメインのドリフト下では信頼できない。 あるいは、バイアス分散分解により、入力空間全体にわたって予測の不確実性を直接測定することができる。 しかし、そのような適切なスコアの分解は現在の文献には存在せず、指数関数系では畳み込まれている。 本研究では, 固有スコアに対する一般バイアス分散分解を導入し, 指数関数的ファミリーケースを再構成し, ブレグマン情報を分散項として生成する。 これにより、分類のためのBregman Informationがロジット空間の不確実性を測定することが証明できる。 2つの下流タスクにおけるこの分解の実践的妥当性を示す。 まず,Bregman 情報に基づく,インスタンスレベルの予測のための信頼区間を構築する方法を示す。 第2に、インスタンスレベルのBregman Informationの異なる近似が、すべてのドメインドリフトの信頼性の高いアウト・オブ・ディストリビューション検出を可能にすることを示す。

Reliably estimating the uncertainty of a prediction throughout the model lifecycle is crucial in many safety-critical applications. The most common way to measure this uncertainty is via the predicted confidence. While this tends to work well for in-domain samples, these estimates are unreliable under domain drift. Alternatively, a bias-variance decomposition allows to directly measure the predictive uncertainty across the entire input space. But, such a decomposition for proper scores does not exist in current literature, and for exponential families it is convoluted. In this work, we introduce a general bias-variance decomposition for proper scores and reformulate the exponential family case, giving rise to the Bregman Information as the variance term in both cases. This allows us to prove that the Bregman Information for classification measures the uncertainty in the logit space. We showcase the practical relevance of this decomposition on two downstream tasks. First, we show how to construct confidence intervals for predictions on the instance-level based on the Bregman Information. Second, we demonstrate how different approximations of the instance-level Bregman Information allow reliable out-of-distribution detection for all degrees of domain drift.
翻訳日:2022-10-25 14:29:59 公開日:2022-10-21
# ドラフト, スケッチ, 証明: 形式的証明による形式的定理証明の指導

Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs ( http://arxiv.org/abs/2210.12283v1 )

ライセンス: Link先を確認
Albert Q. Jiang, Sean Welleck, Jin Peng Zhou, Wenda Li, Jiacheng Liu, Mateja Jamnik, Timoth\'ee Lacroix, Yuhuai Wu, Guillaume Lample(参考訳) 既存の数学的証明の形式化は、非常に難しいプロセスである。 自動化と証明アシスタントに関する何十年もの研究にもかかわらず、正式な証明を書くことは困難であり、少数の専門家にしかアクセスできない。 これまでは、強力な検索アルゴリズムに焦点をあてて形式化を自動化する研究が行われてきたが、非公式な証明を活用する試みは行われなかった。 本研究では,非公式な証明を形式的な証明スケッチにマッピングするDraft, Sketch, Prove (DSP)を導入し,そのスケッチを用いて自動証明を誘導し,サブプロブレムの検索を容易にする手法を提案する。 非公式な証明が人間によって書かれるか、言語モデルによって生成されるかの2つの関連する設定について検討する。 我々の実験とアブレーションの研究は、大きな言語モデルが形式的証明と同じ推論ステップに従って、十分に構造化された形式的スケッチを作成できることを示しています。 これらのスケッチによる自動証明器の誘導は、数学的な競合問題の集合において、その性能を20.9%から39.3%に向上させる。

The formalization of existing mathematical proofs is a notoriously difficult process. Despite decades of research on automation and proof assistants, writing formal proofs remains arduous and only accessible to a few experts. While previous studies to automate formalization focused on powerful search algorithms, no attempts were made to take advantage of available informal proofs. In this work, we introduce Draft, Sketch, and Prove (DSP), a method that maps informal proofs to formal proof sketches, and uses the sketches to guide an automated prover by directing its search to easier sub-problems. We investigate two relevant setups where informal proofs are either written by humans or generated by a language model. Our experiments and ablation studies show that large language models are able to produce well-structured formal sketches that follow the same reasoning steps as the informal proofs. Guiding an automated prover with these sketches enhances its performance from 20.9% to 39.3% on a collection of mathematical competition problems.
翻訳日:2022-10-25 14:22:38 公開日:2022-10-21
# アラビア語におけるゼロと非ゼロの合同比較分解能

Joint Coreference Resolution for Zeros and non-Zeros in Arabic ( http://arxiv.org/abs/2210.12169v1 )

ライセンス: Link先を確認
Abdulrahman Aloraini and Sameer Pradhan and Massimo Poesio(参考訳) anaphoric zero pronoun (azp) 解決に関する既存の提案のほとんどは、完全参照コリファレンスと azp 分解を2つの独立したタスクと見なす。 ゼロとゼロ以外の言及のための共同モデルを開発するのに必要な主な問題は、2つのタイプの議論(ゼロ代名詞はnullであり、名目情報を提供しない)と、2つのタイプの議論が中国語と日本語以外の言語にアノテートされる適切な大きさの注釈付きデータセットの欠如である。 本稿では,azpsと非azpsを共同で解くための2つのアーキテクチャを紹介し,それらのアーキテクチャをアラビア語で評価する。 また、CoNLL-2012共有タスク(Pradhan et al.,2012)で使用される標準コア参照解決データセットのアラビア部分集合の新バージョンを作成し、ゼロと非ゼロの両方を単一のデータセットに含める必要があった。

Most existing proposals about anaphoric zero pronoun (AZP) resolution regard full mention coreference and AZP resolution as two independent tasks, even though the two tasks are clearly related. The main issues that need tackling to develop a joint model for zero and non-zero mentions are the difference between the two types of arguments (zero pronouns, being null, provide no nominal information) and the lack of annotated datasets of a suitable size in which both types of arguments are annotated for languages other than Chinese and Japanese. In this paper, we introduce two architectures for jointly resolving AZPs and non-AZPs, and evaluate them on Arabic, a language for which, as far as we know, there has been no prior work on joint resolution. Doing this also required creating a new version of the Arabic subset of the standard coreference resolution dataset used for the CoNLL-2012 shared task (Pradhan et al.,2012) in which both zeros and non-zeros are included in a single dataset.
翻訳日:2022-10-25 14:04:43 公開日:2022-10-21
# スパイク・リカレント・ウィンナー・テイク・オールネットワークを用いた生物プラズブル変分政策

Biologically Plausible Variational Policy Gradient with Spiking Recurrent Winner-Take-All Networks ( http://arxiv.org/abs/2210.13225v1 )

ライセンス: Link先を確認
Zhile Yang, Shangqi Guo, Ying Fang, Jian K. Liu(参考訳) 強化学習研究の1つの流れは、生物学的に妥当なモデルとアルゴリズムを探求し、生物学的知能をシミュレートし、ニューロモルフィックなハードウェアに適合させる。 その中でも,r-stdp(reward-modulated spike-timing-dependent plasticity)はエネルギー効率に優れた近年の分野である。 しかし、現在のR-STDP法は局所学習規則のヒューリスティックな設計に依存しており、タスク固有の専門知識を必要とする。 本稿では, 局所学習規則をグローバルな政策勾配から導出し, ヒューリスティックな設計の必要性を排除した新たなR-STDP手法を提案する。 MNIST分類とGym InvertedPendulumの実験では,SVPGは訓練性能が良好であり,従来の手法よりも各種ノイズに対する堅牢性も良好である。

One stream of reinforcement learning research is exploring biologically plausible models and algorithms to simulate biological intelligence and fit neuromorphic hardware. Among them, reward-modulated spike-timing-dependent plasticity (R-STDP) is a recent branch with good potential in energy efficiency. However, current R-STDP methods rely on heuristic designs of local learning rules, thus requiring task-specific expert knowledge. In this paper, we consider a spiking recurrent winner-take-all network, and propose a new R-STDP method, spiking variational policy gradient (SVPG), whose local learning rules are derived from the global policy gradient and thus eliminate the need for heuristic designs. In experiments of MNIST classification and Gym InvertedPendulum, our SVPG achieves good training performance, and also presents better robustness to various kinds of noises than conventional methods.
翻訳日:2022-10-25 13:55:08 公開日:2022-10-21
# ニューラルラジアンスフィールドシーン再構成の探索:合成, 実世界, 動的シーン

An Exploration of Neural Radiance Field Scene Reconstruction: Synthetic, Real-world and Dynamic Scenes ( http://arxiv.org/abs/2210.12268v1 )

ライセンス: Link先を確認
Benedict Quartey, Tuluhan Akbulut, Wasiwasi Mgonzo, Zheng Xin Yong(参考訳) 本研究は,Neural Radiance Field (NeRF) を用いた合成・実世界の3次元シーン再構成の探索である。 我々は主に、ニューラルネットワークプリミティブのトレーニングとレンダリング時間の短縮を利用して、静的なビデオゲームシーンと現実のシーンを再構成し、再構成の詳細と制限を比較し、観察する。 さらに、ダイナミックシーン(D-NeRF)のためのニューラルレイディアンス場を用いた動的シーン再構成について検討する。 最後に,D-NeRFの実装を拡張した。D-NeRFは,合成シーンを現実の動的シーンも扱えるように制約されていた。

This project presents an exploration into 3D scene reconstruction of synthetic and real-world scenes using Neural Radiance Field (NeRF) approaches. We primarily take advantage of the reduction in training and rendering time of neural graphic primitives multi-resolution hash encoding, to reconstruct static video game scenes and real-world scenes, comparing and observing reconstruction detail and limitations. Additionally, we explore dynamic scene reconstruction using Neural Radiance Fields for Dynamic Scenes(D-NeRF). Finally, we extend the implementation of D-NeRF, originally constrained to handle synthetic scenes to also handle real-world dynamic scenes.
翻訳日:2022-10-25 13:54:52 公開日:2022-10-21
# Z-LaVI:ビジュアルイマジネーションによるゼロショット言語解法

Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination ( http://arxiv.org/abs/2210.12261v1 )

ライセンス: Link先を確認
Yue Yang, Wenlin Yao, Hongming Zhang, Xiaoyang Wang, Dong Yu, Jianshu Chen(参考訳) 大規模事前訓練型言語モデルは、下流言語理解タスクの解決に大きな進歩をもたらした。 しかし、一般的には「オレンジはオレンジ」など、文章中の明示的な常識知識の欠如を記述した現象である、バイアスの報告に苦しむ。 この制限を克服するため、視覚的想像力を持つ言語モデルを実現する新しいアプローチZ-LaVIを開発した。 具体的には、2つの補完的な「想像」を活用する。 (i)既存の画像の検索・検索によるリコール (ii)テキスト対画像生成による非存在画像の合成 言語入力と想像力を併用して、事前訓練された視覚言語モデル(例えばCLIP)は、最終的に元の言語タスクに対するゼロショットソリューションを構成する。 特に、言語モデルに想像力を加えることで、視覚的な知識を効果的に活用して、平易な言語タスクを解決できる。 その結果、Z-LaVIは様々な言語タスクで既存の言語モデルのゼロショット性能を一貫して改善する。

Large-scale pretrained language models have made significant advances in solving downstream language understanding tasks. However, they generally suffer from reporting bias, the phenomenon describing the lack of explicit commonsense knowledge in written text, e.g., ''an orange is orange''. To overcome this limitation, we develop a novel approach, Z-LaVI, to endow language models with visual imagination capabilities. Specifically, we leverage two complementary types of ''imaginations'': (i) recalling existing images through retrieval and (ii) synthesizing nonexistent images via text-to-image generation. Jointly exploiting the language inputs and the imagination, a pretrained vision-language model (e.g., CLIP) eventually composes a zero-shot solution to the original language tasks. Notably, fueling language models with imagination can effectively leverage visual knowledge to solve plain language tasks. In consequence, Z-LaVI consistently improves the zero-shot performance of existing language models across a diverse set of language tasks.
翻訳日:2022-10-25 13:46:00 公開日:2022-10-21
# セマンティック・リワードを用いた放射線診断レポートの精度向上

Improving the Factual Correctness of Radiology Report Generation with Semantic Rewards ( http://arxiv.org/abs/2210.12186v1 )

ライセンス: Link先を確認
Jean-Benoit Delbrouck, Pierre Chambon, Christian Bluethgen, Emily Tsai, Omar Almusa, Curtis P. Langlotz(参考訳) 神経画像からテキストへの放射線レポート生成システムは、報告書作成の反復過程を削減し、潜在的な医療エラーを識別することにより、放射線レポートを改善する可能性を秘めている。 これらのシステムはBLEUやCIDErといった広く使われているNLGメトリクスによって測定され、有望な性能を達成した。 しかし、現在のシステムには重大な制限がある。 まず、nlgメトリクスの限界的な改善のみを提供するアーキテクチャの複雑さの増加を示す。 第二に、これらのメトリクスで高いパフォーマンスを達成するこれらのシステムは、トレーニングと評価が不十分なため、必ずしも現実的に完全あるいは一貫性があるとは限らない。 最近の研究では、新しい手法でシステムを大幅に改善できることが示されている。 1) 参照と一致したドメインエンティティの生成と、 2)これらの実体を推論的に一貫した方法で記述する。 これまでのところ、これらの手法は、胸部X線領域に特有でない弱い教師付きアプローチ(ルールベース)と名前付きエンティティ認識システムに依存している。 この制限を克服するため,生成した放射線学報告の事実的完全性と正確性をさらに向上する新しい手法であるRadGraph rewardを提案する。 より正確には、アノテートされた胸部x線レポートとエンティティ間の関係を含むradgraphデータセットを活用する。 2つのオープンラジオロジーレポートデータセットでは、レポートの事実の正しさと完全性を評価する指標の14.2%と25.3%のスコアが大幅に改善されている。

Neural image-to-text radiology report generation systems offer the potential to improve radiology reporting by reducing the repetitive process of report drafting and identifying possible medical errors. These systems have achieved promising performance as measured by widely used NLG metrics such as BLEU and CIDEr. However, the current systems face important limitations. First, they present an increased complexity in architecture that offers only marginal improvements on NLG metrics. Secondly, these systems that achieve high performance on these metrics are not always factually complete or consistent due to both inadequate training and evaluation. Recent studies have shown the systems can be substantially improved by using new methods encouraging 1) the generation of domain entities consistent with the reference and 2) describing these entities in inferentially consistent ways. So far, these methods rely on weakly-supervised approaches (rule-based) and named entity recognition systems that are not specific to the chest X-ray domain. To overcome this limitation, we propose a new method, the RadGraph reward, to further improve the factual completeness and correctness of generated radiology reports. More precisely, we leverage the RadGraph dataset containing annotated chest X-ray reports with entities and relations between entities. On two open radiology report datasets, our system substantially improves the scores up to 14.2% and 25.3% on metrics evaluating the factual correctness and completeness of reports.
翻訳日:2022-10-25 13:29:47 公開日:2022-10-21
# 人生はサーカスであり、我々は道化師である:状況と過程の類似物を自動的に見つける

Life is a Circus and We are the Clowns: Automatically Finding Analogies between Situations and Processes ( http://arxiv.org/abs/2210.12197v1 )

ライセンス: Link先を確認
Oren Sultan, Dafna Shahaf(参考訳) アナロジー作りは、推論、抽象化、フレキシブルな分類、反事実推論といった、今日の最高のaiシステムにも欠けている能力を生み出します。 多くの研究が、新しいドメインに適応できる非脆性システムにとって、アナログが鍵であることを示唆している。 アナロジーの重要性にもかかわらず、NLPコミュニティではほとんど注目されず、ほとんどの研究は単純な単語のアナロジーに焦点を当てた。 より複雑な類似に対処する作業は手作業で構築された大規模な入力表現に大きく依存した。 私たちの入力は、状況やプロセス(例えば、心臓がどのように機能するか、ポンプがどのように機能するか)を記述する、自然言語の手続きテキストのペアです。 私たちの目標は、テキストからエンティティとその関係を自動的に抽出し、関係の類似性に基づいて異なるドメイン間のマッピングを見つけることです(例えば、血液は水にマッピングされます)。 解釈可能でスケーラブルなアルゴリズムを開発し,手続きテキストの87%,認知心理学文献の94%の正確なマッピングを識別できることを実証した。 手続きテキストの大規模なデータセットから類似物を抽出し、79%の精度(データにおける解析精度:3%)が得られることを示す。 最後に,提案アルゴリズムは入力テキストの表現に頑健であることを示す。

Analogy-making gives rise to reasoning, abstraction, flexible categorization and counterfactual inference -- abilities lacking in even the best AI systems today. Much research has suggested that analogies are key to non-brittle systems that can adapt to new domains. Despite their importance, analogies received little attention in the NLP community, with most research focusing on simple word analogies. Work that tackled more complex analogies relied heavily on manually constructed, hard-to-scale input representations. In this work, we explore a more realistic, challenging setup: our input is a pair of natural language procedural texts, describing a situation or a process (e.g., how the heart works/how a pump works). Our goal is to automatically extract entities and their relations from the text and find a mapping between the different domains based on relational similarity (e.g., blood is mapped to water). We develop an interpretable, scalable algorithm and demonstrate that it identifies the correct mappings 87% of the time for procedural texts and 94% for stories from cognitive-psychology literature. We show it can extract analogies from a large dataset of procedural texts, achieving 79% precision (analogy prevalence in data: 3%). Lastly, we demonstrate that our algorithm is robust to paraphrasing the input texts.
翻訳日:2022-10-25 13:29:25 公開日:2022-10-21
# SpaBERT:ジオエンティティ表現のための地理データからの事前学習言語モデル

SpaBERT: A Pretrained Language Model from Geographic Data for Geo-Entity Representation ( http://arxiv.org/abs/2210.12213v1 )

ライセンス: Link先を確認
Zekun Li, Jina Kim, Yao-Yi Chiang, Muhao Chen(参考訳) 名前付き地理的エンティティ(略してgeo-entities)は、多くの地理的データセットの構成要素である。 geo-entityを特徴付けることは、geo-intelligenceやmap comprehensionといった様々なアプリケーションドメインに不可欠である。 我々は,言語的文脈で単語の意味を知るのと同じように,周囲の実体によってジオエンティリティの特徴を知る必要があると仮定する。 そこで本稿では,地理空間データ中の隣接実体に基づく汎用的空間表現を提供する空間言語モデルであるspabertを提案する。 SpaBERTはBERTを拡張して線形化された空間コンテキストをキャプチャし、空間座標埋め込み機構を組み込んで2次元空間内の実体の空間関係を保存する。 SpaBERTは、空間依存を学ぶために、マスク付き言語モデリングとマスク付きエンティティ予測タスクで事前訓練されている。 SpaBERTを2つの下流タスク、ジオエンティタイピングとジオエンティリンクに適用する。 空間的コンテキストを使用しない既存の言語モデルと比較して、SpaBERTは両方のタスクで大幅なパフォーマンス向上を示す。 また,空間座標埋め込みの効果について,様々な設定でSpaBERTから実体表現を解析した。

Named geographic entities (geo-entities for short) are the building blocks of many geographic datasets. Characterizing geo-entities is integral to various application domains, such as geo-intelligence and map comprehension, while a key challenge is to capture the spatial-varying context of an entity. We hypothesize that we shall know the characteristics of a geo-entity by its surrounding entities, similar to knowing word meanings by their linguistic context. Accordingly, we propose a novel spatial language model, SpaBERT, which provides a general-purpose geo-entity representation based on neighboring entities in geospatial data. SpaBERT extends BERT to capture linearized spatial context, while incorporating a spatial coordinate embedding mechanism to preserve spatial relations of entities in the 2-dimensional space. SpaBERT is pretrained with masked language modeling and masked entity prediction tasks to learn spatial dependencies. We apply SpaBERT to two downstream tasks: geo-entity typing and geo-entity linking. Compared with the existing language models that do not use spatial context, SpaBERT shows significant performance improvement on both tasks. We also analyze the entity representation from SpaBERT in various settings and the effect of spatial coordinate embedding.
翻訳日:2022-10-25 13:29:03 公開日:2022-10-21
# Entailer: 推論の忠実で誠実な鎖で質問に答える

Entailer: Answering Questions with Faithful and Truthful Chains of Reasoning ( http://arxiv.org/abs/2210.12217v1 )

ライセンス: Link先を確認
Oyvind Tafjord, Bhavana Dalvi Mishra, Peter Clark(参考訳) 我々のゴールは質問回答システム(QA)であり、その答えが、体系的な推論の連鎖を通じて、自身の内的信念によってどのように示唆されているかを示すことができる。 このような能力は、モデルがなぜその答えを生み出したのかをよりよく理解することを可能にする。 我々のアプローチは、トレーニングされた後方連鎖モデルと、回答仮説を含む一連の前提を生成することの可能なモデルと、モデル自体が自己クエリを通じてそれらの前提(およびそれ自身)を信じることを確認する検証器を、再帰的に組み合わせることです。 私たちの知る限りでは、これは忠実(解答は推論から従う)と真理(連鎖はシステムの内的信念を反映している)の両方の多段階連鎖を生成する最初のシステムである。 2つの異なるデータセットを使用した評価では、生成されたチェーンの過半数(70%以上)が、回答の正確さを維持しながら、一連の事実(高性能なベースラインよりもはるかに優れている)から回答がどのように従うかを明確に示している。 答えを体系的に支持するモデル信念を具現化することにより、モデルの信念体系を理解し、答えが間違っているときにその誤解を診断し修正する新たな機会が生まれる。

Our goal is a question-answering (QA) system that can show how its answers are implied by its own internal beliefs via a systematic chain of reasoning. Such a capability would allow better understanding of why a model produced the answer it did. Our approach is to recursively combine a trained backward-chaining model, capable of generating a set of premises entailing an answer hypothesis, with a verifier that checks that the model itself believes those premises (and the entailment itself) through self-querying. To our knowledge, this is the first system to generate multistep chains that are both faithful (the answer follows from the reasoning) and truthful (the chain reflects the system's own internal beliefs). In evaluation using two different datasets, users judge that a majority (70%+) of generated chains clearly show how an answer follows from a set of facts - substantially better than a high-performance baseline - while preserving answer accuracy. By materializing model beliefs that systematically support an answer, new opportunities arise for understanding the model's system of belief, and diagnosing and correcting its misunderstandings when an answer is wrong.
翻訳日:2022-10-25 13:28:44 公開日:2022-10-21
# バイオメディカル抽象化の平易な言語適応のためのデータセット

A Dataset for Plain Language Adaptation of Biomedical Abstracts ( http://arxiv.org/abs/2210.12242v1 )

ライセンス: Link先を確認
Kush Attal, Brian Ondov and Dina Demner-Fushman(参考訳) 急速に成長する健康関連文献は、インターネット上で広く利用できるようになったが、科学論文の言語は一般大衆が理解することが困難である。 したがって、この専門家レベルの言語を平易な言語に適応させるためには、公衆が膨大な健康関連文献を確実に理解する必要がある。 自動適応のためのディープラーニングアルゴリズムが考えられるが、適切な評価には金の標準データセットが必要である。 これまで提案されたデータセットは、同等の専門文書と一般の公用文書のペアか、そのような文書から抽出された意味的に類似した文のペアで構成されている。 これは不完全なアライメントと小さなテストセットのトレードオフにつながる。 この問題に対処するため、私たちはPlain Language Adaptation of Biomedical Abstractsデータセットを作成しました。 このデータセットは、文書と文の一致した最初の手動適応データセットである。 データセットには750の適応した要約が含まれており、合計7643の文ペアがある。 データセットを記述するとともに、最新のDeep Learningアプローチでデータセットの自動適応をベンチマークし、将来の研究のベースラインを設定します。

Though exponentially growing health-related literature has been made available to a broad audience online, the language of scientific articles can be difficult for the general public to understand. Therefore, adapting this expert-level language into plain language versions is necessary for the public to reliably comprehend the vast health-related literature. Deep Learning algorithms for automatic adaptation are a possible solution; however, gold standard datasets are needed for proper evaluation. Proposed datasets thus far consist of either pairs of comparable professional- and general public-facing documents or pairs of semantically similar sentences mined from such documents. This leads to a trade-off between imperfect alignments and small test sets. To address this issue, we created the Plain Language Adaptation of Biomedical Abstracts dataset. This dataset is the first manually adapted dataset that is both document- and sentence-aligned. The dataset contains 750 adapted abstracts, totaling 7643 sentence pairs. Along with describing the dataset, we benchmark automatic adaptation on the dataset with state-of-the-art Deep Learning approaches, setting baselines for future research.
翻訳日:2022-10-25 13:28:21 公開日:2022-10-21
# Meta Input: 市販のディープニューラルネットワークの活用方法

Meta Input: How to Leverage Off-the-Shelf Deep Neural Networks ( http://arxiv.org/abs/2210.13186v1 )

ライセンス: Link先を確認
Minsu Kim, Youngjoon Yu, Sungjune Park, Yong Man Ro(参考訳) 近年、ディープニューラルネットワーク(DNN)は、幅広い研究領域において顕著な進歩を遂げているが、環境不一致の問題により、現実のアプリケーションで採用される適応性に欠けている。 このような問題は、トレーニング環境とテスト環境の違いに起因しており、事前訓練されたDNNモデルを新しいテスト環境に適用した場合に、重大な性能劣化を引き起こすことが広く知られている。 そこで,本稿では,ユーザが事前学習したDNNモデルを,モデルを変更することなく,独自のテスト環境で活用する手法を提案する。 この目的のために、テストデータの分布をトレーニングデータの分布に変換する追加入力である \textit{meta input} を提案する。 提案するメタ入力は、テスト入力データとその出力予測との関係を考慮してのみ、少数のテストデータで最適化することができる。 また、ネットワークの内部構造や重みパラメータの変更に関する知識は一切必要としない。 そして、テストデータに得られたメタ入力を追加して、テストデータの分布を元々使用されていたトレーニングデータにシフトさせる。 その結果、エンドユーザは、トレーニング環境と異なるテスト環境で、よく訓練されたモデルを利用することができる。 提案するメタ入力の有効性と汎用性を検証するために,様々なタスクを用いた包括的実験を行い,環境格差に対するロバスト性を示す。

These days, although deep neural networks (DNNs) have achieved a noticeable progress in a wide range of research area, it lacks the adaptability to be employed in the real-world applications because of the environment discrepancy problem. Such a problem originates from the difference between training and testing environments, and it is widely known that it causes serious performance degradation, when a pretrained DNN model is applied to a new testing environment. Therefore, in this paper, we introduce a novel approach that allows end-users to exploit pretrained DNN models in their own testing environment without modifying the models. To this end, we present a \textit{meta input} which is an additional input transforming the distribution of testing data to be aligned with that of training data. The proposed meta input can be optimized with a small number of testing data only by considering the relation between testing input data and its output prediction. Also, it does not require any knowledge of the network's internal architecture and modification of its weight parameters. Then, the obtained meta input is added to testing data in order to shift the distribution of testing data to that of originally used training data. As a result, end-users can exploit well-trained models in their own testing environment which can differ from the training environment. We validate the effectiveness and versatility of the proposed meta input by showing the robustness against the environment discrepancy through the comprehensive experiments with various tasks.
翻訳日:2022-10-25 13:20:10 公開日:2022-10-21
# 衛星画像のための注意に基づく散乱ネットワーク

Attention-Based Scattering Network for Satellite Imagery ( http://arxiv.org/abs/2210.12185v1 )

ライセンス: Link先を確認
Jason Stock and Chuck Anderson(参考訳) 重畳されたスペクトル帯や時空間データから得られた多チャンネル衛星画像は、様々な大気特性に有意義な表現を持つ。 これらの特徴を効果的に組み合わせてパフォーマンスと信頼性のあるモデルを作成することは、予測者にとって非常に重要である。 ニューラルネットワークは有望でありながら、直感的な計算やハイレベルな機能の融合に苦しんでおり、利用可能なデータ量によって制限される可能性がある。 本研究では,散乱変換を利用して,学習可能なパラメータを付加することなく高レベルな特徴を抽出し,独立した入力チャネルに注意を向けるための分離スキームを導入する。 実験では、熱帯性サイクロンの強度を推定し、衛星画像から雷の発生を予測する有望な結果を示した。

Multi-channel satellite imagery, from stacked spectral bands or spatiotemporal data, have meaningful representations for various atmospheric properties. Combining these features in an effective manner to create a performant and trustworthy model is of utmost importance to forecasters. Neural networks show promise, yet suffer from unintuitive computations, fusion of high-level features, and may be limited by the quantity of available data. In this work, we leverage the scattering transform to extract high-level features without additional trainable parameters and introduce a separation scheme to bring attention to independent input channels. Experiments show promising results on estimating tropical cyclone intensity and predicting the occurrence of lightning from satellite imagery.
翻訳日:2022-10-25 13:09:25 公開日:2022-10-21
# 視覚コンテクストは身体エージェントの自動音声認識を改善することができるか?

Can Visual Context Improve Automatic Speech Recognition for an Embodied Agent? ( http://arxiv.org/abs/2210.13189v1 )

ライセンス: Link先を確認
Pradip Pramanick, Chayan Sarkar(参考訳) 自動音声認識(ASR)システムの利用は、パーソナルアシスタントからチャットボット、ホーム、産業自動化システムに至るまで、ほぼ一様になりつつある。 現代のロボットは、人間と対話するためのasr機能を備えており、音声は最も自然な対話モードである。 しかし、ロボットのasrは、パーソナルアシスタントと比べて追加の課題に直面している。 具体化エージェントであるロボットは、周囲の物理的実体を認識し、そのような実体の記述を含む音声を確実に認識する必要がある。 しかしながら、現在のASRシステムは、一般的なデータセットやオープン語彙モデリングのような、ASRトレーニングの制限のために、しばしばそうできない。 また、雑音、アクセント、遠距離音声などの推論中の悪い条件により、転写が不正確になる。 本稿では,ロボットの視覚情報をasrシステムに統合し,可視実体を含む音声発話の認識を改善する手法を提案する。 具体的には,asr出力が不正確なコンテキストに対して劣化しないよう保証しつつ,視覚的コンテキストを組み込む新しいデコーダバイアス手法を提案する。 修正されていないASRシステムからWERを59%削減する。

The usage of automatic speech recognition (ASR) systems are becoming omnipresent ranging from personal assistant to chatbots, home, and industrial automation systems, etc. Modern robots are also equipped with ASR capabilities for interacting with humans as speech is the most natural interaction modality. However, ASR in robots faces additional challenges as compared to a personal assistant. Being an embodied agent, a robot must recognize the physical entities around it and therefore reliably recognize the speech containing the description of such entities. However, current ASR systems are often unable to do so due to limitations in ASR training, such as generic datasets and open-vocabulary modeling. Also, adverse conditions during inference, such as noise, accented, and far-field speech makes the transcription inaccurate. In this work, we present a method to incorporate a robot's visual information into an ASR system and improve the recognition of a spoken utterance containing a visible entity. Specifically, we propose a new decoder biasing technique to incorporate the visual context while ensuring the ASR output does not degrade for incorrect context. We achieve a 59% relative reduction in WER from an unmodified ASR system.
翻訳日:2022-10-25 12:53:22 公開日:2022-10-21
# 雑音で探す:埋め込みのワープとワフトを解き放つ

Probing with Noise: Unpicking the Warp and Weft of Embeddings ( http://arxiv.org/abs/2210.12206v1 )

ライセンス: Link先を確認
Filip Klubi\v{c}ka, John D. Kelleher(参考訳) ベクトル空間における情報のエンコード方法の理解を改善することで、貴重な解釈可能性の洞察が得られる。 ベクトル次元と並行して、ベクトルノルムは言語情報も持つことができると主張する。 提案手法は,探索結果の相対的内在的解釈を可能にする,探索フレームワークの拡張である。 埋め込みでエンコードされ、ランダムなベースラインと信頼区間に基礎を置く情報をアブレーションするノイズの導入に依存している。 本手法を確立された探索課題に適用し,英語GloVe と BERT の埋め込みにおける個別情報コンテナの存在を確認する証拠を見つける。 相関分析は、異なるエンコーダが異なる種類の情報をエンコードするためにノームを使用しているという実験結果と一致している: グローブは、構文と文の長さ情報をベクトルノルムに保存し、bertは、コンテクスト・インフォメーション・インフォメーションのエンコードに使用する。

Improving our understanding of how information is encoded in vector space can yield valuable interpretability insights. Alongside vector dimensions, we argue that it is possible for the vector norm to also carry linguistic information. We develop a method to test this: an extension of the probing framework which allows for relative intrinsic interpretations of probing results. It relies on introducing noise that ablates information encoded in embeddings, grounded in random baselines and confidence intervals. We apply the method to well-established probing tasks and find evidence that confirms the existence of separate information containers in English GloVe and BERT embeddings. Our correlation analysis aligns with the experimental findings that different encoders use the norm to encode different kinds of information: GloVe stores syntactic and sentence length information in the vector norm, while BERT uses it to encode contextual incongruity.
翻訳日:2022-10-25 12:52:17 公開日:2022-10-21
# EDUKG: 不均一持続K-12教育知識グラフ

EDUKG: a Heterogeneous Sustainable K-12 Educational Knowledge Graph ( http://arxiv.org/abs/2210.12228v1 )

ライセンス: Link先を確認
Bowen Zhao, Jiuding Sun, Bin Xu, Xingyu Lu, Yuchen Li, Jifan Yu, Minghui Liu, Tingjian Zhang, Qiuyang Chen, Hanming Li, Lei Hou, Juanzi Li(参考訳) Webと人工知能技術、特にセマンティックウェブと知識グラフ(KG)は、最近、教育シナリオにおいて大きな注目を集めている。 それでも、K-12教育のための教科固有のKGは、知識やデータの観点から十分かつ持続性に欠ける。 これらの課題に対処するため、我々は異種持続可能なK-12教育知識グラフであるEDUKGを提案する。 まず,k-12教育における知識と資源を統一的にモデル化するための学際的かつ細粒度のオントロジーを設計し,635のクラス,445のオブジェクト特性,合計1314のデータ型特性を定義した。 このオントロジーを参考に,教科書から事実知識をインタラクティブに抽出する柔軟な方法論を提案する。 さらに,EDUKGの持続的維持のための汎用エンティティリンクシステムに基づく汎用的なメカニズムを構築し,EDUKGの知識トピックに多数の異種資源やデータを動的にインデックスする。 さらにedukgの評価を行い,その満足度,豊かさ,変動性について述べる。 EDUKGには2億2200万以上のエンティティと386億のトリプルがある。 私たちのコードとデータリポジトリはhttps://github.com/thu-keg/edukgで利用可能です。

Web and artificial intelligence technologies, especially semantic web and knowledge graph (KG), have recently raised significant attention in educational scenarios. Nevertheless, subject-specific KGs for K-12 education still lack sufficiency and sustainability from knowledge and data perspectives. To tackle these issues, we propose EDUKG, a heterogeneous sustainable K-12 Educational Knowledge Graph. We first design an interdisciplinary and fine-grained ontology for uniformly modeling knowledge and resource in K-12 education, where we define 635 classes, 445 object properties, and 1314 datatype properties in total. Guided by this ontology, we propose a flexible methodology for interactively extracting factual knowledge from textbooks. Furthermore, we establish a general mechanism based on our proposed generalized entity linking system for EDUKG's sustainable maintenance, which can dynamically index numerous heterogeneous resources and data with knowledge topics in EDUKG. We further evaluate EDUKG to illustrate its sufficiency, richness, and variability. We publish EDUKG with more than 252 million entities and 3.86 billion triplets. Our code and data repository is now available at https://github.com/THU-KEG/EDUKG.
翻訳日:2022-10-25 12:52:02 公開日:2022-10-21
# 反事実的説明のプライバシー問題:説明リンク攻撃

The privacy issue of counterfactual explanations: explanation linkage attacks ( http://arxiv.org/abs/2210.12051v1 )

ライセンス: Link先を確認
Sofie Goethals, Kenneth S\"orensen, David Martens(参考訳) ブラックボックス機械学習モデルは、より多くのハイテイクドメインで使用されているため、説明可能なAI(XAI)の必要性が高まっている。 残念ながら、機械学習におけるXAIの使用には新たなプライバシーリスクが伴う。 本稿では,インスタンスベースの戦略を展開して反事実的説明を見つける際に発生する説明連鎖攻撃について紹介する。 このような攻撃に対抗するために,我々はk匿名の偽物説明を提案し,これらのk匿名の偽物説明の有効性を評価するための新しい指標として純粋性を導入する。 この結果から,データセット全体ではなく,k匿名で説明を行うことが,説明の質に有益であることが示唆された。

Black-box machine learning models are being used in more and more high-stakes domains, which creates a growing need for Explainable AI (XAI). Unfortunately, the use of XAI in machine learning introduces new privacy risks, which currently remain largely unnoticed. We introduce the explanation linkage attack, which can occur when deploying instance-based strategies to find counterfactual explanations. To counter such an attack, we propose k-anonymous counterfactual explanations and introduce pureness as a new metric to evaluate the validity of these k-anonymous counterfactual explanations. Our results show that making the explanations, rather than the whole dataset, k- anonymous, is beneficial for the quality of the explanations.
翻訳日:2022-10-24 16:26:32 公開日:2022-10-21
# 線形性を超えたPDEのニューラルネットワーク近似:表現的視点

Neural Network Approximations of PDEs Beyond Linearity: Representational Perspective ( http://arxiv.org/abs/2210.12101v1 )

ライセンス: Link先を確認
Tanya Marwah, Zachary C. Lipton, Jianfeng Lu, Andrej Risteski(参考訳) 急成長している研究のラインは、高次元のpdesの解を近似できるディープニューラルネットワークを開発し、関連する理論的探究のラインを開き、これらのモデルが次元の呪いを回避しているように見えることを説明した。 しかし、これまでの理論解析のほとんどは線形PDEに限られている。 本研究では,非線形PDEに対する解を近似するためのニューラルネットワークの表現力について研究する。 ここでは, エネルギー汎函数 $\mathcal{E}(u) = \int_\Omega L(\nabla u) dx$ を最小化できるような PDE のクラスである \emph{nonlinear elliptic variational PDEs {\displaystyle \emph{Euler-Lagrange} に焦点をあてる。 バロンノルム$b$と$L$で関数を構成すると、PDEの解は$\epsilon$-approximated in the $L^2$ sense by a function with Barron norm $O\left(\left(dB_L\right)^{p^{\log(1/\epsilon)}}\right。 バロン [1993] による古典的な結果により、これは解を近似するのに必要な2層ニューラルネットワークのサイズと対応する。 定数として$p, \epsilon, B_L$を扱うと、この量は次元の多項式であり、ニューラルネットワークは次元の呪いを避けることができる。 我々の証明手法は、PDEの解に指数関数的に収束する適切なヒルベルト空間における(事前条件付き)勾配をニューラルネットワークでシミュレートし、各繰り返しにおけるバロンノルムの増加を束縛するものである。 この結果は線形楕円型pdesの類似先行結果を仮定し,実質的に一般化する。

A burgeoning line of research has developed deep neural networks capable of approximating the solutions to high dimensional PDEs, opening related lines of theoretical inquiry focused on explaining how it is that these models appear to evade the curse of dimensionality. However, most theoretical analyses thus far have been limited to linear PDEs. In this work, we take a step towards studying the representational power of neural networks for approximating solutions to nonlinear PDEs. We focus on a class of PDEs known as \emph{nonlinear elliptic variational PDEs}, whose solutions minimize an \emph{Euler-Lagrange} energy functional $\mathcal{E}(u) = \int_\Omega L(\nabla u) dx$. We show that if composing a function with Barron norm $b$ with $L$ produces a function of Barron norm at most $B_L b^p$, the solution to the PDE can be $\epsilon$-approximated in the $L^2$ sense by a function with Barron norm $O\left(\left(dB_L\right)^{p^{\log(1/\epsilon)}}\right)$. By a classical result due to Barron [1993], this correspondingly bounds the size of a 2-layer neural network needed to approximate the solution. Treating $p, \epsilon, B_L$ as constants, this quantity is polynomial in dimension, thus showing neural networks can evade the curse of dimensionality. Our proof technique involves neurally simulating (preconditioned) gradient in an appropriate Hilbert space, which converges exponentially fast to the solution of the PDE, and such that we can bound the increase of the Barron norm at each iterate. Our results subsume and substantially generalize analogous prior results for linear elliptic PDEs.
翻訳日:2022-10-24 16:26:21 公開日:2022-10-21
# 普遍的音分離のための逆順置換不変訓練

Adversarial Permutation Invariant Training for Universal Sound Separation ( http://arxiv.org/abs/2210.12108v1 )

ライセンス: Link先を確認
Emilian Postolache, Jordi Pons, Santiago Pascual, Joan Serr\`a(参考訳) 普遍的な音分離は、異なる種類の任意の音の混合を分離し、置換不変訓練(PIT)は、それを行う音源に依存しないモデルの訓練に使用される。 本研究は,PITを敵対的損失で補完するが,音声音源分離における標準定式化は困難である。 我々は,新しいi-replacementコンテキストに基づく敵意損失と,複数の識別者による訓練によって,この課題を克服した。 実験の結果, 残響FUSSデータセットにおいて, 損失(同一モデルとデータセットの保持)を単純に改善することで, 1.4dB SI-SNRiの非無視改善が得られることがわかった。 また,スペクトルホールの低減には逆孔が有効であり,マスクベース分離モデルにおいてユビキタスであり,ソース分離における逆孔損失の潜在的関連性を浮き彫りにする。

Universal sound separation consists of separating mixes with arbitrary sounds of different types, and permutation invariant training (PIT) is used to train source agnostic models that do so. In this work, we complement PIT with adversarial losses but find it challenging with the standard formulation used in speech source separation. We overcome this challenge with a novel I-replacement context-based adversarial loss, and by training with multiple discriminators. Our experiments show that by simply improving the loss (keeping the same model and dataset) we obtain a non-negligible improvement of 1.4 dB SI-SNRi in the reverberant FUSS dataset. We also find adversarial PIT to be effective at reducing spectral holes, ubiquitous in mask-based separation models, which highlights the potential relevance of adversarial losses for source separation.
翻訳日:2022-10-24 16:25:43 公開日:2022-10-21
# 3次元LiDARデータの事前学習のための生成範囲イメージング

Generative Range Imaging for Learning Scene Priors of 3D LiDAR Data ( http://arxiv.org/abs/2210.11750v1 )

ライセンス: Link先を確認
Kazuto Nakashima, Yumi Iwashita, Ryo Kurazume(参考訳) 3D LiDARセンサーは、自律移動ロボットの堅牢なビジョンには不可欠である。 しかし、LiDARベースの認識アルゴリズムのデプロイは、一貫性のない角分解能や欠落プロパティなどのトレーニング環境とのドメインギャップのために失敗することが多い。 既存の研究では、ドメイン間マッピングを学習することでこの問題に取り組み、転送性はトレーニング構成によって制約され、レイドロップと呼ばれる特殊な損失ノイズの影響を受けやすい。 そこで本研究では,データレベルドメイン転送に適用可能なLiDARレンジ画像の生成モデルを提案する。 また,LDAR測定がポイント・バイ・ポイント・レンジ・イメージングに基づくことから,暗黙的な画像表現に基づく生成対向ネットワークと,異なる光線滴効果を訓練する。 ポイントベースやイメージベースの最先端生成モデルと比較して,モデルの忠実性と多様性を実証する。 アップサンプリングやリカバリのアプリケーションも紹介します。 さらに,LiDARセマンティックセグメンテーションのためのSim2Realアプリケーションを提案する。 本手法は現実的なレイドロップシミュレータとして有効であり,最先端手法よりも優れていることを示す。

3D LiDAR sensors are indispensable for the robust vision of autonomous mobile robots. However, deploying LiDAR-based perception algorithms often fails due to a domain gap from the training environment, such as inconsistent angular resolution and missing properties. Existing studies have tackled the issue by learning inter-domain mapping, while the transferability is constrained by the training configuration and the training is susceptible to peculiar lossy noises called ray-drop. To address the issue, this paper proposes a generative model of LiDAR range images applicable to the data-level domain transfer. Motivated by the fact that LiDAR measurement is based on point-by-point range imaging, we train an implicit image representation-based generative adversarial networks along with a differentiable ray-drop effect. We demonstrate the fidelity and diversity of our model in comparison with the point-based and image-based state-of-the-art generative models. We also showcase upsampling and restoration applications. Furthermore, we introduce a Sim2Real application for LiDAR semantic segmentation. We demonstrate that our method is effective as a realistic ray-drop simulator and outperforms state-of-the-art methods.
翻訳日:2022-10-24 16:24:23 公開日:2022-10-21
# 一致する市場が異なる時間における競合するバンディット

Competing Bandits in Time Varying Matching Markets ( http://arxiv.org/abs/2210.11692v1 )

ライセンス: Link先を確認
Deepan Muthirayan, Chinmay Maheshwari, Pramod P. Khargonekar, Shankar Sastry(参考訳) 両面の非定常マッチング市場におけるオンライン学習の課題について検討し,安定したマッチングに収束することが目的である。 特に、市場の一方の側、腕が、もう一方の側、プレイヤーに対して既知の選好のセットを固定した設定を考える。 本研究は,プレイヤーの嗜好が一定だが未知の嗜好が与えられた場合に,プレイヤーの嗜好が変動する際の学習方法について議論するものである。 そこで本研究では,非定常性を扱うための単純な {\it restart competing bandits (rcb) アルゴリズムと,定常ケース用に設計された {\it competing bandits} アルゴリズム \citep{liu2020competing} を組み合わせる。 提案アルゴリズムにより,各プレイヤーは,エージェントの嗜好の変化量である$L_T$に対して,{$\widetilde{\mathcal{O}}(L^{1/2}_TT^{1/2})$} の均一なサブ線形後悔を受けることを示す。 また,このアルゴリズムの拡張について,変更回数を事前に知る必要のない場合に論じる。

We study the problem of online learning in two-sided non-stationary matching markets, where the objective is to converge to a stable match. In particular, we consider the setting where one side of the market, the arms, has fixed known set of preferences over the other side, the players. While this problem has been studied when the players have fixed but unknown preferences, in this work we study the problem of how to learn when the preferences of the players are time varying. We propose the {\it Restart Competing Bandits (RCB)} algorithm, which combines a simple {\it restart strategy} to handle the non-stationarity with the {\it competing bandits} algorithm \citep{liu2020competing} designed for the stationary case. We show that, with the proposed algorithm, each player receives a uniform sub-linear regret of {$\widetilde{\mathcal{O}}(L^{1/2}_TT^{1/2})$} up to the number of changes in the underlying preference of agents, $L_T$. We also discuss extensions of this algorithm to the case where the number of changes need not be known a priori.
翻訳日:2022-10-24 16:21:43 公開日:2022-10-21
# 機械学習ライフサイクルアーティファクトの管理に関する調査

Management of Machine Learning Lifecycle Artifacts: A Survey ( http://arxiv.org/abs/2210.11831v1 )

ライセンス: Link先を確認
Marius Schlegel, Kai-Uwe Sattler(参考訳) 機械学習(ml)アプリケーションの開発と運用に関する探索的かつ反復的な性質は、データセット、機能、モデル、ハイパーパラメータ、メトリクス、ソフトウェア、構成、ログなど、さまざまなアーティファクトにつながる。 これらのアーティファクトの可視性、再現性、トレーサビリティを実現するため、MLライフサイクルステップとイテレーション、システムとツールは、コレクション、ストレージ、管理をサポートするために開発されました。 このようなシステムがどのように正確な機能範囲を提供するかは明確ではなく、候補間の相乗効果の比較と推定が極めて困難である。 本稿では,MLライフサイクルアーティファクトの管理を支援するシステムとプラットフォームの概要について述べる。 体系的な文献レビューに基づき,評価基準を導出し,60以上のシステムとプラットフォームの代表的選択に適用する。

The explorative and iterative nature of developing and operating machine learning (ML) applications leads to a variety of artifacts, such as datasets, features, models, hyperparameters, metrics, software, configurations, and logs. In order to enable comparability, reproducibility, and traceability of these artifacts across the ML lifecycle steps and iterations, systems and tools have been developed to support their collection, storage, and management. It is often not obvious what precise functional scope such systems offer so that the comparison and the estimation of synergy effects between candidates are quite challenging. In this paper, we aim to give an overview of systems and platforms which support the management of ML lifecycle artifacts. Based on a systematic literature review, we derive assessment criteria and apply them to a representative selection of more than 60 systems and platforms.
翻訳日:2022-10-24 16:21:24 公開日:2022-10-21
# 潜在空間の到達:共同統計からマニピュレーションにおける経路計画へ

Reaching Through Latent Space: From Joint Statistics to Path Planning in Manipulation ( http://arxiv.org/abs/2210.11779v1 )

ライセンス: Link先を確認
Chia-Man Hung, Shaohong Zhong, Walter Goodwin, Oiwi Parker Jones, Martin Engelcke, Ioannis Havoutis, Ingmar Posner(参考訳) 本稿では,ロボットのポーズ生成モデルの潜在空間における反復最適化により経路を生成できるロボットマニピュレータの経路計画手法を提案する。 制約は、同じ空間で動作する制約満足度分類器を用いて組み込まれる。 最適化は、目標達成目標と制約満足度を組み合わせるための簡単な方法を提供する、学習したモデルを通じて勾配を活用する。 我々のモデルはランダムにサンプリングされたロボットのポーズに基づいてタスク非依存で訓練されている。 広く利用されている多くのプランナーと比較して,タスク成功,計画時間,経路長の両面から,実際の7-DoFロボットアームの障害物回避による経路計画を成功させる。

We present a novel approach to path planning for robotic manipulators, in which paths are produced via iterative optimisation in the latent space of a generative model of robot poses. Constraints are incorporated through the use of constraint satisfaction classifiers operating on the same space. Optimisation leverages gradients through our learned models that provide a simple way to combine goal reaching objectives with constraint satisfaction, even in the presence of otherwise non-differentiable constraints. Our models are trained in a task-agnostic manner on randomly sampled robot poses. In baseline comparisons against a number of widely used planners, we achieve commensurate performance in terms of task success, planning time and path length, performing successful path planning with obstacle avoidance on a real 7-DoF robot arm.
翻訳日:2022-10-24 16:14:48 公開日:2022-10-21
# ロボットの動作計画と制御のための可変制約模倣学習

Differentiable Constrained Imitation Learning for Robot Motion Planning and Control ( http://arxiv.org/abs/2210.11796v1 )

ライセンス: Link先を確認
Christopher Diehl and Janis Adamek and Martin Kr\"uger and Frank Hoffmann and Torsten Bertram(参考訳) 運動計画と制御はロボット工学の応用において重要な要素である。 ここでは、システムダイナミクスや安全境界(例えば自動走行の障害)のような時空間的制約がロボットの動きを制限する。 最適制御からの直接方法は制約付き最適化問題を解く。 しかし、多くのアプリケーションで適切なコスト関数を見つけることは、部分的に相反する目的の重み付けのために本質的に困難である。 一方、行動クローニング(BC)のようなImitation Learning(IL)手法は、オフラインのデモから意思決定を学習するための直感的なフレームワークを提供し、複雑なロボットアプリケーションにおける計画と制御のための有望な道を構成する。 以前の作業は主にソフト制約アプローチに依存しており、制約を記述する追加の補助的損失項を使用する。 しかし、破滅的な安全クリティカルな障害は、アウト・オブ・ディストリビューション(OOD)のシナリオで起こりうる。 この作業は、ilの柔軟性と最適制御における厳しい制約処理を統合する。 本手法は,オフラインILを用いたロボット動作計画と制御を制約する一般的なフレームワークを構成する。 ハード制約は、明示的な補完と勾配に基づく補正によって、微分可能な方法で学習問題に統合される。 移動ロボットナビゲーションと自動運転のシミュレーション実験は,提案手法の性能を実証するものである。

Motion planning and control are crucial components of robotics applications. Here, spatio-temporal hard constraints like system dynamics and safety boundaries (e.g., obstacles in automated driving) restrict the robot's motions. Direct methods from optimal control solve a constrained optimization problem. However, in many applications finding a proper cost function is inherently difficult because of the weighting of partially conflicting objectives. On the other hand, Imitation Learning (IL) methods such as Behavior Cloning (BC) provide a intuitive framework for learning decision-making from offline demonstrations and constitute a promising avenue for planning and control in complex robot applications. Prior work primarily relied on soft-constraint approaches, which use additional auxiliary loss terms describing the constraints. However, catastrophic safety-critical failures might occur in out-of-distribution (OOD) scenarios. This work integrates the flexibility of IL with hard constraint handling in optimal control. Our approach constitutes a general framework for constraint robotic motion planning and control using offline IL. Hard constraints are integrated into the learning problem in a differentiable manner, via explicit completion and gradient-based correction. Simulated experiments of mobile robot navigation and automated driving provide evidence for the performance of the proposed method.
翻訳日:2022-10-24 16:14:35 公開日:2022-10-21
# 逆無機材料設計のための深部強化学習

Deep Reinforcement Learning for Inverse Inorganic Materials Design ( http://arxiv.org/abs/2210.11931v1 )

ライセンス: Link先を確認
Elton Pan, Christopher Karpovich and Elsa Olivetti(参考訳) 望ましい性質を持つ新規無機材料の実現への大きな障害は、材料特性とそれらの合成の両方を効率的に最適化できないことである。 本研究では, 無機材料を逆設計する強化学習(RL)手法を提案し, 特定の性質と合成性制約を有する有望な化合物を同定する。 本モデルは, 化学多様性と特異性を維持しながら, 電荷や電子陰性性中立性などの化学ガイドラインを学習する。 本研究では, 焼結温度の低い合成目的とともに, 生成エネルギーやバルク/シャイ率を含む新規な材料特性を有する化合物を生成できる多目的RL法を実証する。 このアプローチを用いて、このモデルは有望な化合物を予測でき、また無機材料の発見に最適化された化学設計空間を示唆する。

A major obstacle to the realization of novel inorganic materials with desirable properties is the inability to perform efficient optimization across both materials properties and synthesis of those materials. In this work, we propose a reinforcement learning (RL) approach to inverse inorganic materials design, which can identify promising compounds with specified properties and synthesizability constraints. Our model learns chemical guidelines such as charge and electronegativity neutrality while maintaining chemical diversity and uniqueness. We demonstrate a multi-objective RL approach, which can generate novel compounds with targeted materials properties including formation energy and bulk/shear modulus alongside a lower sintering temperature synthesis objectives. Using this approach, the model can predict promising compounds of interest, while suggesting an optimized chemical design space for inorganic materials discovery.
翻訳日:2022-10-24 16:14:17 公開日:2022-10-21
# 確率的原始双対最適化による大規模MDPの効率的なグローバルプランニング

Efficient Global Planning in Large MDPs via Stochastic Primal-Dual Optimization ( http://arxiv.org/abs/2210.12057v1 )

ライセンス: Link先を確認
Gergely Neu, Nneka Okolo(参考訳) 生成モデルと線形関数近似を用いた大規模なマルコフ決定過程における確率的原始双対最適化アルゴリズムを提案する。 特徴写像が標準実現可能性とベルマン閉性条件を概ね満たし、全ての状態-作用対の特徴ベクトルが、状態-作用対の小さなコア組の凸結合として表現可能であると仮定すると、本手法は多項式数のクエリーを生成モデルに出力した後、最適に近いポリシーを出力することを示す。 提案手法は計算効率が高く,低次元パラメータベクトルでコンパクトに表現された単一ソフトマックスポリシーを出力し,計算コストのかかるローカルプランニングサブルーチンを実行時に実行する必要がないという大きな利点がある。

We propose a new stochastic primal-dual optimization algorithm for planning in a large discounted Markov decision process with a generative model and linear function approximation. Assuming that the feature map approximately satisfies standard realizability and Bellman-closedness conditions and also that the feature vectors of all state-action pairs are representable as convex combinations of a small core set of state-action pairs, we show that our method outputs a near-optimal policy after a polynomial number of queries to the generative model. Our method is computationally efficient and comes with the major advantage that it outputs a single softmax policy that is compactly represented by a low-dimensional parameter vector, and does not need to execute computationally expensive local planning subroutines in runtime.
翻訳日:2022-10-24 16:14:06 公開日:2022-10-21
# L1-norm PCAに基づくロバスト特異値

Robust Singular Values based on L1-norm PCA ( http://arxiv.org/abs/2210.12097v1 )

ライセンス: Link先を確認
Duc Le, Panos P. Markopoulos(参考訳) Singular-Value Decomposition (SVD) は、工学、科学、統計学におけるユビキタスなデータ解析手法である。 特に特異値推定は,通信システムにおけるチャネル推定,筋電図信号解析,画像圧縮など,一連の工学的応用において重要である。 データ行列の従来のSVDは、標準主成分分析(PCA)と一致する。 PCAのL2ノルム(二乗値の仮定)の定式化は、周辺データポイントを促進し、PCAを外れ値に敏感にする。 当然、SVDはこの異常感度を継承する。 本研究では,L1-ノルム(絶対値の仮定)の定式化に基づくSVDと特異値推定のための新しいロバストな非パラメトリック手法を提案する。 そこで, 提案手法は, 外れ値に対する頑丈な耐性を示し, 幅広い工学的応用において, より信頼性の高いデータ解析と処理を容易にする。

Singular-Value Decomposition (SVD) is a ubiquitous data analysis method in engineering, science, and statistics. Singular-value estimation, in particular, is of critical importance in an array of engineering applications, such as channel estimation in communication systems, electromyography signal analysis, and image compression, to name just a few. Conventional SVD of a data matrix coincides with standard Principal-Component Analysis (PCA). The L2-norm (sum of squared values) formulation of PCA promotes peripheral data points and, thus, makes PCA sensitive against outliers. Naturally, SVD inherits this outlier sensitivity. In this work, we present a novel robust non-parametric method for SVD and singular-value estimation based on a L1-norm (sum of absolute values) formulation, which we name L1-cSVD. Accordingly, the proposed method demonstrates sturdy resistance against outliers and can facilitate more reliable data analysis and processing in a wide range of engineering applications.
翻訳日:2022-10-24 16:13:52 公開日:2022-10-21
# ロバスト勧告のためのトリプルト損失に基づく行列係数化

Triplet Losses-based Matrix Factorization for Robust Recommendations ( http://arxiv.org/abs/2210.12098v1 )

ライセンス: Link先を確認
Flavio Giobergia(参考訳) 他の学習ベースのモデルと同様に、推奨システムはトレーニングデータのバイアスの影響を受けます。 典型的な評価指標(ヒット率など)はそれらに関係しないが、最終的なユーザのカテゴリはこれらのバイアスに大きく影響している。 本研究では,複数の三重項損失項を用いてユーザや項目の意味的かつ堅牢な表現を抽出する。 本研究では,複数の「バイアス認識」評価指標を用いて,これらの表現の音質を実証的に評価するとともに,トレーニングセットの変化に対する安定性と,各ユーザの予測分散の一致について検討する。

Much like other learning-based models, recommender systems can be affected by biases in the training data. While typical evaluation metrics (e.g. hit rate) are not concerned with them, some categories of final users are heavily affected by these biases. In this work, we propose using multiple triplet losses terms to extract meaningful and robust representations of users and items. We empirically evaluate the soundness of such representations through several "bias-aware" evaluation metrics, as well as in terms of stability to changes in the training set and agreement of the predictions variance w.r.t. that of each user.
翻訳日:2022-10-24 16:13:34 公開日:2022-10-21
# 透明ANN風力タービンパワーカーブモデルに向けて

Towards transparent ANN wind turbine power curve models ( http://arxiv.org/abs/2210.12104v1 )

ライセンス: Link先を確認
Simon Letzgus(参考訳) 環境条件をタービン出力に変換する正確な風力タービンパワーカーブモデルは、風力エネルギーをスケールし、その提案されたグローバルエネルギー遷移における役割を満たすために不可欠である。 機械学習手法、特にディープニューラルネットワーク(DNN)は、パラメトリックな物理インフォームドパワーカーブモデリングアプローチよりも大きな優位性を示している。 それにもかかわらず、それらはしばしば、モデル化したシステムを物理的に理解せず、不透明なブラックボックスとして批判される。 我々は,DNNが風力タービンデータから得た戦略を初めて明らかにし,検証するために,一般的な説明可能な人工知能(XAI)手法であるShapley値を適用した。 以上の結果から,テストセット性能に着目した大規模モデルアーキテクチャの傾向は,分類におけるClever Hans効果と同様,物理的に予測不能なモデル戦略をもたらす可能性が示唆された。 そこで我々は,モデル選択におけるXAI手法のより顕著な役割と,風力タービン条件モニタリングにモデル説明を用いるための実践的戦略を提案する。

Accurate wind turbine power curve models, which translate ambient conditions into turbine power output, are crucial for wind energy to scale and fulfil its proposed role in the global energy transition. Machine learning methods, in particular deep neural networks (DNNs), have shown significant advantages over parametric, physics-informed power curve modelling approaches. Nevertheless, they are often criticised as opaque black boxes with no physical understanding of the system they model, which hinders their application in practice. We apply Shapley values, a popular explainable artificial intelligence (XAI) method, to, for the first time, uncover and validate the strategies learned by DNNs from operational wind turbine data. Our findings show that the trend towards ever larger model architectures, driven by the focus on test-set performance, can result in physically implausible model strategies, similar to the Clever Hans effect observed in classification. We, therefore, call for a more prominent role of XAI methods in model selection and additionally offer a practical strategy to use model explanations for wind turbine condition monitoring.
翻訳日:2022-10-24 16:13:23 公開日:2022-10-21
# タスク固有構造を用いたグラフファウショット学習

Graph Few-shot Learning with Task-specific Structures ( http://arxiv.org/abs/2210.12130v1 )

ライセンス: Link先を確認
Song Wang, Chen Chen, Jundong Li(参考訳) グラフの少数ショット学習は、さまざまなグラフ学習タスクにおいて非常に重要である。 少数のシナリオでは、限定されたラベル付きサンプルの分類を行うためにモデルが必要となることが多い。 既存のグラフ数ショット学習方法は一般的にグラフニューラルネットワーク(GNN)を利用し、一連のメタタスクをまたいだ分類を行う。 しかしながら、これらの手法は一般にノード表現を学ぶために元のグラフ(メタタスクがサンプリングされたグラフ)に依存している。 したがって、各メタタスクで使用されるグラフ構造は同一である。 クラスセットはメタタスク間で異なるため、ノード表現はタスク固有の方法で学習して分類性能を促進する必要がある。 そこで,メタタスク間のノード表現を適応的に学習するために,メタタスクごとにタスク固有の構造を学習する新しいフレームワークを提案する。 メタタスク間の多様なノードを扱うために,関連するノードを抽出し,ノードの影響や相互情報に基づいてタスク固有の構造を学習する。 このようにして、各メタタスクに適したタスク固有の構造を持つノード表現を学習することができる。 さらに,5つのノード分類データセットを単一および複数グラフ設定で広範な実験を行い,最先端のベースラインに対するフレームワークの優位性を検証する。 我々のコードはhttps://github.com/SongW-SW/GLITTERで提供されている。

Graph few-shot learning is of great importance among various graph learning tasks. Under the few-shot scenario, models are often required to conduct classification given limited labeled samples. Existing graph few-shot learning methods typically leverage Graph Neural Networks (GNNs) and perform classification across a series of meta-tasks. Nevertheless, these methods generally rely on the original graph (i.e., the graph that the meta-task is sampled from) to learn node representations. Consequently, the graph structure used in each meta-task is identical. Since the class sets are different across meta-tasks, node representations should be learned in a task-specific manner to promote classification performance. Therefore, to adaptively learn node representations across meta-tasks, we propose a novel framework that learns a task-specific structure for each meta-task. To handle the variety of nodes across meta-tasks, we extract relevant nodes and learn task-specific structures based on node influence and mutual information. In this way, we can learn node representations with the task-specific structure tailored for each meta-task. We further conduct extensive experiments on five node classification datasets under both single- and multiple-graph settings to validate the superiority of our framework over the state-of-the-art baselines. Our code is provided at https://github.com/SongW-SW/GLITTER.
翻訳日:2022-10-24 16:13:05 公開日:2022-10-21
# 気象極端を投影するマルチスケール深層学習フレームワーク

A Multi-Scale Deep Learning Framework for Projecting Weather Extremes ( http://arxiv.org/abs/2210.12137v1 )

ライセンス: Link先を確認
Antoine Blanchard, Nishant Parashar, Boyko Dodov, Christian Lessig, Themistoklis Sapsis(参考訳) 気象の極端は社会と経済の大きな危険であり、数千人の命と毎年数十億ドルの損害を被っている。 気候変動下では、その影響と強度は著しく悪化すると予想されている。 残念ながら、現在の気候予測の主要なツールである一般循環モデル(GCM)は、気象極端を正確に特徴づけることができない。 これを解決するために,まず,粗いスケールでの観測で出力の低次統計値とテール統計値とを一致させてGCMのバイアスを補正し,さらに,粗いスケールの関数として細かなスケールを再構成することにより,劣化したGCM出力の詳細なレベルを向上する多分解ディープラーニングフレームワークを提案する。 観測的大気再分析により補正した単純なgcmから西ヨーロッパ全域の気候の統計的に現実的な実現を実現するために,提案手法を用いた。 また,気候変動における自然災害の確率的リスクアセスメントの意義についても考察する。

Weather extremes are a major societal and economic hazard, claiming thousands of lives and causing billions of dollars in damage every year. Under climate change, their impact and intensity are expected to worsen significantly. Unfortunately, general circulation models (GCMs), which are currently the primary tool for climate projections, cannot characterize weather extremes accurately. To address this, we present a multi-resolution deep-learning framework that, firstly, corrects a GCM's biases by matching low-order and tail statistics of its output with observations at coarse scales; and secondly, increases the level of detail of the debiased GCM output by reconstructing the finer scales as a function of the coarse scales. We use the proposed framework to generate statistically realistic realizations of the climate over Western Europe from a simple GCM corrected using observational atmospheric reanalysis. We also discuss implications for probabilistic risk assessment of natural disasters in a changing climate.
翻訳日:2022-10-24 16:12:32 公開日:2022-10-21
# シンガポール(iris)観測所における赤外線調査 : 近傍熱画像を用いた都市ヒートアイランド貢献者および緩和者分析

InfraRed Investigation in Singapore (IRIS) Observatory: Urban heat island contributors and mitigators analysis using neighborhood-scale thermal imaging ( http://arxiv.org/abs/2210.11663v1 )

ライセンス: Link先を確認
Miguel Martin, Vasantha Ramani, Clayton Miller(参考訳) 本稿では, 都市ヒートアイランドのコントリビュータおよび緩和剤からの熱フラックスを, 熱画像と気象データを用いて検討する。 熱画像は2021年11月から2022年4月まで、建物の屋上で動作する天文台から収集された。 同じ期間に、シンガポールの大学キャンパスのいくつかの場所で気象観測のための自動気象観測ネットワークが利用された。 観測所と自動気象観測所ネットワークが収集したデータから,建築ファサードや植生,交通によって放出される熱を推定する手法を開発した。 都市熱流束の解析を行う前に,観測所から採取した表面温度はいくつかの変数に敏感であることが観測された。 感度分析後,屋外環境における表面温度の測定値に対して熱画像の校正を行った。 最後に, 熱画像と気象データを用いた熱フラックスから, 都市ヒートアイランドのコントリビュータおよび緩和剤について分析した。 屋上観測所が収集した熱画像によると、夜間に放射される長波により、コンクリートの壁は都市熱島に重要な役割を果たしている。 一方, 植生は蒸発散によって生じる潜熱フラックスのため, 有効な除草剤であると考えられる。 道路のごく一部について考慮すれば、交通は無視できない熱源のように見える。 将来的には、熱画像から空調システムによって放出される熱の規模を推定するために、さらなる努力を行うことができる。

This paper studies heat fluxes from contributors and mitigators of urban heat islands using thermal images and weather data. Thermal images were collected from an observatory operating on the rooftop of a building between November 2021 and April 2022. Over the same period, an automatic weather station network was used to measure weather conditions at several locations on a university campus in Singapore. From data collected by the observatory and the automatic weather station network, a method was developed to estimate the heat emitted by building facades, vegetation, and traffic. Before performing the analysis of urban heat fluxes, it was observed that the surface temperature collected from the observatory is sensitive to some variables. After the sensitivity analysis, thermal images were calibrated against measurements of the surface temperature in an outdoor environment. Finally, several contributors and mitigators of urban heat islands were analyzed from heat fluxes assessed with thermal images and weather data. According to thermal images collected by the rooftop observatory, concrete walls are an important contributor to urban heat islands due to the longwave radiation they emit at night. Vegetation, on the other hand, seems to be an effective mitigator because of latent heat fluxes generated by evapotranspiration. Traffic looks to be a negligible source of heat if considered over a small portion of a road. In the future, more efforts can be made to estimate the magnitude of the heat released by an air-conditioning system from thermal images.
翻訳日:2022-10-24 16:12:14 公開日:2022-10-21
# 雑音画像からのポアソン・ガウス雑音パラメータの推定

Target Aware Poisson-Gaussian Noise Parameters Estimation from Noisy Images ( http://arxiv.org/abs/2210.12142v1 )

ライセンス: Link先を確認
\'Etienne Objois, Kaan Okumu\c{s}, Nicolas B\"ahler(参考訳) デジタルセンサーは多くの状況下でノイズを生じさせる。 望ましくないノイズを画像から除去できるためには、適切なノイズモデリングと正確なノイズパラメータ推定が不可欠である。 本研究では,センサの物理的特性によく適合するため,ポアソン・ガウスノイズモデルを用いて生画像の取得を行う。 さらに、観測された(ノイズ)と、観測された(ノイズのない)画像ペアが利用できる場合に限る。 このようなペアを用いることはノイズ推定に有用であり、文献では広く研究されていない。 このモデルに基づき,理論的最大度解を導出し,実用的実装と最適化について論じる。 さらに,分散および累積統計量に基づく2つのアルゴリズムを提案する。 最後に、我々の手法の結果を2つの異なるアプローチ、すなわち、自分たちで訓練したcnnと、文学から取られた別のアプローチと比較します。 これらの手法を比較すると、我々のアルゴリズムはMSEの点で他よりも優れており、優れた追加特性を持っていることが分かる。

Digital sensors can lead to noisy results under many circumstances. To be able to remove the undesired noise from images, proper noise modeling and an accurate noise parameter estimation is crucial. In this project, we use a Poisson-Gaussian noise model for the raw-images captured by the sensor, as it fits the physical characteristics of the sensor closely. Moreover, we limit ourselves to the case where observed (noisy), and ground-truth (noise-free) image pairs are available. Using such pairs is beneficial for the noise estimation and is not widely studied in literature. Based on this model, we derive the theoretical maximum likelihood solution, discuss its practical implementation and optimization. Further, we propose two algorithms based on variance and cumulant statistics. Finally, we compare the results of our methods with two different approaches, a CNN we trained ourselves, and another one taken from literature. The comparison between all these methods shows that our algorithms outperform the others in terms of MSE and have good additional properties.
翻訳日:2022-10-24 16:06:09 公開日:2022-10-21
# 逆オーディオ分類のためのチャネルワイズ特徴の適応的再校正

Adaptive re-calibration of channel-wise features for Adversarial Audio Classification ( http://arxiv.org/abs/2210.11722v1 )

ライセンス: Link先を確認
Vardhan Dongre, Abhinav Thimma Reddy, Nikhitha Reddeddy(参考訳) DeepFake Audioは、DeepFakeの画像やビデオとは異なり、検出の観点からは比較的調査されていないが、合成音声分類に存在するソリューションは複雑なネットワークを使うか、異なる生成法と最適化法を用いて得られる様々な種類の合成音声に一般化しない。 本研究では、合成音声検出のための注目特徴融合を用いた特徴のチャネルワイズ補正を提案し、その性能を、テキストから音声、Vocoderシステム(WaveNet, WaveRNN, Tactotron, WaveGlow)を用いて生成した合成音声のEnd2EndモデルとResnetベースモデルを含む異なる検出手法と比較する。 また、ResnetモデルでSqueeze Excitation(SE)ブロックを実験した結果、この組み合わせによってより優れたパフォーマンスが得られることがわかった。 この分析に加えて、注目特徴融合技術を用いた線形周波数ケプストラム係数(LFCC)とメル周波数ケプストラム係数(MFCC)の組み合わせにより、より単純なモデルでも合成音声分類タスクをうまく一般化できるより良い入力特徴表現が得られることを示した。 FakeまたはReal(FoR)データセットに基づいてトレーニングされた我々のモデル(Resnetベース)は、FoRデータで95%の精度を達成でき、このフレームワークを適用した後、異なる生成モデルを用いて生成されたサンプルで平均90%の精度を達成できた。

DeepFake Audio, unlike DeepFake images and videos, has been relatively less explored from detection perspective, and the solutions which exist for the synthetic speech classification either use complex networks or dont generalize to different varieties of synthetic speech obtained using different generative and optimization-based methods. Through this work, we propose a channel-wise recalibration of features using attention feature fusion for synthetic speech detection and compare its performance against different detection methods including End2End models and Resnet-based models on synthetic speech generated using Text to Speech and Vocoder systems like WaveNet, WaveRNN, Tactotron, and WaveGlow. We also experiment with Squeeze Excitation (SE) blocks in our Resnet models and found that the combination was able to get better performance. In addition to the analysis, we also demonstrate that the combination of Linear frequency cepstral coefficients (LFCC) and Mel Frequency cepstral coefficients (MFCC) using the attentional feature fusion technique creates better input features representations which can help even simpler models generalize well on synthetic speech classification tasks. Our models (Resnet based using feature fusion) trained on Fake or Real (FoR) dataset and were able to achieve 95% test accuracy with the FoR data, and an average of 90% accuracy with samples we generated using different generative models after adapting this framework.
翻訳日:2022-10-24 16:05:34 公開日:2022-10-21
# 自己教師付き音声学習における声道構音の証拠

Evidence of Vocal Tract Articulation in Self-Supervised Learning of Speech ( http://arxiv.org/abs/2210.11723v1 )

ライセンス: Link先を確認
Cheol Jun Cho, Peter Wu, Abdelrahman Mohamed, Gopala K. Anumanchipalli(参考訳) 音声表現の事前学習モデルには,多くの自己教師付き学習(SSL)モデルが提案されている。 このようなユーティリティを理解するために、以前の研究は音声モデルの表現を調査し、学習した表現に音声関連情報がどのようにエンコードされているかを明らかにする。 符号化特性は音響学、音声学、セマンティクスの観点から広く研究されてきたが、音声生成による物理的接地は、まだ十分に注目されていない。 このギャップを埋めるため,電磁動脈造影法(EMA)で測定した音声表現と音声軌跡をリンクする包括的解析を行った。 EMAに対する線形写像の平均的相関として調音スコアを測定する線形探索法に基づく。 我々はSU-PERBベンチマークのリーダーボードから選択されたSSLモデルの集合を分析し、Wav2Vec 2.0とHuBERTの2つの主要なモデルについてさらに詳細な分析を行う。 驚くべきことに、最近の音声sslモデルの表現はemaトレースと高い相関があり(r = 0.81)、高い性能(r = 0.77)の線形モデルを訓練するのに5分しかかからなかった。 以上の結果から, SSLモデルは連続的な調音と密に一致し, 音声SSLの新たな洞察を与えることが示唆された。

Numerous self-supervised learning (SSL) models for speech have been proposed for pre-training models of speech representations, and recent SSL models are very successful in diverse downstream tasks. To understand such utilities, previous works probe representations of speech models to reveal which & how speech related information is encoded in the learned representations. While encoding properties have been extensively explored from the perspective of acoustics, phonetics, and semantics, the physical grounding by speech production has not yet received full attention. To bridge this gap, we conduct a comprehensive analysis to link speech representations to articulatory trajectories measured by electromagnetic articulography (EMA). Our analysis is based on a linear probing approach where we measure articulatory score as an average correlation of linear mapping to EMA. We analyze a set of SSL models selected from the leaderboard of the SU- PERB benchmark and perform further detailed analyses on two major models, Wav2Vec 2.0 and HuBERT. Surprisingly, representations from the recent speech SSL models are highly correlated with EMA traces (best: r = 0.81), and only 5 minutes were sufficient to train a linear model with high performance (r = 0.77). Our findings suggest that SSL models learn to closely align with continuous articulations and provide a novel insight into speech SSL.
翻訳日:2022-10-24 16:05:06 公開日:2022-10-21
# AI-HRIがヒューマンアウェアAIのためのヒューマンアウェアデザインに新たな次元を導入

AI-HRI Brings New Dimensions to Human-Aware Design for Human-Aware AI ( http://arxiv.org/abs/2210.11832v1 )

ライセンス: Link先を確認
Richard G. Freedman(参考訳) 2014年のAAAI Fall Symposium Seriesで最初のAI-HRIが開催されて以来、提示された研究と議論の多くは、人工知能(AI)開発が人間とロボットの相互作用(HRI)にどのように貢献するかを強調してきた。 これは、AIコミュニティに解決すべきドメイン固有の問題の源であるアプリケーションとしてHRIを描いている。 同様に、これはAIを、関連する問題に対して利用可能なソリューションのソースであるツールとして、HRIコミュニティに描いている。 しかし、AI-HRI研究コミュニティのメンバーは、この関係はマッチングの問題や解決策よりも深いシナジーを持っていると指摘するだろう。 AIは、人々がデータのソースやアルゴリズムの一部以上のものであるという事実を説明する方法を研究している。 AI-HRIは、研究者の人間の認識するAIに対する考え方を、検証を通じて観察から、アルゴリズム設計プロセスまで、どのように変えられるかを検討する。

Since the first AI-HRI held at the 2014 AAAI Fall Symposium Series, a lot of the presented research and discussions have emphasized how artificial intelligence (AI) developments can benefit human-robot interaction (HRI). This portrays HRI as an application, a source of domain-specific problems to solve, to the AI community. Likewise, this portrays AI as a tool, a source of solutions available for relevant problems, to the HRI community. However, members of the AI-HRI research community will point out that the relationship has a deeper synergy than matchmaking problems and solutions -- there are insights from each field that impact how the other one thinks about the world and performs scientific research. There is no greater opportunity for sharing perspectives at the moment than human-aware AI, which studies how to account for the fact that people are more than a source of data or part of an algorithm. We will explore how AI-HRI can change the way researchers think about human-aware AI, from observation through validation, to make even the algorithmic design process human-aware.
翻訳日:2022-10-24 16:04:41 公開日:2022-10-21
# 動的p-ノルム線形適応フィルタリングのためのオンラインおよび軽量カーネルベース近似ポリシーイテレーション

online and lightweight kernel-based approximated policy iteration for dynamic p-norm linear adaptive filtering ( http://arxiv.org/abs/2210.11755v1 )

ライセンス: Link先を確認
Yuki Akiyama, Minh Vu, Konstantinos Slavakis(参考訳) 本稿では, 線形適応フィルタリングにおいて, 確率密度関数の知識を必要とせず, 最適p-ノルムを動的(オンライン)に選択する問題に対する解を提案する。 提案するオンラインおよびデータ駆動フレームワークは、カーネルベースの強化学習(KBRL)に基づいている。 この目的のために、再生カーネルヒルベルト空間(RKHS)に関するベルマン写像が導入された。 これらの写像はマルコフ決定過程の遷移確率に関する知識を一切必要とせず、根底にあるヒルベルトノルムに関して拡張性がない。 提案したベルマン写像の固定点集合を用いて,その問題に対する近似ポリシイテレーション(API)フレームワークを構築する。 RKHSの ‘curse of dimensionality' に対処するために、ランダムなフーリエ機能を使用して、APIの計算複雑性を束縛する。 いくつかの外部シナリオに対する合成データに関する数値実験は、提案したAPIフレームワークが複数の非RLおよびKBRLスキームよりも優れた性能を示す。

This paper introduces a solution to the problem of selecting dynamically (online) the ``optimal'' p-norm to combat outliers in linear adaptive filtering without any knowledge on the probability density function of the outliers. The proposed online and data-driven framework is built on kernel-based reinforcement learning (KBRL). To this end, novel Bellman mappings on reproducing kernel Hilbert spaces (RKHSs) are introduced. These mappings do not require any knowledge on transition probabilities of Markov decision processes, and are nonexpansive with respect to the underlying Hilbertian norm. The fixed-point sets of the proposed Bellman mappings are utilized to build an approximate policy-iteration (API) framework for the problem at hand. To address the ``curse of dimensionality'' in RKHSs, random Fourier features are utilized to bound the computational complexity of the API. Numerical tests on synthetic data for several outlier scenarios demonstrate the superior performance of the proposed API framework over several non-RL and KBRL schemes.
翻訳日:2022-10-24 16:03:14 公開日:2022-10-21
# 音声対音声比較のためのテキストレス指標

A Textless Metric for Speech-to-Speech Comparison ( http://arxiv.org/abs/2210.11835v1 )

ライセンス: Link先を確認
Laurent Besacier, Swen Ribeiro, Olivier Galibert, Ioan Calapodescu(参考訳) 本稿では,テキストの書き起こしに逆戻りすることなく,音声の仮説と音声の参照を比較できる音声合成比較尺度を提案する。 我々は、最近提案された音声2ユニットエンコーダ(HuBERTなど)を利用して、音声の発話を個別の音響単位に擬似的に書き起こし、テキストベースのメトリクスを学習する単純なニューラルネットワークを提案する。 このようなテキストなしのメトリクスは、音声から音声への翻訳評価(信頼できるASRシステムがない言語や言語の場合)に最終的に興味深い。

This paper proposes a textless speech-to-speech comparison metric that allows comparing a speech hypothesis with a speech reference without falling-back to their text transcripts. We leverage recently proposed speech2unit encoders (such as HuBERT) to pseudo-transcribe the speech utterances into discrete acoustic units and propose a simple neural architecture that learns a speech-based metric which correlates well with its text-based counterpart. Such a textless metric could ultimately be interesting for speech-to-speech translation evaluation (for oral languages or languages with no reliable ASR system available).
翻訳日:2022-10-24 15:57:02 公開日:2022-10-21
# Wav2Vec 2.0認識器を用いた深部LSTM検出

Deep LSTM Spoken Term Detection using Wav2Vec 2.0 Recognizer ( http://arxiv.org/abs/2210.11885v1 )

ライセンス: Link先を確認
Jan \v{S}vec, Jan Lehe\v{c}ka, Lubo\v{s} \v{S}m\'idl(参考訳) 近年,標準ハイブリッドDNN-HMM音声認識器は,エンドツーエンド音声認識システムにより性能が向上している。 非常に有望なアプローチの1つは、grapheme wav2vec 2.0モデルで、微調整された音声認識器の転送学習と組み合わせて、自己教師付き事前学習アプローチを使用する。 発音語彙や言語モデルに欠けているため、そのようなモデルを得るのが容易あるいはほとんど不可能であるタスクに適している。 本稿では,Wav2Vec音声認識器を用いて,大量の音声文書を対象とした発話語検出を行う。 認識された仮説と探索された項を、単語の発生と割り当てられたスコアを容易に計算できる共有発音埋め込み空間にマッピングする深層LSTMネットワークを用いる。 本稿では,DNN-HMMハイブリッドASRの従来の発音語彙に含まれる知識を,グラフベースのWav2Vecの文脈に転送するブートストラップ手法について述べる。 提案手法は、DNN-HMMハイブリッドASRと音素認識器の組み合わせにより、英語とチェコ語の両方のMALACHデータに対する大きなマージンで、これまで公表されていたシステムより優れている。

In recent years, the standard hybrid DNN-HMM speech recognizers are outperformed by the end-to-end speech recognition systems. One of the very promising approaches is the grapheme Wav2Vec 2.0 model, which uses the self-supervised pretraining approach combined with transfer learning of the fine-tuned speech recognizer. Since it lacks the pronunciation vocabulary and language model, the approach is suitable for tasks where obtaining such models is not easy or almost impossible. In this paper, we use the Wav2Vec speech recognizer in the task of spoken term detection over a large set of spoken documents. The method employs a deep LSTM network which maps the recognized hypothesis and the searched term into a shared pronunciation embedding space in which the term occurrences and the assigned scores are easily computed. The paper describes a bootstrapping approach that allows the transfer of the knowledge contained in traditional pronunciation vocabulary of DNN-HMM hybrid ASR into the context of grapheme-based Wav2Vec. The proposed method outperforms the previously published system based on the combination of the DNN-HMM hybrid ASR and phoneme recognizer by a large margin on the MALACH data in both English and Czech languages.
翻訳日:2022-10-24 15:56:52 公開日:2022-10-21
# Dot-Product of Pronunciation Embeddings を用いたスポット項の検出と関連スコア推定

Spoken Term Detection and Relevance Score Estimation using Dot-Product of Pronunciation Embeddings ( http://arxiv.org/abs/2210.11895v1 )

ライセンス: Link先を確認
Jan \v{S}vec, Lubo\v{s} \v{S}m\'idl, Josef V. Psutka, Ale\v{s} Pra\v{z}\'ak(参考訳) 本稿では,深層LSTMネットワークを用いた大規模音声アーカイブにおける音声用語検出(STD)に対する新しいアプローチについて述べる。 この研究は、SameseのニューラルネットワークをSTDに使用し、それを自然に拡張して、話し言葉を直接ローカライズし、その関連性スコアを推定する以前のアプローチに基づいている。 音素認識器によって生成された音素混乱ネットワークは、混乱ネットワークの各セグメントを埋め込み空間に投影する深部LSTMネットワークによって処理される。 探索項は別の深層LSTMネットワークを用いて同じ埋め込み空間に投影される。 関連スコアは、埋め込み空間の単純なドット積を用いて計算され、シグモイド関数を用いて校正され、発生確率を予測する。 探索された項の位置は、出力確率の列から推定される。 深層LSTMネットワークは、単語と音素レベルのペア認識仮説から自己教師型で訓練される。 本手法は英語およびチェコ語におけるMALACHデータを用いて実験的に評価される。

The paper describes a novel approach to Spoken Term Detection (STD) in large spoken archives using deep LSTM networks. The work is based on the previous approach of using Siamese neural networks for STD and naturally extends it to directly localize a spoken term and estimate its relevance score. The phoneme confusion network generated by a phoneme recognizer is processed by the deep LSTM network which projects each segment of the confusion network into an embedding space. The searched term is projected into the same embedding space using another deep LSTM network. The relevance score is then computed using a simple dot-product in the embedding space and calibrated using a sigmoid function to predict the probability of occurrence. The location of the searched term is then estimated from the sequence of output probabilities. The deep LSTM networks are trained in a self-supervised manner from paired recognition hypotheses on word and phoneme levels. The method is experimentally evaluated on MALACH data in English and Czech languages.
翻訳日:2022-10-24 15:56:33 公開日:2022-10-21
# エンド・ツー・エンドASRからの音声テキストサブワード表現を用いた音声入力

Audio-to-Intent Using Acoustic-Textual Subword Representations from End-to-End ASR ( http://arxiv.org/abs/2210.12134v1 )

ライセンス: Link先を確認
Pranay Dighe, Prateeth Nayak, Oggi Rudovic, Erik Marchi, Xiaochuan Niu, Ahmed Tewfik(参考訳) デバイス(例えば電話)上で音声アシスタント(va)と対話するユーザの意図を正確に予測することは、自然主義的、興味深く、プライバシー中心の相互作用を達成するために重要である。 この目的のために,エンド・ツー・エンドのASRモデルを用いて得られたサブワードトークンに符号化された音声およびテキスト情報から直接ユーザの意図(デバイスに話しかけるか否かに関わらず)を予測する新しい手法を提案する。 サブワードトークンを直接モデリングする場合、音素やフルワードのモデリングと比較すると、少なくとも2つの利点がある。 i) 音素レベルの表現とは対照的に、各トークンが意味論的意味を持つ独自の語彙表現を提供する。 (ii)各サブワードトークンは、再利用可能な「サブワード」の音響パターン(複数のフルワードを構築するのに使用できる)を持ち、結果として、フルワードよりも語彙空間が大幅に減少する。 音声から情報への分類のためのサブワード表現を学習するために、抽出する。 一 サブワードトークンに対するフレームレベルのCTC後部確率を提供するE2E-ASRモデルからの音響情報及び (ii)サブワードトークンの意味的意味を捉えた事前学習された単語の連続袋モデルからのテキスト情報。 我々のアプローチの鍵は、複数のASR仮説を同時に説明するために、位置エンコーディングの概念を用いて、音響サブワードレベルの後部とテキスト情報を組み合わせることである。 提案手法は,意図しないユーザ音声の93.3%を正の99%の正の率でスマートアシスタントに呼び出すことにより,高精度で高精度な音声対応が可能となることを示す。

Accurate prediction of the user intent to interact with a voice assistant (VA) on a device (e.g. on the phone) is critical for achieving naturalistic, engaging, and privacy-centric interactions with the VA. To this end, we present a novel approach to predict the user's intent (the user speaking to the device or not) directly from acoustic and textual information encoded at subword tokens which are obtained via an end-to-end ASR model. Modeling directly the subword tokens, compared to modeling of the phonemes and/or full words, has at least two advantages: (i) it provides a unique vocabulary representation, where each token has a semantic meaning, in contrast to the phoneme-level representations, (ii) each subword token has a reusable "sub"-word acoustic pattern (that can be used to construct multiple full words), resulting in a largely reduced vocabulary space than of the full words. To learn the subword representations for the audio-to-intent classification, we extract: (i) acoustic information from an E2E-ASR model, which provides frame-level CTC posterior probabilities for the subword tokens, and (ii) textual information from a pre-trained continuous bag-of-words model capturing the semantic meaning of the subword tokens. The key to our approach is the way it combines acoustic subword-level posteriors with text information using the notion of positional-encoding in order to account for multiple ASR hypotheses simultaneously. We show that our approach provides more robust and richer representations for audio-to-intent classification, and is highly accurate with correctly mitigating 93.3% of unintended user audio from invoking the smart assistant at 99% true positive rate.
翻訳日:2022-10-24 15:56:16 公開日:2022-10-21
# 衝突のないマニピュレータ制御のためのテーブルトップシーンのRGBオンリー再構成

RGB-Only Reconstruction of Tabletop Scenes for Collision-Free Manipulator Control ( http://arxiv.org/abs/2210.11668v1 )

ライセンス: Link先を確認
Zhenggang Tang, Balakumar Sundaralingam, Jonathan Tremblay, Bowen Wen, Ye Yuan, Stephen Tyree, Charles Loop, Alexander Schwing, Stan Birchfield(参考訳) 本稿では,世界のrgbビューのみを使用するロボットマニピュレータの衝突回避制御システムを提案する。 テーブルトップシーンの知覚入力は、ロボットエンドエフェクタにハンドヘルドまたは装着されたRGBカメラ(奥行きのない)の複数の画像によって提供される。 シーンの3次元形状を再構成するために、NeRFのようなプロセスが使用され、そこからユークリッド完全符号距離関数(ESDF)が計算される。 次に、モデル予測制御アルゴリズムを用いてマニピュレータを制御し、ESDFの障害物を避けながら所望のポーズに達する。 実験室で収集および注釈付けされた実際のデータセットで結果を示す。

We present a system for collision-free control of a robot manipulator that uses only RGB views of the world. Perceptual input of a tabletop scene is provided by multiple images of an RGB camera (without depth) that is either handheld or mounted on the robot end effector. A NeRF-like process is used to reconstruct the 3D geometry of the scene, from which the Euclidean full signed distance function (ESDF) is computed. A model predictive control algorithm is then used to control the manipulator to reach a desired pose while avoiding obstacles in the ESDF. We show results on a real dataset collected and annotated in our lab.
翻訳日:2022-10-24 15:55:14 公開日:2022-10-21
# 低侵襲ロボット手術における手指縫合針の実時間拘束型6次元物体追跡

Real-Time Constrained 6D Object-Pose Tracking of An In-Hand Suture Needle for Minimally Invasive Robotic Surgery ( http://arxiv.org/abs/2210.11973v1 )

ライセンス: Link先を確認
Zih-Yun Chiu, Florian Richter, Michael C. Yip(参考訳) 自律的な縫合は、外科ロボティクスの長年の目標だった。 実世界の縫合針操作作業を自動化する上で,縫合針の正確な位置決めが重要な基礎となっている。 握手によって保持される針を位置決めする場合、従来の作業は通常、関係を考慮せずに別々に追跡する。 物体や楽器の立体三角測量で発生する重大な誤差のため、それらの復元はしばしば一貫性がない。 これは実現不可能な非現実的なツールの把握に繋がる可能性がある。 代わりに、局所性を改善するための明確な戦略は、接触から生じる制約を活用し、オブジェクトと機器を共同で実現可能な空間に再構築することを制限することである。 本研究は, 縫合針の6次元ポーズを追跡する際の拘束力について考察する。 そこで本研究では,針の位置を記述するための新しい状態空間を定義するための再パラメータ化手法を提案する。 提案する状態空間と実現可能な把持制約をベイズフィルタに組み込んで実時間針定位を行う。 実験では, 従来の非拘束的/拘束的追跡手法よりも優れた制約手法を示し, 縫合針操作作業の自動化に, 把握可能な制約を組み込むことの重要性を示した。

Autonomous suturing has been a long-sought-after goal for surgical robotics. Outside of staged environments, accurate localization of suture needles is a critical foundation for automating various suture needle manipulation tasks in the real world. When localizing a needle held by a gripper, previous work usually tracks them separately without considering their relationship. Because of the significant errors that can arise in the stereo-triangulation of objects and instruments, their reconstructions may often not be consistent. This can lead to unrealistic tool-needle grasp reconstructions that are infeasible. Instead, an obvious strategy to improve localization would be to leverage constraints that arise from contact, thereby constraining reconstructions of objects and instruments into a jointly feasible space. In this work, we consider feasible grasping constraints when tracking the 6D pose of an in-hand suture needle. We propose a reparameterization trick to define a new state space for describing a needle pose, where grasp constraints can be easily defined and satisfied. Our proposed state space and feasible grasping constraints are then incorporated into Bayesian filters for real-time needle localization. In the experiments, we show that our constrained methods outperform previous unconstrained/constrained tracking approaches and demonstrate the importance of incorporating feasible grasping constraints into automating suture needle manipulation tasks.
翻訳日:2022-10-24 15:54:45 公開日:2022-10-21
# ヒト気道セグメンテーション修復用逆変換器

Adversarial Transformer for Repairing Human Airway Segmentation ( http://arxiv.org/abs/2210.12029v1 )

ライセンス: Link先を確認
Zeyu Tang, Nan Yang, Simon Walsh, Guang Yang(参考訳) 末梢気管支の非連続性は、自動気道セグメンテーションモデルの潜在的な臨床応用を妨げる。 さらに, 異なる中心部におけるデータ不均一性により, このようなモデルの展開が制限され, 病理学的異常により, 遠位小空路における正確なロバストセグメンテーションが困難となる。 一方、肺疾患の診断と予後は、解剖学的領域の構造的変化の評価に依存することが多い。 このギャップに対処するため,本論文では,従来のCT画像とともに事前セグメンテーションを行い,気道構造の精細化マスクを出力するパッチスケール対向型精細化ネットワークを提案する。 この方法は、健康な症例、嚢胞性線維症、covid-19の3つの異なるデータセットで検証される。 この結果は7つの指標で定量的に評価され、検出された長さ比と検出された分岐比が15%以上上昇し、従来のモデルと比較して有望な性能を示した。 視線図では, パッチスケールの判別器によって誘導される改善が示され, 中心的目的関数は不連続性や気管支の欠如を検出するのに有効である。 さらに,改良パイプラインの一般化性を3つのモデルでテストし,セグメンテーションの完全性を大幅に改善した。

Discontinuity in the delineation of peripheral bronchioles hinders the potential clinical application of automated airway segmentation models. Moreover, the deployment of such models is limited by the data heterogeneity across different centres, and pathological abnormalities also make achieving accurate robust segmentation in distal small airways difficult. Meanwhile, the diagnosis and prognosis of lung diseases often rely on evaluating structural changes in those anatomical regions. To address this gap, this paper presents a patch-scale adversarial-based refinement network that takes in preliminary segmentation along with original CT images and outputs a refined mask of the airway structure. The method is validated on three different datasets encompassing healthy cases, cases with cystic fibrosis and cases with COVID-19. The results are quantitatively evaluated by seven metrics and achieved more than a 15% rise in detected length ratio and detected branch ratio, showing promising performance compared to previously proposed models. The visual illustration also proves our refinement guided by a patch-scale discriminator and centreline objective functions is effective in detecting discontinuities and missing bronchioles. Furthermore, the generalizability of our refinement pipeline is tested on three previous models and improves their segmentation completeness significantly.
翻訳日:2022-10-24 15:54:23 公開日:2022-10-21
# 局所的再現によるグローバルニューラルネットワークの抽象化に向けて

Towards Global Neural Network Abstractions with Locally-Exact Reconstruction ( http://arxiv.org/abs/2210.12054v1 )

ライセンス: Link先を確認
Edoardo Manino, Iury Bessa, Lucas Cordeiro(参考訳) ニューラルネットワークは非線形関数の強力なクラスである。 しかし、そのブラックボックスの性質は、彼らの行動の説明と安全性の確認を困難にしている。 抽象化技術は、ニューラルネットワークをよりシンプルで近似的な関数に変換することで、この課題に対処します。 残念ながら、既存の抽象化技術はスラックであり、入力ドメインの小さなローカル領域に適用性を制限する。 本稿では,Center-Exact Reconstruction (GINNACER) を用いたグローバルインターバルニューラルネットワーク抽象化を提案する。 提案手法は,任意の局所入力に対して正確な再構成を保証しつつ,入力領域全体の音量近似境界を生成する。 実験の結果,GINNACERは最先端のグローバル抽象技術よりも数桁厳密であり,局所的な抽象技術と競合していることがわかった。

Neural networks are a powerful class of non-linear functions. However, their black-box nature makes it difficult to explain their behaviour and certify their safety. Abstraction techniques address this challenge by transforming the neural network into a simpler, over-approximated function. Unfortunately, existing abstraction techniques are slack, which limits their applicability to small local regions of the input domain. In this paper, we propose Global Interval Neural Network Abstractions with Center-Exact Reconstruction (GINNACER). Our novel abstraction technique produces sound over-approximation bounds over the whole input domain while guaranteeing exact reconstructions for any given local input. Our experiments show that GINNACER is several orders of magnitude tighter than state-of-the-art global abstraction techniques, while being competitive with local ones.
翻訳日:2022-10-24 15:47:57 公開日:2022-10-21
# ゼロショットコーディネーションのための等変ネットワーク

Equivariant Networks for Zero-Shot Coordination ( http://arxiv.org/abs/2210.12124v1 )

ライセンス: Link先を確認
Darius Muglich, Christian Schroeder de Witt, Elise van der Pol, Shimon Whiteson, Jakob Foerster(参考訳) dec-pomdpsでの協調に成功したエージェントは、パートナーのために堅牢な戦略と解釈可能なプレイスタイルを採用する必要がある。 共通障害モードは対称性の破れであり、エージェントが複数の等価だが相互に互換性のないポリシーのうち1つに任意に収束する。 一般的には、右手と左手を振って秘密のメッセージを伝達する部分的可観測性がある。 本稿では,Dec-POMDPで使用する新しい同変ネットワークアーキテクチャを提案する。 提案手法は,汎用的かつ事前学習されたポリシーに対して,コーディネーション改善演算子として機能するので,任意のセルフプレイアルゴリズムと組み合わせてテスト時に適用することができる。 我々は,ハナビのAIベンチマークタスクにおける作業とテストの理論的保証を提供し,ゼロショット調整における他の対称性認識ベースラインよりも優れた手法を実証するとともに,事前訓練されたさまざまなポリシーの調整能力を向上させる。 特に,本手法は,hanabiベンチマークにおけるゼロショットコーディネーションの技術を改善できることを示す。

Successful coordination in Dec-POMDPs requires agents to adopt robust strategies and interpretable styles of play for their partner. A common failure mode is symmetry breaking, when agents arbitrarily converge on one out of many equivalent but mutually incompatible policies. Commonly these examples include partial observability, e.g. waving your right hand vs. left hand to convey a covert message. In this paper, we present a novel equivariant network architecture for use in Dec-POMDPs that prevents the agent from learning policies which break symmetries, doing so more effectively than prior methods. Our method also acts as a "coordination-improvement operator" for generic, pre-trained policies, and thus may be applied at test-time in conjunction with any self-play algorithm. We provide theoretical guarantees of our work and test on the AI benchmark task of Hanabi, where we demonstrate our methods outperforming other symmetry-aware baselines in zero-shot coordination, as well as able to improve the coordination ability of a variety of pre-trained policies. In particular, we show our method can be used to improve on the state of the art for zero-shot coordination on the Hanabi benchmark.
翻訳日:2022-10-24 15:47:45 公開日:2022-10-21
# ロボット協調作業のタスクプランニングにおける動作時間と相乗効果の学習

Learning Action Duration and Synergy in Task Planning for Human-Robot Collaboration ( http://arxiv.org/abs/2210.11660v1 )

ライセンス: Link先を確認
Samuele Sandrini and Marco Faroni and Nicola Pedrocchi(参考訳) ヒューマンロボットコラボレーションにおけるタスク計画において,アクションのコストを適切に見積もることが重要である。 アクションの持続時間は、エージェントの能力と、人間とロボットが同時に行うアクションの相関に依存する。 本稿では,人間とロボットが同時に実行する行動のコストと結合を学習するためのアプローチを提案する。 我々は、過去の実行から得た情報を利用して、ロボットが行う動作の持続時間(およびその逆)に人間が行うアクションの効果を表す相乗係数と、各アクションの平均持続時間と相乗係数を学習する。 提案手法は,両エージェントが同時に同じ領域にアクセスできるシミュレーションシナリオで実装する。 安全対策では、人間が近づくとロボットが減速し、同じエリアで作業するタスクの相乗効果が悪くなる。 我々のアプローチはこのような悪い結合を学習できるので、タスクプランナーはより良い計画を見つけるためにこの情報を利用することができます。

A good estimation of the actions' cost is key in task planning for human-robot collaboration. The duration of an action depends on agents' capabilities and the correlation between actions performed simultaneously by the human and the robot. This paper proposes an approach to learning actions' costs and coupling between actions executed concurrently by humans and robots. We leverage the information from past executions to learn the average duration of each action and a synergy coefficient representing the effect of an action performed by the human on the duration of the action performed by the robot (and vice versa). We implement the proposed method in a simulated scenario where both agents can access the same area simultaneously. Safety measures require the robot to slow down when the human is close, denoting a bad synergy of tasks operating in the same area. We show that our approach can learn such bad couplings so that a task planner can leverage this information to find better plans.
翻訳日:2022-10-24 15:46:19 公開日:2022-10-21
# 認知の共通モデルを実装するアーキテクチャの論理的概念記憶

Analogical Concept Memory for Architectures Implementing the Common Model of Cognition ( http://arxiv.org/abs/2210.11731v1 )

ライセンス: Link先を確認
Shiwali Mohan, Matthew Klenk(参考訳) 認知の共通モデル(Soar、ACT-R、Sigma)を実装するアーキテクチャは、認知モデリングや複雑な知的エージェントの設計において顕著な位置を占めている。 本稿では,これらのアーキテクチャにアナログ処理の計算モデルがどのように導入され,インタラクティブに得られた例から概念獲得を可能にするかを検討する。 宣言型長期記憶のシステムを強化する新しいsoarの類似概念記憶を提案する。 本稿では,対話型タスク学習 (ITL) と組込み言語処理 (ELP) のコンテキストに埋め込まれた概念学習の課題について考察する。 提案したメモリに実装されたアナログ学習手法は,環境における概念認識だけでなく,行動選択においても有用である,多様な概念を迅速に学習できることを実証する。 提案手法は, 実演型認知システムであるAILEENでインスタンス化され, シミュレーションロボットドメインで評価されている。

Architectures that implement the Common Model of Cognition - Soar, ACT-R, and Sigma - have a prominent place in research on cognitive modeling as well as on designing complex intelligent agents. In this paper, we explore how computational models of analogical processing can be brought into these architectures to enable concept acquisition from examples obtained interactively. We propose a new analogical concept memory for Soar that augments its current system of declarative long-term memories. We frame the problem of concept learning as embedded within the larger context of interactive task learning (ITL) and embodied language processing (ELP). We demonstrate that the analogical learning methods implemented in the proposed memory can quickly learn a diverse types of novel concepts that are useful not only in recognition of a concept in the environment but also in action selection. Our approach has been instantiated in an implemented cognitive system AILEEN and evaluated on a simulated robotic domain.
翻訳日:2022-10-24 15:46:05 公開日:2022-10-21
# デジタル医療の倫理 : 倫理的な創発的医療iotデザインへの道

Ethics for Digital Medicine: A Path for Ethical Emerging Medical IoT Design ( http://arxiv.org/abs/2210.12007v1 )

ライセンス: Link先を確認
Sudeep Pasricha(参考訳) デジタル医療時代の幕開けは、ますます強力な組み込みシステムとIoT(Internet of Things)コンピューティングデバイスに支えられ、私たちの生活の質を積極的に変えることを約束する新しい治療法とバイオメディカルソリューションを生み出している。 しかし、デジタル医療革命は、予期せぬ複雑な倫理、規制、社会的な問題も生み出している。 本稿では,デジタル医療が直面する倫理的課題について考察する。 医療機器における倫理的監視の限界と、患者のニーズを安全かつ効果的に満たすデジタル医療機器の倫理的設計、展開、運用に対する専門的なコードと規制上の監視の役割について論じる。 我々は,新たなデジタル医療機器の倫理的革新,設計,ライフサイクル管理を継続するために,集中教育,プログラマブルな倫理行動,倫理分析フレームワークのアンサンブルアプローチを提唱する。

The dawn of the digital medicine era, ushered in by increasingly powerful embedded systems and Internet of Things (IoT) computing devices, is creating new therapies and biomedical solutions that promise to positively transform our quality of life. However, the digital medicine revolution also creates unforeseen and complex ethical, regulatory, and societal issues. In this article, we reflect on the ethical challenges facing digital medicine. We discuss the perils of ethical oversights in medical devices, and the role of professional codes and regulatory oversight towards the ethical design, deployment, and operation of digital medicine devices that safely and effectively meet the needs of patients. We advocate for an ensemble approach of intensive education, programmable ethical behaviors, and ethical analysis frameworks, to prevent mishaps and sustain ethical innovation, design, and lifecycle management of emerging digital medicine devices.
翻訳日:2022-10-24 15:45:49 公開日:2022-10-21
# 自律的教育的構成シナリオにおける説明可能性

Explainability in autonomous pedagogically structured scenarios ( http://arxiv.org/abs/2210.12140v1 )

ライセンス: Link先を確認
Minal Suresh Patil(参考訳) 本稿では,教育的構造化自律環境における意思決定過程の説明可能性について述べる。 教育的に構成されたマルチエージェントシステムは、教育的教師と学習者で構成されており、環境における全ての状態や他のエージェントの信念を完全に認識していない場合があり、互いの決定や行動を説明するのが困難である。 本研究は,教師と学習者との堅牢かつ反復的な説明に基づくコミュニケーションの必要性を強調する。 教育教師と学習者との信頼性の高いコミュニケーションを構築するためには,対話的かつ部分的に観察可能な環境におけるマルチエージェント決定の根拠を説明する必要がある。 進行中の研究は、主に人間に対するエージェントの行動の説明に焦点を当てており、エージェント間の説明可能性に関する研究が不足している。

We present the notion of explainability for decision-making processes in a pedagogically structured autonomous environment. Multi-agent systems that are structured pedagogically consist of pedagogical teachers and learners that operate in environments in which both are sometimes not fully aware of all the states in the environment and beliefs of other agents thus making it challenging to explain their decisions and actions with one another. This work emphasises the need for robust and iterative explanation-based communication between the pedagogical teacher and the learner. Explaining the rationale behind multi-agent decisions in an interactive, partially observable environment is necessary to build trustworthy and reliable communication between pedagogical teachers and learners. Ongoing research is primarily focused on explanations of the agents' behaviour towards humans, and there is a lack of research on inter-agent explainability.
翻訳日:2022-10-24 15:45:33 公開日:2022-10-21
# 降下確率最大化による局所ベイズ最適化

Local Bayesian optimization via maximizing probability of descent ( http://arxiv.org/abs/2210.11662v1 )

ライセンス: Link先を確認
Quan Nguyen, Kaiwen Wu, Jacob R. Gardner and Roman Garnett(参考訳) 局所最適化は、検索空間をグローバルに探索する必要性をサイドステッピングすることで、高価で高次元のブラックボックス最適化に対して有望なアプローチを示す。 勾配を直接評価できない目的関数に対しては、ベイズ最適化は一つの解を提供する -- 目的の確率モデルを構築し、現在の位置での勾配について学習するためのポリシーを設計し、その結果の情報を使って目的の風景をナビゲートする。 前回の研究では、勾配の推定のばらつきを最小化し、期待される勾配の方向に移動することにより、このスキームを実現している。 本稿では,このアプローチを再検討し,精査する。 意外なことに、勾配の期待値は必ずしも降下の確率を最大化する方向ではなく、実際、これらの方向はほぼ直交的である。 この観測は、最も確率の高い降下の方向に移動しながら降下の確率を最大化するエレガントな最適化スキームを刺激する。 総合的および実世界の目的の両方における実験により,本手法は従来の最適化手法よりも優れており,より複雑なベースラインと競合していることが示された。

Local optimization presents a promising approach to expensive, high-dimensional black-box optimization by sidestepping the need to globally explore the search space. For objective functions whose gradient cannot be evaluated directly, Bayesian optimization offers one solution -- we construct a probabilistic model of the objective, design a policy to learn about the gradient at the current location, and use the resulting information to navigate the objective landscape. Previous work has realized this scheme by minimizing the variance in the estimate of the gradient, then moving in the direction of the expected gradient. In this paper, we re-examine and refine this approach. We demonstrate that, surprisingly, the expected value of the gradient is not always the direction maximizing the probability of descent, and in fact, these directions may be nearly orthogonal. This observation then inspires an elegant optimization scheme seeking to maximize the probability of descent while moving in the direction of most-probable descent. Experiments on both synthetic and real-world objectives show that our method outperforms previous realizations of this optimization scheme and is competitive against other, significantly more complicated baselines.
翻訳日:2022-10-24 15:39:06 公開日:2022-10-21
# オンラインクラスタリングのための双対コントラスト学習

Twin Contrastive Learning for Online Clustering ( http://arxiv.org/abs/2210.11680v1 )

ライセンス: Link先を確認
Yunfan Li, Mouxing Yang, Dezhong Peng, Taihao Li, Jiantao Huang, Xi Peng(参考訳) 本稿では,インスタンスとクラスタレベルで2つのコントラスト学習(tcl)を行うことで,オンラインクラスタリングを実現する。 具体的には、対象クラスタ番号の次元を持つ特徴空間にデータを投影すると、その特徴行列の行と列がそれぞれインスタンスとクラスタ表現に対応することが分かる。 この観測に基づいて、与えられたデータセットに対して、提案したTCLは、まずデータ拡張を通じて正と負のペアを構成する。 その後、特徴行列の行と列空間において、インスタンスとクラスタレベルのコントラスト学習は、それぞれ負のペアを分割しながら正のペアをまとめることで行われる。 固有偽陰性ペアの影響を緩和し、クラスタ割り当てを正すために、インスタンスレベルおよびクラスタレベルのコントラスト学習を促進させる擬似ラベルを選択するための信頼度に基づく基準を採用する。 その結果、クラスタリング性能がさらに向上した。 双対の対照的な学習というエレガントなアイデアに加えて、TCLのもうひとつのメリットは、各インスタンスのクラスタ割り当てを独立して予測できることだ。 広く使用されている6つの画像とテキストベンチマークに関する広範囲な実験がtclの有効性を示している。 コードはGitHubでリリースされる。

This paper proposes to perform online clustering by conducting twin contrastive learning (TCL) at the instance and cluster level. Specifically, we find that when the data is projected into a feature space with a dimensionality of the target cluster number, the rows and columns of its feature matrix correspond to the instance and cluster representation, respectively. Based on the observation, for a given dataset, the proposed TCL first constructs positive and negative pairs through data augmentations. Thereafter, in the row and column space of the feature matrix, instance- and cluster-level contrastive learning are respectively conducted by pulling together positive pairs while pushing apart the negatives. To alleviate the influence of intrinsic false-negative pairs and rectify cluster assignments, we adopt a confidence-based criterion to select pseudo-labels for boosting both the instance- and cluster-level contrastive learning. As a result, the clustering performance is further improved. Besides the elegant idea of twin contrastive learning, another advantage of TCL is that it could independently predict the cluster assignment for each instance, thus effortlessly fitting online scenarios. Extensive experiments on six widely-used image and text benchmarks demonstrate the effectiveness of TCL. The code will be released on GitHub.
翻訳日:2022-10-24 15:38:47 公開日:2022-10-21
# Amos: モデル指向スケールへの適応的な重み付けによるアダムスタイルの最適化

Amos: An Adam-style Optimizer with Adaptive Weight Decay towards Model-Oriented Scale ( http://arxiv.org/abs/2210.11693v1 )

ライセンス: Link先を確認
Ran Tian, Ankur P. Parikh(参考訳) Amosは、ディープニューラルネットワークのトレーニング用に設計された確率的勾配に基づくオプティマイザである。 理論的に支持され、適応的な学習速度減衰と重量減衰を持つadamオプティマイザと見なすことができる。 amosの背景にある重要な洞察は、モデル固有の情報を活用して初期学習率と崩壊スケジュールを決定することだ。 BERTとT5の事前トレーニングに使用する場合、AmosはAdamWの最先端設定よりも一貫して収束し、<=70%のトレーニングステップと時間内でのバリデーション損失を改善すると同時に、スロット変数に対して<=51%のメモリを必要とする。 私たちのコードは、https://github.com/google-research/jestimatorでオープンソースです。

We present Amos, a stochastic gradient-based optimizer designed for training deep neural networks. It can be viewed as an Adam optimizer with theoretically supported, adaptive learning-rate decay and weight decay. A key insight behind Amos is that it leverages model-specific information to determine the initial learning-rate and decaying schedules. When used for pre-training BERT variants and T5, Amos consistently converges faster than the state-of-the-art settings of AdamW, achieving better validation loss within <=70% training steps and time, while requiring <=51% memory for slot variables. Our code is open-sourced at: https://github.com/google-research/jestimator
翻訳日:2022-10-24 15:38:27 公開日:2022-10-21
# グラフニューラルネットワークのための大域的対物説明器

Global Counterfactual Explainer for Graph Neural Networks ( http://arxiv.org/abs/2210.11695v1 )

ライセンス: Link先を確認
Mert Kosan, Zexi Huang, Sourav Medya, Sayan Ranu and Ambuj Singh(参考訳) グラフニューラルネットワーク(GNN)は、計算生物学、自然言語処理、コンピュータセキュリティなど、さまざまな分野で応用されている。 その人気から、GNNはブラックボックス機械学習モデルであるため、GNNの予測を説明する必要性が高まっている。 これに対処する1つの方法は、入力グラフの最小限の変更でgnn予測を変更することを目的とした、事実上の推論である。 既存のGNNの非現実的説明法は、インスタンス固有の局所的推論に限られる。 このアプローチには,グローバルなレコメンデーションポリシの提供と,情報過剰による人間の認知能力の過負荷という,2つの大きな制限がある。 本研究では,グローバルカウンターファクト推論によるGNNのグローバルな説明可能性について検討する。 具体的には、すべての入力グラフを説明する代表的反実グラフの小さなセットを見つけたいと思っています。 そこで本研究では,グラフの編集マップ上に頂点強制ランダムウォークを用いた新しいアルゴリズムgcfexplainerを提案する。 実グラフデータセットに関する広範な実験により、gcfexplainerによるグローバル説明は、モデルの振る舞いに関する重要なハイレベルな洞察を提供し、リコースカバレッジの46.9%向上とリコースコストの9.5%削減を達成した。

Graph neural networks (GNNs) find applications in various domains such as computational biology, natural language processing, and computer security. Owing to their popularity, there is an increasing need to explain GNN predictions since GNNs are black-box machine learning models. One way to address this is counterfactual reasoning where the objective is to change the GNN prediction by minimal changes in the input graph. Existing methods for counterfactual explanation of GNNs are limited to instance-specific local reasoning. This approach has two major limitations of not being able to offer global recourse policies and overloading human cognitive ability with too much information. In this work, we study the global explainability of GNNs through global counterfactual reasoning. Specifically, we want to find a small set of representative counterfactual graphs that explains all input graphs. Towards this goal, we propose GCFExplainer, a novel algorithm powered by vertex-reinforced random walks on an edit map of graphs with a greedy summary. Extensive experiments on real graph datasets show that the global explanation from GCFExplainer provides important high-level insights of the model behavior and achieves a 46.9% gain in recourse coverage and a 9.5% reduction in recourse cost compared to the state-of-the-art local counterfactual explainers.
翻訳日:2022-10-24 15:38:12 公開日:2022-10-21
# プライバシー保護型ニューラルグラフ類似学習

Privacy-Preserved Neural Graph Similarity Learning ( http://arxiv.org/abs/2210.11730v1 )

ライセンス: Link先を確認
Yupeng Hou, Wayne Xin Zhao, Yaliang Li, Ji-Rong Wen(参考訳) 近年,効率的なグラフ類似性学習(gsl)モデルを開発するために,データ駆動型ニューラルネットワークが提案されている。 GSLモデルは、プライバシに敏感なシナリオに頻繁にデプロイされるが、ニューラルGSLモデルのユーザのプライバシ保護はあまり注目されていない。 プライバシ保護の問題を包括的に理解するために,まず,各モデルが直面するプライバシ攻撃を体系的に特徴付ける攻撃可能な表現の概念を導入する。 質的な結果から着想を得て,グラフ類似性学習のためのプライバシ保存型ニューラルグラフマッチングネットワークモデルPPGMを提案する。 レコンストラクション攻撃を防止するため、提案モデルはデバイス間でノードレベルの表現を通信しない。 代わりに、学習可能なコンテキストベクトルに基づいて多視点グラフ表現を学習する。 グラフプロパティに対する攻撃を軽減するため、両方のグラフの情報を含む難読化機能は通信される。 このようにして、各グラフのプライベートな性質を推測することは困難である。 難読化特徴を計算しながらノードグラフマッチング技術に基づいて、PPGMは類似度測定にも有効である。 ニューラルGSLモデルのプライバシー保護能力を定量的に評価するために,教師付きブラックボックス攻撃モデルによる評価プロトコルを提案する。 広範に使用されているベンチマークの大規模な実験は、提案モデルPPGMの有効性と強力なプライバシー保護能力を示している。 コードはhttps://github.com/rucaibox/ppgmで入手できる。

To develop effective and efficient graph similarity learning (GSL) models, a series of data-driven neural algorithms have been proposed in recent years. Although GSL models are frequently deployed in privacy-sensitive scenarios, the user privacy protection of neural GSL models has not drawn much attention. To comprehensively understand the privacy protection issues, we first introduce the concept of attackable representation to systematically characterize the privacy attacks that each model can face. Inspired by the qualitative results, we propose a novel Privacy-Preserving neural Graph Matching network model, named PPGM, for graph similarity learning. To prevent reconstruction attacks, the proposed model does not communicate node-level representations between devices. Instead, we learn multi-perspective graph representations based on learnable context vectors. To alleviate the attacks to graph properties, the obfuscated features that contain information from both graphs are communicated. In this way, the private properties of each graph can be difficult to infer. Based on the node-graph matching techniques while calculating the obfuscated features, PPGM can also be effective in similarity measuring. To quantitatively evaluate the privacy-preserving ability of neural GSL models, we further propose an evaluation protocol via training supervised black-box attack models. Extensive experiments on widely-used benchmarks show the effectiveness and strong privacy-protection ability of the proposed model PPGM. The code is available at: https://github.com/RUCAIBox/PPGM.
翻訳日:2022-10-24 15:37:46 公開日:2022-10-21
# ランダムアクション対ランダムポリシー:モデルに基づく直接ポリシー検索のブートストラップ

Random Actions vs Random Policies: Bootstrapping Model-Based Direct Policy Search ( http://arxiv.org/abs/2210.11801v1 )

ライセンス: Link先を確認
Elias Hanna, Alex Coninx, St\'ephane Doncieux(参考訳) 本稿では, 動的モデルの学習における初期データ収集手法の影響について検討する。 ダイナミクスモデルは、コストのかかる実システムではなく、モデル上で直接ポリシー探索を行うために、与えられたタスクの真の遷移関数を近似する。 本研究の目的は,文献における2つの異なるポリシー検索フレームワークで使用される初期化手法を比較し,モデルをできるだけ効率的にブートストラップする方法を決定することである。 本研究は,確率的アンサンブルを用いた進化的手法のエピソードベース枠組みに基づくモデル性能に焦点を当てた。 実験結果から,様々なタスク依存因子がそれぞれの手法に有害であることが示唆された。

This paper studies the impact of the initial data gathering method on the subsequent learning of a dynamics model. Dynamics models approximate the true transition function of a given task, in order to perform policy search directly on the model rather than on the costly real system. This study aims to determine how to bootstrap a model as efficiently as possible, by comparing initialization methods employed in two different policy search frameworks in the literature. The study focuses on the model performance under the episode-based framework of Evolutionary methods using probabilistic ensembles. Experimental results show that various task-dependant factors can be detrimental to each method, suggesting to explore hybrid approaches.
翻訳日:2022-10-24 15:37:25 公開日:2022-10-21
# シミュレーションに基づく推論における情報的特徴の同定

Efficient identification of informative features in simulation-based inference ( http://arxiv.org/abs/2210.11915v1 )

ライセンス: Link先を確認
Jonas Beck, Michael Deistler, Yves Bernaerts, Jakob Macke, Philipp Berens(参考訳) シミュレーションに基づくベイズ推定(SBI)は、観測されたモデル出力の複雑な力学モデルのパラメータを、明確な確度評価を必要とせずに推定することができる。 神経科学におけるsbiの応用の例としては、電気生理学的測定からホジキン・ハクスリーモデル(hh)の応答ダイナミクスを規定するパラメータを推定し、一連の観測と一致するパラメータの後方を推定することが挙げられる。 この目的のために、多くのSBI手法は、サロゲート確率または後部を推定するために、一連の要約統計または科学的解釈可能な特徴を用いる。 しかし、現在、それぞれの要約統計や特徴が後続の不確実性を減らすのにどの程度貢献するかを特定する方法がない。 この課題に対処するために、後肢を推論プロセスに含まれる特定の特徴とせずに簡単に比較することができる。 しかし、大きな特徴集合やネストした特徴集合の場合、これは計算コストがかかるか、あるいは禁止される後方を何度も推定する必要がある。 そこで我々は,SBI法に基づくより効率的な手法を提案する。我々は,訓練後のサロゲート確率を,特徴の寄与を評価するために後部を推定する前に余剰化できることを示す。 本手法は,サンプルhhニューロンモデルのパラメータを推定するための最も重要な特徴を同定し,その有用性を示す。 神経科学以外にも、他の科学分野における推論にデータ特徴に依存するSBIワークフローにも応用できる。

Simulation-based Bayesian inference (SBI) can be used to estimate the parameters of complex mechanistic models given observed model outputs without requiring access to explicit likelihood evaluations. A prime example for the application of SBI in neuroscience involves estimating the parameters governing the response dynamics of Hodgkin-Huxley (HH) models from electrophysiological measurements, by inferring a posterior over the parameters that is consistent with a set of observations. To this end, many SBI methods employ a set of summary statistics or scientifically interpretable features to estimate a surrogate likelihood or posterior. However, currently, there is no way to identify how much each summary statistic or feature contributes to reducing posterior uncertainty. To address this challenge, one could simply compare the posteriors with and without a given feature included in the inference process. However, for large or nested feature sets, this would necessitate repeatedly estimating the posterior, which is computationally expensive or even prohibitive. Here, we provide a more efficient approach based on the SBI method neural likelihood estimation (NLE): We show that one can marginalize the trained surrogate likelihood post-hoc before inferring the posterior to assess the contribution of a feature. We demonstrate the usefulness of our method by identifying the most important features for inferring parameters of an example HH neuron model. Beyond neuroscience, our method is generally applicable to SBI workflows that rely on data features for inference used in other scientific fields.
翻訳日:2022-10-24 15:37:13 公開日:2022-10-21
# $\mathrm{f}_1$メートルの拡張、確率的アプローチ

Extending $\mathrm{F}_1$ metric, probabilistic approach ( http://arxiv.org/abs/2210.11997v1 )

ライセンス: Link先を確認
Mikolaj Sitarz(参考訳) 本稿では、よく知られた$\mathrm{F}_1$スコアを拡張し、バイナリ分類器の性能を評価する。 本稿では,精度,リコール,特異性,負の予測値の確率論的解釈を用いた新しい指標を提案する。 その特性を記述し、一般的な指標と比較する。 次に,混乱行列のエッジケースにおける挙動を示す。 最後に、メトリックの特性は、実データセットでトレーニングされたバイナリ分類器でテストされる。

This article explores the extension of well-known $\mathrm{F}_1$ score used for assessing the performance of binary classifiers. We propose the new metric using probabilistic interpretation of precision, recall, specificity, and negative predictive value. We describe its properties and compare it to common metrics. Then we demonstrate its behavior in edge cases of the confusion matrix. Finally, the properties of the metric are tested on binary classifier trained on the real dataset.
翻訳日:2022-10-24 15:36:30 公開日:2022-10-21
# Expressivityがトレーニング能力に出会ったとき:$n$のニューロンが使える

When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work ( http://arxiv.org/abs/2210.12001v1 )

ライセンス: Link先を確認
Jiawei Zhang, Yushun Zhang, Mingyi Hong, Ruoyu Sun, Zhi-Quan Luo(参考訳) 現代のニューラルネットワークは、しばしば非常に広く、大きなメモリと計算コストを引き起こす。 したがって、より狭いネットワークを訓練することが非常に興味深い。 しかし、狭いニューラルネットワークのトレーニングは依然として難しい課題である。 狭いネットワークは、幅の広いネットワークと同じくらい強い表現性を持つことができるか? もしそうなら、損失関数は良質な最適化景観を示すだろうか? 本研究では,活性化がスムーズな場合,n$ (サンプルサイズ) 未満の1-hidden層ネットワークに対して,両質問に部分的に肯定的な回答を与える。 まず、幅$m \geq 2n/d$(ここで$d$は入力次元)の限り、その表現性は強く、つまりトレーニング損失ゼロの少なくとも1つの大域的最小値が存在することを証明します。 第2に,ローカルミンやサドルポイントのない素敵なローカルリージョンを識別する。 それでも、勾配降下がこのよい地域に留まるのかは明らかではない。 第三に、実現可能な領域がよい局所領域であるような制約付き最適化の定式化を考え、すべてのKKT点がほぼ大域的最小値であることを示す。 適度な技術的条件下では, 投影勾配法がkkt点に収束することが期待されるが, 厳密な収束解析は今後の課題に委ねる。 厳密な数値計算により、この制約付き定式化上の投影勾配法は、狭いニューラルネットワークの訓練にsgdを大幅に上回ることを示した。

Modern neural networks are often quite wide, causing large memory and computation costs. It is thus of great interest to train a narrower network. However, training narrow neural nets remains a challenging task. We ask two theoretical questions: Can narrow networks have as strong expressivity as wide ones? If so, does the loss function exhibit a benign optimization landscape? In this work, we provide partially affirmative answers to both questions for 1-hidden-layer networks with fewer than $n$ (sample size) neurons when the activation is smooth. First, we prove that as long as the width $m \geq 2n/d$ (where $d$ is the input dimension), its expressivity is strong, i.e., there exists at least one global minimizer with zero training loss. Second, we identify a nice local region with no local-min or saddle points. Nevertheless, it is not clear whether gradient descent can stay in this nice region. Third, we consider a constrained optimization formulation where the feasible region is the nice local region, and prove that every KKT point is a nearly global minimizer. It is expected that projected gradient methods converge to KKT points under mild technical conditions, but we leave the rigorous convergence analysis to future work. Thorough numerical results show that projected gradient methods on this constrained formulation significantly outperform SGD for training narrow neural nets.
翻訳日:2022-10-24 15:36:22 公開日:2022-10-21
# マイズショットセグメンテーションにおける背景の問合せセマンティクス再構成

Query Semantic Reconstruction for Background in Few-Shot Segmentation ( http://arxiv.org/abs/2210.12055v1 )

ライセンス: Link先を確認
Haoyan Guan, Michael Spratling(参考訳) Few-shot segmentation (FSS) は、いくつかのアノテーション付きサンプルを使用して見えないクラスをセグメントすることを目的としている。 通常、前景クラスを表すプロトタイプは、注釈付きサポートイメージ(s)から抽出され、クエリ画像の各ピクセルを表す特徴にマッチする。 しかし、この方法で学習したモデルは判別に不十分であり、しばしば偽陽性を生じる:背景画素を前景と誤分類する。 いくつかのFSSメソッドは、サポートイメージの背景を使用して、クエリイメージの背景を特定することでこの問題に対処しようとする。 しかし、これらの画像の背景は、しばしばかなり異なるため、サポート画像の背景情報は非形式的である。 本稿では,問合せ画像から背景を抽出するqsr手法を提案する。その結果,問合せ画像における前景特徴と背景特徴の判別性が向上する。 これはトレーニングプロセスを変更して、トレーニングデータから既知のクラスを含むクラスラベルと、未知のバックグラウンドオブジェクトを表す潜在クラスを関連付けることで実現される。 このクラス情報は、クエリ画像からバックグラウンドプロトタイプを抽出するために使用される。 プロトタイプをクラスラベルに関連付け、画像の背景領域のマスクを予測可能な背景プロトタイプを抽出することで、前景プロトタイプを抽出・使用するための機械を、異なるクラス間でより判別可能に誘導する。 pascal-5iとcoco-20iのデータセット上での1ショットおよび5ショットのfss実験は、提案手法が適用されるベースライン法の性能が大幅に向上することを示している。 QSRはトレーニング中のみ動作するため、これらの改善された結果は、テスト中に余分な計算複雑性を伴わずに生成される。

Few-shot segmentation (FSS) aims to segment unseen classes using a few annotated samples. Typically, a prototype representing the foreground class is extracted from annotated support image(s) and is matched to features representing each pixel in the query image. However, models learnt in this way are insufficiently discriminatory, and often produce false positives: misclassifying background pixels as foreground. Some FSS methods try to address this issue by using the background in the support image(s) to help identify the background in the query image. However, the backgrounds of theses images is often quite distinct, and hence, the support image background information is uninformative. This article proposes a method, QSR, that extracts the background from the query image itself, and as a result is better able to discriminate between foreground and background features in the query image. This is achieved by modifying the training process to associate prototypes with class labels including known classes from the training data and latent classes representing unknown background objects. This class information is then used to extract a background prototype from the query image. To successfully associate prototypes with class labels and extract a background prototype that is capable of predicting a mask for the background regions of the image, the machinery for extracting and using foreground prototypes is induced to become more discriminative between different classes. Experiments for both 1-shot and 5-shot FSS on both the PASCAL-5i and COCO-20i datasets demonstrate that the proposed method results in a significant improvement in performance for the baseline methods it is applied to. As QSR operates only during training, these improved results are produced with no extra computational complexity during testing.
翻訳日:2022-10-24 15:30:49 公開日:2022-10-21
# 健康な臓器の大規模データベースからの学習形状分布:ゼロショットおよび少数ショット異常膵検出への応用

Learning shape distributions from large databases of healthy organs: applications to zero-shot and few-shot abnormal pancreas detection ( http://arxiv.org/abs/2210.12095v1 )

ライセンス: Link先を確認
Rebeca V\'etil, Cl\'ement Abi Nader, Alexandre B\^one, Marie-Pierre Vullierme, Marc-Michel Rohe\'e, Pietro Gori, Isabelle Bloch(参考訳) 健康臓器の大規模データベースから形状分布を学習するための,スケーラブルでデータ駆動型アプローチを提案する。 そのため、ボリュームセグメンテーションマスクは、変分自動符号化ネットワークで学習される共通の確率的形状空間に埋め込まれる。 得られた潜在形状表現は、異常な形状検出のためのゼロショット法と少数ショット法を導出するために活用される。 提案する分布学習手法は,1200個の健康な膵形状の大規模データベース上に示される。 混合状態の患者から224個の膵を分離して, 下流の質的, 定量的な実験を行った。 異常膵検出aucは、ゼロショット構成では65.41%、ノベルショット構成では78.97%、異常例は15例に満たず、単独ボリュームに基づくベースラインアプローチを上回った。

We propose a scalable and data-driven approach to learn shape distributions from large databases of healthy organs. To do so, volumetric segmentation masks are embedded into a common probabilistic shape space that is learned with a variational auto-encoding network. The resulting latent shape representations are leveraged to derive zeroshot and few-shot methods for abnormal shape detection. The proposed distribution learning approach is illustrated on a large database of 1200 healthy pancreas shapes. Downstream qualitative and quantitative experiments are conducted on a separate test set of 224 pancreas from patients with mixed conditions. The abnormal pancreas detection AUC reached up to 65.41% in the zero-shot configuration, and 78.97% in the few-shot configuration with as few as 15 abnormal examples, outperforming a baseline approach based on the sole volume.
翻訳日:2022-10-24 15:30:20 公開日:2022-10-21
# 持続可能なマイクロモビリティの未来をデザインする:自然言語処理技術を用いた米国と欧州連合の動向と課題

Design a Sustainable Micro-mobility Future: Trends and Challenges in the United States and European Union Using Natural Language Processing Techniques ( http://arxiv.org/abs/2210.11714v1 )

ライセンス: Link先を確認
Lilit Avetisyan, Chengxin Zhang, Sue Bai, Ehsan Moradi Pari, Fred Feng, Shan Bao and Feng Zhou(参考訳) マイクロモビリティデバイスは、その効率、低コスト、持続可能性から恩恵を受けることができるため、急速に普及している。 しかし、これらのデバイスの開発と完全統合を保留する課題に直面している。 本研究では,米国とEUにおけるマイクロモビリティに関する人々の意見と経験を,Twitter上でのソーシャルメディアデータを用いて検討した。 我々は,高度な自然言語処理技術に基づくトピックモデリングを用いて,プロモーションとサービス,モビリティ,技術的特徴,受け入れ,レクリエーション,インフラストラクチャと規制の7つのトピックに分類した。 さらに、感情分析を用いて、これらのトピックの特定の側面に対する人々のポジティブな態度とネガティブな態度を調査し、米国とeuにおけるトレンドと課題のパターンを比較した。 私たちはそれを見つけました 1)プロモーションとサービスは両地域でのTwitterの議論の大部分を含んでいた。 2)EUは米国よりも肯定的な意見を持っていた。 3) マイクロモビリティ装置は、米国よりもEUの実用的モビリティやレクリエーション目的に広く用いられていた。 4)euと比較して、米国の人々はインフラや規制の問題に多くの懸念を抱いていた。 これらの知見は、より持続可能なマイクロモビリティの未来を設計するための2つの領域における安全性と経験を改善するために、マイクロモビリティのトレンドと課題を理解するのに役立ちます。

Micro-mobility devices are rapidly gaining popularity since people could benefit from their efficiency, low cost and sustainability. However, people still face challenges that detain the development and full integration of these devices. In the present study, we examined people's opinions and experiences about micro-mobility in the US and the EU using social media data on Twitter. We made use of topic modeling based on advanced natural language processing techniques and categorized the data into seven topics: promotion and service, mobility, technical features, acceptance, recreation, infrastructure and regulations. Furthermore, using sentiment analysis, we investigated people's positive and negative attitudes towards specific aspects of these topics and compared the patterns of the trends and challenges in the US and the EU. We found that 1) promotion and service included the majority of Twitter discussions in the both regions, 2) the EU had more positive opinions than the US, 3) micro-mobility devices were more widely used for utilitarian mobility and recreational purposes in the EU than in the US, and 4) compared to the EU, people in the US had many more concerns related to infrastructure and regulation issues. These findings help us understand the trends and challenges and prioritize different aspects in micro-mobility to improve their safety and experience across the two areas for designing a more sustainable micro-mobility future.
翻訳日:2022-10-24 15:29:44 公開日:2022-10-21
# SimANS: テキスト検索のための単純な曖昧な否定

SimANS: Simple Ambiguous Negatives Sampling for Dense Text Retrieval ( http://arxiv.org/abs/2210.11773v1 )

ライセンス: Link先を確認
Kun Zhou, Yeyun Gong, Xiao Liu, Wayne Xin Zhao, Yelong Shen, Anlei Dong, Jingwen Lu, Rangan Majumder, Ji-Rong Wen, Nan Duan and Weizhu Chen(参考訳) 大きなドキュメントプールから適切な負をサンプリングすることは、密集した検索モデルを効果的に訓練するのに不可欠である。 しかし、既存の負のサンプリング戦略は、不正または偽の負の問題に悩まされている。 本研究は,測定結果から,正値を中心にランク付けされた負値が概して有益であり,偽陰性である可能性が低いことを実証的に示す。 直感的には、これらの負はそれほど難しくない(偽陰性である)か、簡単すぎる(偽陰性)。 それらはあいまいなネガティブであり、トレーニング中にもっと注意が必要である。 そこで本研究では,よりあいまいな負のサンプリングに焦点を合わせるために,新しいサンプリング確率分布を組み込んだ単純な曖昧な負のサンプリング手法SimANSを提案する。 4つのパブリックデータセットと1つの業界データセットに関する広範な実験は、このアプローチの有効性を示しています。 コードとデータはリンクで公開されている。 \url{https://github.com/microsoft/SimXNS}。

Sampling proper negatives from a large document pool is vital to effectively train a dense retrieval model. However, existing negative sampling strategies suffer from the uninformative or false negative problem. In this work, we empirically show that according to the measured relevance scores, the negatives ranked around the positives are generally more informative and less likely to be false negatives. Intuitively, these negatives are not too hard (\emph{may be false negatives}) or too easy (\emph{uninformative}). They are the ambiguous negatives and need more attention during training. Thus, we propose a simple ambiguous negatives sampling method, SimANS, which incorporates a new sampling probability distribution to focusing on sampling more ambiguous negatives. Extensive experiments on four public and one industry datasets show the effectiveness of our approach. Our code and data are publicly available at the link: \url{https://github.com/microsoft/SimXNS}.
翻訳日:2022-10-24 15:29:21 公開日:2022-10-21
# バイオロード:定義からオントロジ表現を学ぶ(生物医学的概念とテクスト的記述)

BioLORD: Learning Ontological Representations from Definitions (for Biomedical Concepts and their Textual Descriptions) ( http://arxiv.org/abs/2210.11892v1 )

ライセンス: Link先を確認
Fran\c{c}ois Remy, Kris Demuynck and Thomas Demeester(参考訳) 本研究は, 臨床文と生体医学的概念の有意義な表現を生成するための新しい事前学習戦略であるbiolordを紹介する。 最先端の方法論は、同じ概念を参照する名前の表現における類似性を最大化し、対照的な学習による崩壊を防ぐ。 しかし、医学的名称は必ずしも自己説明的ではないため、しばしば非意味的な表現をもたらす。 BioLORDは、その概念表現を定義を用いて基礎づけることによってこの問題を克服し、バイオメディカルオントロジーからなるマルチリレーショナルな知識グラフから得られた短い記述も含む。 この根拠により、我々のモデルは、オントロジーの階層構造とより密に一致するより意味的な概念表現を生成する。 BioLORDは、臨床文章(MedSTS)とバイオメディカル概念(MayoSRS)の両方に関するテキスト類似性の新たな状態を確立する。

This work introduces BioLORD, a new pre-training strategy for producing meaningful representations for clinical sentences and biomedical concepts. State-of-the-art methodologies operate by maximizing the similarity in representation of names referring to the same concept, and preventing collapse through contrastive learning. However, because biomedical names are not always self-explanatory, it sometimes results in non-semantic representations. BioLORD overcomes this issue by grounding its concept representations using definitions, as well as short descriptions derived from a multi-relational knowledge graph consisting of biomedical ontologies. Thanks to this grounding, our model produces more semantic concept representations that match more closely the hierarchical structure of ontologies. BioLORD establishes a new state of the art for text similarity on both clinical sentences (MedSTS) and biomedical concepts (MayoSRS).
翻訳日:2022-10-24 15:29:04 公開日:2022-10-21
# 可変カメラ投影を用いた多視点手術室映像における3次元人物位置推定

3D Human Pose Estimation in Multi-View Operating Room Videos Using Differentiable Camera Projections ( http://arxiv.org/abs/2210.11826v1 )

ライセンス: Link先を確認
Beerend G.A. Gerats, Jelmer M. Wolterink, Ivo A.M.J. Broeders(参考訳) マルチビューオペレーティングルーム(OR)ビデオにおける3次元人間のポーズ推定は、人物追跡と行動認識の関連資産である。 しかし, 手術環境は, 服の無菌化, 頻繁な閉塞, 公共データ不足などにより, ポーズを見つけるのが困難である。 OR用に特別に設計された方法は、一般的に複数のカメラビューで検出されたポーズの融合に基づいている。 通常、畳み込みニューラルネットワーク(CNN)のような2Dポーズ推定器は関節位置を検出する。 検出された関節位置は3Dに投影され、すべてのカメラビューに融合する。 しかし、2dでの正確な検出は、3d空間における正確な局所化を保証しない。 本研究では,各カメラの投影パラメータによって逆伝搬される3D損失に基づいて,エンドツーエンドの2D CNNをトレーニングすることにより,3Dのローカライゼーションを直接最適化することを提案する。 MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。

3D human pose estimation in multi-view operating room (OR) videos is a relevant asset for person tracking and action recognition. However, the surgical environment makes it challenging to find poses due to sterile clothing, frequent occlusions, and limited public data. Methods specifically designed for the OR are generally based on the fusion of detected poses in multiple camera views. Typically, a 2D pose estimator such as a convolutional neural network (CNN) detects joint locations. Then, the detected joint locations are projected to 3D and fused over all camera views. However, accurate detection in 2D does not guarantee accurate localisation in 3D space. In this work, we propose to directly optimise for localisation in 3D by training 2D CNNs end-to-end based on a 3D loss that is backpropagated through each camera's projection parameters. Using videos from the MVOR dataset, we show that this end-to-end approach outperforms optimisation in 2D space.
翻訳日:2022-10-24 15:21:46 公開日:2022-10-21
# 協調的画像理解

Collaborative Image Understanding ( http://arxiv.org/abs/2210.11907v1 )

ライセンス: Link先を確認
Koby Bibas, Oren Sar Shalom, Dietmar Jannach(参考訳) 画像の内容を自動的に理解することは、実際には非常に関連する問題である。 例えば、eコマースやソーシャルメディアの設定では、ユーザーが提供する画像を自動的に分類するのが一般的な問題である。 現在、標準的なアプローチは、アプリケーション固有のデータで事前学習されたイメージモデルを微調整する。 イメージ以外にも、アプリケーションのコンテキスト、特にユーザが提供されたオンラインコンテンツ(例えば、視聴、レーティング、タグ付けなど)とどのようにやり取りしたか、といったコラボレーティブなシグナルも収集することが多い。 このような信号は一般的にアイテムレコメンデーションに使われ、通常は潜在ユーザとデータからアイテム表現を導出する。 本研究では,新しい画像の分類プロセスを改善するために,このような協調情報を活用できることを示す。 具体的には,協調的潜在項目表現の再構築を補助タスクとするマルチタスク学習フレームワークを提案する。 電子商取引とソーシャルメディアのデータセットに関する一連の実験は、協調的な信号を考えることで、画像分類の主要なタスクのパフォーマンスが最大9.1%向上することを示した。

Automatically understanding the contents of an image is a highly relevant problem in practice. In e-commerce and social media settings, for example, a common problem is to automatically categorize user-provided pictures. Nowadays, a standard approach is to fine-tune pre-trained image models with application-specific data. Besides images, organizations however often also collect collaborative signals in the context of their application, in particular how users interacted with the provided online content, e.g., in forms of viewing, rating, or tagging. Such signals are commonly used for item recommendation, typically by deriving latent user and item representations from the data. In this work, we show that such collaborative information can be leveraged to improve the classification process of new images. Specifically, we propose a multitask learning framework, where the auxiliary task is to reconstruct collaborative latent item representations. A series of experiments on datasets from e-commerce and social media demonstrates that considering collaborative signals helps to significantly improve the performance of the main task of image classification by up to 9.1%.
翻訳日:2022-10-24 15:21:33 公開日:2022-10-21
# 弱教師付き時間言語接地のための細粒度意味アライメントネットワーク

Fine-grained Semantic Alignment Network for Weakly Supervised Temporal Language Grounding ( http://arxiv.org/abs/2210.11933v1 )

ライセンス: Link先を確認
Yuechen Wang, Wengang Zhou, Houqiang Li(参考訳) テンポラル言語グラウンドディング(TLG)は、自然言語記述に基づいてビデオセグメントを非トリミングビデオにローカライズすることを目的としている。 時間的境界ラベルに対する手動アノテーションのコストを緩和するために,ビデオレベルの記述のみをトレーニング用に提供する弱い教師付き設定に特化している。 既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。 しかし、学習中に、映像の時間的構造と文の複雑な意味が失われる。 本稿では,弱い教師付きtlgのための新しい候補フリー・フレームワーク,きめ細粒度セマンティックアライメント・ネットワーク(fsan)を提案する。 FSANは、文と候補モーメントを全体として見る代わりに、反復的な相互モーダル相互作用モジュールによってトークン・バイ・クリップなセマンティックアライメントを学び、きめ細かいクロスモーダルなセマンティックアライメントマップを生成し、マップの上に接地する。 FSANが最先端のパフォーマンスを達成するために,ActivityNet-CaptionsとDiDeMoという,広く使用されている2つのベンチマークで大規模な実験が行われた。

Temporal language grounding (TLG) aims to localize a video segment in an untrimmed video based on a natural language description. To alleviate the expensive cost of manual annotations for temporal boundary labels, we are dedicated to the weakly supervised setting, where only video-level descriptions are provided for training. Most of the existing weakly supervised methods generate a candidate segment set and learn cross-modal alignment through a MIL-based framework. However, the temporal structure of the video as well as the complicated semantics in the sentence are lost during the learning. In this work, we propose a novel candidate-free framework: Fine-grained Semantic Alignment Network (FSAN), for weakly supervised TLG. Instead of view the sentence and candidate moments as a whole, FSAN learns token-by-clip cross-modal semantic alignment by an iterative cross-modal interaction module, generates a fine-grained cross-modal semantic alignment map, and performs grounding directly on top of the map. Extensive experiments are conducted on two widely-used benchmarks: ActivityNet-Captions, and DiDeMo, where our FSAN achieves state-of-the-art performance.
翻訳日:2022-10-24 15:21:17 公開日:2022-10-21
# YOLOv5とMosaic Augmentationを用いた乳牛の自動識別:比較分析

Automatic Cattle Identification using YOLOv5 and Mosaic Augmentation: A Comparative Analysis ( http://arxiv.org/abs/2210.11939v1 )

ライセンス: Link先を確認
Rabin Dulal, Lihong Zheng, Muhammad Ashad Kabir, Shawn McGrath, Jonathan Medway, Dave Swain, Will Swain(参考訳) You Only Look Once (YOLO) は、リアルタイムオブジェクト検出、精度、速度で人気のある単一ステージオブジェクト検出モデルである。 園内の牛を識別するためのYOLOv5モデルについて検討した。 牛の識別に対する現在の解決策は、RFIDタグを含む。 この問題はRFIDタグが失われたり破損した場合に発生する。 生体認証ソリューションは、牛を識別し、失われたタグを割り当てたり、RFIDベースのシステムを置き換えるのに役立つ。 牛の銃口パターンは、人間の指紋のようなユニークな生体認証ソリューションである。 本研究の目的は, YOLOv5 のアーキテクチャ, YOLOv5 モデルによる8つのバックボーンの性能評価, および YOLOv5 におけるモザイク増量の影響を, 実験結果から検討することである。 最後に, 自動牛肉識別におけるYOLOv5の有用性について検討した。 実験により, 変圧器を用いたyolov5は平均精度(マップ)0.5(iouが50%以上である場合の平均ap)0.995, 0.5:0.95(平均apは50%から95%iouで5%間隔)0.59366で最高性能を示した。 さらに,本実験で用いたすべての背骨のモザイク増強によるモデル精度の向上について検討した。 さらに、部分的な銃口画像で牛を検出できる。

You Only Look Once (YOLO) is a single-stage object detection model popular for real-time object detection, accuracy, and speed. This paper investigates the YOLOv5 model to identify cattle in the yards. The current solution to cattle identification includes radio-frequency identification (RFID) tags. The problem occurs when the RFID tag is lost or damaged. A biometric solution identifies the cattle and helps to assign the lost or damaged tag or replace the RFID-based system. Muzzle patterns in cattle are unique biometric solutions like a fingerprint in humans. This paper aims to present our recent research in utilizing five popular object detection models, looking at the architecture of YOLOv5, investigating the performance of eight backbones with the YOLOv5 model, and the influence of mosaic augmentation in YOLOv5 by experimental results on the available cattle muzzle images. Finally, we concluded with the excellent potential of using YOLOv5 in automatic cattle identification. Our experiments show YOLOv5 with transformer performed best with mean Average Precision (mAP) 0.5 (the average of AP when the IoU is greater than 50%) of 0.995, and mAP 0.5:0.95 (the average of AP from 50% to 95% IoU with an interval of 5%) of 0.9366. In addition, our experiments show the increase in accuracy of the model by using mosaic augmentation in all backbones used in our experiments. Moreover, we can also detect cattle with partial muzzle images.
翻訳日:2022-10-24 15:20:51 公開日:2022-10-21
# CobNet:Few-Shotセグメンテーションのためのオブジェクトとバックグラウンドのクロスアテンション

CobNet: Cross Attention on Object and Background for Few-Shot Segmentation ( http://arxiv.org/abs/2210.11968v1 )

ライセンス: Link先を確認
Haoyan Guan, Spratling Michae(参考訳) Few-shotのセグメンテーションは、アノテーション付きのサンプルのみを使用して、これまで見つからなかったクラスのオブジェクトを含むイメージをセグメントすることを目的としている。 現在のほとんどのメソッドは、新しいクエリイメージで同じオブジェクトを識別するためのサポートイメージから、人間のアノテーションによって抽出されたオブジェクト情報の使用に焦点を当てている。 しかし、背景情報は物体とその周囲を区別するのにも有用である。 したがって、過去の手法では、サポート画像から背景情報も抽出する。 本稿では,異なる画像の背景が多種多様であるため,そのような情報は限られた実用性を有すると論じる。 そこで本研究では,クエリ画像から抽出された背景情報を利用したcobnetを提案する。 実験の結果, PASCAL-5iとCOCO-20iの1ショットセグメンテーションでは, それぞれ61.4%, 37.8%のインターセクションオーバ・ユニオンスコアが得られた。 また、サポート画像に対するアノテーションが提供されない弱教師付き少数ショットセグメンテーションに対して、53.7%の最先端のパフォーマンスを生成することも示されている。

Few-shot segmentation aims to segment images containing objects from previously unseen classes using only a few annotated samples. Most current methods focus on using object information extracted, with the aid of human annotations, from support images to identify the same objects in new query images. However, background information can also be useful to distinguish objects from their surroundings. Hence, some previous methods also extract background information from the support images. In this paper, we argue that such information is of limited utility, as the background in different images can vary widely. To overcome this issue, we propose CobNet which utilises information about the background that is extracted from the query images without annotations of those images. Experiments show that our method achieves a mean Intersection-over-Union score of 61.4% and 37.8% for 1-shot segmentation on PASCAL-5i and COCO-20i respectively, outperforming previous methods. It is also shown to produce state-of-the-art performances of 53.7% for weakly-supervised few-shot segmentation, where no annotations are provided for the support images.
翻訳日:2022-10-24 15:20:16 公開日:2022-10-21
# Face Pyramid Vision Transformer

Face Pyramid Vision Transformer ( http://arxiv.org/abs/2210.11974v1 )

ライセンス: Link先を確認
Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood(参考訳) 顔認識と検証のための識別的多スケール顔表現を学習するために,新しい顔ピラミッドビジョントランス (FPVT) を提案する。 fpvtでは,fsra(face spatial reduction attention)およびfdr(dimensionality reduction)層を用いて特徴写像をコンパクト化し,計算量を削減する。 改良されたパッチ埋め込み(IPE)アルゴリズムは、低レベルのエッジを高レベルのセマンティックプリミティブにモデル化するために、ViTにおけるCNN(共有重み、ローカルコンテキスト、受容フィールド)の利点を利用するために提案されている。 FPVTフレームワーク内では、低レベルの顔情報を学ぶために局所性情報を抽出する畳み込みフィードフォワードネットワーク(CFFN)が提案されている。 提案したFPVTは7つのベンチマークデータセットで評価され、CNN、純粋なViT、畳み込みViTを含む10の最先端メソッドと比較される。 パラメータが少ないにもかかわらず、FPVTは比較した手法よりも優れた性能を示した。 プロジェクトページはhttps://khawar-islam.github.io/fpvt/。

A novel Face Pyramid Vision Transformer (FPVT) is proposed to learn a discriminative multi-scale facial representations for face recognition and verification. In FPVT, Face Spatial Reduction Attention (FSRA) and Dimensionality Reduction (FDR) layers are employed to make the feature maps compact, thus reducing the computations. An Improved Patch Embedding (IPE) algorithm is proposed to exploit the benefits of CNNs in ViTs (e.g., shared weights, local context, and receptive fields) to model lower-level edges to higher-level semantic primitives. Within FPVT framework, a Convolutional Feed-Forward Network (CFFN) is proposed that extracts locality information to learn low level facial information. The proposed FPVT is evaluated on seven benchmark datasets and compared with ten existing state-of-the-art methods, including CNNs, pure ViTs, and Convolutional ViTs. Despite fewer parameters, FPVT has demonstrated excellent performance over the compared methods. Project page is available at https://khawar-islam.github.io/fpvt/
翻訳日:2022-10-24 15:19:55 公開日:2022-10-21
# 行動特徴を用いたオンボード歩行者軌道予測

On-Board Pedestrian Trajectory Prediction Using Behavioral Features ( http://arxiv.org/abs/2210.11999v1 )

ライセンス: Link先を確認
Phillip Czech, Markus Braun, Ulrich Kre{\ss}el, Bin Yang(参考訳) 本稿では,視覚的観察から推定できる歩行者の行動特徴を利用した車載カメラシステムにおける歩行者軌跡予測の新しい手法を提案する。 提案手法はbehavior-aware pedestrian track prediction (ba-ptp) と呼ばれ,複数の入力モダリティ,すなわち,歩行者のバウンディングボックス,体と頭部の向き,ポーズを独立なエンコーディングストリームで処理する。 各ストリームのエンコーディングはモダリティアテンション機構を使用して融合され、画像内の将来のバウンディングボックスを予測するために最終的な埋め込みが行われる。 歩行者行動予測のための2つのデータセットの実験において、歩行者軌道予測に行動特徴を用いることの利点を実証し、提案手法の有効性を評価する。 さらに, 異なる行動特徴が予測性能に与える影響について, アブレーション研究に基づく検討を行った。

This paper presents a novel approach to pedestrian trajectory prediction for on-board camera systems, which utilizes behavioral features of pedestrians that can be inferred from visual observations. Our proposed method, called Behavior-Aware Pedestrian Trajectory Prediction (BA-PTP), processes multiple input modalities, i.e. bounding boxes, body and head orientation of pedestrians as well as their pose, with independent encoding streams. The encodings of each stream are fused using a modality attention mechanism, resulting in a final embedding that is used to predict future bounding boxes in the image. In experiments on two datasets for pedestrian behavior prediction, we demonstrate the benefit of using behavioral features for pedestrian trajectory prediction and evaluate the effectiveness of the proposed encoding strategy. Additionally, we investigate the relevance of different behavioral features on the prediction performance based on an ablation study.
翻訳日:2022-10-24 15:19:35 公開日:2022-10-21
# HDHumans:高忠実度デジタルヒューマンのためのハイブリッドアプローチ

HDHumans: A Hybrid Approach for High-fidelity Digital Humans ( http://arxiv.org/abs/2210.12003v1 )

ライセンス: Link先を確認
Marc Habermann, Lingjie Liu, Weipeng Xu, Gerard Pons-Moll, Michael Zollhoefer, Christian Theobalt(参考訳) フォトリアルなデジタルアバターは、世界中の没入型コミュニケーションを可能にし、ゲームやエンターテイメント体験を改善し、ARやVR設定に特に有用であるため、グラフィックにおいて非常に重要である。 しかし、現在のアバター生成アプローチは、高忠実なノベルビュー合成、新しい動きへの一般化、ゆるい衣服の再現、あるいは現代のディスプレイで提供される高解像度のキャラクターのレンダリングに不足する。 そこで本稿では,hd人間合成の最初の手法であるhdhumansを提案する。hd humansは,学習時に見ることのない任意の新しい視点や動きの正確な時間的コヒーレントな3次元変形面と高フォトリアリスティックな画像を同時に生成する。 技術的コアでは,ニューラルネットワーク(nerf)を用いた古典的変形型文字テンプレートを密に統合する。 本手法は, 従来の表面変形とNeRFの相乗効果を実現するために慎重に設計されている。 まず、テンプレートはNeRFをガイドし、非常にダイナミックで明瞭な文字の新規ビューを合成し、新しい動きの合成を可能にする。 第二に、NeRFによる高密度点雲を利用して、3D-to-3Dによる変形面をさらに改善する。 我々は, 合成品質と分解能, 3次元表面再構成の質の観点から, 定量的, 定性的に芸術の状態を上回っている。

Photo-real digital human avatars are of enormous importance in graphics, as they enable immersive communication over the globe, improve gaming and entertainment experiences, and can be particularly beneficial for AR and VR settings. However, current avatar generation approaches either fall short in high-fidelity novel view synthesis, generalization to novel motions, reproduction of loose clothing, or they cannot render characters at the high resolution offered by modern displays. To this end, we propose HDHumans, which is the first method for HD human character synthesis that jointly produces an accurate and temporally coherent 3D deforming surface and highly photo-realistic images of arbitrary novel views and of motions not seen at training time. At the technical core, our method tightly integrates a classical deforming character template with neural radiance fields (NeRF). Our method is carefully designed to achieve a synergy between classical surface deformation and NeRF. First, the template guides the NeRF, which allows synthesizing novel views of a highly dynamic and articulated character and even enables the synthesis of novel motions. Second, we also leverage the dense pointclouds resulting from NeRF to further improve the deforming surface via 3D-to-3D supervision. We outperform the state of the art quantitatively and qualitatively in terms of synthesis quality and resolution, as well as the quality of 3D surface reconstruction.
翻訳日:2022-10-24 15:19:20 公開日:2022-10-21
# BlanketGen -- MoCapデータセットのための合成毛布閉塞拡張パイプライン

BlanketGen -- A synthetic blanket occlusion augmentation pipeline for MoCap datasets ( http://arxiv.org/abs/2210.12035v1 )

ライセンス: Link先を確認
Jo\~ao Carmona, Tam\'as Kar\'acsony, Jo\~ao Paulo Silva Cunha(参考訳) 人間の動作分析は近年大きく改善されているが、一般的なデータセットが不足しているため、臨床現場ではまだ臨床応用に遅れを取っている。 この問題に対処するため,我々は,合成ブランケットオクルージョンで動画を強調するパイプラインである blanketgen を実装した。 このパイプラインでは、BlanketGen-3DPW(https://gitlab.inesctec.pt/brain-lab/brain-lab-public/blanket-gen-releases)と呼ばれる3DPWの拡張バージョンを生成しました。 そして、新しいデータセットを使ってHybrIKモデルを微調整し、将来性のある結果でこれらのシナリオのパフォーマンスを改善しました。

Human motion analysis has seen drastic improvements recently, however, due to the lack of representative datasets, in clinical in-bed scenarios, it is still lagging behind for clinical applications. To address this issue, we implemented BlanketGen, a pipeline that augments videos with synthetic blanket occlusions. With this pipeline, we generated an augmented version of 3DPW called BlanketGen-3DPW (code and further information available at https://gitlab.inesctec.pt/brain-lab/brain-lab-public/blanket-gen-releases ). We then used this new dataset to fine-tune HybrIK model to improve its performance in these scenarios with promising results.
翻訳日:2022-10-24 15:18:30 公開日:2022-10-21
# ビデオ要約の概要

Video Summarization Overview ( http://arxiv.org/abs/2210.11707v1 )

ライセンス: Link先を確認
Mayu Otani and Yale Song and Yang Wang(参考訳) ビデオキャプチャデバイスやアプリケーションがWeb上で広く普及しているため、ユーザに望ましいビデオコンテンツを提供することがより求められている。 ビデオ要約は、ビデオのコンパクトな要約を作成することによって、ビデオコンテンツの迅速な把握を容易にする。 ビデオの自動要約に多くの努力が注がれており、様々な問題設定やアプローチが提案されている。 私たちの目標は、この分野の概要を提供することです。 本調査は, ディープラーニング技術を活用した最近のアプローチと同様に, 早期研究についても取り上げる。 ビデオ要約手法とその基礎概念について述べる。 ベンチマークや評価についても論じる。 我々は,評価プロトコルの長所と短所について,先行研究がどのように評価に取り組んだかを概説する。 最後に、この分野でのオープンな課題について議論する。

With the broad growth of video capturing devices and applications on the web, it is more demanding to provide desired video content for users efficiently. Video summarization facilitates quickly grasping video content by creating a compact summary of videos. Much effort has been devoted to automatic video summarization, and various problem settings and approaches have been proposed. Our goal is to provide an overview of this field. This survey covers early studies as well as recent approaches which take advantage of deep learning techniques. We describe video summarization approaches and their underlying concepts. We also discuss benchmarks and evaluations. We overview how prior work addressed evaluation and detail the pros and cons of the evaluation protocols. Last but not least, we discuss open challenges in this field.
翻訳日:2022-10-24 15:11:20 公開日:2022-10-21
# コンピュータビジョンデータセットにおける問題に対するデータ最適化に関する調査

A Survey of Data Optimization for Problems in Computer Vision Datasets ( http://arxiv.org/abs/2210.11717v1 )

ライセンス: Link先を確認
Zhijing Wan, Zhixiang Wang, CheukTing Chung and Zheng Wang(参考訳) 近年、洗練されたディープネットワーク構造、強力なコンピューティングデバイス、大規模ラベル付きデータセットのおかげで、人工知能(AI)の顕著な進歩が見られた。 しかし、研究者はモデルと計算装置の最適化に主に投資しており、良いモデルと強力な計算装置が現在容易に利用可能であるのに対し、データセットはいまだに大規模で低品質の初期段階に留まっている。 データはAI開発にとって大きな障害となる。 この点に注目して,データ最適化に関する構造化されていない作業がいくつかあることを確認した。 彼らはデータセットのさまざまな問題に注目し、AI開発を促進するためにその構造を最適化することでデータセットの品質を改善する。 本稿では,この領域における最近の進歩を概観する。 まず,大規模コンピュータビジョンデータセットに存在する様々な問題を要約し,解析する。 次に、データの最適化を定義し、データサンプリング、データサブセット選択、アクティブラーニングという最適化形式に従って、データ最適化アルゴリズムを3つの方向に分類する。 次に、これらのデータ最適化作業は、対処されたデータ問題に従って整理し、体系的かつ比較的な記述を提供する。 最後に,既存の文献を要約し,今後の研究課題を提案する。

Recent years have witnessed remarkable progress in artificial intelligence (AI) thanks to refined deep network structures, powerful computing devices, and large-scale labeled datasets. However, researchers have mainly invested in the optimization of models and computational devices, leading to the fact that good models and powerful computing devices are currently readily available, while datasets are still stuck at the initial stage of large-scale but low quality. Data becomes a major obstacle to AI development. Taking note of this, we dig deeper and find that there has been some but unstructured work on data optimization. They focus on various problems in datasets and attempt to improve dataset quality by optimizing its structure to facilitate AI development. In this paper, we present the first review of recent advances in this area. First, we summarize and analyze various problems that exist in large-scale computer vision datasets. We then define data optimization and classify data optimization algorithms into three directions according to the optimization form: data sampling, data subset selection, and active learning. Next, we organize these data optimization works according to data problems addressed, and provide a systematic and comparative description. Finally, we summarize the existing literature and propose some potential future research topics.
翻訳日:2022-10-24 15:11:12 公開日:2022-10-21
# AROS: ワンショット人間スタンスによるアフォーマンス認識

AROS: Affordance Recognition with One-Shot Human Stances ( http://arxiv.org/abs/2210.11725v1 )

ライセンス: Link先を確認
Abel Pacheco-Ortega and Walterio Mayol-Cuevas(参考訳) 本稿では,高度に調音された人間のポーズと3Dシーンとの相互作用を明示的に表現する一発学習手法AROSを提案する。 このアプローチはワンショットであり、新しいアプライアンスインスタンスを追加するために再トレーニングを必要としない。 さらに、相互作用を記述するには、ターゲットのポーズの1つまたは少数の例のみが必要である。 これまで見つからなかったシーンの3dメッシュを考えると、インタラクションをサポートするアフォーアンスロケーションを予測し、その周囲に対応する3d人体を生成することができる。 騒音の度合いの異なる実環境の3つの公開データセットについて評価した。 クラウドソーシングによる評価の厳密な統計分析の結果、我々のワンショットアプローチはデータ集約ベースラインを最大80%上回る結果となった。

We present AROS, a one-shot learning approach that uses an explicit representation of interactions between highly-articulated human poses and 3D scenes. The approach is one-shot as the method does not require re-training to add new affordance instances. Furthermore, only one or a small handful of examples of the target pose are needed to describe the interaction. Given a 3D mesh of a previously unseen scene, we can predict affordance locations that support the interactions and generate corresponding articulated 3D human bodies around them. We evaluate on three public datasets of scans of real environments with varied degrees of noise. Via rigorous statistical analysis of crowdsourced evaluations, results show that our one-shot approach outperforms data-intensive baselines by up to 80\%.
翻訳日:2022-10-24 15:10:54 公開日:2022-10-21
# 未蒸留液を蒸留する:悪い教師から学ぶ

Distilling the Undistillable: Learning from a Nasty Teacher ( http://arxiv.org/abs/2210.11728v1 )

ライセンス: Link先を確認
Surgan Jandial, Yash Khasbage, Arghya Pal, Vineeth N Balasubramanian, Balaji Krishnamurthy(参考訳) 知識蒸留(KD)を用いた個人・機密情報の盗難は近年注目され、その重要性を考慮したその後の防衛努力を指導している。 最近の仕事の悪質な教師は、それを攻撃するモデルによって蒸留も模倣もできない教師を開発することを提案した。 しかし,教師が提供した秘密保持の約束は十分に研究されておらず,そのような抜け穴に対するさらなる対策として,我々はその防衛を回避し,その存在下で情報を盗む(あるいは抽出する)ことを試みている。 具体的には、2つの異なる方向から悪質な教師を分析し、それらを慎重に活用してhtcとscmと呼ばれるシンプルで効率的な手法を開発し、標準データセットで悪質な教師からの学習を最大68.63%増加させる。 また,盗みの洞察に基づく即興防衛手法についても検討した。 多様なモデル/セットに関する詳細な実験と改善は、我々のアプローチの有効性を示している。

The inadvertent stealing of private/sensitive information using Knowledge Distillation (KD) has been getting significant attention recently and has guided subsequent defense efforts considering its critical nature. Recent work Nasty Teacher proposed to develop teachers which can not be distilled or imitated by models attacking it. However, the promise of confidentiality offered by a nasty teacher is not well studied, and as a further step to strengthen against such loopholes, we attempt to bypass its defense and steal (or extract) information in its presence successfully. Specifically, we analyze Nasty Teacher from two different directions and subsequently leverage them carefully to develop simple yet efficient methodologies, named as HTC and SCM, which increase the learning from Nasty Teacher by upto 68.63% on standard datasets. Additionally, we also explore an improvised defense method based on our insights of stealing. Our detailed set of experiments and ablations on diverse models/settings demonstrate the efficacy of our approach.
翻訳日:2022-10-24 15:10:41 公開日:2022-10-21
# posescript:自然言語による3d人間のポーズ

PoseScript: 3D Human Poses from Natural Language ( http://arxiv.org/abs/2210.11795v1 )

ライセンス: Link先を確認
Ginger Delmas, Philippe Weinzaepfel, Thomas Lucas, Francesc Moreno-Noguer, Gr\'egory Rogez(参考訳) 自然言語は、画像キャプション、クロスモーダル検索、視覚質問応答などの多くのコンピュータビジョンタスクで活用され、きめ細かい意味情報を提供する。 人間のポーズは人間の理解の鍵であるが、現在の3D人間のポーズデータセットには詳細な言語記述がない。 本研究では,体の一部とその空間的関係を人間に注釈を付したリッチな記述をアマスから数千の3dポーズと組み合わせた,posescriptデータセットを提案する。 このデータセットのサイズを、典型的なデータ空腹学習アルゴリズムと互換性のあるスケールに拡大するために、与えられた3Dキーポイントから自然言語の自動合成記述を生成する精巧なキャプションプロセスを提案する。 このプロセスは、3dキーポイント上の単純だが汎用的なルールセットを使用して、低レベルのポーズ情報 -- ポーズコード -- を抽出する。 ポーズコードは、構文ルールを使用して高レベルのテキスト記述に結合される。 自動アノテーションは利用可能なデータ量を大幅に増加させ、人間のキャプションを微調整するディープモデルを効果的に事前訓練できるようにする。 注釈付きポーズの可能性を示すために,大規模データセットから関連するポーズの検索や合成ポーズ生成に,テキスト的ポーズ記述に基づいて,posescriptデータセットの応用を示す。

Natural language is leveraged in many computer vision tasks such as image captioning, cross-modal retrieval or visual question answering, to provide fine-grained semantic information. While human pose is key to human understanding, current 3D human pose datasets lack detailed language descriptions. In this work, we introduce the PoseScript dataset, which pairs a few thousand 3D human poses from AMASS with rich human-annotated descriptions of the body parts and their spatial relationships. To increase the size of this dataset to a scale compatible with typical data hungry learning algorithms, we propose an elaborate captioning process that generates automatic synthetic descriptions in natural language from given 3D keypoints. This process extracts low-level pose information -- the posecodes -- using a set of simple but generic rules on the 3D keypoints. The posecodes are then combined into higher level textual descriptions using syntactic rules. Automatic annotations substantially increase the amount of available data, and make it possible to effectively pretrain deep models for finetuning on human captions. To demonstrate the potential of annotated poses, we show applications of the PoseScript dataset to retrieval of relevant poses from large-scale datasets and to synthetic pose generation, both based on a textual pose description.
翻訳日:2022-10-24 15:10:23 公開日:2022-10-21
# スーパーピクセルとグラフニューラルネットワークによる教師なし画像セマンティクスセグメンテーション

Unsupervised Image Semantic Segmentation through Superpixels and Graph Neural Networks ( http://arxiv.org/abs/2210.11810v1 )

ライセンス: Link先を確認
Moshe Eliasof, Nir Ben Zikri, Eran Treister(参考訳) ラベル付きデータの可用性が低い現実のシナリオでは、教師なしの画像分割は重要なタスクである。 本稿では, 相互情報最大化(mim), ニューラルスーパーピクセルセグメンテーション, グラフニューラルネットワーク(gnns)の組み合わせを用いた教師なし学習の最近の進歩を, エンドツーエンドで活用する新しい手法を提案する。 スーパーピクセルのコンパクトな表現を活用し,それをGNNと組み合わせることで,画像の強靭で意味のある表現を学習する。 具体的には、GNNベースのアプローチにより、画像中の遠方画素間の相互作用をモデル化し、既存のCNNに先立って強力に機能し、精度を向上できることを示す。 実験により,4つの一般的なデータセット上での現在の最先端手法と比較して,我々のアプローチの質的・定量的優位性を明らかにした。

Unsupervised image segmentation is an important task in many real-world scenarios where labelled data is of scarce availability. In this paper we propose a novel approach that harnesses recent advances in unsupervised learning using a combination of Mutual Information Maximization (MIM), Neural Superpixel Segmentation and Graph Neural Networks (GNNs) in an end-to-end manner, an approach that has not been explored yet. We take advantage of the compact representation of superpixels and combine it with GNNs in order to learn strong and semantically meaningful representations of images. Specifically, we show that our GNN based approach allows to model interactions between distant pixels in the image and serves as a strong prior to existing CNNs for an improved accuracy. Our experiments reveal both the qualitative and quantitative advantages of our approach compared to current state-of-the-art methods over four popular datasets.
翻訳日:2022-10-24 15:10:04 公開日:2022-10-21
# GaitMAST:クロスビュー歩行認識のための運動対応時空間特徴学習ネットワーク

GaitMAST: Motion-Aware Spatio-Temporal Feature Learning Network for Cross-View Gait Recognition ( http://arxiv.org/abs/2210.11817v1 )

ライセンス: Link先を確認
Jingqi Li, Jiaqi Gao, Yuzhen Zhang, Hongming Shan, Junping Zhang(参考訳) 距離で知覚できるユニークな生体認証として、歩行は個人認証、社会保障など幅広い応用がある。 既存の歩行認識手法は空間的あるいは時空間的表現の抽出に注意を払う。 しかし、歩数列から歩数の基本的特徴である多様な運動特徴を抽出することはほとんど考えていない。 本稿では,歩行認識のための動き認識型時空間特徴学習ネットワークであるgaitmastを提案する。 浅層層,特に2経路フレームレベルの特徴抽出器を提案し,一方の経路が全体時空間的特徴を抽出し,他方の経路が動的領域に焦点をあてて運動塩分特徴を抽出する。 深層層では,細粒度空間情報に焦点をあて,モーションディテールの保存に焦点をあてた2分岐型クリップレベル特徴抽出器を設計した。 その結果、GaitMASTは個人のユニークな歩行パターンをよく保存し、時空間的特徴の堅牢性をさらに高めている。 一般的に使用されている2つのクロスプラットフォーム歩行データセットの大規模な実験結果は、既存の最先端手法よりもGaitMASTの優れた性能を示している。 CASIA-Bでは平均ランク1の精度が94.1%に達する。 特に、gaitmastは、バッグキャリーとコートの着用条件下で96.1%と88.1%のランク1アキュラティをそれぞれ達成し、第2のベストを大きなマージンで上回り、空間的変動に対する堅牢性を示す。

As a unique biometric that can be perceived at a distance, gait has broad applications in person authentication, social security and so on. Existing gait recognition methods pay attention to extracting either spatial or spatiotemporal representations. However, they barely consider extracting diverse motion features, a fundamental characteristic in gaits, from gait sequences. In this paper, we propose a novel motion-aware spatiotemporal feature learning network for gait recognition, termed GaitMAST, which can unleash the potential of motion-aware features. In the shallow layer, specifically, we propose a dual-path frame-level feature extractor, in which one path extracts overall spatiotemporal features and the other extracts motion salient features by focusing on dynamic regions. In the deeper layers, we design a two-branch clip-level feature extractor, in which one focuses on fine-grained spatial information and the other on motion detail preservation. Consequently, our GaitMAST preserves the individual's unique walking patterns well, further enhancing the robustness of spatiotemporal features. Extensive experimental results on two commonly-used cross-view gait datasets demonstrate the superior performance of GaitMAST over existing state-of-the-art methods. On CASIA-B, our model achieves an average rank-1 accuracy of 94.1%. In particular, GaitMAST achieves rank-1 accuracies of 96.1% and 88.1% under the bag-carry and coat wearing conditions, respectively, outperforming the second best by a large margin and demonstrating its robustness against spatial variations.
翻訳日:2022-10-24 15:09:49 公開日:2022-10-21
# 低リソースのアフリカ諸言語にまたがるNLPツールの概要と展望

Bootstrapping NLP tools across low-resourced African languages: an overview and prospects ( http://arxiv.org/abs/2210.12027v1 )

ライセンス: Link先を確認
C. Maria Keet(参考訳) コンピューティングとインターネットアクセスは南アフリカの市場を著しく拡大させており、現地のアフリカ系言語におけるローカルコンテンツやツールに対する需要が高まっている。 これらの言語のほとんどは低リソースであるため、あるアフリカの言語を別の言語からブートストラップするツールという概念に取り組みました。 本稿では,niger-congo b (`bantu') 言語に対するこれらの取り組みの概要について述べる。 地理的に離れた言語の文法をブートストラップすることは、形態学や規則、文法に基づく自然言語生成にプラスの結果をもたらすことが示されている。 NLPタスクに対するデータ駆動型アプローチによるブートストラップは、地理的近接性にかかわらず意味のある使用が困難である。 比較言語学におけるクラジスティックなアプローチは、ブートストラップ戦略や類似性対策がブートストラップポテンシャルのプロキシとして役立ち、両者ともさらなる研究の場となる可能性がある。

Computing and Internet access are substantially growing markets in Southern Africa, which brings with it increasing demands for local content and tools in indigenous African languages. Since most of those languages are low-resourced, efforts have gone into the notion of bootstrapping tools for one African language from another. This paper provides an overview of these efforts for Niger-Congo B (`Bantu') languages. Bootstrapping grammars for geographically distant languages has been shown to still have positive outcomes for morphology and rules or grammar-based natural language generation. Bootstrapping with data-driven approaches to NLP tasks is difficult to use meaningfully regardless geographic proximity, which is largely due to lexical diversity due to both orthography and vocabulary. Cladistic approaches in comparative linguistics may inform bootstrapping strategies and similarity measures might serve as proxy for bootstrapping potential as well, with both fertile ground for further research.
翻訳日:2022-10-24 15:03:36 公開日:2022-10-21
# クリップチューニング:報酬の混合によるデリバティブフリープロンプト学習に向けて

Clip-Tuning: Towards Derivative-free Prompt Learning with a Mixture of Rewards ( http://arxiv.org/abs/2210.12050v1 )

ライセンス: Link先を確認
Yekun Chai, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) デリバティブフリーなプロンプト学習はプロンプトチューニングの軽量な代替手段として登場し、プロンプトを最適化するためにモデル推論のみを必要とする。 しかし、既存の研究は、大規模事前学習言語モデル(PLM)の過度なパラメータ化特性を十分に活用しなかった。 本稿では,PLMの「薄型」ネットワークを多種多様な「薄型」ネットワークで適用し,報酬の混合を図り,デリバティブフリーな素早い学習を推し進める,シンプルで効果的なClip-Tuningを提案する。 薄いネットワークは、静止したドロップアウト戦略を生き残るすべての隠れユニットで構成されており、推論予測は、トレーニングサンプルを誘導する部分的なビューの集合を反映している。 提案手法は,従来の勾配フリープロンプト学習手法を上回り,数ショット設定による7つの言語理解ベンチマークにおいて,勾配ベースと同等性を達成する。

Derivative-free prompt learning has emerged as a lightweight alternative to prompt tuning, which only requires model inference to optimize the prompts. However, existing work did not take full advantage of the over-parameterized characteristics of large pre-trained language models (PLMs). In this paper, we propose Clip-Tuning, a simple yet effective method that adopts diverse frozen "thinned" networks of PLMs to obtain a mixture of rewards and thus advance the derivative-free prompt learning. The thinned networks consist of all the hidden units that survive a stationary dropout strategy, whose inference predictions reflect an ensemble of partial views over prompted training samples. Our method outperforms previous gradient-free prompt learning methods and achieves parity with gradient-based counterparts on seven language understanding benchmarks under few-shot settings.
翻訳日:2022-10-24 15:03:19 公開日:2022-10-21
# 体験者の感情と評価予測

Experiencer-Specific Emotion and Appraisal Prediction ( http://arxiv.org/abs/2210.12078v1 )

ライセンス: Link先を確認
Maximilian Wegge and Enrica Troiano and Laura Oberl\"ander and Roman Klinger(参考訳) NLPにおける感情分類は、文章や段落などの感情をテキストに割り当てる。 彼が泣いたときに罪悪感を感じた」といったテキストでは、文章レベルでは、状況における各参加者の立場を無視している: 作家(i)と他の実体(he)は、実際には異なる情緒的状態を持つ可能性がある。 異なる実体の感情は、感情的役割を感情的キュー語に関連付けるタスクである感情意味的役割ラベリングにおいてのみ考慮されてきた。 関連するタスクを提供して、イベントの経験者に焦点を絞り、それぞれに感情(もしあれば)を割り当てます。 この目的のために、我々は各感情を分類的および評価変数の両方で表現し、ある人が特定の感情を発達させる理由を説明する心理的アクセスとして表現する。 イベント記述コーパスでは,経験者の感情と評価のモデルが経験者非依存のベースラインより優れており,イベント参加者を無視することが感情検出タスクの過度な単純化であることを示す。

Emotion classification in NLP assigns emotions to texts, such as sentences or paragraphs. With texts like "I felt guilty when he cried", focusing on the sentence level disregards the standpoint of each participant in the situation: the writer ("I") and the other entity ("he") could in fact have different affective states. The emotions of different entities have been considered only partially in emotion semantic role labeling, a task that relates semantic roles to emotion cue words. Proposing a related task, we narrow the focus on the experiencers of events, and assign an emotion (if any holds) to each of them. To this end, we represent each emotion both categorically and with appraisal variables, as a psychological access to explaining why a person develops a particular emotion. On an event description corpus, our experiencer-aware models of emotions and appraisals outperform the experiencer-agnostic baselines, showing that disregarding event participants is an oversimplification for the emotion detection task.
翻訳日:2022-10-24 15:03:03 公開日:2022-10-21
# セルフプレイによるマルチターンテキスト-SQLデータセットの拡張

Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play ( http://arxiv.org/abs/2210.12096v1 )

ライセンス: Link先を確認
Qi Liu, Zihuiwen Ye, Tao Yu, Phil Blunsom, Linfeng Song(参考訳) コンテキスト依存のテキストからSQLへのタスクは、マルチターンユーザの発話を形式的なSQLクエリに変換することを目的としている。 複雑なコンテキスト依存を学習し、目に見えないデータベースに一般化するトレーニングデータの不足のため、これは難しい作業です。 本稿では,コンテキスト情報を利用して新たなインタラクションを合成し,モデルを新しいデータベースに適応させるセルフプレイによるトレーニングデータセットの拡張について検討する。 まず,ユーザの意図を表す目標クエリをサンプル化したsql-to-textモデルを設計し,テキスト-sql意味パーサと対話して新たなインタラクションを生成する。 次に、合成された相互作用をフィルタリングし、拡張データでモデルを再訓練する。 我々は,SParCとCoSQLという2つのクロスドメインテキスト-SQLデータセットの強いベースラインの精度を向上させることを発見した。 分析の結果、自己プレイは様々な対話的テーマの関係をシミュレートし、ドメイン間の一般化を促進し、ビーム探索を改善する。

The task of context-dependent text-to-SQL aims to convert multi-turn user utterances to formal SQL queries. This is a challenging task due to both the scarcity of training data from which to learn complex contextual dependencies and to generalize to unseen databases. In this paper we explore augmenting the training datasets using self-play, which leverages contextual information to synthesize new interactions to adapt the model to new databases. We first design a SQL-to-text model conditioned on a sampled goal query, which represents a user's intent, that then converses with a text-to-SQL semantic parser to generate new interactions. We then filter the synthesized interactions and retrain the models with the augmented data. We find that self-play improves the accuracy of a strong baseline on SParC and CoSQL, two widely used cross-domain text-to-SQL datasets. Our analysis shows that self-play simulates various conversational thematic relations, enhances cross-domain generalization and improves beam-search.
翻訳日:2022-10-24 15:02:45 公開日:2022-10-21
# ワッサースタイン空間における幾何スパース符号化

Geometric Sparse Coding in Wasserstein Space ( http://arxiv.org/abs/2210.12135v1 )

ライセンス: Link先を確認
Marshall Mueller, Shuchin Aeron, James M. Murphy, Abiy Tasissa(参考訳) wasserstein dictionary learningは、waserstein barycentric combinationとして観測された分布を生成する確率分布の集合を学習するための教師なしのアプローチである。 既存のwasserstein辞書学習の方法は、観察されたトレーニングデータを近似するために、バリセントリック補間によって十分な表現能力を持つ辞書を求める目的を最適化するが、辞書に関連する係数に付加的な構造的性質を課さない。 これは、観測されたデータを密に表現し、係数の解釈を困難にし、下流タスクで学習された係数を使用する際の経験的性能を低下させる可能性がある。 ユークリッド空間におけるスパース辞書学習によるモチベーションと対照的に、近傍の辞書要素のみを用いてデータポイントの表現を促進するワッサーシュタイン空間の幾何学的スパース正規化器を提案する。 このアプローチは、wasserstein空間におけるスパース表現につながり、バーリセントリック表現の非特異性の問題に対処する。 さらに、データが固定分布のwasserstein重心として生成される場合、非正規化wasserstein辞書学習に不用意な場合に、この正規化子により生成分布の回復が容易になる。 合成および実データを用いた実験により,我々の幾何学的正規化アプローチは,下流のアプリケーションにおいて優れた性能を発揮するwasserstein空間におけるスパルサーおよびより解釈可能な辞書をもたらすことを示した。

Wasserstein dictionary learning is an unsupervised approach to learning a collection of probability distributions that generate observed distributions as Wasserstein barycentric combinations. Existing methods for Wasserstein dictionary learning optimize an objective that seeks a dictionary with sufficient representation capacity via barycentric interpolation to approximate the observed training data, but without imposing additional structural properties on the coefficients associated to the dictionary. This leads to dictionaries that densely represent the observed data, which makes interpretation of the coefficients challenging and may also lead to poor empirical performance when using the learned coefficients in downstream tasks. In contrast and motivated by sparse dictionary learning in Euclidean spaces, we propose a geometrically sparse regularizer for Wasserstein space that promotes representations of a data point using only nearby dictionary elements. We show this approach leads to sparse representations in Wasserstein space and addresses the problem of non-uniqueness of barycentric representation. Moreover, when data is generated as Wasserstein barycenters of fixed distributions, this regularizer facilitates the recovery of the generating distributions in cases that are ill-posed for unregularized Wasserstein dictionary learning. Through experimentation on synthetic and real data, we show that our geometrically regularized approach yields sparser and more interpretable dictionaries in Wasserstein space, which perform better in downstream applications.
翻訳日:2022-10-24 15:02:28 公開日:2022-10-21
# 強化学習のための実証的説明

Counterfactual Explanations for Reinforcement Learning ( http://arxiv.org/abs/2210.11846v1 )

ライセンス: Link先を確認
Jasmina Gajcin and Ivana Dusparic(参考訳) AIアルゴリズムは様々な分野で顕著な成功を収めているが、透明性の欠如が現実のタスクへの応用を妨げる。 非専門家を対象にした説明は、ユーザ信頼と人間とAIのコラボレーションには必要だが、AIの説明手法の大半は、開発者と専門家のユーザに焦点を当てている。 反事実説明は、ブラックボックスモデルのアウトプットを変更する入力で何が変わるかに関するアドバイスを提供するローカルな説明である。 カウンターファクトはユーザフレンドリで、AIシステムから望ましいアウトプットを達成するための実行可能なアドバイスを提供する。 教師あり学習において広く研究されているが、強化学習(RL)に応用する方法は少ない。 本稿では,RLにおける強力な説明手法の表現不足の理由を考察する。 まず,教師付き学習における反事実的説明における現在の研究の見直しから始める。 さらに、教師付き学習とRLにおける対実的説明の違いについて検討し、強化学習における手法の導入を阻止する主な課題を明らかにする。 最後に、RLの反事実を再定義し、RLに反事実を実装するための研究の方向性を提案する。

While AI algorithms have shown remarkable success in various fields, their lack of transparency hinders their application to real-life tasks. Although explanations targeted at non-experts are necessary for user trust and human-AI collaboration, the majority of explanation methods for AI are focused on developers and expert users. Counterfactual explanations are local explanations that offer users advice on what can be changed in the input for the output of the black-box model to change. Counterfactuals are user-friendly and provide actionable advice for achieving the desired output from the AI system. While extensively researched in supervised learning, there are few methods applying them to reinforcement learning (RL). In this work, we explore the reasons for the underrepresentation of a powerful explanation method in RL. We start by reviewing the current work in counterfactual explanations in supervised learning. Additionally, we explore the differences between counterfactual explanations in supervised learning and RL and identify the main challenges that prevent adoption of methods from supervised in reinforcement learning. Finally, we redefine counterfactuals for RL and propose research directions for implementing counterfactuals in RL.
翻訳日:2022-10-24 15:02:02 公開日:2022-10-21
# オントロジーの発展は(単なる)表現ではなくコンセンサス創造である

Ontology Development is Consensus Creation, Not (Merely) Representation ( http://arxiv.org/abs/2210.12026v1 )

ライセンス: Link先を確認
Fabian Neuhaus and Janna Hastings(参考訳) オントロジー開発手法は,ドメインの専門家や資料資料からの知識収集,OWLやFOLといったオントロジー言語を用いた知識表現を重視している。 しかし、行動オントロジーの発達がいかに困難で遅いかは、しばしば驚く。 ここでは,コンテンツに富み,ユーザコミュニティ間で共有することを意図したオントロジーの類型(参照オントロジー)に特に重点を置いているので,オントロジー開発における課題の重要かつ重要でない貢献者は,意見の相違に直面してコンセンサスを作成・持ち込む必要があることを提案する。 この理由から、オントロジー開発は、少なくとも既存のAIアプローチの限界内では自動化できない。 さらに、同様に、オントロジストは、現在ほとんどの技術的カリキュラムに欠けている特定の社会的交渉スキルを持つことが求められている。

Ontology development methodologies emphasise knowledge gathering from domain experts and documentary resources, and knowledge representation using an ontology language such as OWL or FOL. However, working ontologists are often surprised by how challenging and slow it can be to develop ontologies. Here, with a particular emphasis on the sorts of ontologies that are content-heavy and intended to be shared across a community of users (reference ontologies), we propose that a significant and heretofore under-emphasised contributor of challenges during ontology development is the need to create, or bring about, consensus in the face of disagreement. For this reason reference ontology development cannot be automated, at least within the limitations of existing AI approaches. Further, for the same reason ontologists are required to have specific social-negotiating skills which are currently lacking in most technical curricula.
翻訳日:2022-10-24 15:01:39 公開日:2022-10-21
# オブジェクト指向制約グラフを用いたビジネスプロセスの制約モニタリング

Monitoring Constraints in Business Processes Using Object-Centric Constraint Graphs ( http://arxiv.org/abs/2210.12080v1 )

ライセンス: Link先を確認
Gyunam Park and Wil. M. P. van der Aalst(参考訳) 制約監視は、イベントデータを分析して、対応する商品の受領後48時間以内に請求書をクリアするなど、ビジネスプロセスにおける制約違反の監視を目的とする。 既存の制約監視のテクニックは、ひとつのケース概念がビジネスプロセスに存在し、例えば、医療プロセスの患者が存在し、それぞれのイベントがケース概念と関連していると仮定する。 しかし実際には、ビジネスプロセスはオブジェクト中心であり、複数のケース概念(オブジェクト)が存在し、イベントは複数のオブジェクトに関連付けられる可能性がある。 例えば、オーダー・ツー・キャッシュ(O2C)プロセスには、注文、アイテム、配信などが含まれ、複数のアイテムをまとめて配信するイベントの実行時に対話する。 既存のテクニックは、そのようなオブジェクト指向のビジネスプロセスに適用すると誤解を招く洞察を生み出す。 本稿では,オブジェクト中心のビジネスプロセスにおける制約をモニタリングするアプローチを提案する。 この目的のために,オブジェクトの相互作用を考慮した制約を表現するために,OCCG(Object-Centric Constraint Graphs)を導入する。 次に、異なるオブジェクト間の相互作用をイベントに格納するオブジェクト中心イベントログ(OCEL)を分析し、OCCGで表される制約を評価する。 提案手法をサポートする Web アプリケーションを実装し,実生活型 SAP ERP システムを用いて2つのケーススタディを行った。

Constraint monitoring aims to monitor the violation of constraints in business processes, e.g., an invoice should be cleared within 48 hours after the corresponding goods receipt, by analyzing event data. Existing techniques for constraint monitoring assume that a single case notion exists in a business process, e.g., a patient in a healthcare process, and each event is associated with the case notion. However, in reality, business processes are object-centric, i.e., multiple case notions (objects) exist, and an event may be associated with multiple objects. For instance, an Order-To-Cash (O2C) process involves order, item, delivery, etc., and they interact when executing an event, e.g., packing multiple items together for a delivery. The existing techniques produce misleading insights when applied to such object-centric business processes. In this work, we propose an approach to monitoring constraints in object-centric business processes. To this end, we introduce Object-Centric Constraint Graphs (OCCGs) to represent constraints that consider the interaction of objects. Next, we evaluate the constraints represented by OCCGs by analyzing Object-Centric Event Logs (OCELs) that store the interaction of different objects in events. We have implemented a web application to support the proposed approach and conducted two case studies using a real-life SAP ERP system.
翻訳日:2022-10-24 15:01:13 公開日:2022-10-21
# 予期せぬシナリオにおける協調論理によるモデリング制御引数

Modelling Control Arguments via Cooperation Logic in Unforeseen Scenarios ( http://arxiv.org/abs/2210.12114v1 )

ライセンス: Link先を確認
Minal Suresh Patil(参考訳) 議論フレームワークの意図は、議論と攻撃に関して不合理な不確実性を考慮した方法で、議論フレームワークの標準モデルを拡張することによって、エージェントの観点から戦略的シナリオを具体的にモデル化することである。 しかし、不確実な環境での一連のエージェント間の連立の形成と相互作用を適切に考慮していない。 そこで本研究では,協調論理によるマルチエージェントシナリオの形式化と,動的環境におけるエージェントの戦略や行動の検証を提案する。

The intent of control argumentation frameworks is to specifically model strategic scenarios from the perspective of an agent by extending the standard model of argumentation framework in a way that takes unquantified uncertainty regarding arguments and attacks into account. They do not, however, adequately account for coalition formation and interactions among a set of agents in an uncertain environment. To address this challenge, we propose a formalism of a multi-agent scenario via cooperation logic and investigate agents' strategies and actions in a dynamic environment.
翻訳日:2022-10-24 15:00:52 公開日:2022-10-21
# スペクトル探査

Spectral Probing ( http://arxiv.org/abs/2210.11860v1 )

ライセンス: Link先を確認
Max M\"uller-Eberstein, Rob van der Goot and Barbara Plank(参考訳) 言語情報は、構文や意味論のような様々な時間スケール(単語、フレーズなど)とコミュニケーションレベルで符号化される。 文脈的埋め込みは、これらの現象を特徴的な層や周波数で捉えるのに類似している。 これらの知見を活かし、任意のタスクのスペクトルプロファイルを識別する完全学習可能な周波数フィルタを開発した。 従来の手作りフィルタよりもはるかにきめ細かい分析を可能にし、効率を向上する。 単言語環境では,手動フィルタによるスペクトル探索の有意性を実証した後,その多言語的特徴を6言語で検討した。 本分析では,言語的に直感的にクロスタスクの類似性を定量化しながら,言語間での一貫性を維持しながら,頑健で軽量なタスク記述子としての可能性を強調した。

Linguistic information is encoded at varying timescales (subwords, phrases, etc.) and communicative levels, such as syntax and semantics. Contextualized embeddings have analogously been found to capture these phenomena at distinctive layers and frequencies. Leveraging these findings, we develop a fully learnable frequency filter to identify spectral profiles for any given task. It enables vastly more granular analyses than prior handcrafted filters, and improves on efficiency. After demonstrating the informativeness of spectral probing over manual filters in a monolingual setting, we investigate its multilingual characteristics across seven diverse NLP tasks in six languages. Our analyses identify distinctive spectral profiles which quantify cross-task similarity in a linguistically intuitive manner, while remaining consistent across languages-highlighting their potential as robust, lightweight task descriptors.
翻訳日:2022-10-24 14:54:40 公開日:2022-10-21
# STAR: コンテキスト依存のテキスト間構文解析のためのSQLガイド付き事前訓練

STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing ( http://arxiv.org/abs/2210.11888v1 )

ライセンス: Link先を確認
Zefeng Cai, Xiangyu Li, Binyuan Hui, Min Yang, Bowen Li, Binhua Li, Zheng Cao, Weijie Li, Fei Huang, Luo Si, Yongbin Li(参考訳) 本稿では,文脈依存型テキストからsqlへのパースのために,自然言語(nl)発話とテーブルスキーマ表現を豊かにするために文脈情報を利用する新しいsql誘導事前学習フレームワークstarを提案する。 具体的には,各テキスト対SQL会話におけるNL発話とSQLクエリの文脈依存的な相互作用を探索する2つの新しい事前学習目標を提案する。 (i)スキーマ状態追跡(sst)目的 対話中の各スキーマスロットの値を予測し更新することにより、スキーマ状態の形式でコンテキスト依存sqlクエリのスキーマ状態を追跡し、探索する。 (II)重み付きコントラスト学習を用いて意味的に類似した2つのNL発話を抽出し、各会話内で意味的に異なるNL発話の表現をプッシュする発話依存性追跡(UDT)の目的。 さらに,STARを事前学習するために,高品質なコンテキスト依存テキスト対SQL会話コーパスを構築した。 大規模な実験により、STARは2つのダウンストリームベンチマーク(SParCとCoSQL)で新しい最先端のパフォーマンスを達成し、以前の事前トレーニング手法を著しく上回り、リーダーボードにランクインした。 構築されたコーパス、コードベース、トレーニング済みスターチェックポイントのリリースは、この分野の研究を前進させるだろうと考えています。 再現性のために、コードとデータはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/starで公開しています。

In this paper, we propose a novel SQL guided pre-training framework STAR for context-dependent text-to-SQL parsing, which leverages contextual information to enrich natural language (NL) utterance and table schema representations for text-to-SQL conversations. Concretely, we propose two novel pre-training objectives which respectively explore the context-dependent interactions of NL utterances and SQL queries within each text-to-SQL conversation: (i) schema state tracking (SST) objective that tracks and explores the schema states of context-dependent SQL queries in the form of schema-states by predicting and updating the value of each schema slot during interaction; (ii) utterance dependency tracking (UDT) objective that employs weighted contrastive learning to pull together two semantically similar NL utterances and push away the representations of semantically dissimilar NL utterances within each conversation. In addition, we construct a high-quality large-scale context-dependent text-to-SQL conversation corpus to pre-train STAR. Extensive experiments show that STAR achieves new state-of-the-art performance on two downstream benchmarks (SParC and CoSQL), significantly outperforming previous pre-training methods and ranking first on the leaderboard. We believe the release of the constructed corpus, codebase and pre-trained STAR checkpoints would push forward the research in this area. For reproducibility, we release our code and data at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/star.
翻訳日:2022-10-24 14:54:27 公開日:2022-10-21
# アラビア語方言UGTにおける感性翻訳のための半教師付きアプローチ

A Semi-supervised Approach for a Better Translation of Sentiment in Dialectical Arabic UGT ( http://arxiv.org/abs/2210.11899v1 )

ライセンス: Link先を確認
Hadeel Saadany, Constantin Orasan, Emad Mohamed, Ashraf Tantawy(参考訳) オンラインの世界では、レビュー、ツイート、ソーシャルメディア投稿などのユーザー生成テキスト(ugt)を翻訳するために機械翻訳(mt)システムが広く使われている。 しかし、mtシステムは一部の低リソース言語では正確性に欠けており、ターゲットの単語やフレーズの感情の極性を完全に反転させる重要な翻訳誤りを生じることがある。 これは特に、オンラインプラットフォームで使われる方言アラビア語(DA)のような一般的な語彙文法標準に従わないテキストで顕著である。 本研究では、アラビア語の方言版で書かれたUGTの感情の英語への翻訳を改善することを目的とする。 UGT領域におけるDA-ENのゴールドスタンダード並列データの不足を踏まえ,教師付きおよび教師なしモデリング目的を訓練した言語間モデルにより初期化したNMTシステムのトレーニングに,単言語と並列データの両方を活用する半教師付きアプローチを導入する。 提案システムによる感情翻訳の精度を,人間評価とともに数値的「感性閉鎖性」尺度を用いて評価する。 我々の半教師付きMTシステムは、方言のアラビア語 UGT のオンライン翻訳で検出された感情誤りの修正に大いに役立ちます。

In the online world, Machine Translation (MT) systems are extensively used to translate User-Generated Text (UGT) such as reviews, tweets, and social media posts, where the main message is often the author's positive or negative attitude towards the topic of the text. However, MT systems still lack accuracy in some low-resource languages and sometimes make critical translation errors that completely flip the sentiment polarity of the target word or phrase and hence delivers a wrong affect message. This is particularly noticeable in texts that do not follow common lexico-grammatical standards such as the dialectical Arabic (DA) used on online platforms. In this research, we aim to improve the translation of sentiment in UGT written in the dialectical versions of the Arabic language to English. Given the scarcity of gold-standard parallel data for DA-EN in the UGT domain, we introduce a semi-supervised approach that exploits both monolingual and parallel data for training an NMT system initialised by a cross-lingual language model trained with supervised and unsupervised modeling objectives. We assess the accuracy of sentiment translation by our proposed system through a numerical 'sentiment-closeness' measure as well as human evaluation. We will show that our semi-supervised MT system can significantly help with correcting sentiment errors detected in the online translation of dialectical Arabic UGT.
翻訳日:2022-10-24 14:54:02 公開日:2022-10-21
# オンライン討論プラットフォームにおけるカラーブラインド参加者による色用語活用の探索

Exploration of the Usage of Color Terms by Color-blind Participants in Online Discussion Platforms ( http://arxiv.org/abs/2210.11905v1 )

ライセンス: Link先を確認
Ella Rabinovich and Boaz Carmeli(参考訳) 言語習得・活用における感覚と言語入力の役割に関する重要な疑問は、精神言語学の文献で広く研究されている。 しかし,個人の総合経験における様々な要因が言語システムに与える影響は,いまだ不明である。 本研究は,自発的な言語生成に反映される有色人種による色彩概念知覚の理解を深めることによって,この課題を考察する。 その結果,赤と緑がかった話者は,予測不能な文脈で「赤」と「緑」という色用語を使い,言語環境においては,通常視する話者に比べ,より低い範囲で心的イメージを誘発することが分かった。 これらの発見は、我々の言語システムにおける感覚経験の役割について、新しく興味深い光を当てた。

Prominent questions about the role of sensory vs. linguistic input in the way we acquire and use language have been extensively studied in the psycholinguistic literature. However, the relative effect of various factors in a person's overall experience on their linguistic system remains unclear. We study this question by making a step forward towards a better understanding of the conceptual perception of colors by color-blind individuals, as reflected in their spontaneous linguistic productions. Using a novel and carefully curated dataset, we show that red-green color-blind speakers use the "red" and "green" color terms in less predictable contexts, and in linguistic environments evoking mental image to a lower extent, when compared to their normal-sighted counterparts. These findings shed some new and interesting light on the role of sensory experience on our linguistic system.
翻訳日:2022-10-24 14:53:39 公開日:2022-10-21
# m^4adapter$:メタ適応型機械翻訳のための多言語マルチドメイン適応

$m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine Translation with a Meta-Adapter ( http://arxiv.org/abs/2210.11912v1 )

ライセンス: Link先を確認
Wen Lai, Alexandra Chronopoulou, Alexander Fraser(参考訳) 多言語ニューラルネットワーク翻訳モデル(MNMT)は、トレーニング時に見られるドメインと言語ペアのデータに基づいて評価すると、最先端のパフォーマンスが得られる。 しかし、ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、性能は劇的に低下する。 我々は、mnmtモデルを新しいドメインと新しい言語ペアの両方に同時に適応させるという非常に難しいシナリオを考えています。 本稿ではメタラーニングとアダプティブを併用したドメイン知識と言語知識を組み合わせた$m^4Adapter$(Multilingual Multi-Domain Adaptation for Machine Translation with a Meta-Adapter)を提案する。 提案手法は,新しい言語ペアと新しいドメインの両方にモデルを効果的に適応し,他のアダプタ手法よりも優れたパラメータ効率のソリューションであることを示す。 アブレーション研究によれば、このアプローチは異なる言語にまたがるドメイン知識と、異なるドメインにまたがる言語情報をより効果的に伝達する。

Multilingual neural machine translation models (MNMT) yield state-of-the-art performance when evaluated on data from a domain and language pair seen at training time. However, when a MNMT model is used to translate under domain shift or to a new language pair, performance drops dramatically. We consider a very challenging scenario: adapting the MNMT model both to a new domain and to a new language pair at the same time. In this paper, we propose $m^4Adapter$ (Multilingual Multi-Domain Adaptation for Machine Translation with a Meta-Adapter), which combines domain and language knowledge using meta-learning with adapters. We present results showing that our approach is a parameter-efficient solution which effectively adapts a model to both a new language pair and a new domain, while outperforming other adapter methods. An ablation study also shows that our approach more effectively transfers domain knowledge across different languages and language information across different domains.
翻訳日:2022-10-24 14:53:25 公開日:2022-10-21
# 直接音声翻訳のための名前付きエンティティ検出とインジェクション

Named Entity Detection and Injection for Direct Speech Translation ( http://arxiv.org/abs/2210.11981v1 )

ライセンス: Link先を確認
Marco Gaido, Yun Tang, Ilia Kulikov, Rongqing Huang, Hongyu Gong, Hirofumi Inaguma(参考訳) ある文では、ある単語はその意味に批判的である。 その中でも、名前付きエンティティ(NE)は神経モデルにとって非常に難しい。 その重要性にもかかわらず、S2T翻訳研究において正確な処理は無視されており、近年の研究により、S2Tモデルは、事前に知られない限り綴りが困難である場所、特に人名に対して不利であることが示された。 本研究では,S2Tモデル出力を改善するために,与えられた文脈に現れると思われるNEの辞書を活用する方法について検討する。 実験の結果,S2Tエンコーダ出力から発声中のNEを確実に検出できることがわかった。 実際、現在の検出品質は、人名エラーを31%減らして、翻訳におけるNE精度を向上させるのに十分であることを示す。

In a sentence, certain words are critical for its semantic. Among them, named entities (NEs) are notoriously challenging for neural models. Despite their importance, their accurate handling has been neglected in speech-to-text (S2T) translation research, and recent work has shown that S2T models perform poorly for locations and notably person names, whose spelling is challenging unless known in advance. In this work, we explore how to leverage dictionaries of NEs known to likely appear in a given context to improve S2T model outputs. Our experiments show that we can reliably detect NEs likely present in an utterance starting from S2T encoder outputs. Indeed, we demonstrate that the current detection quality is sufficient to improve NE accuracy in the translation with a 31% reduction in person name errors.
翻訳日:2022-10-24 14:53:07 公開日:2022-10-21
# スタック変換器を用いたshift-reduceタスク指向意味解析

Shift-Reduce Task-Oriented Semantic Parsing with Stack-Transformers ( http://arxiv.org/abs/2210.11984v1 )

ライセンス: Link先を確認
Daniel Fern\'andez-Gonz\'alez(参考訳) Apple SiriやAmazon Alexaといったインテリジェントな音声アシスタントは、近年広く使われている。 これらのタスク指向対話システムは、ユーザの発話を処理し、実行すべきアクションを理解するために意味解析モジュールを必要とする。 このセマンティック構文解析コンポーネントは、単純なクエリを処理するためのルールベースあるいは統計スロットフィルングアプローチによって実装されたが、より複雑な発話の出現により、シフト・リデュース・パーサやシーケンス・ツー・シーケンスモデルの適用が求められた。 shift-reduceのアプローチは、当初は最善の選択肢であることが示されていたが、最近のシーケンシャル・ツー・シーケンス・システムへの取り組みにより、そのタスクにおいて最もパフォーマンスの高い方法になってきた。 本稿では,タスク指向ダイアログのshift-reduceセマンティクス解析に関する研究を前進させる。 特に,Stack-Transformerに依存する新しいシフトリデューサを実装している。 これにより、最先端のTransformerアーキテクチャ上のトランジションシステムを適切にモデル化することができる。 さらに,代用遷移系を選挙区解析からタスク指向解析に適応させ,その順列アルゴリズムが一般的なトップダウン戦略を大幅に上回っていることを実証的に証明する。 最後に、facebookトップベンチマークから複数のドメインに対するアプローチを広範囲にテストし、高リソース設定と低リソース設定の両方において、既存のshift-reduceパーサと最先端のシーケンス-to-sequenceモデルを改善しました。

Intelligent voice assistants, such as Apple Siri and Amazon Alexa, are widely used nowadays. These task-oriented dialog systems require a semantic parsing module in order to process user utterances and understand the action to be performed. This semantic parsing component was initially implemented by rule-based or statistical slot-filling approaches for processing simple queries; however, the appearance of more complex utterances demanded the application of shift-reduce parsers or sequence-to-sequence models. While shift-reduce approaches initially demonstrated to be the best option, recent efforts on sequence-to-sequence systems pushed them to become the highest-performing method for that task. In this article, we advance the research on shift-reduce semantic parsing for task-oriented dialog. In particular, we implement novel shift-reduce parsers that rely on Stack-Transformers. These allow to adequately model transition systems on the cutting-edge Transformer architecture, notably boosting shift-reduce parsing performance. Additionally, we adapt alternative transition systems from constituency parsing to task-oriented parsing, and empirically prove that the in-order algorithm substantially outperforms the commonly-used top-down strategy. Finally, we extensively test our approach on multiple domains from the Facebook TOP benchmark, improving over existing shift-reduce parsers and state-of-the-art sequence-to-sequence models in both high-resource and low-resource settings.
翻訳日:2022-10-24 14:52:53 公開日:2022-10-21
# 共同音声翻訳と名前付きエンティティ認識

Joint Speech Translation and Named Entity Recognition ( http://arxiv.org/abs/2210.11987v1 )

ライセンス: Link先を確認
Marco Gaido, Sara Papi, Matteo Negri, Marco Turchi(参考訳) 現代の自動翻訳システムは、文脈支援と知識を提供することで、人間を中心に置くことを目指している。 この文脈では、重要なタスクは、現在、名前付きエンティティ認識(NER)とエンティティリンクシステムで生成された翻訳を処理している、上記のエンティティに関する情報を出力に富ませることである。 本稿では,直接音声翻訳(st)モデルが示す最近の有望な結果と,カスケードの既知の弱点(エラー伝搬と遅延の増加)を踏まえ,stとnerを共同で実行し,カスケードベースラインと比較するマルチタスクモデルを提案する。 実験の結果,本モデルがnerタスクのカスケード(0.4~1.0 f1)を大きく上回り,翻訳品質の低下を伴わずに計算効率も平易なstモデルと同程度であった。

Modern automatic translation systems aim at place the human at the center by providing contextual support and knowledge. In this context, a critical task is enriching the output with information regarding the mentioned entities, which is currently achieved processing the generated translation with named entity recognition (NER) and entity linking systems. In light of the recent promising results shown by direct speech translation (ST) models and the known weaknesses of cascades (error propagation and additional latency), in this paper we propose multitask models that jointly perform ST and NER, and compare them with a cascade baseline. The experimental results show that our models significantly outperform the cascade on the NER task (by 0.4-1.0 F1), without degradation in terms of translation quality, and with the same computational efficiency of a plain direct ST model.
翻訳日:2022-10-24 14:52:27 公開日:2022-10-21
# 政党間の相似性を捉えるためのテキスト表現の最適化

Optimizing text representations to capture (dis)similarity between political parties ( http://arxiv.org/abs/2210.11989v1 )

ライセンス: Link先を確認
Tanise Ceron, Nico Blokker, Sebastian Pad\'o(参考訳) 自動テキスト解析を可能にする上では、微調整されたニューラルネットワークモデルが重要な役割を担ってきたが、特定のアプリケーションに対するテキスト表現の最適化は依然として重要なボトルネックである。 本研究では,この問題を,計算社会科学の課題,すなわち政党間の相互類似性をモデル化する文脈において考察する。 本研究は,ロバストなテキスト表現を作成する上で,どのレベルの構造情報が必要なのかを問うとともに,文書構造に基づくヒューリスティックなアノテーションを1種類ないし2種類のアノテーションに置き換えるアプローチと,強い情報的アプローチ(クレームスパンとクレームカテゴリアノテーションの両方を使用する)を対比する。 2021年の連邦選挙におけるドイツ政党の宣言に関する我々のモデルを評価する。 当事者間の類似度を最大化するヒューリスティックスと正常化ステップは、手動のアノテーションを必要とせず、信頼できる当事者類似度予測につながる。

Even though fine-tuned neural language models have been pivotal in enabling "deep" automatic text analysis, optimizing text representations for specific applications remains a crucial bottleneck. In this study, we look at this problem in the context of a task from computational social science, namely modeling pairwise similarities between political parties. Our research question is what level of structural information is necessary to create robust text representation, contrasting a strongly informed approach (which uses both claim span and claim category annotations) with approaches that forgo one or both types of annotation with document structure-based heuristics. Evaluating our models on the manifestos of German parties for the 2021 federal election. We find that heuristics that maximize within-party over between-party similarity along with a normalization step lead to reliable party similarity prediction, without the need for manual annotation.
翻訳日:2022-10-24 14:52:12 公開日:2022-10-21
# テキスト分類タスクに言語モデルを適用する際の性能効率トレードオフ

Performance-Efficiency Trade-Offs in Adapting Language Models to Text Classification Tasks ( http://arxiv.org/abs/2210.12022v1 )

ライセンス: Link先を確認
Laura Aina, Nikos Voskarides, Roi Blanco(参考訳) 事前訓練された言語モデル(LM)は、テキスト分類タスクに適応すると最先端の性能が得られる。 しかし、現実のアプリケーションでそのようなモデルを使う場合、効率性が最重要視される。 本稿では,LMをテキスト分類に適応させる訓練方法の違いについて検討する。 より具体的には、教師がファインチューニングまたはプロンプトの訓練を受けたとき、標準的なファインチューニング、プロンプト、ナレッジ蒸留(KD)を比較した。 実験結果から, 大型鉄道車両において, 微調整や作業の促進が有効であったとしても, 計算コストやデータコストを削減できる, より効率的な代替手段があることが示唆された。 興味深いことに、kdと組み合わせることで、計算コストとデータコストを同時に削減できる。

Pre-trained language models (LMs) obtain state-of-the-art performance when adapted to text classification tasks. However, when using such models in real-world applications, efficiency considerations are paramount. In this paper, we study how different training procedures that adapt LMs to text classification perform, as we vary model and train set size. More specifically, we compare standard fine-tuning, prompting, and knowledge distillation (KD) when the teacher was trained with either fine-tuning or prompting. Our findings suggest that even though fine-tuning and prompting work well to train large LMs on large train sets, there are more efficient alternatives that can reduce compute or data cost. Interestingly, we find that prompting combined with KD can reduce compute and data cost at the same time.
翻訳日:2022-10-24 14:51:53 公開日:2022-10-21
# 構成統語距離による構文誘導型局所的自己アテンション

Syntax-guided Localized Self-attention by Constituency Syntactic Distance ( http://arxiv.org/abs/2210.11759v1 )

ライセンス: Link先を確認
Shengyuan Hou, Jushi Kai, Haotian Xue, Bingyu Zhu, Bo Yuan, Longtao Huang, Xinbing Wang and Zhouhan Lin(参考訳) 近年の研究では、トランスフォーマーがデータから下位層における構文情報を暗黙的に学習していることが判明しているが、トレーニングデータの質と規模に大きく依存している。 しかし,データから構文情報を学習するには外部構文解析器を利用する必要がある。 これにより、Transformerのパフォーマンスとサンプル効率が向上する可能性がある。 本研究では,外部構成構文解析器から文法構造を直接組み込む手法を提案する。 閉じたトークンよりも文法的に遠いトークンを重み付けするアテンションメカニズムを禁止している。 実験の結果,小型から大規模まで多種多様な機械翻訳データセットの翻訳性能を,異なるソース言語を用いて一貫して向上させることができることがわかった。

Recent works have revealed that Transformers are implicitly learning the syntactic information in its lower layers from data, albeit is highly dependent on the quality and scale of the training data. However, learning syntactic information from data is not necessary if we can leverage an external syntactic parser, which provides better parsing quality with well-defined syntactic structures. This could potentially improve Transformer's performance and sample efficiency. In this work, we propose a syntax-guided localized self-attention for Transformer that allows directly incorporating grammar structures from an external constituency parser. It prohibits the attention mechanism to overweight the grammatically distant tokens over close ones. Experimental results show that our model could consistently improve translation performance on a variety of machine translation datasets, ranging from small to large dataset sizes, and with different source languages.
翻訳日:2022-10-24 14:45:12 公開日:2022-10-21
# 有害言語データセットにおける意図しない社会バイアスの検出

Detecting Unintended Social Bias in Toxic Language Datasets ( http://arxiv.org/abs/2210.11762v1 )

ライセンス: Link先を確認
Nihar Sahoo, Himanshu Gupta, Pushpak Bhattacharyya(参考訳) オンラインヘイトスピーチの普及に伴い、ヘイトスピーチの自動検出や、自然言語処理タスクとしての不快テキストが普及している。 しかし、これらの有害な言語データセットから意図しない社会的バイアスを検出するための研究はほとんど行われていない。 本稿では,既存のKaggleコンペティションのデータセットであるJigsaw Unintended Bias in Toxicity Classificationから算出した新しいデータセットであるToxicBiasを紹介する。 我々は,社会的偏見,そのカテゴリー,対象グループを検出することを目的とする。 データセットには、5つの異なるバイアスカテゴリ(viz., gender, race/ethnicity, religion, political, lgbtq)のインスタンスが含まれている。 得られたデータセットを用いてトランスフォーマーベースモデルをトレーニングし、バイアス識別、ターゲット生成、バイアス含意に関するベースライン性能を報告する。 モデルバイアスとその緩和についても詳細に論じる。 本研究は,有毒な言語データセットから社会バイアスデータを体系的に抽出する動機付けである。 この研究で使用されるすべてのコードとデータセットが公開されています

With the rise of online hate speech, automatic detection of Hate Speech, Offensive texts as a natural language processing task is getting popular. However, very little research has been done to detect unintended social bias from these toxic language datasets. This paper introduces a new dataset ToxicBias curated from the existing dataset of Kaggle competition named "Jigsaw Unintended Bias in Toxicity Classification". We aim to detect social biases, their categories, and targeted groups. The dataset contains instances annotated for five different bias categories, viz., gender, race/ethnicity, religion, political, and LGBTQ. We train transformer-based models using our curated datasets and report baseline performance for bias identification, target generation, and bias implications. Model biases and their mitigation are also discussed in detail. Our study motivates a systematic extraction of social bias data from toxic language datasets. All the codes and dataset used for experiments in this work are publicly available
翻訳日:2022-10-24 14:44:58 公開日:2022-10-21
# CEFRに基づく文のアノテーションと評価

CEFR-Based Sentence Difficulty Annotation and Assessment ( http://arxiv.org/abs/2210.11766v1 )

ライセンス: Link先を確認
Yuki Arase, Satoru Uchida, Tomoyuki Kajiwara(参考訳) 制御可能なテキスト簡易化は、言語学習と教育において重要な支援技術である。 その進歩を妨げる主要な要因の1つは、言語能力の記述に基づく文難度を注釈付けしたコーパスの欠如である。 この問題に対処するため,CEFR をベースとした Sentence Profile (CEFR-SP) コーパスを作成した。 また,最も基本的で高度に熟練した文は自然に不足するため,不均衡なレベル分布を扱う文レベル評価モデルを提案する。 本研究の実験では, レベル評価においてマクロf1スコア84.5%を達成し, 可読性評価に使用される強いベースラインを上回った。

Controllable text simplification is a crucial assistive technique for language learning and teaching. One of the primary factors hindering its advancement is the lack of a corpus annotated with sentence difficulty levels based on language ability descriptions. To address this problem, we created the CEFR-based Sentence Profile (CEFR-SP) corpus, containing 17k English sentences annotated with the levels based on the Common European Framework of Reference for Languages assigned by English-education professionals. In addition, we propose a sentence-level assessment model to handle unbalanced level distribution because the most basic and highly proficient sentences are naturally scarce. In the experiments in this study, our method achieved a macro-F1 score of 84.5% in the level assessment, thus outperforming strong baselines employed in readability assessment.
翻訳日:2022-10-24 14:44:45 公開日:2022-10-21
# InforMask: 言語モデル事前学習のための教師なしインフォーマルマスキング

InforMask: Unsupervised Informative Masking for Language Model Pretraining ( http://arxiv.org/abs/2210.11771v1 )

ライセンス: Link先を確認
Nafis Sadeq, Canwen Xu, Julian McAuley(参考訳) マスキング言語モデリングは自然言語理解のための大規模言語モデル(nlu)の事前学習に広く使われている。 しかし、ランダムマスキングは最適であり、全てのトークンに対して等しいマスキング率を割り当てる。 本稿では,マスク言語モデルの学習のための教師なしマスキング戦略であるinformaskを提案する。 informaskはpointwise mutual information(pmi)を利用して、マスクする最も有益なトークンを選択する。 さらに,InforMaskの効率向上のための2つの最適化を提案する。 ワンオフ前処理ステップで、informaskは、factual recall benchmark lama と question answering benchmark squad v1, v2 において、ランダムマスキングと以前に提案されたマスキング戦略よりも優れている。

Masked language modeling is widely used for pretraining large language models for natural language understanding (NLU). However, random masking is suboptimal, allocating an equal masking rate for all tokens. In this paper, we propose InforMask, a new unsupervised masking strategy for training masked language models. InforMask exploits Pointwise Mutual Information (PMI) to select the most informative tokens to mask. We further propose two optimizations for InforMask to improve its efficiency. With a one-off preprocessing step, InforMask outperforms random masking and previously proposed masking strategies on the factual recall benchmark LAMA and the question answering benchmark SQuAD v1 and v2.
翻訳日:2022-10-24 14:44:32 公開日:2022-10-21
# 対話要約における忠実性の分析と評価

Analyzing and Evaluating Faithfulness in Dialogue Summarization ( http://arxiv.org/abs/2210.11777v1 )

ライセンス: Link先を確認
Bin Wang, Chen Zhang, Yan Zhang, Yiming Chen, Haizhou Li(参考訳) 対話要約は本質的に抽象的であり、事実的誤りに苦しむ。 要約の事実的正確性は、実用的応用よりも優先される。 テキスト要約の忠実性を改善するために多くの努力がなされている。 しかし,対話要約システムに関する体系的な研究が不足している。 本稿では,まず対話要約の忠実性に関する精細な人間分析を行い,生成要約の35%以上がソース対話のそれぞれに忠実に一貫性がないことを観察する。 さらに,新しいモデルレベルの忠実度評価手法を提案する。 ルールベースの変換によって作成されるマルチチョース質問を持つ生成モデルを調べる。 実験結果から,評価スキーマは要約モデルの事実的正しさの強い指標であることがわかった。 人間の注釈付き忠実度サンプルと評価ツールキットを公開し、忠実な対話要約に向けた今後の研究を促進する。

Dialogue summarization is abstractive in nature, making it suffer from factual errors. The factual correctness of summaries has the highest priority before practical applications. Many efforts have been made to improve faithfulness in text summarization. However, there is a lack of systematic study on dialogue summarization systems. In this work, we first perform the fine-grained human analysis on the faithfulness of dialogue summaries and observe that over 35% of generated summaries are faithfully inconsistent respective the source dialogues. Furthermore, we present a new model-level faithfulness evaluation method. It examines generation models with multi-choice questions created by rule-based transformations. Experimental results show that our evaluation schema is a strong proxy for the factual correctness of summarization models. The human-annotated faithfulness samples and the evaluation toolkit are released to facilitate future research toward faithful dialogue summarization.
翻訳日:2022-10-24 14:44:21 公開日:2022-10-21
# 時間依存グラフ構築のための文書レベルの時間構造モデリング

Modeling Document-level Temporal Structures for Building Temporal Dependency Graphs ( http://arxiv.org/abs/2210.11787v1 )

ライセンス: Link先を確認
Prafulla Kumar Choubey and Ruihong Huang(参考訳) 本稿では,ニュース談話のプロファイリングを活用し,時間依存グラフ構築のための文書レベルの時間構造をモデル化する。 我々は,ニュース談話のプロファイリングに使用される文の機能的役割が,ニュース記事に関連する異なる時間枠を表わし,文書の全体的時間構造を回復するのに役立つことを重要視している。 広く用いられている知識蒸留技術を用いて分析および実験を行ったところ,言論のプロファイリングは時間的関係が強く,発見が困難である遠隔イベントと(あるいは)時間表現ペアを効果的に識別できることがわかった。

We propose to leverage news discourse profiling to model document-level temporal structures for building temporal dependency graphs. Our key observation is that the functional roles of sentences used for profiling news discourse signify different time frames relevant to a news story and can, therefore, help to recover the global temporal structure of a document. Our analyses and experiments with the widely used knowledge distillation technique show that discourse profiling effectively identifies distant inter-sentence event and (or) time expression pairs that are temporally related and otherwise difficult to locate.
翻訳日:2022-10-24 14:44:10 公開日:2022-10-21
# 暗黙的および長期的症例の救助 : 最寄りの隣接関係抽出

Rescue Implicit and Long-tail Cases: Nearest Neighbor Relation Extraction ( http://arxiv.org/abs/2210.11800v1 )

ライセンス: Link先を確認
Zhen Wan, Qianying Liu, Zhuoyuan Mao, Fei Cheng, Sadao Kurohashi, Jiwei Li(参考訳) 関係抽出(re)は、事前学習された言語モデルの助けを借りて、著しく進歩した。 しかし、既存のREモデルは、暗黙の表現と長い尾の関係型という2つの状況を扱うことができない。 本稿では,近隣住民(k$NN-RE)によるREの簡易化について紹介する。 k$NN-REにより、モデルは最寄りの検索を通じてテスト時にトレーニング関係をコンサルティングすることができ、上記の2つの問題に対処するためのシンプルで効果的な手段を提供する。 さらに、$k$NN-REがREの遠隔監視(DS)データを活用する効果的な方法であることも確認した。 実験の結果、提案された$k$NN-REは、様々な教師付きREデータセット(ACE05、SciERC、Wiki80)で最先端のパフォーマンスを達成し、DSの使用を許可する設定において、i2b2およびWiki80データセットで現在最高のモデルを上回ることが示されている。 私たちのコードとモデルは、https://github.com/YukinoWan/kNN-RE.comで利用可能です。

Relation extraction (RE) has achieved remarkable progress with the help of pre-trained language models. However, existing RE models are usually incapable of handling two situations: implicit expressions and long-tail relation types, caused by language complexity and data sparsity. In this paper, we introduce a simple enhancement of RE using $k$ nearest neighbors ($k$NN-RE). $k$NN-RE allows the model to consult training relations at test time through a nearest-neighbor search and provides a simple yet effective means to tackle the two issues above. Additionally, we observe that $k$NN-RE serves as an effective way to leverage distant supervision (DS) data for RE. Experimental results show that the proposed $k$NN-RE achieves state-of-the-art performances on a variety of supervised RE datasets, i.e., ACE05, SciERC, and Wiki80, along with outperforming the best model to date on the i2b2 and Wiki80 datasets in the setting of allowing using DS. Our code and models are available at: https://github.com/YukinoWan/kNN-RE.
翻訳日:2022-10-24 14:43:58 公開日:2022-10-21
# 潜在変数を用いた新しいインテントの発見

Discovering New Intents Using Latent Variables ( http://arxiv.org/abs/2210.11804v1 )

ライセンス: Link先を確認
Yunhua Zhou, Peiju Liu, Yuxin Wang, Xipeng QIu(参考訳) 新しい意図を明らかにすることは、Bootstrapped Task-Oriented Dialogue Systemを確立する上で非常に重要である。 既存のほとんどの方法は、既知の意図データで事前知識を転送する能力が欠けているか、フォローアップで事前知識を忘れるジレンマに陥る。 さらに重要なことに、これらの手法はラベルのないデータの本質的な構造を深く研究していないため、一般的に意図を与える特徴を探せません。 本稿では,意図の発見が既知の意図の同定に有用であるという直感から,意図の割り当てを潜伏変数として扱う意図の発見のための確率的枠組みを提案する。 我々は最適化のために期待最大化フレームワークを採用する。 特に、e-stepでは、意図の発見を行い、意図の割り当ての後方でラベルのないデータの本質的構造を探索する。 mステップでは、ラベル付きデータの識別を最適化することにより、既知の意図から転送される事前知識の忘れを緩和する。 3つの挑戦的な実世界のデータセットで実施された大規模な実験は、我々の手法が大幅に改善できることを示した。

Discovering new intents is of great significance to establishing Bootstrapped Task-Oriented Dialogue System. Most existing methods either lack the ability to transfer prior knowledge in the known intent data or fall into the dilemma of forgetting prior knowledge in the follow-up. More importantly, these methods do not deeply explore the intrinsic structure of unlabeled data, so they can not seek out the characteristics that make an intent in general. In this paper, starting from the intuition that discovering intents could be beneficial to the identification of the known intents, we propose a probabilistic framework for discovering intents where intent assignments are treated as latent variables. We adopt Expectation Maximization framework for optimization. Specifically, In E-step, we conduct discovering intents and explore the intrinsic structure of unlabeled data by the posterior of intent assignments. In M-step, we alleviate the forgetting of prior knowledge transferred from known intents by optimizing the discrimination of labeled data. Extensive experiments conducted in three challenging real-world datasets demonstrate our method can achieve substantial improvements.
翻訳日:2022-10-24 14:43:37 公開日:2022-10-21
# 数項目の最大出力によるロバスト化感性分類

Robustifying Sentiment Classification by Maximally Exploiting Few Counterfactuals ( http://arxiv.org/abs/2210.11805v1 )

ライセンス: Link先を確認
Maarten De Raedt, Fr\'ederic Godin, Chris Develder, Thomas Demeester(参考訳) テキスト分類タスクでは、微調整言語モデルは非常によく機能する。 しかし、トレーニングデータのスプリアスパターンに依存する傾向があるため、アウト・オブ・ディストリビューション(ood)テストデータのパフォーマンスが制限される。 この散発的なパターン問題を避けるための最近のモデルの中で、トレーニングデータに余分な偽のサンプルを追加することは、非常に効果的であることが証明されている。 しかし、偽造データ生成は人間のアノテーションに依存するため、コストがかかる。 そこで本研究では,オリジナルトレーニングデータの少ない分数(例えば1%)のアノテーションしか必要とせず,符号化ベクトル空間における余分な偽語の自動生成を用いた新しい解法を提案する。 IMDbデータを用いたOODテスト(Amazon,SemEval,Yelpなど)において,感情分類におけるアプローチの有効性を実証した。 1%の手動の偽物を追加することで、明らかな精度向上を達成している: +3% は、100% の分布内トレーニングサンプルを追加し、+1.3% は代替の偽物アプローチと比較した。

For text classification tasks, finetuned language models perform remarkably well. Yet, they tend to rely on spurious patterns in training data, thus limiting their performance on out-of-distribution (OOD) test data. Among recent models aiming to avoid this spurious pattern problem, adding extra counterfactual samples to the training data has proven to be very effective. Yet, counterfactual data generation is costly since it relies on human annotation. Thus, we propose a novel solution that only requires annotation of a small fraction (e.g., 1%) of the original training data, and uses automatic generation of extra counterfactuals in an encoding vector space. We demonstrate the effectiveness of our approach in sentiment classification, using IMDb data for training and other sets for OOD tests (i.e., Amazon, SemEval and Yelp). We achieve noticeable accuracy improvements by adding only 1% manual counterfactuals: +3% compared to adding +100% in-distribution training samples, +1.3% compared to alternate counterfactual approaches.
翻訳日:2022-10-24 14:43:21 公開日:2022-10-21
# ギリシャ語Twitterにおける「\{gamma}\u{psion}{\nu}{\alpha}{\iota}\k{appa}{\omicron}\k{appa}{\tau}{\omicron}{\nu}{\iota}{\alpha}」という言葉の使用

The use of the word "\{gamma}\u{psion}{\nu}{\alpha}{\iota}\k{appa}{\omicron}\k{appa}{\tau}{\omicron}{\nu}{\iota}{\alpha}" (femicide) in Greek-speaking Twitter ( http://arxiv.org/abs/2210.11837v1 )

ライセンス: Link先を確認
Aglaia Aggistrioti, Efstathia Bambili, Nikoleta Gkatzoli, Athina Kontostavlaki, Ioanna Tsounidi, Konstantinos Perifanos(参考訳) 2019年から2022年の間、ギリシャのメディアの注目は、数週間から数ヶ月にわたって公衆の議論で傾向が続いており、伝統的なメディアとソーシャルメディアの間のフィードバックループに寄与する要因の1つとして注目されている。 本稿では,ギリシャ語のtwitterにおける「\{gamma}\u{psion}{\nu}{\alpha}{\iota}\k{appa}{\omicron}\k{appa}{\tau}{\omicron}{\nu}{\iota}{\alpha}」という用語の使用について検討する。 具体的には,単語のフェミニズム的意味論に関して,ユーザの位置を自動的に識別することを目的として,姿勢検出の観点からこの問題にアプローチする。 また、ツイートの収集したコーパスで特定されたヘイトスピーチとの相関について、アイデンティティ分析の観点から考察する。

Between 2019 and 2022, Greek media attention has been attracted by a rather unusually high number of femicide cases which have been trending for several weeks up to months in the public debate and one of the contributing factors is the feedback loop between traditional media and social media. In this paper we are investigating the use of the term "\{gamma}\u{psion}{\nu}{\alpha}{\iota}\k{appa}{\omicron}\k{appa}{\tau}{\omicron}{\nu}{\iota}{\alpha}" (femicide) in Greek speaking twitter. More specifically, we approach the problem from a stance detection perspective, aiming to automatically identify user position with regards to the feministic semantics of the word. We also discuss findings from an identity analysis perspective and intercorrelations with hate speech that have been identified in the collected corpus of tweets.
翻訳日:2022-10-24 14:43:01 公開日:2022-10-21
# mixmt 2022: 巨大な事前学習されたモデルで構築されたフルーエント翻訳

SIT at MixMT 2022: Fluent Translation Built on Giant Pre-trained Models ( http://arxiv.org/abs/2210.11670v1 )

ライセンス: Link先を確認
Abdul Rafae Khan, Hrishikesh Kanade, Girish Amar Budhrani, Preet Jhanglani, Jia Xu(参考訳) 本稿では、スティーブンス工科大学がWMT 2022 Shared Task: Code-mixed Machine Translation (MixMT) を提出したことを述べる。 タスクは2つのサブタスクで構成されており、サブタスクはヒンディー語に$$$、サブタスクは$$hinglishから英語に$hinglishである。 以上の知見は,事前学習された多言語nmtモデルとドメイン内データセット,およびバックトランスレーションやアンサンブル技術を用いた改善である。 ROUGE-LおよびWERを用いて参照翻訳に対して翻訳出力を自動評価する。 我々のシステムは、サブタスクの1^{st}$位置をrouge-l, wer, and human evaluationによると2ドル、サブタスクの1^{st}$位置をwerとヒューマン評価で1ドル、サブタスクの3^{rd}$位置をrouge-lメトリックで1ドル達成する。

This paper describes the Stevens Institute of Technology's submission for the WMT 2022 Shared Task: Code-mixed Machine Translation (MixMT). The task consisted of two subtasks, subtask $1$ Hindi/English to Hinglish and subtask $2$ Hinglish to English translation. Our findings lie in the improvements made through the use of large pre-trained multilingual NMT models and in-domain datasets, as well as back-translation and ensemble techniques. The translation output is automatically evaluated against the reference translations using ROUGE-L and WER. Our system achieves the $1^{st}$ position on subtask $2$ according to ROUGE-L, WER, and human evaluation, $1^{st}$ position on subtask $1$ according to WER and human evaluation, and $3^{rd}$ position on subtask $1$ with respect to ROUGE-L metric.
翻訳日:2022-10-24 14:36:41 公開日:2022-10-21
# Sling: 大規模言語モデルのSino言語学的評価

SLING: Sino Linguistic Evaluation of Large Language Models ( http://arxiv.org/abs/2210.11689v1 )

ライセンス: Link先を確認
Yixiao Song, Kalpesh Krishna, Rajesh Bhatt and Mohit Iyyer(参考訳) 事前学習された中国語モデル(lms)によってどのような言語知識がエンコードされているかを理解するために,中国語の38kの最小文対を9つの高レベル言語現象に分類したsling(sino languageics)ベンチマークを紹介する。 各ペアは特定の構文的あるいは意味的現象(例えばキーが失われても鍵が失われる)の受け入れ可能性のコントラストを示し、lmは許容される文に対して低いパープレキシティを割り当てるべきである。 CLiMPデータセット(Xiang et al., 2021)は、中国語の最小のペアを含んでいて、英語のBLiMPデータセットの語彙を翻訳することによって作成されたものであるが、Slingの最小のペアは主に、中国のツリーバンク9.0から自然に帰結する語彙変換と語彙変換を適用し、CLiMPのデータ生成プロセスの深刻な問題に対処することによって導かれる。 Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh, CPM など) とマルチ言語 (mT5, XLM など) の言語モデルをテストする。 実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成している。 さらに、ほとんどのLMは、性別や数(特異/複数)の偏りが強く、階層的なものよりも局所現象に優れています。

To understand what kinds of linguistic knowledge are encoded by pretrained Chinese language models (LMs), we introduce the benchmark of Sino LINGuistics (SLING), which consists of 38K minimal sentence pairs in Mandarin Chinese grouped into 9 high-level linguistic phenomena. Each pair demonstrates the acceptability contrast of a specific syntactic or semantic phenomenon (e.g., The keys are lost vs. The keys is lost), and an LM should assign lower perplexity to the acceptable sentence. In contrast to the CLiMP dataset (Xiang et al., 2021), which also contains Chinese minimal pairs and was created by translating the vocabulary of the English BLiMP dataset, the minimal pairs in SLING are derived primarily by applying syntactic and lexical transformations to naturally-occurring, linguist-annotated sentences from the Chinese Treebank 9.0, thus addressing severe issues in CLiMP's data generation process. We test 18 publicly available pretrained monolingual (e.g., BERT-base-zh, CPM) and multi-lingual (e.g., mT5, XLM) language models on SLING. Our experiments show that the average accuracy for LMs is far below human performance (69.7% vs. 97.1%), while BERT-base-zh achieves the highest accuracy (84.8%) of all tested LMs, even much larger ones. Additionally, we find that most LMs have a strong gender and number (singular/plural) bias, and they perform better on local phenomena than hierarchical ones.
翻訳日:2022-10-24 14:36:19 公開日:2022-10-21
# 計量誘導蒸留:計量からランチャーへの知識の蒸留とジェネレーティブ・コモンセンス推論のためのレトリバー

Metric-guided Distillation: Distilling Knowledge from the Metric to Ranker and Retriever for Generative Commonsense Reasoning ( http://arxiv.org/abs/2210.11708v1 )

ライセンス: Link先を確認
Xingwei He, Yeyun Gong, A-Long Jin, Weizhen Qi, Hang Zhang, Jian Jiao, Bartuer Zhou, Biao Cheng, SM Yiu and Nan Duan(参考訳) Commonsense生成は、与えられた概念の下で日々のシーンを記述する現実的な文を生成することを目的としており、それは非常に難しい。 以前の研究は、生成を支援するために提供された概念のプロトタイプ文の検索に焦点を当てていた。 彼らはまずスパースレトリバーを使用して候補文を検索し、次にランク付けした候補をランク付けする。 しかし、ランク付け者が返した候補者は、与えられた概念の参照文との関連性を考慮せずに全ての候補者を平等に扱うため、最も関係のある文ではないかもしれない。 もう1つの問題は、再ランク付けは非常に高価であるが、レトリバーを使用するだけで、生成モデルの性能が著しく低下することである。 これらの問題を解決するために、計量(例えばBLEU)からランクアーへの知識を蒸留するための計量蒸留則を提案する。 さらに,蒸留ランカによって要約された臨界知識を検索者に転送する。 このようにして、ランクと検索者によって予測される候補文の関連スコアは、計量によって測定される品質とより整合する。 提案手法の有効性をCommonGenベンチマークで検証した結果, 1) 蒸留ローダを用いた生成モデルにより, 新たな最先端結果が得られた。 2) 蒸留回収器を用いた生成モデルは, 従来のSOTAを上回ります。

Commonsense generation aims to generate a realistic sentence describing a daily scene under the given concepts, which is very challenging, since it requires models to have relational reasoning and compositional generalization capabilities. Previous work focuses on retrieving prototype sentences for the provided concepts to assist generation. They first use a sparse retriever to retrieve candidate sentences, then re-rank the candidates with a ranker. However, the candidates returned by their ranker may not be the most relevant sentences, since the ranker treats all candidates equally without considering their relevance to the reference sentences of the given concepts. Another problem is that re-ranking is very expensive, but only using retrievers will seriously degrade the performance of their generation models. To solve these problems, we propose the metric distillation rule to distill knowledge from the metric (e.g., BLEU) to the ranker. We further transfer the critical knowledge summarized by the distilled ranker to the retriever. In this way, the relevance scores of candidate sentences predicted by the ranker and retriever will be more consistent with their quality measured by the metric. Experimental results on the CommonGen benchmark verify the effectiveness of our proposed method: (1) Our generation model with the distilled ranker achieves a new state-of-the-art result. (2) Our generation model with the distilled retriever even surpasses the previous SOTA.
翻訳日:2022-10-24 14:35:46 公開日:2022-10-21
# 感性感情認識と感性知識選択による共感対話生成

Empathetic Dialogue Generation via Sensitive Emotion Recognition and Sensible Knowledge Selection ( http://arxiv.org/abs/2210.11715v1 )

ライセンス: Link先を確認
Lanrui Wang and Jiangnan Li and Zheng Lin and Fandong Meng and Chenxu Yang and Weiping Wang and Jie Zhou(参考訳) 共感は心理的カウンセリングで広く使われているが、日常的な人間の会話の重要な特徴である。 常識的知識を取り入れた現在の共感的応答生成のアプローチは、会話の中で暗黙の感情を捉え、会話を通して感情が静的な変数として扱われる。 しかし、感情は発話間で動的に変化するため、以前の作業では感情の流れを知覚し、ターゲット応答の正しい感情を予測することが難しくなり、不適切な反応に繋がる。 さらに、単にコモンセンスの知識を調和せずにインポートするだけで、知識と感情の衝突が引き起こされ、モデルが生成プロセスを導くために誤った情報を選択することを混乱させる可能性がある。 以上の問題に対処するために,情緒的対話生成のためのシリアルエンコーディングと感情-知識相互作用(SEEK)手法を提案する。 我々は,会話中の感情動態(感情の流れ)に敏感な微粒な符号化戦略を用いて,応答の感情依存特性を予測する。 さらに、知識と感情の相互作用をモデル化し、より合理的な応答を生成する新しい枠組みを設計する。 共感ダイアログに関する大規模な実験は、SEEKが自動評価と手動評価の両方において強いベースラインを上回っていることを示している。

Empathy, which is widely used in psychological counselling, is a key trait of everyday human conversations. Equipped with commonsense knowledge, current approaches to empathetic response generation focus on capturing implicit emotion within dialogue context, where the emotions are treated as a static variable throughout the conversations. However, emotions change dynamically between utterances, which makes previous works difficult to perceive the emotion flow and predict the correct emotion of the target response, leading to inappropriate response. Furthermore, simply importing commonsense knowledge without harmonization may trigger the conflicts between knowledge and emotion, which confuse the model to choose incorrect information to guide the generation process. To address the above problems, we propose a Serial Encoding and Emotion-Knowledge interaction (SEEK) method for empathetic dialogue generation. We use a fine-grained encoding strategy which is more sensitive to the emotion dynamics (emotion flow) in the conversations to predict the emotion-intent characteristic of response. Besides, we design a novel framework to model the interaction between knowledge and emotion to generate more sensible response. Extensive experiments on EmpatheticDialogues demonstrate that SEEK outperforms the strong baselines in both automatic and manual evaluations.
翻訳日:2022-10-24 14:35:23 公開日:2022-10-21
# MCSCSet: 医学領域の中国語スペル訂正のための特別な注釈付きデータセット

MCSCSet: A Specialist-annotated Dataset for Medical-domain Chinese Spelling Correction ( http://arxiv.org/abs/2210.11720v1 )

ライセンス: Link先を確認
Wangjie Jiang, Zhihao Ye, Zijing Ou, Ruihui Zhao, Jianguang Zheng, Yi Liu, Siheng Li, Bang Liu, Yujiu Yang and Yefeng Zheng(参考訳) 中国語テキストにおける綴り誤りの自動検出と訂正の約束により、中国語綴り訂正(csc)が注目を集めている。 検索エンジンや光学文字認識システムなど多くのアプリケーションで広く使われているが、複雑で一般的な医療機関が容易に誤る医療シナリオでは、ほとんど研究されていない。 医療機関のミススペルの訂正は、特定のドメイン知識の要求のため、オープンドメインのものよりもおそらく困難である。 本研究では,中国医学領域の綴り修正の課題を定義し,約200万点のサンプルを含む大規模専門家注釈データセットであるmcscsetを提案する。 既存のオープンドメインのCSCデータセットとは対照的に、MCSCSetは以下のようになる。 一 Tencent Yidianから収集した広範囲の現実世界の医療クエリ 二 医療専門家が手動で記入した誤記文 自動的なデータセットのキュレーションを保証するため、MCSCSetはさらに、中国の医学用語の一般的なミススペル文字からなる医学的混乱セットを提供する。 これにより、医療ミススペルデータセットを自動的に作成できる。 大規模な実証研究は、オープンドメインと医療ドメインの綴り補正の間に大きなパフォーマンスギャップを示しており、特定のドメインで中国語の綴り補正を可能にする高品質なデータセットを開発する必要性を強調している。 さらに,中国を代表するスペル補正モデルをベンチマークし,今後の作業のベースラインを確立する。

Chinese Spelling Correction (CSC) is gaining increasing attention due to its promise of automatically detecting and correcting spelling errors in Chinese texts. Despite its extensive use in many applications, like search engines and optical character recognition systems, little has been explored in medical scenarios in which complex and uncommon medical entities are easily misspelled. Correcting the misspellings of medical entities is arguably more difficult than those in the open domain due to its requirements of specificdomain knowledge. In this work, we define the task of Medical-domain Chinese Spelling Correction and propose MCSCSet, a large scale specialist-annotated dataset that contains about 200k samples. In contrast to the existing open-domain CSC datasets, MCSCSet involves: i) extensive real-world medical queries collected from Tencent Yidian, ii) corresponding misspelled sentences manually annotated by medical specialists. To ensure automated dataset curation, MCSCSet further offers a medical confusion set consisting of the commonly misspelled characters of given Chinese medical terms. This enables one to create the medical misspelling dataset automatically. Extensive empirical studies have shown significant performance gaps between the open-domain and medical-domain spelling correction, highlighting the need to develop high-quality datasets that allow for Chinese spelling correction in specific domains. Moreover, our work benchmarks several representative Chinese spelling correction models, establishing baselines for future work.
翻訳日:2022-10-24 14:35:01 公開日:2022-10-21
# 対話理解のためのデータセット内タスク転送におけるデータ効率の探索

An Exploration of Data Efficiency in Intra-Dataset Task Transfer for Dialog Understanding ( http://arxiv.org/abs/2210.11729v1 )

ライセンス: Link先を確認
Josiah Ross, Luke Yoffe, Alon Albalak, William Yang Wang(参考訳) トランスファーラーニングは自然言語処理のエキサイティングな領域であり、モデルの性能を改善し、データ効率を向上させる可能性がある。 本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。 我々は、モデルがソースタスクから得た情報を利用して、ターゲットタスクをより良く学習できると仮定し、必要な対象タスクトレーニングサンプルの数を減らす。 直感的には,タスクトレーニングデータサイズを対象とする場合が多いことから,トランスファー学習を行わない同じモデルと比較して,シーケンシャルトランスファー学習の効果は最小限に抑えられている。 以上の結果から,この予期せぬ結果は,破滅的な忘れ込みによる影響によるものと考えられた。

Transfer learning is an exciting area of Natural Language Processing that has the potential to both improve model performance and increase data efficiency. This study explores the effects of varying quantities of target task training data on sequential transfer learning in the dialog domain. We hypothesize that a model can utilize the information learned from a source task to better learn a target task, thereby reducing the number of target task training samples required. Unintuitively, our data shows that often target task training data size has minimal effect on how sequential transfer learning performs compared to the same model without transfer learning. Our results lead us to believe that this unexpected result could be due to the effects of catastrophic forgetting, motivating further work into methods that prevent such forgetting.
翻訳日:2022-10-24 14:34:38 公開日:2022-10-21
# translist: トランスフォーマーベースの言語的インフォームドサンスクリットトークン化器

TransLIST: A Transformer-Based Linguistically Informed Sanskrit Tokenizer ( http://arxiv.org/abs/2210.11753v1 )

ライセンス: Link先を確認
Jivnesh Sandhan, Rathin Singha, Narein Rao, Suvendu Samanta, Laxmidhar Behera and Pawan Goyal(参考訳) Sanskrit Word Segmentation (SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに必要である。 しかし、単語境界における文字を修飾し、特別な処理を必要とするサンディー現象のため、これは非自明である。 既存のレキシコン駆動によるswsのアプローチでは、レキシコン駆動の浅いパーサであるsanskrit heritage readerを使用して、最も有効なソリューションを生成するために様々な方法が適用される完全な候補解空間を生成する。 しかし、これらのアプローチは語彙外トークンに遭遇しながら失敗する。 一方、SWSの純粋に工学的な手法は、近年のディープラーニングの進歩を生かしているが、可用性に関する潜在語情報を利用することはできない。 To mitigate the shortcomings of both families of approaches, we propose Transformer based Linguistically Informed Sanskrit Tokenizer (TransLIST) consisting of (1) a module that encodes the character input along with latent-word information, which takes into account the sandhi phenomenon specific to SWS and is apt to work with partial or no candidate solutions, (2) a novel soft-masked attention to prioritize potential candidate words and (3) a novel path ranking algorithm to rectify the corrupted predictions. swsのベンチマークデータセットに関する実験では、translistが現在の最先端システムよりも平均7.2ポイントの完全なマッチ(pm)メトリックで絶対ゲインを上回っていることが示されている。 コードベースとデータセットはhttps://github.com/rsingha108/TransLISTで公開されている。

Sanskrit Word Segmentation (SWS) is essential in making digitized texts available and in deploying downstream tasks. It is, however, non-trivial because of the sandhi phenomenon that modifies the characters at the word boundaries, and needs special treatment. Existing lexicon driven approaches for SWS make use of Sanskrit Heritage Reader, a lexicon-driven shallow parser, to generate the complete candidate solution space, over which various methods are applied to produce the most valid solution. However, these approaches fail while encountering out-of-vocabulary tokens. On the other hand, purely engineering methods for SWS have made use of recent advances in deep learning, but cannot make use of the latent word information on availability. To mitigate the shortcomings of both families of approaches, we propose Transformer based Linguistically Informed Sanskrit Tokenizer (TransLIST) consisting of (1) a module that encodes the character input along with latent-word information, which takes into account the sandhi phenomenon specific to SWS and is apt to work with partial or no candidate solutions, (2) a novel soft-masked attention to prioritize potential candidate words and (3) a novel path ranking algorithm to rectify the corrupted predictions. Experiments on the benchmark datasets for SWS show that TransLIST outperforms the current state-of-the-art system by an average 7.2 points absolute gain in terms of perfect match (PM) metric. The codebase and datasets are publicly available at https://github.com/rsingha108/TransLIST
翻訳日:2022-10-24 14:34:26 公開日:2022-10-21
# ケープタウン大学のWMT22システム:南アフリカ語への多言語機械翻訳

University of Cape Town's WMT22 System: Multilingual Machine Translation for Southern African Languages ( http://arxiv.org/abs/2210.11757v1 )

ライセンス: Link先を確認
Khalid N. Elmadani, Francois Meyer, Jan Buys(参考訳) この論文は、ケープタウン大学のwmt22共有タスクの制約付きトラックへの提案について記述している。 我々のシステムは、英語と8つの南/南アフリカの言語、およびアフリカの言語の特定のペア間で翻訳される単一の多言語翻訳モデルである。 低リソース機械翻訳(MT)に適した手法として,重なり合うBPE,バックトランスレーション,合成トレーニングデータ生成,トレーニング中の翻訳方向の追加などを用いた。 以上の結果から,特にバイリンガル学習データがほとんど,あるいは全くない方向において,これらの手法の価値が示された。

The paper describes the University of Cape Town's submission to the constrained track of the WMT22 Shared Task: Large-Scale Machine Translation Evaluation for African Languages. Our system is a single multilingual translation model that translates between English and 8 South / South East African Languages, as well as between specific pairs of the African languages. We used several techniques suited for low-resource machine translation (MT), including overlap BPE, back-translation, synthetic training data generation, and adding more translation directions during training. Our results show the value of these techniques, especially for directions where very little or no bilingual training data is available.
翻訳日:2022-10-24 14:34:03 公開日:2022-10-21
# ブラインド多項式回帰

Blind Polynomial Regression ( http://arxiv.org/abs/2210.11874v1 )

ライセンス: Link先を確認
Alberto Natali and Geert Leus(参考訳) 多項式を観測データに当てはめることは、補間や予測のような多くの信号処理や機械学習タスクにおいてユビキタスなタスクである。 その文脈では、入力と出力のペアが利用可能であり、ゴールは多項式の係数を見つけることである。 しかし、多くの応用において、入力は部分的には知られ、全く知られておらず、従来の回帰アプローチは適用されない。 本稿では,(潜在的に部分的な)ブラインド回帰問題を形式的に定式化し,その理論的性質を説明するとともに,その解法を提案する。 ケーススタディとして,提案手法をジッタ補正問題に適用し,その性能を検証した。

Fitting a polynomial to observed data is an ubiquitous task in many signal processing and machine learning tasks, such as interpolation and prediction. In that context, input and output pairs are available and the goal is to find the coefficients of the polynomial. However, in many applications, the input may be partially known or not known at all, rendering conventional regression approaches not applicable. In this paper, we formally state the (potentially partial) blind regression problem, illustrate some of its theoretical properties, and propose algorithmic approaches to solve it. As a case-study, we apply our methods to a jitter-correction problem and corroborate its performance.
翻訳日:2022-10-24 14:27:23 公開日:2022-10-21
# RKHMでの学習:カーネルマシンのための$C^*$-代数的ツイスト

Learning in RKHM: a $C^*$-Algebraic Twist for Kernel Machines ( http://arxiv.org/abs/2210.11855v1 )

ライセンス: Link先を確認
Yuka Hashimoto, Masahiro Ikeda, and Hachem Kadri(参考訳) カーネルヒルベルト空間(RKHS)とベクトル値RKHS(vvRKHS)の再現学習は30年以上にわたって研究されてきた。 本稿では、RKHSとvvRKHSの教師付き学習をカーネルHilbert $C^*$-module (RKHM)に一般化することで、このリッチな文献に新たなひねりを与えるとともに、$C^*$-algebraの観点から、有効正定値カーネルを構築する方法を示す。 RKHS や vvRKHS とは異なり、表現空間を拡大するために$C^*$-代数を使うことができる。 これにより、RKHS、vvRKHS、畳み込みニューラルネットワークのような既存の手法を超える表現力を持つRKHMを構築することができる。 私たちのフレームワークは、例えば、フーリエ成分の相互作用を許容することにより、画像データを効果的に分析するのに適しています。

Supervised learning in reproducing kernel Hilbert space (RKHS) and vector-valued RKHS (vvRKHS) has been investigated for more than 30 years. In this paper, we provide a new twist to this rich literature by generalizing supervised learning in RKHS and vvRKHS to reproducing kernel Hilbert $C^*$-module (RKHM), and show how to construct effective positive-definite kernels by considering the perspective of $C^*$-algebra. Unlike the cases of RKHS and vvRKHS, we can use $C^*$-algebras to enlarge representation spaces. This enables us to construct RKHMs whose representation power goes beyond RKHSs, vvRKHSs, and existing methods such as convolutional neural networks. Our framework is suitable, for example, for effectively analyzing image data by allowing the interaction of Fourier components.
翻訳日:2022-10-24 14:19:33 公開日:2022-10-21
# バリア・ハミルトン・モンテカルロ

Barrier Hamiltonian Monte Carlo ( http://arxiv.org/abs/2210.11925v1 )

ライセンス: Link先を確認
Maxence Noble, Valentin De Bortoli, Alain Durmus(参考訳) 本稿では,HMC のバージョンである Barrier Hamiltonian Monte Carlo (BHMC) を提案する。これはギブス分布 $\pi$ on a manifold $\mathsf{M}$ のサンプリングを目的としたもので,ヘッセン計量 $\mathfrak{g}$ は自己調和障壁から導出される。 リーマン多様体 hmc と同様に、この方法は $\mathfrak{g}$ からなるハミルトン力学に依存する。 これは$\mathsf{M}$を定義する制約を組み込んでおり、従ってその基礎となる幾何学を活用できる。 最初に c-BHMC (continuous BHMC) を導入し、ハミルトン力学を正確に積分できると仮定し、それが$\pi$が不変なマルコフ連鎖を生成することを示す。 第二に、「逆積分チェック」とハミルトン力学の数値積分器を含む受け入れフィルタを組み合わせたメトロポリス・ハスティングス・アルゴリズムであるn-BHMC (numerical BHMC) を設計する。 我々の主な結果は n-BHMC が $\pi$ に対して可逆マルコフ連鎖を生成することを証明している。 これは、hmc法をリーマン多様体に拡張する既存のアルゴリズムとは対照的であり、漸近バイアスを扱わない。 この結論は,ポリトープ上で定義される対象分布を考える数値実験によって裏付けられている。

In this paper, we propose Barrier Hamiltonian Monte Carlo (BHMC), a version of HMC which aims at sampling from a Gibbs distribution $\pi$ on a manifold $\mathsf{M}$, endowed with a Hessian metric $\mathfrak{g}$ derived from a self-concordant barrier. Like Riemannian Manifold HMC, our method relies on Hamiltonian dynamics which comprise $\mathfrak{g}$. It incorporates the constraints defining $\mathsf{M}$ and is therefore able to exploit its underlying geometry. We first introduce c-BHMC (continuous BHMC), for which we assume that the Hamiltonian dynamics can be integrated exactly, and show that it generates a Markov chain for which $\pi$ is invariant. Secondly, we design n-BHMC (numerical BHMC), a Metropolis-Hastings algorithm which combines an acceptance filter including a "reverse integration check" and numerical integrators of the Hamiltonian dynamics. Our main results establish that n-BHMC generates a reversible Markov chain with respect to $\pi$. This is in contrast to existing algorithms which extend the HMC method to Riemannian manifolds, as they do not deal with asymptotic bias. Our conclusions are supported by numerical experiments where we consider target distributions defined on polytopes.
翻訳日:2022-10-24 14:19:15 公開日:2022-10-21
# ハイパーグラフのためのOllivier-Ricci曲率:統一フレームワーク

Ollivier-Ricci Curvature for Hypergraphs: A Unified Framework ( http://arxiv.org/abs/2210.12048v1 )

ライセンス: Link先を確認
Corinna Coupette and Sebastian Dalleiger and Bastian Rieck(参考訳) 幾何学とトポロジーを橋渡しすると、曲率は強力で表現力に富む不変量である。 曲率の効用は、多様体やグラフの文脈で理論的かつ経験的に確認されているが、ハイパーグラフの新しい領域への一般化は、ほとんど探索されていない。 グラフ上では、Ollivier-Ricci曲率(英語版)はワッサーシュタイン距離を通したランダムウォークの違いを測り、確率と最適輸送からアイデアの幾何学的概念を基礎づける。 我々は,ollivier-ricci曲率をハイパーグラフに一般化する柔軟な枠組みであるorchidを開発した。 異なる領域からの合成および実世界のハイパーグラフに関する広範な実験を通じて、ORCHIDの曲率がスケーラブルかつ有用であることを示し、実際に様々なハイパーグラフタスクを実行する。

Bridging geometry and topology, curvature is a powerful and expressive invariant. While the utility of curvature has been theoretically and empirically confirmed in the context of manifolds and graphs, its generalization to the emerging domain of hypergraphs has remained largely unexplored. On graphs, Ollivier-Ricci curvature measures differences between random walks via Wasserstein distances, thus grounding a geometric concept in ideas from probability and optimal transport. We develop ORCHID, a flexible framework generalizing Ollivier-Ricci curvature to hypergraphs, and prove that the resulting curvatures have favorable theoretical properties. Through extensive experiments on synthetic and real-world hypergraphs from different domains, we demonstrate that ORCHID curvatures are both scalable and useful to perform a variety of hypergraph tasks in practice.
翻訳日:2022-10-24 14:18:52 公開日:2022-10-21
# 高次元一般化線形モデルに対する非漸近的モロー包絡理論

A Non-Asymptotic Moreau Envelope Theory for High-Dimensional Generalized Linear Models ( http://arxiv.org/abs/2210.12082v1 )

ライセンス: Link先を確認
Lijia Zhou and Frederic Koehler and Pragya Sur and Danica J. Sutherland and Nathan Srebro(参考訳) ガウス空間の任意の種類の線型予測器、クラスのラデマッハ複雑性および任意の連続損失$\ell$の下でのトレーニング誤差を示す新しい一般化境界を証明し、損失$\ell$のモローエンベロープの全てのテスト誤差を制御することができる。 有限サンプル境界を用いてZhou et al. (2021) の「最適化率」を2乗損失を伴う線形回帰を直接回収するが、これは最小$$\ell_2$-norm補間に対してきついことが知られているが、ラベルが潜在的に不特定な多重インデックスモデルによって生成されるようなより一般的な設定も扱う。 同じ議論は、正方形ヒンジ損失によるmax-margin分類器のノイズ補間を解析し、スパイク共分散設定で一貫性を確立できる。 より一般に、損失がリプシッツであると仮定すると、我々の境界は、タラグランのよく知られた収縮補題を2倍に効果的に改善し、すべての滑らかで非負の損失に対する補間子(koehler et al. 2021)の一様収束を証明する。 最後に、局所ガウス幅を用いた一般化の適用は、一般に経験的リスク最小化に対して鋭くなり、比例スケーリング規則外に適用可能な一般化のための非漸近モローエンベロープ理論を確立し、モデルの不特定を扱い、M推定のための既存の漸近モローエンベロープ理論を補完することを示す。

We prove a new generalization bound that shows for any class of linear predictors in Gaussian space, the Rademacher complexity of the class and the training error under any continuous loss $\ell$ can control the test error under all Moreau envelopes of the loss $\ell$. We use our finite-sample bound to directly recover the "optimistic rate" of Zhou et al. (2021) for linear regression with the square loss, which is known to be tight for minimal $\ell_2$-norm interpolation, but we also handle more general settings where the label is generated by a potentially misspecified multi-index model. The same argument can analyze noisy interpolation of max-margin classifiers through the squared hinge loss, and establishes consistency results in spiked-covariance settings. More generally, when the loss is only assumed to be Lipschitz, our bound effectively improves Talagrand's well-known contraction lemma by a factor of two, and we prove uniform convergence of interpolators (Koehler et al. 2021) for all smooth, non-negative losses. Finally, we show that application of our generalization bound using localized Gaussian width will generally be sharp for empirical risk minimizers, establishing a non-asymptotic Moreau envelope theory for generalization that applies outside of proportional scaling regimes, handles model misspecification, and complements existing asymptotic Moreau envelope theories for M-estimation.
翻訳日:2022-10-24 14:18:34 公開日:2022-10-21
# 病理組織学における文脈に基づくセマンティックセグメンテーションのためのメモリアテンションフレームワーク

Valuing Vicinity: Memory attention framework for context-based semantic segmentation in histopathology ( http://arxiv.org/abs/2210.11822v1 )

ライセンス: Link先を確認
Oliver Ester, Fabian H\"orst, Constantin Seibold, Julius Keyl, Saskia Ting, Nikolaos Vasileiadis, Jessica Schmitz, Philipp Ivanyi, Viktor Gr\"unwald, Jan Hinrich Br\"asen, Jan Egger, Jens Kleesiek(参考訳) 組織像の組織像を腫瘍および非腫瘍組織に分割することは,局所的およびグローバルな空間的文脈から腫瘍領域を正確に分類することを必要とする課題である。 腫瘍組織のサブタイプを同定することは,分離の鋭さが減少し,病理医の推理が空間的文脈によってさらに導かれるため,問題を複雑にする。 しかし, パーソナライズされたがん治療のためには, 詳細な組織型の同定が重要である。 スライド画像全体の高解像度化のため、孤立した画像セクションに制限された既存のセマンティックセグメンテーション手法は、コンテキスト情報を処理できない。 より良いコンテキスト理解に向けた一歩を踏み出すため,我々は,パッチ埋め込みメモリバンクから隣接組織コンテキストを照会し,ボトルネック隠し機能マップにコンテキスト埋め込みを注入するパッチ近傍注意機構を提案する。 私たちのメモリアテンションフレームワーク(MAF)は、病理医のアノテーション手順を模倣します。 このフレームワークは任意のエンコーダ/デコーダセグメンテーションメソッドに統合できる。 我々は,公共乳癌と内腎癌データセットのMAFを有名なセグメンテーションモデル(U-Net, DeeplabV3)を用いて評価し,他の文脈統合アルゴリズムよりも優れていることを示す。 コードは、https://github.com/tio-ikim/valuing-vicinity.comで公開されている。

The segmentation of histopathological whole slide images into tumourous and non-tumourous types of tissue is a challenging task that requires the consideration of both local and global spatial contexts to classify tumourous regions precisely. The identification of subtypes of tumour tissue complicates the issue as the sharpness of separation decreases and the pathologist's reasoning is even more guided by spatial context. However, the identification of detailed types of tissue is crucial for providing personalized cancer therapies. Due to the high resolution of whole slide images, existing semantic segmentation methods, restricted to isolated image sections, are incapable of processing context information beyond. To take a step towards better context comprehension, we propose a patch neighbour attention mechanism to query the neighbouring tissue context from a patch embedding memory bank and infuse context embeddings into bottleneck hidden feature maps. Our memory attention framework (MAF) mimics a pathologist's annotation procedure -- zooming out and considering surrounding tissue context. The framework can be integrated into any encoder-decoder segmentation method. We evaluate the MAF on a public breast cancer and an internal kidney cancer data set using famous segmentation models (U-Net, DeeplabV3) and demonstrate the superiority over other context-integrating algorithms -- achieving a substantial improvement of up to $17\%$ on Dice score. The code is publicly available at: https://github.com/tio-ikim/valuing-vicinity
翻訳日:2022-10-24 14:17:45 公開日:2022-10-21
# 画像検索のための強調視覚変換器

Boosting vision transformers for image retrieval ( http://arxiv.org/abs/2210.11909v1 )

ライセンス: Link先を確認
Chull Hwan Song, Jooyoung Yoon, Shunghyun Choi and Yannis Avrithis(参考訳) 視覚トランスフォーマーは、画像分類や検出などの視覚タスクにおいて著しく進歩した。 しかし、インスタンスレベルの画像検索では、畳み込みネットワークに比べてトランスフォーマーのパフォーマンスが良くない。 本稿では,トランスフォーマーがアートの状態を初めて上回るような改良をいくつか提案する。 1) ハイブリッドアーキテクチャは, 普通の変圧器よりも大きなマージンで効果的であることを示す。 2)グローバルな(分類トークン)とローカルな(パッチトークン)情報を収集する2つのブランチを導入し,そこからグローバルなイメージ表現を形成する。 (3) 各分岐において, トランスエンコーダから複数層の特徴を収集し, 遠隔層間の接続をスキップする。 (4) 視覚変換器の相対的弱みであるエンコーダの深い層における相互作用の局所性を高める。 私たちは、一般的なトレーニングセットすべてでモデルをトレーニングし、トレーニングセットごとに個別に公正な比較を初めて行います。 いずれの場合も、グローバル表現に基づく過去のモデルよりも優れています。 公開コードはhttps://github.com/dealicious-inc/dtopで入手できる。

Vision transformers have achieved remarkable progress in vision tasks such as image classification and detection. However, in instance-level image retrieval, transformers have not yet shown good performance compared to convolutional networks. We propose a number of improvements that make transformers outperform the state of the art for the first time. (1) We show that a hybrid architecture is more effective than plain transformers, by a large margin. (2) We introduce two branches collecting global (classification token) and local (patch tokens) information, from which we form a global image representation. (3) In each branch, we collect multi-layer features from the transformer encoder, corresponding to skip connections across distant layers. (4) We enhance locality of interactions at the deeper layers of the encoder, which is the relative weakness of vision transformers. We train our model on all commonly used training sets and, for the first time, we make fair comparisons separately per training set. In all cases, we outperform previous models based on global representation. Public code is available at https://github.com/dealicious-inc/DToP.
翻訳日:2022-10-24 14:17:20 公開日:2022-10-21
# 拡散モデルを用いたマルチタスク脳腫瘍の1例

Multitask Brain Tumor Inpainting with Diffusion Models: A Methodological Report ( http://arxiv.org/abs/2210.12113v1 )

ライセンス: Link先を確認
Pouria Rouzrokh, Bardia Khosravi, Shahriar Faghani, Mana Moassefi, Sanaz Vahdati, Bradley J. Erickson(参考訳) 医学画像に深層学習(DL)モデルを適用することへの関心はますます高まっているが、医学データセットの典型的不足と不均衡は、DLモデルの性能に深刻な影響を及ぼす可能性がある。 患者プライバシを損なうことなく自由に共有できる合成データの生成は、これらの困難に対処するためのよく知られたテクニックである。 InpaintingアルゴリズムはDL生成モデルのサブセットであり、入力画像の1つまたは複数の領域を周囲のコンテキストにマッチさせ、場合によっては非イメージ入力条件を変更できる。 医用画像データの塗装技術の多くはGAN(Generative Adversarial Network)を用いているが、これらのアルゴリズムの性能は限られた出力の多様性のため、しばしば準最適である。 denoising diffusion probabilistic models (ddpms) はgansと同等の品質を生成できるが、様々な出力を持つ生成ネットワークの一群である。 本稿では,脳mriの2次元軸スライスに対して,様々なシーケンスで複数のインペインティングタスクを実行するddpmについて述べるとともに,様々な評価シナリオにおいてその性能の実証例を示す。 私たちのモデルと試すためのオンラインインターフェースは、https://github.com/mayo-radiology-informatics-lab/mbtiで利用可能です。

Despite the ever-increasing interest in applying deep learning (DL) models to medical imaging, the typical scarcity and imbalance of medical datasets can severely impact the performance of DL models. The generation of synthetic data that might be freely shared without compromising patient privacy is a well-known technique for addressing these difficulties. Inpainting algorithms are a subset of DL generative models that can alter one or more regions of an input image while matching its surrounding context and, in certain cases, non-imaging input conditions. Although the majority of inpainting techniques for medical imaging data use generative adversarial networks (GANs), the performance of these algorithms is frequently suboptimal due to their limited output variety, a problem that is already well-known for GANs. Denoising diffusion probabilistic models (DDPMs) are a recently introduced family of generative networks that can generate results of comparable quality to GANs, but with diverse outputs. In this paper, we describe a DDPM to execute multiple inpainting tasks on 2D axial slices of brain MRI with various sequences, and present proof-of-concept examples of its performance in a variety of evaluation scenarios. Our model and a public online interface to try our tool are available at: https://github.com/Mayo-Radiology-Informatics-Lab/MBTI
翻訳日:2022-10-24 14:16:45 公開日:2022-10-21
# crt-6d:逐次改良トランスを用いた高速6次元物体ポーズ推定

CRT-6D: Fast 6D Object Pose Estimation with Cascaded Refinement Transformers ( http://arxiv.org/abs/2210.11718v1 )

ライセンス: Link先を確認
Pedro Castro and Tae-Kyun Kim(参考訳) 学習に基づく6次元オブジェクトポーズ推定手法は、大きな中間ポーズ表現の計算と、遅いレンダリングコンプリートパイプラインによる初期推定の反復的洗練に依存している。 本稿ではCRT-6D(Cascaded Pose Refinement Transformers)と呼ぶ新しい手法を提案する。 各要素がオブジェクトキーポイントに対応するoskfs(object surface keypoint features)と呼ばれる機能ピラミッドからサンプリングしたスパースな機能セットに、一般的に使用される高密度中間表現を置き換えます。 我々は軽量な変形可能な変圧器を用いて、サンプルOSKF上で提案されたポーズを反復的に洗練する。 1つのモデルで最大21オブジェクトをサポートしながら、最も近いartメソッドのリアルタイム状態よりも2倍早く推論ランタイムを実現する。 LM-OおよびYCBVデータセットの広範な実験を行うことにより,CRT-6Dの有効性を示す。 実時間法と比較して, LM-O と YCB-V の手法は, 推定ランタイムが 1 桁高い手法よりわずかに遅れている。 ソースコードはhttps://github.com/pedrocastro/crt-6d

Learning based 6D object pose estimation methods rely on computing large intermediate pose representations and/or iteratively refining an initial estimation with a slow render-compare pipeline. This paper introduces a novel method we call Cascaded Pose Refinement Transformers, or CRT-6D. We replace the commonly used dense intermediate representation with a sparse set of features sampled from the feature pyramid we call OSKFs(Object Surface Keypoint Features) where each element corresponds to an object keypoint. We employ lightweight deformable transformers and chain them together to iteratively refine proposed poses over the sampled OSKFs. We achieve inference runtimes 2x faster than the closest real-time state of the art methods while supporting up to 21 objects on a single model. We demonstrate the effectiveness of CRT-6D by performing extensive experiments on the LM-O and YCBV datasets. Compared to real-time methods, we achieve state of the art on LM-O and YCB-V, falling slightly behind methods with inference runtimes one order of magnitude higher. The source code is available at: https://github.com/PedroCastro/CRT-6D
翻訳日:2022-10-24 14:10:08 公開日:2022-10-21
# 衛星画像における自己教師付き事前訓練:ラベル効率のよい車両検出を事例として

Self-Supervised Pretraining on Satellite Imagery: a Case Study on Label-Efficient Vehicle Detection ( http://arxiv.org/abs/2210.11815v1 )

ライセンス: Link先を確認
Jules BOURCIER (Thoth), Thomas Floquet, Gohar Dashyan, Tugdual Ceillier, Karteek Alahari (Thoth), Jocelyn Chanussot (Thoth)(参考訳) 衛星画像上の車両検出のような防衛関連リモートセンシングアプリケーションでは、教師付き学習は運用性能を達成するために大量のラベル付きサンプルを必要とする。 このようなデータは軍事専門家を必要とするため入手が困難であり、観測可能なものは本質的に稀である。 この限定的なラベリング能力と、センサーの数の増加によって利用可能なラベルなし画像の数が増加することにより、リモートセンシングイメージの物体検出は、自己教師あり学習に非常に関連している。 超高解像度光衛星画像における物体検出のためのドメイン内自己教師表現学習について検討した。 本研究は,本課題におけるラベル効率の問題について初めて考察する。 我々は,世界の大規模土地利用分類データセット機能マップを用いて,運動量コントラストフレームワークの拡張による表現の事前学習を行う。 次に,このモデルの移動性について,戦略サイト監視の運用事例を代表して設計されたpreligensのプロプライエタリデータにおける細粒度車両検出と分類に関する実世界の課題について検討する。 我々は、ドメイン内自己教師型学習モデルが、ImageNet事前学習と競合していることを示し、低ラベル方式でそれを上回る性能を示す。

In defense-related remote sensing applications, such as vehicle detection on satellite imagery, supervised learning requires a huge number of labeled examples to reach operational performances. Such data are challenging to obtain as it requires military experts, and some observables are intrinsically rare. This limited labeling capability, as well as the large number of unlabeled images available due to the growing number of sensors, make object detection on remote sensing imagery highly relevant for self-supervised learning. We study in-domain self-supervised representation learning for object detection on very high resolution optical satellite imagery, that is yet poorly explored. For the first time to our knowledge, we study the problem of label efficiency on this task. We use the large land use classification dataset Functional Map of the World to pretrain representations with an extension of the Momentum Contrast framework. We then investigate this model's transferability on a real-world task of fine-grained vehicle detection and classification on Preligens proprietary data, which is designed to be representative of an operational use case of strategic site surveillance. We show that our in-domain self-supervised learning model is competitive with ImageNet pretraining, and outperforms it in the low-label regime.
翻訳日:2022-10-24 14:09:49 公開日:2022-10-21
# 拡散視覚相反説明

Diffusion Visual Counterfactual Explanations ( http://arxiv.org/abs/2210.11841v1 )

ライセンス: Link先を確認
Maximilian Augustin, Valentyn Boreiko, Francesco Croce, Matthias Hein(参考訳) VCE(Visual Counterfactual Explanations)は、画像分類器の決定を理解するための重要なツールである。 これらは、分類器の決定を変える画像の「小さい」が「現実的な」意味的変化である。 VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限され、しばしば非現実的アーティファクトを含むか、少数のクラスを持つ画像分類の問題に制限される。 本稿では,拡散処理により任意の画像ネット分類器に対してDVCE(Diffusion Visual Counterfactual Explanations)を生成することで,この問題を克服する。 第一に、ハイパーパラメータが画像やモデル全体に一般化する適応パラメータ化と、距離正規化と拡散プロセスの遅延開始により、元のパラメータに最小限の意味的変化しか与えない画像を生成することができる。 第二に、逆ロバストモデルによるコーン正則化により、拡散過程が自明な非意味的な変化に収束しないことを保証し、代わりに、分類器によって高い信頼を得るターゲットクラスの現実的なイメージを生成する。

Visual Counterfactual Explanations (VCEs) are an important tool to understand the decisions of an image classifier. They are 'small' but 'realistic' semantic changes of the image changing the classifier decision. Current approaches for the generation of VCEs are restricted to adversarially robust models and often contain non-realistic artefacts, or are limited to image classification problems with few classes. In this paper, we overcome this by generating Diffusion Visual Counterfactual Explanations (DVCEs) for arbitrary ImageNet classifiers via a diffusion process. Two modifications to the diffusion process are key for our DVCEs: first, an adaptive parameterization, whose hyperparameters generalize across images and models, together with distance regularization and late start of the diffusion process, allow us to generate images with minimal semantic changes to the original ones but different classification. Second, our cone regularization via an adversarially robust model ensures that the diffusion process does not converge to trivial non-semantic changes, but instead produces realistic images of the target class which achieve high confidence by the classifier.
翻訳日:2022-10-24 14:09:28 公開日:2022-10-21
# ニューロシンボリック因果推論は、創発的セマンティックコミュニケーションのためのシグナルゲームと出会う

Neuro-Symbolic Causal Reasoning Meets Signaling Game for Emergent Semantic Communications ( http://arxiv.org/abs/2210.12040v1 )

ライセンス: Link先を確認
Christo Kurisummoottil Thomas and Walid Saad(参考訳) セマンティックコミュニケーション(sc)は、異種サービスとユーザとのシームレスな接続を提供すると同時に、最小限のデータ転送で確実に通信することを目的としている。 本稿では,創発的言語設計のためのシグナリングゲームと,因果推論のためのニューロシンボリック(nesy)人工知能(ai)アプローチからなる,新しい創発的sc(esc)システムフレームワークを提案する。 言語を設計するために、通信ノードのユーティリティ間の交互最大化を用いて、シグナリングゲームを解決する。 創発的な言語は、コンテキスト対応の送信語彙(最小の意味表現)の作成を支援し、複雑なメッセージをより単純な推論タスクに分割することで、推論プロセス(未知のシナリオに一般化を促す)を支援する。 次に、送信機における因果記述を、データに存在する関連する属性の後方分布として(神経成分)モデル化する。 再構成された因果状態を用いて、受信者は一連の論理式(シンボル部分)を評価してタスクを実行する。 ノードnesy推論コンポーネントは、最近提案された生成フローネットワークと呼ばれるaiツールによって実装され、高いセマンティクス信頼性のために最適化されている。 ESCシステムは、カテゴリー理論から厳密な代数的性質を用いて設計された意味情報、信頼性、歪み、類似性の新たなメトリクスを強化するために設計されており、その結果、シャノンの不確実性の概念を超えたメトリクスを一般化する。 シミュレーションの結果、ESCが効率よく(ビットを減らして)通信でき、因果推論能力を利用していない従来の無線システムや最先端システムよりもセマンティックな信頼性が得られることが検証された。

Semantic communication (SC) aims to communicate reliably with minimal data transfer while simultaneously providing seamless connectivity to heterogeneous services and users. In this paper, a novel emergent SC (ESC) system framework is proposed and is composed of a signaling game for emergent language design and a neuro-symbolic (NeSy) artificial intelligence (AI) approach for causal reasoning. In order to design the language, the signaling game is solved using an alternating maximization between the communicating node's utilities. The emergent language helps create a context-aware transmit vocabulary (minimal semantic representation) and aids the reasoning process (enabling generalization to unseen scenarios) by splitting complex messages into simpler reasoning tasks for the receiver. The causal description at the transmitter is then modeled (a neural component) as a posterior distribution of the relevant attributes present in the data. Using the reconstructed causal state, the receiver evaluates a set of logical formulas (symbolic part) to execute its task. The nodes NeSy reasoning components are implemented by the recently proposed AI tool called Generative Flow Networks, and they are optimized for higher semantic reliability. The ESC system is designed to enhance the novel metrics of semantic information, reliability, distortion and similarity that are designed using rigorous algebraic properties from category theory thereby generalizing the metrics beyond Shannon's notion of uncertainty. Simulation results validate the ability of ESC to communicate efficiently (with reduced bits) and achieve better semantic reliability than conventional wireless and state-of-the-art systems that do not exploit causal reasoning capabilities.
翻訳日:2022-10-24 14:09:08 公開日:2022-10-21
# PaCo:パラメータ合成多タスク強化学習

PaCo: Parameter-Compositional Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2210.11653v1 )

ライセンス: Link先を確認
Lingfeng Sun, Haichao Zhang, Wei Xu, Masayoshi Tomizuka(参考訳) マルチタスク強化学習(MTRL)の目的は、一連の異なるタスクに適用可能な単一のポリシーを訓練することである。 パラメータを共有することで、タスク間の類似性を活用できます。 しかし、異なるタスクの内容と難易度の間のギャップは、どのタスクがパラメータを共有するべきか、どのパラメータを共有するべきか、そしてパラメータ共有による最適化の課題の両方に課題をもたらす。 本研究では,これらの課題に対処するためのパラメータ合成アプローチ(PaCo)を提案する。 このフレームワークでは、パラメータの集合で表されるポリシーサブスペースが学習される。 すべての単一タスクに対するポリシーはこの部分空間にあり、学習された集合と補間することで構成できる。 柔軟なパラメータ共有だけでなく、トレーニングを改善する自然な方法も可能にする。 メタワールドベンチマークの最先端性能を実証し,提案手法の有効性を検証する。

The purpose of multi-task reinforcement learning (MTRL) is to train a single policy that can be applied to a set of different tasks. Sharing parameters allows us to take advantage of the similarities among tasks. However, the gaps between contents and difficulties of different tasks bring us challenges on both which tasks should share the parameters and what parameters should be shared, as well as the optimization challenges due to parameter sharing. In this work, we introduce a parameter-compositional approach (PaCo) as an attempt to address these challenges. In this framework, a policy subspace represented by a set of parameters is learned. Policies for all the single tasks lie in this subspace and can be composed by interpolating with the learned set. It allows not only flexible parameter sharing but also a natural way to improve training. We demonstrate the state-of-the-art performance on Meta-World benchmarks, verifying the effectiveness of the proposed approach.
翻訳日:2022-10-24 14:08:38 公開日:2022-10-21
# MnEdgeNet -- 参照と校正なしにMn XASおよびEELS L2,3エッジの混合酸化状態の正確な分解

MnEdgeNet -- Accurate Decomposition of Mixed Oxidation States for Mn XAS and EELS L2,3 Edges without Reference and Calibration ( http://arxiv.org/abs/2210.11657v1 )

ライセンス: Link先を確認
Huolin L. Xin and Mike Hu(参考訳) 混合Mn酸化状態の正確な分解は、Mnを含む電子、電気触媒、エネルギー貯蔵材料のための電子構造、電荷移動、レドックス中心を特徴づけるために非常に重要である。 Mn L2,3エッジの電子エネルギー損失分光(EELS)および軟X線吸収分光(XAS)測定がこの目的のために広く用いられている。 現在, Mn L2,3エッジの測定は, 試料が適切に調製されているため容易であるが, Mnの混合価状態の正確な分解は容易ではない。 EELSとXASの両方では、2+, 3+, 4+の基準スペクトルを同じ計器/ビームラインで、好ましくは測定器の分解能とエネルギー軸のオフセットが異なるため、同じ実験セッションで撮影する必要がある。 このハードルを回避するため,我々は深層学習手法を採用し,EELSとXASの双方に対してMn L2,3エッジの酸化状態を分解するキャリブレーションフリーで参照フリーな手法を開発した。 物理モデルと接地ラベル付きトレーニングデータセットを合成するために,複数の散乱,計測広化,雑音,エネルギー軸オフセットを考慮したフォワードモデルを構築した。 そこで我々は3要素酸化状態ラベル付き120万スペクトルデータベースを作成した。 ライブラリには、EELSとXASスペクトルの両方を含む十分な多様なデータが含まれている。 この大規模データベース上でトレーニングすることで、畳み込みニューラルネットワークは、検証データセット上で85%の精度を達成します。 このモデルを検証したところ、ノイズ(PSNRが10まで)と多重散乱(t/{\lambda} = 1)に対して頑健であることが判明した。 さらに、トレーニングに使用しなかったスペクトルデータに対してモデルを検証した。

Accurate decomposition of the mixed Mn oxidation states is highly important for characterizing the electronic structures, charge transfer, and redox centers for electronic, electrocatalytic, and energy storage materials that contain Mn. Electron energy loss spectroscopy (EELS) and soft X-ray absorption spectroscopy (XAS) measurements of the Mn L2,3 edges are widely used for this purpose. To date, although the measurement of the Mn L2,3 edges is straightforward given the sample is prepared properly, an accurate decomposition of the mix valence states of Mn remains non-trivial. For both EELS and XAS, 2+, 3+, 4+ reference spectra need to be taken on the same instrument/beamline and preferably in the same experimental session because the instrumental resolution and the energy axis offset could vary from one session to another. To circumvent this hurdle, in this study, we adopted a deep learning approach and developed a calibration-free and reference-free method to decompose the oxidation state of Mn L2,3 edges for both EELS and XAS. To synthesize physics-informed and ground-truth labeled training datasets, we created a forward model that takes into account plural scattering, instrumentation broadening, noise, and energy axis offset. With that, we created a 1.2 million-spectrum database with a three-element oxidation state composition label. The library includes a sufficient variety of data including both EELS and XAS spectra. By training on this large database, our convolutional neural network achieves 85% accuracy on the validation dataset. We tested the model and found it is robust against noise (down to PSNR of 10) and plural scattering (up to t/{\lambda} = 1). We further validated the model against spectral data that were not used in training.
翻訳日:2022-10-24 14:08:26 公開日:2022-10-21
# 強化学習エージェント説明のための報酬分解と政策要約の統合

Integrating Policy Summaries with Reward Decomposition for Explaining Reinforcement Learning Agents ( http://arxiv.org/abs/2210.11825v1 )

ライセンス: Link先を確認
Yael Septon, Tobias Huber, Elisabeth Andr\'e, Ofra Amir(参考訳) 逐次的意思決定設定における強化学習エージェントの動作を説明することは、動的環境や遅延報酬の影響を受け、困難である。 このようなエージェントの振る舞いを理解するのに役立つ方法は、エージェントの特定の決定を分析するローカルな説明と、エージェントの一般的な戦略を伝えるグローバルな説明に大まかに分けることができる。 本研究では,強化学習エージェントのための局所的説明とグローバル的説明の組み合わせについて検討する。 具体的には,報酬関数のどの構成要素が特定の決定に影響を及ぼすかを明らかにする局所的説明法である報酬分解法と,決定的状態におけるエージェントの行動の要約を示すグローバル説明法であるhighlightsを組み合わせる。 これらの説明手法の統合とそのメリットを評価するために,2つのユーザ研究を行った。 その結果,両手法に有意な効果が認められた。 概して,局所報酬分解はエージェントの優先順位を特定するのにより有用であることがわかった。 しかし,エージェントの嗜好にわずかの違いしかなかった場合,HighlIGHTSが提供するグローバル情報によって参加者の理解が向上した。

Explaining the behavior of reinforcement learning agents operating in sequential decision-making settings is challenging, as their behavior is affected by a dynamic environment and delayed rewards. Methods that help users understand the behavior of such agents can roughly be divided into local explanations that analyze specific decisions of the agents and global explanations that convey the general strategy of the agents. In this work, we study a novel combination of local and global explanations for reinforcement learning agents. Specifically, we combine reward decomposition, a local explanation method that exposes which components of the reward function influenced a specific decision, and HIGHLIGHTS, a global explanation method that shows a summary of the agent's behavior in decisive states. We conducted two user studies to evaluate the integration of these explanation methods and their respective benefits. Our results show significant benefits for both methods. In general, we found that the local reward decomposition was more useful for identifying the agents' priorities. However, when there was only a minor difference between the agents' preferences, then the global information provided by HIGHLIGHTS additionally improved participants' understanding.
翻訳日:2022-10-24 14:07:57 公開日:2022-10-21
# glcc:グラフレベルのクラスタリングのための汎用フレームワーク

GLCC: A General Framework for Graph-level Clustering ( http://arxiv.org/abs/2210.11879v1 )

ライセンス: Link先を確認
Wei Ju, Yiyang Gu, Binqi Chen, Gongbo Sun, Yifang Qin, Xingyuming Liu, Xiao Luo, Ming Zhang(参考訳) 本稿では,新しい課題であるグラフレベルのクラスタリングの問題について検討する。 この問題は、タンパク質のクラスタリングやバイオインフォマティクスのゲノム解析など、様々な現実世界の応用において重要である。 近年では、ディープクラスタリングとグラフニューラルネットワーク(GNN)の併用が成功している。 しかし、既存の手法では1つのグラフが与えられたノード間のクラスタリングに重点を置いている。 本稿では,複数のグラフに対してGLCC(Graph-Level Contrastive Clustering)というグラフレベルのクラスタリングフレームワークを提案する。 具体的には、GLCCはまず適応親和性グラフを構築し、インスタンスレベルおよびクラスタレベルのコントラスト学習(CL)を探索する。 インスタンスレベルclはグラフラプラシアンベースのコントラスト損失を利用してクラスタリングフレンドリな表現を学習し、クラスタレベルclは各サンプルの隣接情報を含む識別的クラスタ表現をキャプチャする。 さらに,隣接認識型擬似ラベルを用いて表現学習の最適化に報いる。 2つのステップは、互いに協力し、利益を得られるように訓練することができる。 様々なよく知られたデータセットに対する実験は、競合するベースラインよりも提案したGLCCの方が優れていることを示す。

This paper studies the problem of graph-level clustering, which is a novel yet challenging task. This problem is critical in a variety of real-world applications such as protein clustering and genome analysis in bioinformatics. Recent years have witnessed the success of deep clustering coupled with graph neural networks (GNNs). However, existing methods focus on clustering among nodes given a single graph, while exploring clustering on multiple graphs is still under-explored. In this paper, we propose a general graph-level clustering framework named Graph-Level Contrastive Clustering (GLCC) given multiple graphs. Specifically, GLCC first constructs an adaptive affinity graph to explore instance- and cluster-level contrastive learning (CL). Instance-level CL leverages graph Laplacian based contrastive loss to learn clustering-friendly representations while cluster-level CL captures discriminative cluster representations incorporating neighbor information of each sample. Moreover, we utilize neighbor-aware pseudo-labels to reward the optimization of representation learning. The two steps can be alternatively trained to collaborate and benefit each other. Experiments on a range of well-known datasets demonstrate the superiority of our proposed GLCC over competitive baselines.
翻訳日:2022-10-24 14:07:39 公開日:2022-10-21
# brier scoreに基づくサバイバルコブラの統合 - 回帰に基づくアプローチ

Integrated Brier Score based Survival Cobra -- A regression based approach ( http://arxiv.org/abs/2210.12006v1 )

ライセンス: Link先を確認
Rahul Goswami and Arabin Kumar Dey(参考訳) 本稿では,条件付生存機能を予測するためにbrierスコアを用いた統合回帰戦略(cobra)アンサンブルの2つの新しい回帰ベース統合を提案する。 我々の提案は、全ての弱い学習者が、直接実装とは別に最終的な生存関数を予測するために行った、統合的ブライアスコアスコアに基づく全ての予測の重み付け版を含む。 2つの異なるノルム (frobenius と sup norm) はアルゴリズムの近接点を求めるのに用いられる。 私たちの実装は、右検閲データも考慮しています。 提案するアルゴリズムを実時間データ解析によって示す。

In this paper, we provide two novel regression-based integrations of combined regression strategy (COBRA) ensemble using Integrated Brier Score to predict conditional survival function. Our proposition includes a weighted version of all predictions based on Integrated Brier Score score made by all weak learners to predict the final survival function apart from the straight implementation. Two different norms (Frobenius and Sup norm) used to figure out the proximity points in the algorithm. Our implementations consider right-censored data too. We illustrate the proposed algorithms through few real-life data analysis.
翻訳日:2022-10-24 14:07:11 公開日:2022-10-21
# ネットワーク全体の交通速度推定のためのスパースセンシング:統合グラフテンソルに基づくクリグ手法

Correlating sparse sensing for network-wide traffic speed estimation: An integrated graph tensor-based kriging approach ( http://arxiv.org/abs/2210.11780v1 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Yunpeng Wang, Jian Sun(参考訳) 交通速度は道路網の流動性を特徴づける中心である。 多くの輸送アプリケーションは、リアルタイムナビゲーション、動的経路計画、混雑管理など、それに依存している。 センサと通信技術の急速な進歩は、交通速度の検出をこれまで以上に容易にする。 しかし,静的センサの配置不足や移動センサの浸透率の低下により,検出速度は不完全であり,ネットワーク全体の利用には程遠い。 さらに、センサーは様々な理由でデータの誤りや欠落を招きやすいため、これらのセンサーの速度はノイズが高くなる可能性がある。 これらの欠点は、不完全なデータから信頼できる見積もりを回収するための効果的な手法を必要とする。 本研究では,まず時空間クリグ問題としてこの問題を識別し,低ランク性および多次元相関性を備えたグラフ組込みテンソル(SGET)学習フレームワークを提案する。 具体的には、時間連続性、時間周期性、空間近接性を含む3種類の速度相関を慎重に選択する。 次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。 2つの公的な100万単位の交通速度データセットで実験を行い、最終的に結論を導き、提案したSGETは、低観測率でも最先端のクリグ性能を達成し、同時に、ベースライン法と比較して半分以上の計算時間を節約する。 ネットワークレベルでの時空間トラフィックデータのkrigingに関する洞察も提供されている。

Traffic speed is central to characterizing the fluidity of the road network. Many transportation applications rely on it, such as real-time navigation, dynamic route planning, and congestion management. Rapid advances in sensing and communication techniques make traffic speed detection easier than ever. However, due to sparse deployment of static sensors or low penetration of mobile sensors, speeds detected are incomplete and far from network-wide use. In addition, sensors are prone to error or missing data due to various kinds of reasons, speeds from these sensors can become highly noisy. These drawbacks call for effective techniques to recover credible estimates from the incomplete data. In this work, we first identify the problem as a spatiotemporal kriging problem and propose a unified graph embedded tensor (SGET) learning framework featuring both low-rankness and multi-dimensional correlations for network-wide traffic speed kriging under limited observations. To be specific, three types of speed correlation including temporal continuity, temporal periodicity, and spatial proximity are carefully chosen. We then design an efficient solution algorithm via several effective numeric techniques to scale up the proposed model to network-wide kriging. By performing experiments on two public million-level traffic speed datasets, we finally draw the conclusion and find our proposed SGET achieves the state-of-the-art kriging performance even under low observation rates, while at the same time saving more than half computing time compared with baseline methods. Some insights into spatiotemporal traffic data kriging at the network level are provided as well.
翻訳日:2022-10-24 14:01:09 公開日:2022-10-21
# fosr:gnnのオーバースクワッシングに対処するための1次スペクトルリワイリング

FoSR: First-order spectral rewiring for addressing oversquashing in GNNs ( http://arxiv.org/abs/2210.11790v1 )

ライセンス: Link先を確認
Kedar Karhadkar, Pradeep Kr. Banerjee, Guido Mont\'ufar(参考訳) グラフニューラルネットワーク(GNN)は、グラフのエッジに沿ってメッセージを渡すことによって、グラフデータの構造を活用することができる。 これにより、GNNはグラフ構造に応じて特徴を学習できるが、特定のグラフトポロジでは非効率な情報伝達とオーバーシャッシングと呼ばれる問題を引き起こす。 これは最近、グラフの曲率とスペクトルギャップと関連づけられている。 一方、メッセージパッシンググラフにエッジを追加すると、ノード表現の類似性が増し、オーバースムーシングとして知られる問題が発生する可能性がある。 本稿では,スペクトル展開に基づくエッジをグラフに体系的に付加することにより,オーバースカッシングを防止するアルゴリズムを提案する。 我々はこれをリレーショナルアーキテクチャと組み合わせることで、GNNが元のグラフ構造を保持し、過度なスムーシングを確実に防ぐことができる。 提案アルゴリズムは,いくつかのグラフ分類タスクにおいて,既存のグラフリウィリング手法よりも優れていることを示す。

Graph neural networks (GNNs) are able to leverage the structure of graph data by passing messages along the edges of the graph. While this allows GNNs to learn features depending on the graph structure, for certain graph topologies it leads to inefficient information propagation and a problem known as oversquashing. This has recently been linked with the curvature and spectral gap of the graph. On the other hand, adding edges to the message-passing graph can lead to increasingly similar node representations and a problem known as oversmoothing. We propose a computationally efficient algorithm that prevents oversquashing by systematically adding edges to the graph based on spectral expansion. We combine this with a relational architecture, which lets the GNN preserve the original graph structure and provably prevents oversmoothing. We find experimentally that our algorithm outperforms existing graph rewiring methods in several graph classification tasks.
翻訳日:2022-10-24 14:00:39 公開日:2022-10-21
# クナプサックを用いた回帰オラクルによる最適コンテキスト帯域

Optimal Contextual Bandits with Knapsacks under Realizibility via Regression Oracles ( http://arxiv.org/abs/2210.11834v1 )

ライセンス: Link先を確認
Yuxuan Han, Jialin Zeng, Yang Wang, Yang Xiang, Jiheng Zhang(参考訳) 確率的文脈的帯域幅をknapsacks (CBwK) 問題を用いて検討し、各アクションがコンテキストに基づいて、ランダムな報酬をもたらすだけでなく、ベクトル形式のランダムなリソース消費を発生させる。 課題は、各リソースの予算に違反することなく、全報酬を最大化することです。 この問題を、期待される報酬と期待されるコストが、与えられた一般関数クラス $\mathcal{F}$ と $\mathcal{G}$ のコンテキストとアクションの関数であるような一般化可能性設定の下で研究する。 既存のCBwKの作業は、線形形式に強く依存するUCB型アルゴリズムを使用するため、一般関数クラスに拡張することが難しいため、線形関数クラスに制限される。 オンラインレグレッションオラクルがコンテキストバンディットに適用に成功していることに動機づけられ、オンラインレグレッションに縮小することで、cbwkの普遍的かつ最適なアルゴリズムフレームワークを提案する。 また、様々な関数クラスに対するアルゴリズムの最適性を示すために、より低い後悔を確立する。

We study the stochastic contextual bandit with knapsacks (CBwK) problem, where each action, taken upon a context, not only leads to a random reward but also costs a random resource consumption in a vector form. The challenge is to maximize the total reward without violating the budget for each resource. We study this problem under a general realizability setting where the expected reward and expected cost are functions of contexts and actions in some given general function classes $\mathcal{F}$ and $\mathcal{G}$, respectively. Existing works on CBwK are restricted to the linear function class since they use UCB-type algorithms, which heavily rely on the linear form and thus are difficult to extend to general function classes. Motivated by online regression oracles that have been successfully applied to contextual bandits, we propose the first universal and optimal algorithmic framework for CBwK by reducing it to online regression. We also establish the lower regret bound to show the optimality of our algorithm for a variety of function classes.
翻訳日:2022-10-24 14:00:22 公開日:2022-10-21
# Cox-Hawkes:二重確率時空間ポアソン過程

Cox-Hawkes: doubly stochastic spatiotemporal Poisson processes ( http://arxiv.org/abs/2210.11844v1 )

ライセンス: Link先を確認
Xenia Miscouridou, Samir Bhatt, George Mohler, Seth Flaxman, Swapnil Mishra(参考訳) ホークス過程(英: hawkes process)は、社会的相互作用、神経活動、地震、ウイルスの流行における自己排他的行動を捉えるためのポイントプロセスモデルである。 イベントの時間と場所の発生をモデル化することができる。 本稿では,トリガ行動とクラスタリング動作の両方をキャプチャ可能な,時空間的ホークスプロセスの新たなクラスを開発し,効率的な推論手法を提案する。 我々は、Hawkesプロセスのバックグラウンドレートに先立って、ログガウスコックスプロセス(LGCP)を使用して、幅広い背景効果(感染症の場合、これらはエンドミックエフェクトと呼ばれる)を捕捉する任意の柔軟性を提供します。 ホークス過程とLGCPは、観測回数が2次に複雑になる可能性があり、後者は観測において立方体である精度行列の逆転を伴うため、計算的に高価である。 本稿では,前訓練されたガウス過程生成器を用いて,推論中にサンプルに直接的かつ安価にアクセス可能な,ホークス過程のmcmcサンプリングを行うための新しい手法を提案する。 シミュレーションデータを用いた実験において,我々のアプローチの有効性と柔軟性を示し,米国における報告された犯罪のデータセットの傾向を明らかにする。

Hawkes processes are point process models that have been used to capture self-excitatory behavior in social interactions, neural activity, earthquakes and viral epidemics. They can model the occurrence of the times and locations of events. Here we develop a new class of spatiotemporal Hawkes processes that can capture both triggering and clustering behavior and we provide an efficient method for performing inference. We use a log-Gaussian Cox process (LGCP) as prior for the background rate of the Hawkes process which gives arbitrary flexibility to capture a wide range of underlying background effects (for infectious diseases these are called endemic effects). The Hawkes process and LGCP are computationally expensive due to the former having a likelihood with quadratic complexity in the number of observations and the latter involving inversion of the precision matrix which is cubic in observations. Here we propose a novel approach to perform MCMC sampling for our Hawkes process with LGCP background, using pre-trained Gaussian Process generators which provide direct and cheap access to samples during inference. We show the efficacy and flexibility of our approach in experiments on simulated data and use our methods to uncover the trends in a dataset of reported crimes in the US.
翻訳日:2022-10-24 14:00:01 公開日:2022-10-21
# リーマン最適化によるグラフィカルファクタモデルの学習

Learning Graphical Factor Models with Riemannian Optimization ( http://arxiv.org/abs/2210.11950v1 )

ライセンス: Link先を確認
Alexandre Hippert-Ferrer, Florent Bouchard, Ammar Mian, Titouan Vayer, Arnaud Breloy(参考訳) 図形モデルと因子分析は多変量統計学において確立されたツールである。 これらのモデルは共分散と精度行列によって示される構造にリンクできるが、グラフ学習プロセスでは一般的には併用されない。 そこで本稿では,共分散行列の低ランク構造制約下でのグラフ学習のための柔軟なアルゴリズムフレームワークを提案する。 この問題は楕円分布(ガウスのグラフィカルモデルから重み付き分布への一般化)のペナル化最大推定として表現され、共分散行列は任意に低ランク+対角(低ランク因子モデル)として構造化される。 このクラスの問題の解決はリーマン最適化に取り組み、正定行列の測度と楕円モデルによく適合する定ランクの正半定行列を利用する。 実世界のデータセットに関する数値実験は,提案手法の有効性を示す。

Graphical models and factor analysis are well-established tools in multivariate statistics. While these models can be both linked to structures exhibited by covariance and precision matrices, they are generally not jointly leveraged within graph learning processes. This paper therefore addresses this issue by proposing a flexible algorithmic framework for graph learning under low-rank structural constraints on the covariance matrix. The problem is expressed as penalized maximum likelihood estimation of an elliptical distribution (a generalization of Gaussian graphical models to possibly heavy-tailed distributions), where the covariance matrix is optionally constrained to be structured as low-rank plus diagonal (low-rank factor model). The resolution of this class of problems is then tackled with Riemannian optimization, where we leverage geometries of positive definite matrices and positive semi-definite matrices of fixed rank that are well suited to elliptical models. Numerical experiments on real-world data sets illustrate the effectiveness of the proposed approach.
翻訳日:2022-10-24 13:59:39 公開日:2022-10-21
# 離散伝搬による複合システムの検証

Validation of Composite Systems by Discrepancy Propagation ( http://arxiv.org/abs/2210.12061v1 )

ライセンス: Link先を確認
David Reeb, Kanil Patel, Karim Barsim, Martin Schiegg, Sebastian Gerwinn(参考訳) 与えられた品質基準に対する実世界のシステムの有効性を評価することは、大量の実世界のテストを必要とするため、産業アプリケーションでは一般的だがコストのかかる作業である。 このようなシステムのシミュレーションによる検証は、有望で低価格な代替手段を提供するが、シミュレーションの精度やエンドツーエンドの測定を評価する必要がある。 さらに、シミュレーションと実際の使用の間の共変量シフトは、システムの信頼性を推定するのに困難を引き起こす可能性がある。 本研究では,複合システムを通じて分布差度値の境界を伝搬する検証手法を提案する。これにより,実システムの故障確率の上限を,潜在的に不正確なシミュレーションから導き出すことができる。 各伝播ステップには最適化の問題があり、そこでは最大平均誤差 (MMD) などの測度に対して、半定値プログラムに基づいた厳密な凸緩和を開発する。 提案手法は, 種々の現実的効果を示す複合システムに対して有効かつ有用な境界を導出することを示す。 特に,提案手法は,実験設計におけるデータシフトと,使用済みシミュレーションにおけるモデル不正確性をうまく説明できることを示す。

Assessing the validity of a real-world system with respect to given quality criteria is a common yet costly task in industrial applications due to the vast number of required real-world tests. Validating such systems by means of simulation offers a promising and less expensive alternative, but requires an assessment of the simulation accuracy and therefore end-to-end measurements. Additionally, covariate shifts between simulations and actual usage can cause difficulties for estimating the reliability of such systems. In this work, we present a validation method that propagates bounds on distributional discrepancy measures through a composite system, thereby allowing us to derive an upper bound on the failure probability of the real system from potentially inaccurate simulations. Each propagation step entails an optimization problem, where -- for measures such as maximum mean discrepancy (MMD) -- we develop tight convex relaxations based on semidefinite programs. We demonstrate that our propagation method yields valid and useful bounds for composite systems exhibiting a variety of realistic effects. In particular, we show that the proposed method can successfully account for data shifts within the experimental design as well as model inaccuracies within the used simulation.
翻訳日:2022-10-24 13:59:22 公開日:2022-10-21
# 確率モデルのための目標アクティブラーニング

Targeted active learning for probabilistic models ( http://arxiv.org/abs/2210.12122v1 )

ライセンス: Link先を確認
Christopher Tosh and Mauricio Tec and Wesley Tansey(参考訳) 科学における基本的なタスクは、研究中のシステムに関する貴重な洞察を与える実験を設計することである。 数学的には、これらの洞察は、それぞれの実験を行う価値を形作るユーティリティまたはリスク関数として表すことができる。 PDBALは,科学的有用性を最大化するために実験を適応的に設計する能動学習手法である。 PDBALは、ユーザが指定したリスク関数を実験結果の確率モデルと組み合わせて、高ユーティリティモデルに迅速に収束する設計を選択する。 我々は、PDBALのラベル複雑性に関する理論的境界を証明し、共通の指数族確率を持つ実験を設計するための高速閉形式解を提供する。 シミュレーション研究において、PDBALは設計空間における期待される情報の獲得を最大化することに焦点を当てた標準的未目標アプローチを一貫して上回っている。 最後に、PDBALの科学的ポテンシャルを、PDBALが実験総数のごく一部で、最も有効な薬物を迅速に回収する大規模がん薬物スクリーニングデータセットの研究を通して実証する。

A fundamental task in science is to design experiments that yield valuable insights about the system under study. Mathematically, these insights can be represented as a utility or risk function that shapes the value of conducting each experiment. We present PDBAL, a targeted active learning method that adaptively designs experiments to maximize scientific utility. PDBAL takes a user-specified risk function and combines it with a probabilistic model of the experimental outcomes to choose designs that rapidly converge on a high-utility model. We prove theoretical bounds on the label complexity of PDBAL and provide fast closed-form solutions for designing experiments with common exponential family likelihoods. In simulation studies, PDBAL consistently outperforms standard untargeted approaches that focus on maximizing expected information gain over the design space. Finally, we demonstrate the scientific potential of PDBAL through a study on a large cancer drug screen dataset where PDBAL quickly recovers the most efficacious drugs with a small fraction of the total number of experiments.
翻訳日:2022-10-24 13:59:08 公開日:2022-10-21
# 医学的用語正規化のためのロングテール概念の一般化

Generalizing over Long Tail Concepts for Medical Term Normalization ( http://arxiv.org/abs/2210.11947v1 )

ライセンス: Link先を確認
Beatrice Portelli, Simone Scaboro, Enrico Santus, Hooman Sedghamiz, Emmanuele Chersoni, Giuseppe Serra(参考訳) 医学用語の正規化は、テキストを多数の出力クラスにマッピングすることで構成される。 注釈付きデータセットの小さなサイズと概念の非常に長い尾の分布を考えると、概念の不足や見当たらない概念を一般化できるモデルを開発することが最も重要である。 ほとんどの標的オントロジーの重要な属性は、その階層構造である。 本稿では,このような情報を利用して識別モデルと生成モデルの一般化可能性を高める,単純かつ効果的な学習戦略を提案する。 評価の結果,提案手法は未確認概念の最先端性能と一貫した改善を実現し,テキスト型とデータセット間の効率的なゼロショット知識伝達を可能にした。

Medical term normalization consists in mapping a piece of text to a large number of output classes. Given the small size of the annotated datasets and the extremely long tail distribution of the concepts, it is of utmost importance to develop models that are capable to generalize to scarce or unseen concepts. An important attribute of most target ontologies is their hierarchical structure. In this paper we introduce a simple and effective learning strategy that leverages such information to enhance the generalizability of both discriminative and generative models. The evaluation shows that the proposed strategy produces state-of-the-art performance on seen concepts and consistent improvements on unseen ones, allowing also for efficient zero-shot knowledge transfer across text typologies and datasets.
翻訳日:2022-10-24 13:52:15 公開日:2022-10-21
# ファジィ粒界計算フレームワークとそのSVMにおける実装

Fuzzy Granular-Ball Computing Framework and Its Implementation in SVM ( http://arxiv.org/abs/2210.11675v1 )

ライセンス: Link先を確認
Shuyin Xia, Xiaoyu Lian, Yabin Shao(参考訳) 既存のファジィ計算法の多くは点を入力として使用しており、これは粒度計算の観点から最も細かい粒度である。 したがって、これらの分類器はノイズのラベル付けに効率的でもロバストでもない。 そこで我々はファジィ集合に粒度計算を導入することによりファジィ粒度計算分類器の枠組みを提案する。 計算フレームワークは点ではなく粒状球の入力に基づいているため、従来のファジィ法よりも効率的で堅牢である。 さらに、このフレームワークをファジィサポートベクトルマシン(FSVM)に拡張し、粒状ファジィSVM(GBFSVM)を導出する。 実験の結果,GBFSVMの有効性と有効性を示した。

Most existing fuzzy computing methods use points as input, which is the finest granularity from the perspective of granular computing. Consequently, these classifiers are neither efficient nor robust to label noise. Therefore, we propose a framework for a fuzzy granular-ball computational classifier by introducing granular-ball computing into fuzzy set. The computational framework is based on the granular-balls input rather than points; therefore, it is more efficient and robust than traditional fuzzy methods. Furthermore, the framework is extended to the fuzzy support vector machine (FSVM), and granular ball fuzzy SVM (GBFSVM) is derived. The experimental results demonstrate the effectiveness and efficiency of GBFSVM.
翻訳日:2022-10-24 13:51:47 公開日:2022-10-21
# 変動スパースゲーティングによるロバストダイナミクスの学習

Learning Robust Dynamics through Variational Sparse Gating ( http://arxiv.org/abs/2210.11698v1 )

ライセンス: Link先を確認
Arnav Kumar Jain, Shivakanth Sujit, Shruti Joshi, Vincent Michalski, Danijar Hafner, Samira Ebrahimi-Kahou(参考訳) 感覚入力から世界モデルを学ぶことで、エージェントは将来の成果を想像して行動の計画を立てることができる。 世界モデルはこれまで、少ないオブジェクトでシミュレーションされた環境でのサンプル効率を改善することが示されているが、多くのオブジェクトを持つ環境ではうまく適用されていない。 多くのオブジェクトを持つ環境では、少数のオブジェクトだけが同時に移動または相互作用していることが多い。 本稿では,このスパース相互作用の帰納バイアスを,画素から学習した世界モデルの潜在ダイナミクスに統合する。 まず,変分スパースゲーティング(VSG)を導入し,その特徴次元を確率的二乗ゲートを通して疎に更新する潜在力学モデルを提案する。 さらに,従来のモデルの決定論的経路を排除し,VSG機構を利用した完全確率遷移関数を実現する,単純化されたアーキテクチャであるSimple Variational Sparse Gating (SVSG)を提案する。 bringBackShapes(BBS)環境における2つのモデルアーキテクチャの評価を行った。

Learning world models from their sensory inputs enables agents to plan for actions by imagining their future outcomes. World models have previously been shown to improve sample-efficiency in simulated environments with few objects, but have not yet been applied successfully to environments with many objects. In environments with many objects, often only a small number of them are moving or interacting at the same time. In this paper, we investigate integrating this inductive bias of sparse interactions into the latent dynamics of world models trained from pixels. First, we introduce Variational Sparse Gating (VSG), a latent dynamics model that updates its feature dimensions sparsely through stochastic binary gates. Moreover, we propose a simplified architecture Simple Variational Sparse Gating (SVSG) that removes the deterministic pathway of previous models, resulting in a fully stochastic transition function that leverages the VSG mechanism. We evaluate the two model architectures in the BringBackShapes (BBS) environment that features a large number of moving objects and partial observability, demonstrating clear improvements over prior models.
翻訳日:2022-10-24 13:51:36 公開日:2022-10-21
# HCL:階層的コントラスト学習によるグラフ表現の改善

HCL: Improving Graph Representation with Hierarchical Contrastive Learning ( http://arxiv.org/abs/2210.12020v1 )

ライセンス: Link先を確認
Jun Wang, Weixun Li, Changyu Hou, Xin Tang, Yixuan Qiao, Rui Fang, Pengyong Li, Peng Gao, Guotong Xie(参考訳) コントラスト学習はグラフ表現学習の強力なツールとして登場した。 しかし、ほとんどの対照的な学習方法は、局所的または全体的情報を過小評価する固定粗粒度スケールのグラフの特徴を学習する。 より階層的でリッチな表現を捉えるために,グラフ表現を階層的に明示的に学習する新しい階層的コントラスト学習(HCL)フレームワークを提案する。 具体的には、より包括的なコントラスト目的のためにより合理的なマルチスケールグラフトポロジを構築するための新しい適応学習型プール(L2Pool)法と、各スケール内の相互情報のより表現力のある学習を可能にする新しいマルチチャネル擬似テーマネットワークである。 総合的な実験結果から,ノード分類,ノードクラスタリング,グラフ分類を含む12のデータセット上でのHCLの競合性能が示された。 さらに、学習表現の可視化により、hclがグラフの有意義な特性をうまく捉えることが分かる。

Contrastive learning has emerged as a powerful tool for graph representation learning. However, most contrastive learning methods learn features of graphs with fixed coarse-grained scale, which might underestimate either local or global information. To capture more hierarchical and richer representation, we propose a novel Hierarchical Contrastive Learning (HCL) framework that explicitly learns graph representation in a hierarchical manner. Specifically, HCL includes two key components: a novel adaptive Learning to Pool (L2Pool) method to construct more reasonable multi-scale graph topology for more comprehensive contrastive objective, a novel multi-channel pseudo-siamese network to further enable more expressive learning of mutual information within each scale. Comprehensive experimental results show HCL achieves competitive performance on 12 datasets involving node classification, node clustering and graph classification. In addition, the visualization of learned representation reveals that HCL successfully captures meaningful characteristics of graphs.
翻訳日:2022-10-24 13:51:18 公開日:2022-10-21
# グラフの非現実的説明に関する調査:定義,方法,評価

A Survey on Graph Counterfactual Explanations: Definitions, Methods, Evaluation ( http://arxiv.org/abs/2210.12089v1 )

ライセンス: Link先を確認
Mario Alfonso Prado-Romero and Bardh Prenkaj and Giovanni Stilo and Fosca Giannotti(参考訳) 近年、グラフニューラルネットワークは、コミュニティ検出、分子分類、リンク予測などのタスクにおいて、優れたパフォーマンスを報告している。 しかしながら、これらのモデルのブラックボックスの性質は、モデルの決定を理解することが不可欠である健康や金融といった分野への適用を妨げる。 Counterfactual Explanations (CE)は例を通してこれらの理解を提供する。 また,ceに関する文献には,グラフ学習に合わせた新しい説明手法が盛り込まれている。 本調査では,定義,データセット,メトリクスの統一的な表記法に従って,文献の組織を読者に提供することにより,既存のグラフ対実説明法を解析し,手法の利点とデメリットに対する潜在的な比較を簡素化する。 生成戦略の詳細を提供する7つの手法と16の合成および実データについて検討した。 我々は,最も一般的な評価戦略を強調し,文献で使用されている9つの指標を形式化する。 まず,評価フレームワーク gretel について紹介し,再現性に関する側面を包含する比較のさらなる次元を提供しながら,その拡張と利用について述べる。 最後に,オープン課題と今後の課題を掘り下げる前に,反事実的説明とプライバシと公平性との相互作用について論じる。

In recent years, Graph Neural Networks have reported outstanding performance in tasks like community detection, molecule classification and link prediction. However, the black-box nature of these models prevents their application in domains like health and finance, where understanding the models' decisions is essential. Counterfactual Explanations (CE) provide these understandings through examples. Moreover, the literature on CE is flourishing with novel explanation methods which are tailored to graph learning. In this survey, we analyse the existing Graph Counterfactual Explanation methods, by providing the reader with an organisation of the literature according to a uniform formal notation for definitions, datasets, and metrics, thus, simplifying potential comparisons w.r.t to the method advantages and disadvantages. We discussed seven methods and sixteen synthetic and real datasets providing details on the possible generation strategies. We highlight the most common evaluation strategies and formalise nine of the metrics used in the literature. We first introduce the evaluation framework GRETEL and how it is possible to extend and use it while providing a further dimension of comparison encompassing reproducibility aspects. Finally, we provide a discussion on how counterfactual explanation interplays with privacy and fairness, before delving into open challenges and future works.
翻訳日:2022-10-24 13:50:59 公開日:2022-10-21
# AutoPrognosis 2.0: 自動機械学習による医療における診断・予後モデリングの民主化

AutoPrognosis 2.0: Democratizing Diagnostic and Prognostic Modeling in Healthcare with Automated Machine Learning ( http://arxiv.org/abs/2210.12090v1 )

ライセンス: Link先を確認
Fergus Imrie, Bogdan Cebere, Eoin F. McKinney, Mihaela van der Schaar(参考訳) 診断および予後モデルは、医療においてますます重要になり、多くの臨床的決定を伝える。 近年,患者共変量間の複雑な相互作用をデータ駆動方式でよりよく捉えることで,従来のモデリング手法よりも優れた機械学習手法が示されている。 しかし、機械学習の利用は、これまで臨床現場で広く採用されてきた技術や実践上の課題を数多く導入している。 これらの課題に対処し、医療専門家に力を与えるために、診断および予後モデルを開発するための機械学習フレームワークautoprognosis 2.0を提案する。 autoprognosisは、自動化機械学習の最先端の進歩を活用して、最適化されたマシンラーニングパイプラインを開発し、モデル説明ツールを導入し、重要な技術的専門知識を必要とせずに、臨床デモンストレータのデプロイを可能にする。 当社のフレームワークは、現在臨床採用を妨げるマシンラーニングによる予測モデリングの主要な技術的障害を排除します。 AutoPrognosis 2.0を実証するために,502,467人の個人を対象とした英国バイオバンクを用いて,糖尿病の予後リスクスコアを構築する。 自動フレームワークによって生成されたモデルは、専門的な臨床リスクスコアよりも糖尿病の差別性が高い。 我々のリスクスコアはWebベースの意思決定支援ツールとして実装されており、世界中の患者や臨床医がアクセスできる。 さらにAutoPrognosis 2.0はオープンソースのpythonパッケージとして提供されている。 コミュニティのためのツールとしての私たちのフレームワークをオープンソース化することで、臨床医や他の医療従事者は、最新の機械学習技術を使用して、新しいリスクスコア、パーソナライズされた診断、および予後を簡単に開発できるようになります。

Diagnostic and prognostic models are increasingly important in medicine and inform many clinical decisions. Recently, machine learning approaches have shown improvement over conventional modeling techniques by better capturing complex interactions between patient covariates in a data-driven manner. However, the use of machine learning introduces a number of technical and practical challenges that have thus far restricted widespread adoption of such techniques in clinical settings. To address these challenges and empower healthcare professionals, we present a machine learning framework, AutoPrognosis 2.0, to develop diagnostic and prognostic models. AutoPrognosis leverages state-of-the-art advances in automated machine learning to develop optimized machine learning pipelines, incorporates model explainability tools, and enables deployment of clinical demonstrators, without requiring significant technical expertise. Our framework eliminates the major technical obstacles to predictive modeling with machine learning that currently impede clinical adoption. To demonstrate AutoPrognosis 2.0, we provide an illustrative application where we construct a prognostic risk score for diabetes using the UK Biobank, a prospective study of 502,467 individuals. The models produced by our automated framework achieve greater discrimination for diabetes than expert clinical risk scores. Our risk score has been implemented as a web-based decision support tool and can be publicly accessed by patients and clinicians worldwide. In addition, AutoPrognosis 2.0 is provided as an open-source python package. By open-sourcing our framework as a tool for the community, clinicians and other medical practitioners will be able to readily develop new risk scores, personalized diagnostics, and prognostics using modern machine learning techniques.
翻訳日:2022-10-24 13:50:40 公開日:2022-10-21
# 特徴選択のための相互情報を用いたga様動的確率法

A GA-like Dynamic Probability Method With Mutual Information for Feature Selection ( http://arxiv.org/abs/2210.11954v1 )

ライセンス: Link先を確認
Gaoshuai Wang, Fabrice Lauri, and Amir Hajjam El Hassani(参考訳) 特徴選択は、分類器のパフォーマンスを促進する上で重要な役割を果たす。 しかし、現在の手法は、選択された特徴の複雑な相互作用を効果的に区別しない。 これらの隠れた負の相互作用を更に除去するため,二層構造を有する相互情報を持つga様動的確率(gadp)法を提案する。 第1の層は、プライマリ機能サブセットを取得するために相互情報法を適用する。 GAライクな動的確率アルゴリズムは、第2層として、以前の候補特徴に基づいてより支持的な特徴を抽出する。 基本的に、GAライクな手法は人口ベースアルゴリズムの1つであるため、その作業機構はGAと類似している。 検索能力の向上や収束時間の短縮に重点を置くGA演算子に注目する人気作品とは違い,我々はGA演算子を大胆に放棄し,各染色体の性能に依存した動的確率を用いて新世代の特徴選択を決定する。 動的確率機構はGAのパラメータ数を著しく減少させ、使いやすくする。 各遺伝子の確率が独立しているため、GADPの染色体変異は従来のGAよりも顕著であり、GADPはより広い検索空間を持ち、より効果的かつ正確に関連する特徴を選択する。 提案手法の優位性を検証するため,15個のデータセット上で複数の条件下で評価を行った。 その結果,提案手法の有効性が示された。 一般的には、最も正確である。 さらに,提案モデルとPOS, FPA, WOAなどの一般的なヒューリスティック手法を比較した。 我々のモデルは今でも彼らより有利だ。

Feature selection plays a vital role in promoting the classifier's performance. However, current methods ineffectively distinguish the complex interaction in the selected features. To further remove these hidden negative interactions, we propose a GA-like dynamic probability (GADP) method with mutual information which has a two-layer structure. The first layer applies the mutual information method to obtain a primary feature subset. The GA-like dynamic probability algorithm, as the second layer, mines more supportive features based on the former candidate features. Essentially, the GA-like method is one of the population-based algorithms so its work mechanism is similar to the GA. Different from the popular works which frequently focus on improving GA's operators for enhancing the search ability and lowering the converge time, we boldly abandon GA's operators and employ the dynamic probability that relies on the performance of each chromosome to determine feature selection in the new generation. The dynamic probability mechanism significantly reduces the parameter number in GA that making it easy to use. As each gene's probability is independent, the chromosome variety in GADP is more notable than in traditional GA, which ensures GADP has a wider search space and selects relevant features more effectively and accurately. To verify our method's superiority, we evaluate our method under multiple conditions on 15 datasets. The results demonstrate the outperformance of the proposed method. Generally, it has the best accuracy. Further, we also compare the proposed model to the popular heuristic methods like POS, FPA, and WOA. Our model still owns advantages over them.
翻訳日:2022-10-24 13:43:53 公開日:2022-10-21
# AfroLID: アフリカの言語のための言語識別ツール

AfroLID: A Neural Language Identification Tool for African Languages ( http://arxiv.org/abs/2210.11744v1 )

ライセンス: Link先を確認
Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed and Alcides Alcoba Inciarte(参考訳) 言語識別(LID)は、特にWebデータのマイニングにおいて、NLPにとって重要な前駆体である。 現在の世界の7000ドル以上の言語のほとんどは、LID技術によってカバーされていない。 アフリカの言語と品種517ドルのニューラルネットワークLIDツールキットである~\ourLIDを導入することで、アフリカにおけるこのプレッシャー問題に対処する。 5つの正書法システムを利用して、14ドルの言語ファミリーから手作業でキュレートされたマルチドメインのWebデータセットを探索する。 盲目のテストセットで評価すると、--\ourLID~achieves 955.89$$F_1$-score。 また、ある少数のアフリカ言語をカバーする既存の5つのLIDツールを比較して、ほとんどの言語でそれらを上回るパフォーマンスを実現しています。 我々はさらに、twitterドメインでテストすることで、野生での--\ourlid-の実用性を示す。 最後に、制御されたケーススタディをいくつか提供し、言語的に動機づけられたエラー分析を行い、--\ourlidの強力な能力と制限を両立させます。

Language identification (LID) is a crucial precursor for NLP, especially for mining web data. Problematically, most of the world's $7000$+ languages today are not covered by LID technologies. We address this pressing issue for Africa by introducing~\ourLID, a neural LID toolkit for $517$ African languages and varieties.~\ourLID~exploits a multi-domain web dataset manually curated from across $14$ language families utilizing five orthographic systems. When evaluated on our blind Test set,~\ourLID~achieves $95.89$ $F_1$-score. We also compare~\ourLID~to five existing LID tools that each cover a small number of African languages, finding it to outperform them on most languages. We further show the utility of~\ourLID~in the wild by testing it on the acutely under-served Twitter domain. Finally, we offer a number of controlled case studies and perform a linguistically-motivated error analysis that allow us to both showcase~\ourLID's powerful capabilities and limitations.
翻訳日:2022-10-24 13:43:11 公開日:2022-10-21
# ディフューザ:長時間列用マルチホップアテンションディフューザを用いた高効率変圧器

Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for Long Sequences ( http://arxiv.org/abs/2210.11794v1 )

ライセンス: Link先を確認
Aosong Feng, Irene Li, Yuang Jiang, Rex Ying(参考訳) 効率的なトランスフォーマーは、サブクアドドラティックメモリと時間複雑性のため、長いシーケンスモデリングのために開発されてきた。 Sparse Transformerは、事前に定義されたスパースパターンによって指定された位置への自己アテンションを制限することで、Transformerの効率を改善するための一般的なアプローチである。 しかしながら、空間性を活用することは、重要なトークン相関が複数のホップから離れている場合、フルアテンションに比べて表現性を犠牲にする可能性がある。 スパース変圧器の効率性とフルアテンション変圧器の表現性を両立させるため,新しい最先端の変換器である \textit{Diffuser} を提案する。 Diffuserは、低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。 鍵となるアイデアは、注意拡散( attention diffusion)を使って、注意をそらすことの受容領域を広げることであり、これは、対応する切断されたトークン間のすべてのパスに基づいてマルチホップトークン相関を計算する。 理論的には、ディフューザの表現性はシーケンス・ツー・シーケンスモデリングの普遍列近似器として示し、スペクトルの観点からグラフ展開特性を解析し、全接触を近似する能力について検討する。 本研究では,ディフューザの有効性を,言語モデリング,画像モデリング,長距離アリーナ(lra)など幅広い評価で検証した。 評価の結果、ディフューザはテキスト分類タスクでは平均0.94%、lraでは2.30%の改善を達成し、最先端のベンチマークと比べて1.67$\times$のメモリ節約を実現している。

Efficient Transformers have been developed for long sequence modeling, due to their subquadratic memory and time complexity. Sparse Transformer is a popular approach to improving the efficiency of Transformers by restricting self-attention to locations specified by the predefined sparse patterns. However, leveraging sparsity may sacrifice expressiveness compared to full-attention, when important token correlations are multiple hops away. To combine advantages of both the efficiency of sparse transformer and the expressiveness of full-attention Transformer, we propose \textit{Diffuser}, a new state-of-the-art efficient Transformer. Diffuser incorporates all token interactions within one attention layer while maintaining low computation and memory costs. The key idea is to expand the receptive field of sparse attention using Attention Diffusion, which computes multi-hop token correlations based on all paths between corresponding disconnected tokens, besides attention among neighboring tokens. Theoretically, we show the expressiveness of Diffuser as a universal sequence approximator for sequence-to-sequence modeling, and investigate its ability to approximate full-attention by analyzing the graph expander property from the spectral perspective. Experimentally, we investigate the effectiveness of Diffuser with extensive evaluations, including language modeling, image modeling, and Long Range Arena (LRA). Evaluation results show that Diffuser achieves improvements by an average of 0.94% on text classification tasks and 2.30% on LRA, with 1.67$\times$ memory savings compared to state-of-the-art benchmarks, which demonstrates superior performance of Diffuser in both expressiveness and efficiency aspects.
翻訳日:2022-10-24 13:42:56 公開日:2022-10-21
# NEREL-BIO:Nested Named Entitiesを付加したバイオメディカル抽象化のデータセット

NEREL-BIO: A Dataset of Biomedical Abstracts Annotated with Nested Named Entities ( http://arxiv.org/abs/2210.11913v1 )

ライセンス: Link先を確認
Natalia Loukachevitch, Suresh Manandhar, Elina Baral, Igor Rozhkov, Pavel Braslavski, Vladimir Ivanov, Tatiana Batura, and Elena Tutubalina(参考訳) NEREL-BIOは、ロシア語のPubMed抽象文の注釈スキームとコーパスであり、英語の抽象文は少ない。 NEREL-BIOは、ドメイン固有のエンティティタイプを導入することで、一般的なドメインデータセットであるNERELを拡張する。 NEREL-BIOアノテーションスキームは、一般領域と生物医学領域の両方をカバーし、ドメイン転送実験に適している。 NEREL-BIOはネストされた名前のエンティティに対して、NERELで使用されるスキームの拡張としてアノテーションを提供する。 ネストされた名前付きエンティティは、長いエンティティ内でネストされた短いエンティティに接続するためにエンティティ境界を交差する可能性があるため、検出が困難になる。 NEREL-BIOには700以上のロシア語と100以上の英語の要約の注釈が含まれている。 すべての英語のPubMedアノテーションは対応するロシアのアノテーションを持っている。 NEREL-BIOはネストされた名前付きエンティティのアノテーションで、クロスドメイン(NEREL -> NEREL-BIO)とクロス言語(英語 ->ロシア語)転送のベンチマークとして使用できる。 トランスベースシーケンスモデルと機械読み取り理解モデル(mrc)の両方を実験し,その結果を報告する。 データセットはhttps://github.com/nerel-ds/NEREL-BIOで無償公開されている。

This paper describes NEREL-BIO -- an annotation scheme and corpus of PubMed abstracts in Russian and smaller number of abstracts in English. NEREL-BIO extends the general domain dataset NEREL by introducing domain-specific entity types. NEREL-BIO annotation scheme covers both general and biomedical domains making it suitable for domain transfer experiments. NEREL-BIO provides annotation for nested named entities as an extension of the scheme employed for NEREL. Nested named entities may cross entity boundaries to connect to shorter entities nested within longer entities, making them harder to detect. NEREL-BIO contains annotations for 700+ Russian and 100+ English abstracts. All English PubMed annotations have corresponding Russian counterparts. Thus, NEREL-BIO comprises the following specific features: annotation of nested named entities, it can be used as a benchmark for cross-domain (NEREL -> NEREL-BIO) and cross-language (English -> Russian) transfer. We experiment with both transformer-based sequence models and machine reading comprehension (MRC) models and report their results. The dataset is freely available at https://github.com/nerel-ds/NEREL-BIO.
翻訳日:2022-10-24 13:42:24 公開日:2022-10-21
# 言語モデルを用いた数学的推論のロバスト性を定量化する因果関係

A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models ( http://arxiv.org/abs/2210.12023v1 )

ライセンス: Link先を確認
Alessandro Stolfo, Zhijing Jin, Kumar Shridhar, Bernhard Sch\"olkopf and Mrinmaya Sachan(参考訳) 我々は最近、言語モデルに関する厳密な数学的推論問題に関する多くの驚くべき結果を目撃した。 同時に、これらのモデルの堅牢性も疑問視され、最近の研究により、モデルはソリューションを予測する際に問題記述の浅いパターンに依存することが示されている。 行動テストの考え方に基づいて,入力中の様々な要因,例えば問題テキストの表面形式,オペランド,数学演算子の出力解に対する因果効果をピン留めする新しい枠組みを提案する。 直感的な推論過程を記述した因果グラフの行動解析を基礎として,入力空間の直接的な介入に対する頑健さと感度の観点から言語モデルの振る舞いを考察する。 このフレームワークを二変量数ワード問題のテストベッドに適用する。 解析の結果,ロバスト性はスケールの関数として連続的に改善されないが,最近のLCMであるGPT-3-Instruct (175B)は,他のすべてのGPT変種と比較して,ロバスト性と感度の両方において劇的な改善を達成していることがわかった。

We have recently witnessed a number of impressive results on hard mathematical reasoning problems with language models. At the same time, the robustness of these models has also been called into question; recent works have shown that models can rely on shallow patterns in the problem description when predicting a solution. Building on the idea of behavioral testing, we propose a novel framework, which pins down the causal effect of various factors in the input, e.g., the surface form of the problem text, the operands and math operators on the output solution. By grounding the behavioral analysis in a causal graph describing an intuitive reasoning process, we study the behavior of language models in terms of robustness and sensitivity to direct interventions in the input space. We apply our framework on a test bed of bivariate math word problems. Our analysis shows that robustness does not appear to continuously improve as a function of scale, but that the recent LLM, GPT-3-Instruct (175B), achieves a dramatic improvement in both robustness and sensitivity, compared to all other GPT variants.
翻訳日:2022-10-24 13:42:04 公開日:2022-10-21
# コンテキスト強化ステレオトランス

Context-Enhanced Stereo Transformer ( http://arxiv.org/abs/2210.11719v1 )

ライセンス: Link先を確認
Weiyu Guo, Zhaoshuo Li, Yongkui Yang, Zheng Wang, Russell H. Taylor, Mathias Unberath, Alan Yuille, and Yingwei Li(参考訳) ステレオ深度推定はコンピュータビジョン研究において非常に興味深い。 しかし、既存の手法は、大きな一様領域のような危険地域において確実に一般化し予測することに苦慮している。 これらの制限を克服するために、Context Enhanced Path (CEP)を提案する。 CEPは、長距離グローバル情報をキャプチャすることで、既存のソリューションにおける一般的な障害ケースに対する一般化と堅牢性を改善する。 ステレオ深度推定モデルであるContext Enhanced Stereo Transformer (CSTR) を構築し,CEPを最先端のステレオ深度推定手法であるStereo Transformerに接続する。 CSTRは、Scene Flow、Middlebury-2014、KITTI-2015、MPI-Sintelなどの異なる公開データセットで調査されている。 CSTRは従来のアプローチよりも大きなマージンで優れています。 例えば、ゼロショット合成-現実設定では、CSTRはMiddlebury-2014データセット上で最も競合するアプローチを11%上回っている。 広範囲にわたる実験により, ステレオマッチング作業において, 長距離情報は重要であり, CEPはそのような情報を取り込むことに成功した。

Stereo depth estimation is of great interest for computer vision research. However, existing methods struggles to generalize and predict reliably in hazardous regions, such as large uniform regions. To overcome these limitations, we propose Context Enhanced Path (CEP). CEP improves the generalization and robustness against common failure cases in existing solutions by capturing the long-range global information. We construct our stereo depth estimation model, Context Enhanced Stereo Transformer (CSTR), by plugging CEP into the state-of-the-art stereo depth estimation method Stereo Transformer. CSTR is examined on distinct public datasets, such as Scene Flow, Middlebury-2014, KITTI-2015, and MPI-Sintel. We find CSTR outperforms prior approaches by a large margin. For example, in the zero-shot synthetic-to-real setting, CSTR outperforms the best competing approaches on Middlebury-2014 dataset by 11%. Our extensive experiments demonstrate that the long-range information is critical for stereo matching task and CEP successfully captures such information.
翻訳日:2022-10-24 13:41:45 公開日:2022-10-21
# 合成データを用いた微調整CNNによるGPR画像の異常検出の改善

Improving the Anomaly Detection in GPR Images by Fine-Tuning CNNs with Synthetic Data ( http://arxiv.org/abs/2210.11833v1 )

ライセンス: Link先を確認
Xiren Zhou, Shikang Liu, Ao Chen, Yizhan Fan, and Huanhuan Chen(参考訳) グラウンド・ペネトレーション・レーダー(GPR)は、いくつかの都市道路や地下施設の健全な運転を推定するために広く利用されている。 地域内におけるgprによる地下異常を同定する場合、得られたデータは不均衡となり、地下異常の可能性のある数や種類は事前に認識できなかった。 本稿では,GPR Bスキャン画像からの地表面異常検出を改善するために,新しい手法を提案する。 検出された領域に、まず、正常(即ち、表面下対象のない)GPR画像部を収集する。 GPR画像は基本的に電磁(EM)波と伝播時間の表現であり、地中背景と物体の詳細の両方を保持するため、正常なGPR画像を分割し、異なる種類の物体を含む模擬GPR画像と融合させ、ウェーブレット分解に基づいて検出領域の合成データを生成する。 事前学習したCNNを合成データで微調整し、検出領域で得られたセグメント化されたGPR画像の特徴を抽出する。 抽出された特徴は、事前設定された異常な型や数字なしで特徴空間の1クラス学習アルゴリズムによって分類することができる。 提案する合成データを用いて事前学習したcnnを微調整することで,検出領域の物体に対するネットワークの特徴抽出を効果的に改善できることを実証した。 また,本提案手法では,検出領域で容易に取得可能な正規データの一部のみを必要とし,実用アプリケーションにおけるタイムライン要求を満たすことができる。

Ground Penetrating Radar (GPR) has been widely used to estimate the healthy operation of some urban roads and underground facilities. When identifying subsurface anomalies by GPR in an area, the obtained data could be unbalanced, and the numbers and types of possible underground anomalies could not be acknowledged in advance. In this paper, a novel method is proposed to improve the subsurface anomaly detection from GPR B-scan images. A normal (i.e. without subsurface objects) GPR image section is firstly collected in the detected area. Concerning that the GPR image is essentially the representation of electromagnetic (EM) wave and propagation time, and to preserve both the subsurface background and objects' details, the normal GPR image is segmented and then fused with simulated GPR images that contain different kinds of objects to generate the synthetic data for the detection area based on the wavelet decompositions. Pre-trained CNNs could then be fine-tuned with the synthetic data, and utilized to extract features of segmented GPR images subsequently obtained in the detection area. The extracted features could be classified by the one-class learning algorithm in the feature space without pre-set anomaly types or numbers. The conducted experiments demonstrate that fine-tuning the pre-trained CNN with the proposed synthetic data could effectively improve the feature extraction of the network for the objects in the detection area. Besides, the proposed method requires only a section of normal data that could be easily obtained in the detection area, and could also meet the timeliness requirements in practical applications.
翻訳日:2022-10-24 13:41:25 公開日:2022-10-21
# 合成トレーニングデータを用いた2次元ツールランドマークのリアルタイム検出

Real-time Detection of 2D Tool Landmarks with Synthetic Training Data ( http://arxiv.org/abs/2210.11991v1 )

ライセンス: Link先を確認
Bram Vanherle, Jeroen Put, Nick Michiels, Frank Van Reeth(参考訳) 本稿では,ハンマーやスクリュードライバーなどの物理ツールのランドマークの2次元位置をリアルタイムで検出する深層学習アーキテクチャを提案する。 手動ラベリングの労力を避けるため、ネットワークは合成されたデータに基づいて訓練される。 コンピュータが生成した画像のコンピュータビジョンモデルを訓練するが、実際の画像の精度は高いが、ドメインの違いのため課題である。 提案手法は,転送学習と中間監視アーキテクチャを組み合わせた高度なレンダリング手法を用いてこの問題に対処する。 本論文で提示されたモデルである中間ヒートマップモデル (ihm) は, 合成データを用いて訓練された場合, 実画像に一般化する。 問題となるツールの正確なテクスチャ付き3dモデルの必要性を避けるため、同じタイプのツールの異なる3dモデルでトレーニングされた場合、モデルが見えないツールに一般化されることが示されている。 IHMは、キーポイント検出に対する既存の2つのアプローチと比較し、合成データに基づいて訓練されたツールランドマークの検出において、優れた性能を発揮することを示した。

In this paper a deep learning architecture is presented that can, in real time, detect the 2D locations of certain landmarks of physical tools, such as a hammer or screwdriver. To avoid the labor of manual labeling, the network is trained on synthetically generated data. Training computer vision models on computer generated images, while still achieving good accuracy on real images, is a challenge due to the difference in domain. The proposed method uses an advanced rendering method in combination with transfer learning and an intermediate supervision architecture to address this problem. It is shown that the model presented in this paper, named Intermediate Heatmap Model (IHM), generalizes to real images when trained on synthetic data. To avoid the need for an exact textured 3D model of the tool in question, it is shown that the model will generalize to an unseen tool when trained on a set of different 3D models of the same type of tool. IHM is compared to two existing approaches to keypoint detection and it is shown that it outperforms those at detecting tool landmarks, trained on synthetic data.
翻訳日:2022-10-24 13:41:01 公開日:2022-10-21
# boomerang:拡散モデルを用いた画像多様体上の局所サンプリング

Boomerang: Local sampling on image manifolds using diffusion models ( http://arxiv.org/abs/2210.12100v1 )

ライセンス: Link先を確認
Lorenzo Luzi, Ali Siahkoohi, Paul M Mayer, Josue Casco-Rodriguez, Richard Baraniuk(参考訳) 拡散モデルは、高次元の潜在空間の低次元学習多様体(典型的には像多様体)への写像点と見なすことができる。 遅延空間と画像多様体の間の中間値は、事前学習時に使用するノイズスケジューリングスキームによって決定されるノイズ画像と解釈できる。 この解釈を用いて,拡散モデルのダイナミクスを用いた局所画像多様体サンプリング手法boomerangを導入する。 これをboomerangと呼ぶのは、まず入力画像にノイズを加え、それを潜在空間に近づけて、拡散ダイナミクスを通じて画像空間に戻すからです。 この手法を用いて、画像多様体上の元の入力画像と類似しているが同一でない画像を生成する。 生成したイメージがオリジナルにどの程度近いかは、ノイズの量に基づいて設定できます。 さらに、生成された画像は確率性の度合いがあり、反復せずに何回も局所的にサンプリングすることができる。 我々はboomerangを使用できる3つの応用例を示す。 まず、匿名性制御が可能なプライバシー保護データセットを構築するためのフレームワークを提供する。 次に,画像多様体上に留まりながら,データ拡張にBoomerangを使用する方法を示す。 第3に,8倍のアップサンプリングによる画像超解像のためのフレームワークを提案する。 Boomerangは拡散モデルのトレーニングを一切必要とせず、単一の安価なGPU上で事前訓練されたモデルで使用することができる。

Diffusion models can be viewed as mapping points in a high-dimensional latent space onto a low-dimensional learned manifold, typically an image manifold. The intermediate values between the latent space and image manifold can be interpreted as noisy images which are determined by the noise scheduling scheme employed during pre-training. We exploit this interpretation to introduce Boomerang, a local image manifold sampling approach using the dynamics of diffusion models. We call it Boomerang because we first add noise to an input image, moving it closer to the latent space, then bring it back to the image space through diffusion dynamics. We use this method to generate images which are similar, but nonidentical, to the original input images on the image manifold. We are able to set how close the generated image is to the original based on how much noise we add. Additionally, the generated images have a degree of stochasticity, allowing us to locally sample as many times as we want without repetition. We show three applications for which Boomerang can be used. First, we provide a framework for constructing privacy-preserving datasets having controllable degrees of anonymity. Second, we show how to use Boomerang for data augmentation while staying on the image manifold. Third, we introduce a framework for image super-resolution with 8x upsampling. Boomerang does not require any modification to the training of diffusion models and can be used with pretrained models on a single, inexpensive GPU.
翻訳日:2022-10-24 13:34:27 公開日:2022-10-21
# 畳み込み型知識グラフ埋め込みのためのマルチリレーションのモデル化

Modelling Multi-relations for Convolutional-based Knowledge Graph Embedding ( http://arxiv.org/abs/2210.11711v1 )

ライセンス: Link先を確認
Sirui Li, Kok Wai Wong, Dengya Zhu, Chun Che Fung(参考訳) 知識グラフの表現学習は、エンティティと関係を低次元ベクトルに埋め込むことを目的としている。 既存の作業の多くは、エンティティペア間の直接的な関係やパスのみを考慮する。 このようなアプローチは、エンティティペア間のマルチリレーションのセマンティック接続を切断し、畳み込み型およびマルチリレーショナルな表現学習モデルであるConvMRを提案する。 提案するconvmrモデルは,(1)エンティティ対間の多重関係を意味接続を維持する統一ベクトルに符号化する,という2つの側面でマルチリレーション問題に対処する。 2)複数の関係を結合するときに全ての関係が必要なわけではないので,意味階層に基づく異なる関係に対して重みを自動的に割り当てる注意に基づく関係エンコーダを提案する。 2つの一般的なデータセットであるFB15k-237とWN18RRの実験結果は、平均階数に対して一貫した改善が達成された。 また、ConvMRは少ない頻度のエンティティを扱うのに効率的であることもわかりました。

Representation learning of knowledge graphs aims to embed entities and relations into low-dimensional vectors. Most existing works only consider the direct relations or paths between an entity pair. It is considered that such approaches disconnect the semantic connection of multi-relations between an entity pair, and we propose a convolutional and multi-relational representation learning model, ConvMR. The proposed ConvMR model addresses the multi-relation issue in two aspects: (1) Encoding the multi-relations between an entity pair into a unified vector that maintains the semantic connection. (2) Since not all relations are necessary while joining multi-relations, we propose an attention-based relation encoder to automatically assign weights to different relations based on semantic hierarchy. Experimental results on two popular datasets, FB15k-237 and WN18RR, achieved consistent improvements on the mean rank. We also found that ConvMR is efficient to deal with less frequent entities.
翻訳日:2022-10-24 13:33:47 公開日:2022-10-21
# プロジェクションによる拡張:蒸留のための効率的かつ効率的なデータ拡張パラダイムを目指して

Augmentation with Projection: Towards an Effective and Efficient Data Augmentation Paradigm for Distillation ( http://arxiv.org/abs/2210.11768v1 )

ライセンス: Link先を確認
Ziqi Wang, Yuexin Wu, Frederick Liu, Daogao Liu, Le Hou, Hongkun Yu, Jing Li, Heng Ji(参考訳) 知識蒸留は大きなモデルから小さなモデルに知識を移す主要な方法の1つである。 しかし、大量のタスク固有のデータを必要とするため、現実のアプリケーションでは実現不可能かもしれない。 この問題を解決するために,表現補間,トークン置換,モデル拡張などのデータ拡張手法が適用されている。 しかし、これらのデータ拡張手法は、決定境界の変化(表現補間)を引き起こす可能性があり、十分に表現力に欠ける(分岐置換)か、計算オーバーヘッドを過剰に導入する(モデルによる拡張)。 そこで本研究では,蒸留のための有効かつ効率的なデータ拡張法である augpro (augmentation with projection) を提案する。 本手法は表現補間拡張手法の上に構築し,表現の多様性を維持し,拡張データをトークンに変換することにより,決定境界のシフトを回避する。 計算のオーバーヘッドが少ない単純な操作を使う。 複数のGLUEタスクの結果から,本手法は低コストで蒸留性能を高いマージンで向上させることができることが示された。

Knowledge distillation is one of the primary methods of transferring knowledge from large to small models. However, it requires massive task-specific data, which may not be plausible in many real-world applications. Data augmentation methods such as representation interpolation, token replacement, or augmentation with models are applied to tackle this problem. However, these data augmentation methods either potentially cause shifts in decision boundaries (representation interpolation), are not expressive enough (token replacement), or introduce too much computational overhead (augmentation with models). To this end, we propose AugPro (Augmentation with Projection), an effective and efficient data augmentation method for distillation. Our method builds on top of representation interpolation augmentation methods to maintain the diversity of expressions and converts the augmented data to tokens to avoid shifting decision boundaries. It uses simple operations that come with little computational overhead. The results on multiple GLUE tasks show that our methods can improve distillation performance by a large margin at a low time cost.
翻訳日:2022-10-24 13:33:33 公開日:2022-10-21
# LittleBird: 質問応答のための高速でより長い変換器

LittleBird: Efficient Faster & Longer Transformer for Question Answering ( http://arxiv.org/abs/2210.11870v1 )

ライセンス: Link先を確認
Minchul Lee (1), Kijong Han (1), Myeong Cheol Shin (1) ((1) Kakao Enterprise Corp.)(参考訳) BERTは様々なNLPタスクで多くのサスメントを示してきた。 しかし、注意機構のために長い入力を扱う制限がある。 Longformer、ETC、BigBirdはこの問題に対処し、2次依存性問題を効果的に解決した。 しかし,これらのモデルでは不十分であることが判明し,精度を保ちながら速度とメモリフットプリントを改善した,BigBirdをベースとした新しいモデルであるLittleBirdを提案する。 特に,Attention with Linear Biases (ALiBi) に基づく,より柔軟で効率的な位置表現法を提案する。 また,bigbird に代表されるグローバル情報を pack や unpack attention に置き換えることがより効果的であることを示す。 提案モデルでは,短い入力を事前学習した後でも長い入力を処理でき,既存の事前学習された言語モデルを短時間入力に効率的に再利用できる。 これは、大量の長いテキストデータを得るのが難しい低リソース言語にとって大きな利点である。 その結果、LittleBirdは様々な言語で非常にうまく機能し、特にKorQuAD2.0, Korean Question Answering Datasetにおいて、質問応答タスクの高性能化を実現していることがわかった。

BERT has shown a lot of sucess in a wide variety of NLP tasks. But it has a limitation dealing with long inputs due to its attention mechanism. Longformer, ETC and BigBird addressed this issue and effectively solved the quadratic dependency problem. However we find that these models are not sufficient, and propose LittleBird, a novel model based on BigBird with improved speed and memory footprint while maintaining accuracy. In particular, we devise a more flexible and efficient position representation method based on Attention with Linear Biases (ALiBi). We also show that replacing the method of global information represented in the BigBird with pack and unpack attention is more effective. The proposed model can work on long inputs even after being pre-trained on short inputs, and can be trained efficiently reusing existing pre-trained language model for short inputs. This is a significant benefit for low-resource languages where large amounts of long text data are difficult to obtain. As a result, our experiments show that LittleBird works very well in a variety of languages, achieving high performance in question answering tasks, particularly in KorQuAD2.0, Korean Question Answering Dataset for long paragraphs.
翻訳日:2022-10-24 13:33:16 公開日:2022-10-21
# 適応に固定する: 後評価を同時機械翻訳に統合する

Turning Fixed to Adaptive: Integrating Post-Evaluation into Simultaneous Machine Translation ( http://arxiv.org/abs/2210.11900v1 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(simt)は、原文全体を読む前に翻訳を開始し、対象文を生成するために固定的または適応的ポリシーを使用する。 固定ポリシーと比較して、適応ポリシーは柔軟な翻訳ポリシーを採用することで、より良いレイテンシー品質のトレードオフを実現する。 政策が行動を起こす前に合理性を評価することができれば、誤った行動の確率も減少する。 しかし, 従来の手法では, 行動評価が不十分であった。 本稿では,固定政策にポスト評価を統合することで適応政策を実行する手法を提案する。 具体的には、候補トークンが生成されるたびに、ソース内容の変化を測定して次のアクションの合理性を評価する。 我々のモデルは評価結果に基づいて異なる行動を取る。 3つの翻訳タスクを実験した結果,本手法はすべてのレイテンシで強いベースラインを超越できることがわかった。

Simultaneous machine translation (SiMT) starts its translation before reading the whole source sentence and employs either fixed or adaptive policy to generate the target sentence. Compared to the fixed policy, the adaptive policy achieves better latency-quality tradeoffs by adopting a flexible translation policy. If the policy can evaluate rationality before taking action, the probability of incorrect actions will also decrease. However, previous methods lack evaluation of actions before taking them. In this paper, we propose a method of performing the adaptive policy via integrating post-evaluation into the fixed policy. Specifically, whenever a candidate token is generated, our model will evaluate the rationality of the next action by measuring the change in the source content. Our model will then take different actions based on the evaluation results. Experiments on three translation tasks show that our method can exceed strong baselines under all latency.
翻訳日:2022-10-24 13:32:57 公開日:2022-10-21
# WikiWhy:原因と影響に関する質問の回答と説明

WikiWhy: Answering and Explaining Cause-and-Effect Questions ( http://arxiv.org/abs/2210.12152v1 )

ライセンス: Link先を確認
Matthew Ho, Aditya Sharma, Justin Chang, Michael Saxon, Sharon Levy, Yujie Lu, William Yang Wang(参考訳) 大規模言語モデル(LLM)が大きくなるにつれて、自然言語の「推論」能力を評価することがより困難になる。 推論を評価するための最近のQAベンチマークは、しばしばカバーされた状況や課題の狭い範囲によって制限される。 WikiWhyは、自然言語で答えが正しい理由を説明する、新しい補助タスクを中心に構築されたQAデータセットである。 WikiWhyには、ウィキペディアのさまざまなトピックの事実に基づいて、9000以上の「なぜ」質問回答の3つ組が含まれている。 それぞれの理性は、質問と回答を結びつける一連の支持文である。 WikiWhy は LLM の推論能力のベンチマークとして機能し、暗黙のコモンセンス知識の獲得を示すために、各回答に対して厳密な明確な論理的根拠を要求するため、容易に記憶される可能性が低い。 GPT-3ベースラインは、エンドツーエンドの回答と説明条件において、人間の評価された正確さを38.7%しか達成していない。

As large language models (LLMs) grow larger and more sophisticated, assessing their "reasoning" capabilities in natural language grows more challenging. Recent question answering (QA) benchmarks that attempt to assess reasoning are often limited by a narrow scope of covered situations and subject matters. We introduce WikiWhy, a QA dataset built around a novel auxiliary task: explaining why an answer is true in natural language. WikiWhy contains over 9,000 "why" question-answer-rationale triples, grounded on Wikipedia facts across a diverse set of topics. Each rationale is a set of supporting statements connecting the question to the answer. WikiWhy serves as a benchmark for the reasoning capabilities of LLMs because it demands rigorous explicit rationales for each answer to demonstrate the acquisition of implicit commonsense knowledge, which is unlikely to be easily memorized. GPT-3 baselines achieve only 38.7% human-evaluated correctness in the end-to-end answer & explain condition, leaving significant room for future improvements.
翻訳日:2022-10-24 13:32:45 公開日:2022-10-21
# LiteVL:空間時間モデリングによる効率的なビデオ言語学習

LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling ( http://arxiv.org/abs/2210.11929v1 )

ライセンス: Link先を確認
Dongsheng Chen, Chaofan Tao, Lu Hou, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 最近の大規模ビデオ言語プレトレーニングモデルでは、下流の様々なタスクで魅力的なパフォーマンスが示されている。 しかし、何百万ものビデオテキストペアと各ビデオの冗長なデータ構造を必要とするため、事前学習プロセスは計算コストが高い。 これらの問題を緩和するため,本研究では,事前学習された画像言語モデルblipを,ダウンストリームタスクから直接ビデオテキストモデルに適用するlitevlを提案する。 画像言語モデルに欠けている時間的モデリングを強化するために,blipの画像エンコーダに時間的注意モジュールを動的時間的スケーリングで付加する。 モデル順応の他に,テキスト上の細粒度映像埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構も提案する。 テキスト・ビデオ検索とビデオ質問応答実験の結果,本提案手法は,ビデオ言語事前学習を伴わずに,先行するビデオ言語事前学習モデルよりも明らかに優れていた。

Recent large-scale video-language pre-trained models have shown appealing performance on various downstream tasks. However, the pre-training process is computationally expensive due to the requirement of millions of video-text pairs and the redundant data structure of each video. To mitigate these problems, we propose LiteVL, which adapts a pre-trained image-language model BLIP into a video-text model directly on downstream tasks, without heavy pre-training. To enhance the temporal modeling lacking in the image-language model, we propose to add temporal attention modules in the image encoder of BLIP with dynamic temporal scaling. Besides the model-wise adaptation, we also propose a non-parametric pooling mechanism to adaptively reweight the fine-grained video embedding conditioned on the text. Experimental results on text-video retrieval and video question answering show that the proposed LiteVL even outperforms previous video-language pre-trained models by a clear margin, though without any video-language pre-training.
翻訳日:2022-10-24 13:32:27 公開日:2022-10-21
# 視覚・言語変換者は接地述語・名詞依存を学習するか?

Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies? ( http://arxiv.org/abs/2210.12079v1 )

ライセンス: Link先を確認
Mitja Nikolaus, Emmanuelle Salin, Stephane Ayache, Abdellah Fourtassi, Benoit Favre(参考訳) 近年の視覚・言語モデリングの進歩により,マルチモーダル推論タスクにおいて優れた性能を発揮するトランスフォーマーアーキテクチャが開発されている。 しかし、ブラックボックスモデルの正確な能力はまだよく分かっていない。 従来の研究の多くは、単語レベルで意味を学習する能力の研究に焦点を合わせてきたが、単語間の統語的依存関係を追跡する能力は、あまり注目されなかった。 制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした、新しいマルチモーダルタスクを作成することで、このギャップを埋める第一歩を踏み出す。 我々は,様々な最先端モデルの評価を行い,その課題におけるそれらの性能が,比較的よく機能するモデルや,偶然のレベルでの他のモデルと大きく異なることを見出した。 この変動性を説明するために,本研究では,事前学習データの質(および量だけでなく)が重要であることを示す。 さらに、最高のパフォーマンスモデルは、標準的な画像テキストマッチング目的に加えて、きめ細かいマルチモーダル事前学習目標を利用する。 本研究は,視覚・言語モデルのマルチモーダル知識の正確かつ厳密なテストにおいて,目標評価と制御評価が重要なステップであることを強調する。

Recent advances in vision-and-language modeling have seen the development of Transformer architectures that achieve remarkable performance on multimodal reasoning tasks. Yet, the exact capabilities of these black-box models are still poorly understood. While much of previous work has focused on studying their ability to learn meaning at the word-level, their ability to track syntactic dependencies between words has received less attention. We take a first step in closing this gap by creating a new multimodal task targeted at evaluating understanding of predicate-noun dependencies in a controlled setup. We evaluate a range of state-of-the-art models and find that their performance on the task varies considerably, with some models performing relatively well and others at chance level. In an effort to explain this variability, our analyses indicate that the quality (and not only sheer quantity) of pretraining data is essential. Additionally, the best performing models leverage fine-grained multimodal pretraining objectives in addition to the standard image-text matching objectives. This study highlights that targeted and controlled evaluations are a crucial step for a precise and rigorous test of the multimodal knowledge of vision-and-language models.
翻訳日:2022-10-24 13:32:07 公開日:2022-10-21
# エンコーダデコーダはニューラルネットワークの翻訳に冗長か?

Is Encoder-Decoder Redundant for Neural Machine Translation? ( http://arxiv.org/abs/2210.11807v1 )

ライセンス: Link先を確認
Yingbo Gao, Christian Herold, Zijian Yang, Hermann Ney(参考訳) エンコーダ-デコーダアーキテクチャはシーケンス-シーケンス間のモデリングタスクに広く採用されている。 機械翻訳では、長期の短期記憶ネットワークからトランスフォーマーネットワークへの進化とアテンション機構の導入と開発にもかかわらず、エンコーダ・デコーダは最先端モデルのためのデファクトニューラルネットワークアーキテクチャである。 隠された空間から情報をデコードする動機は単純であるが、エンコーダとモデルアーキテクチャにおけるデコーダへのエンコーダとデコードステップの厳密な分離は必ずしも必須ではない。 対象言語における自己回帰言語モデリングのタスクと比較して、機械翻訳は文脈として追加のソース文を持つ。 現在のニューラル言語モデルは、ターゲット言語のかなり長いコンテキストを既に処理できるという事実を考えると、単にソースとターゲット文を結合し、翻訳を行うための言語モデルをトレーニングするかどうかを問うのは自然である。 本稿では,上述の機械翻訳の概念について検討する。 具体的には、バイリンガル翻訳、ターゲット単言語データによる翻訳、多言語翻訳を実験する。 いずれの場合も、この代替アプローチはベースラインエンコーダ-デコーダ変換と同等に動作し、エンコーダ-デコーダアーキテクチャがニューラルネットワークの変換に冗長である可能性を示唆している。

Encoder-decoder architecture is widely adopted for sequence-to-sequence modeling tasks. For machine translation, despite the evolution from long short-term memory networks to Transformer networks, plus the introduction and development of attention mechanism, encoder-decoder is still the de facto neural network architecture for state-of-the-art models. While the motivation for decoding information from some hidden space is straightforward, the strict separation of the encoding and decoding steps into an encoder and a decoder in the model architecture is not necessarily a must. Compared to the task of autoregressive language modeling in the target language, machine translation simply has an additional source sentence as context. Given the fact that neural language models nowadays can already handle rather long contexts in the target language, it is natural to ask whether simply concatenating the source and target sentences and training a language model to do translation would work. In this work, we investigate the aforementioned concept for machine translation. Specifically, we experiment with bilingual translation, translation with additional target monolingual data, and multilingual translation. In all cases, this alternative approach performs on par with the baseline encoder-decoder Transformer, suggesting that an encoder-decoder architecture might be redundant for neural machine translation.
翻訳日:2022-10-24 13:25:54 公開日:2022-10-21
# クエリ提案のためのニューラルリトリバーの潜在空間のデコード

Decoding a Neural Retriever's Latent Space for Query Suggestion ( http://arxiv.org/abs/2210.12084v1 )

ライセンス: Link先を確認
Leonard Adolphs, Michelle Chen Huebscher, Christian Buck, Sertan Girgin, Olivier Bachem, Massimiliano Ciaramita, Thomas Hofmann(参考訳) ニューラル検索モデルは、bm25のような古典的な単語のバッグ・オブ・ワード法を検索フレームワークとして置き換えた。 しかし、ニューラルネットワークは、単語の袋モデルの解釈性に欠けており、クエリの変更を最終的に検索結果を決定する潜在空間の変更につなぐことは自明ではない。 この埋め込み空間に光を当てるために、ニューラルネットワークの潜在表現が与えられた場合、対応するクエリを生成する"クエリデコーダ"を学習する。 我々は,その潜在表現から有意義なクエリをデコードすることができ,また,潜在空間で正しい方向に移動する場合,関連する段落を取得するクエリをデコードできることを示す。 特に、クエリデコーダは、コレクションから特定の段落を取得するために「何を要求すべきか」を理解するのに役立ちます。 我々はクエリデコーダを用いてmsmarcoのクエリ変換の大規模な合成データセットを生成し,検索性能の向上に繋がる。 このデータに基づいて、クエリ修正とPRF情報検索ベースラインの両方に優れるクエリ提案の適用のために、擬似関連フィードバック(PRF)T5モデルを訓練する。

Neural retrieval models have superseded classic bag-of-words methods such as BM25 as the retrieval framework of choice. However, neural systems lack the interpretability of bag-of-words models; it is not trivial to connect a query change to a change in the latent space that ultimately determines the retrieval results. To shed light on this embedding space, we learn a "query decoder" that, given a latent representation of a neural search engine, generates the corresponding query. We show that it is possible to decode a meaningful query from its latent representation and, when moving in the right direction in latent space, to decode a query that retrieves the relevant paragraph. In particular, the query decoder can be useful to understand "what should have been asked" to retrieve a particular paragraph from the collection. We employ the query decoder to generate a large synthetic dataset of query reformulations for MSMarco, leading to improved retrieval performance. On this data, we train a pseudo-relevance feedback (PRF) T5 model for the application of query suggestion that outperforms both query reformulation and PRF information retrieval baselines.
翻訳日:2022-10-24 13:25:29 公開日:2022-10-21
# 高次元の不確実性定量化のためのベイズディープラーニングフレームワーク

Bayesian deep learning framework for uncertainty quantification in high dimensions ( http://arxiv.org/abs/2210.11737v1 )

ライセンス: Link先を確認
Jeahan Jung, Minseok Choi(参考訳) ベイズニューラルネットワーク(BNN)とハミルトニアン・モンテカルロ(HMC)に基づく確率偏微分方程式の不確実性定量化のための新しいディープラーニング手法を開発した。 bnnは、ネットワークパラメータのベイズ推定を行うことにより、ディープニューラルネットワークにおけるパラメータの後方分布を効率的に学習する。 後部分布は、HMCを用いて効率よくサンプリングされ、システムの不確かさを定量化する。 提案手法の有効性を示すために,高次元における前方問題と逆問題の両方にいくつかの数値例を示す。 これらはまた、計算コストがいわゆる次元の呪いに取り組む方法の可能性を示す問題の次元とほとんど独立である有望な結果も示している。

We develop a novel deep learning method for uncertainty quantification in stochastic partial differential equations based on Bayesian neural network (BNN) and Hamiltonian Monte Carlo (HMC). A BNN efficiently learns the posterior distribution of the parameters in deep neural networks by performing Bayesian inference on the network parameters. The posterior distribution is efficiently sampled using HMC to quantify uncertainties in the system. Several numerical examples are shown for both forward and inverse problems in high dimension to demonstrate the effectiveness of the proposed method for uncertainty quantification. These also show promising results that the computational cost is almost independent of the dimension of the problem demonstrating the potential of the method for tackling the so-called curse of dimensionality.
翻訳日:2022-10-24 13:25:07 公開日:2022-10-21
# ベイズ最適化と記号的最適輸送による構造カーネル探索

Structural Kernel Search via Bayesian Optimization and Symbolical Optimal Transport ( http://arxiv.org/abs/2210.11836v1 )

ライセンス: Link先を確認
Matthias Bitzer, Mona Meister, Christoph Zimmer(参考訳) 近年の機械学習の進歩にもかかわらず、モデル選択は複雑で計算集約的なプロセスである。 ガウス過程(GP)では、カーネルの選択は重要なタスクであり、しばしば専門家が手動で行う。 さらに、ガウス過程のモデル選択基準の評価は、典型的にはサンプルサイズで立方的にスケールし、カーネル探索を特に計算コストの高いものにする。 本稿では,カーネル空間を包含する新しい効率的な探索法を提案する。 これまでの手法ではベイズ最適化を用いてこの問題を解き、関数空間内で直接GP間の距離を測定してカーネルを構成する。 本稿では,カーネルに関連付けられた統計的仮説のシンボリック表現に対してカーネルを定義することで,別のアプローチを提案する。 これは、離散カーネル空間を探索するより効率的な計算方法につながることを実証的に示す。

Despite recent advances in automated machine learning, model selection is still a complex and computationally intensive process. For Gaussian processes (GPs), selecting the kernel is a crucial task, often done manually by the expert. Additionally, evaluating the model selection criteria for Gaussian processes typically scales cubically in the sample size, rendering kernel search particularly computationally expensive. We propose a novel, efficient search method through a general, structured kernel space. Previous methods solved this task via Bayesian optimization and relied on measuring the distance between GP's directly in function space to construct a kernel-kernel. We present an alternative approach by defining a kernel-kernel over the symbolic representation of the statistical hypothesis that is associated with a kernel. We empirically show that this leads to a computationally more efficient way of searching through a discrete kernel space.
翻訳日:2022-10-24 13:24:56 公開日:2022-10-21
# 最適輸送のための不定形凸共役について

On amortizing convex conjugates for optimal transport ( http://arxiv.org/abs/2210.12153v1 )

ライセンス: Link先を確認
Brandon Amos(参考訳) 本稿では,ユークリッド型ワッサーシュタイン2の最適輸送問題を解く際に生じる凸共役演算の計算に着目する。 この共役はルジャンドル・フェンシェル共役 (legendre-fenchel conjugate) や $c$-transform とも呼ばれ、計算が難しく、実際には、連続空間における双対ポテンシャルを正確に共役化できないため、ワッサースタイン-2法は制限される。 微調整のための解法を共役器と組み合わせることが計算上容易であることを示す。 この組み合わせは、korotin et al. (2021)によるwasserstein-2ベンチマークで学んだ輸送マップの品質を大幅に改善し、文献で考慮された多くの2次元結合と流れをモデル化することができる。 この論文のすべてのベースライン、メソッド、およびソルバはhttp://github.com/facebookresearch/w2otで入手できる。

This paper focuses on computing the convex conjugate operation that arises when solving Euclidean Wasserstein-2 optimal transport problems. This conjugation, which is also referred to as the Legendre-Fenchel conjugate or $c$-transform, is considered difficult to compute and in practice, Wasserstein-2 methods are limited by not being able to exactly conjugate the dual potentials in continuous space. I show that combining amortized approximations to the conjugate with a solver for fine-tuning is computationally easy. This combination significantly improves the quality of transport maps learned for the Wasserstein-2 benchmark by Korotin et al. (2021) and is able to model many 2-dimensional couplings and flows considered in the literature. All of the baselines, methods, and solvers in this paper are available at http://github.com/facebookresearch/w2ot
翻訳日:2022-10-24 13:24:42 公開日:2022-10-21
# 男性は洗濯もする:マルチ属性バイアス増幅

Men Also Do Laundry: Multi-Attribute Bias Amplification ( http://arxiv.org/abs/2210.11924v1 )

ライセンス: Link先を確認
Dora Zhao, Jerone T.A. Andrews, Alice Xiang(参考訳) コンピュータビジョンシステムがより広く展開されるにつれて、研究コミュニティと一般の双方から、これらのシステムは再生だけでなく、有害な社会的バイアスを増幅しているという懸念が高まっている。 この研究の焦点であるバイアス増幅の現象は、テスト時に固有のトレーニングセットのバイアスを増幅するモデルを指す。 既存のメトリクスは、単一のアノテート属性(例えば$\texttt{ computer}$)に対するバイアス増幅を測定する。 しかし、いくつかのビジュアルデータセットは複数の属性アノテーションを持つイメージで構成されている。 モデルが複数の属性(例えば {$\texttt{computer}$, $\texttt{keyboard}$})に対する相関を活用できることを示す。 さらに,現在の指標は,正の値と負の値の集約を伴うバイアス増幅が最小あるいは全く発生していないという誤った印象を与える。 さらに、これらのメトリクスには明確な望ましい価値がなく、解釈が難しい。 これらの欠点に対処するため,我々はマルチ属性バイアス増幅という新しい指標を提案する。 提案手法は,COCOおよびImsituデータセットにおける性別バイアス増幅の分析を通じて検証する。 最後に,提案手法を用いたバイアス緩和手法のベンチマークを行い,将来のバイアス軽減への道筋を示唆する。

As computer vision systems become more widely deployed, there is increasing concern from both the research community and the public that these systems are not only reproducing but amplifying harmful social biases. The phenomenon of bias amplification, which is the focus of this work, refers to models amplifying inherent training set biases at test time. Existing metrics measure bias amplification with respect to single annotated attributes (e.g., $\texttt{computer}$). However, several visual datasets consist of images with multiple attribute annotations. We show models can learn to exploit correlations with respect to multiple attributes (e.g., {$\texttt{computer}$, $\texttt{keyboard}$}), which are not accounted for by current metrics. In addition, we show current metrics can give the erroneous impression that minimal or no bias amplification has occurred as they involve aggregating over positive and negative values. Further, these metrics lack a clear desired value, making them difficult to interpret. To address these shortcomings, we propose a new metric: Multi-Attribute Bias Amplification. We validate our proposed metric through an analysis of gender bias amplification on the COCO and imSitu datasets. Finally, we benchmark bias mitigation methods using our proposed metric, suggesting possible avenues for future bias mitigation
翻訳日:2022-10-24 13:23:40 公開日:2022-10-21
# 単一画像からのロボット物体操作のためのニューラルフィールド

Neural Fields for Robotic Object Manipulation from a Single Image ( http://arxiv.org/abs/2210.12126v1 )

ライセンス: Link先を確認
Valts Blukis, Taeyeop Lee, Jonathan Tremblay, Bowen Wen, In So Kweon, Kuk-Jin Yoon, Dieter Fox, Stan Birchfield(参考訳) 本稿では,オブジェクトレンダリングのための統一的かつコンパクトな表現,3次元再構成,および1つの画像から数秒以内に推測可能なポーズ予測の把握について述べる。 近年のNeural Radiance Field(NeRF)文学の進歩を利用して、カテゴリレベルの事前学習と、最小限のデータと時間で新しいオブジェクトの微調整を実現している。 我々の洞察は、コンパクトな形状表現を学習し、ポーズの把握のような意味のある追加情報を抽出できるということである。 これは、二次ネットワークや/または表現を経由するのではなく、単一視点(RGBのみ)を用いて、NeRFベースの表現から直接把握されたポーズを検索する最初の作業であると考えている。 先行技術と比較した場合,本手法は2桁から3桁小さいが,復元と把持では同等の性能が得られる。 また,異なる幅のグリップのポーズをつかむsim-2-real NeRF法を訓練するための新しい靴のデータセットを提案する。

We present a unified and compact representation for object rendering, 3D reconstruction, and grasp pose prediction that can be inferred from a single image within a few seconds. We achieve this by leveraging recent advances in the Neural Radiance Field (NeRF) literature that learn category-level priors and fine-tune on novel objects with minimal data and time. Our insight is that we can learn a compact shape representation and extract meaningful additional information from it, such as grasping poses. We believe this to be the first work to retrieve grasping poses directly from a NeRF-based representation using a single viewpoint (RGB-only), rather than going through a secondary network and/or representation. When compared to prior art, our method is two to three orders of magnitude smaller while achieving comparable performance at view reconstruction and grasping. Accompanying our method, we also propose a new dataset of rendered shoes for training a sim-2-real NeRF method with grasping poses for different widths of grippers.
翻訳日:2022-10-24 13:23:23 公開日:2022-10-21
# 確率的動きパターン予測による教師なしマルチオブジェクトセグメンテーション

Unsupervised Multi-object Segmentation by Predicting Probable Motion Patterns ( http://arxiv.org/abs/2210.12148v1 )

ライセンス: Link先を確認
Laurynas Karazija, Subhabrata Choudhury, Iro Laina, Christian Rupprecht, Andrea Vedaldi(参考訳) 手動による監督なしに複数の画像オブジェクトを分割する手法を提案する。 この方法は静止画像からオブジェクトを抽出するが、監視のためにビデオを使用する。 先行研究は、セグメンテーションのための動きを検討したが、重要な洞察は、動きは物体を識別するために使用できるが、すべての物体が必ずしも動いているとは限らないことである。 そこで,本モデルでは,物体の運動パターンが強固に動きやすい画像領域の予測を学習する。 静止画像から明確にはできない特定の動きを予測するのではなく、物体が全く動かない可能性を含む可能性のある動きの分布を予測する。 提案手法の利点は決定論的手法に勝るもので,シミュレーションおよび実世界のベンチマーク上での最先端の非教師対象セグメンテーション性能を示し,テスト時にも動作を利用する手法を超越している。 本手法はシーンを分割する様々なネットワークアーキテクチャに適用できるため,既存の画像再構成モデルにも適用でき,大幅な改善が期待できる。 プロジェクトページとコード:https://www.robots.ox.uk/~vgg/research/ppmp

We propose a new approach to learn to segment multiple image objects without manual supervision. The method can extract objects form still images, but uses videos for supervision. While prior works have considered motion for segmentation, a key insight is that, while motion can be used to identify objects, not all objects are necessarily in motion: the absence of motion does not imply the absence of objects. Hence, our model learns to predict image regions that are likely to contain motion patterns characteristic of objects moving rigidly. It does not predict specific motion, which cannot be done unambiguously from a still image, but a distribution of possible motions, which includes the possibility that an object does not move at all. We demonstrate the advantage of this approach over its deterministic counterpart and show state-of-the-art unsupervised object segmentation performance on simulated and real-world benchmarks, surpassing methods that use motion even at test time. As our approach is applicable to variety of network architectures that segment the scenes, we also apply it to existing image reconstruction-based models showing drastic improvement. Project page and code: https://www.robots.ox.ac.uk/~vgg/research/ppmp .
翻訳日:2022-10-24 13:23:05 公開日:2022-10-21
# 良性および敵対的訓練下での神経接核の進化

Evolution of Neural Tangent Kernels under Benign and Adversarial Training ( http://arxiv.org/abs/2210.12030v1 )

ライセンス: Link先を確認
Noel Loo, Ramin Hasani, Alexander Amini, Daniela Rus(参考訳) 現代のディープラーニングに直面する2つの重要な課題は、敵の攻撃に対するディープネットワークの脆弱性の緩和と、ディープラーニングの一般化能力の理解である。 第1号に向けて、多くの防衛戦略が開発され、最も一般的なのは敵訓練(AT)である。 第2の課題として、神経接核(neural tangent kernel, ntk)は無限幅限界におけるニューラルネットワークの挙動を特徴づける理論である。 この制限では、カーネルは凍結され、基盤となる機能マップは固定される。 しかしながら、有限幅では、カーネルが固定された第2フェーズの前に、機能学習がトレーニングの初期段階(カーネル学習)で起こるという証拠がある(ラジートレーニング)。 従来の研究は、凍った無限幅NTKのレンズを通して敵の脆弱性を研究することを目的としていたが、訓練中に経験的/有限NTKの敵の堅牢性を研究する研究は存在しない。 本研究は,標準的および敵対的訓練における経験的ntkの進化に関する実証研究を行い,攻撃的訓練がカーネル学習と怠け者訓練に与える影響を曖昧にすることを目的とした。 敵対的トレーニングでは、経験的NTKは標準トレーニングとは異なるカーネル(および特徴マップ)に急速に収束する。 この新しいカーネルは、その上に非ロバストトレーニングを実行しても、逆の堅牢性を提供します。 さらに、固定カーネル上での敵対的トレーニングは、cifar-10上で$\varepsilon = 4/255$のpgd攻撃において、76.1\%$ロバストな精度を持つ分類器を得ることができる。

Two key challenges facing modern deep learning are mitigating deep networks' vulnerability to adversarial attacks and understanding deep learning's generalization capabilities. Towards the first issue, many defense strategies have been developed, with the most common being Adversarial Training (AT). Towards the second challenge, one of the dominant theories that has emerged is the Neural Tangent Kernel (NTK) -- a characterization of neural network behavior in the infinite-width limit. In this limit, the kernel is frozen, and the underlying feature map is fixed. In finite widths, however, there is evidence that feature learning happens at the earlier stages of the training (kernel learning) before a second phase where the kernel remains fixed (lazy training). While prior work has aimed at studying adversarial vulnerability through the lens of the frozen infinite-width NTK, there is no work that studies the adversarial robustness of the empirical/finite NTK during training. In this work, we perform an empirical study of the evolution of the empirical NTK under standard and adversarial training, aiming to disambiguate the effect of adversarial training on kernel learning and lazy training. We find under adversarial training, the empirical NTK rapidly converges to a different kernel (and feature map) than standard training. This new kernel provides adversarial robustness, even when non-robust training is performed on top of it. Furthermore, we find that adversarial training on top of a fixed kernel can yield a classifier with $76.1\%$ robust accuracy under PGD attacks with $\varepsilon = 4/255$ on CIFAR-10.
翻訳日:2022-10-24 13:17:01 公開日:2022-10-21
# ランダム特徴近似を用いた効率的なデータセット蒸留

Efficient Dataset Distillation Using Random Feature Approximation ( http://arxiv.org/abs/2210.12067v1 )

ライセンス: Link先を確認
Noel Loo, Ramin Hasani, Alexander Amini, Daniela Rus(参考訳) データセット蒸留は、大きなデータセットを小さな合成コアに圧縮し、ストレージとデータセット全体の処理の計算負荷を減らすことを目的として、パフォーマンスを維持する。 今日の最も優れたアルゴリズムである \textit{kernel induced points} (kip) は、無限幅ニューラルネットワークとカーネルリッジ回帰(kernel-ridge regression)の対応を利用しており、神経接核行列の正確な計算により、o(|s|^2)$をスケーリングし、|s|$をコアセットサイズとする。 これを改善するために、ニューラルネットワークガウス過程(NNGP)カーネルのランダムな特徴近似(RFA)を用いて、カーネル行列計算を$O(|S|)$に削減する新しいアルゴリズムを提案する。 我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる新しい手法は、カーネル回帰トレーニングと有限幅ネットワークトレーニングの両方において、大規模なデータセットの精度において、KIPや他のデータセット凝縮アルゴリズムと競合して動作する。 本稿では,モデル解釈性とプライバシー保護に関する課題に対するアプローチの有効性を実証する。

Dataset distillation compresses large datasets into smaller synthetic coresets which retain performance with the aim of reducing the storage and computational burden of processing the entire dataset. Today's best-performing algorithm, \textit{Kernel Inducing Points} (KIP), which makes use of the correspondence between infinite-width neural networks and kernel-ridge regression, is prohibitively slow due to the exact computation of the neural tangent kernel matrix, scaling $O(|S|^2)$, with $|S|$ being the coreset size. To improve this, we propose a novel algorithm that uses a random feature approximation (RFA) of the Neural Network Gaussian Process (NNGP) kernel, which reduces the kernel matrix computation to $O(|S|)$. Our algorithm provides at least a 100-fold speedup over KIP and can run on a single GPU. Our new method, termed an RFA Distillation (RFAD), performs competitively with KIP and other dataset condensation algorithms in accuracy over a range of large-scale datasets, both in kernel regression and finite-width network training. We demonstrate the effectiveness of our approach on tasks involving model interpretability and privacy preservation.
翻訳日:2022-10-24 13:16:35 公開日:2022-10-21
# 確率適応活性化関数

Stochastic Adaptive Activation Function ( http://arxiv.org/abs/2210.11672v1 )

ライセンス: Link先を確認
Kyungsu Lee, Jaeseung Yang, Haeyun Lee, and Jae Youn Hwang(参考訳) ヒトニューロンのシミュレーションと神経伝達機構は、活性化関数の理論的実装に基づくディープニューラルネットワークで実現されている。 しかし、近年の研究では、ニューロンの閾値電位は個々のニューロンの位置や種類によって異なる値を示し、活性化関数は、この変動性を表す点で制限されていると報告されている。 そこで本研究では,単位の位置や入力の文脈に応じて異なるしきい値や適応的なアクティベーションを容易にする,単純かつ効果的なアクティベーション関数を提案する。 さらに,提案したアクティベーション関数は,より一般化されたSwishアクティベーション関数を数学的に示し,Adaptive SwisH (ASH) と表現した。 ASHは入力中のトップパーセンタイルに大きな値を示す情報的特徴を強調し、低い値を修正する。 最も重要なことは、ASHは、他のアクティベーション機能と比較して、トレーニング可能、適応可能、およびコンテキスト対応の特性を示すことである。 さらに、ASHは以前に研究した活性化関数の一般公式を表し、優れた性能の数学的背景を提供する。 ASHの有効性とロバスト性を検証するため,分類,検出,セグメンテーション,画像生成など,さまざまなタスクの深層学習モデルにASHを実装した。 実験により,我々のアクティベーション関数は,多くのディープラーニングアプリケーションにおいて,より正確な予測と早期収束の利点を享受できることを示した。

The simulation of human neurons and neurotransmission mechanisms has been realized in deep neural networks based on the theoretical implementations of activation functions. However, recent studies have reported that the threshold potential of neurons exhibits different values according to the locations and types of individual neurons, and that the activation functions have limitations in terms of representing this variability. Therefore, this study proposes a simple yet effective activation function that facilitates different thresholds and adaptive activations according to the positions of units and the contexts of inputs. Furthermore, the proposed activation function mathematically exhibits a more generalized form of Swish activation function, and thus we denoted it as Adaptive SwisH (ASH). ASH highlights informative features that exhibit large values in the top percentiles in an input, whereas it rectifies low values. Most importantly, ASH exhibits trainable, adaptive, and context-aware properties compared to other activation functions. Furthermore, ASH represents general formula of the previously studied activation function and provides a reasonable mathematical background for the superior performance. To validate the effectiveness and robustness of ASH, we implemented ASH into many deep learning models for various tasks, including classification, detection, segmentation, and image generation. Experimental analysis demonstrates that our activation function can provide the benefits of more accurate prediction and earlier convergence in many deep learning applications.
翻訳日:2022-10-24 13:16:11 公開日:2022-10-21
# 深層学習を用いた多言語における医師の手書き処方文認識システム

Doctors Handwritten Prescription Recognition System In Multi Language Using Deep Learning ( http://arxiv.org/abs/2210.11666v1 )

ライセンス: Link先を確認
Pavithiran G, Sharan Padmanabhan, Nuvvuru Divya, Aswathy V, Irene Jerusha P, Chandar B(参考訳) 医師は通常、理解できない手書きで書くため、一般大衆と一部の薬剤師が処方した薬の理解が困難になる。 毎日何十人もの患者を診察し、仕事に没頭させるため、ひっそりと体系的に処方書を書くのは理想的ではない。 これは、典型的な人や薬剤師が適切に読むことができないという短い形や筆記からなる報告や処方書によって、所定の薬品が誤記されるおそれがある。 しかし、地域言語が多様である地域に住んでいるため、地域言語で処方文を書くことに慣れている人もいる。 コンテンツの分析がさらに難しくなる。 そこで、このプロジェクトでは、あらゆる言語で医師の手書きを翻訳できるツールを構築するために、認識システムを使用します。 このシステムは、機能的に完全に自律的なアプリケーションになるでしょう。 ユーザーが処方画像をアップロードすると、プログラムは、画像前処理を実行し、訓練のために画像を処理する前に単語セグメンテーションを行う。 そして、モデルが検出する必要があるすべての言語で実行されます。 また,提案モデルでは,CNN,RNN,LSTMなどの深層学習技術を用いて,モデル学習に活用する。 システムで記述される様々な言語の単語にマッチするために、Unicodeが使用される。 さらに、ファジィ検索とマーケットバスケット分析を用いて、医薬品データベースから最適化され、構造化された出力としてユーザーに表示される最終結果を提供する。

Doctors typically write in incomprehensible handwriting, making it difficult for both the general public and some pharmacists to understand the medications they have prescribed. It is not ideal for them to write the prescription quietly and methodically because they will be dealing with dozens of patients every day and will be swamped with work.As a result, their handwriting is illegible. This may result in reports or prescriptions consisting of short forms and cursive writing that a typical person or pharmacist won't be able to read properly, which will cause prescribed medications to be misspelled. However, some individuals are accustomed to writing prescriptions in regional languages because we all live in an area with a diversity of regional languages. It makes analyzing the content much more challenging. So, in this project, we'll use a recognition system to build a tool that can translate the handwriting of physicians in any language. This system will be made into an application which is fully autonomous in functioning. As the user uploads the prescription image the program will pre-process the image by performing image pre-processing, and word segmentations initially before processing the image for training. And it will be done for every language we require the model to detect. And as of the deduction model will be made using deep learning techniques including CNN, RNN, and LSTM, which are utilized to train the model. To match words from various languages that will be written in the system, Unicode will be used. Furthermore, fuzzy search and market basket analysis are employed to offer an end result that will be optimized from the pharmaceutical database and displayed to the user as a structured output.
翻訳日:2022-10-24 13:15:48 公開日:2022-10-21
# テキストPCAによる画像の集合記述

Describing Sets of Images with Textual-PCA ( http://arxiv.org/abs/2210.12112v1 )

ライセンス: Link先を確認
Oded Hupert, Idan Schwartz, Lior Wolf(参考訳) 我々は、画像の集合を意味的に記述し、単一の画像の属性と集合内のバリエーションの両方をキャプチャする。 我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。 まず、セット内の画像と最も平均的な意味的類似性を持つセントロイド句を生成し、その類似性と生成の計算は、事前訓練された視覚言語モデルに基づいて行われる。 そして、同一モデルを用いて、類似度スコアの最も高い変動を生成するフレーズを生成する。 次のフレーズは、直交する空間において、最も分散度の高いフレーズへの分散を最大化し、プロセスは継続する。 実験により,本手法は画像集合の本質を説得力を持って捉え,個々の要素を集合全体の文脈内で意味的に意味のある方法で記述できることを示した。 私たちのコードは、https://github.com/OdedH/textual-pca.comで利用可能です。

We seek to semantically describe a set of images, capturing both the attributes of single images and the variations within the set. Our procedure is analogous to Principle Component Analysis, in which the role of projection vectors is replaced with generated phrases. First, a centroid phrase that has the largest average semantic similarity to the images in the set is generated, where both the computation of the similarity and the generation are based on pretrained vision-language models. Then, the phrase that generates the highest variation among the similarity scores is generated, using the same models. The next phrase maximizes the variance subject to being orthogonal, in the latent space, to the highest-variance phrase, and the process continues. Our experiments show that our method is able to convincingly capture the essence of image sets and describe the individual elements in a semantically meaningful way within the context of the entire set. Our code is available at: https://github.com/OdedH/textual-pca.
翻訳日:2022-10-24 13:15:23 公開日:2022-10-21
# マルチビュー推論: 単語問題に対する一貫性のあるコントラスト学習

Multi-View Reasoning: Consistent Contrastive Learning for Math Word Problem ( http://arxiv.org/abs/2210.11694v1 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Yanna Ma, Xiaoxia Cheng, Zeqi Tan, Qingpeng Nong, Weiming Lu(参考訳) 数学用語問題解決者は、テキストの量に関する正確な関係推論と、多様な方程式の信頼性の高い生成の両方を必要とする。 現在のシーケンシャル・トゥ・ツリー(英語版)あるいは関係抽出法は、これを固定的な視点からのみ考慮し、複雑な意味論と多様な方程式を同時に扱うのに苦労している。 しかし、人間の解法には自然に二つの一貫した理性的見解がある:トップダウンとボトムアップ(英語版)、数学の方程式も複数の等価な形式で表すことができる:プレオーダーとポストオーダー(英語版)である。 より完全なセマンティクスから方程式マッピングのためのマルチビューコントラスト学習を提案する。 プロセス全体は、トップダウン分解とボトムアップ構成の2つの独立した、一貫したビューに分離されている。 2つの言語にまたがる複数のデータセットの実験は、我々のアプローチが既存のベースライン、特に複雑な問題において著しく優れていることを示している。 また、一貫したアライメントの後、マルチビューは両方のビューのメリットを吸収し、数学的法則に整合したより多様な結果を生成することができることを示す。

Math word problem solver requires both precise relation reasoning about quantities in the text and reliable generation for the diverse equation. Current sequence-to-tree or relation extraction methods regard this only from a fixed view, struggling to simultaneously handle complex semantics and diverse equations. However, human solving naturally involves two consistent reasoning views: top-down and bottom-up, just as math equations also can be expressed in multiple equivalent forms: pre-order and post-order. We propose a multi-view consistent contrastive learning for a more complete semantics-to-equation mapping. The entire process is decoupled into two independent but consistent views: top-down decomposition and bottom-up construction, and the two reasoning views are aligned in multi-granularity for consistency, enhancing global generation and precise reasoning. Experiments on multiple datasets across two languages show our approach significantly outperforms the existing baselines, especially on complex problems. We also show after consistent alignment, multi-view can absorb the merits of both views and generate more diverse results consistent with the mathematical laws.
翻訳日:2022-10-24 13:14:32 公開日:2022-10-21
# 効率的な調整パラメータはタスク埋め込みである

Efficiently Tuned Parameters are Task Embeddings ( http://arxiv.org/abs/2210.11705v1 )

ライセンス: Link先を確認
Wangchunshu Zhou and Canwen Xu and Julian McAuley(参考訳) 中間タスク転送は、適切に選択されたソースデータセットを持つ幅広いnlpタスクに役立つ。 しかしながら、すべての中間転送の組み合わせを実験することは計算上不可能であり、有用なソースタスクを選択することは難しい問題である。 本稿では,パラメータ効率調整法で更新されたタスク固有パラメータが,タスク固有情報を符号化する可能性が高いことを予想する。 したがって、このようなパラメータはタスク間の転送可能性を予測することができる。 そこで本研究では,これらのパラメータをオフザシェルフタスク埋め込みとして利用して,中間タスク転送のための効率的なソースデータセットの選択を行う。 11のテキスト分類タスクと11の質問応答タスクを実験した。 実験結果から,提案手法は概念的に単純かつ計算効率が良く,既存のタスク間転送可能性予測手法を一貫して上回ることを示す。 また, 伝達可能性予測におけるパラメータを効率的に調整する能力は, タスク内性能と無関係であることが判明した。 これにより、早期チェックポイントからのパラメータをタスク埋め込みとして使用することで、効率をさらに向上できます。

Intermediate-task transfer can benefit a wide range of NLP tasks with properly selected source datasets. However, it is computationally infeasible to experiment with all intermediate transfer combinations, making choosing a useful source task a challenging problem. In this paper, we anticipate that task-specific parameters updated in parameter-efficient tuning methods are likely to encode task-specific information. Therefore, such parameters can be predictive for inter-task transferability. Thus, we propose to exploit these efficiently tuned parameters as off-the-shelf task embeddings for the efficient selection of source datasets for intermediate-task transfer. We experiment with 11 text classification tasks and 11 question answering tasks. Experimental results show that our approach can consistently outperform existing inter-task transferability prediction methods while being conceptually simple and computationally efficient. Our analysis also reveals that the ability of efficiently tuned parameters on transferability prediction is disentangled with their in-task performance. This allows us to use parameters from early checkpoints as task embeddings to further improve efficiency.
翻訳日:2022-10-24 13:14:11 公開日:2022-10-21
# ニューラルマシン翻訳のためのチェックポイント平均化の再検討

Revisiting Checkpoint Averaging for Neural Machine Translation ( http://arxiv.org/abs/2210.11803v1 )

ライセンス: Link先を確認
Yingbo Gao, Christian Herold, Zijian Yang, Hermann Ney(参考訳) チェックポイント平均化は、収束ニューラルネットワーク翻訳モデルの性能を高めるためのシンプルで効果的な方法である。 計算は安価で、翻訳の改善がほぼ無料であるという事実は、ニューラルネットワーク翻訳研究に広く採用されている。 人気にもかかわらず、この方法は単にいくつかのチェックポイントからモデルパラメータの平均を取り、その選択は、多くの正当性のない経験的なレシピに基づいている。 本研究では,チェックポイント平均化の概念を再考し,いくつかの拡張について考察する。 具体的には,異なるチェックポイント選択戦略,単純な平均ではなく重み付け平均の算出,勾配情報の利用,開発データへの補間重み付けの微調整といったアイデアを試す。 その結果, 最適性能にチェックポイント平均化を適用する必要性が確認できたが, 収束したチェックポイント間の景観は平坦であり, 単純な平均化に比べ, それ以上の改善は得られないことが示唆された。

Checkpoint averaging is a simple and effective method to boost the performance of converged neural machine translation models. The calculation is cheap to perform and the fact that the translation improvement almost comes for free, makes it widely adopted in neural machine translation research. Despite the popularity, the method itself simply takes the mean of the model parameters from several checkpoints, the selection of which is mostly based on empirical recipes without many justifications. In this work, we revisit the concept of checkpoint averaging and consider several extensions. Specifically, we experiment with ideas such as using different checkpoint selection strategies, calculating weighted average instead of simple mean, making use of gradient information and fine-tuning the interpolation weights on development data. Our results confirm the necessity of applying checkpoint averaging for optimal performance, but also suggest that the landscape between the converged checkpoints is rather flat and not much further improvement compared to simple averaging is to be obtained.
翻訳日:2022-10-24 13:13:56 公開日:2022-10-21
# 遅いプロンプトチューニング:遅いプロンプトは多くのプロンプトより良いかもしれない

Late Prompt Tuning: A Late Prompt Could Be Better Than Many Prompts ( http://arxiv.org/abs/2210.11292v2 )

ライセンス: Link先を確認
Xiangyang Liu, Tianxiang Sun, Xuanjing Huang, Xipeng Qiu(参考訳) プロンプトチューニング(英: Prompt tuning)は、入力にソフトプロンプトをプリペイドし、下流タスクにPTMを適用するプロンプトのみを最適化する、事前訓練されたモデル(PTM)を利用するためのパラメータ効率のよいチューニング(PETuning)手法である。 パラメータとデプロイメント効率は高いが、パフォーマンスは他の最先端のペチュニングメソッドに及ばない。 また、モデル全体のバックプロパゲーションのため、プロンプトチューニングのトレーニングコストは大幅に削減されない。 実験的な解析により,ラベル信号から挿入されたプロンプトへの伝搬距離とモデル出力に対するプロンプトの影響のトレードオフを認識するために,プロンプトチューニングの遅延性能に光を当てた。 さらに、入力層やすべての層の代わりに遅延プロンプトをPTMの中間層に挿入するLate Prompt Tuning(LPT)を提案する。 遅延プロンプトは、プロンプト挿入層の前に隠された状態に条件付けされたニューラルプロンプト発生器によって得られ、したがってインスタンス依存である。 各種タスクや PTM にまたがる広範な実験結果から,LPT は訓練速度の高速化とメモリコストの低減を図りながら,フルモデルチューニングや他のPETuning 手法と競合する性能を実現することができることを示した。

Prompt tuning is a parameter-efficient tuning (PETuning) method for utilizing pre-trained models (PTMs) that simply prepends a soft prompt to the input and only optimizes the prompt to adapt PTMs to downstream tasks. Although it is parameter- and deployment-efficient, its performance still lags behind other state-of-the-art PETuning methods. Besides, the training cost of prompt tuning is not significantly reduced due to the back-propagation through the entire model. Through empirical analyses, we shed some light on the lagging performance of prompt tuning and recognize a trade-off between the propagation distance from label signals to the inserted prompt and the influence of the prompt on model outputs. Further, we present Late Prompt Tuning (LPT) that inserts a late prompt into an intermediate layer of the PTM instead of the input layer or all layers. The late prompt is obtained by a neural prompt generator conditioned on the hidden states before the prompt insertion layer and therefore is instance-dependent. Through extensive experimental results across various tasks and PTMs, we show that LPT can achieve competitive performance to full model tuning and other PETuning methods under both full-data and few-shot scenarios while possessing faster training speed and lower memory cost.
翻訳日:2022-10-24 11:06:06 公開日:2022-10-21
# DEEP$^2$:Deep Learning Powered De-scattering with Excitation Patterning

DEEP$^2$: Deep Learning Powered De-scattering with Excitation Patterning ( http://arxiv.org/abs/2210.10892v2 )

ライセンス: Link先を確認
Navodini Wijethilake, Mithunjha Anandakumar, Cheng Zheng, Peter T. C. So, Murat Yildirim, Dushan N. Wadduwage(参考訳) 限界スループットは、非線形光学顕微鏡を用いた in-vivo deep-tissue imaging において重要な課題である。 点走査型多光子顕微鏡(現金標準)は、特に光学的クリア化や薄い試料に使用される広視野撮像法と比較して遅い。 我々は最近,点走査測地線に代わる広視野の代替として,「励起パターンによるデ散乱」を導入した。 パターン化された多光子励起を用いて、DEEPは散乱前に組織内の空間情報を符号化する。 しかし、典型的な深さで散布するには、何百というパターンの励起が必要である。 そこで本研究では,数百例ではなく,数十例のパターン励振から画像を分離する深層学習モデルであるdeep$^2$を提案する。 その結果,DEPのスループットはほぼ1桁向上した。 本手法は, 生マウスにおいて, 最大4つの散乱長を撮像するin-vivo cortical vasculatureを含む複数の数値および物理的実験で実証した。

Limited throughput is a key challenge in in-vivo deep-tissue imaging using nonlinear optical microscopy. Point scanning multiphoton microscopy, the current gold standard, is slow especially compared to the wide-field imaging modalities used for optically cleared or thin specimens. We recently introduced 'De-scattering with Excitation Patterning or DEEP', as a widefield alternative to point-scanning geometries. Using patterned multiphoton excitation, DEEP encodes spatial information inside tissue before scattering. However, to de-scatter at typical depths, hundreds of such patterned excitations are needed. In this work, we present DEEP$^2$, a deep learning based model, that can de-scatter images from just tens of patterned excitations instead of hundreds. Consequently, we improve DEEP's throughput by almost an order of magnitude. We demonstrate our method in multiple numerical and physical experiments including in-vivo cortical vasculature imaging up to four scattering lengths deep, in alive mice.
翻訳日:2022-10-24 11:05:41 公開日:2022-10-21
# faceancer: ポーズと咬合を認識する高忠実度顔交換

FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping ( http://arxiv.org/abs/2210.10473v2 )

ライセンス: Link先を確認
Felix Rosberg, Eren Erdal Aksoy, Fernando Alonso-Fernandez, Cristofer Englund(参考訳) そこで本研究では,FaceDancerという顔交換とID転送のための単一ステージ方式を提案する。 適応的特徴融合注意(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要な貢献がある。 AFFAモジュールはデコーダに埋め込まれており、追加の顔分割処理を必要とせず、アイデンティティ情報に条件付けられた属性特徴と特徴を融合させることを適応的に学習する。 IFSRでは,頭部ポーズ,表情,照明,隠蔽などの重要な属性を保持するために,識別エンコーダの中間的特徴を活用しながら,元の顔のアイデンティティを高い忠実度で転送する。 各種データセットの定量的および定性的な実験を行い,提案したFaceDancerが,従来の手法よりもはるかに優れたポーズ保存を実現しつつ,他の最先端ネットワークよりも優れていることを示す。

In this work, we present a new single-stage method for subject agnostic face swapping and identity transfer, named FaceDancer. We have two major contributions: Adaptive Feature Fusion Attention (AFFA) and Interpreted Feature Similarity Regularization (IFSR). The AFFA module is embedded in the decoder and adaptively learns to fuse attribute features and features conditioned on identity information without requiring any additional facial segmentation process. In IFSR, we leverage the intermediate features in an identity encoder to preserve important attributes such as head pose, facial expression, lighting, and occlusion in the target face, while still transferring the identity of the source face with high fidelity. We conduct extensive quantitative and qualitative experiments on various datasets and show that the proposed FaceDancer outperforms other state-of-the-art networks in terms of identityn transfer, while having significantly better pose preservation than most of the previous methods.
翻訳日:2022-10-24 11:05:17 公開日:2022-10-21
# uni6dv3:6次元ポーズ推定のための5次元アンカー機構

Uni6Dv3: 5D Anchor Mechanism for 6D Pose Estimation ( http://arxiv.org/abs/2210.10959v2 )

ライセンス: Link先を確認
Jianqiu Chen, Mingshan Sun, Ye Zheng, Tianpeng Bao, Zhenyu He, Donghai Li, Guoqiang Jin, Rui Zhao, Liwei Wu, Xiaoke Jiang(参考訳) 時間を要する間接的手法とは異なり、最近の深層学習に基づく6次元ポーズ推定法はRGB-Dデータから直接3次元回転と3次元翻訳を予測しようとする。 しかし、ポーズの絶対的な翻訳を遅らせる直接的な手法は、訓練データとテストデータの間の多様なオブジェクト翻訳の分布に悩まされ、これは通常、高価なデータ収集とアノテーションによって引き起こされる。 そこで本研究では,物理空間の3次元座標と画像平面の2次元座標でアンカーを定義することで,5次元アンカー機構を提案する。 アンカーベース物体検出法にインスパイアされた5Dアンカーは、ターゲットとアンカーの間のオフセットを後退させ、分散ギャップをなくし、回帰ターゲットを小さな範囲に変換する。 しかし、オフセットの回帰は絶対的な入力と相対的な出力のミスマッチにつながる。 絶対入力を相対入力に置き換えてアンカーに基づく投影モデルを構築し,性能をさらに向上させる。 5Dアンカーを最新の直接法に差し込むことで、Uni6Dv2とES6Dはそれぞれ38.7%と3.5%の改善が得られた。 具体的には、Uni6Dv2+5DアンカーはUni6Dv3と呼ばれ、Occlusion LineMOD (79.3%)、LineMOD (99.5%)、YCB-Video データセット (91.5%)などのデータセットに関する最先端の総合的な結果を達成する。

Unlike indirect methods that usually require time-consuming post-processing, recent deep learning-based direct methods for 6D pose estimation try to predict the 3D rotation and 3D translation from RGB-D data directly. However, direct methods, regressing the absolute translation of the pose, suffer from diverse object translation distribution between training and test data, which is usually caused by expensive data collection and annotation in practice. To this end, we propose a 5D anchor mechanism by defining the anchor with 3D coordinates in the physical space and 2D coordinates in the image plane. Inspired by anchor-based object detection methods, 5D anchor regresses the offset between the target and anchor, which eliminates the distribution gap and transforms the regression target to a small range. But regressing offset leads to the mismatch between the absolute input and relative output. We build an anchor-based projection model by replacing the absolute input with the relative one, which further improves the performance. By plugging 5D anchor into the latest direct methods, Uni6Dv2 and ES6D obtain 38.7% and 3.5% improvement, respectively. Specifically, Uni6Dv2+5D anchor, dubbed Uni6Dv3, achieves state-of-the-art overall results on datasets including Occlusion LineMOD (79.3%), LineMOD (99.5%), and YCB-Video datasets (91.5%), and requires only 10% of training data to reach comparable performance as full data.
翻訳日:2022-10-24 11:04:57 公開日:2022-10-21
# 座標は孤独ではない -- codebook priorは暗黙の3d表現を助ける

Coordinates Are NOT Lonely -- Codebook Prior Helps Implicit Neural 3D Representations ( http://arxiv.org/abs/2210.11170v2 )

ライセンス: Link先を確認
Fukun Yin, Wen Liu, Zilong Huang, Pei Cheng, Tao Chen, Gang YU(参考訳) 暗黙的な3D表現は、表面やシーンの再構成や新しいビュー合成において印象的な成果を上げており、通常は座標ベースの多層パーセプトロン(MLP)を用いて連続的なシーン表現を学習している。 しかし、Neural Radiance Field(NeRF)やその変種のような既存のアプローチでは、適切な結果を得るためには、高密度な入力ビュー(50-150)が必要である。 大規模キャリブレーション画像に過度に依存し,座標に基づく特徴表現を充実させるため,座標ベースネットワークに事前情報を注入し,暗黙的な3次元表現のための新しい座標ベースモデルCoCo-INRを導入する。 本手法の核となるものは2つの注意モジュールである。 前者は、前のコードブックからリッチな幾何学と外観情報を含む有用なプロトタイプを抽出し、後者は、これらの事前情報を各座標に伝播し、シーンまたはオブジェクト表面の特徴表現を充実させる。 先行情報を利用することで,より少ない校正画像を用いて,現在の手法よりも,よりリアルな外観とジオメトリを持った3dビューをレンダリングできる。 DTU や BlendedMVS などのシーン再構成データセットとフル3次元頭部再構成データセット H3DS を用いた実験により,より少ない入力ビュー下での堅牢性と,提案手法の詳細な保存能力を示す。

Implicit neural 3D representation has achieved impressive results in surface or scene reconstruction and novel view synthesis, which typically uses the coordinate-based multi-layer perceptrons (MLPs) to learn a continuous scene representation. However, existing approaches, such as Neural Radiance Field (NeRF) and its variants, usually require dense input views (i.e. 50-150) to obtain decent results. To relive the over-dependence on massive calibrated images and enrich the coordinate-based feature representation, we explore injecting the prior information into the coordinate-based network and introduce a novel coordinate-based model, CoCo-INR, for implicit neural 3D representation. The cores of our method are two attention modules: codebook attention and coordinate attention. The former extracts the useful prototypes containing rich geometry and appearance information from the prior codebook, and the latter propagates such prior information into each coordinate and enriches its feature representation for a scene or object surface. With the help of the prior information, our method can render 3D views with more photo-realistic appearance and geometries than the current methods using fewer calibrated images available. Experiments on various scene reconstruction datasets, including DTU and BlendedMVS, and the full 3D head reconstruction dataset, H3DS, demonstrate the robustness under fewer input views and fine detail-preserving capability of our proposed method.
翻訳日:2022-10-24 11:04:27 公開日:2022-10-21
# gpr-net:幾何認識パノラマ登録ネットワークによるマルチビューレイアウト推定

GPR-Net: Multi-view Layout Estimation via a Geometry-aware Panorama Registration Network ( http://arxiv.org/abs/2210.11419v2 )

ライセンス: Link先を確認
Jheng-Wei Su, Chi-Han Peng, Peter Wonka, Hung-Kuo Chu(参考訳) 1つのパノラマから大規模で複雑な部屋のレイアウトを推定するのは非常に難しいため、パノラマ360円から3Dレイアウトを再構築することは近年注目されている。 PSMNetと呼ばれる最先端の手法は、一対のパノラマを与えられた部屋のレイアウトと登録を共同で見積もる最初の学習ベースのフレームワークを導入する。 しかし、PSMNetは入力として近似的な (すなわち"ノイズ") 登録に依存している。 この入力を取得するには、幅広いベースライン登録のソリューションが必要です。 本研究では,パノラマの1対のパノラマが先行するポーズに依存することなく,パノラマ登録とレイアウト推定を共同で学習する多視点パノラマレイアウト推定フレームワークを提案する。 PSMNetに対する大きな改善は、ジオメトリ対応のパノラマ登録ネットワーク(GPR-Net)によって実現された。 私たちの建築は2つの部分からなる。 まず、2つのパノラマが与えられたとき、私たちは視覚変換器を採用してパノラマでサンプリングされた1次元水平方向の特徴を学習する。 これらの1次元地平線の特徴は、個々のレイアウト境界サンプルの深さとレイアウト境界間の対応と可視性マップを符号化する。 次に、非線形登録モジュールを用いて、これらの1次元水平特性をレイアウト上の対応する2次元境界点の集合に変換する。 最後に、RANSACを介して最終相対カメラのポーズを推定し、登録されたレイアウトを結合して完全なレイアウトを得る。 実験結果から,大規模な屋内パノラマデータセットZInDにおけるパノラマ登録とレイアウト推定の両面での最先端性能が得られた。

Reconstructing 3D layouts from multiple $360^{\circ}$ panoramas has received increasing attention recently as estimating a complete layout of a large-scale and complex room from a single panorama is very difficult. The state-of-the-art method, called PSMNet, introduces the first learning-based framework that jointly estimates the room layout and registration given a pair of panoramas. However, PSMNet relies on an approximate (i.e., "noisy") registration as input. Obtaining this input requires a solution for wide baseline registration which is a challenging problem. In this work, we present a complete multi-view panoramic layout estimation framework that jointly learns panorama registration and layout estimation given a pair of panoramas without relying on a pose prior. The major improvement over PSMNet comes from a novel Geometry-aware Panorama Registration Network or GPR-Net that effectively tackles the wide baseline registration problem by exploiting the layout geometry and computing fine-grained correspondences on the layout boundaries, instead of the global pixel-space. Our architecture consists of two parts. First, given two panoramas, we adopt a vision transformer to learn a set of 1D horizon features sampled on the panorama. These 1D horizon features encode the depths of individual layout boundary samples and the correspondence and covisibility maps between layout boundaries. We then exploit a non-linear registration module to convert these 1D horizon features into a set of corresponding 2D boundary points on the layout. Finally, we estimate the final relative camera pose via RANSAC and obtain the complete layout simply by taking the union of registered layouts. Experimental results indicate that our method achieves state-of-the-art performance in both panorama registration and layout estimation on a large-scale indoor panorama dataset ZInD.
翻訳日:2022-10-24 11:03:59 公開日:2022-10-21
# オンラインカーネルベース強化学習による線形適応フィルタリングにおけるpノルムの動的選択

Dynamic selection of p-norm in linear adaptive filtering via online kernel-based reinforcement learning ( http://arxiv.org/abs/2210.11317v2 )

ライセンス: Link先を確認
Minh Vu, Yuki Akiyama, Konstantinos Slavakis(参考訳) 本研究は, 線形適応フィルタリングにおいて, 時変確率分布関数の知識を必要とせずに, 線形適応フィルタにおいて, 最適p-ノルムが外乱に対処する際の動的選択の問題に対処する。 この目的のために、オンラインおよびデータ駆動フレームワークは、カーネルベースの強化学習(KBRL)によって設計されている。 再生カーネルヒルベルト空間 (RKHSs) 上のベルマン写像はマルコフ決定過程の遷移確率に関する知識を必要とせず、根底にあるヒルベルトノルムに関して拡張性がない。 ベルマン写像の固定点集合の有限次元アフィンスーパーセットの導入により、近似的なポリシーイテレーションフレームワークが最終的に提供される。 RKHSsのよく知られた '`curse of dimensionality'' は、近似線形依存基準を用いてベクトルの基礎を構築することで解決される。 合成データの数値実験により,提案手法は,不整合シナリオに対して常に ''optimal'' p-norm を選択し,同時にいくつかの非RLおよびKBRLスキームよりも優れた性能を示した。

This study addresses the problem of selecting dynamically, at each time instance, the ``optimal'' p-norm to combat outliers in linear adaptive filtering without any knowledge on the potentially time-varying probability distribution function of the outliers. To this end, an online and data-driven framework is designed via kernel-based reinforcement learning (KBRL). Novel Bellman mappings on reproducing kernel Hilbert spaces (RKHSs) are introduced that need no knowledge on transition probabilities of Markov decision processes, and are nonexpansive with respect to the underlying Hilbertian norm. An approximate policy-iteration framework is finally offered via the introduction of a finite-dimensional affine superset of the fixed-point set of the proposed Bellman mappings. The well-known ``curse of dimensionality'' in RKHSs is addressed by building a basis of vectors via an approximate linear dependency criterion. Numerical tests on synthetic data demonstrate that the proposed framework selects always the ``optimal'' p-norm for the outlier scenario at hand, outperforming at the same time several non-RL and KBRL schemes.
翻訳日:2022-10-24 11:03:28 公開日:2022-10-21
# nift: オブジェクト操作のための神経相互作用場とテンプレート

NIFT: Neural Interaction Field and Template for Object Manipulation ( http://arxiv.org/abs/2210.10992v2 )

ライセンス: Link先を確認
Zeyu Huang, Juzhan Xu, Sisi Dai, Kai Xu, Hao Zhang, Hui Huang, Ruizhen Hu(参考訳) 模倣学習を容易にするために,nift,neural interaction field and template,オブジェクト操作の記述的かつロバストなインタラクション表現を導入する。 いくつかのオブジェクト操作デモが与えられた後、niftは、デモから抽出されたneural interaction template(nit)と、新しいオブジェクトのために定義されたneural interaction field(nif)とのマッチングによって、新しいオブジェクトインスタンスのインタラクション模倣の生成をガイドする。 具体的には、nifは、各空間点と与えられた対象との関係を符号化する神経場であり、相対位置は、占有量や符号付き距離よりも球面距離関数によって定義される。 所定のデモインタラクションに対して、対応するNITは、デモオブジェクトのNIFでサンプリングされた空間点と関連する神経的特徴によって定義される。 相互作用をよりよく捉えるために、点を2つの相互作用対象に等しく相互作用表現に広く使われている点からなる相互作用双セクタ面にサンプリングする。 より良いインタラクションエンコーディングのために定義されたポイント選択とポイントワイズ機能の両方により、nitは新しいオブジェクトインスタンスのnifsで機能マッチングを効果的にガイドし、オブジェクトのポーズを最適化し、デモインタラクションを模倣しながら操作を実現する。 実験によると、niftソリューションはオブジェクト操作のための最先端の模倣学習手法よりも優れており、新しいカテゴリのオブジェクトに対してより一般化している。

We introduce NIFT, Neural Interaction Field and Template, a descriptive and robust interaction representation of object manipulations to facilitate imitation learning. Given a few object manipulation demos, NIFT guides the generation of the interaction imitation for a new object instance by matching the Neural Interaction Template (NIT) extracted from the demos to the Neural Interaction Field (NIF) defined for the new object. Specifically, the NIF is a neural field which encodes the relationship between each spatial point and a given object, where the relative position is defined by a spherical distance function rather than occupancies or signed distances, which are commonly adopted by conventional neural fields but less informative. For a given demo interaction, the corresponding NIT is defined by a set of spatial points sampled in the NIF of the demo object with associated neural features. To better capture the interaction, the points are sampled on the interaction bisector surface, which consists of points that are equidistant to two interacting objects and has been used extensively for interaction representation. With both point selection and pointwise features defined for better interaction encoding, NIT effectively guides the feature matching in the NIFs of the new object instances to optimize the object poses to realize the manipulation while imitating the demo interactions. Experiments show that our NIFT solution outperforms state-of-the-art imitation learning methods for object manipulation and generalizes better to objects from new categories.
翻訳日:2022-10-24 11:03:07 公開日:2022-10-21
# 言語モデル分解:言語モデルの依存性と相関の定量化

Language Model Decomposition: Quantifying the Dependency and Correlation of Language Models ( http://arxiv.org/abs/2210.10289v2 )

ライセンス: Link先を確認
Hao Zhang(参考訳) BERT (Devlin et al., 2018) などの事前訓練言語モデル(LM)とその変種は、過去数年間に様々なNLPタスクに大きな改善をもたらした。 しかし、それらの関係を研究するための理論的枠組みはまだ欠けている。 本稿では,事前学習したLM間の線形依存性を調べることで,このギャップを埋める。 LMの線型依存は、ベクトルの線型依存と類似して定義される。 本稿では,他のlmsの線形結合を基礎としてlmを表す言語モデル分解(lmd)を提案し,閉形式解を導出する。 判定係数に類似したlmdの適合度メトリックを定義し、一連のlmdの線形依存性を測定するために使用する。 実験では, BERT と 11 の BERT 様の LM が 91% の線形依存性を持つことがわかった。 この観察から,現在のSOTA (State-of-the-art) LMは極めて「相関性」が高いことが示唆された。 SOTAをさらに前進させるためには、既存のLMに依存しないより多様な新しいLMが必要です。

Pre-trained language models (LMs), such as BERT (Devlin et al., 2018) and its variants, have led to significant improvements on various NLP tasks in past years. However, a theoretical framework for studying their relationships is still missing. In this paper, we fill this gap by investigating the linear dependency between pre-trained LMs. The linear dependency of LMs is defined analogously to the linear dependency of vectors. We propose Language Model Decomposition (LMD) to represent a LM using a linear combination of other LMs as basis, and derive the closed-form solution. A goodness-of-fit metric for LMD similar to the coefficient of determination is defined and used to measure the linear dependency of a set of LMs. In experiments, we find that BERT and eleven (11) BERT-like LMs are 91% linearly dependent. This observation suggests that current state-of-the-art (SOTA) LMs are highly "correlated". To further advance SOTA we need more diverse and novel LMs that are less dependent on existing LMs.
翻訳日:2022-10-24 10:58:03 公開日:2022-10-21
# DoOT-VAE: 一度にひとつの要因を解消する

DOT-VAE: Disentangling One Factor at a Time ( http://arxiv.org/abs/2210.10920v2 )

ライセンス: Link先を確認
Vaishnavi Patil, Matthew Evanusa, Joseph JaJa(参考訳) データの過剰さを特徴とする機械学習の時代に入ると、教師なしの方法でデータの発見、組織化、解釈が重要なニーズとなる。 この取り組みに有望なアプローチの1つは、データの変異の要因と呼ばれる根底にある生成的潜在要因を学習し、それらを無関係な潜在表現にエンコードすることを目的とした、絡み合いの問題である。 最近の進歩は、変動の独立要因の固定セットによって生成される合成データセットのこの問題を解決する努力をしてきた。 本稿では,これを実世界のデータセットに拡張し,可算な変動要素を数えることを提案する。 本稿では,変分オートエンコーダの潜伏空間を乱交空間で拡張し,Wake-Sleep-inspireed two-step algorithm for unsupervised disentanglementを用いて学習する手法を提案する。 我々のネットワークは、解釈可能で独立な要因を「一度に1つ」のデータから切り離し、不連続な潜在空間の異なる次元にエンコードすることを学び、その要因の数やそれらの共同分布について事前の仮定を行なわない。 dsprites と 3dshapes と real datasets celeba の2つの合成ベンチマークデータセットで得られた潜在表現を評価し,その定量的・定性的有効性を示す。

As we enter the era of machine learning characterized by an overabundance of data, discovery, organization, and interpretation of the data in an unsupervised manner becomes a critical need. One promising approach to this endeavour is the problem of Disentanglement, which aims at learning the underlying generative latent factors, called the factors of variation, of the data and encoding them in disjoint latent representations. Recent advances have made efforts to solve this problem for synthetic datasets generated by a fixed set of independent factors of variation. Here, we propose to extend this to real-world datasets with a countable number of factors of variations. We propose a novel framework which augments the latent space of a Variational Autoencoders with a disentangled space and is trained using a Wake-Sleep-inspired two-step algorithm for unsupervised disentanglement. Our network learns to disentangle interpretable, independent factors from the data ``one at a time", and encode it in different dimensions of the disentangled latent space, while making no prior assumptions about the number of factors or their joint distribution. We demonstrate its quantitative and qualitative effectiveness by evaluating the latent representations learned on two synthetic benchmark datasets; DSprites and 3DShapes and on a real datasets CelebA.
翻訳日:2022-10-24 10:57:43 公開日:2022-10-21
# ベースライン再訪:文脈認識翻訳におけるマルチセグメンテーションモデルの限界を押し上げる

A baseline revisited: Pushing the limits of multi-segment models for context-aware translation ( http://arxiv.org/abs/2210.10906v2 )

ライセンス: Link先を確認
Suvodeep Majumder, Stanislas Lauly, Maria Nadejde, Marcello Federico, Georgiana Dinu(参考訳) 本稿では,マルチセグメントモデルを用いた文脈翻訳の課題に対処する。 具体的には、モデル容量の増加がこのアプローチの限界をさらに押し上げ、より深いモデルがコンテキスト依存をキャプチャするのにより適していることを示す。 さらに、より大きなモデルで観察される改善は、知識蒸留を用いてより小さなモデルに移すことができる。 提案手法は,言語固有のチューニングやタスク固有のアーキテクチャを必要とせずに,複数の言語やベンチマーク間での競合性能を実現する。

This paper addresses the task of contextual translation using multi-segment models. Specifically we show that increasing model capacity further pushes the limits of this approach and that deeper models are more suited to capture context dependencies. Furthermore, improvements observed with larger models can be transferred to smaller models using knowledge distillation. Our experiments show that this approach achieves competitive performance across several languages and benchmarks, without additional language-specific tuning and task specific architectures.
翻訳日:2022-10-24 10:57:17 公開日:2022-10-21
# 命令型言語モデルのスケーリング

Scaling Instruction-Finetuned Language Models ( http://arxiv.org/abs/2210.11416v2 )

ライセンス: Link先を確認
Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, Jason Wei(参考訳) 命令としてフレーズされたデータセットのコレクション上で言語モデルを微調整することで、モデルのパフォーマンスと未認識のタスクへの一般化が向上することが示されている。 本稿では,(1)タスク数の拡大,(2)モデルサイズの拡大,(3)チェーンオブ思考データへの微調整について,特に焦点を絞った教示微調整について検討する。 以上より,様々なモデルクラス (PaLM, T5, U-PaLM) の性能を劇的に向上させ, 設定の高速化 (ゼロショット, 少数ショット, CoT) と評価ベンチマーク (MMLU, BBH, TyDiQA, MGSM, オープンエンドジェネレーション) を実現した。 例えば、Flan-PaLM 540B命令は1.8Kタスクで調整され、PALM 540Bよりも大きなマージン(平均で9.4%)で性能が向上する。 Flan-PaLM 540Bは5ショットMMLUの75.2%など、いくつかのベンチマークで最先端のパフォーマンスを実現している。 また、我々は、PaLM 62Bのようなより大きなモデルと比較しても、強力な数ショットのパフォーマンスを実現するFlan-T5チェックポイントを公開しています。 全体として、命令微調整は事前訓練された言語モデルの性能とユーザビリティを向上させる一般的な方法である。

Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.
翻訳日:2022-10-24 10:57:07 公開日:2022-10-21
# Revision Transformers: No-No の RiT 化

Revision Transformers: Getting RiT of No-Nos ( http://arxiv.org/abs/2210.10332v2 )

ライセンス: Link先を確認
Felix Friedrich, Wolfgang Stammer, Patrick Schramowski, Kristian Kersting(参考訳) 現在のトランスフォーマー言語モデル(LM)は数十億のパラメータを持つ大規模モデルである。 これらは様々なタスクで高いパフォーマンスを提供するが、近道学習やバイアスの傾向も示されている。 このようなパラメータ調整による誤ったモデル動作への対処は非常にコストがかかる。 これは、文化的または対人的に異なる道徳的価値観のような動的な概念を更新する際に特に問題となる。 本研究では,全ての情報をモデルパラメータに格納する現在の一般的な手法に疑問を呈し,情報検索を利用したリビジョントランスフォーマー(RiT)を提案する。 明確に構造化されたリビジョンエンジンで世界知識を拡散的に符号化する大規模な事前学習型LMの特定の組み合わせにより、モデルの知識をほとんど努力せずに更新し、ユーザーインタラクションの助けを借りることができる。 本稿では、モラルデータセット上のritを例示し、小さなデータでもモデルリビジョンの強いパフォーマンスを示すユーザーフィードバックをシミュレートする。 これにより、ユーザーは好みに関するモデルを簡単に設計でき、より透明でパーソナライズされたAIモデルへの道を開くことができる。

Current transformer language models (LM) are large-scale models with billions of parameters. They have been shown to provide high performances on a variety of tasks but are also prone to shortcut learning and bias. Addressing such incorrect model behavior via parameter adjustments is very costly. This is particularly problematic for updating dynamic concepts, such as moral values, which vary culturally or interpersonally. In this work, we question the current common practice of storing all information in the model parameters and propose the Revision Transformer (RiT) employing information retrieval to facilitate easy model updating. The specific combination of a large-scale pre-trained LM that inherently but also diffusely encodes world knowledge with a clear-structured revision engine makes it possible to update the model's knowledge with little effort and the help of user interaction. We exemplify RiT on a moral dataset and simulate user feedback demonstrating strong performance in model revision even with small data. This way, users can easily design a model regarding their preferences, paving the way for more transparent and personalized AI models.
翻訳日:2022-10-24 10:56:45 公開日:2022-10-21
# ベイズ最適化による多変量解の発見

Discovering Many Diverse Solutions with Bayesian Optimization ( http://arxiv.org/abs/2210.10953v2 )

ライセンス: Link先を確認
Natalie Maus and Kaiwen Wu and David Eriksson and Jacob Gardner(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、ブラックボックス目的関数のサンプル効率最適化のための一般的な手法である。 BOは幅広い科学的応用に応用されているが、単一目的のBOへの伝統的なアプローチは、単一の最良の解を見つけることしか求めていない。 これは、後に解が難解となるような状況において重要な制限となる。 例えば、設計された分子は最適化プロセスが終了した後にのみ合理的に評価できる制約に違反する可能性がある。 この問題に対処するために,ユーザが特定した多様性基準に従って多種多様なハイパフォーマンスソリューションのポートフォリオを見つけることを目的として,ランク順ベイズ最適化と信頼領域(ROBOT)を提案する。 我々は,複数の実世界のアプリケーション上でROBOTを評価し,高い性能の多様なソリューションを多数発見できることを示す。

Bayesian optimization (BO) is a popular approach for sample-efficient optimization of black-box objective functions. While BO has been successfully applied to a wide range of scientific applications, traditional approaches to single-objective BO only seek to find a single best solution. This can be a significant limitation in situations where solutions may later turn out to be intractable. For example, a designed molecule may turn out to violate constraints that can only be reasonably evaluated after the optimization process has concluded. To address this issue, we propose Rank-Ordered Bayesian Optimization with Trust-regions (ROBOT) which aims to find a portfolio of high-performing solutions that are diverse according to a user-specified diversity metric. We evaluate ROBOT on several real-world applications and show that it can discover large sets of high-performing diverse solutions while requiring few additional function evaluations compared to finding a single best solution.
翻訳日:2022-10-24 10:56:27 公開日:2022-10-21
# 二重過程知覚における感情価の自由エネルギーモデル

Free energy model of emotional valence in dual-process perceptions ( http://arxiv.org/abs/2210.10262v2 )

ライセンス: Link先を確認
Hideyoshi Yanagisawa, Xiaoxiang Wu, Kazutaka Ueda, Takeo Kato(参考訳) 適切なレベルの覚醒はポジティブな感情を誘発し、高い覚醒電位はネガティブな感情を引き起こす可能性がある。 本研究では,感情的ヴァレンスに対する覚醒の影響を説明するために,人間の認知の二重過程における覚醒電位変化の新たな数学的枠組みを提案する。 双対過程における感情を説明するのに適切な数学的定式化はまだ存在しない。 我々のモデルは自由エネルギーと覚醒電位とその変動を関連付けて感情的ヴァレンスを説明する。 自由エネルギーの減少と増大は、それぞれ正の感情と負の感情を引き起こす。 ベイズ事前の変更として, 自動過程から制御過程への移行を二重過程で定式化する。 さらに,同じ刺激を前もって認識するのに成功した場合,自由エネルギー増加(fi)とその低減(fr)を用いて感情のヴァレンスをモデル化し,その変化を用いて「興味」,「融合」,「退屈」の3つの感情を定義した。 ガウスモデルパラメータを比較した数学的解析の結果,以下のことが判明した。 1) 予測誤差(pr)は、第1の事前分散が第2の事前分散より大きい場合にfr(「興味」を表す)を増加させる。 2)PRは、第1の先行分散が第2の先行分散より小さい場合にFRを減少させ、 3) 前者間の距離は常にFRを増加させる。 また、制御過程における結果と感情との関連についても論じる。 提案する数学的モデルは、視点と刺激によって異なる2つのプロセスにおける感情的ヴァレンスを予測・制御するための一般的な枠組みを提供するとともに、覚醒がヴァレンスに与える影響の矛盾を理解するためのものである。

An appropriate level of arousal induces positive emotions, and a high arousal potential may provoke negative emotions. To explain the effect of arousal on emotional valence, we propose a novel mathematical framework of arousal potential variations in the dual process of human cognition: automatic and controlled. A suitable mathematical formulation to explain the emotions in the dual process is still absent. Our model associates free energy with arousal potential and its variations to explain emotional valence. Decreasing and increasing free energy consequently induce positive and negative emotions, respectively. We formalize a transition from the automatic to the controlled process in the dual process as a change of Bayesian prior. Further, we model emotional valence using free energy increase (FI) when one tries changing one's Bayesian prior and its reduction (FR) when one succeeds in recognizing the same stimuli with a changed prior and define three emotions: "interest," "confusion," and "boredom" using the variations. The results of our mathematical analysis comparing various Gaussian model parameters reveals the following: 1) prediction error (PR) increases FR (representing "interest") when the first prior variance is greater than the second prior variance, 2) PR decreases FR when the first prior variance is less than the second prior variance, and 3) the distance between priors' means always increases FR. We also discuss the association of the outcomes with emotions in the controlled process. The proposed mathematical model provides a general framework for predicting and controlling emotional valence in the dual process that varies with viewpoint and stimuli, as well as for understanding the contradictions in the effects of arousal on the valence.
翻訳日:2022-10-24 10:56:12 公開日:2022-10-21
# 生存分析のための深部条件変換モデル

Deep conditional transformation models for survival analysis ( http://arxiv.org/abs/2210.11366v2 )

ライセンス: Link先を確認
Gabriele Campanella, Lucas Kook, Ida H\"aggstr\"om, Torsten Hothorn, Thomas J. Fuchs(参考訳) 臨床試験の回数が増えるごとに、時間と結果が記録され、磁気共鳴画像やテキストデータなどの非タブラル患者データを電子健康記録の形で記録する。 近年、ニューラルネットワークベースのソリューションがいくつか提案されており、その一部はバイナリ分類器である。 生存時間と検閲ステータスをフル活用するパラメトリックで配布不要なアプローチはあまり注目されていない。 我々は,パラメトリックおよび半パラメトリック生存分析への統一的アプローチとして,生存結果のディープコンディショナルトランスフォーメーションモデル(dctms)を提案する。 DCTMは、表型データと表型データの両方に対して、非線形および非局所的ハザードを指定でき、あらゆる種類の検閲とトランケーションに拡張できる。 実データと半合成データから,DCTMは生存分析の最先端DLアプローチと競合することを示す。

An every increasing number of clinical trials features a time-to-event outcome and records non-tabular patient data, such as magnetic resonance imaging or text data in the form of electronic health records. Recently, several neural-network based solutions have been proposed, some of which are binary classifiers. Parametric, distribution-free approaches which make full use of survival time and censoring status have not received much attention. We present deep conditional transformation models (DCTMs) for survival outcomes as a unifying approach to parametric and semiparametric survival analysis. DCTMs allow the specification of non-linear and non-proportional hazards for both tabular and non-tabular data and extend to all types of censoring and truncation. On real and semi-synthetic data, we show that DCTMs compete with state-of-the-art DL approaches to survival analysis.
翻訳日:2022-10-24 10:55:46 公開日:2022-10-21
# 名前付きエンティティ認識のための異種星グラフに基づく型教師付きシーケンスラベリング

Type-supervised sequence labeling based on the heterogeneous star graph for named entity recognition ( http://arxiv.org/abs/2210.10240v2 )

ライセンス: Link先を確認
Xueru Wen, Changjiang Zhou, Haotian Tang, Luguang Liang, Yu Jiang, Hong Qi(参考訳) 名前付きエンティティ認識は、自然言語処理における基本的なタスクであり、非構造化テキストにおけるエンティティのスパンとカテゴリを識別する。 伝統的なシーケンスラベリング手法はネストされたエンティティ、すなわち他のエンティティの言及に含まれるエンティティを無視している。 多くのアプローチがこのシナリオに対処しようとするが、その多くは複雑な構造に依存しているか、計算の複雑さが高い。 本稿では,テキストノードと型ノードを含む異種星グラフの表現学習について検討する。 さらに,グラフアテンション機構をハイブリッド形式に改訂し,特定の位相におけるその不合理性に対処した。 モデルは、グラフ内のノードを更新した後、タイプ管理シーケンスラベリングを実行する。 アノテーションスキームは単一層シーケンスラベリングの拡張であり、ネストされたエンティティの大部分に対処することができる。 NERデータセットの大規模な実験により、フラットおよびネストされたエンティティを抽出する際のモデルの有効性が明らかとなった。 この手法はフラットデータセットとネストデータセットの両方で最先端のパフォーマンスを達成した。 精度の大幅な向上は、多層ラベリング戦略の優位性を反映している。

Named entity recognition is a fundamental task in natural language processing, identifying the span and category of entities in unstructured texts. The traditional sequence labeling methodology ignores the nested entities, i.e. entities included in other entity mentions. Many approaches attempt to address this scenario, most of which rely on complex structures or have high computation complexity. The representation learning of the heterogeneous star graph containing text nodes and type nodes is investigated in this paper. In addition, we revise the graph attention mechanism into a hybrid form to address its unreasonableness in specific topologies. The model performs the type-supervised sequence labeling after updating nodes in the graph. The annotation scheme is an extension of the single-layer sequence labeling and is able to cope with the vast majority of nested entities. Extensive experiments on public NER datasets reveal the effectiveness of our model in extracting both flat and nested entities. The method achieved state-of-the-art performance on both flat and nested datasets. The significant improvement in accuracy reflects the superiority of the multi-layer labeling strategy.
翻訳日:2022-10-24 10:55:32 公開日:2022-10-21
# ゼロショットおよびマイショットプロンサビリティ向上のための継続的事前トレーニング

Continued Pretraining for Better Zero- and Few-Shot Promptability ( http://arxiv.org/abs/2210.10258v2 )

ライセンス: Link先を確認
Zhaofeng Wu, Robert L. Logan IV, Pete Walsh, Akshita Bhagia, Dirk Groeneveld, Sameer Singh, Iz Beltagy(参考訳) 最近導入された言語モデルプロンプト手法は、学習されたタスク固有のパラメータをほとんど必要とせず、ゼロおよび少数ショット設定で高い精度を達成することができる。 しかしながら、これらの手法はフルモデルファインタニングに追随することが多い。 本研究は,継続事前学習の段階が,自然言語プロンプトによるゼロショット性能や,プロンプトチューニングによる少数ショット性能などの「プロンプタビリティ」を向上するかどうかを考察する。 既存の継続事前学習手法が即時性に欠ける設定を明らかにする。 また, 大規模実験で満たした現在の方法論的ギャップを同定する。 マルチタスク学習中にトレーニング可能なプロンプトを組み込んだ簡易な事前学習が,既存の手法と比較してゼロおよび少数ショット設定のプロンプト性を最大31%向上させることを実証した。 一方,MAML方式のメタ学習を用いた事前学習は,プロンプトの少ないプロンプト性を直接最適化し,サブパー性能を向上する。 提案手法を2つのプロンプトチューニング手法で検証し,その結果に基づいて,異なるユースケースに対するプロンプトビリティを最適化するための具体的な推奨事項を提供する。

Recently introduced language model prompting methods can achieve high accuracy in zero- and few-shot settings while requiring few to no learned task-specific parameters. Nevertheless, these methods still often trail behind full model finetuning. In this work, we investigate if a dedicated continued pretraining stage could improve "promptability", i.e., zero-shot performance with natural language prompts or few-shot performance with prompt tuning. We reveal settings where existing continued pretraining methods lack promptability. We also identify current methodological gaps, which we fill with thorough large-scale experiments. We demonstrate that a simple recipe, continued pretraining that incorporates a trainable prompt during multi-task learning, leads to improved promptability in both zero- and few-shot settings compared to existing methods, up to 31% relative. On the other hand, we find that continued pretraining using MAML-style meta-learning, a method that directly optimizes few-shot promptability, yields subpar performance. We validate our findings with two prompt tuning methods, and, based on our results, we provide concrete recommendations to optimize promptability for different use cases.
翻訳日:2022-10-24 10:55:18 公開日:2022-10-21