このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20221231となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 最小計算可能な絡み合いモノトン A smallest computable entanglement monotone ( http://arxiv.org/abs/2201.00835v2 ) ライセンス: Link先を確認 | Jens Eisert and Mark M. Wilde | (参考訳) 二成分量子状態の降雨相対エントロピーは、蒸留可能なエンタングルメントの最もよく知られた上限であり、リソースとしてのエンタングルメントの物理解釈が鮮明であり、凸計画によって効率的に計算できる。
単独では選択的な絡み合いモノトーンであることが知られていない。
本研究は, 降雨相対エントロピーの解釈を, 部分転座の正則性を完全に保った選択的操作の作用下で単調であることを示すことによって強化し, 絡み合いを合理的に定量化する。
すなわち,このような操作によって発生するアンサンブルの相対エントロピーは,期待値における初期状態の降雨相対エントロピーを超えず,最も小さく,最も保守的な計算可能な選択エントロピーモノトンとなることを証明した。
さらに、これは元のレインズ相対エントロピーだけでなく、様々なR'enyi相対エントロピーに由来するレインズ相対エントロピーにも当てはまることを示した。
これらの知見の応用として、非漸近的および漸近的条件において、状態の確率論的近似蒸留可能な絡み合いが様々なレインズ相対エントロピーによって上から有界であることを証明する。 The Rains relative entropy of a bipartite quantum state is the tightest known upper bound on its distillable entanglement -- which has a crisp physical interpretation of entanglement as a resource -- and it is efficiently computable by convex programming. It has not been known to be a selective entanglement monotone in its own right. In this work, we strengthen the interpretation of the Rains relative entropy by showing that it is monotone under the action of selective operations that completely preserve the positivity of the partial transpose, reasonably quantifying entanglement. That is, we prove that Rains relative entropy of an ensemble generated by such an operation does not exceed the Rains relative entropy of the initial state in expectation, giving rise to the smallest, most conservative known computable selective entanglement monotone. Additionally, we show that this is true not only for the original Rains relative entropy, but also for Rains relative entropies derived from various R\'enyi relative entropies. As an application of these findings, we prove, in both the non-asymptotic and asymptotic settings, that the probabilistic approximate distillable entanglement of a state is bounded from above by various Rains relative entropies. | 翻訳日:2023-03-02 09:37:53 公開日:2022-12-31 |
# 非エルミートハミルトンのnullブートストラップ Null bootstrap for non-Hermitian Hamiltonians ( http://arxiv.org/abs/2202.04334v4 ) ライセンス: Link先を確認 | Wenliang Li | (参考訳) 安定な物理系は、下から境界付けられたエネルギースペクトルを持つ。
量子系では、非有界低エネルギーの危険な状態は分離され、ヌルとなる。
我々は、ヌルネスの原理を提案し、エルミートおよび非エルミート無調波発振器のブートストラップ研究に適用する。 A stable physical system has an energy spectrum that is bounded from below. For quantum systems, the dangerous states of unboundedly low energies should decouple and become null. We propose the principle of nullness and apply it to the bootstrap study of Hermitian and non-Hermitian anharmonic oscillators. | 翻訳日:2023-02-26 07:04:44 公開日:2022-12-31 |
# 量子速度制限時間:コヒーレンスの役割 Quantum speed limit time: role of coherence ( http://arxiv.org/abs/2202.08078v2 ) ライセンス: Link先を確認 | K.G. Paulson, Subhashish Banerjee | (参考訳) マルチ量子ビット量子状態間の最小発展時間は非マルコフ量子チャネルで推定される。
我々は、最大コヒーレントな純および混合状態と、マルチキュービットの$X$状態を初期状態とみなし、初期コヒーレンスの影響とコヒーレンスが、デフォーカスおよび散逸過程の両方において進化速度に与える影響について議論する。
非単位散逸過程における情報逆流条件下での初期コヒーレンスのゼロではない値の役割は、量子速度制限時間(\tau_{QSL}$)の流れによって明らかにされる。
速度制限時間に関する混合性とコヒーレンスの間のトレードオフは、状態が行う量子過程の性質を明らかにする。
混合性とコヒーレンスの間の相補性効果は、量子非単位散逸過程においてより顕著である。
速度制限時間のパラメトリック軌跡は、純粋な初期状態と混合初期状態の進化の違いを鮮明に表現しており、この研究で研究されたユニタリチャネルと非ユニタリチャネルの区別に使用できる。
マルチキュービットエンタングルされた$x$状態における量子速度制限時間の研究により、$\tau_{qsl}$が進化の過程でマルチキュービット状態を識別する潜在的な動的証人として同定できることが明らかとなった。 The minimum evolution time between multi-qubit quantum states is estimated for non-Markovian quantum channels. We consider the maximally coherent pure and mixed states as well as multi-qubit $X$ states as initial states and discuss the impact of initial coherence and the behaviour of coherence on their speed of evolution for both dephasing and dissipative processes. The role of the non-zero value of initial coherence under information backflow conditions for the non-unital dissipative process is revealed by the flow of quantum speed limit time ($\tau_{QSL}$). The trade-off between mixedness and coherence on the speed limit time reveals the nature of the quantum process the states undergo. The complementarity effect between mixedness and coherence is more prominent in the quantum non-unital dissipation process. The parametric trajectory of speed limit time vividly depicts the difference in the evolution of pure and mixed initial states, and this could be used to distinguish between the unital and non-unital channels studied in this work. Our investigation of quantum speed limit time on multi-qubit entangled $X$ states reveals that $\tau_{QSL}$ can be identified as a potential dynamical witness to distinguish multi-qubit states in the course of evolution. | 翻訳日:2023-02-25 16:37:58 公開日:2022-12-31 |
# 空間的メタパスガイドによる説明可能な犯罪予測 Spatial-Temporal Meta-path Guided Explainable Crime Prediction ( http://arxiv.org/abs/2205.01901v3 ) ライセンス: Link先を確認 | Yuting Sun and Tong Chen and Hongzhi Yin | (参考訳) 犯罪や暴力への曝露は個人の生活の質や地域社会の経済成長を損なう可能性がある。
機械学習の急速な発展を踏まえると、犯罪を防ぐための自動化ソリューションを探求する必要性が高まっている。
都市・公共サービスデータの粒度の増大に伴い, 犯罪予測を容易にするために, クロスドメイン情報の利用が近年急増している。
社会構造、環境、犯罪傾向に関する情報を収集することにより、既存の機械学習予測モデルは異なる視点から動的犯罪パターンを探索した。
しかし、これらのアプローチは、主にそのような多元的知識を暗黙的かつ潜伏的な表現(例えば、学区の埋め込みを学習するなど)に変換し、シーンの背後にある犯罪の発生に対する明示的な要因の影響を調べることは依然として困難である。
本稿では,犯罪行動の動的パターンを捉え,環境と社会的要因が相互に相互に相互作用し,予測を生成するための空間-時間的メタパス誘導型犯罪予測(stmec)フレームワークを提案する。
大規模な実験は、特にフェロニー(強盗や危険な武器による暴行など)の予測において、他の高度な時空間モデルと比較してSTMECの優位性を示している。 Exposure to crime and violence can harm individuals' quality of life and the economic growth of communities. In light of the rapid development in machine learning, there is a rise in the need to explore automated solutions to prevent crimes. With the increasing availability of both fine-grained urban and public service data, there is a recent surge in fusing such cross-domain information to facilitate crime prediction. By capturing the information about social structure, environment, and crime trends, existing machine learning predictive models have explored the dynamic crime patterns from different views. However, these approaches mostly convert such multi-source knowledge into implicit and latent representations (e.g., learned embeddings of districts), making it still a challenge to investigate the impacts of explicit factors for the occurrences of crimes behind the scenes. In this paper, we present a Spatial-Temporal Metapath guided Explainable Crime prediction (STMEC) framework to capture dynamic patterns of crime behaviours and explicitly characterize how the environmental and social factors mutually interact to produce the forecasts. Extensive experiments show the superiority of STMEC compared with other advanced spatiotemporal models, especially in predicting felonies (e.g., robberies and assaults with dangerous weapons). | 翻訳日:2023-02-19 16:40:43 公開日:2022-12-31 |
# IMPACT: 土地利用政策, 技術導入, 気候変動, グリッド脱炭による都市統合型マルチドメインエミッションパス IMPACT: Integrated Multi-Domain Emission Pathways For Cities Under Land-Use Policy, Technology Adoption, Climate Change And Grid Decarbonization ( http://arxiv.org/abs/2202.07458v2 ) ライセンス: Link先を確認 | Zoltan Nagy, Juliana Felkner, Ariane L. Beck, D. Cale Reeves, Steven Richter, Vivek Shastry, Eli Ramthun, Edward Mbata, Stephen Zigmund, Benjamin Marshall, Linnea Marks, Vianey Rueda, Jasmine Triplett, Sarah Domedead, Jose R Vazquez-Canteli, Varun Rai | (参考訳) 都市化の増加は、持続可能な成長を優先し、カーボンロックインを避けるよう都市に迫る圧力を増すが、利用可能なモデリングフレームワークやツールは、そのような重要な意思決定を地域レベルでしっかりと導くには至っていない。
金融インセンティブ、行動介入、義務は技術導入を促進するが、土地利用地区政策は建設環境の開発のための枠組みを提供する。
多くの場合、政策とその影響は国家規模でトップダウンで評価されるか、あるいは過去の異なる政策に対するポストホックで評価される。
このような高レベルの分析とポストホック評価は、特定の都市の発展経路を示すことができず、郡、市、市政府のような地方レベルの政策立案者へのインプットとして機能することができない。
ここでは,住宅レベルの粒度を持つボトムアップモデルから,ゾーニング政策,気候変動,グリッド脱炭シナリオと技術導入政策を統合する影響経路を提案する。
分析の核心となる都市では、温室効果ガス排出経路の可能性を示し、政策間の相乗効果とトレードオフを特定し、適切なベースラインの重要性を示した。 Increasing urbanization puts ever-increasing pressure on cities to prioritize sustainable growth and avoid carbon lock-in, yet available modeling frameworks and tools fall acutely short of robustly guiding such pivotal decision-making at the local level. Financial incentives, behavioral interventions, and mandates can drive technology adoption, while land-use zoning policies provide the framework for development of the built environment. Often policies and their impacts are evaluated top down, typically on a national scale, or post-hoc on developments vis-\`a-vis different policies in the past. Such high-level analyses and post-hoc evaluations cannot show possible developments pathways for specific cities, and hence cannot serve as input to policymakers at the local level such as county, municipal, or city governments. Here, we present IMPACT pathways from a bottom-up model with residence level granularity that integrate policy for technology adoption with zoning policy, climate change, and grid decarbonization scenarios. With the city at the heart of the analysis, our results show potential greenhouse gas emission pathways, identify synergies and trade-offs between policies, and show the importance of appropriate baselines. | 翻訳日:2023-02-19 14:56:55 公開日:2022-12-31 |
# ピアアセスメントと差分進化による有害インターネット利用の議論 Combating harmful Internet use with peer assessment and differential evolution ( http://arxiv.org/abs/2301.10232v1 ) ライセンス: Link先を確認 | W.W. Koczkodaj, M. Mazurek, W. Pedrycz, E. Rogalska, R. Roth, D. Strzalka, A. Szymanska, A. Wolny-Dominiak, M. Woodbury-Smith, O.S. Xue, R. Zbyrowski | (参考訳) 有害インターネット利用(英: harmal internet use、hiu)は、インターネットの意図しない使用を指す用語である。
本研究では,ピアアセスメントと微分進化アプローチに基づくより正確なhiu測定手法を提案する。
サンプルデータはポーランドの少年人口からなり、267人の被験者が1,513人の査定を受けた。
古典的な統計解析に加えて、微分進化が用いられている。
以上の結果から,他の研究よりもかなり高いヒウ率が存在する可能性が示唆された。
HIUによる青年期の人口流入のより正確な測定は、医療・福祉システム計画に必要である。
2022年7月20-22日、チェコのプラハで開催。 Harmful Internet use (HIU) is a term coined for the unintended use of the Internet. In this study, we propose a more accurate HIU measuring method based on the peer assessment and differential evolution approach. The sample data comprises a juvenile population in Poland; 267 subjects assessed 1,513 peers. In addition to classic statistical analysis, differential evolution has been employed. Results indicate that there may be a substantially higher rate of HIU than other studies have indicated. More accurate measurement of the adolescent population influx affected by HIU is needed for healthcare and welfare system planning. Presented in Prague, Czech Republic, 20-22 July 2022. | 翻訳日:2023-02-19 13:49:48 公開日:2022-12-31 |
# 小売取引の民主化:RedditのWallStreetBetsは投資銀行アナリストより優れているか? Democratization of Retail Trading: Can Reddit's WallStreetBets Outperform Investment Bank Analysts? ( http://arxiv.org/abs/2301.00170v1 ) ライセンス: Link先を確認 | Tolga Buz, Gerard de Melo | (参考訳) RedditのWallStreetBets(WSB)コミュニティに関する最近の誇大広告は、その経済と社会への影響の研究に影響を与えている。
wsbの匿名コントリビューターコミュニティは、実際に価値ある投資アドバイスを提供し、おそらくトップ金融機関よりも優れていますか?
我々は、2018年以降に発行された160万以上のwsb投稿に基づいて、主要な投資銀行による勧告と比較して、wsbの投資推奨に関するデータ駆動実証研究を行う。
8%が市場データに富んだ。
この目的のために、WSBのすべてのS&P500株の原文から投資勧告を抽出し、評価し、そのパフォーマンスを大手投資銀行のアナリストレコメンデーション16,000以上と比較する。
すべてのWSBレコメンデーションが利益を証明しているわけではないが、我々の結果は、最高の銀行と競合する平均リターンを達成し、特定のケースでそれを上回っていることを示している。
さらに、WSBコミュニティは、ほとんどの投資銀行が最高パフォーマンスの株式を発見できるよりも優れている。
WSBは、実際に自由にアクセス可能で価値ある投資アドバイスの源となるかもしれないと結論づける。 The recent hype around Reddit's WallStreetBets (WSB) community has inspired research on its impact on our economy and society. Still, one important question remains: Can WSB's community of anonymous contributors actually provide valuable investment advice and possibly even outperform top financial institutions? We present a data-driven empirical study of investment recommendations of WSB in comparison to recommendations made by leading investment banks, based on more than 1.6 million WSB posts published since 2018. %enriched with stock market data. To this end, we extract and evaluate investment recommendations from WSB's raw text for all S&P 500 stocks and compare their performance to more than 16,000 analyst recommendations from the largest investment banks. While not all WSB recommendations prove profitable, our results show that they achieve average returns that compete with the best banks and outperform them in certain cases. Furthermore, the WSB community has been better than almost all investment banks at detecting top-performing stocks. We conclude that WSB may indeed constitute a freely accessible, valuable source of investment advice. | 翻訳日:2023-02-19 13:24:28 公開日:2022-12-31 |
# Pseudo AIのバイアス Pseudo AI Bias ( http://arxiv.org/abs/2210.08141v2 ) ライセンス: Link先を確認 | Xiaoming Zhai, Joseph Krajcik | (参考訳) Pseudo Artificial Intelligence bias (PAIB) は、社会における不必要なAIの恐れを生じさせ、AIアプリケーションの利点にアクセスし、共有する際の永続的な不平等と格差を悪化させ、AI研究に投資する社会的資本を無駄にする文学において広く普及している。
本研究は,文献中の出版物を体系的にレビューし,以下の3種類のpaibを提示する。
a)誤解
b) 擬似機械バイアス,及び
c) 過剰な期待。
我々は、AIの恐怖を軽減するためにAIアプリケーションのユーザを認定すること、AIアプリケーションのカスタマイズされたユーザーガイダンスを提供すること、バイアスを監視するための体系的なアプローチの開発など、PAIBの結果と解決策について議論した。
我々は,誤解,疑似機械バイアス,アルゴリズム予測の過度な発見によるPAIBは社会的に有害であると結論付けた。 Pseudo Artificial Intelligence bias (PAIB) is broadly disseminated in the literature, which can result in unnecessary AI fear in society, exacerbate the enduring inequities and disparities in access to and sharing the benefits of AI applications, and waste social capital invested in AI research. This study systematically reviews publications in the literature to present three types of PAIBs identified due to: a) misunderstandings, b) pseudo mechanical bias, and c) over-expectations. We discussed the consequences of and solutions to PAIBs, including certifying users for AI applications to mitigate AI fears, providing customized user guidance for AI applications, and developing systematic approaches to monitor bias. We concluded that PAIB due to misunderstandings, pseudo mechanical bias, and over-expectations of algorithmic predictions is socially harmful. | 翻訳日:2023-02-19 11:42:22 公開日:2022-12-31 |
# Hofstadter butterflyにおける分画分画電荷と離散シフト Fractional disclination charge and discrete shift in the Hofstadter butterfly ( http://arxiv.org/abs/2204.05320v4 ) ライセンス: Link先を確認 | Yuxuan Zhang, Naren Manjunath, Gautam Nambiar and Maissam Barkeshli | (参考訳) 結晶対称性が存在する場合、物質の位相相は非自明な量子化応答をもたらす不変量のホストを得る。
ここでは、自由フェルミオンの正方格子ホフシュタッターモデルに対する離散シフト $\mathscr{S}$ について研究する。
$\mathscr{S}$は、$M$の回転対称性と電荷保存の存在下での$\mathbb{Z}_M$分類と関連付けられる。
量子化された貢献を与える$\mathscr{s}$
(i)格子の偏差に束縛された分数電荷、及び
(ii)追加の対称的に挿入された磁束を持つ基底状態の角運動量。
$\mathscr{S}$ は独自の "Hofstadter butterfly" を形成する。
我々はHofstadterバンドの密度とラケットあたりのフラックスという観点から、$\mathscr{S}$に対する経験式を提案し、多くの一般的な制約を導出する。
同じチャーン数を持つバンドは$\mathscr{S}$の異なる値を持つが、奇数やチャーン数を持つバンドは常に$\mathscr{S}$の半整数値と整数値を持つ。 In the presence of crystalline symmetries, topological phases of matter acquire a host of invariants leading to non-trivial quantized responses. Here we study a particular invariant, the discrete shift $\mathscr{S}$, for the square lattice Hofstadter model of free fermions. $\mathscr{S}$ is associated with a $\mathbb{Z}_M$ classification in the presence of $M$-fold rotational symmetry and charge conservation. $\mathscr{S}$ gives quantized contributions to (i) the fractional charge bound to a lattice disclination, and (ii) the angular momentum of the ground state with an additional, symmetrically inserted magnetic flux. $\mathscr{S}$ forms its own `Hofstadter butterfly', which we numerically compute, refining the usual phase diagram of the Hofstadter model. We propose an empirical formula for $\mathscr{S}$ in terms of density and flux per plaquette for the Hofstadter bands, and we derive a number of general constraints. We show that bands with the same Chern number may have different values of $\mathscr{S}$, although odd and even Chern number bands always have half-integer and integer values of $\mathscr{S}$ respectively. | 翻訳日:2023-02-17 08:13:20 公開日:2022-12-31 |
# 忠実性)量子状態トモグラフィにおけるサンプル複雑性の低値化 An Improved Sample Complexity Lower Bound for (Fidelity) Quantum State Tomography ( http://arxiv.org/abs/2206.11185v2 ) ライセンス: Link先を確認 | Henry Yuen | (参考訳) 我々は、未知のランク-$r$、次元-$d$の量子混合状態のコピー$\Omega(rd/\epsilon)$が、1 - \epsilon$fidelityで古典的な記述を学ぶために必要であることを示す。
これにより、Hah, et al. と Wright によって得られるトモグラフィーの下界が改善される(その近さは忠実関数に関して測定される)。 We show that $\Omega(rd/\epsilon)$ copies of an unknown rank-$r$, dimension-$d$ quantum mixed state are necessary in order to learn a classical description with $1 - \epsilon$ fidelity. This improves upon the tomography lower bounds obtained by Haah, et al. and Wright (when closeness is measured with respect to the fidelity function). | 翻訳日:2023-02-08 09:47:54 公開日:2022-12-31 |
# UAS画像解析とコンピュータビジョン技術を用いたトウモロコシのサイト特異的雑草管理 Site-specific weed management in corn using UAS imagery analysis and computer vision techniques ( http://arxiv.org/abs/2301.07519v1 ) ライセンス: Link先を確認 | Ranjan Sapkota, John Stenger, Michael Ostlie, Paulo Flores | (参考訳) 現在、畑の雑草分布情報を考慮せずに商業トウモロコシ生産における雑草制御を行っている。
このような雑草管理の実践は、特定の分野に過剰な量の化学除草剤が適用されることにつながる。
本研究の目的は、トウモロコシ畑において、部位特異的雑草制御(SSWC)を行うことである。
1) 現場における雑草の空間分布情報を地図化するために無人航空システム(UAS)を用いる。
2)雑草分布マップに基づく処方地図の作成、及び
3) 基準地図と商用サイズスプレー機を用いてフィールドを噴霧する。
本研究では,UAS画像上のトウモロコシの列を識別するコンピュータビジョンアルゴリズムであるCrop Row Identification (CRI)アルゴリズムを提案する。
特定後、トウモロコシの列は画像から取り除かれ、残りの植生分画は雑草として分類された。
その情報に基づいて, グリッド型雑草処方マップを作成し, 商業用散布機を用いて雑草管理アプリケーションを実装した。
除草剤を特定のグリッドに噴霧する決定は、そのグリッドセルに雑草が存在することに基づく。
少なくとも1つの雑草を含むグリッドは散布されたが、雑草のないグリッドは散布されなかった。
sswcのアプローチにより、既存の方法に比べて26.23\%の土地(1.97エーカー)に化学除草剤を散布することを防いだ。
本研究は,UAS画像収集から,市販の散布機を用いた雑草防除実装までの全ワークフローを概説し,高い雑草感染状況下でもある程度の省エネが可能であり,トウモロコシ生産システムにおける化学利用削減の機会となる可能性があることを示す。 Currently, weed control in commercial corn production is performed without considering weed distribution information in the field. This kind of weed management practice leads to excessive amounts of chemical herbicides being applied in a given field. The objective of this study was to perform site-specific weed control (SSWC) in a corn field by 1) using an unmanned aerial system (UAS) to map the spatial distribution information of weeds in the field; 2) creating a prescription map based on the weed distribution map, and 3) spraying the field using the prescription map and a commercial size sprayer. In this study, we are proposing a Crop Row Identification (CRI) algorithm, a computer vision algorithm that identifies corn rows on UAS imagery. After being identified, the corn rows were then removed from the imagery and the remaining vegetation fraction was classified as weeds. Based on that information, a grid-based weed prescription map was created and the weed control application was implemented through a commercial-size sprayer. The decision of spraying herbicides on a particular grid was based on the presence of weeds in that grid cell. All the grids that contained at least one weed were sprayed, while the grids free of weeds were not. Using our SSWC approach, we were able to save 26.23\% of the land (1.97 acres) from being sprayed with chemical herbicides compared to the existing method. This study presents a full workflow from UAS image collection to field weed control implementation using a commercial-size sprayer, and it shows that some level of savings can potentially be obtained even in a situation with high weed infestation, which might provide an opportunity to reduce chemical usage in corn production systems. | 翻訳日:2023-01-29 14:09:01 公開日:2022-12-31 |
# 10^{-14}$レベルの系統的不確実性を有するテラヘルツ振動分子時計 A terahertz vibrational molecular clock with systematic uncertainty at the $10^{-14}$ level ( http://arxiv.org/abs/2209.10864v3 ) ライセンス: Link先を確認 | K. H. Leung, B. Iritani, E. Tiberi, I. Majewska, M. Borkowski, R. Moszynski, T. Zelevinsky | (参考訳) 光学格子中の中性量子吸収体は、精巧な分光分解能を持つ時計を実現するための主要なプラットフォームとして登場した。
しかしながら、吸収体のクラスとこれらの時計の系統的なシフトの研究は、これまで原子に限られてきた。
ここでは、この構造を二原子分子のアンサンブルに拡張し、純粋な分子振動に基づく正確な格子時計を実験的に実現する。
非線形トラップ誘起光シフトのキャラクタリゼーションを含む主要な系統評価を行い,総系統的不確実性は4.6\times10^{-14}$である。
振動分割の絶対周波数は31 825 183 207 600.9(3.3) Hzと測定され、分子の解離エネルギーは記録精度で決定される。
この結果は分子分光法の重要なマイルストーンであり、thz周波数標準であり、分子量子電気力学や新しい相互作用の探索を含む基礎物理学への応用により、他の中性分子種に一般化することができる。 Neutral quantum absorbers in optical lattices have emerged as a leading platform for achieving clocks with exquisite spectroscopic resolution. However, the class of absorbers and studies of systematic shifts in these clocks have so far been limited to atoms. Here, we extend this architecture to an ensemble of diatomic molecules and experimentally realize an accurate lattice clock based on pure molecular vibration. We evaluate the leading systematics, including the characterization of nonlinear trap-induced light shifts, achieving a total systematic uncertainty of $4.6\times10^{-14}$. The absolute frequency of the vibrational splitting is measured to be 31 825 183 207 600.9(3.3) Hz, enabling the dissociation energy of our molecule to be determined with record accuracy. Our results represent an important milestone in molecular spectroscopy, THz frequency standards, and may be generalized to other neutral molecular species with applications for fundamental physics, including tests of molecular quantum electrodynamics and the search for new interactions. | 翻訳日:2023-01-25 18:17:02 公開日:2022-12-31 |
# 親サブシステムコードのないフロッケ符号 Floquet codes without parent subsystem codes ( http://arxiv.org/abs/2210.02468v3 ) ライセンス: Link先を確認 | Margarita Davydova, Nathanan Tantivasadakarn, Shankar Balasubramanian | (参考訳) 親サブシステムコードに明示的な接続を持たない2次元、3次元の誤り訂正動的符号を新たに提案する。
css floquet コードと呼ばれる二次元コードは、hastings と haah による honeycomb コードと幾何的に似ており、同時に動的に瞬時の toric コードを埋め込んでいる。
しかしながら、honeycombコードとは異なり、明示的なcss構造を持ち、ゲージチェックはサブシステムコードを形成しない。
しかしながら,我々の動的プロトコルは論理情報を保存し,誤り訂正のしきい値を有することを示す。
この構成を3次元に一般化し,2つのタイプiフラクトンモデルであるチェッカーボードとx-cubeモデルにフォールトトレラントな交互のコードを得る。
最後に,CSS Floquet 符号プロトコルとハニカム符号の互換性について,情報損失を伴わずに2つのプロトコルをランダムに切り替える可能性を示した。
このより一般的な非周期構造を「動的木コード」と呼び、これを3次元に一般化する。
確率的に有限オートマトンを処方し,単一キュービットのpauli誤りを訂正する動的木符号を生成し,実用的なフォールトトレラントなランダム符号の開発への一歩と見なすことができる。 We propose a new class of error-correcting dynamic codes in two and three dimensions that has no explicit connection to any parent subsystem code. The two-dimensional code, which we call the CSS Floquet code, is geometrically similar to that of the honeycomb code by Hastings and Haah, and also dynamically embeds an instantaneous toric code. However, unlike the honeycomb code it possesses an explicit CSS structure and its gauge checks do not form a subsystem code. Nevertheless, we show that our dynamic protocol conserves logical information and possesses a threshold for error correction. We generalize this construction to three dimensions and obtain a code that fault-tolerantly alternates between realizing two type-I fracton models, the checkerboard and the X-cube model. Finally, we show the compatibility of our CSS Floquet code protocol and the honeycomb code by showing the possibility of randomly switching between the two protocols without information loss while still measuring error syndromes. We call this more general aperiodic structure `dynamic tree codes', which we also generalize to three dimensions. We construct a probabilistic finite automaton prescription that generates dynamic tree codes correcting any single-qubit Pauli errors and can be viewed as a step towards the development of practical fault-tolerant random codes. | 翻訳日:2023-01-23 17:26:22 公開日:2022-12-31 |
# 量子フーリエ変換は小さな絡み合いを持つ The Quantum Fourier Transform Has Small Entanglement ( http://arxiv.org/abs/2210.08468v2 ) ライセンス: Link先を確認 | Jielun Chen, E.M. Stoudenmire, Steven R. White | (参考訳) 量子フーリエ変換(QFT、Quantum Fourier Transform)は、多くの重要な量子アルゴリズムの鍵となる要素であり、最も有名である。
その顕著な能力を考えると、量子ビットシステムに大きな絡み合いをもたらし、古典的にシミュレートするのが難しいと考えるだろう。
初期の結果ではQFTの最大演算子絡み合いが見られたが、これはQFTのビット反転によるものである。
QFTの中核部はシュミット係数が指数関数的に急速に減衰するので、量子ビットの数に関係なく一定のエンタングルメントしか生成できない。
さらに、qftの絡み合い力は指数関数的に減衰する相互作用を持つハミルトニアンの時間発展と同じであり、従ってダイナミクスの領域法則の変種を用いて、直観的に低絡み合いを理解することができることを示した。
qftの低エンタングルメント特性を用いて, 結合次元が小さい行列積状態におけるqftの古典的シミュレーションは, 量子ビット数において線形な時間しかかからないことを示し, 多くの関数の古典的高速フーリエ変換(fft)に対する潜在的な高速化を提供する。
簡単な関数上でのテスト計算において、このスピードアップを実証する。
長さ10^6$から10^8$のデータベクトルの場合、スピードアップは数桁のオーダーとなる。 The Quantum Fourier Transform (QFT) is a key component of many important quantum algorithms, most famously as being the essential ingredient in Shor's algorithm for factoring products of primes. Given its remarkable capability, one would think it can introduce large entanglement to qubit systems and would be difficult to simulate classically. While early results showed QFT indeed has maximal operator entanglement, we show that this is entirely due to the bit reversal in the QFT. The core part of the QFT has Schmidt coefficients decaying exponentially quickly, and thus it can only generate a constant amount of entanglement regardless of the number of qubits. In addition, we show the entangling power of the QFT is the same as the time evolution of a Hamiltonian with exponentially decaying interactions, and thus a variant of the area law for dynamics can be used to understand the low entanglement intuitively. Using the low entanglement property of the QFT, we show that classical simulations of the QFT on a matrix product state with low bond dimension only take time linear in the number of qubits, providing a potential speedup over the classical fast Fourier transform (FFT) on many classes of functions. We demonstrate this speedup in test calculations on some simple functions. For data vectors of length $10^6$ to $10^8$, the speedup can be a few orders of magnitude. | 翻訳日:2023-01-22 09:27:13 公開日:2022-12-31 |
# 量子臨界における創発的連続対称性の検出 Detecting emergent continuous symmetries at quantum criticality ( http://arxiv.org/abs/2210.17539v2 ) ライセンス: Link先を確認 | Mingru Yang, Bram Vanhecke, Norbert Schuch | (参考訳) 新しくあるいは拡大された対称性は、ハミルトン群の非正規化群フローにおいて対称性の破れ項が無関係である場合、対称性を持たないハミルトニアンの低エネルギースペクトルに現れる。
本稿では, 量子スピン鎖の基底状態における初期保存電荷の格子演算子近似を, 低エネルギー有効場理論に関する事前知識を必要とせず, 数値的に求めるテンソルネットワークに基づくアルゴリズムを提案する。
その結果,スピン-1/2$J$-$Q$Heisenbergモデルと分解量子臨界点(DQCP)の1次元バージョンにおいて,創発的保存電荷に新たな光を流すことができた。
これはまた、可積分モデルの局所的な運動積分と臨界ギャップのない基底状態の局所親ハミルトニアンを抽出する方法として見ることもできる。 New or enlarged symmetries can emerge at the low-energy spectrum of a Hamiltonian that does not possess the symmetries, if the symmetry breaking terms in the Hamiltonian are irrelevant under the renormalization group flow. In this letter, we propose a tensor network based algorithm to numerically find lattice operator approximation of the emergent conserved charges in the ground state of any quantum spin chains, without the necessity to have prior knowledge about its low-energy effective field theory. The results obtained with our method shed new light on the emergent conserved charges in the spin-1/2 $J$-$Q$ Heisenberg model and in a one-dimensional version of deconfined quantum critical points (DQCP). It can also be viewed as a way to extract the local integrals of motion of an integrable model and the local parent Hamiltonian of a critical gapless ground state. | 翻訳日:2023-01-20 22:06:25 公開日:2022-12-31 |
# restless banditsを用いた人気の高いコンテンツのキャッシング Caching Contents with Varying Popularity using Restless Bandits ( http://arxiv.org/abs/2212.03291v2 ) ライセンス: Link先を確認 | Pavamana K J, Chandramani Kishore Singh | (参考訳) モバイルネットワークはデータ量とユーザ密度が著しく増加しており、モバイルコアネットワークとバックホールリンクに大きな負担がかかる。
この問題を減らすための効率的な手法は、固定アクセスポイントやモバイルアクセスポイント、さらにはユーザデバイスといったエッジネットワークノードのキャッシュを利用することで、データをユーザに近づけるためのキャッシュを使用することである。
キャッシュのパフォーマンスはキャッシュされるコンテンツに依存します。
本稿では,無線エッジ(すなわち基地局)におけるコンテンツキャッシングの問題点を考察し,無限地平線上で発生する割引コストを最小化する。
この問題をrestless bandit問題として定式化しますが,解決は困難です。
まず、最適なポリシーはしきい値型であることを示す。
これらの構造的結果を用いて,問題のインデクシング可能性を証明し,ディスカウントコストを最小限に抑えるためにウィットル・インデックス・ポリシーを用いる。 Mobile networks are experiencing prodigious increase in data volume and user density , which exerts a great burden on mobile core networks and backhaul links. An efficient technique to lessen this problem is to use caching i.e. to bring the data closer to the users by making use of the caches of edge network nodes, such as fixed or mobile access points and even user devices. The performance of a caching depends on contents that are cached. In this paper, we examine the problem of content caching at the wireless edge(i.e. base stations) to minimize the discounted cost incurred over infinite horizon. We formulate this problem as a restless bandit problem, which is hard to solve. We begin by showing an optimal policy is of threshold type. Using these structural results, we prove the indexability of the problem, and use Whittle index policy to minimize the discounted cost. | 翻訳日:2023-01-20 21:58:42 公開日:2022-12-31 |
# エッジクラウドオーケストレーションベクトルネットワークのためのコスト効果2段階スライシング Cost-Effective Two-Stage Network Slicing for Edge-Cloud Orchestrated Vehicular Networks ( http://arxiv.org/abs/2301.03358v1 ) ライセンス: Link先を確認 | Wen Wu, Kaige Qu, Peng Yang, Ning Zhang, Xuemin (Sherman) Shen, Weihua Zhuang | (参考訳) 本稿では,エッジとクラウドサーバを編成し,ネットワークスライシングコストを低減し,サービス要求の質を満足する計算処理を行うエッジクラウドオーケストレーション車両ネットワークのネットワークスライシング問題について検討する。
本稿では,2段階のネットワークスライシングフレームワークを提案する。
1)スライス展開、エッジリソースのプロビジョニング、クラウドリソースのプロビジョニングを行うため、大規模なネットワークプランニングステージ。
2) リソース割り当てとタスクディスパッチを行うため,小規模の時間スケールでネットワーク運用を行う。
特に,ネットワークスライシング問題を2段階確率最適化問題として定式化し,ネットワークスライシングコストを最小化する。
ネットワーク計画とネットワーク運用の複合化によるNPハードであるため,ネットワーク計画と運用決定を協調的に行うための強化学習(RL)と最適化手法を協調的に統合し,TAWSアルゴリズムを2倍精度で開発する。
具体的には、決定の時間的分離特性を利用して、問題を大規模ネットワーク計画サブプロブレムと小規模ネットワーク運用サブプロブレムに分離する。
前者はRL法で解かれ、後者は最適化法で解かれる。
実世界の車両トラフィックトレースに基づくシミュレーションの結果,TAWSはベンチマーク手法と比較してネットワークスライシングコストを効果的に削減できることが示された。 In this paper, we study a network slicing problem for edge-cloud orchestrated vehicular networks, in which the edge and cloud servers are orchestrated to process computation tasks for reducing network slicing cost while satisfying the quality of service requirements. We propose a two-stage network slicing framework, which consists of 1) network planning stage in a large timescale to perform slice deployment, edge resource provisioning, and cloud resource provisioning, and 2) network operation stage in a small timescale to perform resource allocation and task dispatching. Particularly, we formulate the network slicing problem as a two-timescale stochastic optimization problem to minimize the network slicing cost. Since the problem is NP-hard due to coupled network planning and network operation stages, we develop a Two timescAle netWork Slicing (TAWS) algorithm by collaboratively integrating reinforcement learning (RL) and optimization methods, which can jointly make network planning and operation decisions. Specifically, by leveraging the timescale separation property of decisions, we decouple the problem into a large-timescale network planning subproblem and a small-timescale network operation subproblem. The former is solved by an RL method, and the latter is solved by an optimization method. Simulation results based on real-world vehicle traffic traces show that the TAWS can effectively reduce the network slicing cost as compared to the benchmark scheme. | 翻訳日:2023-01-15 23:07:25 公開日:2022-12-31 |
# 弦状軸イオンベル対のド・ジッターの絡み合い負性:Bunch-Davies真空を用いた解析 Entanglement negativity in de Sitter biverse from Stringy Axionic Bell pair: An analysis using Bunch-Davies vacuum ( http://arxiv.org/abs/2301.05203v1 ) ライセンス: Link先を確認 | Sayantan Choudhury | (参考訳) 本研究では,3+1 次元大域デジッター空間における2つの因果関係のない領域間の絡み合いの負性を計算することで量子絡み合いのシグネチャを研究する。
この目的のために、カラビ・ヤウ三重折りのIIB型弦のコンパクト化による軸イオンベル対によって駆動される二部量子場理論のセットアップについて検討する。
全球ド・ジッター空間の空間スライスを外界と内界に因果関係のない部分領域に分割する球面を考える。
計算目的のために、最も単純な量子真空の初期選択(Bunch-Davies状態)を用いる。
エンタングルメント・ネガティビティの定量的量子情報理論の尺度は、エンタングルメント・エントロピーの結果と一致することが判明した。
我々は、この問題を、因果的無関係な観測者のうちの1人が制約されたままで、スケール依存がアクオン性ベル対に対する対応する量子情報理論的絡み合い尺度に入力される双曲的オープンチャートにおいて設計する。
また,小スケールでは初期絡み合いが完全に復元可能であること,また,現在の理論設定におけるマルチバースのミニバージョンである,バイバース画像を持つことの可能性についても論じる。
最後に、我々は、大域的ド・ジッター空間の量子場理論の枠組みや、弦理論から導かれた公理による原始宇宙論において、非消滅の量子絡み合い測度を生成するために必要な基準を提供する。 In this work, we study the signatures of quantum entanglement by computing entanglement negativity between two causally unrelated regions in $3+1$ dimensional global de Sitter space. We investigate a bipartite quantum field theoretic setup for this purpose, driven by an axionic Bell pair resulting from Type IIB string compactification on a Calabi-Yau three fold. We take into account a spherical surface that divides the spatial slice of the global de Sitter space into exterior and interior causally unrelated sub regions. For the computational purpose we use the simplest possible initial choice of quantum vacuum, which is Bunch-Davies state. The quantitative quantum information theoretic measure for entanglement negativity turns out be consistent with the results obtained for entanglement entropy, even we have to say it is better than that from quantum information theoretic point of view. We design the problem in a hyperbolic open chart where one of the causally unrelated observers remains constrained and the scale dependence enters to the corresponding quantum information theoretic entanglement measure for axionic Bell pair.We find from our analysis that in the large scales initially maximally entangled Bunch-Davies state turns out to be strongly entangled or weakly entangled depending on the axionic decay constant and the supersymmetry breaking scale. We also find that at the small scales the initial entanglement can be perfectly recovered.We also discuss the possibility of having a biverse picture, which is a mini version of the multiverse in the present theoretical set up. Last but not the least, we provide the necessary criteria for generating non vanishing quantum entanglement measures within the framework of quantum field theory of global de Sitter space as well as well as in primordial cosmology due to the axion derived from string theory. | 翻訳日:2023-01-15 23:06:15 公開日:2022-12-31 |
# 皮膚効果による対数的および代数的スケーリング絡み合い位相の欠如 Absence of logarithmic and algebraic scaling entanglement phases due to skin effect ( http://arxiv.org/abs/2212.08090v3 ) ライセンス: Link先を確認 | Xu Feng, Shuo Liu, Shu Chen, Wenan Guo | (参考訳) 射影測定とランダムなユニタリ進化の競合の存在下での計測誘起相転移は、絡み合い構造の豊富な現象から注目されている。
しかしながら、自由フェルミオンを持つ開量子系では、条件フィードバックによる一般化された測定は、皮膚効果を誘導し、絡み合い遷移なしで短距離の絡み合いを生じさせる。
本研究は, 開放境界条件を有するシステムにおいて, 測定誘起皮膚効果による絡み合い遷移の欠如は, パワーローロングレンジホッピングが変化しないことを実証するものである。
さらに、有限サイズの系に対して、代数的スケーリング $S(L, L/4)\sim L^{3/2-p}$ は、長距離ホッピングのパワーロー指数 $p$ が比較的小さいときに見つかる。
周期的境界条件を持つ系では,計測誘起皮膚効果が消失し,'代数的法則','対数法','領域法'相間の絡み合い相転移が観察される。 Measurement-induced phase transition in the presence of competition between projective measurement and random unitary evolution has attracted increasing attention due to the rich phenomenology of entanglement structures. However, in open quantum systems with free fermions, a generalized measurement with conditional feedback can induce skin effect and render the system short-range entangled without any entanglement transition, meaning the system always remains in the ``area law'' entanglement phase. In this work, we demonstrate that the power-law long-range hopping does not alter the absence of entanglement transition brought on by the measurement-induced skin effect for systems with open boundary conditions. In addition, for the finite-size systems, we discover an algebraic scaling $S(L, L/4)\sim L^{3/2-p}$ when the power-law exponent $p$ of long-range hopping is relatively small. For systems with periodic boundary conditions, we find that the measurement-induced skin effect disappears and observe entanglement phase transitions among ``algebraic law'', ``logarithmic law'', and ``area law'' phases. | 翻訳日:2023-01-09 14:49:02 公開日:2022-12-31 |
# キャビティ埋め込み型クーパー対トランジスタのkerrbistableレジームによる高速高忠実性電荷読み出し Fast high-fidelity charge readout by operating the cavity-embedded Cooper pair transistor in the Kerr bistable regime ( http://arxiv.org/abs/2301.00110v1 ) ライセンス: Link先を確認 | Bhargava Thyagarajan, Sisira Kanhirathingal, Benjamin L. Brock, Juliang Li, Miles P. Blencowe and Alexander J. Rimberg | (参考訳) キャビティ埋め込み型クーパー対トランジスタ(ccpt)をkerr bistable方式で動作させ,0.09e$ apartの2つの電荷状態間の単発分解能を示す。
この測定は、94$\%$忠実で、3$\mu$sの期間で行われる。
測定された駆動電力は、rf-setsよりも桁違いに小さいccptの高振動振幅状態において平均20個のキャビティ内光子のみに対応している。
これら2つの準安定振動振幅状態間の自発的な揺らぎ誘起スイッチングは,cCPTの動作モードの制限因子であることがわかった。
我々は、駆動パラメータとcCPT DCバイアスによるスイッチングダイナミクスの変動に関する実験データを提示する。 Operating the cavity-embedded Cooper pair transistor (cCPT) in the Kerr bistable regime, we demonstrate single-shot resolution between two charge states that are $0.09e$ apart. The measurement is performed with 94$\%$ fidelity in a duration of 3 $\mu$s. The drive power at which the measurement is performed corresponds to only 20 intracavity photons on average in the high oscillation amplitude state of the cCPT, which is orders-of-magnitude smaller than that in rf-SETs. We find that the limiting factor for this mode of operation of the cCPT is the spontaneous fluctuation-induced switching between the two metastable oscillation amplitude states. We present empirical data on the variation of the switching dynamics with drive parameters and cCPT DC bias. | 翻訳日:2023-01-09 01:29:31 公開日:2022-12-31 |
# 熱い絡み?
--熱湯中におけるパラメトリック結合型量子発振器:不安定性、スクイーズ、駆動 Hot entanglement? -- Parametrically coupled quantum oscillators in two heat baths: instability, squeezing and driving ( http://arxiv.org/abs/2301.00256v1 ) ライセンス: Link先を確認 | Onat Ar{\i}soy, Jen-Tsung Hsiang and Bei-Lok Hu | (参考訳) 絡み合いは量子科学の基礎的基盤であり、量子情報処理における主要な資源であり、現実的条件におけるその動的進化を理解することは不可欠である。
残念なことに、多くのモデル研究により、量子系の環境、特に熱雑音からの絡み合いの劣化はほぼ避けられないことが示されている。
したがって、Galve et al[Phys]まで、"hot entanglement"という発音は矛盾のように見える。
Rev. Lett.
\textbf{105} 180501 (2010)] は、それぞれの浴槽と相互作用する時間依存結合を持つ量子系を考えると、絡み合いを高温に保つことができると発表した。
高温での絡み合いの持続性を理解し、同じモデルで作業し、Galve et al、すなわちパラメトリック駆動の結合調和振動子を自身のマルコフ浴と相互作用させることにより、この研究はサブタイトルにリストされた3つの側面から「熱い絡み合い」の実現可能性を探る。
私たちの発見は
1)不安定な状態においてのみ熱い絡み合い関数。
2)不安定性は必要だが十分でない状態であり、
3)不安定な状態にある駆動が絡み合いを維持するために必要な電力は指数関数的に増加する。
最後の要因は、このモデリングの下での熱い絡み合いは理論的には持続不可能であり、実際の実装は達成不可能であることを示している。 Entanglement being a foundational cornerstone of quantum sciences and the primary resource in quantum information processing, understanding its dynamical evolution in realistic conditions is essential. Unfortunately, numerous model studies show that degradation of entanglement from a quantum system's environment, especially thermal noise, is almost unavoidable. Thus the appellation `hot entanglement' appears like a contradiction, until Galve et al [Phys. Rev. Lett. \textbf{105} 180501 (2010)] announced that entanglement can be kept at high temperatures if one considers a quantum system with time-dependent coupling between the two parties, each interacting with its individual bath. With the goal of understanding the sustenance of entanglement at high temperatures, working with the same model and set up as Galve et al, namely, parametrically-driven coupled harmonic oscillators interacting with their own Markovian baths, this work probes into the feasibility of `hot entanglement' from three aspects listed in the subtitle. Our findings show that 1) hot entanglement functions only in the unstable regimes, 2) instability is a necessary but not sufficient condition, and 3) the power intake required by the drive operating in the unstable regime to sustain entanglement increases exponentially. The last factor indicates that hot entanglement under this modeling is theoretically untenable and its actual implementation likely unattainable. | 翻訳日:2023-01-09 01:29:18 公開日:2022-12-31 |
# 畳み込みニューラルネットワークを用いたYOLOv5を用いた肺結節CTスキャンの同定 Identification of lung nodules CT scan using YOLOv5 based on convolution neural network ( http://arxiv.org/abs/2301.02166v1 ) ライセンス: Link先を確認 | Haytham Al Ewaidat, Youness El Brag | (参考訳) 目的:ctスキャン画像における肺結節の局在は,肺結節の形状,大きさ,テクスチャの任意性が複雑であるため,最も難しい課題である。
これは、検出システムを改善する様々なソリューションを開発する際に直面する課題である。
ディープラーニングアプローチは、特に画像認識のために畳み込みニューラルネットワーク(CNN)を使用することで、有望な結果を示した。
アプローチ: YOLOv5をベースとした(CNN)ビルディングブロックを用いて, 結節検出ラベルの特徴表現を学習し, 肺がんの局所化を検出する手法を提案する。
胸部X線と低線量CTもスクリーニングが可能であり,放射線診断における結節認識においては,CNNに基づくコンピュータ支援診断(CAD)システムが有用であることを示す。
280のアノテーション付きctスキャンで訓練された1段階検出器のyolov5は、分節肺結節に基づくlidc-idriである。
結果: 肺結節位置の予測性能を解析し, 関連するCTスキャン領域を分離した。
肺結節局在の精度は平均平均精度(map)として測定される。
このマップでは、バウンディングボックスがラベルにどの程度適合しているか、そして予測されたバウンディングボックスのクラスがどれだけ正確であるか、92.27%の精度を考慮に入れています。
結論: 本研究は, 肺に発生する結節を同定することを目的とした。
文献上肺結節に関する情報を見つけることは困難であった。 Purpose: The lung nodules localization in CT scan images is the most difficult task due to the complexity of the arbitrariness of shape, size, and texture of lung nodules. This is a challenge to be faced when coming to developing different solutions to improve detection systems. the deep learning approach showed promising results by using convolutional neural network (CNN), especially for image recognition and it's one of the most used algorithm in computer vision. Approach: we use (CNN) building blocks based on YOLOv5 (you only look once) to learn the features representations for nodule detection labels, in this paper, we introduce a method for detecting lung cancer localization. Chest X-rays and low-dose computed tomography are also possible screening methods, When it comes to recognizing nodules in radiography, computer-aided diagnostic (CAD) system based on (CNN) have demonstrated their worth. One-stage detector YOLOv5 trained on 280 annotated CT SCAN from a public dataset LIDC-IDRI based on segmented pulmonary nodules. Results: we analyze the predictions performance of the lung nodule locations, and demarcates the relevant CT scan regions. In lung nodule localization the accuracy is measured as mean average precision (mAP). the mAP takes into account how well the bounding boxes are fitting the labels as well as how accurate the predicted classes for those bounding boxes, the accuracy we got 92.27%. Conclusion: this study was to identify the nodule that were developing in the lungs of the participants. It was difficult to find information on lung nodules in medical literature. | 翻訳日:2023-01-09 01:22:20 公開日:2022-12-31 |
# ロバストな単一量子ビット量子ゲートのセグメンテッド複合設計 Segmented Composite Design of Robust Single-Qubit Quantum Gates ( http://arxiv.org/abs/2301.00253v1 ) ライセンス: Link先を確認 | Ido Kaplan, Muhammad Erew, Yonatan Piasetzky, Moshe Goldstein, Yaron Oz, Haim Suchowski | (参考訳) 誤り緩和スキームと誤り訂正符号は、過去数十年にわたって量子情報処理研究における多くの取り組みの中心となっている。
提案手法のほとんどが雑音に対して摂動的であり、決定論的系統的誤りを仮定しているが、完全な雑音と誤差分布を考慮した問題の研究はまだ少ない。
本研究では,システム内の物理ノイズと誤差の完全な分布を考慮に入れた複合セグメント設計に基づく,ロバストな単一量子ユニタリゲートの誤差軽減手法を提案する。
これら頑健なセグメントゲートを構築するための2つの最適化アプローチを提供する: 摂動的および非摂動的であり、すべてのエラーに対処する。
デュアルレール指向性カプラ実現のためのフォトニクス領域における本手法を実証する。
基本的単一キュービットのユニタリ演算のための3次元複合設計は、現実的な誤差分布の桁違いの誤差を低減し、この2つのアプローチが小さな誤差に対して互換性があることを示す。
これは現代の誤り訂正符号のオーバーヘッドを大幅に削減することが示されている。
我々の方法はかなり一般的であり、量子情報処理ユニットの他の実現にも適用できる。 Error mitigation schemes and error-correcting codes have been the center of much effort in quantum information processing research over the last few decades. While most of the successful proposed schemes for error mitigation are perturbative in the noise and assume deterministic systematic errors, studies of the problem considering the full noise and errors distribution are still scarce. In this work, we introduce an error mitigation scheme for robust single-qubit unitary gates based on composite segmented design, which accounts for the full distribution of the physical noise and errors in the system. We provide two optimization approaches to construct these robust segmented gates: perturbative and non-perturbative, that addresses all orders of errors. We demonstrate our scheme in the photonics realm for the dual-rail directional couplers realization. We show that the 3-segmented composite design for the fundamental single-qubits unitary operations reduces the error by an order of magnitude for a realistic distribution of errors, and that the two approaches are compatible for small errors. This is shown to significantly reduce the overhead of modern error correction codes. Our methods are rather general and can be applied to other realizations of quantum information processing units. | 翻訳日:2023-01-09 01:21:28 公開日:2022-12-31 |
# 連続時間量子ウォークにおける時間平均分布のスケーリング限界とSzegedy's walk on the path Scaling limit of the time averaged distribution for continuous time quantum walk and Szegedy's walk on the path ( http://arxiv.org/abs/2301.00283v1 ) ライセンス: Link先を確認 | Yusuke Ide | (参考訳) 本稿では、セゲディのウォーク(szegedy's walk)、すなわち離散時間量子ウォークの一種、および誕生と死の連鎖に関連する連続時間量子ウォークについて考察する。
連続時間量子ウォークの時間平均分布のスケーリング限界は、対応するヤコビ行列と呼ばれるスペクトルギャップが存在する場合、セゲディのウォークを誘導することを示す。 In this paper, we consider Szegedy's walk, a type of discrete time quantum walk, and corresponding continuous time quantum walk related to the birth and death chain. We show that the scaling limit of time averaged distribution for the continuous time quantum walk induces that of Szegedy's walk if there exists the spectral gap on so-called the corresponding Jacobi matrix . | 翻訳日:2023-01-09 01:21:10 公開日:2022-12-31 |
# 非マルコフ光学系のカオスと絡み合い Chaos and Entanglement in Non-Markovian Optomechanical Systems ( http://arxiv.org/abs/2301.00138v1 ) ライセンス: Link先を確認 | Pengju Chen, Nan Yang, Austen Couvertier, Quanzhen Ding, Rupak Chatterjee, and Ting Yu | (参考訳) 非マルコフ環境に結合した光学系のカオス運動について検討する。
本研究では,環境記憶時間がカオスに大きく影響することを明らかにする。
古典的カオス運動に加えて,カオスの存在下での量子絡みについて検討した。
環境記憶とカオスの両方が非線形光学系において二部交絡を持ち上げることができることがわかった。
これらの観測は、古典力学から量子力学への遷移の理解を深めるのに役立つかもしれない。 We study the chaotic motion of an optomechanical system coupled to a non-Markovian environment. We show that the environmental memory time can significantly affect chaos in an enhancing way. In addition to classical chaotic motion, the quantum entanglement in the presence of chaos is investigated. It is found that both the environmental memory and chaos can lift up bipartite entanglement in a non-linear optomechanical system. These observations may help expand our understanding of the transition from classical to quantum dynamics. | 翻訳日:2023-01-09 01:11:39 公開日:2022-12-31 |
# 重ね合わされた光子付加または光子置換スクイズド真空状態のサブプランク構造と感度 Sub-Planck structures and sensitivity of the superposed photon-added or photon-subtracted squeezed-vacuum states ( http://arxiv.org/abs/2301.00195v1 ) ライセンス: Link先を確認 | Naeem Akhtar, Jizhou Wu, Jia-Xin Peng, Wu-Ming Liu, and Gao Xianlong | (参考訳) コンパス状態(4つのコヒーレント状態の重ね合わせ)のウィグナー関数はプランクスケールよりも次元がはるかに小さい位相空間構造を発達させ、これらの状態の位相空間変位に対する感度を決定するのに重要である。
本研究では,2つの圧縮真空状態の重ね合わせから光子を加えたり,光子を引いたりすることにより得られる,現代の実験と関係のあるコンパス状状態を紹介する。
かなりの量の光子が付加(または減算)されると、これらの状態のウィグナー関数はプランクスケールよりも実質的に小さい領域の位相空間構造を持つことが示される。
さらに、これらの状態は標準量子限界よりもはるかに高い変位に対する感度を示す。
最後に, サブプランク構造の大きさと状態の感度の両方が, 平均光子数の影響を強く受けており, より小さいサブプランク構造に導かれる平均光子数の高い光子加算ケースと, 光子減算ケースよりも変位に敏感であることを示す。
我々の状態は、外部の摂動に対して前例のない解決を提供し、量子センシングアプリケーションに適している。 The Wigner function of the compass state (a superposition of four coherent states) develops phase-space structures of dimension much less than the Planck scale, which are crucial in determining the sensitivity of these states to phase-space displacements. In the present work, we introduce compass-like states that may have connection to the contemporary experiments, which are obtained by either adding photons to or subtracting photons from the superposition of two squeezed-vacuum states. We show that, when a significant quantity of photons is added (or subtracted), the Wigner function of these states are shown to have phase-space structures of an area that is substantially smaller than the Planck scale. In addition, these states exhibit sensitivity to displacements that is much higher than the standard quantum limit. Finally, we show that both the size of the sub-Planck structures and the sensitivity of our states are strongly influenced by the average photon number, with the photon addition case having a higher average photon number leading to the smaller sub-Planck structures and, consequently, being more sensitive to displacement than the photon subtraction case. Our states offer unprecedented resolution to the external perturbations, making them suitable for quantum sensing applications. | 翻訳日:2023-01-09 01:11:32 公開日:2022-12-31 |
# 量子コヒーレンスを熱に変えることができる Quantum coherence can be transformed into heat ( http://arxiv.org/abs/2301.00196v1 ) ライセンス: Link先を確認 | Xue-Qun Yan, Yan-Jiao Du, Wen-Tao Hou, and Xiao-Ming Liu | (参考訳) 熱力学の第1法則はエネルギー保存の法則を定めている。
システムのエネルギーの変化を熱と作業という2つの部分に分割する。
熱を定義し、古典的な熱力学で働くという曖昧さは存在しないが、量子状態における分類はそれほど明らかではない。
したがって、熱力学の第1法則は量子論において問題となる。
しかし、最近の研究では、量子コヒーレンスの寄与が系の内部エネルギーの変化であると考えると、熱力学の最初の法則は量子領域に拡張できることが示された。
本稿では,非散逸チャネル下の2レベル原子系を用いて,量子変換における熱力学第一法則の新バージョンについて検討する。
私たちの研究では、量子コヒーレンスが熱に変換され、熱が環境に散逸する、という新しい結果を達成しています。 The first law of thermodynamics restates the law of conservation of energy. It partitions the change in energy of a system into two pieces, heat and work. While there is no ambiguity to define heat and work in classical thermodynamics, their classification in the quantum regime is not that obvious. Thus, the first law of thermodynamics becomes problematic in the quantum regime. However, recent studies have shown if contribution of quantum coherence is considered to the change of internal energy of the system, the first law of thermodynamics can be extended to the quantum domain. Here we investigate the new version of first law of thermodynamics for some quantum transformations by using two-level atomic system under non-dissipative channel. In our work we achieve a novel result that quantum coherence can be transformed into heat, and the heat can dissipate into the environments. | 翻訳日:2023-01-09 01:11:04 公開日:2022-12-31 |
# 拡散グラフに基づく医療用ホテルからのcovid-19患者の病院転院リスク予測 Hospital transfer risk prediction for COVID-19 patients from a medicalized hotel based on Diffusion GraphSAGE ( http://arxiv.org/abs/2301.01596v1 ) ライセンス: Link先を確認 | Jun-En Ding, Chih-Ho Hsu, Kuan-Chia Ling, Ling Chen, Fang-Ming Hung | (参考訳) 世界的な新型コロナウイルス(COVID-19)パンデミックは世界中で600万人以上の死者を出した。
台湾では、無症状または軽症患者の隔離施設として医療用ホテルが開設された。
これらのホテルで利用可能な医療が限られているため、臨床劣化のリスクがある患者を特定することが最重要である。
本研究は, 医用ホテルにおける進行病院転院リスク予測のためのグラフベース深層学習手法の開発と評価を目的とした。
632名の患者に対してバイタルサイン測定を行い,毎日の類似度グラフを作成した。
インダクティブグラフ畳み込みネットワークモデルは, 病院転院リスクを予測するために, 時間的統合グラフ上で訓練された。
提案モデルでは,過去1, 2, 3日の測定結果に基づいて,病院の転院リスク予測において,AUCスコアが0.83以上に達した。
局所クラスタリング係数を用いて構築した拡散グラフのポストホック解析により, 平均年齢, 体温, SpO2の低下, 滞在期間の短い高リスククラスタが発見された。
さらに経時的・経時的生存分析の結果,高リスククラスターの生存確率は有意に低下した。
その結果,提案手法の予測可能性および解釈可能性を示した。
この技術は、医療施設のような地域医療施設で高リスク患者を事前に検出するのに役立つ。 The global COVID-19 pandemic has caused more than six million deaths worldwide. Medicalized hotels were established in Taiwan as quarantine facilities for COVID-19 patients with no or mild symptoms. Due to limited medical care available at these hotels, it is of paramount importance to identify patients at risk of clinical deterioration. This study aimed to develop and evaluate a graph-based deep learning approach for progressive hospital transfer risk prediction in a medicalized hotel setting. Vital sign measurements were obtained for 632 patients and daily patient similarity graphs were constructed. Inductive graph convolutional network models were trained on top of the temporally integrated graphs to predict hospital transfer risk. The proposed models achieved AUC scores above 0.83 for hospital transfer risk prediction based on the measurements of past 1, 2, and 3 days, outperforming baseline machine learning methods. A post-hoc analysis on the constructed diffusion-based graph using Local Clustering Coefficient discovered a high-risk cluster with significantly older mean age, higher body temperature, lower SpO2, and shorter length of stay. Further time-to-hospital-transfer survival analysis also revealed a significant decrease in survival probability in the discovered high-risk cluster. The obtained results demonstrated promising predictability and interpretability of the proposed graph-based approach. This technique may help preemptively detect high-risk patients at community-based medical facilities similar to a medicalized hotel. | 翻訳日:2023-01-05 16:06:07 公開日:2022-12-31 |
# 教育におけるAIの「ブラックボックス」を解き放つ Unpacking the "Black Box" of AI in Education ( http://arxiv.org/abs/2301.01602v1 ) ライセンス: Link先を確認 | Nabeel Gillani, Rebecca Eynon, Catherine Chiabaut, Kelsey Finkel | (参考訳) 人工知能(AI)の最近の進歩は、教育改善の可能性に新たな関心を喚起している。
しかし、AIは、研究者、教育テクノロジー企業、あるいは他のAI開発者によって明確に説明されていない方法、能力、制限の集合を指す緩やかな用語である。
本稿では,「AI」とは何か,そして,人間の状態を改善する教育機会の進展と妨げとなる可能性を明らかにする。
我々は、AIを支える様々な方法と哲学の基礎的な紹介、最近の進歩について議論、教育への応用を探究し、重要な制限とリスクを強調します。
我々は、教育者が研究と実践でAIに遭遇するとき、質問するかもしれない一連の質問で締めくくります。
私たちの希望は、しばしばジャーゴン的な用語や概念をアクセス可能にし、全員が理解し、尋問し、最終的には教育における人間中心のaiの発展を形作ることにあります。 Recent advances in Artificial Intelligence (AI) have sparked renewed interest in its potential to improve education. However, AI is a loose umbrella term that refers to a collection of methods, capabilities, and limitations-many of which are often not explicitly articulated by researchers, education technology companies, or other AI developers. In this paper, we seek to clarify what "AI" is and the potential it holds to both advance and hamper educational opportunities that may improve the human condition. We offer a basic introduction to different methods and philosophies underpinning AI, discuss recent advances, explore applications to education, and highlight key limitations and risks. We conclude with a set of questions that educationalists may ask as they encounter AI in their research and practice. Our hope is to make often jargon-laden terms and concepts accessible, so that all are equipped to understand, interrogate, and ultimately shape the development of human centered AI in education. | 翻訳日:2023-01-05 15:47:50 公開日:2022-12-31 |
# 合成データを用いた信用度モデルによるプライバシー保護トレーニングの評価 Assessment of creditworthiness models privacy-preserving training with synthetic data ( http://arxiv.org/abs/2301.01212v1 ) ライセンス: Link先を確認 | Ricardo Mu\~noz-Cancino and Cristi\'an Bravo and Sebasti\'an A. R\'ios and Manuel Gra\~na | (参考訳) 信用スコアモデルは、金融機関が信用リスクを管理するために使用する主要な手段である。
行動スコアに関する研究の不足は、データアクセスが難しいためである。
金融機関は、調査イニシアチブにおいて、借り手の情報のプライバシーとセキュリティを維持する必要がある。
本研究では,実世界のデータに適用した場合に,合成データを用いて訓練したモデルの性能を評価する手法を提案する。
その結果,属性数の増加に伴い,合成データの品質は低下傾向にあることがわかった。
しかし, 合成データを用いた信用度評価モデルでは, 実データで学習したモデルと比較して, auc の 3-% と ks の 6-% を削減できた。
これらの結果は、合成データからの信用リスク調査を奨励し、借り手のプライバシーを維持し、これまで情報の入手が妨げられていた問題に対処できるようにするため、大きな影響を与える。 Credit scoring models are the primary instrument used by financial institutions to manage credit risk. The scarcity of research on behavioral scoring is due to the difficult data access. Financial institutions have to maintain the privacy and security of borrowers' information refrain them from collaborating in research initiatives. In this work, we present a methodology that allows us to evaluate the performance of models trained with synthetic data when they are applied to real-world data. Our results show that synthetic data quality is increasingly poor when the number of attributes increases. However, creditworthiness assessment models trained with synthetic data show a reduction of 3\% of AUC and 6\% of KS when compared with models trained with real data. These results have a significant impact since they encourage credit risk investigation from synthetic data, making it possible to maintain borrowers' privacy and to address problems that until now have been hampered by the availability of information. | 翻訳日:2023-01-04 15:33:02 公開日:2022-12-31 |
# 衛星と地球観測降水データの統合のための木系アンサンブルアルゴリズムの日時スケールにおける比較 Comparison of tree-based ensemble algorithms for merging satellite and earth-observed precipitation data at the daily time scale ( http://arxiv.org/abs/2301.01214v1 ) ライセンス: Link先を確認 | Georgia Papacharalampous, Hristos Tyralis, Anastasios Doulamis, Nikolaos Doulamis | (参考訳) 衛星製品と地上測定の融合は、大面積を高密度にカバーし、純粋な衛星の降水製品よりも精度の高い降水データセットを得るためにしばしば必要となる。
機械学習および統計的学習回帰アルゴリズムは、この取り組みで定期的に利用される。
また,木に基づく回帰アンサンブルアルゴリズムを様々な分野に適用し,高い精度と低い計算コストでアルゴリズム問題を解く。
後者は、データセットのサイズが特に大きい日次および細かな時間スケールで衛星沈殿物補正のアルゴリズムを選択する上で重要な要素となる可能性がある。
それでも、米国(米国)にとってこのような場合、どの木に基づくアンサンブルアルゴリズムを選択するかは文献から欠落している。
本研究では,3つの木に基づくアンサンブルアルゴリズム,特に無作為林,勾配増進機(gbm)および極勾配増進機(XGBoost)を比較した。
PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) と IMERG (Integrated Multi-SatellitE Retrievals for GPM) の格子データを用いた。
また,グローバル・ヒストリカル・クリマトロジー・ネットワーク(GHCNd)データベースによる地球観測降水データを用いた。
この実験は、連続したUS全体を参照し、さらにベンチマーク目的の線形回帰アルゴリズムの適用も含む。
以上の結果から,xgboostは木に基づくアンサンブルアルゴリズムとして,比較で最高の性能を示した。
また,IMERGはPERSIANNよりも有用であることが示唆された。 Merging satellite products and ground-based measurements is often required for obtaining precipitation datasets that simultaneously cover large regions with high density and are more accurate than pure satellite precipitation products. Machine and statistical learning regression algorithms are regularly utilized in this endeavour. At the same time, tree-based ensemble algorithms for regression are adopted in various fields for solving algorithmic problems with high accuracy and low computational cost. The latter can constitute a crucial factor for selecting algorithms for satellite precipitation product correction at the daily and finer time scales, where the size of the datasets is particularly large. Still, information on which tree-based ensemble algorithm to select in such a case for the contiguous United States (US) is missing from the literature. In this work, we conduct an extensive comparison between three tree-based ensemble algorithms, specifically random forests, gradient boosting machines (gbm) and extreme gradient boosting (XGBoost), in the context of interest. We use daily data from the PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) and the IMERG (Integrated Multi-satellitE Retrievals for GPM) gridded datasets. We also use earth-observed precipitation data from the Global Historical Climatology Network daily (GHCNd) database. The experiments refer to the entire contiguous US and additionally include the application of the linear regression algorithm for benchmarking purposes. The results suggest that XGBoost is the best-performing tree-based ensemble algorithm among those compared. They also suggest that IMERG is more useful than PERSIANN in the context investigated. | 翻訳日:2023-01-04 15:32:50 公開日:2022-12-31 |
# unlearnable cluster: ラベルに依存しないunlearnable例に向けて Unlearnable Clusters: Towards Label-agnostic Unlearnable Examples ( http://arxiv.org/abs/2301.01217v1 ) ライセンス: Link先を確認 | Jiaming Zhang, Xingjun Ma, Qi Yi, Jitao Sang, Yugang Jiang, Yaowei Wang, Changsheng Xu | (参考訳) インターネット上の視覚的プライバシー漏洩に対して、未学習の例(UE)を開発することへの関心が高まっている。
UEは目に見えないが学習不可能なノイズを付加したトレーニングサンプルであり、機械学習モデルの不正なトレーニングを防ぐことができる。
UEは通常、元のサンプルからエラーを除去(最小化)し、未知のターゲットモデルからデータを保護するための代理モデルを備えた双方向最適化フレームワークを介して生成される。
しかし、既存のUE生成手法はすべてラベル一貫性と呼ばれる理想的な仮定に依存しており、ハッカーとプロテクターは与えられたサンプルに対して同じラベルを保持すると仮定される。
本研究では,ハッカーが保護者とは異なる保護されたデータを活用できる,より実用的なラベルに依存しない環境を提案する。
例えば、プロテクタが保持するmクラスアンリーナブルデータセットは、ハッカーによってnクラスデータセットとして悪用される可能性がある。
既存のUE生成方法は、この困難な環境では非効率にレンダリングされる。
この課題に取り組むために,クラスタ毎の摂動を伴うラベル非依存な非学習例を生成する,unlearnable cluster(ucs)と呼ばれる新しい手法を提案する。
さらに、CLIPのようなVisionandLanguage Pre-trained Model(VLPM)を代理モデルとして活用して、工芸UCの多様なドメインへの転送性を向上させることを提案する。
さまざまなデータセットやターゲットモデル,さらにはMicrosoft AzureやBaidu PaddlePaddleといった商用プラットフォームで,さまざまな設定で提案したアプローチの有効性を実証的に検証しています。 There is a growing interest in developing unlearnable examples (UEs) against visual privacy leaks on the Internet. UEs are training samples added with invisible but unlearnable noise, which have been found can prevent unauthorized training of machine learning models. UEs typically are generated via a bilevel optimization framework with a surrogate model to remove (minimize) errors from the original samples, and then applied to protect the data against unknown target models. However, existing UE generation methods all rely on an ideal assumption called label-consistency, where the hackers and protectors are assumed to hold the same label for a given sample. In this work, we propose and promote a more practical label-agnostic setting, where the hackers may exploit the protected data quite differently from the protectors. E.g., a m-class unlearnable dataset held by the protector may be exploited by the hacker as a n-class dataset. Existing UE generation methods are rendered ineffective in this challenging setting. To tackle this challenge, we present a novel technique called Unlearnable Clusters (UCs) to generate label-agnostic unlearnable examples with cluster-wise perturbations. Furthermore, we propose to leverage VisionandLanguage Pre-trained Models (VLPMs) like CLIP as the surrogate model to improve the transferability of the crafted UCs to diverse domains. We empirically verify the effectiveness of our proposed approach under a variety of settings with different datasets, target models, and even commercial platforms Microsoft Azure and Baidu PaddlePaddle. | 翻訳日:2023-01-04 15:25:51 公開日:2022-12-31 |
# DARTS検索空間に対する擬似反転ボトルネック畳み込み Pseudo-Inverted Bottleneck Convolution for DARTS Search Space ( http://arxiv.org/abs/2301.01286v1 ) ライセンス: Link先を確認 | Arash Ahmadian, Yue Fei, Louis S.P. Liu, Konstantinos N. Plataniotis, Mahdi S. Hosseini | (参考訳) 微分可能なアーキテクチャ探索 (DARTS) は勾配に基づくニューラルアーキテクチャ探索 (NAS) 法として注目されている。
DARTSの導入以来、CNNの最先端アーキテクチャ設計原則に基づいたアクション空間の適応に向けた作業はほとんど行われていない。
本研究では,DARTS検索空間をConvNeXtにインスパイアされたマイクロデザイン変更によって漸進的に拡張し,精度,評価層数,計算コストのトレードオフを研究することで,このギャップに対処することを目的とする。
そこで本研究では,ConvNeXt で提案した逆ボトルネックブロックの計算フットプリントを削減することを目的とした Pseudo-Inverted Bottleneck conv ブロックを提案する。
提案するアーキテクチャは,評価層数に対する感度が低く,同じ大きさのdartsネットワークを2。
さらに,より少ない層では,より低いGMACとパラメータ数で高い精度を達成できるだけでなく,GradCAMの比較により,DARTSと比較して,ネットワークがターゲットオブジェクトの特徴をより正確に検出できることが示されている。 Differentiable Architecture Search (DARTS) has attracted considerable attention as a gradient-based Neural Architecture Search (NAS) method. Since the introduction of DARTS, there has been little work done on adapting the action space based on state-of-art architecture design principles for CNNs. In this work, we aim to address this gap by incrementally augmenting the DARTS search space with micro-design changes inspired by ConvNeXt and studying the trade-off between accuracy, evaluation layer count, and computational cost. To this end, we introduce the Pseudo-Inverted Bottleneck conv block intending to reduce the computational footprint of the inverted bottleneck block proposed in ConvNeXt. Our proposed architecture is much less sensitive to evaluation layer count and outperforms a DARTS network with similar size significantly, at layer counts as small as 2. Furthermore, with less layers, not only does it achieve higher accuracy with lower GMACs and parameter count, GradCAM comparisons show that our network is able to better detect distinctive features of target objects compared to DARTS. | 翻訳日:2023-01-04 15:24:38 公開日:2022-12-31 |
# 動画における動作予測のためのエンドツーエンドマルチスケールネットワーク An end-to-end multi-scale network for action prediction in videos ( http://arxiv.org/abs/2301.01216v1 ) ライセンス: Link先を確認 | Xiaofa Liu, Jianqin Yin, Yuan Sun, Zhicheng Zhang, Jin Tang | (参考訳) 本稿では,エンド・ツー・エンド方式で部分映像の動作クラスを予測できる効率的なマルチスケールネットワークを開発した。
既存のオフライン機能生成手法と異なり, フレームを入力とし, 2つの時間スケールでの運動進化をモデル化し, モデリングの2段階の複雑性問題と, 単一スケールの時間的・空間的情報不足の問題を解く。
提案するEnd-to-End MultiScale Network (E2EMSNet) はセグメントスケールと呼ばれる2つのスケールから構成される。
セグメントスケールは、2次元の畳み込みを供給し、より細かい動きパターンのために連続したフレーム上での時間差を利用する。
観測されたグローバルスケールでは、観測されたフレームの運動特徴をキャプチャするためにLong Short-Term Memory (LSTM) が組み込まれている。
我々のモデルは計算コストの少ないシンプルで効率的なモデリングフレームワークを提供する。
我々のE2EMSNetは、BIT、HMDB51、UCF101という3つの挑戦的なデータセットで評価されている。
広範な実験により,映像における行動予測手法の有効性が実証された。 In this paper, we develop an efficient multi-scale network to predict action classes in partial videos in an end-to-end manner. Unlike most existing methods with offline feature generation, our method directly takes frames as input and further models motion evolution on two different temporal scales.Therefore, we solve the complexity problems of the two stages of modeling and the problem of insufficient temporal and spatial information of a single scale. Our proposed End-to-End MultiScale Network (E2EMSNet) is composed of two scales which are named segment scale and observed global scale. The segment scale leverages temporal difference over consecutive frames for finer motion patterns by supplying 2D convolutions. For observed global scale, a Long Short-Term Memory (LSTM) is incorporated to capture motion features of observed frames. Our model provides a simple and efficient modeling framework with a small computational cost. Our E2EMSNet is evaluated on three challenging datasets: BIT, HMDB51, and UCF101. The extensive experiments demonstrate the effectiveness of our method for action prediction in videos. | 翻訳日:2023-01-04 14:49:33 公開日:2022-12-31 |
# 4シーズン:ヴィジュアルスラムのベンチマークと自律運転の長期的位置決め 4Seasons: Benchmarking Visual SLAM and Long-Term Localization for Autonomous Driving in Challenging Conditions ( http://arxiv.org/abs/2301.01147v1 ) ライセンス: Link先を確認 | Patrick Wenzel, Nan Yang, Rui Wang, Niclas Zeller, Daniel Cremers | (参考訳) 本稿では,大規模4Seasonsデータセットに基づく挑戦条件下での自律運転のための新しい視覚的SLAMと長期局所化ベンチマークを提案する。
提案したベンチマークは,季節変化や天候,照明条件の変動による劇的な外見の変化を提供する。
同様の条件の小規模なデータセット上での視覚的SLAMの進歩には大きな進歩があるが、自動運転の現実シナリオを表す統一ベンチマークはいまだに存在しない。
我々は,任意の条件下での自律運転の実現に不可欠である,視覚計測,グローバル位置認識,マップに基づく視覚的位置決め性能を共同評価するための新しい統一ベンチマークを導入する。
データは1年以上にわたって収集され、多層駐車場から都市部(トンネルを含む)、田舎や高速道路まで、9つの環境において300kmを超える録音が行われた。
RTK GNSSと直接ステレオ慣性眼圧計の融合から得られる最大センチメートルの精度で一貫した参照ポーズを提供する。
本研究では,最先端の視覚オドメトリおよび視覚定位ベースライン手法の性能評価を行い,その特性を解析した。
実験結果は、現在のアプローチに対する新たな洞察を与え、将来の研究に有望な可能性を示している。
ベンチマークおよび評価プロトコルはhttps://www.4seasons-dataset.com/で利用可能です。 In this paper, we present a novel visual SLAM and long-term localization benchmark for autonomous driving in challenging conditions based on the large-scale 4Seasons dataset. The proposed benchmark provides drastic appearance variations caused by seasonal changes and diverse weather and illumination conditions. While significant progress has been made in advancing visual SLAM on small-scale datasets with similar conditions, there is still a lack of unified benchmarks representative of real-world scenarios for autonomous driving. We introduce a new unified benchmark for jointly evaluating visual odometry, global place recognition, and map-based visual localization performance which is crucial to successfully enable autonomous driving in any condition. The data has been collected for more than one year, resulting in more than 300 km of recordings in nine different environments ranging from a multi-level parking garage to urban (including tunnels) to countryside and highway. We provide globally consistent reference poses with up to centimeter-level accuracy obtained from the fusion of direct stereo-inertial odometry with RTK GNSS. We evaluate the performance of several state-of-the-art visual odometry and visual localization baseline approaches on the benchmark and analyze their properties. The experimental results provide new insights into current approaches and show promising potential for future research. Our benchmark and evaluation protocols will be available at https://www.4seasons-dataset.com/. | 翻訳日:2023-01-04 14:38:06 公開日:2022-12-31 |
# merlin:smartmeterデータとcitylearnを用いたグリッド対話型コミュニティの占有者中心エネルギーフレキシブル運用のためのマルチエージェントオフライン・転送学習 MERLIN: Multi-agent offline and transfer learning for occupant-centric energy flexible operation of grid-interactive communities using smart meter data and CityLearn ( http://arxiv.org/abs/2301.01148v1 ) ライセンス: Link先を確認 | Kingsley Nweye and Siva Sankaranarayanan and Zoltan Nagy | (参考訳) 建物の脱炭素化は、再生可能エネルギー源の断続性とエンドユース電化による電力負荷の増加の結果、電力網の信頼性に新たな課題をもたらす。
信頼性を回復するため、グリッドインタラクティブな効率的なビルは需要応答を通じてグリッドに柔軟なサービスを提供することができる。
住宅需要対応プログラムは、顧客の手動介入の必要性によって妨げられている。
住宅のエネルギー柔軟性を最大化するためには,高度な制御構造が必要である。
強化学習は、エキスパートシステムと比較してユニークな建築特性に適応できるため、柔軟な資源の制御に適している。
しかし、現実世界のアプリケーションでrlを採用するのを妨げる要因には、トレーニング、制御セキュリティ、一般化性に対する大きなデータ要件が含まれる。
ここでは,merlinフレームワークの提案と,実世界の17-building grid-interactive residential communityのデジタルツインを用いて,これらの課題に対処する。
私たちはそれを示します
1) 独立した電池用RL制御器は, 個別の建物にポリシーを合わせることにより, RBCと比較して, ビルや地区レベルのKPIを改善している。
2) 独特な占有行動にもかかわらず, いずれか一方の建物から他の建物へのRL政策の移転は, 訓練コストを低減しつつ, 同等のパフォーマンスを提供する。
3) 利用者行動の季節性を完全に把握しない限られた時間データに基づくRL制御器の訓練は,性能にはほとんど影響しない。
制御された電池によって建物のゼロネットエネルギー(zne)状態は維持または悪化するが、zne条件(電力価格と二酸化炭素排出量)によって通常改善されるkpiは、高度な制御装置によって管理されるとさらに改善される。 The decarbonization of buildings presents new challenges for the reliability of the electrical grid as a result of the intermittency of renewable energy sources and increase in grid load brought about by end-use electrification. To restore reliability, grid-interactive efficient buildings can provide flexibility services to the grid through demand response. Residential demand response programs are hindered by the need for manual intervention by customers. To maximize the energy flexibility potential of residential buildings, an advanced control architecture is needed. Reinforcement learning is well-suited for the control of flexible resources as it is able to adapt to unique building characteristics compared to expert systems. Yet, factors hindering the adoption of RL in real-world applications include its large data requirements for training, control security and generalizability. Here we address these challenges by proposing the MERLIN framework and using a digital twin of a real-world 17-building grid-interactive residential community in CityLearn. We show that 1) independent RL-controllers for batteries improve building and district level KPIs compared to a reference RBC by tailoring their policies to individual buildings, 2) despite unique occupant behaviours, transferring the RL policy of any one of the buildings to other buildings provides comparable performance while reducing the cost of training, 3) training RL-controllers on limited temporal data that does not capture full seasonality in occupant behaviour has little effect on performance. Although, the zero-net-energy (ZNE) condition of the buildings could be maintained or worsened as a result of controlled batteries, KPIs that are typically improved by ZNE condition (electricity price and carbon emissions) are further improved when the batteries are managed by an advanced controller. | 翻訳日:2023-01-04 14:23:17 公開日:2022-12-31 |
# 法医学的調査と抑止のための敵対的攻撃の起源の追跡 Tracing the Origin of Adversarial Attack for Forensic Investigation and Deterrence ( http://arxiv.org/abs/2301.01218v1 ) ライセンス: Link先を確認 | Han Fang, Jiyi Zhang, Yupeng Qiu, Ke Xu, Chengfang Fang and Ee-Chien Chang | (参考訳) ディープニューラルネットワークは敵の攻撃に弱い。
本稿では,攻撃を追跡したい調査員の役割を担い,その攻撃源,すなわち,攻撃例が生成する特定のモデルを特定する。
派生した技術は、攻撃事件に関する法医学的な調査を助け、潜在的な攻撃の抑止力となる。
我々は、機械学習モデルを様々な購入者に配布し、各購入者が同じ機能を持つわずかに異なるコピーを受け取るようにした購入者販売設定を考える。
悪意のある買い手は、特定のコピー $\mathcal{m}_i$ から逆の例を生成し、それらを使用して他のコピーを攻撃する。
これらの逆の例から、研究者はソース $\mathcal{M}_i$ を特定したい。
この問題に対処するため,我々は2段階の分離トレースフレームワークを提案する。
モデル分離段階は同じ分類タスクのためのモデルの複数のコピーを生成する。
このプロセスは各コピーにユニークな特徴を注入するので、生成された敵の例が個別で追跡可能な特徴を持つ。
各コピーに ``tracer'' を埋め込んだ並列構造と、この目標を達成するためにノイズに敏感なトレーニング損失を与える。
トレースステージは、敵対的な例といくつかの候補モデルを取り、潜在的ソースを特定する。
ノイズ感度損失関数によって引き起こされるユニークな特徴に基づいて,各トレーサからの出力ロジットを考慮し,潜在的な逆転コピーを効果的に追跡することができる。
実証的な結果は、敵の例の起源を追跡することができ、そのメカニズムは幅広いアーキテクチャやデータセットに適用できることを示している。 Deep neural networks are vulnerable to adversarial attacks. In this paper, we take the role of investigators who want to trace the attack and identify the source, that is, the particular model which the adversarial examples are generated from. Techniques derived would aid forensic investigation of attack incidents and serve as deterrence to potential attacks. We consider the buyers-seller setting where a machine learning model is to be distributed to various buyers and each buyer receives a slightly different copy with same functionality. A malicious buyer generates adversarial examples from a particular copy $\mathcal{M}_i$ and uses them to attack other copies. From these adversarial examples, the investigator wants to identify the source $\mathcal{M}_i$. To address this problem, we propose a two-stage separate-and-trace framework. The model separation stage generates multiple copies of a model for a same classification task. This process injects unique characteristics into each copy so that adversarial examples generated have distinct and traceable features. We give a parallel structure which embeds a ``tracer'' in each copy, and a noise-sensitive training loss to achieve this goal. The tracing stage takes in adversarial examples and a few candidate models, and identifies the likely source. Based on the unique features induced by the noise-sensitive loss function, we could effectively trace the potential adversarial copy by considering the output logits from each tracer. Empirical results show that it is possible to trace the origin of the adversarial example and the mechanism can be applied to a wide range of architectures and datasets. | 翻訳日:2023-01-04 14:21:17 公開日:2022-12-31 |
# タンパク質表現学習に関する調査 : 振り返りと展望 A Survey on Protein Representation Learning: Retrospect and Prospect ( http://arxiv.org/abs/2301.00813v1 ) ライセンス: Link先を確認 | Lirong Wu, Yufei Huang, Haitao Lin, Stan Z. Li | (参考訳) タンパク質は生命活動において重要な役割を果たす基本的な生物学的実体である。
タンパク質のアミノ酸配列は、実際の物理化学的世界で安定な3D構造に折り畳み、特別な種類の配列構造データを形成することができる。
人工知能(AI)技術の発展に伴い、タンパク質表現学習(PRL)は、タンパク質配列や構造から情報的知識を抽出するための有望な研究トピックとして最近登場した。
バイオインフォマティクスのバックグラウンドがほとんどないAI研究者のために、モデルアーキテクチャ、プレテキストタスク、下流アプリケーションの観点から、PRLの定式化と既存のPRLメソッドのタイムリーかつ包括的なレビューを提示する。
まず、タンパク質表現学習の動機を簡潔に紹介し、汎用的で統一的な枠組みで定式化する。
次に,既存のPRL手法を,シーケンスベース,構造ベース,シーケンス構造共モデリングの3つのカテゴリに分割する。
最後に、タンパク質表現学習を改善するための技術的課題と潜在的方向性について論じる。
PRLメソッドの最新の進歩はGitHubリポジトリhttps://github.com/LirongWu/awesome-oprotein-representation-learningで要約されている。 Proteins are fundamental biological entities that play a key role in life activities. The amino acid sequences of proteins can be folded into stable 3D structures in the real physicochemical world, forming a special kind of sequence-structure data. With the development of Artificial Intelligence (AI) techniques, Protein Representation Learning (PRL) has recently emerged as a promising research topic for extracting informative knowledge from massive protein sequences or structures. To pave the way for AI researchers with little bioinformatics background, we present a timely and comprehensive review of PRL formulations and existing PRL methods from the perspective of model architectures, pretext tasks, and downstream applications. We first briefly introduce the motivations for protein representation learning and formulate it in a general and unified framework. Next, we divide existing PRL methods into three main categories: sequence-based, structure-based, and sequence-structure co-modeling. Finally, we discuss some technical challenges and potential directions for improving protein representation learning. The latest advances in PRL methods are summarized in a GitHub repository https://github.com/LirongWu/awesome-protein-representation-learning. | 翻訳日:2023-01-04 14:03:21 公開日:2022-12-31 |
# ノードプレースモデルによる新型コロナウイルスの足跡と感染リスクの予測と監視 Adapting Node-Place Model to Predict and Monitor COVID-19 Footprints and Transmission Risks ( http://arxiv.org/abs/2301.00117v1 ) ライセンス: Link先を確認 | Jiali Zhou, Mingzhi Zhou, Jiangping Zhou, Zhan Zhao | (参考訳) ノードプレースモデルは交通局の分類と評価に広く用いられており、個々の移動行動に光を当て、土地利用と交通開発を効果的に統合することで都市計画を支援している。
本稿は、このモデルを用いて、市内の感染リスクと現地のCOVID-19患者の存在と、ノード、場所、移動性がどう関連しているかを調査する。
このモデルとcovid-19との関連に関する同様の研究は、我々の知る限り、これまで行われていない。
さらに、感染者の詳細な訪問履歴、すなわち新型コロナウイルスのフットプリントから引き出されたユニークな指標を提案し、活用する。
そこで本研究では,現地のcovid-19足跡に影響を与える局レベルの要因を検討するために,適応モデルを用いて実験を行った。
このモデルは、ノードと場所の伝統的な測度だけでなく、ノードと場所に関連する実際の人間の移動パターンも考慮している。
高いノード、場所、人間の移動度指数を持つステーションは、通常、より近くに新型コロナウイルスの足跡がある。
多変量回帰(multivariate regression)は、covid-19の足跡を予測する指標や指標がどの程度異なるかを確認するためのものだ。
結果は、場所、ノード、人の移動度指標の多くが新型コロナウイルスの足跡の濃度に大きく影響していることを示している。
これらは、covid-19やその他のパンデミック感染のホットスポットを予測および監視する政策立案者にとって有用である。 The node-place model has been widely used to classify and evaluate transit stations, which sheds light on individual travel behaviors and supports urban planning through effectively integrating land use and transportation development. This article adapts this model to investigate whether and how node, place, and mobility would be associated with the transmission risks and presences of the local COVID-19 cases in a city. Similar studies on the model and its relevance to COVID-19, according to our knowledge, have not been undertaken before. Moreover, the unique metric drawn from detailed visit history of the infected, i.e., the COVID-19 footprints, is proposed and exploited. This study then empirically uses the adapted model to examine the station-level factors affecting the local COVID-19 footprints. The model accounts for traditional measures of the node and place as well as actual human mobility patterns associated with the node and place. It finds that stations with high node, place, and human mobility indices normally have more COVID-19 footprints in proximity. A multivariate regression is fitted to see whether and to what degree different indices and indicators can predict the COVID-19 footprints. The results indicate that many of the place, node, and human mobility indicators significantly impact the concentration of COVID-19 footprints. These are useful for policy-makers to predict and monitor hotspots for COVID-19 and other pandemics transmission. | 翻訳日:2023-01-03 16:23:29 公開日:2022-12-31 |
# 測定誤差を伴う高次元ポアソンモデルについて:非線形非凸最適化のための仮説テスト On High dimensional Poisson models with measurement error: hypothesis testing for nonlinear nonconvex optimization ( http://arxiv.org/abs/2301.00139v1 ) ライセンス: Link先を確認 | Fei Jiang, Yeqing Zhou, Jianxuan Liu, Yanyuan Ma | (参考訳) 本研究では,騒がしい高次元共変量を持つポアソン回帰モデルにおける推定とテストについて検討する。
共変音による推定バイアスの補正は、非凸目標関数の最小化につながる。
さらに,高次元問題を扱うことで,目的関数への許容可能なペナルティ項の増大につながる。
ペナル化対象関数を最小化することで回帰パラメータを推定する。
推定器のL1およびL2収束率を導出し、変数選択整合性を証明する。
さらにパラメータの任意の部分集合の漸近正規性を確立し、その濃度が十分に遅い限り、その部分集合は無限個の成分を持つことができる。
部分集合の場合のメンバの線形関数のテストを可能にする推定器の漸近正規性に基づくウォルドテストとスコアテストを開発した。
提案した試験の有限サンプル性能をシミュレーションにより検討した。
最後に,本研究はアルツハイマー病の神経画像化イニシアティブ研究に応用され,本研究の動機となった。 We study estimation and testing in the Poisson regression model with noisy high dimensional covariates, which has wide applications in analyzing noisy big data. Correcting for the estimation bias due to the covariate noise leads to a non-convex target function to minimize. Treating the high dimensional issue further leads us to augment an amenable penalty term to the target function. We propose to estimate the regression parameter through minimizing the penalized target function. We derive the L1 and L2 convergence rates of the estimator and prove the variable selection consistency. We further establish the asymptotic normality of any subset of the parameters, where the subset can have infinitely many components as long as its cardinality grows sufficiently slow. We develop Wald and score tests based on the asymptotic normality of the estimator, which permits testing of linear functions of the members if the subset. We examine the finite sample performance of the proposed tests by extensive simulation. Finally, the proposed method is successfully applied to the Alzheimer's Disease Neuroimaging Initiative study, which motivated this work initially. | 翻訳日:2023-01-03 16:23:04 公開日:2022-12-31 |
# 非監督的動的MRI再構成のための時空間暗黙的神経表現 Spatiotemporal implicit neural representation for unsupervised dynamic MRI reconstruction ( http://arxiv.org/abs/2301.00127v1 ) ライセンス: Link先を確認 | Jie Feng, Ruimin Feng, Qing Wu, Zhiyong Zhang, Yuyao Zhang and Hongjiang Wei | (参考訳) 監視型深層学習(DL)に基づく再構成アルゴリズムは,高アンサンプドダイナミック磁気共鳴画像(MRI)再構成の最先端結果を示している。
しかし, 過度に高品質な地絡データの要求は, 一般化問題により応用を妨げる。
近年,Inlicit Neural Representation (INR) は,信号の属性を教師なしで対応する座標の連続関数として特徴付けることで,逆問題を解決する強力なDLベースのツールとして出現している。
本研究では,高アンサンプされたk空間データから動的MRI再構成を改善するためのINRに基づく手法を提案する。
特に、提案したINRは、ダイナミックMRI画像を暗黙の関数として表現し、それらをニューラルネットワークにエンコードする。
ネットワークの重み付けは、外部のトレーニングデータセットや事前画像なしで、sparsely acquisitioned (k, t)-spaceデータ自身からのみ学習される。
提案手法は,INRの強い暗黙的連続性正則化と,低ランク性および疎性に対する明示的な正則化とを併用して,種々の加速度因子におけるスキャン固有法よりも優れた性能を示す。
例えば、リフレクション心血管データセットの実験では、非常に高い加速(最大41.6倍)のためにPSNRの5.5 ~ 7.1 dBの改善が示されている。
INRによって提供される画像の高品質かつ内部連続性は、トレーニングデータを必要としないダイナミックMRIの時空間分解能をさらに向上させる可能性がある。 Supervised Deep-Learning (DL)-based reconstruction algorithms have shown state-of-the-art results for highly-undersampled dynamic Magnetic Resonance Imaging (MRI) reconstruction. However, the requirement of excessive high-quality ground-truth data hinders their applications due to the generalization problem. Recently, Implicit Neural Representation (INR) has appeared as a powerful DL-based tool for solving the inverse problem by characterizing the attributes of a signal as a continuous function of corresponding coordinates in an unsupervised manner. In this work, we proposed an INR-based method to improve dynamic MRI reconstruction from highly undersampled k-space data, which only takes spatiotemporal coordinates as inputs. Specifically, the proposed INR represents the dynamic MRI images as an implicit function and encodes them into neural networks. The weights of the network are learned from sparsely-acquired (k, t)-space data itself only, without external training datasets or prior images. Benefiting from the strong implicit continuity regularization of INR together with explicit regularization for low-rankness and sparsity, our proposed method outperforms the compared scan-specific methods at various acceleration factors. E.g., experiments on retrospective cardiac cine datasets show an improvement of 5.5 ~ 7.1 dB in PSNR for extremely high accelerations (up to 41.6-fold). The high-quality and inner continuity of the images provided by INR has great potential to further improve the spatiotemporal resolution of dynamic MRI, without the need of any training data. | 翻訳日:2023-01-03 16:12:52 公開日:2022-12-31 |
# 物理インフォームドニューラルネットワークによるブラシウス関数の解法 Physics-informed Neural Networks approach to solve the Blasius function ( http://arxiv.org/abs/2301.00106v1 ) ライセンス: Link先を確認 | Greeshma Krishna, Malavika S Nair, Pramod P Nair, Anil Lal S | (参考訳) ニューラルネットワークを用いたディープラーニング技術は、非線形微分方程式の解を得るために計算流体力学(CFD)に効果的に用いられている。
本稿では,ブラシウス関数の解法として物理インフォームドニューラルネットワーク(PINN)を提案する。
この方法は、非線形微分方程式を初期値問題に変更する過程を排除する。
また、従来の直列解に生じる収束問題にも対処する。
この手法は, 従来の数値的手法と同等の結果が得られることがわかった。
解は負軸に拡張され、ピンが関数の特異点を $\eta=-5.69$ で捉えることを示す。 Deep learning techniques with neural networks have been used effectively in computational fluid dynamics (CFD) to obtain solutions to nonlinear differential equations. This paper presents a physics-informed neural network (PINN) approach to solve the Blasius function. This method eliminates the process of changing the non-linear differential equation to an initial value problem. Also, it tackles the convergence issue arising in the conventional series solution. It is seen that this method produces results that are at par with the numerical and conventional methods. The solution is extended to the negative axis to show that PINNs capture the singularity of the function at $\eta=-5.69$ | 翻訳日:2023-01-03 16:05:55 公開日:2022-12-31 |
# 信頼的アウトソース学習のための画像探索手法の比較検討 A Comparative Study of Image Disguising Methods for Confidential Outsourced Learning ( http://arxiv.org/abs/2301.00252v1 ) ライセンス: Link先を確認 | Sagar Sharma and Yuechun Gu and Keke Chen | (参考訳) 大規模なトレーニングデータと高価なモデル調整は、画像のディープラーニングの標準的な特徴である。
その結果、データ所有者はしばしばクラウドリソースを使用して大規模な複雑なモデルを開発する。
既存のソリューションは実用的であるには高価すぎるか、データやモデルの機密性を十分に保護していない。
本稿では,DNNモデルトレーニングのアウトソーシング,費用,データの有用性の保護レベルにおいて,より優れたトレードオフを実現することを目的とした,新しい 'emph{image disguising} メカニズムである DisguizedNets と InstaHide を比較し,比較する。
DisguisedNetsは、画像ブロック化、ブロックレベルのランダムな置換、およびランダム多次元投影(RMT)とAESピクセルレベルの暗号化(AES)という2つのブロックレベルのセキュアな変換の組み合わせである。
InstaHideは画像ミックスアップとランダムピクセルフリップのテクニックである。
マルチレベル脅威モデルを用いて解析および評価を行った。
RMTは、よく保存されたモデル品質を持つレベル1の敵の知識の下で、InstaHideよりも優れたセキュリティ保証を提供する。
対照的に、AESはレベル2の敵の知識の下でセキュリティ保証を提供するが、モデルの品質にもっと影響を及ぼす可能性がある。
イメージディグライジングのユニークな特徴は、モデルがターゲットとする攻撃からモデルを保護するのにも役立ちます。
我々は、これらのメソッドが異なるデータセットの異なる設定でどのように機能するかを理解するために、広範囲な実験的評価を行った。 Large training data and expensive model tweaking are standard features of deep learning for images. As a result, data owners often utilize cloud resources to develop large-scale complex models, which raises privacy concerns. Existing solutions are either too expensive to be practical or do not sufficiently protect the confidentiality of data and models. In this paper, we study and compare novel \emph{image disguising} mechanisms, DisguisedNets and InstaHide, aiming to achieve a better trade-off among the level of protection for outsourced DNN model training, the expenses, and the utility of data. DisguisedNets are novel combinations of image blocktization, block-level random permutation, and two block-level secure transformations: random multidimensional projection (RMT) and AES pixel-level encryption (AES). InstaHide is an image mixup and random pixel flipping technique \cite{huang20}. We have analyzed and evaluated them under a multi-level threat model. RMT provides a better security guarantee than InstaHide, under the Level-1 adversarial knowledge with well-preserved model quality. In contrast, AES provides a security guarantee under the Level-2 adversarial knowledge, but it may affect model quality more. The unique features of image disguising also help us to protect models from model-targeted attacks. We have done an extensive experimental evaluation to understand how these methods work in different settings for different datasets. | 翻訳日:2023-01-03 16:05:44 公開日:2022-12-31 |
# UltraProp: 大きなグラフの原則と説明可能な伝播 UltraProp: Principled and Explainable Propagation on Large Graphs ( http://arxiv.org/abs/2301.00270v1 ) ライセンス: Link先を確認 | Meng-Chieh Lee, Shubhranshu Shekhar, Jaemin Yoo, Christos Faloutsos | (参考訳) ノードラベルの少ないグラフが与えられたら、どうすればいいのか?
(a)グラフの混合ネットワーク効果を識別し、
b) 未知のラベルを正確にかつ効率的に予測する。
ネットワーク効果分析(NEA)とウルトラプロップ(UltraProp)は,2つの知見に基づく。
(a)ネットワーク効果(NE)の洞察:グラフは、ホモフィリーかつヘテロフィリーの1つだけでなく、ラベル的にも、あるいは全くも表すことができ、
(b) 隣の微分(nd) 洞察: 隣人は接続の強さに基づいて、対象ノードに対する影響度が異なる。
NEAは、グラフがネットワーク効果を示すかどうかを統計テストし、異種グラフを持つ多くの実世界のグラフにNEが存在しないことを驚くほど発見する。
UltraProp はノード分類問題を顕著な利点で解決する。
(a)ネットワーク効果(NE)と近隣微分(ND)の洞察のおかげで正確なこと。
b) 互換性マトリックスを正確に推定すること。
(c)スケーラブルで、入力サイズと線形で、数百万のノードでグラフを扱うこと。
(d)原理、閉形式公式、理論的保証。
8つの実世界のグラフデータセットに適用されるultrapropは、正確さと実行時間で上位の競合相手を上回り、ストックcpuサーバのみを必要とする。
1.6Mノードと22.3Mエッジを持つ大規模な現実世界グラフでは、UltraPropは競合相手に比べて9倍以上のスピードアップ(12分対2時間)を達成する。 Given a large graph with few node labels, how can we (a) identify the mixed network-effect of the graph and (b) predict the unknown labels accurately and efficiently? This work proposes Network Effect Analysis (NEA) and UltraProp, which are based on two insights: (a) the network-effect (NE) insight: a graph can exhibit not only one of homophily and heterophily, but also both or none in a label-wise manner, and (b) the neighbor-differentiation (ND) insight: neighbors have different degrees of influence on the target node based on the strength of connections. NEA provides a statistical test to check whether a graph exhibits network-effect or not, and surprisingly discovers the absence of NE in many real-world graphs known to have heterophily. UltraProp solves the node classification problem with notable advantages: (a) Accurate, thanks to the network-effect (NE) and neighbor-differentiation (ND) insights; (b) Explainable, precisely estimating the compatibility matrix; (c) Scalable, being linear with the input size and handling graphs with millions of nodes; and (d) Principled, with closed-form formula and theoretical guarantee. Applied on eight real-world graph datasets, UltraProp outperforms top competitors in terms of accuracy and run time, requiring only stock CPU servers. On a large real-world graph with 1.6M nodes and 22.3M edges, UltraProp achieves more than 9 times speedup (12 minutes vs. 2 hours) compared to most competitors. | 翻訳日:2023-01-03 16:05:20 公開日:2022-12-31 |
# 一般自己一致に基づく信頼セット Confidence Sets under Generalized Self-Concordance ( http://arxiv.org/abs/2301.00260v1 ) ライセンス: Link先を確認 | Lang Liu and Zaid Harchaoui | (参考訳) 本稿では,非漸近的理論的観点からの統計的推論における基本的な問題を再検討する。
推定器の有限個の束縛を確立し,非漸近的手法でその漸近的挙動を特徴付ける。
私たちの境界における重要な特徴は、その次元依存性が有効次元 $\unicode{x2013}$ 制限サンドイッチ共分散のトレース $\unicode{x2013}$ によって捉えられることである。
次に,損失関数によって引き起こされる最適化ランドスケープに形状が適合した信頼度集合を得るためにバウンドをどのように利用できるかを示す。
損失関数の強い凸性に強く依存する以前の作品とは異なり、ヘッセンが最適に有界でないことを仮定し、徐々に縮退する。
この性質は凸最適化に由来する一般化自己一致の概念によって定式化される。
さらに,データから有効次元を推定し,その推定精度を評価できることを示す。
本研究では,一般化線形モデルを用いた最大確率推定,指数関数族とのスコアマッチング,raoのスコアテストによる仮説検定に適用する。 This paper revisits a fundamental problem in statistical inference from a non-asymptotic theoretical viewpoint $\unicode{x2013}$ the construction of confidence sets. We establish a finite-sample bound for the estimator, characterizing its asymptotic behavior in a non-asymptotic fashion. An important feature of our bound is that its dimension dependency is captured by the effective dimension $\unicode{x2013}$ the trace of the limiting sandwich covariance $\unicode{x2013}$ which can be much smaller than the parameter dimension in some regimes. We then illustrate how the bound can be used to obtain a confidence set whose shape is adapted to the optimization landscape induced by the loss function. Unlike previous works that rely heavily on the strong convexity of the loss function, we only assume the Hessian is lower bounded at optimum and allow it to gradually becomes degenerate. This property is formalized by the notion of generalized self-concordance which originated from convex optimization. Moreover, we demonstrate how the effective dimension can be estimated from data and characterize its estimation accuracy. We apply our results to maximum likelihood estimation with generalized linear models, score matching with exponential families, and hypothesis testing with Rao's score test. | 翻訳日:2023-01-03 15:54:51 公開日:2022-12-31 |
# リンク予測のための生成グラフニューラルネットワーク Generative Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2301.00169v1 ) ライセンス: Link先を確認 | Xingping Xian, Tao Wu, Xiaoke Ma, Shaojie Qiao, Yabin Shao, Chao Wang, Lin Yuan, Yu Wu | (参考訳) 欠落したリンクを推測したり、観測されたグラフに基づいて急激なリンクを検出することは、グラフデータ分析における長年の課題である。
ディープラーニングの最近の進歩により、グラフニューラルネットワークはリンク予測に使われ、最先端のパフォーマンスを達成した。
しかしながら、この目的のために開発された既存の手法は、典型的には差別的であり、隣接する2つのノード周辺の局所部分グラフの特徴を計算し、サブグラフ分類の観点からそれらの間の潜在的なリンクを予測する。
この定式化では,囲い込み部分グラフの選択と,部分グラフ分類のためのヒューリスティックな構造的特徴が手法の性能に大きく影響する。
この制限を克服するために,GraphLPと呼ばれるネットワーク再構成理論に基づく,新しい,根本的に異なるリンク予測アルゴリズムを提案する。
正と負のリンクをサンプリングし、囲むサブグラフの特徴をヒューリスティックに計算する代わりに、graphlpはディープラーニングモデルの特徴学習能力を利用して、実世界のグラフが局所的に分離されていないと仮定して、リンク予測のためのグラフの構造パターンを自動的に抽出する。
さらに,グラフの階層構造をリンク予測に用いるために,高次接続パターンを探索する。
異なるアプリケーションから得られたベンチマークデータセットにおける実験結果から,提案手法は他の最先端手法を一貫して上回っていることが判明した。
リンク予測に使用される識別ニューラルネットワークモデルとは異なり、GraphLPは生成可能であり、ニューラルネットワークベースのリンク予測の新しいパラダイムを提供する。 Inferring missing links or detecting spurious ones based on observed graphs, known as link prediction, is a long-standing challenge in graph data analysis. With the recent advances in deep learning, graph neural networks have been used for link prediction and have achieved state-of-the-art performance. Nevertheless, existing methods developed for this purpose are typically discriminative, computing features of local subgraphs around two neighboring nodes and predicting potential links between them from the perspective of subgraph classification. In this formalism, the selection of enclosing subgraphs and heuristic structural features for subgraph classification significantly affects the performance of the methods. To overcome this limitation, this paper proposes a novel and radically different link prediction algorithm based on the network reconstruction theory, called GraphLP. Instead of sampling positive and negative links and heuristically computing the features of their enclosing subgraphs, GraphLP utilizes the feature learning ability of deep-learning models to automatically extract the structural patterns of graphs for link prediction under the assumption that real-world graphs are not locally isolated. Moreover, GraphLP explores high-order connectivity patterns to utilize the hierarchical organizational structures of graphs for link prediction. Our experimental results on all common benchmark datasets from different applications demonstrate that the proposed method consistently outperforms other state-of-the-art methods. Unlike the discriminative neural network models used for link prediction, GraphLP is generative, which provides a new paradigm for neural-network-based link prediction. | 翻訳日:2023-01-03 15:49:13 公開日:2022-12-31 |
# 総合的な医薬品勧告システムRECOMMED RECOMMED: A Comprehensive Pharmaceutical Recommendation System ( http://arxiv.org/abs/2301.00280v1 ) ライセンス: Link先を確認 | Mariam Zomorodi, Ismail Ghodsollahee, Pawel Plawiak, U. Rajendra Acharya | (参考訳) drug.com と druglib.com から抽出した患者と薬剤の特徴に基づいて総合的な医薬品推奨システムを開発した。
まず、これらのデータベースからのデータを組み合わせて患者と薬物情報のデータセットを構築した。
第2に、患者と薬物のクラスター化を行い、患者によって提供された異なる格付け、および患者と薬物の仕様から得られた知識、および薬物の相互作用を考慮して推奨を行った。
我々の知識を最大限に活用するため,我々は,特定の患者に適した特定の薬剤を選択するための提案手法において,患者の状況と歴史を考察した最初のグループである。
提案手法は,人工知能(AI)モデルを実装に適用する。
自然言語処理アプローチを用いた知覚分析は、ニューラルネットワークベースの手法やシステムモデリングのためのレコメンダシステムアルゴリズムと共に、前処理に使用される。
本研究は, 患者条件と薬物の特徴をマトリックス因子化に基づく2つのモデル作成に利用した。
その後、薬物相互作用を用いて、他の薬物と重度または軽度に相互作用する薬物をろ過した。
トレーニングセットとして2304人のデータを用いて,薬物を推奨する深層学習モデルを開発し,検証セットとして660人のデータを用いた。
その後,薬物に関する重要な情報から得られた知識を用いて,モデルの結果を知識ベースシステムと,薬剤摂取の制約から得られたルールを組み合わせる。 A comprehensive pharmaceutical recommendation system was designed based on the patients and drugs features extracted from Drugs.com and Druglib.com. First, data from these databases were combined, and a dataset of patients and drug information was built. Secondly, the patients and drugs were clustered, and then the recommendation was performed using different ratings provided by patients, and importantly by the knowledge obtained from patients and drug specifications, and considering drug interactions. To the best of our knowledge, we are the first group to consider patients conditions and history in the proposed approach for selecting a specific medicine appropriate for that particular user. Our approach applies artificial intelligence (AI) models for the implementation. Sentiment analysis using natural language processing approaches is employed in pre-processing along with neural network-based methods and recommender system algorithms for modeling the system. In our work, patients conditions and drugs features are used for making two models based on matrix factorization. Then we used drug interaction to filter drugs with severe or mild interactions with other drugs. We developed a deep learning model for recommending drugs by using data from 2304 patients as a training set, and then we used data from 660 patients as our validation set. After that, we used knowledge from critical information about drugs and combined the outcome of the model into a knowledge-based system with the rules obtained from constraints on taking medicine. | 翻訳日:2023-01-03 15:48:45 公開日:2022-12-31 |
# 音声認識システムのサンプル非教師付きドメイン適応 : 現代ギリシア語を事例として Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition Systems A case study for Modern Greek ( http://arxiv.org/abs/2301.00304v1 ) ライセンス: Link先を確認 | Georgios Paraskevopoulos, Theodoros Kouzelis, Georgios Rouvalis, Athanasios Katsamanis, Vassilis Katsouros, Alexandros Potamianos | (参考訳) 現代の音声認識システムは、ドメインシフト下での高速な性能劣化を示す。
この問題は、トレーニングデータの多様性が制限されている低リソース言語など、データスカースな設定で特に顕著である。
本研究では,混合音源と対象領域の自己スーパービジョンに基づく大規模事前学習音声モデルの簡易かつサンプル効率の良い微調整手法であるm2ds2を提案する。
ソースドメインの自己スーパービジョンを含め、トレーニングを安定させ、潜伏表現のモード崩壊を回避する。
評価のために、ギリシャ議会のプレナリーセッションからなる、ギリシャ語のための120ドルのスピーチコーパスであるHParlを収集する。
我々はHParlを2つのギリシャのコーパスと統合し、ギリシャのASRシステムのマルチドメイン評価のためのテストベッドであるGREC-MDを作成する。
我々の実験では、他のUnsupervised Domain Adaptationベースラインはこのリソース制約のある環境では失敗するが、M2DS2は、わずか数時間のドメイン内オーディオが利用できる場合でも、ドメイン間の適応に大きな改善をもたらす。
弱教師付き環境で問題を緩和すると、M2DS2と単純なLM拡張技術を用いた言語による音声の独立適応が特に有効であることが分かり、完全教師付きベースラインに匹敵する単語誤り率が得られる。 Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines. | 翻訳日:2023-01-03 15:46:28 公開日:2022-12-31 |
# ニューロロボティクスプラットフォームを用いた自律運転シミュレータ Autonomous Driving Simulator based on Neurorobotics Platform ( http://arxiv.org/abs/2301.00089v1 ) ライセンス: Link先を確認 | Wei Cao, Liguo Zhou, Yuhong Huang and Alois Knoll | (参考訳) 自動運転車には人工知能アルゴリズムがたくさんあるが、これらのアルゴリズムを直接車両にインストールするのは非現実的で高価だ。
同時に、これらのアルゴリズムの多くは、トレーニングと最適化のための環境を必要とする。
シミュレーションは、トレーニングとテスト機能を備えた価値ある有意義なソリューションであり、シミュレーションは自動運転の世界において重要なリンクであると言える。
また、SVLやCarlaのような企業や学術機関から様々なアプリケーションやシミュレーションシステムが存在する。
これらのシミュレーターは、最も近い実世界シミュレーションを持っているが、歩行者やその他の車両などの環境オブジェクトは、すでにプログラムされている。
事前に設定された軌道に沿ってしか移動できないし、乱数で動きを決定することもできる。
すべての環境オブジェクトが人工知能によってインストールされている場合や、その振る舞いが実際の人や他のドライバーの自然な反応と同じである場合はどうでしょう?
この問題は、ほとんどのシミュレーションアプリケーションにとって盲点であり、あるいはこれらのアプリケーションは、この問題を簡単に解決できない。
Alois Knoll教授のTUMチームのNeurorobotics Platformは、マルチエージェント問題を解決するために"Engines"と"Transceiver Functions"というアイデアを持っている。
本報告は,神経ロボティクスプラットフォームに関する小さな研究から始まり,実際のシミュレーション目標を達成するための新しいシミュレータの開発の可能性と可能性を分析する。
NRP-Core Platformをベースとしたこの初期開発は、最初のデモ実験を構築することを目的としている。
本報告は、NRP-Coreとそのインストールに関する基礎知識から始まり、最後に、オブジェクト検出と自律制御を統合した自律運転システムの構築の詳細について、シミュレーション実験に必要なコンポーネントの説明に焦点を当てる。 There are many artificial intelligence algorithms for autonomous driving, but directly installing these algorithms on vehicles is unrealistic and expensive. At the same time, many of these algorithms need an environment to train and optimize. Simulation is a valuable and meaningful solution with training and testing functions, and it can say that simulation is a critical link in the autonomous driving world. There are also many different applications or systems of simulation from companies or academies such as SVL and Carla. These simulators flaunt that they have the closest real-world simulation, but their environment objects, such as pedestrians and other vehicles around the agent-vehicle, are already fixed programmed. They can only move along the pre-setting trajectory, or random numbers determine their movements. What is the situation when all environmental objects are also installed by Artificial Intelligence, or their behaviors are like real people or natural reactions of other drivers? This problem is a blind spot for most of the simulation applications, or these applications cannot be easy to solve this problem. The Neurorobotics Platform from the TUM team of Prof. Alois Knoll has the idea about "Engines" and "Transceiver Functions" to solve the multi-agents problem. This report will start with a little research on the Neurorobotics Platform and analyze the potential and possibility of developing a new simulator to achieve the true real-world simulation goal. Then based on the NRP-Core Platform, this initial development aims to construct an initial demo experiment. The consist of this report starts with the basic knowledge of NRP-Core and its installation, then focus on the explanation of the necessary components for a simulation experiment, at last, about the details of constructions for the autonomous driving system, which is integrated object detection and autonomous control. | 翻訳日:2023-01-03 15:36:50 公開日:2022-12-31 |
# 糖尿病の分類に応用した量子機械学習 Quantum Machine Learning Applied to the Classification of Diabetes ( http://arxiv.org/abs/2301.00109v1 ) ライセンス: Link先を確認 | Juan Kenyhy Hancco-Quispe, Jordan Piero Borda-Colque, Fred Torres-Cruz | (参考訳) 量子機械学習(QML)は、機械学習手法よりも大きな利点をいかに維持するかを示している。
現在、ハイブリッド量子メソッドは、デプロイメントと最適化に優れたスコープを持ち、将来の産業に約束が持てることを示している。
弱点として、量子コンピューティングはそのポテンシャルを正当化するのに十分な量子ビットを持っていない。
本研究では,2次元化手法であるldaとpcaを用いて,糖尿病の分類におけるqsvc(quantum support vector classifier)とvqc( variational quantum classifier)のハイブリッド手法を適用した。 Quantum Machine Learning (QML) shows how it maintains certain significant advantages over machine learning methods. It now shows that hybrid quantum methods have great scope for deployment and optimisation, and hold promise for future industries. As a weakness, quantum computing does not have enough qubits to justify its potential. This topic of study gives us encouraging results in the improvement of quantum coding, being the data preprocessing an important point in this research we employ two dimensionality reduction techniques LDA and PCA applying them in a hybrid way Quantum Support Vector Classifier (QSVC) and Variational Quantum Classifier (VQC) in the classification of Diabetes. | 翻訳日:2023-01-03 15:29:28 公開日:2022-12-31 |
# モノのインターネット(IoT)環境における異常検出のためのデータ駆動アプローチの活用 Exploring the Use of Data-Driven Approaches for Anomaly Detection in the Internet of Things (IoT) Environment ( http://arxiv.org/abs/2301.00134v1 ) ライセンス: Link先を確認 | Eleonora Achiluzzi, Menglu Li, Md Fahd Al Georgy, and Rasha Kashef | (参考訳) IoT(Internet of Things)は、物理コンピューティングデバイス、センサー、ソフトウェア、その他のテクノロジを接続するシステムである。
データは、人間のインタラクションを必要とせずに、ネットワーク上の他のデバイスと収集、転送、交換することができる。
IoTが直面する課題のひとつは、ネットワークに異常データが存在することだ。
そのため,近年,IoT環境における異常検出の研究が盛んになり,その必要性が高まっている。
この調査は、さまざまな異常検出アルゴリズムの現在の進歩と、それがモノのインターネットのコンテキストでどのように適用できるかを理解するための概要を提供する。
本研究では,iotで広く使用されている異常検出機械学習と深層学習技術を,クラスタリングベース,分類ベース,深層学習の3つのタイプに分類した。
各カテゴリについて,最先端の異常検出手法を紹介し,各手法の利点と限界を評価する。 The Internet of Things (IoT) is a system that connects physical computing devices, sensors, software, and other technologies. Data can be collected, transferred, and exchanged with other devices over the network without requiring human interactions. One challenge the development of IoT faces is the existence of anomaly data in the network. Therefore, research on anomaly detection in the IoT environment has become popular and necessary in recent years. This survey provides an overview to understand the current progress of the different anomaly detection algorithms and how they can be applied in the context of the Internet of Things. In this survey, we categorize the widely used anomaly detection machine learning and deep learning techniques in IoT into three types: clustering-based, classification-based, and deep learning based. For each category, we introduce some state-of-the-art anomaly detection methods and evaluate the advantages and limitations of each technique. | 翻訳日:2023-01-03 15:29:15 公開日:2022-12-31 |
# 高次元多重忠実度問題に対する効率的な階層的クリギングモデリング法 An Efficient Hierarchical Kriging Modeling Method for High-dimension Multi-fidelity Problems ( http://arxiv.org/abs/2301.00216v1 ) ライセンス: Link先を確認 | Youwei He, Jinliang Luo | (参考訳) 低忠実度データと高忠実度データを融合させることにより, 試料調製の精度とコストのバランスをとることができるため, シュロゲート設計における有望な手法である。
しかし, 問題次元の増大に伴い, 多要素クリグモデルの構築コストは大幅に増大する。
この問題に対処するために,効率的な階層的krigingモデリング手法を提案する。
低忠実度モデルを構築する際、最大情報係数を用いてハイパーパラメータの相対値を算出する。
これにより、ハイパーパラメータを決定するための最大確率推定問題は、効率良く解くことができる一次元最適化問題として変換され、モデリング効率が大幅に向上する。
さらに、ハイパーパラメータの探索空間を利用してモデル精度を向上させるために、局所探索が関与する。
高忠実度モデルは低忠実度モデルのハイパーパラメータと似た方法で構築され、高忠実度モデルのハイパーパラメータの相対値として機能する。
提案法の性能は, コンプレッサロータの等方性効率をモデル化する工学的問題と10以上の解析的問題とを比較検討することにより, 従来のチューニング戦略と比較した。
実験の結果,提案手法のモデル化時間はモデル精度を犠牲にすることなく大幅に短縮された。
圧縮機ローターの等エントロピー効率のモデル化では,従来の手法に比べて約90%のコスト削減が可能であった。
一方,提案手法は高い精度を実現する。 Multi-fidelity Kriging model is a promising technique in surrogate-based design as it can balance the model accuracy and cost of sample preparation by fusing low- and high-fidelity data. However, the cost for building a multi-fidelity Kriging model increases significantly with the increase of the problem dimension. To attack this issue, an efficient Hierarchical Kriging modeling method is proposed. In building the low-fidelity model, the maximal information coefficient is utilized to calculate the relative value of the hyperparameter. With this, the maximum likelihood estimation problem for determining the hyperparameters is transformed as a one-dimension optimization problem, which can be solved in an efficient manner and thus improve the modeling efficiency significantly. A local search is involved further to exploit the search space of hyperparameters to improve the model accuracy. The high-fidelity model is built in a similar manner with the hyperparameter of the low-fidelity model served as the relative value of the hyperparameter for high-fidelity model. The performance of the proposed method is compared with the conventional tuning strategy, by testing them over ten analytic problems and an engineering problem of modeling the isentropic efficiency of a compressor rotor. The empirical results demonstrate that the modeling time of the proposed method is reduced significantly without sacrificing the model accuracy. For the modeling of the isentropic efficiency of the compressor rotor, the cost saving associated with the proposed method is about 90% compared with the conventional strategy. Meanwhile, the proposed method achieves higher accuracy. | 翻訳日:2023-01-03 15:29:01 公開日:2022-12-31 |
# 光造形信号解析ツールキット Lightmorphic Signatures Analysis Toolkit ( http://arxiv.org/abs/2301.00281v1 ) ライセンス: Link先を確認 | D. Damian | (参考訳) 本稿では,オープンソースの光型シグネチャ解析ツールキット(LSAT)の設計に使用される理論について議論する。
コア機能の提供に加えて、ソフトウェアパッケージはモジュール的でカスタマイズ可能な設計で特定の最適化を可能にする。
LSATの利用を促進し、将来的なコントリビューションを促すために、LSATが公開されている。
自己教師付きニューラルネットワークと拡張機械学習アルゴリズムを使用することで、lsatは豊富なドキュメントを備えた使いやすいインターフェースを提供する。
実験により、LSATは、光モルフィック関連データを使用可能なスペクトログラムに変換し、パラメータチューニングと性能解析により強化する、退屈でエラーを起こしやすいタスクを改善した。
得られた数学的関数により、LSATは予測アルゴリズムの適合性を確保しつつ、データ変換プロセスで発生する非線形性を検証する。 In this paper we discuss the theory used in the design of an open source lightmorphic signatures analysis toolkit (LSAT). In addition to providing a core functionality, the software package enables specific optimizations with its modular and customizable design. To promote its usage and inspire future contributions, LSAT is publicly available. By using a self-supervised neural network and augmented machine learning algorithms, LSAT provides an easy-to-use interface with ample documentation. The experiments demonstrate that LSAT improves the otherwise tedious and error-prone tasks of translating lightmorphic associated data into usable spectrograms, enhanced with parameter tuning and performance analysis. With the provided mathematical functions, LSAT validates the nonlinearity encountered in the data conversion process while ensuring suitability of the forecasting algorithms. | 翻訳日:2023-01-03 15:28:37 公開日:2022-12-31 |
# generalized ptr:差分プライバシーを持つデータ適応アルゴリズムのためのユーザフレンドリーなレシピ Generalized PTR: User-Friendly Recipes for Data-Adaptive Algorithms with Differential Privacy ( http://arxiv.org/abs/2301.00301v1 ) ライセンス: Link先を確認 | Rachel Redberg, Yuqing Zhu, Yu-Xiang Wang | (参考訳) 'propose-test-release''(ptr)フレームワークは、データ適応性のある差分プライベート(dp)アルゴリズムを設計するための古典的なレシピである。
私たちは、ptrをローカルの感度ではなく、データ依存のプライバシー損失をプライベートにテストすることで、より一般的な設定に拡張します。
本研究は,プライベート線形回帰を用いた一般化PTRの汎用性を示す。
さらに,本アルゴリズムを適用して,「教師の集まりのプライベートアグリゲーション(PATE)」から開放的な問題を解く。 The ''Propose-Test-Release'' (PTR) framework is a classic recipe for designing differentially private (DP) algorithms that are data-adaptive, i.e. those that add less noise when the input dataset is nice. We extend PTR to a more general setting by privately testing data-dependent privacy losses rather than local sensitivity, hence making it applicable beyond the standard noise-adding mechanisms, e.g. to queries with unbounded or undefined sensitivity. We demonstrate the versatility of generalized PTR using private linear regression as a case study. Additionally, we apply our algorithm to solve an open problem from ''Private Aggregation of Teacher Ensembles (PATE)'' -- privately releasing the entire model with a delicate data-dependent analysis. | 翻訳日:2023-01-03 15:28:26 公開日:2022-12-31 |
# cap4video:テキスト・ビデオ検索に補助キャプションは何ができるのか? Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? ( http://arxiv.org/abs/2301.00184v1 ) ライセンス: Link先を確認 | Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang | (参考訳) 既存のテキストビデオ検索手法の多くは、オフラインビデオの視覚コンテンツとテキスト検索文の相互マッチングに焦点を当てている。
しかし、実際のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が伴っていて、テキストクエリのマッチングに利用することができる。
これにより、オフラインビデオから関連キャプションを生成し、既存のテキストビデオ検索方法を支援することができます。
そこで本研究では,事前学習したWebスケールモデル(CLIPやGPT-2など)の知識を持つゼロショットビデオキャプタを用いて,オフライン動画のキャプタを生成することを提案する。
補助的な字幕は、テキストビデオ検索に何ができるのか?
本稿では,キャプションを3つの側面から活用した新しいフレームワーク cap4video を提案する。
i) 入力データ: ビデオとキャプションは、トレーニングのためのデータ拡張として、新しいビデオキャプチャペアを形成することができる。
ii) 特徴的相互作用: 映像とキャプション間の特徴的相互作用を行い, 映像表現の強化を行う。
三 出力スコア: Query-Captionマッチングブランチは、元のQuery-Videoマッチングブランチを補完してテキストビデオ検索を行うことができる。
本手法の有効性を実証するために徹底的なアブレーション研究を行う。
後処理なしでは、MPR-VTT(51.4%)、VATEX(66.6%)、MSVD(51.8%)、DiDeMo(52.0%)で最先端のパフォーマンスを実現しています。 Most existing text-video retrieval methods focus on cross-modal matching between the visual content of offline videos and textual query sentences. However, in real scenarios, online videos are frequently accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This inspires us to generate associated captions from offline videos to help with existing text-video retrieval methods. To do so, we propose to use the zero-shot video captioner with knowledge of pre-trained web-scale models (e.g., CLIP and GPT-2) to generate captions for offline videos without any training. Given the captions, one question naturally arises: what can auxiliary captions do for text-video retrieval? In this paper, we present a novel framework Cap4Video, which makes use of captions from three aspects: i) Input data: The video and captions can form new video-caption pairs as data augmentation for training. ii) Feature interaction: We perform feature interaction between video and caption to yield enhanced video representations. iii) Output score: The Query-Caption matching branch can be complementary to the original Query-Video matching branch for text-video retrieval. We conduct thorough ablation studies to demonstrate the effectiveness of our method. Without any post-processing, our Cap4Video achieves state-of-the-art performance on MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%). | 翻訳日:2023-01-03 15:13:17 公開日:2022-12-31 |
# セキュリティチェックポイントにおける複数カメラを用いた乗客・荷物の追跡 Tracking Passengers and Baggage Items using Multiple Overhead Cameras at Security Checkpoints ( http://arxiv.org/abs/2301.00190v1 ) ライセンス: Link先を確認 | Abubakar Siddique and Henry Medeiros | (参考訳) 我々は,空港の検問所のセキュリティシナリオにおいて,頭上カメラ映像中の複数の物体を追跡するための新しい枠組みを提案する。
オーバヘッド画像からのインスタンスセグメンテーションの不確実性に関するモデル情報を提供するために,自己監視学習(SSL)手法を提案する。
我々のSSLアプローチは、テストタイムデータ拡張と回帰ベースで回転不変な擬似ラベル改善技術を用いてオブジェクト検出を改善する。
擬似ラベル生成法は,畳み込みニューラルネットワーク(cnn)への入力として複数の幾何変換画像を提供し,ネットワークが生成する拡張検出をレグレッションして局所化誤差を低減し,平均シフトアルゴリズムを用いてクラスタ化する。
自己監視検出器モデルは、ターゲットの時間識別子を生成するために、単一カメラ追跡アルゴリズムで使用される。
また,マルチビューの軌跡関連付け機構を組み込んで,カメラビューを横断する乗客の時間的識別子を安定的に保持する。
空港チェックポイント環境における複数のオーバーヘッドカメラから得られた映像の検出,追跡,関連性の評価は,提案手法の有効性を実証する。
その結果, 自己スーパービジョンにより, モデルの推論時間を増加させることなく, 物体検出精度を最大42%向上できることがわかった。
我々のマルチカメラアソシエーション法は,平均計算時間15ドル未満のマルチオブジェクト追跡精度を最大8,9 %まで達成する。 We introduce a novel framework to track multiple objects in overhead camera videos for airport checkpoint security scenarios where targets correspond to passengers and their baggage items. We propose a Self-Supervised Learning (SSL) technique to provide the model information about instance segmentation uncertainty from overhead images. Our SSL approach improves object detection by employing a test-time data augmentation and a regression-based, rotation-invariant pseudo-label refinement technique. Our pseudo-label generation method provides multiple geometrically-transformed images as inputs to a Convolutional Neural Network (CNN), regresses the augmented detections generated by the network to reduce localization errors, and then clusters them using the mean-shift algorithm. The self-supervised detector model is used in a single-camera tracking algorithm to generate temporal identifiers for the targets. Our method also incorporates a multi-view trajectory association mechanism to maintain consistent temporal identifiers as passengers travel across camera views. An evaluation of detection, tracking, and association performances on videos obtained from multiple overhead cameras in a realistic airport checkpoint environment demonstrates the effectiveness of the proposed approach. Our results show that self-supervision improves object detection accuracy by up to $42\%$ without increasing the inference time of the model. Our multi-camera association method achieves up to $89\%$ multi-object tracking accuracy with an average computation time of less than $15$ ms. | 翻訳日:2023-01-03 15:12:50 公開日:2022-12-31 |
# 効率的なマスキング画像モデリングのためのジョイント蒸留による非接合マスキング Disjoint Masking with Joint Distillation for Efficient Masked Image Modeling ( http://arxiv.org/abs/2301.00230v1 ) ライセンス: Link先を確認 | Xin Ma, Chang Liu, Chunyu Xie, Long Ye, Yafeng Deng, Xiangyang Ji | (参考訳) マスク付き画像モデリング(MIM)は、自己教師付き学習(SSL)に大きな可能性を示しているが、非効率な学習では批判されている。
我々は、訓練信号の不十分な利用が責任であると信じている。
この問題を軽減するため,DMJD(Disjoint Masking with Joint Distillation)と呼ばれる,概念的にシンプルだが学習効率のよいMIMトレーニングスキームを導入する。
分割マスキング(DM)では,各画像のマスキング率を維持しつつ,各画像の復元にトークンの使用率を高めるために,ミニバッチで複数のマスキングビューを順次サンプリングする。
共同蒸留(JD)では,両枝構造を用いて,より優れた学習目標を持つ可視(マスケ)トークンと可視(マスケ)トークンをそれぞれ予測する。
トレーニング効率向上のための直交的視点の根源として,dmとjdは協調的にトレーニング収束を加速するが,モデルの一般化能力は犠牲にしない。
具体的には、DMはViTを効果的なトレーニングエポックの半分(3.7倍の時間)で訓練し、競争性能を報告できる。
JDでは, DMJDはConvMAEの線形探索分類精度を5.8%向上させる。
セマンティックセグメンテーションやオブジェクト検出といった細粒度の下流タスクでは、最先端のSSLメソッドと比較して、DMJDは優れた一般化を提供する。
コードとモデルはhttps://github.com/mx-mark/DMJD.comで公開される。 Masked image modeling (MIM) has shown great promise for self-supervised learning (SSL) yet been criticized for learning inefficiency. We believe the insufficient utilization of training signals should be responsible. To alleviate this issue, we introduce a conceptually simple yet learning-efficient MIM training scheme, termed Disjoint Masking with Joint Distillation (DMJD). For disjoint masking (DM), we sequentially sample multiple masked views per image in a mini-batch with the disjoint regulation to raise the usage of tokens for reconstruction in each image while keeping the masking rate of each view. For joint distillation (JD), we adopt a dual branch architecture to respectively predict invisible (masked) and visible (unmasked) tokens with superior learning targets. Rooting in orthogonal perspectives for training efficiency improvement, DM and JD cooperatively accelerate the training convergence yet not sacrificing the model generalization ability. Concretely, DM can train ViT with half of the effective training epochs (3.7 times less time-consuming) to report competitive performance. With JD, our DMJD clearly improves the linear probing classification accuracy over ConvMAE by 5.8%. On fine-grained downstream tasks like semantic segmentation, object detection, etc., our DMJD also presents superior generalization compared with state-of-the-art SSL methods. The code and model will be made public at https://github.com/mx-mark/DMJD. | 翻訳日:2023-01-03 15:12:29 公開日:2022-12-31 |
# DiRaC-I:ゼロショット学習のためのディバースとレアトレーニングのクラスを同定する DiRaC-I: Identifying Diverse and Rare Training Classes for Zero-Shot Learning ( http://arxiv.org/abs/2301.00236v1 ) ライセンス: Link先を確認 | Sandipan Sarma, Arijit Sur | (参考訳) Active Learningのような戦略に触発されて、ZSL(Zero-Shot Learning)のデータセットからインテリジェントにトレーニングクラスを選択することで、既存のZSLメソッドのパフォーマンスが向上する。
本研究では、属性ベースのデータセットを与えられた場合、ZSLモデルのトレーニングに最も適した「Seen Class」をインテリジェントに生成できるDiverse and Rare Class Identifier (DiRaC-I) というフレームワークを提案する。
DiRaC-Iの主な目的は2つあり、次にこれらのシードクラスによって初期化された視覚・セマンティックマイニングアルゴリズムがオブジェクト領域の多様性と希少性を適切に捉えたクラスを取得する。
これらのクラスはイメージ分類のためのZSLモデルをトレーニングするために"Seen Class"として使用できる。
我々は、トレーニング中にDiraC-IとZSLモデルの両方で新しいオブジェクトクラスが利用できる現実シナリオを採用し、ゼロショット画像分類のための2つのベンチマークデータセット(CUBとSUN)について広範な実験を行った。
DRaC-IはZSLモデルの分類精度の向上に役立つことを示す。 Inspired by strategies like Active Learning, it is intuitive that intelligently selecting the training classes from a dataset for Zero-Shot Learning (ZSL) can improve the performance of existing ZSL methods. In this work, we propose a framework called Diverse and Rare Class Identifier (DiRaC-I) which, given an attribute-based dataset, can intelligently yield the most suitable "seen classes" for training ZSL models. DiRaC-I has two main goals - constructing a diversified set of seed classes, followed by a visual-semantic mining algorithm initialized by these seed classes that acquires the classes capturing both diversity and rarity in the object domain adequately. These classes can then be used as "seen classes" to train ZSL models for image classification. We adopt a real-world scenario where novel object classes are available to neither DiRaC-I nor the ZSL models during training and conducted extensive experiments on two benchmark data sets for zero-shot image classification - CUB and SUN. Our results demonstrate DiRaC-I helps ZSL models to achieve significant classification accuracy improvements. | 翻訳日:2023-01-03 15:12:04 公開日:2022-12-31 |
# WiFiのDensePose DensePose From WiFi ( http://arxiv.org/abs/2301.00250v1 ) ライセンス: Link先を確認 | Jiaqi Geng, Dong Huang, Fernando De la Torre | (参考訳) コンピュータビジョンと機械学習技術の進歩は、RGBカメラ、LiDAR、レーダーによる2Dと3Dの人間のポーズ推定に大きな発展をもたらした。
しかし、画像からの人間のポーズ推定は、多くの関心のシナリオでよく見られる閉塞や照明の影響を受けやすい。
一方、RadarとLiDARの技術は、高価で電力集約的な特殊なハードウェアを必要とする。
さらに、これらのセンサーを公共の場で使用すると、プライバシーの懸念が高まる。
これらの制限に対処するため、最近の研究では、ボディセグメンテーションとキーポイントボディ検出にWiFiアンテナ(1Dセンサー)の使用について検討している。
本稿では、コンピュータビジョンで一般的に使用される深層学習アーキテクチャと組み合わせて、密接な人間のポーズ対応を推定するwi-fi信号の利用をさらに拡大する。
我々は24領域の紫外線座標にwifi信号の位相と振幅をマッピングするディープニューラルネットワークを開発した。
本研究の結果から,WiFi信号のみを入力として利用することにより,複数の被験者の濃密なポーズを画像ベースアプローチに匹敵する性能で推定できることが判明した。
これは、低コストで、広くアクセス可能で、人間のセンシングのためのプライバシー保護アルゴリズムの道を開くものだ。 Advances in computer vision and machine learning techniques have led to significant development in 2D and 3D human pose estimation from RGB cameras, LiDAR, and radars. However, human pose estimation from images is adversely affected by occlusion and lighting, which are common in many scenarios of interest. Radar and LiDAR technologies, on the other hand, need specialized hardware that is expensive and power-intensive. Furthermore, placing these sensors in non-public areas raises significant privacy concerns. To address these limitations, recent research has explored the use of WiFi antennas (1D sensors) for body segmentation and key-point body detection. This paper further expands on the use of the WiFi signal in combination with deep learning architectures, commonly used in computer vision, to estimate dense human pose correspondence. We developed a deep neural network that maps the phase and amplitude of WiFi signals to UV coordinates within 24 human regions. The results of the study reveal that our model can estimate the dense pose of multiple subjects, with comparable performance to image-based approaches, by utilizing WiFi signals as the only input. This paves the way for low-cost, broadly accessible, and privacy-preserving algorithms for human sensing. | 翻訳日:2023-01-03 15:11:43 公開日:2022-12-31 |
# ディープラーニングを用いた骨格ビデオ異常検出:調査,課題,今後の方向性 Skeletal Video Anomaly Detection using Deep Learning: Survey, Challenges and Future Directions ( http://arxiv.org/abs/2301.00114v1 ) ライセンス: Link先を確認 | Pratik K. Mishra, Alex Mihailidis, Shehroz S. Khan | (参考訳) 既存のビデオ異常検出法では、顔の特徴と外見に基づく特徴を識別するビデオがほとんどである。
顔が特定可能なビデオを使うことは、特に病院やコミュニティベースの環境で使用される場合、プライバシーの懸念を生じさせる。
外観に基づく機能はピクセルベースのノイズにも敏感であり、背景の変化をモデル化するために異常検出手法を歪め、前景での人間の行動に焦点を合わせることが困難になる。
ビデオの中の人間の動きを記述する骨格の構造情報はプライバシー保護であり、外見に基づく特徴によって引き起こされる問題を克服することができる。
本稿では,ビデオから抽出したスケルトンを用いたプライバシー保護型ディープラーニング異常検出手法について検討する。
様々な学習手法に基づくアルゴリズムの新しい分類法を提案する。
我々は,異常検出のためのスケルトンベースのアプローチは,ビデオ異常検出のプライバシ保護の選択肢になり得ると結論づける。
最後に、主要なオープンな研究課題を特定し、それらに取り組むためのガイドラインを提供する。 The existing methods for video anomaly detection mostly utilize videos containing identifiable facial and appearance-based features. The use of videos with identifiable faces raises privacy concerns, especially when used in a hospital or community-based setting. Appearance-based features can also be sensitive to pixel-based noise, straining the anomaly detection methods to model the changes in the background and making it difficult to focus on the actions of humans in the foreground. Structural information in the form of skeletons describing the human motion in the videos is privacy-protecting and can overcome some of the problems posed by appearance-based features. In this paper, we present a survey of privacy-protecting deep learning anomaly detection methods using skeletons extracted from videos. We present a novel taxonomy of algorithms based on the various learning approaches. We conclude that skeleton-based approaches for anomaly detection can be a plausible privacy-protecting alternative for video anomaly detection. Lastly, we identify major open research questions and provide guidelines to address them. | 翻訳日:2023-01-03 15:03:33 公開日:2022-12-31 |
# 1対1自己指導によるマルチモーダルリモートセンシング画像における物体検出のための誘導ハイブリッド量子化 Guided Hybrid Quantization for Object detection in Multimodal Remote Sensing Imagery via One-to-one Self-teaching ( http://arxiv.org/abs/2301.00131v1 ) ライセンス: Link先を確認 | Jiaqing Zhang, Jie Lei, Weiying Xie, Yunsong Li, Xiuping Jia | (参考訳) 計算の複雑さを考慮し、1対1の自己学習(GHOST)フレームワークを用いたガイド付きハイブリッド量子化を提案する。
より具体的には、まず誘導量子化自己蒸留(gqsd)と呼ばれる構造を設計し、量子化と蒸留の相乗効果によって軽量化を実現する革新的なアイデアである。
量子化モデルのトレーニングプロセスは、前もって巨大な事前学習モデルを作成することなく、時間節約とコスト削減が可能なフル精度モデルによって導かれる。
次に,重み値探索空間に中心とサンプルとの分布距離のしきい値を適用した制約条件下で,最適なビット幅を自動的に取得するためのハイブリッド量子化(hq)モジュールを提案する。
第3に,情報変換を改善するために,学生ネットワークに自己判断能力を与えるための1対1の自己指導モジュールを提案する。
スイッチ制御機(scm)は、生徒ネットワークと教師ネットワークとの間のブリッジを同じ場所に構築し、教師が間違った指導を減らし、生徒に重要な知識を与えるのを助ける。
この蒸留法は、モデル自体から学習し、追加の監督なしに大幅に改善することができる。
multimodal dataset (vedai) と single-modality dataset (dota, nwpu, dior) に関する広範な実験により、ゴーストに基づく物体検出が既存の検出器よりも優れていることが示されている。
微小パラメータ (9.7 MB) とビット演算 (BOPs) (2158 G) は、あらゆるリモートセンシングベース、軽量、蒸留ベースのアルゴリズムと比較して軽量設計領域の優位性を示している。
私たちのコードとモデルはhttps://github.com/icey-zhang/ghostでリリースします。 Considering the computation complexity, we propose a Guided Hybrid Quantization with One-to-one Self-Teaching (GHOST}) framework. More concretely, we first design a structure called guided quantization self-distillation (GQSD), which is an innovative idea for realizing lightweight through the synergy of quantization and distillation. The training process of the quantization model is guided by its full-precision model, which is time-saving and cost-saving without preparing a huge pre-trained model in advance. Second, we put forward a hybrid quantization (HQ) module to obtain the optimal bit width automatically under a constrained condition where a threshold for distribution distance between the center and samples is applied in the weight value search space. Third, in order to improve information transformation, we propose a one-to-one self-teaching (OST) module to give the student network a ability of self-judgment. A switch control machine (SCM) builds a bridge between the student network and teacher network in the same location to help the teacher to reduce wrong guidance and impart vital knowledge to the student. This distillation method allows a model to learn from itself and gain substantial improvement without any additional supervision. Extensive experiments on a multimodal dataset (VEDAI) and single-modality datasets (DOTA, NWPU, and DIOR) show that object detection based on GHOST outperforms the existing detectors. The tiny parameters (<9.7 MB) and Bit-Operations (BOPs) (<2158 G) compared with any remote sensing-based, lightweight or distillation-based algorithms demonstrate the superiority in the lightweight design domain. Our code and model will be released at https://github.com/icey-zhang/GHOST. | 翻訳日:2023-01-03 15:03:18 公開日:2022-12-31 |
# テキスト合成をビデオストーリーボードに翻訳する Translating Text Synopses to Video Storyboards ( http://arxiv.org/abs/2301.00135v1 ) ライセンス: Link先を確認 | Xu Gu, Yuchong Sun, Feiyue Ni, Shizhe Chen, Ruihua Song, Boyuan Li, Xiang Cao | (参考訳) ストーリーボード(英: storyboard)は、テキスト合成におけるキープロットを視覚化するショット・バイ・ショット画像からなる、ビデオ作成のためのロードマップである。
しかし、ビデオストーリーボードの作成は、ハイレベルテキストと画像の関連性だけでなく、ショット間の遷移を円滑にするための長期的な推論も要求されるため、依然として困難である。
本稿では,テキスト合成を可視化するための順序付き画像列の検索を目的とした,TeViS(Text Synopsis to Video Storyboard)というタスクを提案する。
公開MovieNetデータセットに基づくMovieNet-TeViSベンチマークを構築した。
それぞれにキーフレームが組み合わされた10Kテキストのシナプスを含み、関連性と撮影コヒーレンスの両方を考慮して、対応する映画から手動で選択される。
また、タスクのエンコーダ・デコーダベースラインも提示する。
このモデルは、事前訓練された視覚と言語モデルを使用して、高レベルのテキスト画像マッチングを改善する。
長期撮影におけるコヒーレンスを改善するために,テキストなしで大規模映画のフレーム上でデコーダを事前訓練することを提案する。
実験結果から,提案モデルが他のモデルよりも優れていることを示す。
それでも、将来の有望な仕事の余地を示す人間のパフォーマンスに比べれば、まだ大きなギャップがある。 A storyboard is a roadmap for video creation which consists of shot-by-shot images to visualize key plots in a text synopsis. Creating video storyboards however remains challenging which not only requires association between high-level texts and images, but also demands for long-term reasoning to make transitions smooth across shots. In this paper, we propose a new task called Text synopsis to Video Storyboard (TeViS) which aims to retrieve an ordered sequence of images to visualize the text synopsis. We construct a MovieNet-TeViS benchmark based on the public MovieNet dataset. It contains 10K text synopses each paired with keyframes that are manually selected from corresponding movies by considering both relevance and cinematic coherence. We also present an encoder-decoder baseline for the task. The model uses a pretrained vision-and-language model to improve high-level text-image matching. To improve coherence in long-term shots, we further propose to pre-train the decoder on large-scale movie frames without text. Experimental results demonstrate that our proposed model significantly outperforms other models to create text-relevant and coherent storyboards. Nevertheless, there is still a large gap compared to human performance suggesting room for promising future work. | 翻訳日:2023-01-03 15:02:46 公開日:2022-12-31 |
# 注意グラフ畳み込みネットワークによる視聴覚・視覚シーン分類 Attentional Graph Convolutional Network for Structure-aware Audio-Visual Scene Classification ( http://arxiv.org/abs/2301.00145v1 ) ライセンス: Link先を確認 | Liguang Zhou, Yuhongze Zhou, Xiaonan Qi, Junjie Hu, Tin Lun Lam, Yangsheng Xu | (参考訳) 異なる物体の音声信号や空間的レイアウトや視覚画像の様々なテクスチャパターンに存在する非構造的空間的時間的関係のため、音声・視覚的シーン理解は難しい問題である。
近年,畳み込みニューラルネットワークの特徴を抽象化する研究が盛んに行われ,音声信号や視覚画像の明確な意味的関連フレームの学習は見過ごされている。
この目的のために、構造対応型音声視覚シーン表現のためのエンドツーエンドフレームワーク、すなわち注目グラフ畳み込みネットワーク(AGCN)を提案する。
まず、特徴抽出のためのバックボーンネットワークにより、音声と入力画像のスペクトログラムを処理する。
次に,入力特徴のマルチスケール階層情報を構築するために,注目融合機構を用いてバックボーンネットワークの複数層から特徴を集約する。
特に、音声視覚入力の健全領域と文脈情報を適切に表現するために、音声視覚シーン表現のために、有声音響グラフ(SAG)と有声音響グラフ(CAG)と、有声視覚グラフ(SVG)と、有声視覚グラフ(CVG)を構築する。
最後に、構築されたグラフは、構造対応オーディオ視覚シーン認識のためのグラフ畳み込みネットワークを通過する。
音声,視覚,映像のシーン認識データセットの大規模な実験結果から,AGCN法により有望な結果が得られた。
提案したCAG/SAGとCVG/SVGの有効性を示すために, 分光図と画像のグラフを視覚化し, 有意領域と意味領域に着目した。 Audio-Visual scene understanding is a challenging problem due to the unstructured spatial-temporal relations that exist in the audio signals and spatial layouts of different objects and various texture patterns in the visual images. Recently, many studies have focused on abstracting features from convolutional neural networks while the learning of explicit semantically relevant frames of sound signals and visual images has been overlooked. To this end, we present an end-to-end framework, namely attentional graph convolutional network (AGCN), for structure-aware audio-visual scene representation. First, the spectrogram of sound and input image is processed by a backbone network for feature extraction. Then, to build multi-scale hierarchical information of input features, we utilize an attention fusion mechanism to aggregate features from multiple layers of the backbone network. Notably, to well represent the salient regions and contextual information of audio-visual inputs, the salient acoustic graph (SAG) and contextual acoustic graph (CAG), salient visual graph (SVG), and contextual visual graph (CVG) are constructed for the audio-visual scene representation. Finally, the constructed graphs pass through a graph convolutional network for structure-aware audio-visual scene recognition. Extensive experimental results on the audio, visual and audio-visual scene recognition datasets show that promising results have been achieved by the AGCN methods. Visualizing graphs on the spectrograms and images have been presented to show the effectiveness of proposed CAG/SAG and CVG/SVG that could focus on the salient and semantic relevant regions. | 翻訳日:2023-01-03 15:02:26 公開日:2022-12-31 |
# あいまいなシーングラフ生成のためのピアラーニング Peer Learning for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2301.00146v1 ) ライセンス: Link先を確認 | Liguang Zhou, Junjie Hu, Yuhongze Zhou, Tin Lun Lam, Yangsheng Xu | (参考訳) 本稿では,バイアス付きシーングラフ生成(sgg)の問題に対処するために,ピアラーニングと呼ばれる新しいフレームワークを提案する。
このフレームワークは、述語サンプリングとコンセンサス投票(PSCV)を使用して、異なるピアが互いに学び、モデルの多様性を改善し、SGGのバイアスを軽減する。
述語クラスの長い分布に対処するために、述語サンプリングを用いてこの問題を分割し、克服することを提案する。
その結果、モデルはバイアスが少なくなり、よりバランスの取れた述語予測ができる。
特に、あるピアは、異なるレベルの述語分布を区別するのに十分な多様性がないかもしれない。
そこで我々は,述語頻度に基づくデータ分布をサブディストリビューションに分類し,頭,体,尾のクラスを選択して,学習過程における相補的な述語知識として,異なるピアに合成・供給する。
これらの仲間の補完的な述語的知識は、多数意見を強調し、少数意見を減らす社会における文明的な投票過程をシミュレートする合意投票戦略を利用して収集される。
このアプローチは、各ピアの学習された表現が、様々なデータ分布に最適に適合することを保証する。
Visual Genomeデータセットの大規模な実験は、PSCVが以前の方法より優れていることを示している。
我々は, SGCls タスク上で, \textbf{31.6} の平均を達成することによって, 新たな最先端(SOTA)を確立した。 In this paper, we propose a novel framework dubbed peer learning to deal with the problem of biased scene graph generation (SGG). This framework uses predicate sampling and consensus voting (PSCV) to encourage different peers to learn from each other, improving model diversity and mitigating bias in SGG. To address the heavily long-tailed distribution of predicate classes, we propose to use predicate sampling to divide and conquer this issue. As a result, the model is less biased and makes more balanced predicate predictions. Specifically, one peer may not be sufficiently diverse to discriminate between different levels of predicate distributions. Therefore, we sample the data distribution based on frequency of predicates into sub-distributions, selecting head, body, and tail classes to combine and feed to different peers as complementary predicate knowledge during the training process. The complementary predicate knowledge of these peers is then ensembled utilizing a consensus voting strategy, which simulates a civilized voting process in our society that emphasizes the majority opinion and diminishes the minority opinion. This approach ensures that the learned representations of each peer are optimally adapted to the various data distributions. Extensive experiments on the Visual Genome dataset demonstrate that PSCV outperforms previous methods. We have established a new state-of-the-art (SOTA) on the SGCls task by achieving a mean of \textbf{31.6}. | 翻訳日:2023-01-03 15:01:54 公開日:2022-12-31 |
# ポイントクラウド登録による回転不変性の再考 Rethinking Rotation Invariance with Point Cloud Registration ( http://arxiv.org/abs/2301.00149v1 ) ライセンス: Link先を確認 | Jianhui Yu, Chaoyi Zhang, Weidong Cai | (参考訳) 3次元点雲の回転不変性に関する最近の研究は、回転不変な特徴記述子を考案したり、オブジェクトが意味的に整列する標準空間を学習することに専念している。
分散のための学習フレームワークの検討はほとんど行われていない。
本研究では,点雲登録における回転不変性について検討し,回転不変形状符号化,アライメント機能統合,深部特徴登録の3段階による回転不変性学習の効果的な枠組みを提案する。
まず,異なるスケール(例えば局所パッチや大域トポロジー)で定義された参照フレームに対して構築された形状記述子を符号化し,回転不変な潜在形状コードを生成する。
統合段階において,形状コード内で確立された点的自己関係と相互関係を統合することにより識別的特徴表現を生成するために,アライメント統合トランスフォーマを提案する。
一方、我々は参照フレーム間の剛性変換を採用し、異なるスケールにわたる特徴整合性のために形状コードを調整する。
最後に、深い統合特徴を両方の回転不変形状符号に登録して特徴類似性を最大化し、統合特徴の回転不変性を保存し、形状符号から共有意味情報を暗黙的に抽出する。
3次元形状分類,部分分割,検索課題の実験結果から,本研究の有効性が証明された。
私たちのプロジェクトページは以下の通りである。 Recent investigations on rotation invariance for 3D point clouds have been devoted to devising rotation-invariant feature descriptors or learning canonical spaces where objects are semantically aligned. Examinations of learning frameworks for invariance have seldom been looked into. In this work, we review rotation invariance in terms of point cloud registration and propose an effective framework for rotation invariance learning via three sequential stages, namely rotation-invariant shape encoding, aligned feature integration, and deep feature registration. We first encode shape descriptors constructed with respect to reference frames defined over different scales, e.g., local patches and global topology, to generate rotation-invariant latent shape codes. Within the integration stage, we propose Aligned Integration Transformer to produce a discriminative feature representation by integrating point-wise self- and cross-relations established within the shape codes. Meanwhile, we adopt rigid transformations between reference frames to align the shape codes for feature consistency across different scales. Finally, the deep integrated feature is registered to both rotation-invariant shape codes to maximize feature similarities, such that rotation invariance of the integrated feature is preserved and shared semantic information is implicitly extracted from shape codes. Experimental results on 3D shape classification, part segmentation, and retrieval tasks prove the feasibility of our work. Our project page is released at: https://rotation3d.github.io/. | 翻訳日:2023-01-03 15:01:30 公開日:2022-12-31 |
# Ponder: ニューラルネットワークによるポイントクラウド事前トレーニング Ponder: Point Cloud Pre-training via Neural Rendering ( http://arxiv.org/abs/2301.00157v1 ) ライセンス: Link先を確認 | Di Huang, Sida Peng, Tong He, Xiaowei Zhou, Wanli Ouyang | (参考訳) 微分可能なニューラルレンダリングによる点雲表現の自己教師付き学習手法を提案する。
インフォメーションポイントクラウド機能はリッチなジオメトリと外観の手がかりをエンコードでき、リアルな画像をレンダリングできるという事実に動機づけられ、大量のrgb-dデータ上にレンダリングされた画像と実際の画像を比較して、考案されたポイントベースのニューラルレンダ内でポイントクラウドエンコーダを訓練する。
学習したポイントクラウドエンコーダは、3D検出やセグメンテーションといったハイレベルなタスクだけでなく、3D再構成や画像合成といった低レベルなタスクを含む、さまざまな下流タスクに簡単に統合できる。
様々な課題に対する広範囲な実験は,既存の事前学習法と比較して,アプローチが優れていることを示している。 We propose a novel approach to self-supervised learning of point cloud representations by differentiable neural rendering. Motivated by the fact that informative point cloud features should be able to encode rich geometry and appearance cues and render realistic images, we train a point-cloud encoder within a devised point-based neural renderer by comparing the rendered images with real images on massive RGB-D data. The learned point-cloud encoder can be easily integrated into various downstream tasks, including not only high-level tasks like 3D detection and segmentation, but low-level tasks like 3D reconstruction and image synthesis. Extensive experiments on various tasks demonstrate the superiority of our approach compared to existing pre-training methods. | 翻訳日:2023-01-03 15:01:07 公開日:2022-12-31 |
# 事前学習型視覚言語モデルを用いたビデオ認識のための双方向クロスモーダル知識探索 Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models ( http://arxiv.org/abs/2301.00182v1 ) ライセンス: Link先を確認 | Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang | (参考訳) 大規模画像テキストペア上で事前訓練された視覚言語モデル(VLM)は、幅広い視覚的タスクにおいて印象的な伝達性を示す。
このような強力な訓練済みVLMから知識を伝達することは、効果的なビデオ認識モデルを構築する上で有望な方向として現れつつある。
しかし、現在の探査は限られている。
私たちの意見では、事前訓練された視覚言語モデルの最大の魅力は、視覚ドメインとテキストドメインの橋渡しを構築することです。
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いたBIKEと呼ばれる新しいフレームワークを提案する。
i) 映像認識を補完する補助属性を生成するために, 映像からテキストへの知識を活用した映像属性アソシエーション機構を提案する。
また,テキスト・トゥ・ビデオの専門知識を用いて,時間的サリエンシをパラメータフリーで把握し,映像表現を向上する時間的概念スポッティング機構を提案する。
一般的なビデオデータセット(Kineetics-400 & 600, UCF-101, HMDB-51, ActivityNet)の広範な研究により,本手法は,ほとんどの認識シナリオ,例えば一般,ゼロショット,少数ショットの映像認識において最先端のパフォーマンスを達成することを示す。
我々の知る限り、我々の最良のモデルは、リリース済みのCLIP事前訓練モデルでKinetics-400に挑戦する上で、最先端の精度88.4%を達成する。 Vision-language models (VLMs) that are pre-trained on large-scale image-text pairs have demonstrated impressive transferability on a wide range of visual tasks. Transferring knowledge from such powerful pre-trained VLMs is emerging as a promising direction for building effective video recognition models. However, the current exploration is still limited. In our opinion, the greatest charm of pre-trained vision-language models is to build a bridge between visual and textual domains. In this paper, we present a novel framework called BIKE which utilizes the cross-modal bridge to explore bidirectional knowledge: i) We propose a Video Attribute Association mechanism which leverages the Video-to-Text knowledge to generate textual auxiliary attributes to complement video recognition. ii) We also present a Temporal Concept Spotting mechanism which uses the Text-to-Video expertise to capture temporal saliency in a parameter-free manner to yield enhanced video representation. The extensive studies on popular video datasets (ie, Kinetics-400 & 600, UCF-101, HMDB-51 and ActivityNet) show that our method achieves state-of-the-art performance in most recognition scenarios, eg, general, zero-shot, and few-shot video recognition. To the best of our knowledge, our best model achieves a state-of-the-art accuracy of 88.4% on challenging Kinetics-400 with the released CLIP pre-trained model. | 翻訳日:2023-01-03 15:00:53 公開日:2022-12-31 |
# 磁気システムのための遺伝的トンネル駆動エネルギー最適化器 Genetic-tunneling driven energy optimizer for magnetic system ( http://arxiv.org/abs/2301.00207v1 ) ライセンス: Link先を確認 | Qichen Xu, Zhuanglin Shen, Manuel Pereiro, Pawel Herman, Olle Eriksson and Anna Delin | (参考訳) 磁気スカイミオンのような新しいトポロジカルスピンテクスチャは、その固有の安定性の恩恵を受け、いくつかの磁気系の基底状態として機能する。
原子単層磁性物質の現在の研究では、これらの磁気パターンを探索するには合理的な初期推測が必要である。
この状況は、基底状態を特定するためのより効果的な方法を開発する必要性を浮き彫りにする。
そこで本研究では,局所エネルギー最小化手法のバックエンドとメタヒューリスティックなグローバル検索フロントエンドを組み合わせた遺伝的変異制御最適化手法を提案する。
このアルゴリズムは、極低温での磁気基底状態の探索に有効な最適化手法であり、有限温度での低エネルギー劣化状態の探索にも堅牢である。
本稿では, 密度汎関数理論からの人工的相互作用と計算的相互作用を併用した2次元単層膜の磁気基底状態の探索におけるこの手法の有効性を実証する。
また、このアルゴリズム固有の並列性は実行時間を著しく削減できる点にも注意が必要である。
提案手法は,低次元磁気システムエネルギー最適化のための有用なツールを構築した。 Novel topological spin textures, such as magnetic skyrmions, benefit from their inherent stability, acting as the ground state in several magnetic systems. In the current study of atomic monolayer magnetic materials, reasonable initial guesses are still needed to search for those magnetic patterns. This situation underlines the need to develop a more effective way to identify the ground states. To solve this problem, in this work, we propose a genetic-tunneling-driven variance-controlled optimization approach, which combines a local energy minimizer back-end and a metaheuristic global searching front-end. This algorithm is an effective optimization solution for searching for magnetic ground states at extremely low temperatures and is also robust for finding low-energy degenerated states at finite temperatures. We demonstrate here the success of this method in searching for magnetic ground states of 2D monolayer systems with both artificial and calculated interactions from density functional theory. It is also worth noting that the inherent concurrent property of this algorithm can significantly decrease the execution time. In conclusion, our proposed method builds a useful tool for low-dimensional magnetic system energy optimization. | 翻訳日:2023-01-03 14:52:20 公開日:2022-12-31 |
# Logic Mill - 知識ナビゲーションシステム Logic Mill -- A Knowledge Navigation System ( http://arxiv.org/abs/2301.00200v1 ) ライセンス: Link先を確認 | Sebastian Erhardt, Mainak Ghosh, Erik Buunk, Michael E. Rose, Dietmar Harhoff | (参考訳) logic millはスケーラブルでオープンアクセス可能なソフトウェアシステムで、1つのドメイン固有のコーパスまたはマルチドメインコーパス内で意味的に類似したドキュメントを識別する。
高度な自然言語処理(NLP)技術を用いて、文書の数値表現を生成する。
現在、これらの文書表現を生成するために、大きな事前訓練された言語モデルを活用している。
このシステムは科学出版物や特許文書に焦点を合わせ、2億以上の文書を含んでいる。
単純なアプリケーションプログラミングインターフェース(API)やWebインターフェースを通じて簡単にアクセスできます。
さらに、継続的に更新され、他のドメインからテキストコーパスに拡張できる。
我々は、このシステムは社会科学や他の分野における将来の研究応用のための汎用ツールであると考えている。 Logic Mill is a scalable and openly accessible software system that identifies semantically similar documents within either one domain-specific corpus or multi-domain corpora. It uses advanced Natural Language Processing (NLP) techniques to generate numerical representations of documents. Currently it leverages a large pre-trained language model to generate these document representations. The system focuses on scientific publications and patent documents and contains more than 200 million documents. It is easily accessible via a simple Application Programming Interface (API) or via a web interface. Moreover, it is continuously being updated and can be extended to text corpora from other domains. We see this system as a general-purpose tool for future research applications in the social sciences and other domains. | 翻訳日:2023-01-03 14:43:06 公開日:2022-12-31 |
# 一般シーブを用いた時系列非パラメトリック条件運動制限の推定 Inference on Time Series Nonparametric Conditional Moment Restrictions Using General Sieves ( http://arxiv.org/abs/2301.00092v1 ) ライセンス: Link先を確認 | Xiaohong Chen, Yuan Liao, Weichen Wang | (参考訳) 一般的な非線形シーブ学習は、高次元変数の非線形関数を様々な線形シーブ(または級数)よりも柔軟に近似できる非線形シーブの類である。
本稿では,時系列データの期待関数に基づく一般非線形シーブ準類似比(gn-qlr)に基づいて,条件モーメント制約を満たす非パラメトリック関数を基本とし,多層ニューラルネットワークを用いて学習する。
推定汎函数の漸近正規性は函数空間の未知のリース表現に依存するが、最適に重み付けられたGN-QLR統計量は予想汎函数が正則(root-$n$ estimable)かどうかに関わらず漸近的にChi-二乗分布であることを示す。
これはデータが弱い依存のベータ混合条件であるときに発生する。
本稿では,Bellman方程式を条件付きモーメント制約フレームワークに定式化することにより,強化学習におけるオフ政治評価に適用し,時系列データを用いたGN-QLR法による状態固有値関数の推論を行う。
また、非パラメトリックなインストゥルメンタル変数とクオンティルivモデルの平均部分平均と平均部分微分を主要な例として示す。
最後に、モンテカルロの研究では、手順の有限なサンプル性能を示す General nonlinear sieve learnings are classes of nonlinear sieves that can approximate nonlinear functions of high dimensional variables much more flexibly than various linear sieves (or series). This paper considers general nonlinear sieve quasi-likelihood ratio (GN-QLR) based inference on expectation functionals of time series data, where the functionals of interest are based on some nonparametric function that satisfy conditional moment restrictions and are learned using multilayer neural networks. While the asymptotic normality of the estimated functionals depends on some unknown Riesz representer of the functional space, we show that the optimally weighted GN-QLR statistic is asymptotically Chi-square distributed, regardless whether the expectation functional is regular (root-$n$ estimable) or not. This holds when the data are weakly dependent beta-mixing condition. We apply our method to the off-policy evaluation in reinforcement learning, by formulating the Bellman equation into the conditional moment restriction framework, so that we can make inference about the state-specific value functional using the proposed GN-QLR method with time series data. In addition, estimating the averaged partial means and averaged partial derivatives of nonparametric instrumental variables and quantile IV models are also presented as leading examples. Finally, a Monte Carlo study shows the finite sample performance of the procedure | 翻訳日:2023-01-03 14:35:11 公開日:2022-12-31 |
# グラフラプラシアンによる点雲における特異点探索--明示的アプローチ Exploring Singularities in point clouds with the graph Laplacian: An explicit approach ( http://arxiv.org/abs/2301.00201v1 ) ライセンス: Link先を確認 | Martin Andersson and Benny Avelin | (参考訳) 我々は、グラフラプラシアンを用いて点雲の底面多様体の幾何学を分析する理論と手法を開発した。
この理論は、基礎となる多様体の特異点近くで定義される函数に作用する場合に、グラフラプラシアンの機能形式に関する理論的保証と明示的な境界を与える。
また,理論的な保証に基づいて,これらの点雲の幾何学的性質を推定する手法を提案する。 We develop theory and methods that use the graph Laplacian to analyze the geometry of the underlying manifold of point clouds. Our theory provides theoretical guarantees and explicit bounds on the functional form of the graph Laplacian, in the case when it acts on functions defined close to singularities of the underlying manifold. We also propose methods that can be used to estimate these geometric properties of the point cloud, which are based on the theoretical guarantees. | 翻訳日:2023-01-03 14:34:46 公開日:2022-12-31 |
# 文脈帯域と最適ユニバーサル学習 Contextual Bandits and Optimistically Universal Learning ( http://arxiv.org/abs/2301.00241v1 ) ライセンス: Link先を確認 | Moise Blanchard, Steve Hanneke and Patrick Jaillet | (参考訳) 一般行動と文脈空間における文脈バンディット問題を考える。そこでは学習者の報酬は、選択した行動と観察可能な文脈に依存する。
これにより、標準的なマルチアームバンディットを、患者の記録や顧客履歴などのサイド情報が利用できるケースに一般化し、パーソナライズされた治療を可能にする。
我々は、最適ポリシーと比較して、一貫性に注目する ― 消滅する後悔 - に焦点をあて、非自由な文脈の大規模なクラスにおいて、一貫性は時変報酬機構によらず達成可能であることを示す。
正確には、我々はまず、普遍的整合性を可能にするための文脈生成過程に必要かつ十分な条件を与える。
第2に,楽観的に普遍的な学習規則と呼ばれる,達成可能なときは常に普遍的な一貫性を保証するアルゴリズムが存在することを示す。
興味深いことに、有限作用空間では、普遍学習のための学習可能なプロセスは、以前に文献で研究された教師付き学習のフルフィードバック設定と全く同じである。
言い換えれば、学習は一般化コストなしで部分的なフィードバックで行うことができる。
アルゴリズムは、一般化(構造的リスク最小化と類似)とパーソナライズ(特定のコンテキストに対するアクションの調整)の間のトレードオフのバランスをとる。
最後に,報酬に連続性が付加された場合について考察し,データ生成過程のクラスが大幅に大きくなる場合に普遍的な一貫性をもたらすことを示す。 We consider the contextual bandit problem on general action and context spaces, where the learner's rewards depend on their selected actions and an observable context. This generalizes the standard multi-armed bandit to the case where side information is available, e.g., patients' records or customers' history, which allows for personalized treatment. We focus on consistency -- vanishing regret compared to the optimal policy -- and show that for large classes of non-i.i.d. contexts, consistency can be achieved regardless of the time-invariant reward mechanism, a property known as universal consistency. Precisely, we first give necessary and sufficient conditions on the context-generating process for universal consistency to be possible. Second, we show that there always exists an algorithm that guarantees universal consistency whenever this is achievable, called an optimistically universal learning rule. Interestingly, for finite action spaces, learnable processes for universal learning are exactly the same as in the full-feedback setting of supervised learning, previously studied in the literature. In other words, learning can be performed with partial feedback without any generalization cost. The algorithms balance a trade-off between generalization (similar to structural risk minimization) and personalization (tailoring actions to specific contexts). Lastly, we consider the case of added continuity assumptions on rewards and show that these lead to universal consistency for significantly larger classes of data-generating processes. | 翻訳日:2023-01-03 14:34:37 公開日:2022-12-31 |
# マルチモーダル多次因子融合による抑うつ診断と解析 Depression Diagnosis and Analysis via Multimodal Multi-order Factor Fusion ( http://arxiv.org/abs/2301.00254v1 ) ライセンス: Link先を確認 | Chengbo Yuan, Qianhui Xu and Yong Luo | (参考訳) うつ病は世界中で主要な死因であり、うつ病の診断は非自明である。
マルチモーダル学習はうつ病の自動診断の一般的な解決策であり、既存の研究は2つの大きな欠点を負っている。
1) 異なるモダリティ間の高次相互作用は十分に活用できない。
2)モデルの解釈性は弱い。
これらの欠点を補うために,マルチモーダル多次因子融合法(MMFF)を提案する。
本手法は,共有潜在プロキシのガイドの下でモダリティ因子を抽出,組み立てることで,異なるモダリティ間の高次相互作用を効果的に活用できる。
本研究では,最近普及した2つのデータセットであるe-daic-wozとcmdcについて広範な実験を行い,既存の手法に比べて性能が大幅に向上したことを示す。
さらに,因子集合の過程を分析することで,各因子の寄与を直感的に示すことができる。
これは核融合機構を理解するのに役立ちます Depression is a leading cause of death worldwide, and the diagnosis of depression is nontrivial. Multimodal learning is a popular solution for automatic diagnosis of depression, and the existing works suffer two main drawbacks: 1) the high-order interactions between different modalities can not be well exploited; and 2) interpretability of the models are weak. To remedy these drawbacks, we propose a multimodal multi-order factor fusion (MMFF) method. Our method can well exploit the high-order interactions between different modalities by extracting and assembling modality factors under the guide of a shared latent proxy. We conduct extensive experiments on two recent and popular datasets, E-DAIC-WOZ and CMDC, and the results show that our method achieve significantly better performance compared with other existing approaches. Besides, by analyzing the process of factor assembly, our model can intuitively show the contribution of each factor. This helps us understand the fusion mechanism. | 翻訳日:2023-01-03 14:28:07 公開日:2022-12-31 |
# 近赤外分光法によるタバコ起源同定のための高木・菅野ファジィサブシステムを用いた広範学習システム Broad Learning System with Takagi-Sugeno Fuzzy Subsystem for Tobacco Origin Identification based on Near Infrared Spectroscopy ( http://arxiv.org/abs/2301.00126v1 ) ライセンス: Link先を確認 | Di Wang, Simon X. Yang | (参考訳) タバコ産業では、タバコの起源の同定が重要である。
近赤外分光法によるセンサデータのモデリングは、内部特徴の迅速検出法として人気がある。
しかし、従来のニューラルネットワークやディープネットワークモデルを用いたセンサデータ解析では、トレーニングプロセスは非常に時間がかかる。
本稿では,タバコ起源の迅速な同定のために,タカギスゲノ(ts)ファジィサブシステムを用いた新しい広義学習システムを提案する。
提案手法では,ネットワークの重み行列を非常に少ない計算量で取得し,追加ステップのトレーニングに3秒程度しかかからず,モデルのトレーニング時間が大幅に短縮された。
実験の結果,tsファジィサブシステムは近赤外データから特徴を抽出でき,認識性能を効果的に向上できることがわかった。
提案手法は,従来の分類アルゴリズム,人工ニューラルネットワーク,深部畳み込みニューラルネットワークと比較して高い予測精度 (95.59 %) を達成でき,学習時間を約128秒に抑えることができる。 Tobacco origin identification is significantly important in tobacco industry. Modeling analysis for sensor data with near infrared spectroscopy has become a popular method for rapid detection of internal features. However, for sensor data analysis using traditional artificial neural network or deep network models, the training process is extremely time-consuming. In this paper, a novel broad learning system with Takagi-Sugeno (TS) fuzzy subsystem is proposed for rapid identification of tobacco origin. Incremental learning is employed in the proposed method, which obtains the weight matrix of the network after a very small amount of computation, resulting in much shorter training time for the model, with only about 3 seconds for the extra step training. The experimental results show that the TS fuzzy subsystem can extract features from the near infrared data and effectively improve the recognition performance. The proposed method can achieve the highest prediction accuracy (95.59 %) in comparison to the traditional classification algorithms, artificial neural network, and deep convolutional neural network, and has a great advantage in the training time with only about 128 seconds. | 翻訳日:2023-01-03 14:26:31 公開日:2022-12-31 |
# 深層強化学習による産業IoTにおける精度保証協調DNN推論 Accuracy-Guaranteed Collaborative DNN Inference in Industrial IoT via Deep Reinforcement Learning ( http://arxiv.org/abs/2301.00130v1 ) ライセンス: Link先を確認 | Wen Wu, Peng Yang, Weiting Zhang, Conghao Zhou, Xuemin (Sherman) Shen | (参考訳) 産業用モノのインターネット(IoT)デバイスとエッジネットワークのコラボレーションは、低遅延と高精度を必要とする計算集約型ディープニューラルネットワーク(DNN)推論サービスをサポートするために不可欠である。
ネットワーク条件に応じて産業用IoTデバイスのサンプリングレートを動的に設定するサンプリングレート適応は、サービス遅延を最小限にする鍵となる。
本稿では,産業用IoTネットワークにおける協調型DNN推論問題について検討する。
チャネル変動とタスク到着ランダム性を捉えるため,マルコフ決定過程 (CMDP) として問題を定式化する。
特に、サンプリングレート適応、推論タスクオフロード、エッジコンピューティングリソース割り当ては、異なる推論サービスの長期精度要件を保証しつつ、平均的なサービス遅延を最小限に抑えるために共同で検討される。
難解な長期制約のため,一般強化学習(rl)アルゴリズムではcmdpを直接解くことができないため,まずlyapunov最適化手法を用いてcmdpをmdpに変換する。
次に,MDPの解法として深部RLに基づくアルゴリズムを提案する。
トレーニングプロセスの高速化のために,提案アルゴリズムに最適化サブルーチンを組み込んで,最適なエッジコンピューティングリソース割り当てを直接取得する。
提案手法は, 長期推定精度を高い確率で保持しつつ, 平均サービス遅延を著しく低減できることを示すために, 広範なシミュレーション結果が得られた。 Collaboration among industrial Internet of Things (IoT) devices and edge networks is essential to support computation-intensive deep neural network (DNN) inference services which require low delay and high accuracy. Sampling rate adaption which dynamically configures the sampling rates of industrial IoT devices according to network conditions, is the key in minimizing the service delay. In this paper, we investigate the collaborative DNN inference problem in industrial IoT networks. To capture the channel variation and task arrival randomness, we formulate the problem as a constrained Markov decision process (CMDP). Specifically, sampling rate adaption, inference task offloading and edge computing resource allocation are jointly considered to minimize the average service delay while guaranteeing the long-term accuracy requirements of different inference services. Since CMDP cannot be directly solved by general reinforcement learning (RL) algorithms due to the intractable long-term constraints, we first transform the CMDP into an MDP by leveraging the Lyapunov optimization technique. Then, a deep RL-based algorithm is proposed to solve the MDP. To expedite the training process, an optimization subroutine is embedded in the proposed algorithm to directly obtain the optimal edge computing resource allocation. Extensive simulation results are provided to demonstrate that the proposed RL-based algorithm can significantly reduce the average service delay while preserving long-term inference accuracy with a high probability. | 翻訳日:2023-01-03 14:26:13 公開日:2022-12-31 |
# 強化学習の新たな課題: セキュリティとプライバシに関する調査 New Challenges in Reinforcement Learning: A Survey of Security and Privacy ( http://arxiv.org/abs/2301.00188v1 ) ライセンス: Link先を確認 | Yunjiao Lei, Dayong Ye, Sheng Shen, Yulei Sui, Tianqing Zhu, Wanlei Zhou | (参考訳) 強化学習(RL)はAIの最も重要な分野の一つである。
動的環境における自己適応と意思決定能力のため、強化学習は医療、データ市場、自動運転、ロボット工学など、様々な分野で広く適用されてきた。
しかし、これらのアプリケーションやシステムのいくつかは、セキュリティやプライバシ攻撃に弱いことが示されており、信頼性や不安定なサービスを生み出している。
多くの研究が強化学習におけるセキュリティとプライバシの問題に焦点を当てている。
しかしながら、新興の脅威のペースに追随するための既存の問題と最先端のソリューションを体系的にレビューし比較した調査はごくわずかである。
そこで,本稿では,強化学習におけるセキュリティとプライバシに関する課題,すなわちマルコフ決定プロセス(MDP)の課題の説明と要約を行う。
本調査では,まず,この領域に関する重要な概念を紹介する。
次に,mdpプロセスの状態,行動,環境,報酬機能に関連するセキュリティ問題とプライバシ問題を取り上げる。
さらに,強化学習に関連するセキュリティとプライバシ方法論の特質を強調する。
最後に,この領域における今後の研究の方向性について論じる。 Reinforcement learning (RL) is one of the most important branches of AI. Due to its capacity for self-adaption and decision-making in dynamic environments, reinforcement learning has been widely applied in multiple areas, such as healthcare, data markets, autonomous driving, and robotics. However, some of these applications and systems have been shown to be vulnerable to security or privacy attacks, resulting in unreliable or unstable services. A large number of studies have focused on these security and privacy problems in reinforcement learning. However, few surveys have provided a systematic review and comparison of existing problems and state-of-the-art solutions to keep up with the pace of emerging threats. Accordingly, we herein present such a comprehensive review to explain and summarize the challenges associated with security and privacy in reinforcement learning from a new perspective, namely that of the Markov Decision Process (MDP). In this survey, we first introduce the key concepts related to this area. Next, we cover the security and privacy issues linked to the state, action, environment, and reward function of the MDP process, respectively. We further highlight the special characteristics of security and privacy methodologies related to reinforcement learning. Finally, we discuss the possible future research directions within this area. | 翻訳日:2023-01-03 14:25:51 公開日:2022-12-31 |
# 機械学習と画像処理を用いた毛髪・頭皮疾患検出 Hair and Scalp Disease Detection using Machine Learning and Image Processing ( http://arxiv.org/abs/2301.00122v1 ) ライセンス: Link先を確認 | Mrinmoy Roy, Anica Tasnim Protity | (参考訳) 約8000万人のアメリカ人が老化、ストレス、薬物、遺伝子組換えなどによって髪の喪失に苦しんでいる。
毛髪と頭皮関連疾患は、初めは気づかないことが多い。
時々、患者は髪の喪失と通常の髪の落下を区別できない。
専門の皮膚科医が視覚および医療検査を行う必要があるため、毛髪関連疾患の診断には時間がかかる。
そのため、全体的な診断が遅れ、病気の重症度が悪化する。
画像処理能力のため、ニューラルネットワークベースのアプリケーションは、がんや腫瘍などの致命的な病気を予測するために、様々な分野、特に医療や健康情報学で使用されている。
これらの応用は臨床医や患者を助け、初期症状に関する最初の洞察を提供する。
本研究では,毛髪喪失と頭皮関連疾患の3つの主型(脱毛症,乾尿症,卵胞炎)を予測できるディープラーニングを用いた。
しかし、この領域での限られた研究、適切なデータセットの有効性、インターネット上に散在する画像の多様性の程度が課題となった。
様々なソースから150の画像を取得し,画像の等化,拡張,データバランスをプリプロセスし,誤り率を最小化した。
処理したデータを2D畳み込みニューラルネットワーク(CNN)モデルに入力した後、総合トレーニング精度96.2%、検証精度91.1%を得た。
アロペシア,乾皮症,卵胞炎は,それぞれ0.895,0.846,1.0であった。
また,今後の研究者のために頭皮画像のデータセットを作成した。 Almost 80 million Americans suffer from hair loss due to aging, stress, medication, or genetic makeup. Hair and scalp-related diseases often go unnoticed in the beginning. Sometimes, a patient cannot differentiate between hair loss and regular hair fall. Diagnosing hair-related diseases is time-consuming as it requires professional dermatologists to perform visual and medical tests. Because of that, the overall diagnosis gets delayed, which worsens the severity of the illness. Due to the image-processing ability, neural network-based applications are used in various sectors, especially healthcare and health informatics, to predict deadly diseases like cancers and tumors. These applications assist clinicians and patients and provide an initial insight into early-stage symptoms. In this study, we used a deep learning approach that successfully predicts three main types of hair loss and scalp-related diseases: alopecia, psoriasis, and folliculitis. However, limited study in this area, unavailability of a proper dataset, and degree of variety among the images scattered over the internet made the task challenging. 150 images were obtained from various sources and then preprocessed by denoising, image equalization, enhancement, and data balancing, thereby minimizing the error rate. After feeding the processed data into the 2D convolutional neural network (CNN) model, we obtained overall training accuracy of 96.2%, with a validation accuracy of 91.1%. The precision and recall score of alopecia, psoriasis, and folliculitis are 0.895, 0.846, and 1.0, respectively. We also created a dataset of the scalp images for future prospective researchers. | 翻訳日:2023-01-03 14:18:52 公開日:2022-12-31 |
# 連続強化学習のための自己活性化型ニューラルアンサンブル Self-Activating Neural Ensembles for Continual Reinforcement Learning ( http://arxiv.org/abs/2301.00141v1 ) ライセンス: Link先を確認 | Sam Powers, Eliot Xing, Abhinav Gupta | (参考訳) エージェントが既存の知識を破滅的に忘れずに新しいスキルを継続的に習得する能力は、一般的に知的なエージェントの開発において重要である。
この問題に対処するために考案されたほとんどの方法は、明確に定義されたタスク境界に大きく依存するので、人間の監督に依存する。
我々のタスク非依存手法である自己活性化ニューラルアンサンブル(SANE)は、そのような仮定をせずに破滅的な忘れを避けるために設計されたモジュラーアーキテクチャを用いている。
各軌道の開始時に、SANEアンサンブル内のモジュールが活性化され、エージェントの次のポリシーが決定される。
トレーニング中、必要に応じて新しいモジュールが作成され、未使用のモジュールが変更されないように、アクティブなモジュールのみが更新される。
このシステムにより,新しいスキルを育成,学習しながら,古いスキルを維持し,活用することができる。
視覚的にリッチなプロセス生成環境に対する我々のアプローチを実証する。 The ability for an agent to continuously learn new skills without catastrophically forgetting existing knowledge is of critical importance for the development of generally intelligent agents. Most methods devised to address this problem depend heavily on well-defined task boundaries, and thus depend on human supervision. Our task-agnostic method, Self-Activating Neural Ensembles (SANE), uses a modular architecture designed to avoid catastrophic forgetting without making any such assumptions. At the beginning of each trajectory, a module in the SANE ensemble is activated to determine the agent's next policy. During training, new modules are created as needed and only activated modules are updated to ensure that unused modules remain unchanged. This system enables our method to retain and leverage old skills, while growing and learning new ones. We demonstrate our approach on visually rich procedurally generated environments. | 翻訳日:2023-01-03 14:08:53 公開日:2022-12-31 |
# 概念への知識表現のマッピング: 概観と新たな展望 Mapping Knowledge Representations to Concepts: A Review and New Perspectives ( http://arxiv.org/abs/2301.00189v1 ) ライセンス: Link先を確認 | Lars Holmberg, Paul Davidsson, Per Linde | (参考訳) ニューラルネットワークの成功は、画像、音声、テキストなどの現実世界の高次元データから内部知識表現を作成する能力に大きく依存している。
これらの表現を抽出し提示するためのアプローチは、ニューラルネットワークの決定を説明するために、アクティブで多面的な研究分野である。
この分野の中心的な側面についてより深く理解するために、内部表現と人間の理解可能な概念を関連付けることを目的とした研究を対象とするレビューを行った。
そこで,提案する分類法として,帰納的ノモジカルな説明を主に用い,既存の研究の展望を付加した。
この分類学と因果関係の理論は、ニューラルネットワークの説明から期待できるもの、期待できないものを理解するのに有用である。
この分析は、モデル説明可能性の目標に関するレビュー文献の曖昧さも明らかにしている。mlモデルを理解するのか、それとも、デプロイメントドメインで有効な説明なのか? The success of neural networks builds to a large extent on their ability to create internal knowledge representations from real-world high-dimensional data, such as images, sound, or text. Approaches to extract and present these representations, in order to explain the neural network's decisions, is an active and multifaceted research field. To gain a deeper understanding of a central aspect of this field, we have performed a targeted review focusing on research that aims to associate internal representations with human understandable concepts. In doing this, we added a perspective on the existing research by using primarily deductive nomological explanations as a proposed taxonomy. We find this taxonomy and theories of causality, useful for understanding what can be expected, and not expected, from neural network explanations. The analysis additionally uncovers an ambiguity in the reviewed literature related to the goal of model explainability; is it understanding the ML model or, is it actionable explanations useful in the deployment domain? | 翻訳日:2023-01-03 14:08:39 公開日:2022-12-31 |
# スマート監視システムにおける背景サブトラクションへのadnnの適用 Application Of ADNN For Background Subtraction In Smart Surveillance System ( http://arxiv.org/abs/2301.00264v1 ) ライセンス: Link先を確認 | Piyush Batra, Gagan Raj Singh, Neeraj Goyal | (参考訳) 物体の動きの識別はコンピュータビジョンの分野で最も研究されている問題の1つである。
このタスクでは、ピクセルを前景または背景として分類する。
この問題には、従来の機械学習やディープラーニングの方法がすでに数多く存在するが、それらのほとんどは、大量の根拠データの必要性と、見当たらないビデオに対するパフォーマンスの低下である。
各フレームのピクセルにラベルを付ける必要があるため、これらの技術のために大量のデータを取得することは、かなりコストがかかる。
最近、Zhaoら。
[1] は,時間画素のヒストグラムからの確率情報を活用し,有望な結果を得る,普遍的背景抽出のための種類の算術的分布ニューラルネットワーク (ADNN) の1つを提案した。
本研究では,動作検出にADNNアーキテクチャを使用し,動きのみを含む部分で映像をトリミングし,トリミングされた映像の異常検出を行うインテリジェントなビデオ監視システムを開発した。 Object movement identification is one of the most researched problems in the field of computer vision. In this task, we try to classify a pixel as foreground or background. Even though numerous traditional machine learning and deep learning methods already exist for this problem, the two major issues with most of them are the need for large amounts of ground truth data and their inferior performance on unseen videos. Since every pixel of every frame has to be labeled, acquiring large amounts of data for these techniques gets rather expensive. Recently, Zhao et al. [1] proposed one of a kind Arithmetic Distribution Neural Network (ADNN) for universal background subtraction which utilizes probability information from the histogram of temporal pixels and achieves promising results. Building onto this work, we developed an intelligent video surveillance system that uses ADNN architecture for motion detection, trims the video with parts only containing motion, and performs anomaly detection on the trimmed video. | 翻訳日:2023-01-03 13:59:59 公開日:2022-12-31 |
# コンパクトニューラルネットワークによる滑らかな数理関数 Smooth Mathematical Function from Compact Neural Networks ( http://arxiv.org/abs/2301.00181v1 ) ライセンス: Link先を確認 | I.K. Hong | (参考訳) 本稿では,ニューラルネットワーク(NN)によるスムーズな関数近似について述べる。
数学的あるいは物理的関数は回帰によってNNモデルに置き換えられる。
本研究では,数個の重みパラメータのみからなる高精度かつ高円滑な関数を生成するnnについて,回帰に関するいくつかの話題を論じた。
まず,nns内部を回帰的に再解釈し,新たな活性化関数統合型sgmoid linear unit (islu)を提案する。
次に、ニューラルネットワークの性能向上のために、画像や音などの他のデータとは異なる回帰メタデータの特別な特性について論じる。
最後に,数式関数に代わるモデルを生成する単純な階層的NNについて紹介し,NNの性能を何倍も向上させる新しいバッチ概念「メタバッチ」を紹介した。
本研究は, 活性化関数, メタバッチ法, 数値データの特徴, メタパラメータを用いたメタ拡張, コンパクト多層パーセプトロン(MLP)を生成するNNの構造について検討する。 This is paper for the smooth function approximation by neural networks (NN). Mathematical or physical functions can be replaced by NN models through regression. In this study, we get NNs that generate highly accurate and highly smooth function, which only comprised of a few weight parameters, through discussing a few topics about regression. First, we reinterpret inside of NNs for regression; consequently, we propose a new activation function--integrated sigmoid linear unit (ISLU). Then special charateristics of metadata for regression, which is different from other data like image or sound, is discussed for improving the performance of neural networks. Finally, the one of a simple hierarchical NN that generate models substituting mathematical function is presented, and the new batch concept ``meta-batch" which improves the performance of NN several times more is introduced. The new activation function, meta-batch method, features of numerical data, meta-augmentation with metaparameters, and a structure of NN generating a compact multi-layer perceptron(MLP) are essential in this study. | 翻訳日:2023-01-03 13:50:37 公開日:2022-12-31 |
# Computational Charisma - Brick Blueprintによるカオス人工知能構築のためのれんが Computational Charisma -- A Brick by Brick Blueprint for Building Charismatic Artificial Intelligence ( http://arxiv.org/abs/2301.00142v1 ) ライセンス: Link先を確認 | Bj\"orn W. Schuller, Shahin Amiriparian, Anton Batliner, Alexander Gebhard, Maurice Gerzcuk, Vincent Karas, Alexander Kathan, Lennart Seizer, Johanna L\"ochner | (参考訳) カリスマは他者を惹きつけ、潜在的に影響を与える能力とみなされている。
明らかに、人工知能(AI)の観点からは、そのようなスキルを提供することにかなりの関心がある。
他にも、カリスマの獲得、人対人間の会話の仲介、大きな社会データにおけるカリスマ的な個人識別など、人間のカリスマの計算的な測定のために多くのユースケースが開かれている。
様々な次元のカリスマを基礎とするモデルがいくつか存在し、カリスマが他の人を助けられるなら与えられるという考え方に従うことが多い。
例えば、科学研究や力(助け)における影響力(助け)と親和性(助け)、存在、温かさ(助け)が一般的な概念である。
ヒューマノイドロボットや仮想エージェントのこれらの次元の高レベルなモデリングは実現可能と思われる。
さらに、Affective ComputingやSocial Signal Processingといった関連分野の最近の進歩により、自動測定も実現可能になった。
ここでは、カリスマ的なように見えるが、他人のカリスマを解析できる機械を構築するための青写真を示す。
この目的のために、まず、カリスマと行動的手がかりの異なるモデルを含む心理学的視点を提供する。
そして、人間とコンピュータの会話に不可欠な模範的モダリティとして、話し言葉の会話カリスマに切り替える。
計算的視点は、AIによるカリスマ行動の認識と生成を扱う。
これには、フィールドでの演奏状況の概要と前述の青写真が含まれる。
次に、倫理的側面に切り換える前に、計算カリスマスキルの模範的なユースケースを名付け、カリスマ対応AI構築の概観と展望をまとめる。 Charisma is considered as one's ability to attract and potentially also influence others. Clearly, there can be considerable interest from an artificial intelligence's (AI) perspective to provide it with such skill. Beyond, a plethora of use cases opens up for computational measurement of human charisma, such as for tutoring humans in the acquisition of charisma, mediating human-to-human conversation, or identifying charismatic individuals in big social data. A number of models exist that base charisma on various dimensions, often following the idea that charisma is given if someone could and would help others. Examples include influence (could help) and affability (would help) in scientific studies or power (could help), presence, and warmth (both would help) as a popular concept. Modelling high levels in these dimensions for humanoid robots or virtual agents, seems accomplishable. Beyond, also automatic measurement appears quite feasible with the recent advances in the related fields of Affective Computing and Social Signal Processing. Here, we, thereforem present a blueprint for building machines that can appear charismatic, but also analyse the charisma of others. To this end, we first provide the psychological perspective including different models of charisma and behavioural cues of it. We then switch to conversational charisma in spoken language as an exemplary modality that is essential for human-human and human-computer conversations. The computational perspective then deals with the recognition and generation of charismatic behaviour by AI. This includes an overview of the state of play in the field and the aforementioned blueprint. We then name exemplary use cases of computational charismatic skills before switching to ethical aspects and concluding this overview and perspective on building charisma-enabled AI. | 翻訳日:2023-01-03 13:50:18 公開日:2022-12-31 |
# インコンテキスト学習に関する調査 A Survey for In-context Learning ( http://arxiv.org/abs/2301.00234v1 ) ライセンス: Link先を確認 | Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Zhiyong Wu, Baobao Chang, Xu Sun, Jingjing Xu, Lei Li and Zhifang Sui | (参考訳) 大規模言語モデル(LLM)の能力の増大に伴い、インコンテキスト学習(ICL)は自然言語処理(NLP)の新しいパラダイムとなり、LLMはいくつかのトレーニング例で拡張されたコンテキストに基づいてのみ予測を行う。
LLMの能力を評価・外挿するためにICLを探索する新たなトレンドとなった。
本稿では,ICLにおける進歩,課題,今後の課題を調査,要約することを目的とする。
まず, iclの形式的定義と関連する研究との関係を明らかにする。
そこで我々は,ICLの高度技術であるトレーニング戦略,促進戦略などを組織し,議論する。
最後に,ICLの課題について述べるとともに,今後の研究の方向性を示す。
今後の作業において、iclがどのように機能するかを明らかにし、iclを改善するための、さらなる研究を奨励できることを願っています。 With the increasing ability of large language models (LLMs), in-context learning (ICL) has become a new paradigm for natural language processing (NLP), where LLMs make predictions only based on contexts augmented with a few training examples. It has been a new trend exploring ICL to evaluate and extrapolate the ability of LLMs. In this paper, we aim to survey and summarize the progress, challenges, and future work in ICL. We first present a formal definition of ICL and clarify its correlation to related studies. Then, we organize and discuss advanced techniques of ICL, including training strategies, prompting strategies, and so on. Finally, we present the challenges of ICL and provide potential directions for further research. We hope our work can encourage more research on uncovering how ICL works and improving ICL in future work. | 翻訳日:2023-01-03 13:49:33 公開日:2022-12-31 |
# Retrievalによる再考: 忠実な大言語モデル推論 Rethinking with Retrieval: Faithful Large Language Model Inference ( http://arxiv.org/abs/2301.00303v1 ) ライセンス: Link先を確認 | Hangfeng He, Hongming Zhang, Dan Roth | (参考訳) 様々な自然言語処理(NLP)タスクにおける大きな言語モデル(LLM)の成功にもかかわらず、これらのモデルに格納された知識は必然的に不完全、時代遅れ、あるいは不正確である。
これにより、llmを支援するために外部知識を利用する必要がある。
残念ながら、現在の外部知識を取り入れるための方法は、しばしば追加の訓練や微調整を必要とする。
この問題に対処するために,連鎖思考(cot)プロンプトから得られた分解された推論ステップに基づいて,関連する外部知識を検索する検索法(rr)を提案する。
この軽量なアプローチでは、追加のトレーニングや微調整は必要とせず、LLMの入力長に制限されない。
GPT-3を用いた広汎な実験により,3つの複雑な推論課題(常識推論,時間推論,表計算推論)においてRRの有効性を評価する。
以上の結果から,RRによりより忠実な説明が得られ,LLMの性能が向上することが示唆された。 Despite the success of large language models (LLMs) in various natural language processing (NLP) tasks, the stored knowledge in these models may inevitably be incomplete, out-of-date, or incorrect. This motivates the need to utilize external knowledge to assist LLMs. Unfortunately, current methods for incorporating external knowledge often require additional training or fine-tuning, which can be costly and may not be feasible for LLMs. To address this issue, we propose a novel post-processing approach, rethinking with retrieval (RR), which retrieves relevant external knowledge based on the decomposed reasoning steps obtained from the chain-of-thought (CoT) prompting. This lightweight approach does not require additional training or fine-tuning and is not limited by the input length of LLMs. We evaluate the effectiveness of RR through extensive experiments with GPT-3 on three complex reasoning tasks: commonsense reasoning, temporal reasoning, and tabular reasoning. Our results show that RR can produce more faithful explanations and improve the performance of LLMs. | 翻訳日:2023-01-03 13:49:19 公開日:2022-12-31 |
# Peak Ground Truthへのアプローチ Approaching Peak Ground Truth ( http://arxiv.org/abs/2301.00243v1 ) ライセンス: Link先を確認 | Florian Kofler, Johannes Wahle, Ivan Ezhov, Sophia Wagner, Rami Al-Maskari, Emilia Gryska, Mihail Todorov, Christina Bukas, Felix Meissen, Tingying Peng, Ali Ert\"urk, Daniel Rueckert, Rolf Heckemann, Jan Kirschke, Claus Zimmer, Benedikt Wiestler, Bjoern Menze, Marie Piraud | (参考訳) 機械学習モデルは通常、参照アノテーションとの類似性を計算することによって評価され、類似性を最大化することで訓練される。
特にバイオメディカルドメインでは、アノテーションは主観的であり、低信頼度と低信頼度に悩まされる。
アノテーションは、アノテーションエンティティの現実世界の解釈のみを反映しているため、モデルが高い類似度スコアを達成しても、最適でない予測につながる可能性がある。
ここでは、Peak Ground Truth(PGT)の理論概念を紹介する。
PGTは、参照アノテーションとの類似性の増加が、より良いリアル・ワールド・モデル・パフォーマンス(RWMP)への変換を停止する点を示す。
さらに,レータ間信頼性の計算によりPGTを近似する定量的手法を提案する。
最後に、モデル性能の評価と改善のためのPGT対応戦略の3つのカテゴリについて概説する。 Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the bio-medical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect the annotation entity's interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of Peak Ground Truth (PGT) is introduced. PGT marks the point beyond which an increase in similarity with the reference annotation stops translating to better Real World Model Performance (RWMP). Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, three categories of PGT-aware strategies to evaluate and improve model performance are reviewed. | 翻訳日:2023-01-03 13:42:16 公開日:2022-12-31 |
# ソースフリー非教師なしドメイン適応:調査 Source-Free Unsupervised Domain Adaptation: A Survey ( http://arxiv.org/abs/2301.00265v1 ) ライセンス: Link先を確認 | Yuqi Fang, Pew-Thian Yap, Weili Lin, Hongtu Zhu, and Mingxia Liu | (参考訳) 深層学習による教師なしドメイン適応(UDA)は、異なるドメイン間の分散不一致に起因するドメインシフト問題に対処する上で、魅力的な注目を集めている。
既存のUDAアプローチは、プライバシ保護、データストレージと送信コスト、計算負荷などにより、現実的なシナリオで制限されるソースドメインデータのアクセシビリティに大きく依存する。
この問題に対処するために、ソースデータにアクセスできないラベルなしのターゲットドメインへの知識転送を行う、ソースフリーな非教師なしドメイン適応(sfuda)手法が最近提案されている。
SFUDAに関するこれらの研究の包括的なレビューは、非常に重要である。
本稿では,既存のSFUDAアプローチについて,技術的観点からタイムリーかつ体系的な文献レビューを行う。
具体的には、現在のSFUDA研究を、ホワイトボックスのSFUDAとブラックボックスのSFUDAの2つのグループに分類し、使用する学習戦略に基づいて、それらをより細かなサブカテゴリに分類する。
また,各サブカテゴリにおける手法の課題について検討し,ホワイトボックスとブラックボックスのSFUDA手法の利点と欠点について考察し,一般的なベンチマークデータセットを結論付け,ソースデータを用いずに学習したモデルの一般化性を向上させるための一般的な手法を要約する。
この分野でのいくつかの将来的な方向性について論じる。 Unsupervised domain adaptation (UDA) via deep learning has attracted appealing attention for tackling domain-shift problems caused by distribution discrepancy across different domains. Existing UDA approaches highly depend on the accessibility of source domain data, which is usually limited in practical scenarios due to privacy protection, data storage and transmission cost, and computation burden. To tackle this issue, many source-free unsupervised domain adaptation (SFUDA) methods have been proposed recently, which perform knowledge transfer from a pre-trained source model to unlabeled target domain with source data inaccessible. A comprehensive review of these works on SFUDA is of great significance. In this paper, we provide a timely and systematic literature review of existing SFUDA approaches from a technical perspective. Specifically, we categorize current SFUDA studies into two groups, i.e., white-box SFUDA and black-box SFUDA, and further divide them into finer subcategories based on different learning strategies they use. We also investigate the challenges of methods in each subcategory, discuss the advantages/disadvantages of white-box and black-box SFUDA methods, conclude the commonly used benchmark datasets, and summarize the popular techniques for improved generalizability of models learned without using source data. We finally discuss several promising future directions in this field. | 翻訳日:2023-01-03 13:42:02 公開日:2022-12-31 |
# オンラインニュース文書における文特化情報普及の予測に向けて Towards Proactively Forecasting Sentence-Specific Information Popularity within Online News Documents ( http://arxiv.org/abs/2301.00152v1 ) ライセンス: Link先を確認 | Sayar Ghosh Roy, Anshul Padhi, Risubh Jain, Manish Gupta, Vasudeva Varma | (参考訳) 複数の研究は、個々の部分の貢献に注意を払わずに、オンライン文書全体の将来的な人気を予測することに重点を置いている。
本稿では,その自然言語コンテンツのみを利用したオンラインニュース文書中の文の人気を積極的に予測するタスクを紹介する。
文固有の人気予測を逐次回帰タスクとしてモデル化する。
モデルのトレーニングのために、我々は5万以上のオンラインニュース文書から170万文以上の人気ラベルを含む最初のデータセットであるinfopopをキュレートします。
私たちの知る限りでは、これは、入力する検索エンジンクエリのストリームを使って自動的に作成され、文レベルの人気アノテーションを生成する最初のデータセットです。
本稿では,文のサリエンス予測を補助課題とする転帰学習手法を提案する。
提案手法は,BERTに基づくニューラルモデルと組み合わさって,前向きな文固有人気予測のnDCG値0.8を超えた。
特に,本研究では,人気とサリエンスは異なる概念であるが,サリエンス予測からの移行学習は人気予測を促進する。
私たちはInfoPopをリリースし、コードを公開します。 Multiple studies have focused on predicting the prospective popularity of an online document as a whole, without paying attention to the contributions of its individual parts. We introduce the task of proactively forecasting popularities of sentences within online news documents solely utilizing their natural language content. We model sentence-specific popularity forecasting as a sequence regression task. For training our models, we curate InfoPop, the first dataset containing popularity labels for over 1.7 million sentences from over 50,000 online news documents. To the best of our knowledge, this is the first dataset automatically created using streams of incoming search engine queries to generate sentence-level popularity annotations. We propose a novel transfer learning approach involving sentence salience prediction as an auxiliary task. Our proposed technique coupled with a BERT-based neural model exceeds nDCG values of 0.8 for proactive sentence-specific popularity forecasting. Notably, our study presents a non-trivial takeaway: though popularity and salience are different concepts, transfer learning from salience prediction enhances popularity forecasting. We release InfoPop and make our code publicly available: https://github.com/sayarghoshroy/InfoPopularity | 翻訳日:2023-01-03 13:31:45 公開日:2022-12-31 |